王路路,艾山·吾買(mǎi)爾,買(mǎi)合木提·買(mǎi)買(mǎi)提,卡哈爾江·阿比的熱西提,吐?tīng)柛ひ啦祭?/p>
(1. 新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046;2. 新疆大學(xué) 新疆多語(yǔ)種信息技術(shù)實(shí)驗(yàn)室,新疆 烏魯木齊 830046)
隨著絲綢之路經(jīng)濟(jì)帶核心區(qū)建設(shè)的推進(jìn),多語(yǔ)言信息處理是實(shí)現(xiàn)國(guó)際之間綠色健康通信的重要保障。維吾爾語(yǔ)作為我國(guó)的“一帶一路”重大倡議中涉及的重要語(yǔ)言之一,對(duì)其進(jìn)行信息抽取對(duì)多語(yǔ)言信息處理研究工作具有重要意義。維吾爾文命名實(shí)體識(shí)別(Named Entity Recognition, NER) 是信息抽取中的一個(gè)重要研究?jī)?nèi)容,其任務(wù)是針對(duì)文本中的基本單位(如人名、地名、組織機(jī)構(gòu)名等)進(jìn)行類別標(biāo)注。
現(xiàn)階段部分學(xué)者在維吾爾文的命名實(shí)體研究上已取得初步研究成果,主要集中在對(duì)命名實(shí)體中的某一個(gè)類別,即人名[1-3]、地名[4-5]或機(jī)構(gòu)名[6]等單一類別的識(shí)別,對(duì)人名、地名、機(jī)構(gòu)名同時(shí)進(jìn)行識(shí)別的方法還未見(jiàn)研究。且現(xiàn)有研究方法較為傳統(tǒng),主要采用基于規(guī)則[4,6]或基于統(tǒng)計(jì)[1-4]的有監(jiān)督方法?;谝?guī)則的方法依賴于人工編寫(xiě)的規(guī)則,可移植性差,應(yīng)用范圍受到限制,且隨著規(guī)則增多,規(guī)則之間可能會(huì)出現(xiàn)沖突;基于統(tǒng)計(jì)的有監(jiān)督方法依賴于標(biāo)注語(yǔ)料庫(kù)中的有監(jiān)督特征,無(wú)法利用未標(biāo)注語(yǔ)料庫(kù)中的無(wú)監(jiān)督語(yǔ)義和結(jié)構(gòu)特征。維吾爾語(yǔ)屬于資源匱乏語(yǔ)言,擴(kuò)大標(biāo)注語(yǔ)料庫(kù)是有效提高命名實(shí)體識(shí)別性能的方法之一,但語(yǔ)料庫(kù)標(biāo)注成本較大。由于維吾爾語(yǔ)是黏著性語(yǔ)言,其豐富復(fù)雜的形態(tài)易造成嚴(yán)重的數(shù)據(jù)稀疏性,使得語(yǔ)義或結(jié)構(gòu)特征無(wú)法用無(wú)監(jiān)督學(xué)習(xí)特征來(lái)表示。例如,“Xinjangdiki(在新疆的)”的出現(xiàn)將會(huì)降低“Xinjang (新疆)”的重復(fù)率,從而導(dǎo)致未登錄詞增多。現(xiàn)有的維吾爾文命名實(shí)體識(shí)別研究通常是通過(guò)分析語(yǔ)言特有的特征以及形態(tài)結(jié)構(gòu)在某種程度上緩解數(shù)據(jù)稀疏問(wèn)題[1,5]。往往因依賴于標(biāo)注語(yǔ)料庫(kù),而無(wú)法有效利用未標(biāo)注語(yǔ)料庫(kù)獲取語(yǔ)義和結(jié)構(gòu)表示信息。
基于以上問(wèn)題,本文借鑒Guo 等[7]的工作。首先,利用大規(guī)模的未標(biāo)記語(yǔ)料訓(xùn)練詞向量;其次,將通過(guò)詞向量獲取的無(wú)監(jiān)督語(yǔ)義和結(jié)構(gòu)特征、詞法特征、詞典特征進(jìn)行有效的結(jié)合,并以條件隨機(jī)場(chǎng)為基本框架,提出一種基于半監(jiān)督學(xué)習(xí)的維吾爾文命名實(shí)體識(shí)別方法。為了驗(yàn)證方法的有效性,本文從尋找每類特征的最佳特征組合出發(fā),分別在三類中選取不同特征組合進(jìn)行實(shí)驗(yàn)對(duì)比。其中詞法特征組合對(duì)比實(shí)驗(yàn)體現(xiàn)了音節(jié)特征和一級(jí)詞性的有效性;詞典特征組合對(duì)比實(shí)驗(yàn)說(shuō)明了同時(shí)引入四類詞典特征能夠提高命名實(shí)體整體上的效果;無(wú)監(jiān)督學(xué)習(xí)特征組合實(shí)驗(yàn)突出了引入K-means聚類特征的優(yōu)勢(shì)。在此基礎(chǔ)上,本文將無(wú)監(jiān)督學(xué)習(xí)特征、詞法特征、詞典特征進(jìn)行不同的特征組合進(jìn)行對(duì)比,得出CRF融合詞法特征比詞典特征、無(wú)監(jiān)督學(xué)習(xí)特征識(shí)別效果更佳;無(wú)監(jiān)督學(xué)習(xí)特征能夠從大規(guī)模的未標(biāo)注數(shù)據(jù)集中獲取詞的語(yǔ)義信息,其F值與詞法特征相當(dāng),并且與分析語(yǔ)言特有特征和形態(tài)結(jié)構(gòu)相比,無(wú)監(jiān)督學(xué)習(xí)可以大大減少工作量;最終,實(shí)驗(yàn)進(jìn)一步表明了將詞法特征和無(wú)監(jiān)督學(xué)習(xí)特征有機(jī)結(jié)合,可以在大大降低人工選取特征的代價(jià)的同時(shí)提高維吾爾文的命名實(shí)體識(shí)別性能;此外,相比于神經(jīng)網(wǎng)絡(luò)模型,本文模型更適合于實(shí)際應(yīng)用。
對(duì)于NER而言,常用的方法主要是基于規(guī)則方法和基于機(jī)器學(xué)習(xí)方法等?;谝?guī)則的方法通常依賴于由領(lǐng)域語(yǔ)言專家編制的規(guī)則。如閆丹輝等[8]分析了越南語(yǔ)三類命名實(shí)體的構(gòu)成規(guī)律,制定了152條規(guī)則。雖識(shí)別的準(zhǔn)確率較高,但由于對(duì)規(guī)則庫(kù)的依賴,應(yīng)用范圍受到限制,且大量規(guī)則編寫(xiě)之后,規(guī)則之間可能出現(xiàn)沖突?;跈C(jī)器學(xué)習(xí)的方法是指通過(guò)已知模型用對(duì)人工標(biāo)注的語(yǔ)料或者生語(yǔ)料進(jìn)行訓(xùn)練和學(xué)習(xí)后對(duì)命名實(shí)體進(jìn)行識(shí)別,實(shí)驗(yàn)結(jié)果大部分由機(jī)器完成,具有較強(qiáng)客觀性以及移植性。其中,基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法主要包括隱馬爾可夫模型(Hidden Markov Model,HMM)[9-10]、最大熵模型(Maximum Entropy, ME)[11]、支持向量機(jī)模型(Su-pport Vector Method, SVM)[12-13]、條件隨機(jī)場(chǎng)模型(Conditional Random Field, CRF)[14-15]等;近年來(lái),隨著自然語(yǔ)言處理各項(xiàng)任務(wù)的深入研究,深度學(xué)習(xí)方法得到廣泛應(yīng)用,并成功應(yīng)用在命名實(shí)體識(shí)別任務(wù)中。例如,Guo 等[7]利用未標(biāo)注語(yǔ)料訓(xùn)練詞向量實(shí)現(xiàn)了基于半監(jiān)督學(xué)習(xí)的命名實(shí)體識(shí)別,并且取得了較好的識(shí)別性能;Huang等[16]提出了一種基于Bi-LSTM-CRF的序列標(biāo)注模型,應(yīng)用在多NLP任務(wù)上已實(shí)現(xiàn)精確的標(biāo)注精度;Lample等[17]提出了一種基于以字符向量和詞向量作為輸入特征的Bi-LSTM-CRF的序列標(biāo)注模型;Ma等[18]提出了一種基于Bi-LSTM、CNN、CRF相結(jié)合的端到端的序列標(biāo)注模型,并消除了復(fù)雜的特征工程;Rei等[19]提出一種基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)字符級(jí)信息;Dong等[20]提出了一種基于以字符向量以及偏旁特征向量作為輸入特征的BiLSTM-CRF模型以實(shí)現(xiàn)中文命名實(shí)體識(shí)別;魯亞楠等[21]學(xué)習(xí)詞向量時(shí)引入位置信息,有效改善了位置信息導(dǎo)致的語(yǔ)義表示偏差;張海楠等[22]利用字詞聯(lián)合的DNN結(jié)構(gòu)并引入詞性特征使中文命名實(shí)體識(shí)別性能較大的提升。
從以上國(guó)內(nèi)外研究現(xiàn)狀看出,國(guó)內(nèi)對(duì)中文命名實(shí)體識(shí)別的相關(guān)研究已取得了一定的成果,但是維吾爾文的命名實(shí)體識(shí)別研究還處于起步階段[23],現(xiàn)階段的研究主要集中在單類實(shí)體并且研究方法較為傳統(tǒng)。例如,麥合甫熱提等[6]提出了基于語(yǔ)法語(yǔ)義知識(shí)的方法對(duì)維吾爾文機(jī)構(gòu)名進(jìn)行識(shí)別的策略;塔什甫拉提等[3]從不同角度獲取維吾爾語(yǔ)單詞單元并結(jié)合CRF模型實(shí)現(xiàn)了維吾爾語(yǔ)人名識(shí)別方法,同時(shí)采用基于規(guī)則的方法識(shí)別漢族人名;買(mǎi)合木提等[5]在維吾爾文地名識(shí)別中引入不同特征的CRF與規(guī)則后處理的方法,F(xiàn)值達(dá)到了92.03%。
本文利用新疆多語(yǔ)種信息技術(shù)實(shí)驗(yàn)室的未標(biāo)注語(yǔ)料進(jìn)行詞向量訓(xùn)練,首先通過(guò)二值化[7]、K-mean聚類和余弦相似度等方法,根據(jù)不同詞向量訓(xùn)練模型,獲取每個(gè)詞的二值化向量、聚類、相似詞等無(wú)監(jiān)督學(xué)習(xí)特征;然后引入詞法特征、詞典特征以及無(wú)監(jiān)督學(xué)習(xí)過(guò)程獲取的特征,通過(guò)對(duì)不同特征的組合進(jìn)行實(shí)驗(yàn),最終確定最佳識(shí)別效果的CRF模型。整體流程如圖1所示。

圖1 維吾爾文命名實(shí)體識(shí)別流程圖
條件隨機(jī)場(chǎng)最早由Lafferty等[24]提出,其集合了最大熵模型和隱馬爾科夫模型的特點(diǎn),也稱為馬爾科夫隨機(jī)場(chǎng)。它是一種以給定輸入序列為條件預(yù)測(cè)輸出序列的概率的無(wú)向圖模型,當(dāng)給定一組需要標(biāo)記的觀察序列的條件時(shí),可以使用CRF模型預(yù)測(cè)一個(gè)待標(biāo)記序列的聯(lián)合概率分布。
命名實(shí)體識(shí)別可以定義為序列標(biāo)注問(wèn)題,即判斷觀察詞是否在預(yù)先定義的標(biāo)記序列內(nèi)。條件隨機(jī)場(chǎng)是常被用于自然語(yǔ)言處理領(lǐng)域進(jìn)行序列標(biāo)注識(shí)別和分割數(shù)據(jù)的條件概率模型。它使用全局狀態(tài)的指數(shù)模型不僅實(shí)現(xiàn)了對(duì)所有特征進(jìn)行歸一化,還解決了標(biāo)記偏值問(wèn)題,所以CRF對(duì)命名實(shí)體識(shí)別研究很適用。
對(duì)于維吾爾文命名實(shí)體識(shí)別,給定觀察序列x={x1,x2,…,xt}和標(biāo)注序列y={y1,y2,…,yt},其中t表示給定觀察序列的長(zhǎng)度,則定義一個(gè)線性條件隨機(jī)場(chǎng)模型,如式(1)所示。
(1)
式(1)中,fj(yi-1,yi,x,i)是一個(gè)特征函數(shù),通常情況下它是二值的。其中將句子x,當(dāng)前狀態(tài)的位置i和標(biāo)記yi,以及前一個(gè)狀態(tài)的yi-1作為輸入;λj是通過(guò)模型學(xué)習(xí)訓(xùn)練獲得的參數(shù),即相應(yīng)特征函數(shù)的權(quán)重;z(x)是歸一化函數(shù),使所有可能標(biāo)注序列的條件概率之和為1,如式(2)所示。
(2)
文獻(xiàn)[25]驗(yàn)證了上下文窗口大小對(duì)命名實(shí)體識(shí)別具有一定的影響,所以本文也采用上下文特征提高實(shí)體識(shí)別能力,其中上下文特征是指以當(dāng)前詞為中心的前n個(gè)詞和后n個(gè)詞的信息。例如,窗口大小是5,表示考慮當(dāng)前詞的前兩個(gè)詞和后兩個(gè)詞,即wi-2,wi-1,wt,wi+1,wi+2。本文通過(guò)對(duì)語(yǔ)料中的實(shí)體進(jìn)行分析,可以從以下三個(gè)方面選取特征。
2.2.1 詞法特征
a. 詞性特征(POS)
詞性特征通常作為語(yǔ)言獨(dú)立特征,對(duì)維吾爾文命名實(shí)體識(shí)別可能有重要作用。新疆多語(yǔ)種信息技術(shù)實(shí)驗(yàn)室自然語(yǔ)言處理組制定標(biāo)注集包含一級(jí)詞性(15個(gè))和二級(jí)詞性(64個(gè))。因此,本文將兩級(jí)詞性都考慮在內(nèi)。其中,該組提供的維吾爾語(yǔ)自然語(yǔ)言處理工具包(網(wǎng)絡(luò)服務(wù)[注]http: //202.201.255.248: 8088/xjuapi/uyghurtext/)中一級(jí)詞性的準(zhǔn)確率是98.20%、二級(jí)詞性的準(zhǔn)確率為95.55%[26]。
b. 音節(jié)(prefix _sylable)
維吾爾語(yǔ)的音節(jié)是由一個(gè)元音字母與一個(gè)輔音字母或者一個(gè)以上的輔音組成。在文獻(xiàn)[26]驗(yàn)證了維吾爾語(yǔ)的不同音節(jié)對(duì)詞性標(biāo)注的貢獻(xiàn),且文獻(xiàn)[5]在地名識(shí)別時(shí)驗(yàn)證了后音節(jié)對(duì)地名識(shí)別的影響。因此,本文針對(duì)每個(gè)單詞選用前兩個(gè)音節(jié)的和后兩個(gè)音節(jié)作為此單詞的音節(jié)特征;對(duì)于音節(jié)長(zhǎng)度小于2的單詞,取單詞本身作為特征。其中,音節(jié)切分利用上述的維吾爾語(yǔ)自然語(yǔ)言處理工具包(網(wǎng)絡(luò)服務(wù))進(jìn)行。
c. 詞長(zhǎng)度(len_word)
據(jù)統(tǒng)計(jì),標(biāo)注語(yǔ)料中的命名實(shí)體中單詞長(zhǎng)度大于3的數(shù)量占93.42%,所以在詞形上,本文將詞長(zhǎng)度考慮在內(nèi)作為命名實(shí)體識(shí)別的特征。
d. 單詞音節(jié)個(gè)數(shù)(num_syl)
對(duì)標(biāo)注語(yǔ)料統(tǒng)計(jì)發(fā)現(xiàn)命名實(shí)體中每個(gè)單詞音節(jié)個(gè)數(shù)大于3的占55.04%,而非命名實(shí)體的單詞音節(jié)個(gè)數(shù)大于3僅占42.85%。因此,本文將音節(jié)長(zhǎng)度作為影響命名實(shí)體識(shí)別的實(shí)驗(yàn)指標(biāo)。
2.2.2 詞典特征
1) 共有詞典(MD)
a. 名詞詞綴詞典
命名實(shí)體本質(zhì)上是名詞,但在維吾爾語(yǔ)中名詞常常伴隨著名詞詞綴出現(xiàn),故本文將維吾爾語(yǔ)51個(gè)名詞詞綴構(gòu)建成詞典,用于判斷當(dāng)前詞是否是命名實(shí)體的尾詞。如果當(dāng)前詞以詞典中任何一個(gè)詞綴結(jié)尾,則表示Y-NS。否則,表示N-NS。
b. 縮寫(xiě)詞詞典
維吾爾語(yǔ)人名、地名、機(jī)構(gòu)名等經(jīng)常會(huì)出現(xiàn)縮寫(xiě)詞,如麻赫穆德·喀什噶里(M·Qeshqiri)、新疆維吾爾自治區(qū)(ShUAR)、中國(guó)共產(chǎn)黨(JKP)等;此外,國(guó)際通用的縮寫(xiě)詞依然按照拉丁文的書(shū)寫(xiě)方式。比如,WTO、BBC、OPEC。為了驗(yàn)證縮寫(xiě)詞對(duì)命名實(shí)體的影響,建立了含有15個(gè)縮寫(xiě)詞的詞典。判斷當(dāng)前詞是否在縮寫(xiě)詞詞表內(nèi),若在,則表示為Y-ABB。若不在,則表示為N-ABB。
2) 人名詞典(PD)
a. 漢族人名姓氏詞典
漢族人名以“姓氏”+“名字”命名,而其中的姓氏幾乎都屬于百家姓(共計(jì)504個(gè))。維吾爾語(yǔ)中漢族人名是通過(guò)音譯的,并且姓氏是單獨(dú)一個(gè)詞。本文通過(guò)建立漢族人名姓氏的維吾爾文詞典提高漢族人名的識(shí)別率,該詞典中共有301個(gè)。判斷當(dāng)前詞是否在漢語(yǔ)人名姓氏詞典中。若在,則表示為該類特征為Y-PLN。若不在,則表示為N-PLN。
b. 維吾爾人名特征詞綴詞典
維吾爾人名大多數(shù)由兩個(gè)單詞組成。第一個(gè)詞表示名字,第二個(gè)詞表示姓氏。而名字和姓氏本質(zhì)上都屬于名字,這些名字中經(jīng)常出現(xiàn)“古麗(gül)”、“江(jan)”等詞綴。本文收集該類維吾爾人名特征詞綴共27個(gè),建立相應(yīng)的詞典,以作為命名實(shí)體識(shí)別一個(gè)特征。如果當(dāng)前詞中包含維吾爾人名特征詞綴,則表示該特征為Y-PS,否則為N-PS。
c. 人名指界詞詞典
在人名后經(jīng)常出現(xiàn)“先生(ependi)”、“女士(xanim)”、“書(shū)記(shuji)”、“主任(mudir)”等。本文收集了99個(gè)稱呼詞或者職稱詞,為驗(yàn)證該特征是否對(duì)命名實(shí)體識(shí)別有影響,本文依據(jù)此類詞構(gòu)建了人名指界詞詞典。如果當(dāng)前詞是該詞典中任何一個(gè),則表示當(dāng)前詞的人名指界詞特征為Y-PF。否則,為N-PF。
3) 地名詞典(LD)
a. 常用地名詞典
基于各級(jí)城市名構(gòu)建了規(guī)模大小為3 013的常用地名詞典,用于識(shí)別在命名實(shí)體中常出現(xiàn)的地名。例如,機(jī)構(gòu)名“北京市國(guó)家稅務(wù)局(B?yjing sheherlik d?letlik baj idarisi)”、地名“北京海淀區(qū)海淀街道(B?yjing xeydiyen rayoni xeydiyen kochisi)”中的“北京(B?yjing)”。如果當(dāng)前詞是常用地名,則表示為Y-LN。否則,用N-LN表示。
b. 地名特征詞詞典
本文依據(jù)地名中出現(xiàn)的“省(?lke)”、“市(sheher)”、“縣(nahiye)”、“鄉(xiāng)(y?za)”等區(qū)域劃分單位建立地名特征詞詞典(詞典規(guī)模為126個(gè)詞),并依據(jù)此詞典對(duì)命名實(shí)體進(jìn)行識(shí)別。以當(dāng)前詞是否在地名特征詞詞典中為特征,如果是,則當(dāng)前詞的地名特征詞特征值為Y-LF。否則,為N-LF。
c. 地名特征詞綴詞典
在維吾爾文中部分地名是具有共同的地名詞綴[5],如“韓國(guó)(Koriye)”和“英國(guó)(Engiliye)”中的“ye”是相同的詞綴,本文將此類地名詞綴特征進(jìn)行整理,總計(jì)31個(gè),并生成詞典。以當(dāng)前詞是否以地名特征詞綴詞典中任何一個(gè)后綴結(jié)尾為特征。如果是,則當(dāng)前詞的地名特征詞綴的特征值為Y-LS。否則,為N-LS。
4) 機(jī)構(gòu)名詞典(OD)
a. 機(jī)構(gòu)名特征詞詞典
對(duì)于明顯表示機(jī)構(gòu)名的名詞詞尾如“大學(xué)(uniw?rsit?t)”、“局(idare)”、“廳(nazaret)”、“辦公室(ishxanisi)”、“公司(shirkiti)”、“集團(tuán)(guruhi)”等,本文建立機(jī)構(gòu)名特征詞詞典,共包含1 243個(gè)特征詞。若當(dāng)前詞在機(jī)構(gòu)名特征詞詞典中,則當(dāng)前詞的機(jī)構(gòu)名特征詞存在特征表示Y-OF。否則,為N-OF。
b. 機(jī)構(gòu)名修飾詞詞典
對(duì)于部分機(jī)構(gòu)名內(nèi)存在的“有限(cheklik)”“附屬(qarmiqidiki)”“駐(turushluq)”等機(jī)構(gòu)修飾詞,本文通過(guò)建立包含63個(gè)機(jī)構(gòu)名修飾詞的詞典來(lái)提高機(jī)構(gòu)名識(shí)別精度。如果當(dāng)前詞出現(xiàn)在該詞典中,則當(dāng)前詞的機(jī)構(gòu)名修飾詞存在特征為Y-OIW。否則,為N-OIW。
2.2.3 無(wú)監(jiān)督學(xué)習(xí)特征
詞向量有助于優(yōu)化NLP多種學(xué)習(xí)任務(wù),使其擁有更好的性能[27],它是將句子中的單詞映射成低維空間的數(shù)值向量。因此本文考慮使用大規(guī)模的未標(biāo)記數(shù)據(jù)來(lái)訓(xùn)練詞向量模型。本文使用基于Gensim[注]https: //radimrehurek.com/gensim/index.html的Word2Vec開(kāi)源工具獲取詞向量,然后根據(jù)詞向量獲取不同的特征以供實(shí)驗(yàn)選擇。Word2Vec的詞向量包含兩種模型,分別是CBOW和Skip-gram。其中,CBOW模型的目標(biāo)是由上下文來(lái)預(yù)測(cè)當(dāng)前詞的概率,Skip-gram模型是根據(jù)當(dāng)前詞來(lái)預(yù)測(cè)上下文的概率。因此,本文將兩種模型都考慮在內(nèi),以判斷哪種模型的影響力較大。
a. 二值化詞向量特征

其中,nj+表示第j維中Mj>0的行數(shù),nj-表示第j維中Mj<0的行數(shù)。則離散值的矩陣向量可以通過(guò)式(5)進(jìn)行轉(zhuǎn)換:
(5)
b. 基于詞向量的K-means聚類特征
由于命名實(shí)體及其前后的單詞存在一定的規(guī)律,本文將對(duì)詞表中的詞進(jìn)行聚類,并將其所屬類別作為特征。K-means聚類算法是一種典型的聚類算法,采用距離作為相似性指標(biāo)。其主要思想是: 給定數(shù)據(jù)集,選取數(shù)據(jù)集的k個(gè)對(duì)象為初始中點(diǎn),每個(gè)對(duì)象代表一個(gè)簇的中心;按照樣本中數(shù)據(jù)對(duì)象和聚類中心之間的相似度指標(biāo)將數(shù)據(jù)進(jìn)行劃分;不斷地更新離聚類中心的最近均值。本文在詞向量的基礎(chǔ)上,用sklean的K-means算法對(duì)詞向量進(jìn)行聚類,將相似度較高的詞聚成一簇。
K-means聚類個(gè)數(shù)的不同對(duì)實(shí)驗(yàn)結(jié)果影響也會(huì)有所不同,因此,我們采用不同的聚類個(gè)數(shù)K,來(lái)反映不同粒度層次對(duì)命名實(shí)體識(shí)別的影響。
c. 相似詞特征
詞向量可以獲取單詞的潛在特征及相關(guān)的詞匯和語(yǔ)義信息。因此,能夠通過(guò)詞向量獲取指定單詞的相近詞。相似詞可通過(guò)計(jì)算每個(gè)單詞向量和所有其他單詞的余弦相似度獲得。假如單詞word1、word2的向量表示分別是n維的向量A和B,即向量A=(A1,A2,…,An),B=(B1,B2,…,Bn),則word1和word2的余弦相似度計(jì)算如式(6)所示。
(6)
其中,sim∈[-1,1],sim值越大,表示word1和word2關(guān)聯(lián)度越高,即sim越接近1代表word1和word2越相似。
不同詞向量模型獲取的相似詞可能對(duì)實(shí)驗(yàn)結(jié)果影響有所不同。本文通過(guò)余弦相似度方法獲取每個(gè)詞的基于不同模型的相似詞,并選用相似度最高的10個(gè)詞作為實(shí)驗(yàn)數(shù)據(jù)。由于CBOW模型和Skip-gram模型的原理不同,為了充分結(jié)合兩種模型的優(yōu)勢(shì),本文分別將CBOW和Skip-gram獲取的相似詞合并,并按照相似度進(jìn)行降序排序,同樣提取相似度最高的10個(gè)詞(同一個(gè)相似詞僅出現(xiàn)一次)。此外相似詞的個(gè)數(shù)可能對(duì)實(shí)驗(yàn)結(jié)果具有一定的影響。因此針對(duì)相似詞的三種提取方式,本文以不同相似詞個(gè)數(shù)展開(kāi)實(shí)驗(yàn)分析,來(lái)反映相似詞對(duì)命名實(shí)體識(shí)別性能的影響。
融合不同特征對(duì)于命名實(shí)體識(shí)別的影響不容忽視,因此特征模板的篩選對(duì)識(shí)別具有極其關(guān)鍵的作用。命名實(shí)體識(shí)別需要考慮上下文環(huán)境, 而CRF模型能綜合上下文信息以及外部特征。
本文采用CRFSharp開(kāi)源工具[注]http: //github.com/zhongkaifu/CRFSharp構(gòu)建維吾爾語(yǔ)命名實(shí)體識(shí)別模型,利用定義的特征模板獲取特征并進(jìn)行學(xué)習(xí)。在模型中,不僅要包含原子特征(一元特征)模板,還需要定義復(fù)合特征模板。本文的特征模板定義如表1所示。
表1中,w表示語(yǔ)料的第一列,F(xiàn)表示除詞語(yǔ)以外的其他特征列;其中復(fù)合特征中的Fi-1|Fi|Fi+1(i=0)表示三元特征組合,其他三個(gè)表示二元特征組合。

表1 特征模板

續(xù)表
在無(wú)監(jiān)督學(xué)習(xí)方法中,本文使用新疆多語(yǔ)種信息技術(shù)實(shí)驗(yàn)室自然語(yǔ)言處理組搜集的四百萬(wàn)句以上的單語(yǔ)語(yǔ)料(詞空間大小為1 309 109),主要來(lái)自政府網(wǎng)站新聞以及天山網(wǎng)。利用該組的維吾爾語(yǔ)自然語(yǔ)言處理工具包(網(wǎng)絡(luò)服務(wù))[注]http: //202.201.255.248: 8088/xjuapi/uyghurtext/,首先對(duì)文本進(jìn)行擴(kuò)展區(qū)向基本區(qū)的轉(zhuǎn)換,然后對(duì)數(shù)據(jù)集進(jìn)行詞例化、分句、分音節(jié)等一系列處理。
在有監(jiān)督學(xué)習(xí)方法中,訓(xùn)練集和測(cè)試集使用的語(yǔ)料是新疆多語(yǔ)種信息技術(shù)實(shí)驗(yàn)室自然語(yǔ)言處理組搜集的漢維平行新聞?wù)Z料。首先,針對(duì)漢語(yǔ)語(yǔ)料利用哈工大自然語(yǔ)言處理pyltp工具[注]https: //pypi.python.org/pypi/pyltp篩選出包含命名實(shí)體的句子。然后,獲取對(duì)應(yīng)的維吾爾語(yǔ)句子并組織人員進(jìn)行標(biāo)注。其中,該語(yǔ)料的每個(gè)token使用BIO的標(biāo)記信息。本文采用交叉驗(yàn)證將標(biāo)記語(yǔ)料按照比例5∶1分為訓(xùn)練集、測(cè)試集,有關(guān)數(shù)據(jù)集的信息見(jiàn)表2和表3。其中,NE表示命名實(shí)體,OOV表示測(cè)試集不在訓(xùn)練集的實(shí)體,Roov表示OOV的比例。

表2 維吾爾語(yǔ)命名實(shí)體識(shí)別數(shù)據(jù)集的統(tǒng)計(jì)信息

表3 測(cè)試集OOV統(tǒng)計(jì)信息
本文將F值(F1)作為評(píng)測(cè)指標(biāo)以客觀地衡量命名實(shí)體識(shí)別效果并且選用conlleval腳本來(lái)計(jì)算。
2.2節(jié)中提出了三類特征可能會(huì)對(duì)識(shí)別起到一定的作用。為了進(jìn)一步驗(yàn)證每類特征對(duì)維吾爾文命名實(shí)體識(shí)別的影響大小,先按照不同類別(詞法、詞典、無(wú)監(jiān)督)分別選取不同特征組合進(jìn)行實(shí)驗(yàn)對(duì)比,尋找每類特征的最佳特征組合。再將三類特征有機(jī)結(jié)合進(jìn)行實(shí)驗(yàn)對(duì)比,確定最佳的識(shí)別結(jié)果。
3.3.1 不同的詞法特征組合的對(duì)比實(shí)驗(yàn)
為了判斷不同的詞法特征(MF)對(duì)維吾爾文命名實(shí)體的影響,首先引入基本的語(yǔ)言特征(word)。然后,在此基礎(chǔ)上逐漸加上前音節(jié)(syl1)和后音節(jié)(syl2)、一級(jí)詞性(pos1)、二級(jí)詞性(pos2)以及詞長(zhǎng)(len_word)和單詞音節(jié)個(gè)數(shù)(num_syl)。表4是不同詞法特征組合的實(shí)驗(yàn)情況。從表中可看出,相比于基線實(shí)驗(yàn),前音節(jié)和后音節(jié)對(duì)識(shí)別效果影響較大,總體的F值提升了6.24%;而在此基礎(chǔ)上,分別引入一級(jí)詞性、二級(jí)詞性以及兩級(jí)詞性,發(fā)現(xiàn)一級(jí)詞性的貢獻(xiàn)稍大,而二級(jí)詞性的貢獻(xiàn)較低,可能是二級(jí)詞性的自動(dòng)標(biāo)注正確率較低所致;然后,依次加入詞長(zhǎng)、音節(jié)個(gè)數(shù),發(fā)現(xiàn)總體對(duì)識(shí)別效果作用不大,而對(duì)人名的識(shí)別有微微上升的趨勢(shì),可以忽略不計(jì)。

表4 不同的詞法特征組合的對(duì)比實(shí)驗(yàn)(MF)

續(xù)表
3.3.2 不同的詞典特征組合的對(duì)比實(shí)驗(yàn)
詞典主要包括共有詞典(MD)、地名詞典(LD)、機(jī)構(gòu)名詞典(OD)、人名詞典(PD)等。為了對(duì)比不同的詞典特征組合(DF)對(duì)實(shí)體識(shí)別的貢獻(xiàn),本文首先在共有詞典的詞典特征上進(jìn)行實(shí)驗(yàn),然后分別引入其他類別詞典特征以及組合。不同詞典特征的實(shí)驗(yàn)如表5所示??煽闯龉灿性~典的詞典特征相對(duì)于基線實(shí)驗(yàn),在人名、地名、機(jī)構(gòu)名的識(shí)別效果的F值均有上升。分別提高了2.1%、3.29%、0.35%,由此說(shuō)明共有詞典的詞典特征有效地提高了識(shí)別效果;隨著加入不同的單類實(shí)體詞典特征,發(fā)現(xiàn)其對(duì)應(yīng)的單類實(shí)體識(shí)別效果都有明顯的提升,人名、地名、機(jī)構(gòu)名的F值在共有詞典基礎(chǔ)上分別提高1.24%、2.97%、0.75%;然后將單類實(shí)體的詞典特征進(jìn)行融合,發(fā)現(xiàn)全部詞典特征在命名實(shí)體識(shí)別效果上影響最大,F(xiàn)值已達(dá)到84.63%。

表5 不同的詞典特征組合的對(duì)比實(shí)驗(yàn)(DF)
3.3.3 無(wú)監(jiān)督學(xué)習(xí)特征組合的對(duì)比實(shí)驗(yàn)
為了對(duì)比兩種模型的不同,本文在三種無(wú)監(jiān)督學(xué)習(xí)特征中針對(duì)兩種模型分別進(jìn)行了實(shí)驗(yàn)分析。
(1) 不同維度的二值化向量對(duì)比實(shí)驗(yàn)
詞向量中的每一維向量值都表示著詞的一個(gè)潛在語(yǔ)義特征,維度的大小嚴(yán)重影響著識(shí)別效果。在2.2.3中可知,二值化向量是由不同維度的詞向量轉(zhuǎn)換而來(lái)的離散值。因此,需要對(duì)不同維度進(jìn)行實(shí)驗(yàn),如圖 2所示。從詞向量維度的角度上看,不同模型的F值隨著維度的增長(zhǎng)并未呈現(xiàn)上升趨勢(shì)。然而,兩種模型的二值化向量都在50維時(shí),識(shí)別性能最好;從模型的角度來(lái)看,Skip-gram模型在人名和地名實(shí)體上識(shí)別效果較好。CBOW模型的維度為50維時(shí),在機(jī)構(gòu)名識(shí)別上效果較為明顯。而在100維和200維時(shí),幾乎和Skip-gram持平。因此,本文選用50維的向量的基礎(chǔ)上,進(jìn)行其他的無(wú)監(jiān)督實(shí)驗(yàn)。
(2) 不同K-means聚類個(gè)數(shù)的對(duì)比實(shí)驗(yàn)
聚類個(gè)數(shù)會(huì)嚴(yán)重影響識(shí)別性能。本文根據(jù)獲得的50維向量分別對(duì)聚類個(gè)數(shù)128、256、……、4 096、8 192等進(jìn)行K-means聚類,如圖3所示。從整體的識(shí)別上看,當(dāng)聚類個(gè)數(shù)在3 072時(shí),效果最佳;從單類實(shí)體識(shí)別上看,當(dāng)聚類個(gè)數(shù)大于2 048時(shí)兩種模型均達(dá)到較高的F值。其中,CBOW模型在人名、地名、機(jī)構(gòu)名的最佳識(shí)別結(jié)果對(duì)應(yīng)的聚類個(gè)數(shù)分別為2 560(F值88.49%)、3 072(F值82.51%)、2 560(F值84.89%), Skip-gram模型在人名、地名、機(jī)構(gòu)名的最佳識(shí)別結(jié)果對(duì)應(yīng)的聚類個(gè)數(shù)分別為3 200(F值90.09%)、2 048(F值84.39%)、3 072(F值85.56%);從模型上看,Skip-gram模型的聚類效果優(yōu)于CBOW模型。 故在本文的后續(xù)實(shí)驗(yàn)中,選用Skip-gram模型的聚類結(jié)果且聚類個(gè)數(shù)為3 072。

圖2 不同維度的二值化向量對(duì)比實(shí)驗(yàn)

圖3 不同K-means聚類個(gè)數(shù)的對(duì)比實(shí)驗(yàn)

圖4 不同相似詞個(gè)數(shù)的對(duì)比實(shí)驗(yàn)
(3) 不同相似詞個(gè)數(shù)的對(duì)比實(shí)驗(yàn)
依照2.2.3中所述的相似詞特征分別對(duì)不同模型的相似詞個(gè)數(shù)為1、3、5、8、10進(jìn)行實(shí)驗(yàn),結(jié)果如圖4所示。三種方法在相似詞個(gè)數(shù)大于5時(shí),命名實(shí)體識(shí)別效果都趨于平穩(wěn)狀態(tài)。其中,在人名識(shí)別上,相似詞為5時(shí),結(jié)果較好;在地名識(shí)別上,相似詞為8時(shí),效果較佳;在機(jī)構(gòu)名識(shí)別上,相似詞為5時(shí),效果較佳。三種方法相對(duì)比,發(fā)現(xiàn)兩種模型的相結(jié)合(Mixed)的方法無(wú)論在哪類實(shí)體上,識(shí)別效果都優(yōu)于CBOW模型以及Skip-gram模型。并且,Mixed方法在相似詞個(gè)數(shù)為8和10時(shí)在整體的命名實(shí)體識(shí)別上效果最佳,其F值為85.16%。
(4) 不同的無(wú)監(jiān)督學(xué)習(xí)特征組合的對(duì)比實(shí)驗(yàn)
為了客觀地評(píng)價(jià)三種無(wú)監(jiān)督學(xué)習(xí)方法對(duì)命名實(shí)體識(shí)別性能,本文研究并比較了在單個(gè)特征、組合特征情況下的命名實(shí)體識(shí)別性能。實(shí)驗(yàn)結(jié)果如表6所示,可以看出,無(wú)論引入哪種的無(wú)監(jiān)督學(xué)習(xí)特征,在Baseline的基礎(chǔ)上都有所提高;僅引入K-means聚類特征的性能明顯優(yōu)于引入其他兩種特征,同時(shí),聚類和相似詞的結(jié)合,可以獲得最好的識(shí)別性能,可見(jiàn)在實(shí)體識(shí)別中引入K-means聚類特征的優(yōu)勢(shì)。
3.3.4 混合特征組合對(duì)命名實(shí)體識(shí)別性能的影響
在上述實(shí)驗(yàn)的基礎(chǔ)上,對(duì)融合多類特征的維吾爾文命名實(shí)體識(shí)別進(jìn)行探究,其不同的識(shí)別結(jié)果如表7所示。

表6 不同的無(wú)監(jiān)督學(xué)習(xí)特征組合的對(duì)比實(shí)驗(yàn)(UF)

表7 混合特征組合的對(duì)比實(shí)驗(yàn)

續(xù)表
注: MF、DF、UF分別表示上述三種實(shí)驗(yàn)中最佳的特征組合。
從表中可看出各類特征在Baseline的基礎(chǔ)上都有大幅度的提高。其中,詞法特征較高,無(wú)監(jiān)督學(xué)習(xí)特征幾乎達(dá)到了和詞法特征相當(dāng)?shù)乃健O啾扔诜治鼍S吾爾語(yǔ)形態(tài)結(jié)構(gòu)和命名實(shí)體結(jié)構(gòu)的方法,本文模型減少大量的工作量;將三類特征(選擇上述實(shí)驗(yàn)中每類特征的最佳特征組合)分別組合,當(dāng)三類特征相結(jié)合時(shí),F(xiàn)值達(dá)到87.37%。而詞法特征和無(wú)監(jiān)督學(xué)習(xí)特征結(jié)合時(shí),F(xiàn)值達(dá)到了最高值87.43%。由此說(shuō)明詞法特征和無(wú)監(jiān)督學(xué)習(xí)特征的有機(jī)結(jié)合,可以大大降低人工選取特征的代價(jià)。同時(shí),提高維吾爾文的命名實(shí)體識(shí)別性能。
3.3.5 不同特征對(duì)OOV識(shí)別效果的對(duì)比實(shí)驗(yàn)
為了進(jìn)一步對(duì)比不同特征,本文針對(duì)OOV的識(shí)別進(jìn)行了對(duì)比實(shí)驗(yàn),結(jié)果如表8所示。三類特征相比較時(shí),詞法特征的識(shí)別效果最佳,無(wú)監(jiān)督學(xué)習(xí)特征識(shí)別效果優(yōu)于詞典特征。其中,詞法特征在地名、機(jī)構(gòu)名識(shí)別上較有優(yōu)勢(shì),而無(wú)監(jiān)督學(xué)習(xí)特征在人名識(shí)別上性能較好。在對(duì)三類特征進(jìn)行組合分析時(shí),發(fā)現(xiàn)所組合后的特征對(duì)OOV的識(shí)別能力更強(qiáng)。由此說(shuō)明該特征組合在OOV的識(shí)別上具有一定的優(yōu)勢(shì),但依據(jù)表7可看出,對(duì)非OOV的實(shí)體識(shí)別可能具有一定的副作用。

表8 不同類型特征命名實(shí)體識(shí)別結(jié)果對(duì)比
3.3.6 CRF模型與神經(jīng)網(wǎng)絡(luò)模型的對(duì)比實(shí)驗(yàn)
目前,深度學(xué)習(xí)方法已經(jīng)廣泛應(yīng)用到自然語(yǔ)言處理任務(wù)中。本文利用Lample[17]提出的Bi-LSTM-CRF模型以50維的詞向量作為基本的輸入特征,并在此基礎(chǔ)上加入最佳的特征組合(詞法特征和無(wú)監(jiān)督特征)。其中,兩類特征維度都采用30維,如表9所示。從表中可以看出僅引入詞向量時(shí)F值達(dá)到84.47;若引入上文中最佳的特征組合時(shí),F(xiàn)值達(dá)到88.19,僅比上文中最佳的CRF模型上高出0.76%,說(shuō)明兩種模型F值相差不大。

表9 基于Bi-LSTM-CRF模型的識(shí)別結(jié)果
為進(jìn)一步驗(yàn)證哪種模型更適合用于命名實(shí)體識(shí)別實(shí)際應(yīng)用中,本文在性能方面進(jìn)行了對(duì)比,CRF模型、Bi-LSTM-CRF模型(迭代次數(shù)為50)分別在CPU、GPU的情況下進(jìn)行訓(xùn)練與測(cè)試,具體如表10所示。從總體上看,CRF模型在性能明顯優(yōu)于Bi-LSTM-CRF模型;此外,GPU價(jià)格昂貴。因此,雖然CRF模型的準(zhǔn)確率稍低,但更適合用于實(shí)際應(yīng)用。

表10 不同模型的性能對(duì)比
本文針對(duì)維吾爾語(yǔ)命名實(shí)體識(shí)別,利用大規(guī)模的未標(biāo)注數(shù)據(jù)集,根據(jù)詞向量獲取不同的無(wú)監(jiān)督學(xué)習(xí)特征。然后,采用CRF模型作為統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型,選取詞法特征、詞典特征、無(wú)監(jiān)督學(xué)習(xí)特征分別進(jìn)行單獨(dú)或者組合進(jìn)行命名實(shí)體識(shí)別性能的對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)表明,三類特征在識(shí)別性能都有所提高,且CRF模型融合詞法特征比詞典特征、無(wú)監(jiān)督學(xué)習(xí)特征識(shí)別效果更佳;無(wú)監(jiān)督學(xué)習(xí)特征能夠從大規(guī)模的未標(biāo)注數(shù)據(jù)集中獲取詞的語(yǔ)義信息,并且相比于人工構(gòu)建領(lǐng)域特征,無(wú)監(jiān)督學(xué)習(xí)可以減少大量的工作量;引入詞法特征和無(wú)監(jiān)督學(xué)習(xí)特征,可以大大降低人工選取特征的代價(jià),提高維吾爾文的命名實(shí)體識(shí)別性能;CRF模型相比于神經(jīng)網(wǎng)絡(luò)模型,更適合用于實(shí)際應(yīng)用中。由此說(shuō)明本文提出的方法在維吾爾語(yǔ)命名實(shí)體上取得了較好的識(shí)別效果。本文的研究尚不完善,進(jìn)一步的研究工作擬開(kāi)展自動(dòng)特征選取算法實(shí)現(xiàn)最佳的特征組合。此外,在詞向量的基礎(chǔ)上開(kāi)展更深入的神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)方法,例如,引入字符向量、音節(jié)向量等。