董 瑞 楊雅婷 蔣同海
1(中國科學院新疆理化技術研究所 新疆 烏魯木齊 830011)2(新疆民族語音語言信息處理實驗室 新疆 烏魯木齊 830011)3(中國科學院大學 北京 100049)
隨著互聯網的普及和發展,網絡成為了每個人生活中不可缺少的部分,咨訊信息、新聞媒體、社交網絡充斥在每個人的身邊,維吾爾語文本信息增長飛快,因此維吾爾語自然語言處理研究變得越來越重要。命名實體識別是自然語言處理的基礎任務,命名實體識別任務是從自然語言文本中識別出具有特點屬性和意義的實體,并加以分類。隨著深度學習在自然語言處理中的深入研究,神經網絡模型已經開始應用于命名實體識別,相對于統計機器學習的命名實體識別,神經網絡模型能夠減少人工選擇特征、人工構建模板這個復雜的特征工程,并且取得了不錯的效果。但是維吾爾語屬于阿爾泰語系突厥語族西匈語支,在語法結構上屬于黏著語,單詞是由詞干附加若干詞綴構詞,形態非常豐富。由于其豐富的形態特征,僅僅通過神經網絡模型自動提取的特征,無法獲得全面有效的文本表示。相對于僅使用神經網絡模型自動提取特征,本文提出的融合多種語言學特征的神經網絡模型,在維吾爾語命名實體識別任務上取得了更好的識別效果。
1991年Rau在第7屆IEEE人工智能應用會議上提出命名實體的概念之后,信息理解會議(Message Understanding Conference,MUC)、內容自動提取(Automatic Content Extraction,ACE)的評測推動著命名實體識別研究的發展。國家高技術研究發展計劃“中文信息處理與智能人機接口技術評測”以及SIGHAN(計算語言學協會特別興趣小組,研究中文自然語言處理)的BAKEOFF評測都對中文命名實體識別的發展起到了促進的作用。
傳統的基于統計機器學習的命名實體識別算法,例如SVM、HMM、CRF,為了獲取更高的識別性能,需要進行大量的特征工程,人工定義特征,生成特征模板,識別算法的成功與否和研究者設置的特征模板息息相關。通常這些人工挑選的特征都是和語言相關的。例如,對于英語來說,文本中的命名實體詞需要首字母大寫,這一特征就非常重要,但是對于漢字和維吾爾語字母沒有大寫特征,因此針對不同語種的命名實體識別任務,選擇合適的語言學特征就變得非常重要。
隨著深度學習在自然語言處理的深入研究,詞向量通常作為神經網絡模型的輸入層,在不同自然語言處理任務中都能夠取得非常好的效果。詞向量是在無標注大規模文本上無監督訓練獲取的,能夠表達部分語義信息和上下文關系。Collobert等[1]為了減少特征工程的工作量,使用CNN-CRF神經網絡模型進行命名實體識別任務,取得了不錯的效果。Chiu等[2]在Bi-LSTM基礎上,聯合詞向量和CNN提取的字符特征作為輸入向量進行命名實體識別,實驗表明CNN提取的字符特征能夠更進一步的豐富命名實體的文本表示。但是使用Bi-LSTM進行命名實體識別時,輸出層通常使用Softmax作為激活函數,將命名實體識別任務看作一個文本分類任務,這樣做的前提假設是輸出類別之間相互獨立,但是命名實體識別輸出的實體類別標簽是相互關聯的。例如某個單詞的輸出實體標簽是I-LOC,那么它的上一個單詞一定是B-LOC或者I-LOC,而不能是B-ORG。為了解決輸出實體類別序列間的關系依賴問題,黃志恒等[3]提出了一種使用Bi-LSTM-CRF的網絡結構,將Bi-LSTM的輸出向量連接到CRF層,取得了不錯的效果,但是沒有加入CNN進行字符特征提取。Ma等[4]在Bi-LSTM-CRF的基礎上,使用CNN提取每個單詞的字符特征,然后將字符特征和詞嵌入拼接在一起作為輸入向量,使用Bi-LSTM-CNN-CRF在CONLL2003數據集上取得了最優的識別結果。
維吾爾命名實體識別研究開始比較晚,從基于規則的人名翻譯開始[5-7],到使用規則和統計的方法進行維吾爾語人名識別[8],再到使用統計機器學習的方法進行維吾爾語人名識別[9-10],以及分別針對機構名、地名、和數詞進行識別[11-15]。大部分針對維吾爾語命名實體識別的研究者都使用條件隨機場作為序列標注算法[16]。近期一些學者也開始使用神經網絡的方法進行命名實體識別研究[17-18],但是目前還沒有開放的數據集以及公開評測項目。
文本使用Word2vec進行維吾爾語詞向量的訓練,訓練語料為298萬句維吾爾語單語語料,共1 921 477個單詞。使用CBOW計算詞向量,詞特征窗口大小為8,最小詞頻為1,詳細內容見表1。

表1 詞向量參數設置
卷積神經網絡(Convolutional Neural Networks,CNN)是一種常用的神經網絡結構。在自然語言處理中,常使用CNN來提取文本特征,并且有研究者發現,使用CNN抽取字符級特征,能夠很好地表示單詞的形態學特征。圖1為本文模型中抽取字符特征的網絡結構,“suyimen”是拉丁維語“我喜歡”的意思。

圖1 CNN抽取字符特征
本文設置字符向量維數為30,并且進行隨機初始化。每個單詞的最大字符長度為50,如果超過最大長度,就截取前50個字母,如果長度小于50,就使用Padding進行補齊。通過卷積層和最大池化層,抽取單詞的字符特征表示向量。卷積核尺寸為30,卷積核長度為3。
維吾爾語屬于阿爾泰語系突厥語族西匈語支,在語法結構上屬于黏著語,維吾爾單詞是由詞干附加若干詞綴構成,有著豐富的形態學特征。由于這種復雜形態,CNN很難完全抽取所有的形態學特征,并且維吾爾語的每個詞綴還有自己的詞性特征。借鑒于統計機器學習的維吾爾語命名實體識別研究,我們設計了一組維吾爾語語言學特征,見表2。

表2 語言學特征說明
例如拉丁維語單詞oquyalmidim(漢語意思:我不會讀),切分成詞干附加詞綴的形式為:
oquyalmidim->oqu+yala+ma+d+im
其中:oqu是詞干,yala是第一個詞綴,ma是第二個詞綴,d是第三個詞綴,im是第四個詞綴,每個詞綴有不同的詞性。這個維吾爾語單詞的語言學特征就可以用表3表示。

表3 維吾爾語單詞語言學特征示例
設置每個語言學特征的向量維數為30,隨機初始化向量。
將詞向量、字符特征向量以及語言學特征向量級聯作為神經網絡的輸入向量表示。假設Vword表示詞向量,Vchar表示字符特征向量,Vfi表示表2中的第i個語言學特征向量,整體輸入向量就可以表示為V=[Vword:Vchar:Vf1:…:Vf10],結果如圖2所示。

圖2 聯合特征表示
(1) LSTM。循環神經網絡(Recurrent neural network,RNN)的網絡結構在自然語言處理中得到了廣泛的應用。對于命名實體任務來說,RNN的輸入層就是詞向量,輸出層就是命名實體類別序列。RNN網絡有一個很大的缺點就是長期依賴問題,對于過長的神經網絡序列,很難保留很久之前的輸入信息。為了解決這個問題,Hochreither等設計了長短期記憶網絡(Long short term merroy,LSTM),通過三個特殊的門結構來控制輸入和輸出信息。圖3為一個LSTM單元的基本結構。

圖3 LSTM單元基本結構
LSTM更新公式如下:
it=σ(Wxixt+Whiht-1+Wcict-1+bi)
(1)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)
(2)
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)
(3)
ot=σ(Wxoxt+Whoht-1+Wcoct-1+bo)
(4)
ht=ottanh(ct)
(5)
式中:σ是Sigmoid激活函數;i是輸入門;f是遺忘門;c是記憶單元;o是輸出門;h是隱層;tanh表示雙曲正切激活函數;W是權重矩陣,例如Wxi是輸入x到輸入門之間的權重矩陣,Whi是隱層到輸入門的權重矩陣,b是偏置向量。

條件隨機場(Conditional Random Fields,CRF) 是在給定一組輸入隨機變量條件下,另外一組輸出隨機變量的條件概率分布模型。使用Softmax激活函數作為輸出層的前提假設是輸出類別直接相互獨立,類別之間沒有約束。但是對于命名實體識別任務來說,輸出類別之間是有約束關系的。而CRF可以很好地對這種類別間關系進行約束,因此使用CRF層和Bi-LSTM的輸出向量連接在一起進行命名實體識別任務。
將詞向量、字符特征以及語言學特征連接在一起作為輸入向量,將BLSTM的輸出向量和CRF層相連,構成融多種合語言學特征的Bi-LSTM-CNN-CRF神經網絡模型,整體結構如圖4所示。

圖4 融合多語言學特征的神經網絡模型結構
每一個輸入的維吾爾語單詞,將其詞向量和CNN提取的字符特征向量以及經過形態學分析得到的語言學特征向量拼接到一起,作為Bi-LSTM網絡的輸入向量,最后再將Bi-LSTM的輸出向量和CRF層相連。
本文使用BIO標注規范,命名實體類別包括三類:人名、機構名和地名。具體定義如表4、表5所示。

表4 BIO標注含義

表5 命名實體識別類別說明
由于維吾爾語命名實體識別任務,沒有公開發布的標注數據集,因此本文使用中科院新疆理化所標注的維吾爾語命名實體識別語料。詳細信息如表6所示。

表6 訓練語料說明
本文使用精確率P、召回率R、F1值來進行評測。具體公式如下:
(6)
(7)
(8)
為了驗證加入語言學特征是否能夠提高維吾爾語命名實體性能,本文進行了多組對比實驗,使用不添加任何語言學特征的Just_token作為基線系統。
(1) 實驗一:分別使用每個語言學特征,將其添加到神經網絡模型中進行對比,結果如表7所示。

表7 多種語言學特征對比實驗結果 %
從實驗結果看,對比不添加任何語言學特征直接使用Bi-LSTM-CNN-CRF,大部分添加的語言學特征的模型可以取得更好的識別結果,但是對于僅使用Pos4、suffix4這兩種語言學特征,識別結果并沒有基線系統高。為了確定這幾種語言學特征是否有效,進一步進行實驗驗證。
(2) 實驗二:對于Pos4特征,為了確定這個語言學特征是否對維吾爾語命名實體識別有用,我們將Pos1-Pos4這四種特征同時添加到神經網絡模型中,用來比較添加Pos4特征后,是否對整體命名實體識別任務有幫助,實驗結果見表8。

表8 融合所有詞綴詞性特征對比 %
可以看出,在F1值上,添加全部的詞綴詞性特征有一定的提高,因此我們決定將Pos4特征加入整體的語言學特征中去。
(3) 實驗三:Suffix1-Suffix4分別是每個維吾爾語單詞所附加的第一個到第四個詞綴特征,可以發現雖然使用CNN進行字符特征提取能夠獲取一部分形態學特征,但是由于維吾爾語形態復雜,并不能獲取全部的形態學特征。通過表7可以看出Suffix1-Suffix3分別添加之后,識別結果都有一定的提升。Suffix4效果不好的原因經過分析發現,測試集中共有20 242個單詞,包含4個詞綴的單詞只有1 086個,過于稀疏,對識別訓練造成了負面影響。為了驗證Suffix4是否對維吾爾語命名實體識別有負面影響,我們同時添加Suffix1-Suffix4這四個特征進行對比實驗,結果如表9所示。

表9 融合所有詞綴特征對比 %
通過表9可以發現,雖然單獨加入Suffix4沒有能夠提高識別率,但是同時添加四個詞綴特征,可以有效提高命名實體識別精度。
(4) 實驗四:通過上述的實驗可以看出,語言學特征能夠提高維吾爾語命名實體識別精度,因此,我們將加入所有的語言學特征,與實驗二中加入Pos1-Pos4特征以及實驗三中加入Suffix1-Suffix4特征進行對比實驗,結果如表10所示。

表10 融合所有語言學特征對比 %
實驗結果表明,融合所有語言學特征后,相對于沒有添加語言學特征的Bi-LSTM-CNN-CRF模型,維吾爾語命名實體識別精度有著顯著提高,F1值提高了3.98%。同時,相對于僅添加了部分特征的,Pos1-Pos4以及Suffix1-Suffix4這兩種模型,全部的語言學特征可以取得最好的命名實體識別精度。
由于維吾爾語的復雜形態特性,僅僅使用字符級CNN網絡無法充分提取維吾爾語形態特征。本文提出了一種融合多種語言學特征的Bi-LSTM-CNN-CRF神經網絡模型。通過整合詞向量、字符特征、多種語言學特征向量作為輸入向量,使用Bi-LSTM獲取上下文信息,使用CRF作為輸出層,約束輸出命名實體類別序列。
實驗表明,本文提出的融合多種語言學特征的維吾爾語神經網絡命名實體識別模型,可以彌補僅僅使用CNN提取字符特征無法充分獲取復雜形態特征的缺點,有效提升維吾爾語命名實體識別效果。
現有的神經網絡結構還很難充分地自動抽取復雜形態語言的形態特征以及其他語言學特征,下一步將設計新的神經網絡結構,能夠更充分地自動抽取維吾爾語語言特征,進一步減少特征工程,并且提高維吾爾語命名實體識別精度。