方 紅,蘇 銘,馮一鉑,張 瀾
1.上海第二工業大學 文理學部,上海201209
2.上海第二工業大學 工學部,上海201209
3.喀什大學 數學與統計學院,新疆 喀什844000
命名實體識別對下游的信息提取、問答系統、機器翻譯等應用領域起著非常重要的作用,是自然語言處理技術落實到工業生產實踐中的基礎環節;中文命名實體識別相較于英文來說,其詞的劃分較為困難,因此如何去豐富地表示字符信息成為近些年來研究的重點。
中文命名實體識別最初是基于字符的NER和基于詞的NER,He 等人[1]、Li 等人[2]的研究表明基于字符的NER不能很好地應用詞的信息,由于中文單個字所能表示的信息要比單個英文單詞欠缺很多,從而無法更好地完成后續的預測標注;基于詞的NER 由于無法很好地獲得實體邊界,因而會產生很多錯誤信息,導致效果比基于字符的更差。后續大量工作將中文的字符和詞信息結合起來進行序列標注,豐富輸入表示層的信息。劉小安等人[3]提出了通過CNN進行局部特征提取的CNNBiLSTM-CRF模型,對詞匯的局部特征提取起到了一定的效果;謝騰等人[4]使用了預訓練模型Bert 來進行詞匯表示學習,提出了Bert-BiLSTM-CRF 模型,提升了上下文語義表示學習的效果;以上提出的模型都沒有借助外部詞典信息,因此對于特殊名詞較多的數據集分詞錯誤造成的誤差傳遞問題比較嚴重。后續Zhang等人[5]提出了一個將詞的信息融入到這個詞的開始和結束字符中的Lattice 模型,很好地增強了詞的嵌入表示效果,但是對于詞中間的字符卻無法融合詞的信息,會造成一定的信息缺失。Liu 等人[6]、Zhang 等人[7]提出了使用詞典信息來提升字符向量表示,利用詞典來進行匹配,使得能夠很好地確定詞匯邊界信息,降低分詞誤差導致的錯誤率,但是對于一個詞對應多個類型的問題無法得到解決。MultiDigraph[8]模型提出了使用多重圖來解決gazetteers的不同類型引起的多種表示信息的問題,使用了融合多個gazetteers類型信息的方式解決了之前工作中詞匯的多義性問題,對于中文句子中的歧義性得到了一定的解決,但是僅僅依靠gazetteers獲取的詞的匹配關系,不能很好地融入不相鄰的詞之間的依賴關系。比如:“張三在上海人民廣場”,通過gazetters 的信息嵌入可以很好地將“上海”“人民廣場”“上海人”等信息融合進來,但是對于各個詞之間的依賴關系沒有提取出來,整個句子的句法結構也沒有很好融入。這樣會導致:如果“人民廣場”這個詞不在詞典中,而“上海人”在詞典中,會使得整個句子的詞信息融入錯誤,會降低識別準確率。霍振朗[9]提出了基于句法依存樹和圖神經網絡的模型,證實了融入句法關系對序列標注具有一定的效果提升。針對上述問題,提出了通過將句子中詞的依賴關系即句子的句法依存樹融入到每個字符信息中的方式來緩解由于gazetteers匹配錯誤或缺失而造成的詞匯信息融入錯誤問題,給出一種基于gazetteers 和句法依存樹的中文命名實體識別方法。該方法首先通過匹配gazetteers詞典信息,找到句子含有的詞,獲取詞的開始與結束位置信息,形成兩個結點,再根據當前詞所對照的詞典屬性將邊賦予詞的類別信息;隨后將所有詞形成的三元組信息拼接成圖結構,之后將句子的句法依存結構關系,即句子中各個詞為結點,詞與詞之間的句法依賴關系為邊,構成三元組,進一步將所有三元組整合為圖結構。將詞信息圖與句法依賴關系圖進行整合,提取其鄰接矩陣信息與字符信息共同輸入到圖神經網絡中進行字符表示信息的學習,從而將gazetteers 信息與句法結構信息融入每個字符信息中,最終使得形成的詞向量包含了句子的結構和詞邊界信息。最后通過BiLSTM-CRF 模型進行序列標注,實現最終的實體識別。新的方法使得實體識別過程中每個字符的信息更加豐富,為后續的序列標注提供更好的支撐,減少分詞錯誤和句子結構信息造成的誤差傳遞,從而進一步提升了實體識別的準確率。通過在Ecommerce、Resume、QI 等數據集的驗證,新的方法可以使得中文實體識別的準確率得到較大提升。
基于gazetteers和句法依存樹的中文命名實體識別模型的總體思路是通過將句子中字符順序結構與句子包含的gazetteers 詞結構組成的主體結構圖、句法結構圖進行融合,之后再將融合句法依賴結構的主體結構圖與通過bigram 融合后的詞向量信息一起通過自適應門控圖神經網絡進行字符嵌入學習,最終得到每個字符的向量表示信息;通過自適應門控圖神經網絡融合后的向量信息再經過傳統的BiLSTM-CRF進行序列標注,最終得到每個字符的標簽信息。模型的框架設計如圖1 所示,為表述清楚,框架中以“上海人民廣場”為輸入句子進行描述,通過對gazetteers 進行匹配,將“上海人”“上海”“廣場”“人民廣場”等匹配到的詞分別與句子的順序結構圖進行融合,形成基于gazetteers的多個圖信息,之后將多個圖的鄰接矩陣信息和句子本身的詞向量信息通過自適應門控圖神經網絡進行表示學習。形成最終的表示向量作為后續序列標注模型的輸入。

圖1 模型架構Fig.1 Model architecture
通過句子所有字符順序信息、gazetteers 的結構信息、句法依存樹信息來構建兩個圖,分別為主體結構圖、依賴關系圖,最后將依賴關系圖信息融合進主體結構圖,將融合后的主體結構圖作為后續模塊的輸入。
1.1.1 主體結構圖
主要將所有字符序列化,形成正向、反向兩個序列。如:“上海人民廣場”,一共有6 個字符,表示為c1、c2、c3、c4、c5、c6,兩兩之間通過有向邊進行連接,形成如下:

Vc表示輸入句子的每個字符,E表示由前后字符兩兩相連的邊的組合。
通過匹配gazetteers詞典信息來匹配句子中的詞,并以作為開始結點,依次使用有向邊連接詞的各個字符,最終以作為結束結點,gi表示匹配到的gazetteers類型。將所有結點相連構成gazetteers圖,表示為:

其中,表示由開始結束的各個gazetteers所包含的字符,E是由各個字符組成的邊,Lgaz代表一個gazetteers在不同詞典列表中的類型。
1.1.2 依賴關系圖
句法依存樹[10]是由依存關系構成的一棵樹,依存關系是一個中心詞與其從屬之間的二元非對稱關系,其結構是一個加標簽的有向圖,箭頭從head 指向child,以“青島是一個著名的啤酒品牌”為例,其句法依賴關系如圖2 所示,從該依賴樹可以看出,每個Token 只有一個Head,依存關系用依存弧表示,方向由從屬詞指向支配詞。每個依存弧上有個標記,稱為關系類型,表示該依存對上的兩個詞之間存在什么樣的依存關系[11]。常見的依存關系有主謂關系(SBV)、動賓關系(VOB)和狀中關系(ADV)等。通過句法依存樹可以進一步降低中文命名實體識別中的歧義性并且可以融入更多的結構關系。

圖2 句法依存樹結構Fig.2 Syntactic dependency tree structure
這里是通過spacy[11]模型來對句子的句法結構進行提取,最終將切分出來詞的第一個字符與其有句法關系的另一個詞的第一個字符建立有向邊,其結構如式(3):

其中,Vdt表示句法依存結構中的各個成分,Edt表示各個成分直接的依賴關系構成的有向邊的集合。
這里采用自適應門控圖神經網絡來對圖信息進行嵌入表示學習,圖神經網絡已經廣泛應用于深度學習的各個領域中,對于通過圖卷積神經網絡(graph neural network,GCN)來融合句法依賴信息在Cetoli 等人[12]提出的模型中已經體現出了很好的作用。后來為了更好地融合長距離信息,Li 等人[13]提出了門控圖神經網絡,通過加入GRU 來進一步提升句子整體語境的融合度。在門控圖神經網絡的基礎上添加自適應的門控機制,形成最終的自適應門控圖神經網絡(adapted gated graph neural network,AGGNN)來進行信息融合,它相較于傳統的門控圖神經網絡的優點在于它可以融合多圖信息,由于每個詞可能屬于多個類型,因此一個詞可能會形成多張圖,而AGGNN 可以更好地進行多重圖的嵌入表示。其具體的結構如下所示,bigram已經被Chen等人[14]提出的模型證實在命名實體識別任務中有較好的效果。初始化的向量信息由gazetteers和由bigram表示的詞嵌入向量融合表示:

將由主圖、gazetteers 圖、句法依賴圖融合后的圖的鄰接矩陣表示為Av,這里的Av是通過權重比來計算的最終矩陣,具體實現如下。
將上下文匹配到的gazetteers 類型進行統計,通過sigmoid 函數計算貢獻度系數,最終將多個鄰接矩陣轉化成一個融合多個gazetteers信息的鄰接矩陣Av。其權重計算方式如下所示:

其中,w為權重系數,n為對應gazetteers類型出現的次數。
得到鄰接矩陣信息后,通過一個網絡層獲取融合圖信息的隱向量信息:

最后輸入到GRU[15]中形成最終的字符表示信息。

BiLSTM-CRF是一個傳統的序列標注預測模型,在Lin等人[16]的研究中,可以看出它能起到比較好的效果,因此這里采用這個基礎模型作為序列標注預測模型,將通過AGGNN 形成的字符表示信息輸入到BiLSTMCRF中獲取最終的預測結果。
1.3.1 BiLSTM層
BiLSTM 層是由前向LSTM 和后向LSTM 組成,可以更好地用于提取文本中的上下文特征。Marcheggiani等人[17]的工作指出,圖卷積網絡的主要問題在于難以捕捉長距離節點之間的依存關系,將其與LSTM結合后可以很好地避免這一問題。因此,將經過圖卷積神經網絡后的字符信息加入到BiLSTM 中進行編碼。其中,LSTM的主要結構可以表示為:

其中,σ是sigmoid 激活函數,i表示輸入門,f表示遺忘門,o表示輸出門;?是點乘運算,w、b代表輸入門、忘記門、輸出門的權重矩陣和偏置向量。對于句子(x1,x2,…,xn),共有n個單詞,每一個都代表一個d維的向量,BiLSTM通過計算每個詞包含其在句子中左側上下文信息表示向量htl和其右側上下文信息的htr,通過將其整合共同表示這個詞的信息為ht=[htl,htt],這種表示可以有效地包含上下文中單詞的表示,對于多標記應用十分有效。
1.3.2 CRF層
命名實體識別任務一般可以被認為是序列標注的問題,通常BiLSTM 的輸出結果即可進行序列標注,通過在最頂層添加一個softmax 層進行判斷,輸出概率最大的標簽,即可完成輸入序列的標注任務。但是BiLSTM雖然解決了上下文聯系的問題,卻缺乏對輸出標簽信息的約束。softmax分類器在序列標注任務中沒有考慮標簽與標簽間存在的依賴關系,而條件隨機場CRF可以使用對數線性模型來表示整個特征序列的聯合概率,能更好地預測序列標注中的標簽。
假定句子長度為n,句子序列為X=(x1,x2,…,xn),通過BiLSTM 輸出的分數矩陣為P,P的維度為n×k,其中k表示標簽種類的數目,Pij表示第i個詞預測為第j個標簽的概率,對于預測標簽序列Y=(y1,y2,…,yn),預測序列最終的總分數為:

其中,T表示標簽間的轉移分數,表示每個字到對應yi標簽的分數。
由于預測序列有多種可能性,其中只有一種是最正確的,應對所有可能序列做全局歸一化,產生原始序列到預測序列的概率,在所有可能的標記序列上的softmax產生序列y的概率:

采用了Ecommerce、Resume、QI 三個數據集來作為模型的實驗數據集。Ecommerce是由Ding等人在文獻[8]中提出的一個電商領域的命名實體識別數據集,Resume是Zhang 等人[5]最初提出的一個簡歷數據集,它是一個公共數據集,在多篇文章中已經得到了使用與驗證。QI是由本文標注的商品質量檢測領域的數據集,主要分為9個實體類型,用來進行產品實體的標注,如表1。

表1 語料規模Table 1 Corpus size 句
對于使用到的詞典信息通過在搜狗詞庫、百度詞庫中獲取,將其中的詞按照行進行分割,最終形成一個綜合的詞典庫信息,如表2。

表2 詞典信息Table 2 Dictionary information 個
采用的標注格式是BIEO 的標注形式,如對于位置信息,使用“B-LOC”“I-LOC”“E-LOC”“O”。采用的評價標準與以往相關論文所使用的標準一樣,即使用精確率P、召回率R和F1 值來進行模型的效果評估。其中各個評價指標的計算公式如下:

其中,a表示識別正確的實體數,A表示全部實體的個數,B表示被識別出的實體數。
這里對比模型選取BiLSTM(2-gram)、BiLSTM(3-gram)、BiLSTM(4-gram)、Lattice、Multigraph。使用BiLSTM(2-gram)、BiLSTM(3-gram)、BiLSTM(4-gram)主要是為了將所提出模型與依靠N-gram進行分詞并與字符進行組合的模型進行對比,從而進一步體現出在數據集不使用gazetteers和句法結構信息時的效果,Lattice和MultiGraph 模型都是使用了gazetteers 的中文命名實體識別模型,前者是基于LSTM 實現的修改,在LSTM的神經元接收字符信息的同時也會接收通過詞典匹配的詞信息,后者是基于詞向量表示層的改進,將詞典信息通過圖神經網絡融合進字符表示中,之后再將其輸入到下一層的BiSLTM 中。通過與以上兩種模型的對比可以體現出新模型的以下兩個方面的效果:(1)對比基于LSTM 層融入詞信息模型的效果;(2)對比基于表示層融入詞信息而沒有使用句法結構信息的效果。通過以上模型對比,從而更好地體現出所提出模型的效果。
2.4.1 實驗環境配置
本實驗是基于NCRF++框架[18]搭建,其具體的訓練環境配置如表3所示。

表3 訓練環境配置Table 3 Training environment configuration
2.4.2 實驗參數配置
在本次實驗過程中,采用sgd來作為模型優化器,初始學習率設置為0.01,之后按照0.05的衰減率進行遞減。LSTM 隱藏層的特征維度設置為300,訓練批次大小為64,在LSTM的輸入和輸出設置Dropout,值為0.5,GRU的Clip值設置為5。具體的實驗參數配置如表4所示。

表4 參數設置Table 4 Parameter settings
通過采用文獻[19]中的方法,首先在BiLSTM-CRF僅僅基于字符的基礎上實驗,后續通過添加2-gram、3-gram和4-gram的實驗對比,結果如表5所示。

表5 Ecommerce語料、Resume語料和QI語料的實驗對比結果Table 5 Experiment comparison results of Ecommerce corpus,Resume corpus and QI corpus %
通過表中數據可以看出2-gram 相對于3-gram、4-gram 有較好的結果。與模型Lattice 和MultiGraph 對比本文的模型效果也有所提升。綜上,本文的模型在使用了gazetteers和句法依存樹的關系后使得模型效果顯著提升。在Ecommerce數據集和QI數據集上的提升比較明顯,主要是因為這兩個數據集的特殊符號和品牌名稱特殊字符較多,相對于Resume 數據集有更多的噪音信息,通過融入gazetteers 和句法結構關系可以緩解詞典匹配錯誤信息的傳遞,從而使得各項指標都得到了提升。對于Resume 數據集,數據格式和文本結構比較單一且文字信息較為工整,提升效果不是很明顯,但是相比于實驗中的其他模型,效果也得到了一定的提升。
為了對融入句法依賴解析所產生影響做出更加客觀的評價,將模型設置為四種情況進行消融實驗:(1)初始模型(不包含句法依賴結構和詞典信息)BiLSTM+bigram;(2)僅僅包含句法依賴信息,表示為BiLSTM+bigram+DT;(3)僅僅融入gazetteers 信息,表示為BiLSTM+bigram+gaz;(4)既包含gazetteers信息也包含句法依賴結構信息即本文的模型,表示為BiLSTM+bigram+gaz+DT,最終實驗結果如表6所示。

表6 Ecommerce語料、Resume語料和QI語料消融實驗結果Table 6 Ablation experiment results of Ecommerce corpus,Resume corpus and QI corpus %
通過實驗結果數據可以看出,在模型去掉gazetteers信息和句法依賴結構關系時,整體評測標準大幅下降,當初始模型加入句法依賴信息后,準確率和F1 值都有一定的提升;僅僅將詞典信息融入進去對于recall 值有很大的提升,準確率和F1 值提升幅度與僅僅加入句法依賴關系效果接近。將兩者共同融入后,所有的指標都得到了一個明顯的提升。由此可以看出句法依賴信息有助于提升詞的信息表示,進而提升各項評測信息的值。
針對中文命名實體識別任務,通過自適應圖神經網絡將詞信息、句法依賴信息、句子順序信息融合獲得語境化的詞向量,再結合傳統的神經網絡模型BiLSTMCRF,構建成新的實體識別模型。通過在Ecommerce數據集、Resume 數據集和自行標注的QI 數據集分別進行評測,相比于參考的其他模型都獲得了不錯的效果。所提出模型的最大優勢在于通過將句法依賴關系融合進詞的信息可以很好地緩解對于詞典中不存在的詞造成的融合錯誤信息的問題,從而使得該模型相比于其他模型識別效果得到了很好的提升。文中所研究的這個方法可以應用于其他領域對于中文命名實體識別模型的詞的消歧工作。