依力達爾·依明


摘要:特定領域的命名實體識別方法在不同的領域中都會存在很大的差別。不同領域的文本具有其自身的不同的特性,這致使目前已有領域的識別方法很難滿足識別新的特定領域的發展需求。針對在特定新領域中所存在的問題,提出了以隨機場、半監督學習和主動學習相結合的方法為基礎對特定領域的命名實體的識別方法進行研究,從而形成一個特定的領域命名實體框架,進而能夠滿足各個不同領域的命名實體識別方法的需求。這篇文章選用了幾乎在所有特定領域中都能夠通用的方法構建特征,從而實現了對特定領域的命名實體識別方法的研究。
關鍵詞:特定領域;命名實體;識別方法;研究
中圖分類號:TP399 文獻標識碼:A
文章編號:1009-3044(2020)08-0208-03
特定領域中最基本的信息單位是命名實體,命名實體不僅是文本原有名稱的縮寫,也是文本的唯一標識,它往往能夠涵蓋文章的主要內容。命名實體的識別是現代自動化識別技術中的一門最基礎又極其重要的技術。最近幾年,對特定領域的命名實體進行現代化自動識別時已經非常的普遍了。在生物領域的命名實體識別,文獻針對不同的事物領域采用了不同的生物向量機,并且以隱馬爾可夫對生物醫學命名實體識別為基礎開展了生物領域的命名實體識別;文獻并且以隱馬爾可夫對生物醫學命名實體為基礎提出了一種產品命名的實體識別方法,從而實現漢語文本命名的識別;文獻在軍事領域方面,將機場的隨機條件和規則相結合的方式實現了對軍事領域的實體命名識別;文獻在音樂領域方面,以隱馬爾可夫對生物醫學命名實體為基礎提出了歌手名和歌曲名等進行了實體識別;文獻在醫學領域方面,使用了將條件隨機任何規則相結合的方式從而實現了醫學領域的命名實體識別。
為了能夠驗證這篇文章所采用方法的科學性與正確性,實驗部分做了反復多次的實驗,從而確保準確率達到相應的標準。經過一系列的實驗研究發現該方法在交通領域中得到了實現了的命名實體識別效果,從而驗證了該實驗方法可以在實驗的過程中應用。
1 特定領域命名實體識別方法的相關知識
由于各個文本在不同的領域中都有其不同的特點[1],所以文章所闡述的命名實體方法只能適用于特定領域的命名實體識別。如果將這些領域的命名實例方法應用于其他領域的命名實體識別,識別的效果將會意想不到的下降。所以這篇文章針對在命名實體中存在的問題進行了分析.從而提出了一種將條件隨機場監督學習和主動學習相結合的計算方法,既然形成了一個可以適用于特定領域的命名實體識別的技術框架[2]。這個實驗在開展的過程中所采用的是將各領域的文本的基本特征和基本構建進行結合的方法,然后在隨意的條件下對特定領域的命名實體進行識別,然后再使用人工對低于閾值的文本進行標注。
1.1 條件隨機場
條件隨機場指的是一些研究人員以隱馬爾可夫實驗和最大熵模型實驗為基礎提出的一種概率判別模型。概率判別模型可以很快地判別出眾多序列中的特征,從而可以用來克服隱馬爾可夫模型中嚴格的強獨立性假設問題。與此同時[3],條件隨機場通過對全局統一規劃可以得出最優輸出點的條件概率,從而可以有效地克服隱馬爾可夫模型中出現問題標記的現象。
組合參考頻率系統也被稱為馬爾可夫條件隨機場,它可以用來定義:在一組特定的觀察序列中,可以將該觀察序列記為X,給一個標記序列的連接記為Y。然后使用馬爾可夫條件隨機場將該條件區別看作為沒有條件的無向圖模型[4]。雖然條件無向圖的模型結構非常隨意,但是因為一階鏈結構在計算的過程中非常的簡單,所以在建立條件無向圖的模型結構時一般會采用一階鏈結構。組合參考頻率系統可以看為一階鏈狀無向圖模型的各輸出點之間的分隔,并且都存在一階鏈狀無向圖模型可以體現出馬爾科夫獨立性,如圖1所示:
通過圖1的一階鏈狀無向圖模型我們可以計算出Y的條件概率。
1.2 半監督學習算法和主動學習算法
半監督學習算法又被稱為自訓練算法。半監督學習算法是指將有監督學習和無監督學習算法進行結合的一種統計計算學方法。可以通過將大量的標注和未標注的語料進行分類和自主練習,并且整個計算過程都是自動化不需要人力的參與。關于城市城軌交通領域方面的文本,如果采用人工的方法對語料進行標注[5],不僅會嚴重地降低城市城軌交通的運行效率,反而會浪費大量的時間。因此為了能夠減少用人工對語料進行標注的方法使用,就需要多采用組合參考頻率系統進行反復的訓練,必要時還可以結合半監督學習算法,從而組建一個具有較強泛化能力的模型。
這篇文章采用半監督學習算法,基本流程如下所示:
輸入:已經標注的訓練集標記為L特征集合標記為V.沒有被標注的訓練集標記為U。
(1)利用已經標記的訓練集L在特征集合v上可以現在出模型Cl。
(2)再利用模型C1對沒有標記的訓練集U進行命名實體的識別,并計算沒有標記的訓練集U的置信度。
(3)從沒有標記的訓練集U中選擇出高于閾值的一個樣本u加入已經被標記的訓練集L中,最后從沒有標記的訓練集U中刪除高于閾值的樣本u。
(4)之后的計算就需要依照以上三個步驟反復地進行,最后得出最簡化的計算模型。
如果想要在計算的過程中采用半監督學習算法的方式[6],就需要選擇初始分類器具有高的分類精準性。如果計算人員不能夠保證初始分類器具有高度的分類精準性,并且在計算的過程中沒有人工的干預,那么就會導致在反復計算的過程中出現錯誤積累的現象,從而導致分類器的訓練實驗失效。
與半監督學習算法相比較,主動學習算法的優勢在于它能夠自動的選擇有利的訓練模型將沒有標注的樣本進行標注,從而在反復計算的過程中盡量減小標注成本和分類學習的計算規模。研究人員已經將主動學習算法應用到語言處理領域中[7],比如將文本語言進行分類、構建沒有標記的語料庫、語言實體的命名與識別等。再次與半監督學習算法相比較,半監督學習算法與主動學習算法兩者最大的區別在于:半監督學習算法不需要人工的干預,通過自身所選定的訓練模型來選擇置信度高并且沒有被標注的數據進行利用;而主動學習算法在計算的過程中,能夠自動化的選取最有價值的標注樣本加入已經標注過的樣本中。
2 以條件隨機場為基礎的命名實體識別
2.1 分詞和標注
這篇文章采用的是我們國家最具有權威性的分詞系統ICT_CLAS[8]。應用中國權威的中文分詞系統ICT-CLAS對城軌交通進行分詞處理,并且其詞性的標注結果將作為條件隨機場學習的重要特點。這篇文章使用字母符號為(A.B.C.D)集合對特定的領域文本實體的第一字符、中間字符和最后一個字符的集合中部分進行標注,還需要確保集合中的每一個字符都是{A.B.C.D)字母符號集合中的一種。
2.2 建立特征模板和函數
在條件隨機場訓練模型中,選擇和建立合適的特征模板將對模板的性能產生十分重要的影響[9]。特定領域中的文本將有其文本自身的特定性,為了使得所建立的模板適用于各個特定的領域中,這篇文章將使用以下四種基本特征建立特征模板和函數。
(1)選擇合適的詞特征。分詞后的每一個詞都可以作為模板的特征,因為詞特征本身的特征就可以很好的反映出該文本獨有的特性,所以選擇合適的詞特征就能夠代表已經選擇了選擇合理的模板特征[10]。
(2)詞性特征。這篇文章在對詞特征進行分類的過程中也對詞特征進行了標注。經過一系列列的實驗研究表明,用詞性特征來建立條件隨機機場可以很好地提高模板的計算性能。
(3)英文字母以及數字的特征。在很多特定的領域進行實體命名的過程中都會有一些數字[9]。比如:在醫學領域中的“化學藥物1.2”、城軌交通領域中的“飛馳號CRH381B”等。因為在實體命名的過程中加上一些數字可以有利于區分同一領域中的不同事物,所以使很多特定領域在進行實體命名的過程中,都會加入英文字母和一些數字。
(4)上下文特征。通過觀察序列的數值來看清序列本質,序列本身可以包含很多語言和文本信息。通過大量的實驗研究表明,在實驗范圍大的條件下,只運用訓練的上下文特征也能夠訓練出性能比較好的模型。
本文將上面所提到的四種文本普遍含有的特征融合在一起構成了還有特殊性能的特征模板。建立特征模板的目的就是為了獲得所需要的可以普遍使用的函數,而獲得特征函數的性能在一定程度上也將取決于本篇文章對城軌交通文本的識別效果。
3 將半監督學習和自動學習相融合所獲得的命名實體的識別辦法
在現有的命名實體識別的范圍中,以條件隨機場和半監督算法相結合的命名實體方式非常的多見[11-13]。正如這篇文章所提及的半監督算法會從沒有標記的本集U中選出一個置信度高于閾值一個的u來加入沒有被標注的樣本L中。正在計算的理論角度來看,當所選中集合中的數量擴大之后,就需要建立新的數據模型Dn。但是在新添加的訓練樣本中有一部分的數據對提高新建的數據模型Dn性能沒有起到任何作用。因為這些數據是在原有的樣本中被標記出來的,所以所添加的數據在原有的數據模型中屬于多余部分。除此之外,因為已經有了特定領域缺乏豐富的分詞標注,所以使得現有的分詞領域系統不在適用于特定領域系統,進而導致特定領域系統的分詞出現準確性低的現象[14]。根據上面講述的兩點來看,若在命名實體識別的過程中僅應用半監督學習和自動學習相融合的方法,模型在反復循環計算的過程中不僅會降低計算的速度,而且會使計算的錯誤反復的積累。然而,如果將半監督學習和主動學習算法進行結合,可以很好地克服在計算過程中出現的這種不良現象[15]。因為主動學習算法可以將不能被原模型進行標注的數據進行人工標記,然后再將標記好的數據重新放入到新的訓練模型中。這樣不僅能夠減少分類器在分類過程中出現的錯誤,而且也能夠實現原有的模型在特定領域中的使用。
3.1 在置信度基礎上的主動學習
這篇文章將不能被原有模型進行標記的數據稱為有效數據,并且這些樣本存在于沒有被標記的數據中。在這里我們可以使用置信度將這些數據選擇出來作為有效數據。通過一系列的就算得到圖2所示的計算結構模型。
該結構模型的算法流程圖如下所示:
輸入已獲得標記的樣本集為L;沒有被標記的樣本集稱為U。
(1)獲取少量已經被標注的語料看作為l。
(2)使用條件隨機場對L進行訓練練習,產生條件隨機場模型Dn。
(3)使用條件隨機場模型Dn對U命名實體進行命名識別,并對U命名實體進行標注結果的置信度估算,即獲得一個條件概率為P(YIU)。
(4)選擇由U本集中置信度低于閾值的數據作為有效數據,并將這些有效數據標記為useful。
(5)然后再對有效數據useful進行標記,標記好的數據稱為u。
(6)再把這些標記好的數據又加入樣本集中L,并從沒有被標記的樣本集U中刪除。
(7)將上面所闡述的六個過程進行反復的計算,直至所計算的模型Dn處于收斂狀態。
最后輸出的數據模型為Dn。
4 該實驗的結果以及實驗結果分析
為了能夠有效地驗證該實驗結果是科學和準確的,這篇文章采用了城軌交通的方式來進行了驗證。相對交通的方式包括地鐵、高鐵和磁懸浮列車等。并且因為目前國內沒有統一的城軌交通語料庫,所以就需要通過人工進行語料庫的收集。這篇文章所需要的數據來源于很多的新聞報道和報紙以及網絡信息,一共設計了200片科學性的文章。并且本次實驗所采用了非常著名的條件隨機場開源工具和實驗方法,而且還使用了半監督學習計算方法和主動學習計算方法,雖然實現了對城市交通軌道的命名實體識別。
這次實驗采用了四組實驗對比,分別使用了半監督學習計算方法和主動學習方法以及三種學習計算方法相結合的方式進行反復重復的計算。
5 結束語
本文提出的是在條件隨機場的條件下,將半監督學習和主動學習計算方法相結合的方法對特定的領域進行命名識別。這種方法使用半監督學習中的半監督算法的條件隨意機場進行反復的運算,并且在其反復運算的過程中選擇出置信度低于閾值的有效數據,并將這些有效數據加入已經被標注的樣本中。這種計算方法結合了主動學習算法的理論。并且該計算方法在城軌交通命名方面得到了很好的命名實體識別結果。這篇文章不僅使用了最基本的技術文本特征和基礎構建對特定的領域我們進行隨機訓練,而且選擇和增加不同領域的多種特征是下一次實驗的研究重點。為了使特定領域的命名實體識別方法研究得更加深層入,這需要研究人員結合不同領域的多種特點進行研究。總而言之,將特定領域的命名實體識別方法不斷地進行突破與創新是推動特定領域命名實體識別方法的快速進步的基礎。
參考文獻:
[1]張磊,特定領域的命名實體識別方法的研究[J].計算機與現代化,2018(3):60-64.
[2]張寧.面向特定領域的命名實體識別技術研究[D].杭州:浙江大學,2018.
[3]張磊.特定領域命名實體識別通用方法的研究[D].北京:北京交通大學,2018.
[4]何曉藝.面向領域文本知識實體識別及關系抽取的關鍵技術研究[D].石家莊:河北科技大學,2018.
[5]劉璟.中文命名實體識別方法研究[J].電腦知識與技術,2019,15(9):179-180.
[6]張曉海,操新文,高源.基于深度學習的作戰文書命名實體識 別[J].指揮控制與仿真,2019,41(4):22-26.
[7]王路路,艾山·吾買爾,吐爾根·依布拉音,等.基于深度神經網絡的維吾爾文命名實體識別研究[J].中文信息學報,2019,33(3):64-70.
[8]趙鴻陽.基于深度學習的電子病歷命名實體識別的研究與實現[J].軟件,2019,40(8):208-211.
[9]張祥偉,李智.基于多特征融合的中文電子病歷命名實體識別[J].軟件導刊,2017,16(2):128-131.
[10]高甦,金佩,張德政.基于深度學習的中醫典籍命名實體識別研究[J].情報工程,2019,5(1):113-123.
[11]宋希良,韓先培,孫樂.面向新類型人名識別的數據增強方法[J].中文信息學報,2019,33(6):72-79.
[12]原旎,盧克治,袁玉虎,等.基于深度表示的中醫病歷癥狀表型命名實體抽取研究[J].世界科學技術一中醫藥現代化,2018,20(3):355-362.
[13]張海楠,伍大勇,劉悅,等.基于深度神經網絡的中文命名實體識別[J].中文信息學報,2017,31(4):28-35.
[14]祖木然提古麗·庫爾班,艾山·吾買爾,中文命名實體識別模型對比分析[J].現代計算機,2019(14):3-7.
[15]徐梓豪.基于統計模型的中文命名實體識別方法研究及應用[D].北京:北京化工大學,2017.
【通聯編輯:唐一東】