費建軍
摘要:信息化時代的到來,人們從互聯網中快速獲得大量的信息。如何高效的從海量數據中獲取有用的資源的需求和人工智能的興起,促進了問答系統的發展。問答系統是構架于信息抽取之上,其影響著知識庫的結構和解析問句的方式。命名實體是信息抽取領域的一個子集。所以本文主要是針對實體識別模型進行研究,本文介紹了三中主流實體識別模型的,并將股票實體作為研究對象,最終采用了CRF(Conditional Random Field)條件隨機場模型。在該模型基礎上根據上下文和詞性特征,提出了CC-CRF識別算法。利用CRF++訓練得到能夠識別代碼和名稱的CC-CRF實體識別模型。
關鍵詞:股票;命名實體識別;CRF模型
中圖分類號:TP391.6 文獻標識碼:A 文章編號:1007-9416(2017)07-0093-04
命名實體通常指的是現實中獨立存在的具體的或者抽象的事物[2]。如何使計算機能夠理解自然語言是智能問答系統需要解決的一個關鍵問題。自然語言處理的研究范圍包括詞法分析、信息抽取、自動文摘等[1]。 信息抽取領域中,命名實體識別作為重要分支[3],其任務是標注語句中的實體,所以命名實體的識別有著非常關鍵的意義。作為文本的基本單位,它包含大量的語義信息,因此對命名實體進行識別可以保證最簡單快捷的獲得文本信息。他存在的價值就是標注語句中的實體,實體的識別對正確解析自然語言有著極其重要的作用。識別的實體領域一般為人名、機構名、地名以及專有名詞等。在實際研究中,還需要根據具體要求來確定。本文中,要識別的實體為股票名稱與股票代碼[4]。命名實體識別在問句處理和知識庫的構建方面發揮著關鍵性的作用。
命名實體識別的方法主要有:基于規則和詞典的方法、基于統計的方法和二者混合的方法[5]。
本文介紹了四種命名實體識別模型(基于規則和詞典的方法、隱馬爾科模型、最大熵模型、條件隨機場模型)以及每種模型的優缺點。在經過對比并且結合股票命名實體的特點,選擇條件隨機場作為投資領域命名實體的模型。并在此基礎上提出了引入了上下文特征和詞性特征的CC-CRF識別算法。使用該模型對語料訓練得到CC-CRF模型,并對模型的識別效果進行測試。
1 相關工作與常規實體識別模型
1.1 基于規則和詞典的方法
基于規則和詞典的方法的核心是規則模板構造,但是模板的構造必須由相關領域的專業人士來進行。用其來識別該領域的命名實體。這種方式是該領域剛剛起步時候的識別方式。這種方式的缺點十分明顯:成本太高、需要大量的人力時間構造相關領域規則模板、可移植性差。因此此類方法不是本文的研究重點。
1.2 基于統計的方法
基于統計的方法的核心是機器學習。此類方法以訓練語料為輸入,利用語料對模型進行訓練,最終得到命名實體識別模型并輸出。基于統計的方式不需要專業的語言學人才,也極大地降低了時間成本。基于統計的方法主要包括:隱馬爾科夫模型、條件隨機場、最大熵模型等[6]。
1.2.1 隱馬爾科夫模型
馬爾科夫模型[7]用來描述一個隨機過程,該隨機過程不可被直接觀察,但是可以通過另外一個可觀察的隨機過程間接觀察。該模型有其局限性,他必須是建立在以下的條件上:嚴格的獨立性假設,即觀察值只受狀態的影響,而不受其他條件的影響。并且作為一種產生式模型,它需要通過枚舉出所有可能的觀察序列來獲得標注序列和觀察序列的聯合概率。這對于長距離序列來說,窮舉所有的觀察序列是不現實的。
1.2.2 最大熵模型
為了保證概率預測的隨機性和正確性,在推測一個隨機事件的概率時,不要作出除了客觀約束條件規定以外的任何干涉。滿足上述要求的模型,熵值一定是最大的[8]。在自然語言處理中,熵就是信息的不確定程度。熵值越大,分布所受的干涉越少,預測越接近真實情況。最大熵模型不需要嚴格的獨立性假設,上下文信息可以被充分挖掘。它避免了隱馬爾科夫模型的缺陷。另外,最大熵模型只需考慮如何選擇特征。但是最大熵模型的時間復雜度非常高,而且可能發生標記偏置的情況。
1.2.3 條件隨機場模型(CRF)
條件隨機場(conditional random field,CRF)模型指的是給定輸入變量的條件下得到輸出變量的條件概率[9]。對應到命名實體識別中,條件隨機場即為判別給定觀察序列的標注序列的條件概率模型。條件隨機場模型既保留了最大熵模型和隱馬爾可夫模型的優點,又克服了他們存在的缺陷。CRF模型不需要獨立性假設。它也避免了標記偏置問題。而且在性能上,條件隨機場要優于其他兩種方式。然而,較高的時間和空間消耗是制約條件隨機場性能的缺點。
CRF模型一般被看做無向圖模型。設G=(V,E)為一個無向圖,其中的頂點集合為V,邊的集合為E。X為觀察序列,Y為對應的標注序列。則標注序列中的隨機變量與G中的點V對應。馬爾科夫特性指的是某點是頂點的概率只和與它相連接的頂點有關。如果任一個隨機變量都服從馬爾科夫特性,即:
,
則將符合上述條件的(X,Y)稱為條件隨機場。
設表示線性鏈條件隨機場,則有如下等式:
2 CC-CRF命名實體識別算法
CC-CRF識別算法在CRF模型的基礎上引入了上下文特征(Context)和詞性特征(Characteristic)。提出面向股票領域的CC-CRF實體識別算法。使用CRF++在此算法上對標注好的股票相關語料進行訓練,得到CRF模型。最后并對模型進行測試,并對識別結果進行分析。
CC-CRF算法具體的實現方式如下:
(1)進行語料標注。根據2.3章節中的表3、表4進行語料標注。具體請參照2.3章節。
(2)定義特征模板。根據2.1、2.2章節中的表1、表2寫入CRF++的template文件中,完成CRF++的特征模板設定。具體請參照2.1、2.2章節。endprint
(3)模型訓練。本文的實驗環境是ubuntu 14.04,在終端中執行如下代碼:
crf_learn -f 3 -c 4.0 template corpus_train.txt crf_model
其中 -f為使用屬性的出現次數 -c為代價參數,訓練結果將產生一個CRF模型——crf_model。
2.1 上下文特征說明
為了更好的描述模型,CRF的特征模板可以借助上下文信息,充分的挖掘其內在的規律加以利用。在實際訓練中,上下文的長度將會對結果產生影響。過長會增加模板的數量、訓練時間的空耗、極大可能產生擬合;過短則會使信息挖掘力度不夠不能產生最優特征函數。在股票領域的文本中,股票名稱往往和“股票”等詞相連,并且股票代碼一般緊挨著股票名稱”出現。因此,上下文特征的引用可以增加股票實體識別的精準率。在本文中,選擇設置上下文信息長度為2。上下文特征模板如表1所示。
2.2 詞性特征說明
除了上下文特征外[10],詞性特征也可以反映文本中和實體有關的信息。一般來說,股票名是名詞(n),代碼是數詞(m),股票一般是名詞和動詞(v)連在一起。因此,也將詞性特征引入股票實體的識別模型中。詞性特征模板如表2所示。
2.3 訓練語料制作和標注
本文主要針對投資領域中的股票類命名實體進行識別,標注文本中的股票名稱和股票代碼。由于并沒有投資領域語料庫,因此相關訓練語料需要人工獲取并制作。本文在同花順財經上抓取了股票相關的文本,主要范圍是財經新聞及題目,從中挑選了800條語句作為實驗材料。從這800條語句中,隨機抽取100條來制作測試用語句,其余用來制作訓練語料。
在CRF的訓練中,語料必須遵循嚴格的格式要求:每個字(詞)及其屬性為一行。因此,在得到分詞結果后,再對分詞結果進行格式處理,分別得到11316條訓練語料和5018條測試語料。
在得到語料后,還需要對語料進行標注。本文定義的標注集如表3所示。
在確定了標注集以后,手工標注訓練語料和測試語料。標注樣例如表4所示。
最后得到本文CRF模型訓練所需的語料,將標注好的11316條語料寫入文件corpus_train.txt作為訓練語料,剩下的寫入文件corpus_test.txt作為測試語料。
3 結果與分析
在終端中執行如下代碼:crf_test -m crf_model test_001 > result.txt
執行完該語句后,模型將對測試語料test_001進行命名實體識別并且標注,生成結果寫入文件result.txt中。測試結果圖1所示。
3.1 結果分析
在對模型進行測試后,需要分析標注結果。準確率、召回率和F值可以全面的反映識別的性能。
設識別出的正確的實體數量為n*,識別出的全部實體數量為n,集合中全部正確的實體數量為N,則有:
準確率:
召回率:
F值:
其中,F值綜合了P值和R值,F值越高,說明P值和R值越高,模型的性能越好。通過對test_result.txt的處理,得到CC-CRF模型的識別結果如表5所示。
3.2 實驗總結
從結果來看,CC-CRF算法在股票實體方面的識別效果已經非常好。CC-CRF保證了模型效果的均衡性和穩定性,在準確率和召回率方面基本比較優秀。
4 結語
信息化時代的到來,人們從互聯網中快速獲得大量的信息。如何高效的從海量數據中獲取有用的資源的需求和人工智能的興起,促進了問答系統的發展。而本文講述的命名實體對智能問答系統的架構和發展也起到著非常關鍵的作用。
本文的主要內容是研究以命名實體識別為代表的信息抽取問題。在綜合研究面向的對象以及三種常見模型的優缺點后,并以股票為例進行說明,選擇條件隨機場作為投資領域命名實體的模型。并且在CRF模型的基礎上,引入了上下文特征和詞性特征,提出了CC-CRF識別算法。通過數據收集、語料制作、訓練、識別等步驟,利用CRF++訓練出了針對股票代碼和股票名稱的CC-CRF模型。其結果在準確率與召回率方面均比較優秀。為智能投資問答系統的架構和實現做到了拋磚引玉。
參考文獻
[1]李生.自然語言處理的研究與發展[J].燕山大學學報,2013,(05):377-384.
[2]楊燕.面向電商領域的智能問答系統若干關鍵技術研究[D].華東師范大學,2016.
[3]郭喜躍,何婷婷.信息抽取研究綜述[J].計算機科學,2015,(02):14-17+38.
[4]吳陽.財經領域命名實體識別方法的研究與系統實現[D].哈爾濱工業大學,2015.
[5]孫鎮,王惠臨.命名實體識別研究進展綜述[J].現代圖書情報技術,2010,(06):42-47.
[6]王峰.基于CRF的中文命名實體識別方法研究[D].中北大學,2011.
[7] Liu J. Chinese named entity recognition algorithm based on the improved hidden Markov model [J].Journal of Chemical & Pharmaceutical Research, 2014, 6(7): 1474-1478.
[8]Ratnaparkhi A. Maximum Entropy Models for Natural Language Processing [J]. Encyclopedia of Machine Learning, 2011, (25):647-651.
[9]Baltrusaitis T, Banda N, Robinson P. Dimensional affect recognition using Continuous Conditional Random Fields[J]. Automatic Face and Gesture Recognition (FG), 2013, 4(26):1-8.
[10]史海峰.基于CRF的中文命名實體識別研究[D].蘇州大學,2010.endprint