黃念娥,黃 河,王儒敬
(1.中國科學院 合肥智能機械研究所,合肥 230031; 2.中國科學技術大學 合肥物質研究院,合肥 230027)
(*通信作者電子郵箱hhuang@iim.ac.cn)
本體與條件隨機場結合的涉農商品名稱抽取與類別標注
黃念娥1,2,黃 河1*,王儒敬1
(1.中國科學院 合肥智能機械研究所,合肥 230031; 2.中國科學技術大學 合肥物質研究院,合肥 230027)
(*通信作者電子郵箱hhuang@iim.ac.cn)
傳統的基于條件隨機場(CRF)的信息抽取方法在進行涉農商品名稱抽取與類別標注時,需要大量的訓練語料,標注工作量大,且抽取精度不高。為解決該問題,提出了一種基于農業本體與CRF相結合的涉農商品名稱抽取與類別標注方法,將涉農商品名稱的自動抽取與分類看作序列標注的任務。首先是原始數據的分詞處理和詞、詞性、地理屬性、本體概念特征選擇;然后,采用改進的擬牛頓算法訓練CRF模型參數,用維特比算法實現解碼,共完成4組對比實驗,識別出7種類別,并將CRF和隱馬爾可夫模型(HMM)、最大熵馬爾可夫模型(MEMM)通過實驗進行比較;最后,將CRF應用于農產品供求趨勢分析。結合合適的特征模板,本體概念的加入使CRF開放測試的總體準確率提高10.20%,召回率提高59.78%,F值提高37.17%,證明了本體與CRF結合方法在涉農商品名稱和類別抽取中的可行性和有效性,可以促進農產品供求對接。
條件隨機場;農業本體;涉農商品名稱;供求趨勢;序列標注
隨著互聯網的快速發展,目前已有超過30 000家的涉農電商平臺[1],如阿里巴巴農業頻道、中國惠農網、順豐優選等,這些網站每天會發布大量種植業、林木花卉、農機、農具等各類涉農商品信息。通過對這些供求信息的分析,有助于預測農產品市場趨勢、及時發現買難賣難、促進供求自動對接。然而,對這些涉農供求信息分析之前首先需要對涉農商品名稱與類別進行抽取。如“廠家直銷 兩行玉米播種機 免剝皮玉米脫粒機”這條供求信息中,需要抽取出“玉米播種機”和“玉米脫粒機”這兩個涉農商品名稱,同時類別標注為農業機械類。這樣,就可以對一段時間內、不同地域的農業機械類的供求情況進行趨勢分析。
涉農商品名稱自動抽取與類別標注主要涉及農業領域術語自動抽取,包括基于規則與基于統計兩種方法。基于規則方法依賴于語言和領域規則模板的建立[2],需要人工編制大量規則和有經驗的領域專家,系統可移植性差?;诮y計的方法分為經典的統計方法和統計機器學習方法。經典的統計方法主要基于詞頻、互信息以及信息熵等。Guan等[3]利用關聯規則、C-value和詞頻-逆向文件頻率(Term Frequency-Inverse Document Frequency,TF-IDF)混合算法提取中國戲曲領域的專業術語。該方法克服了基于規則的缺點,但低頻術語通常不能被有效提取。統計機器學習方法中,最具代表性的為條件隨機場(Conditional Random Field, CRF)[4-7],利用序列標注的思想,融合上下文多特征提取領域術語。由于其條件獨立性,只需考慮當前已經出現的觀測狀態特性,對于整個序列內部的信息和外部觀測信息均可有效利用,避免了標記偏置問題,被廣泛應用。孟洪宇[8]通過CRF融合字符本身、詞性、詞邊界等多特征提取中醫術語,F值達到75.56%。Zhan等[9]利用兩層CRF提取簡單和復雜的術語,并通過領域相關性和一致性提取最終領域術語,F值為82.01%。
傳統CRF需要大規模的訓練語料[10-12]。針對涉農商品名稱抽取與類別標注,由于涉農商品名稱繁多,人工標注工作量大。如“玉米收割機”進行了標注,但當遇到“小麥收割機”時,如果樣本沒有標注,依然不能正確抽取,影響了抽取的精確率。而事實上,如果將“玉米”“小麥”的父類概念“糧油作物”作為CRF的一項特征,可實現由“玉米收割機”抽取出新詞“小麥收割機”。因此為實現對屬于同一概念的大量新詞(指未在樣本中標注的詞)進行有效抽取,文中將農業本體與CRF相結合,引入詞所對應的本體概念作為CRF的特征,賦予涉農商品名稱以語義知識,同時結合詞、詞性、地理位置特征進行CRF訓練,最終實現涉農商品名稱的抽取與類別標注。通過學習樣本,CRF模型表現出一定的“推理”能力,如將概念為糧油作物和收獲機械的相鄰實例詞作為一個涉農商品名稱抽取,類別識別為農業機械類,概念為生鮮水果和農作物種子種苗的相鄰實例詞抽取為種植業類的涉農商品名稱等;并將CRF與隱馬爾可夫模型(Hidden Markov Model, HMM)、最大熵馬爾可夫模型(Maximum Entropy Markov Model, MEMM)進行比較,同時用于農產品供求趨勢的分析。表明農業本體與CRF相結合進行涉農商品名稱抽取與類別標注方法的有效性。
1.1 農業本體
本體是關于概念體系的明確的、形式化的規范說明[13],農業本體是專業性的本體,表示的知識都是針對農業學科領域,提供了關于該領域中概念的詞表以及概念之間的關系[14-15]。
概念層次是本體的骨架,主要反映概念之間的父類子類關系。文中使用阿里巴巴農業(https://www.1688.com/)概念層次體系,結構如圖1所示,該分類體系有4個層次,包括218個葉子節點,目前已有超過170萬個農業供求信息映射到該分類體系中,因此基本可以涵蓋各種農產品供求類型,具有很強的覆蓋性。利用本體中的父子類概念知識表示詞所對應的概念,賦予詞以語義。生鮮水果作為蘋果、草莓的父類概念,可用生鮮水果描述蘋果、草莓;種植業作為生鮮水果、農作物種子種苗的父類概念,使用種植業來描述生鮮水果、農作物種子種苗,也可使用種植業來描述蘋果、草莓、蔬菜種子種苗等,進一步增強知識泛化能力。

圖1 農業本體概念層次樹
1.2 條件隨機場
CRF是用來標注和劃分序列結構數據的概率化的無向圖模型[4],具有表達元素長距離依賴性和交疊性特征的能力,在模型中可包含眾多領域知識[16]。
1.2.1 CRF模型
對于給定的輸出標記序列y=(y1,y2,…,yn)和輸入觀察序列x=(x1,x2,…,xn),CRF通過定義條件概念p(y|x,λ)來描述模型。圖2表示CRF鏈式結構。

圖2 CRF鏈式結構
CRF定義的條件概率公式為:

(1)
其中:x為觀察序列;y為標記序列;λ=(λ1,λ2,…,λn)為權重向量;λj為特征函數的權重;fj(yi-1,yi,x,i)為對應整個觀察序列x,標記位于i和i-1的特征函數;分母Z(x)為歸一化因子(保證所有可能的狀態序列概率之和為1),公式如下:

(2)
1.2.2 參數訓練


對λj求導:

分別表示經驗分布和模型分布中特征的期望值;令式(4)等于0,求λ。
由于改進的擬牛頓算法(LimitedBroyden-Fletcher-Goldfarb-Shanno,L-BFGS)只保存并利用近幾次迭代(迭代次數由使用者控制)的曲率信息來構造海森矩陣的近似矩陣,每次迭代的開銷小,執行速度快,能保證近似矩陣的正定,算法的魯棒性強[19]。本文選取L-BFGS算法估計似然參數λ。
1.2.3 解碼問題
對于x來說,CRF要做的就是搜索概率最大的y*,即求解式(5):

(5)
該式可通過維特比動態規劃算法[4]進行計算,對狀態序列作出最優估計。
模型的具體實現中,使用了Taku開發的CRF++-0.58工具包[20],該工具包支持自定義特征集,可輸出所有候選的邊際概率值,含訓練參數時的L-BFGS算法以及解碼時的維特比算法,可被應用到各種各樣的自然語言處理任務中。實驗在64位Windows7下,裝有Java、C++編譯環境進行,其他配置為IntelPentiumP6200,2.13GHz,2.00GBRAM。
2.1 數據集
數據集選自構建農業本體時使用的阿里巴巴網,從中抽取標題數據,包括七大類:種植業、園林業、養殖業、化肥、農業用具、農業機械及鮮活水產品加工制品,覆蓋了該網站中近90%的農產品信息,每類500條。
在轉換原始語料格式,構造標準的數據集時,利用基于開源HanLp自然語言處理包[21]的CRF分詞。分詞得到詞和詞性,并去除停用詞,如“阿里巴巴”“淘寶”“順豐”“包郵”等。如“大量供應優質紅小麥”CRF分詞后為“大量/m, 供應/vn, 優質/b, 紅小麥/nz”,首先利用Java程序經過“,”分隔,得到每個詞的詞和詞性組合,再經由“/”分隔,即可轉換為符合CRF++-0.58工具包的輸入格式。因涉農商品名稱很多由三個及以上詞組成,選取5詞位標注法,以詞為單位進行序列標注,標注符號集為(B,M,E,S,O),為實現類別標注,添加符號集(Z,L,YZ,H,Y,J,X)作為序列標注符號的后綴,各個符號含義如表1所示。如涉農商品名稱為“玉米小麥播種機”農業機械類中,標注為玉米(B-J)小麥(M-J)播種機(E-J)。
2.2 特征選擇
CRF標注算法中,特征選擇以及特征函數的定義至關重要,直接關系到模型的性能。CRF模型的特征一般分為三類[22]:原子特征、復合特征以及全局變量特征,針對不同語料,選取的特征不同。選取詞Word、詞性(Part-Of-Speech,POS)、地理屬性和農業本體概念作為特征。構建特征模板時,使用了對應的原子特征和復合特征,上下文特征窗口為5。

表1 序列標注符號含義
2.2.1 詞
由于涉農商品名稱具有領域性,有些詞只在本領域流通,故詞本身包含了最有效的信息,可作為特征。如“拖拉機”“玉米渣”“葉面肥”可作為農業領域的商品名稱。
2.2.2 詞性
詞性特征指當前字符的詞性,是涉農商品名稱的一個重要特征,一般而言涉農商品名稱為名詞,復合名詞,還包括部分動詞。如“麥麩/n”“狼/n青犬/nz”“麥稈/n撿拾/v打捆機/n”可作為涉農商品名稱。
2.2.3 地理屬性
涉農商品名稱中有些涉及到地理屬性,如“山東開溝機”“河南特產玉米”“黑龍江大豆”。對于這類數據,應將其地理屬性抽取出來,分詞后詞性標注為“ns”的表示地名,因此可很方便地將地理屬性作為特征加入到CRF中。
2.2.4 農業本體概念
選取詞在農業本體中所對應的概念作為CRF的一項特征,將詞進行泛化,利用概念知識表示實例詞,使詞具有語義。共使用2種本體概念,一種是實例詞在農業本體概念層次樹中對應的葉子節點概念,特征表示為F0;另一種是實例詞在本體中對應的上層概念,在此指去除葉子節點和根節點后所對應的概念,特征用F1表示。文中使用的農業本體概念如表2所示。如“菠蘿莓”對應的葉子節點概念為“草莓”,對應的上層概念為“生鮮水果”和“種植業”。

表2 詞所對應的本體概念關系
詞所對應的農業本體概念通過維護領域詞典實現。而中國搜農網供求搜索欄目(http://www.sounong.net/)共搜集全國1萬多個農業網站,擁有超過3萬條農產品信息,實現了農產品到類別的映射,將該知識與阿里巴巴分類體系建立聯系,實現涉農商品名稱到概念的映射,降低人工維護領域詞典的代價,提高自動化程度。圖3表示詞所對應的本體概念標注實現流程。

圖3 詞所對應的本體概念標注流程
3.1 實驗評價指標
涉農商品名稱抽取與類別標注的結果評價使用3個指標:準確率P、召回率R和F-值[23],公式表示如下:

(6)

(7)
(8)
3.2 基于CRF涉農商品名稱抽取與類別標注
選取數據集中70%為訓練數據,30%為測試數據,實現開放測試。實驗分為4組,每組包括7大類,即種植業、園林業、養殖業、化肥、農業用具、農業機械和鮮活水產品加工制品。第1組選取詞Word、詞性POS、地理屬性作為特征;第2組在前組的基礎上,加入詞在農業本體概念層次樹中對應的葉子節點概念特征F0;第3組基于第一組實驗的特征,直接加入詞在農業本體中對應的上層概念特征F1;第4組在第3組實驗特征基礎上,添加特征F0。實驗總體流程如圖4所示。

圖4 實驗總體流程
實驗結果如表3所示,在第1組特征基礎上,加入本體中對應的葉子節點特征F0,總的準確率P和召回率R上升;加入本體中上層概念特征F1,總體召回率大幅度地上升;同時使用F0和F1特征,準確率P高的同時也保證了召回率R高,總體F值達到92.32%,其中類別標記為化肥類的F值最高96.00%,園林業類的F值最低87.50%,表明基于本體與CRF相結合進行涉農商品名稱的抽取與類別標注的方法是有效的。

表3 基于CRF實驗結果 %
第1組實驗錯誤主要有:名詞組合“廣西/ns產地亞/nz熱帶/n”“天山/ns牌/n”“上海/ns強力/n”“荷蘭/ns 十五/nz”等提取為術語;“花卉/n”“磷肥/n”“滴灌管/n”“鮑魚汁/nz”等未被正確識別;“玉米/nf./nz小麥/n”“現貨/n鴕鳥蛋/nf”“爆款/nz低價/n香蕉/nf”“高產量/nz玉米/nf收割機/n”等作為一個整體抽取出來;養殖業、農業機械類的涉農商品名稱如“比利時野兔”“山東開溝機”等錯誤抽取為種植業類。在大量新的涉農商品名稱未被有效抽取與分類的前提下,保證準確率高,但召回率低,總體F值為68.30%。
第2組實驗中,加入詞在農業本體概念層次樹中對應的葉子節點概念特征F0,減少了錯誤分類的概率,可將第1組實驗中錯誤分類的部分名稱正確抽取分類;同時削弱詞Word、詞性POS特征的權重,降低了將非涉農商品名稱的名詞組合錯誤識別為涉農商品名稱的比率,但泛化能力較弱,對于新的涉農商品名稱抽取與分類能力很差,準確率和召回率得到提升,總體F值為72.71%。
第3組直接使用農業本體中的上層概念特征F1,賦予詞以概念知識,大大增強泛化程度,抽取出“菠蘿”“澆花噴壺”“芝麻香油機”“魷魚干”等新詞。通過學習樣本,CRF模型表現出一定的“推理”能力,如將概念為生鮮水果的單獨實例詞抽取為種植業類的涉農商品名稱,概念為糧油作物和種植機械的相鄰實例詞抽取為農業機械類的涉農商品名稱等。最終召回率大幅度提升,總體F值達到90.64%。
第4組綜合第2,3組實驗的特征,使用更詳細的特征和特征模板,準確率和召回率有所提升,總體F值為92.32%。其中園林業、養殖業類的F值與其他5類相比較低,主要是由于分詞錯誤影響較大以及地理屬性未被有效抽取,如將“樟子松木”分詞為“樟子/n松木/n”,“河北小豬”抽取出“小豬”。表4列出了抽取的部分涉農商品名稱以及標注的類別。
3.3 CRF與HMM、MEMM算法的比較
利用相同的數據集,選取上述第1組實驗中詞、詞性、地理屬性作為特征,分別利用CRF和HMM、MEMM完成開放測試,其中后兩種算法采用機器學習語言工具包(MAchine Learning for LanguagE Toolkit, MALLET)[24]實現,MALLET是用于文本分類、主題建模和序列標注等的Java工具包,實驗結果如表5。

表4 抽取的部分涉農商品名稱及類別標注
表5 CRF與HMM、MEMM(詞+詞性+地理特征)的比較 %
Tab.5 Comparative results of CRF, HMM and MEMM based on word, part of speech and geographical attributes %

類別HMMPRFMEMMPRFCRFPRF種植業類48.5349.8249.1770.3264.9567.5378.4471.8575.00園林業類56.6525.3034.9887.5332.8747.7992.3636.5252.34養殖業類71.4120.7932.2088.2230.8445.7094.7434.5050.58化肥類78.5643.4256.0792.7047.2162.5696.1252.6668.04農業用具類64.5853.1258.2976.1160.5867.4683.6870.3776.45農業機械類44.0531.6036.8069.4542.7952.9583.3768.6575.30鮮活水產品加工制品類72.3631.2343.6381.5737.9451.7986.9646.5160.61總體值62.3032.5942.7979.4143.0155.8084.4057.3668.30
實驗顯示,CRF的性能優于HMM、MEMM。主要由于HMM為產生式模型,具有嚴格的輸出獨立性假設,不能充分利用上下文多特征信息,對于由3個及以上的詞組成的涉農商品名稱抽取效率差,如將“玉米小麥收割機”抽取為兩個涉農商品名稱“玉米”“小麥收割機”,容易出現類別識別錯誤;MEMM克服了HMM的缺點,但使用每一個狀態的指數模型來計算給定前一個狀態下當前狀態的條件概率,容易陷入局部最優,存在標注偏置的問題;而CRF在所有特征上進行全局歸一化,能得到全局最優解,避免了MEMM缺點。因此文中選取CRF抽取涉農商品名稱與類別標注是有效的。
3.4 基于本體與CRF的農產品供求趨勢分析
涉農商品名稱及類別標注的有效抽取,不僅有助于促進農業供求交易的智能對接,而且可用于農業供求趨勢分析,了解市場動態。利用中國搜農網供求搜索欄目抓取的網站數據作為原始數據,通過第4組實驗的方法,抽取涉農商品名稱及分類,圖5(a)~5(d)表示2016年5月3日到6月6日連續5周內的供應求購趨勢。由圖5可知,四川省種植業類的商品求購量高于湖北省,兩省在第5周都有大幅度的上升;河北省農業機械類的農產品周供應量較為平穩,而山東省在第5周時上升幅度大,達到591;山東省養殖業類的供應量遠高于江蘇省,而園林業的供應量則低于江蘇省,反映出各地區農產品供應的差異性。根據這些供應求購趨勢信息,買賣雙方可依據地理位置,來選擇適合的產品,更好地促成實時交易,如山東省的客戶想購買玉米剝殼機,通過供應趨勢圖,則可就近選擇較好的相關產品,給購買者提供方便。

圖5 各類供應求購趨勢
本文基于農業本體與條件隨機場CRF相結合抽取涉農商品名稱實現類別標記,在詞、詞性和地理屬性特征基礎上,自動添加詞所對應的農業本體概念特征,對實例名稱進行不同程度的泛化,賦予詞以語義和概念知識。通過實驗,在一定范圍內,泛化程度越高,CRF模型表現出的“推理”能力越強,可有效地抽取測試語料中首次出現的涉農商品名稱并分類,在準確率高的前提下,也保證了召回率,大量減少訓練語料,降低人工工作量,與HMM、MEMM比較,體現出CRF的性能更優,并將此方法用于農產品供求趨勢分析,可了解市場動態。原始語料以及分詞工具的選取直接關系到CRF模型的性能,在今后的研究工作中,一方面將進行分詞方法改進,選取不同的訓練語料,進行CRF涉農商品名稱抽取研究,進一步提升準確率和召回率,另一方面嘗試從降低算法的復雜度入手,提高效率。
References)
[1] 于連軍.基于互聯網+的農業電子商務發展模式的研究[J].農業網絡信息,2015(11):19-21.(YU L J.Research on the development model of agricultural E-commerce based on Internet+ [J].Agriculture Network Information, 2015(11): 19-21.)
[2] LI L S, DAND Y Z, ZHANG J, et al.Domain term extraction based on conditional random fields combined with active learning strategy [J].Journal of Information & Computational Science, 2012, 9(7): 1931-1940.
[3] GUAN A Q, WANG Y B, YANG L F.Automatic term extraction for Chinese opera domain ontology [C]// Proceedings of the 12th International Conference on Fuzzy Systems and Knowledge Discovery.Piscataway, NJ: IEEE, 2015: 1372-1376.
[4] 宗成慶.統計自然語言處理[M].2版.北京:清華大學出版社,2013:110-128.(ZONG C Q.Statistical Natural Language Processing [M].2nd ed.Beijing: Tsinghua University Press, 2013: 110-128.)
[5] WALLACH H M.Conditional random fields: an introduction, technical report MS-CIS-04-21 [R].Philadelphia, PA: University of Pennsylvania, 2004: 262-272.
[6] FU W J, LI L.A method and application of automatic term extraction using conditional random fields [C]// Proceedings of the 2009 International Conference on Natural Language Processing and Knowledge Engineering.Piscataway, NJ: IEEE, 2009: 1-5.
[7] ZHANG C Z, WANG H L, LIU Y, et al.Automatic keyword extraction from documents using conditional random fields [J].Journal of Computational Information System, 2008, 4(3): 1169-1180.
[8] 孟洪宇.基于條件隨機場的《傷寒論》中醫術語自動識別[D].北京:北京中醫藥大學,2014:41-48.(MENG H Y.Automatic identification of TCM terminology in Shanghan Lun based on conditional random field [D].Beijing: Beijing University of Chinese Medicine, 2014:41-48.)
[9] ZHAN Q, WANG C H.A Hybrid strategy for Chinese domain-specific terminology extraction [C]// Proceedings of the 11th International Conference on Semantics, Knowledge and Grids.Piscataway, NJ: IEEE, 2015: 217-221.
[10] 王春雨.基于CRF的農業命名實體識別研究[D].保定:河北農業大學,2014:19-23.(WANG C Y.Study on recognition of Chinese agricultural named entity with CRF [D].Baoding: Agricultural University of Hebei, 2014: 19-23.)
[11] CAO Y S, WANG J, LI L.Word-level information extraction from science and technology announcements corpus based on CRF [C]// Proceedings of the 2nd IEEE International Conference on Cloud Computing and Intelligence Systems.Piscataway, NJ: IEEE, 2012: 1529-1533.
[12] IZUMI M, MIURA T, SHIOYA I.Estimating the date of blog authors by CRF [C]// Proceedings of the 2007 IEEE Pacific Rim Conference on Communications, Computers and Signal Processing.Piscataway, NJ: IEEE, 2007: 249-252.
[13] GRUBER T R.A translation approach to portable ontology specifications [J].Knowledge Acquisition, 1993, 5(2): 199-220.
[14] 李傳席.基于本體的自適應Web信息抽取方法研究[D].合肥:中國科學技術大學,2012:15-17.(LI C X.Adaptive Web information extraction method research based on ontology [D].Hefei: University of Science and Technology of China, 2012: 15-17.)
[15] LIU X G, DUAN X H, ZHANG H Y.Application of ontology in classification of agricultural information [C]// Proceedings of the 2012 IEEE Symposium on Robotics and Applications.Piscataway, NJ: IEEE, 2012: 451-454.
[16] 周晶,吳軍華,陳佳,等.基于條件隨機域CRF模型的文本信息抽取[J].計算機工程與設計,2008,29(23):6094-6097.(ZHOU J, WU J H, CHEN J, et al.Using conditional random fields model for text information extraction [J].Computer Engineering and Design, 2008, 29(23):6094-6097.)
[17] LAFFERTY J, MCCALLUM A, PEREIRA F.Conditional random fields: probabilistic models for segmenting and labeling sequence data [C]// Proceedings of the 18th International Conference on Machine Learning.San Francisco, CA: Morgan Kaufmann, 2001: 282-289.
[18] Sunfox66.條件隨機場詳解[EB/OL].(2015-10-25)[2016-01-17].http://wenku.baidu.com/view/bbd57f82fc4ffe473268ab59.html.(Sunfox66.Conditional random field introduction [EB/OL].(2015-10-25)[2016-01-17].http://wenku.baidu.com/view/bbd57f82fc4ffe473268ab59.html.)
[19] LIU D, NOCEDAL J.On the limited memory BFGS method for large scale optimization [J].Mathematical Programming, 1989, 45(45): 503-528.
[20] TAKU K.CRF++ toolkit [EB/OL].(2014-10-15)[2016-01-15].http://download.csdn.net/detail/linson3344/8039087.
[21] HANKCS.Han language processing [EB/OL].(2015-03-27)[2016-01-28].http://www.hankcs.com/nlp/hanlp.html.
[22] 施水才,王鍇,韓艷鏵,等.基于條件隨機場的領域術語識別研究[J].計算機工程與應用,2013,49(10):147-149.(SHI S C, WANG K, HAN Y H, et al.Terminology recognition based on conditional random fields [J].Computer Engineering and Applications, 2013, 49(10): 147-149.)
[23] 賈美英,楊炳儒,鄭德權,等.采用CRF技術的軍事情報術語自動抽取研究[J].計算機工程與應用,2009,45(32):126-129.(JIA M Y, YANG B R, ZHENG D Q, et al.Research on automatic military intelligence term extraction using CRF model [J].Computer Engineering and Applications, 2009, 45(32): 126-129.)
[24] MCCALLUM A K.MALLET: a machine learning for language toolkit [EB/OL].(2002-02-28)[2016-02-25].http://mallet.cs.umass.edu.
This work is partially supported by the National Science and Technology Support Program (2013BAD15B03), Chinese Academy of Sciences Key Deployment Project (Y622A21291), the Scientific and Technological Project of Anhui Province (1401032010).
HUANG Nian’e, born in 1991, M.S.candidate.Her research interests include information extraction, vertical search engine.
HUANG He, born in 1980, Ph.D., associate professor.His research interests include agriculture big data, agricultural intelligent system.
WANG Rujing, born in 1964, Ph.D., professor.His research interests include knowledge representation and visualization, knowledge acquisition.
Agriculture-related product name extraction and category labeling based on ontology and conditional random field
HUANG Nian’e1,2, HUANG He1*, WANG Rujing1
(1.InstituteofIntelligentMachines,ChineseAcademyofSciences,HefeiAnhui230031,China;2.HefeiInstituteofPhysicalScience,UniversityofScienceandTechnologyofChina,HefeiAnhui230027,China)
Traditional information extraction method based on Conditional Random Field (CRF) requires large-scale labeled corpus, it is expensive to label corpus manually and the extraction precision is low in processing agriculture-related product name extraction and category labeling.In order to solve this problem, a method of agriculture-related product name extraction and category labeling based on agricultural ontology and CRF was proposed, automatic extraction and classification of agriculture-related product names was regarded as sequence labeling.Firstly, original data was processed, word, part of speech, geographical attributes and ontology concept features were selected.Then, parameters of the CRF model were trained by the improved quasi-Newton algorithm and decoding was implemented by Viterbi algorithm.A total of four groups of comparative experiments were completed and seven categories were identified.CRF, Hidden Markov Model (HMM) and Maximum Entropy Markov Model (MEMM) were compared through experiments.Finally, the supply and demand trend analysis of agriculture produce was accomplished.The experimental results show that the overall precision, recall andF-score of the open test were increased by 10.20%, 59.78% and 37.17% respectively by adding ontology concepts with appropriate CRF features; it also proves the feasibility, effectiveness and practical significance of the method in promoting automatic supply and demand docking of agricultural products.
Conditional Random Field (CRF); agricultural ontology; agriculture-related product name; supply and demand trend;sequence labeling
2016-08-02;
2016-09-19。
國家科技支撐計劃項目(2013BAD15B03);中國科學院重點部署項目(Y622A21291);安徽省科技攻關項目(1401032010)。
黃念娥(1991—),女,安徽安慶人,碩士研究生,主要研究方向:信息抽取、垂直搜索引擎; 黃河(1980—),男,安徽合肥人,副研究員,博士,主要研究方向:農業大數據、農業智能系統; 王儒敬(1964—),男,安徽亳州人,研究員,博士,主要研究方向:知識表示與可視化、知識獲取。
1001-9081(2017)01-0233-06
10.11772/j.issn.1001-9081.2017.01.0233
TP391.1; TP18
A