基于兩類統(tǒng)計機器學(xué)習(xí)模型的中文化學(xué)物質(zhì)名稱識別研究

2011-12-31 00:00:00潘國巍吉久明李楠鄭榮廷

現(xiàn)代情報 2011年11期

〔摘要〕與基于詞典和基于規(guī)則的識別方法相比，統(tǒng)計機器學(xué)習(xí)方法更加適合被應(yīng)用到命名實體的識別工作中來。本文主要在中文化學(xué)物質(zhì)名稱的識別工作中，考察兩類統(tǒng)計機器學(xué)習(xí)模型識別效果及識別效率的優(yōu)劣，實驗結(jié)果表明，在所取訓(xùn)練語料與測試語料相同的情況下，以CRF模型為代表的條件概率模型可以展現(xiàn)出更好的實驗性能。

〔關(guān)鍵詞〕中文化學(xué)物質(zhì)名稱；條件隨機場；支持向量機；識別效果；識別效率

ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１００８－０８２１．２０１１．１１．０４０

〔中圖分類號〕ＴＰ３９３〔文獻(xiàn)標(biāo)識碼〕Ａ〔文章編號〕１００８－０８２１（２０１１）１１－０１６３－０３

Research on Recognition of Chinese Chemical Substance

Names Based on Two Kinds of Machine Learning MethodPan Guowei Ji Jiuming Li Nan Zheng Rongting

（Institute of Science and Technology Information，East China University of Science and Technology，

Shanghai 200237，China）

〔Ａｂｓｔｒａｃｔ〕Comparing with the recognition methods based on dictionary or rule，the method based on machine learning is suitably to be applied to the research on NER(named entity recognition).This article mainly evaluated the performance of two kinds of machine learning methods SVM and CRF in the course of recognizing Chinese chemical substance names，and the result of the experiment showed:in the condition of selecting same training sample and testing sample，the conditional models(Take the CRF for example)reveal the better performance.

〔Ｋｅｙｗｏｒｄｓ〕CRF;Chinese chemical substance names;labeled on char;labeled on word;Quantity of feature

１研究背景

現(xiàn)階段學(xué)術(shù)界對于化學(xué)領(lǐng)域?qū)Ｓ忻~進(jìn)行識別研究的文獻(xiàn)數(shù)量極少。從國外文獻(xiàn)調(diào)研情況來看，國外相關(guān)學(xué)者對化學(xué)領(lǐng)域的專有名詞研究較多且成果顯著。如有國外學(xué)者采用CRF模型專門針對外文期刊和專利中符合或類似IUPAC（國際純粹與應(yīng)用化學(xué)聯(lián)合會）命名規(guī)范的化學(xué)物質(zhì)名稱進(jìn)行識別［５］，國外學(xué)者對外文化學(xué)專有名詞識別的思路和方法可以借鑒到我們識別中文化學(xué)專有名詞的研究中來。

國內(nèi)學(xué)者對化學(xué)專有名詞進(jìn)行識別的研究主要集中在生物醫(yī)學(xué)分領(lǐng)域的專有名詞識別，如識別生物醫(yī)學(xué)文獻(xiàn)中的蛋白質(zhì)、DNA等，例如Ying He and Mehmet Kayaalp在2008年，利用GENIA語料庫進(jìn)行生物學(xué)領(lǐng)域的命名實體識別［２］，但這些研究以英文文獻(xiàn)語料庫為主，缺乏對中文文獻(xiàn)語料庫的研究。有學(xué)者［３］采用規(guī)則和統(tǒng)計模型相結(jié)合的方法對商品文本中的藥物名稱和化學(xué)物質(zhì)名稱進(jìn)行識別，但識別效果不佳，化學(xué)物質(zhì)名稱的正確識別率不足60%。

本課題組對化學(xué)物質(zhì)名稱的識別進(jìn)行了一系列的研究，主要包括：（1）應(yīng)用基于規(guī)則的方法對化學(xué)文獻(xiàn)中的化學(xué)物質(zhì)名稱進(jìn)行識別，并取得了較好的實驗結(jié)果［４］，但該方法的一個重大缺陷是對化學(xué)文本中的不規(guī)范物質(zhì)名稱（化學(xué)物質(zhì)名稱縮寫、個人習(xí)慣寫法、俗名等）無能為力；（2）將CRF模型引入到中文化學(xué)物質(zhì)名稱識別任務(wù)中，分別研究了字標(biāo)注及詞標(biāo)注兩種標(biāo)注方法的識別效果。由于沒有考慮上下文信息，仍存在過識別現(xiàn)象［１４］。（3）將啟發(fā)式規(guī)則與CRF相結(jié)合，降低了化學(xué)物質(zhì)命名識別中兩類常見錯誤“邊界識別錯誤”以及“由已登錄詞導(dǎo)致的長命名截斷錯誤”的出現(xiàn)頻率，將識別效果提升了10個百分點［１５］。

此外，通過對中文命名實體識別的研究文獻(xiàn)進(jìn)行計量分析，發(fā)現(xiàn)使用CRF和SVM模型的文獻(xiàn)數(shù)量較多且識別效果較其他統(tǒng)計模型更佳，在機構(gòu)名和地名的識別實驗中，CRF的識別效果遠(yuǎn)遠(yuǎn)高于其他統(tǒng)計模型，如HMM、SVM、MEM等，而人名識別中，MEM算法的表現(xiàn)較好，SVM次之［１３］。本文對SVM在中文化學(xué)物質(zhì)名持識別方面的表現(xiàn)進(jìn)行研究，并與CRF模型進(jìn)行對照，通過實驗比較以發(fā)現(xiàn)最適合中文化學(xué)物質(zhì)名稱識別的識別方法。

２模型對比介紹

２.１ SVM 支持向量機模型

支持向量機算法(Support Vector Machine，SVM)是Corinna Cortes和Vapnik等人1995年首先提出的，最早發(fā)表在《Support-Vector networks》一文中，主要用來解決兩類分類問題的新的機器學(xué)習(xí)模型。

SVM支持向量機模型是運用監(jiān)督式學(xué)習(xí)方法分析數(shù)據(jù)和識別分類的模型，通過一系列的訓(xùn)練語料建立模型，模型對于新的測試語料進(jìn)行分類，來判斷測試語料中的記錄屬于哪個類別。

支持向量機會在無限的空間中建立一組或一個超平面用于分類，最優(yōu)的超平面是能夠使相近的訓(xùn)練數(shù)據(jù)之間建立最大的空間距離，因為空間距離越大，那么分類的錯誤率也會降低。

支持向量機的難點在于對于低維空間內(nèi)難以劃分的問題映射到高維空間中去，才能進(jìn)行分類，而核函數(shù)恰好能夠解決這個問題，因此，只要選取適當(dāng)?shù)暮撕瘮?shù)，就可以得到高維空間中的分類函數(shù)。

２.２ CRF條件隨機場模型

條件隨機場模型（Conditional Random Fields，CRFs）是2001年由Lafferty等人提出的，其理論思想主要來源于最大熵模型，最大熵模型的假設(shè)條件是，在已知條件的限制下，對于未知部分的概率分布應(yīng)該是均等的，就是熵最大。從最大熵的實質(zhì)來說，也就是在已知部分知識的前提條件下，關(guān)于未知分布最合理的推斷是符合已知知識的不確定性或最隨機的推斷。條件隨機場模型本身是一種無向圖模型，它是在給定需要標(biāo)記的觀察序列的條件下，計算整個標(biāo)記序列的聯(lián)合概率分布，并不是在給定當(dāng)前狀態(tài)條件下，定義下一個狀態(tài)的狀態(tài)分布。因此，CRF可以克服通常的基于有向圖模型的標(biāo)注依賴等問題，而且可以更好的結(jié)合各種上下文信息。

CRF這種新的模型可以有效地克服產(chǎn)生式模型和條件模型存在的缺點，首先，產(chǎn)生式模型需要列舉出所有的觀察值，這樣才能有效地計算出觀察值和標(biāo)記值之間的聯(lián)合概率分本，對于有限的訓(xùn)練樣本來說，這是很難實現(xiàn)的。其次，產(chǎn)生式模型還要求嚴(yán)格遵循獨立性假設(shè)。再次，盡管條件模型能夠有效地克服產(chǎn)生式模型的缺點，然而有向圖的條件模型無法克服標(biāo)記偏置的問題。對于CRF模型，既可以克服產(chǎn)生式模型的上述缺點，還可以克服標(biāo)記偏置的問題。

３實驗結(jié)果及分析

３.１實驗設(shè)置

本文的實驗中對SVM模型采取 “單字標(biāo)注”和“單元詞標(biāo)注”方法，使用與文獻(xiàn)［１４］相同的切分方法、特征及特征模板，在相同的語料庫中進(jìn)行訓(xùn)練并測試，以便比較出SVM和CRF的識別效果和識別效率。另外，實驗還將通過不斷增加特征的數(shù)量，考察SVM統(tǒng) 計模型對特征數(shù)量的依賴程度。由于SVM的特征值類型與CRF的特征值類型有所不同，因此相應(yīng)的標(biāo)注方法也有所變化，本文將語料庫中的字詞分成4類為1、2、3、4，其中1表示化學(xué)物質(zhì)名稱的開始，2表示化學(xué)物質(zhì)名稱中除開始位置外的其他位置，3表示獨立成詞的化學(xué)物質(zhì) 名稱，4表示其他詞匯（非化學(xué)物質(zhì)名稱），通過這種相似設(shè)置使CRF的BIOZ詞位標(biāo)記［１４］與SVM的四分類對應(yīng)起來。SVM的特征值設(shè)置見表１：

表１ SVM特征標(biāo)記的設(shè)置

特征標(biāo)記特征標(biāo)記的設(shè)置特征標(biāo)記1：特征字（詞）1（是化學(xué)物質(zhì)名稱字（詞）），0（不是化學(xué)物質(zhì)名稱字（詞））特征標(biāo)記2：特征字（詞）概率無需進(jìn)行轉(zhuǎn)換，直接利用所求特征字（詞）的概率數(shù)字（浮點型數(shù)字，處于0～1之間）特征標(biāo)記3：特征字（詞）文檔概率無需進(jìn)行轉(zhuǎn)換，直接利用所求特征字（詞）的文檔概率數(shù)字（浮點型數(shù)字，處于0～1之間）

由于本文所進(jìn)行的實驗不涉及對這兩種算法的改進(jìn)研究，所以在實驗中仍使用臺灣林智仁教授開發(fā)的LIBSVM-2.91工具包。

３.２實驗結(jié)果

訓(xùn)練語料采用文獻(xiàn)［１４］中提到的2 500條有機化學(xué)文摘，并對單字和單元詞分別在訓(xùn)練集中進(jìn)行訓(xùn)練得到訓(xùn)練模型，再利用得到的訓(xùn)練模型在測試語料庫的500條有機化學(xué)文摘中進(jìn)行測試，與CRF對照的實驗結(jié)果如下：

特征1特征1、2特征1、2、3CRF單字標(biāo)注1 535.111 950.722 121.88SVM單字標(biāo)注3 6004 5005 505CRF單元詞標(biāo)注138.41153.47170.55SVM單元詞標(biāo)注1 0501 7452 500注：因SVM算法不能自動計算運行時間，所以表4.5中的SVM耗費時間由人工計算，與實際運行時間相比可能略有誤差。

３.３實驗分析

在上文的實驗結(jié)果中可以發(fā)現(xiàn)，無論采用條件隨機場模型還是支持向量機模型，都取得了較好的實驗效果，尤其是采用條件隨機場模型，可以使識別正確率達(dá)到80%以上，證明將統(tǒng)計機器學(xué)習(xí)方法應(yīng)用于中文化學(xué)物質(zhì)名稱的識別是切實可行的。

從表２可以發(fā)現(xiàn)，無論是單字標(biāo)注和單元詞標(biāo)注，條件隨機場模型的識別效果均好于支持向量機的識別效果，證明條件隨機場CRF模型比支持向量機SVM模型更加適合應(yīng)用到中文化學(xué)物質(zhì)名稱的識別中。

特征的選取是影響統(tǒng)計模型識別效果的重要因素，實驗中我們發(fā)現(xiàn)，在CRF模型中，盡管隨著特征數(shù)量的增多，系統(tǒng)運行時間變長，但CRF模型的識別效果并沒有得到相應(yīng)提高，甚至有降低的趨勢，這說明在使用CRF對中文化學(xué)物質(zhì)名稱的識別中，單純增加特征的數(shù)量未必可行。同時我們也發(fā)現(xiàn)，隨著特征數(shù)量的增加，支持向量機的識別效果卻越來越好，特征標(biāo)記從1個增加到3個，識別正確率增加約4%，這說明單純增加特征數(shù)量可以提高支持向量機的識別效果，但對條件隨機場卻不適用。究其原因，是因為兩種模型對序列標(biāo)注的處理方式不同，支持向量機通過對訓(xùn)練樣本進(jìn)行訓(xùn)練，得到一個目標(biāo)函數(shù)，再由目標(biāo)函數(shù)去測試樣本中進(jìn)行測試，這樣每個特征就等同于該目標(biāo)函數(shù)的自變量，所以特征的增加就等于自變量個數(shù)的增加，而自變量個數(shù)的增加有利于訓(xùn)練出更準(zhǔn)確的目標(biāo)函數(shù)。條件隨機場模型因為將特征值均轉(zhuǎn)化為標(biāo)記，則不具備這些優(yōu)點。

從表３中可以看出，支持向量機不僅識別效果不如條件隨機場模型，支持向量機模型要從樣本中訓(xùn)練出一個目標(biāo)函數(shù)，所以耗時頗長。在相同樣本容量下，支持向量機模型的單字標(biāo)注運行時間約是條件隨機場的3倍左右，而單元詞標(biāo)注的運行時間大約是條件隨機場模型下單元詞標(biāo)注的10倍。

４總結(jié)

本文以中文化學(xué)物質(zhì)名稱為識別對象，使用支持向量機學(xué)習(xí)模型（SVM）進(jìn)行識別實驗，并將識別結(jié)果與CRF模型識別結(jié)果對比分析，從而得到這兩種模型對中文化學(xué)物質(zhì)名稱的識別效果和識別效率對比。

實驗結(jié)果表明，條件概率模型（CRF）較支持向量機模型（SVM）識別效果及識別效率更佳。同時，實驗還考察了兩種統(tǒng)計模型對特征數(shù)量變化的依賴程度，發(fā)現(xiàn)特征數(shù)量的增多可以提升SVM模型的識別效果，但對于CRF模型卻不適用，這說明SVM較CRF模型對特征數(shù)量的依賴性更強。

參考文獻(xiàn)

［１］ICTCLAS漢語分詞系統(tǒng):ICTCLAS簡介［ＥＢ／ＯＬ］.http:∥ictclas.org/sub11.html，2009-05-18.

［２］Ying He and Mehmet Kayaalp.Biological Entity Recognition with Conditional Random Fields.AMIA Annu Symp Proc，2008:293－297.

［３］梁睴，李.商品文本中藥物名稱和化學(xué)名稱識別的研究［Ｊ］.煙臺大學(xué)學(xué)報：自然科學(xué)與工程版，2002，15(4)：280-285.

［４］宋丹，孫濟慶.基于規(guī)則的化學(xué)特征詞自動標(biāo)引研究［Ｊ］.情報學(xué)報，2009，28(5):689-692.

［５］黃昌寧，趙海.中文分詞十年回顧［Ｊ］.中文信息學(xué)報，2007，21(3):8-19.

［６］Lafferty J，McCallum A，Pereira F.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data［Ａ］.In:Proceedings of the 18th International Conference on Machine Learning(ICML01)［Ｃ］.Williamstown，MA，USA，2001:282-289.

［７］王昊，蘇新寧.基于CRFs的角色標(biāo)注人名識別模型在網(wǎng)絡(luò)輿情分析中的應(yīng)用［Ｊ］.情報學(xué)報，2009，28(1):88-96.

［８］Andrew McCallum，F(xiàn)eng Fangfang.Chinese word segmentation with conditional random fields and integrated domain knowledge.Unpublished Manuscript，2003:24-26.

［９］Corinna Cortes and Vladimir N.Vapnik，“Support-Vector Networks，”Machine L earning，1995，20（3）：273－297.

［１０］賈美英，楊炳儒，鄭德權(quán)，等.采用CRF技術(shù)的軍事情報術(shù)語自動抽取研究［Ｊ］.計算機工程與應(yīng)用，2009，45（32）：126-129.

［１１］C.J.van Rijsbergen.Information Retrieval［Ｍ］.London:Butterworth，1979.

［１２］滕青青，吉久明，鄭榮廷，等.基于文獻(xiàn)的中文命名實體識別算法適用性分析研究［Ｊ］.情報雜志，2010，(9).

［１３］鄭榮廷，李楠，吉久明，等.中文化學(xué)物質(zhì)名稱識別研究［Ｊ］.現(xiàn)代圖書情報技術(shù)，2010，(6)．

［１４］李楠，鄭榮廷，吉久明，等.基于啟發(fā)式規(guī)則的中文化學(xué)物質(zhì)命名識別研究［Ｊ］.現(xiàn)代圖書情報技術(shù)，2010，(5)．

［１５］鄭榮廷，吉久明，李楠.特征值區(qū)間的有效劃分對CRF識別效果的影響［Ｊ］.圖書情報工作，2011，55(4):114-118．

現(xiàn)代情報2011年11期

現(xiàn)代情報的其它文章: 以高校教學(xué)評估為契機積極推進(jìn)圖書教材建設(shè); 基于Flash技術(shù)的隨書光盤可視化存取管理系統(tǒng)的設(shè)計與實現(xiàn); 云計算環(huán)境下數(shù)字圖書館網(wǎng)絡(luò)與數(shù)據(jù)中心智能化管理策略研究; 中醫(yī)藥高等院校圖書館特色建設(shè)之探討; 基于多視角的企業(yè)人際競爭情報網(wǎng)絡(luò)的構(gòu)建研究; 網(wǎng)絡(luò)侵犯行為的三大運作特點