999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于兩類統(tǒng)計機器學(xué)習(xí)模型的中文化學(xué)物質(zhì)名稱識別研究

2011-12-31 00:00:00潘國巍吉久明李楠鄭榮廷
現(xiàn)代情報 2011年11期

〔摘 要〕與基于詞典和基于規(guī)則的識別方法相比,統(tǒng)計機器學(xué)習(xí)方法更加適合被應(yīng)用到命名實體的識別工作中來。本文主要在中文化學(xué)物質(zhì)名稱的識別工作中,考察兩類統(tǒng)計機器學(xué)習(xí)模型識別效果及識別效率的優(yōu)劣,實驗結(jié)果表明,在所取訓(xùn)練語料與測試語料相同的情況下,以CRF模型為代表的條件概率模型可以展現(xiàn)出更好的實驗性能。

〔關(guān)鍵詞〕中文化學(xué)物質(zhì)名稱;條件隨機場;支持向量機;識別效果;識別效率

DOI:10.3969/j.issn.1008-0821.2011.11.040

〔中圖分類號〕TP393 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821(2011)11-0163-03

Research on Recognition of Chinese Chemical Substance

Names Based on Two Kinds of Machine Learning MethodPan Guowei Ji Jiuming Li Nan Zheng Rongting

(Institute of Science and Technology Information,East China University of Science and Technology,

Shanghai 200237,China)

〔Abstract〕Comparing with the recognition methods based on dictionary or rule,the method based on machine learning is suitably to be applied to the research on NER(named entity recognition).This article mainly evaluated the performance of two kinds of machine learning methods SVM and CRF in the course of recognizing Chinese chemical substance names,and the result of the experiment showed:in the condition of selecting same training sample and testing sample,the conditional models(Take the CRF for example)reveal the better performance.

〔Key words〕CRF;Chinese chemical substance names;labeled on char;labeled on word;Quantity of feature

1 研究背景

現(xiàn)階段學(xué)術(shù)界對于化學(xué)領(lǐng)域?qū)S忻~進(jìn)行識別研究的文獻(xiàn)數(shù)量極少。從國外文獻(xiàn)調(diào)研情況來看,國外相關(guān)學(xué)者對化學(xué)領(lǐng)域的專有名詞研究較多且成果顯著。如有國外學(xué)者采用CRF模型專門針對外文期刊和專利中符合或類似IUPAC(國際純粹與應(yīng)用化學(xué)聯(lián)合會)命名規(guī)范的化學(xué)物質(zhì)名稱進(jìn)行識別[5],國外學(xué)者對外文化學(xué)專有名詞識別的思路和方法可以借鑒到我們識別中文化學(xué)專有名詞的研究中來。

國內(nèi)學(xué)者對化學(xué)專有名詞進(jìn)行識別的研究主要集中在生物醫(yī)學(xué)分領(lǐng)域的專有名詞識別,如識別生物醫(yī)學(xué)文獻(xiàn)中的蛋白質(zhì)、DNA等,例如Ying He and Mehmet Kayaalp在2008年,利用GENIA語料庫進(jìn)行生物學(xué)領(lǐng)域的命名實體識別[2],但這些研究以英文文獻(xiàn)語料庫為主,缺乏對中文文獻(xiàn)語料庫的研究。有學(xué)者[3]采用規(guī)則和統(tǒng)計模型相結(jié)合的方法對商品文本中的藥物名稱和化學(xué)物質(zhì)名稱進(jìn)行識別,但識別效果不佳,化學(xué)物質(zhì)名稱的正確識別率不足60%。

本課題組對化學(xué)物質(zhì)名稱的識別進(jìn)行了一系列的研究,主要包括:(1)應(yīng)用基于規(guī)則的方法對化學(xué)文獻(xiàn)中的化學(xué)物質(zhì)名稱進(jìn)行識別,并取得了較好的實驗結(jié)果[4],但該方法的一個重大缺陷是對化學(xué)文本中的不規(guī)范物質(zhì)名稱(化學(xué)物質(zhì)名稱縮寫、個人習(xí)慣寫法、俗名等)無能為力;(2)將CRF模型引入到中文化學(xué)物質(zhì)名稱識別任務(wù)中,分別研究了字標(biāo)注及詞標(biāo)注兩種標(biāo)注方法的識別效果。由于沒有考慮上下文信息,仍存在過識別現(xiàn)象[14]。(3)將啟發(fā)式規(guī)則與CRF相結(jié)合,降低了化學(xué)物質(zhì)命名識別中兩類常見錯誤“邊界識別錯誤”以及“由已登錄詞導(dǎo)致的長命名截斷錯誤”的出現(xiàn)頻率,將識別效果提升了10個百分點[15]。

此外,通過對中文命名實體識別的研究文獻(xiàn)進(jìn)行計量分析,發(fā)現(xiàn)使用CRF和SVM模型的文獻(xiàn)數(shù)量較多且識別效果較其他統(tǒng)計模型更佳,在機構(gòu)名和地名的識別實驗中,CRF的識別效果遠(yuǎn)遠(yuǎn)高于其他統(tǒng)計模型,如HMM、SVM、MEM等,而人名識別中,MEM算法的表現(xiàn)較好,SVM次之[13]。本文對SVM在中文化學(xué)物質(zhì)名持識別方面的表現(xiàn)進(jìn)行研究,并與CRF模型進(jìn)行對照,通過實驗比較以發(fā)現(xiàn)最適合中文化學(xué)物質(zhì)名稱識別的識別方法。

2 模型對比介紹

2.1 SVM 支持向量機模型

支持向量機算法(Support Vector Machine,SVM)是Corinna Cortes和Vapnik等人1995年首先提出的,最早發(fā)表在《Support-Vector networks》一文中,主要用來解決兩類分類問題的新的機器學(xué)習(xí)模型。

SVM支持向量機模型是運用監(jiān)督式學(xué)習(xí)方法分析數(shù)據(jù)和識別分類的模型,通過一系列的訓(xùn)練語料建立模型,模型對于新的測試語料進(jìn)行分類,來判斷測試語料中的記錄屬于哪個類別。

支持向量機會在無限的空間中建立一組或一個超平面用于分類,最優(yōu)的超平面是能夠使相近的訓(xùn)練數(shù)據(jù)之間建立最大的空間距離,因為空間距離越大,那么分類的錯誤率也會降低。

支持向量機的難點在于對于低維空間內(nèi)難以劃分的問題映射到高維空間中去,才能進(jìn)行分類,而核函數(shù)恰好能夠解決這個問題,因此,只要選取適當(dāng)?shù)暮撕瘮?shù),就可以得到高維空間中的分類函數(shù)。

2.2 CRF條件隨機場模型

條件隨機場模型(Conditional Random Fields,CRFs)是2001年由Lafferty等人提出的,其理論思想主要來源于最大熵模型,最大熵模型的假設(shè)條件是,在已知條件的限制下,對于未知部分的概率分布應(yīng)該是均等的,就是熵最大。從最大熵的實質(zhì)來說,也就是在已知部分知識的前提條件下,關(guān)于未知分布最合理的推斷是符合已知知識的不確定性或最隨機的推斷。條件隨機場模型本身是一種無向圖模型,它是在給定需要標(biāo)記的觀察序列的條件下,計算整個標(biāo)記序列的聯(lián)合概率分布,并不是在給定當(dāng)前狀態(tài)條件下,定義下一個狀態(tài)的狀態(tài)分布。因此,CRF可以克服通常的基于有向圖模型的標(biāo)注依賴等問題,而且可以更好的結(jié)合各種上下文信息。

CRF這種新的模型可以有效地克服產(chǎn)生式模型和條件模型存在的缺點,首先,產(chǎn)生式模型需要列舉出所有的觀察值,這樣才能有效地計算出觀察值和標(biāo)記值之間的聯(lián)合概率分本,對于有限的訓(xùn)練樣本來說,這是很難實現(xiàn)的。其次,產(chǎn)生式模型還要求嚴(yán)格遵循獨立性假設(shè)。再次,盡管條件模型能夠有效地克服產(chǎn)生式模型的缺點,然而有向圖的條件模型無法克服標(biāo)記偏置的問題。對于CRF模型,既可以克服產(chǎn)生式模型的上述缺點,還可以克服標(biāo)記偏置的問題。

3 實驗結(jié)果及分析

3.1 實驗設(shè)置

本文的實驗中對SVM模型采取 “單字標(biāo)注”和“單元詞標(biāo)注”方法,使用與文獻(xiàn)[14]相同的切分方法、特征及特征模板,在相同的語料庫中進(jìn)行訓(xùn)練并測試,以便比較出SVM和CRF的識別效果和識別效率。另外,實驗還將通過不斷增加特征的數(shù)量,考察SVM統(tǒng) 計模型對特征數(shù)量的依賴程度。由于SVM的特征值類型與CRF的特征值類型有所不同,因此相 應(yīng)的標(biāo)注方法也有所變化,本文將語料庫中的字詞分成4類為1、2、3、4,其中1表示化學(xué)物 質(zhì)名稱的開始,2表示化學(xué)物質(zhì)名稱中除開始位置外的其他位置,3表示獨立成詞的化學(xué)物質(zhì) 名稱,4表示其他詞匯(非化學(xué)物質(zhì)名稱),通過這種相似設(shè)置使CRF的BIOZ詞位標(biāo)記[ 14]與SVM的四分類對應(yīng)起來。SVM的特征值設(shè)置見表1:

表1 SVM特征標(biāo)記的設(shè)置

特征標(biāo)記特征標(biāo)記的設(shè)置特征標(biāo)記1:特征字(詞)1(是化學(xué)物質(zhì)名稱字(詞)),0(不是化學(xué)物質(zhì)名稱字(詞))特征標(biāo)記2:特征字(詞)概率無需進(jìn)行轉(zhuǎn)換,直接利用所求特征字(詞)的概率數(shù)字(浮點型數(shù)字,處于0~1之間)特征標(biāo)記3:特征字(詞)文檔概率無需進(jìn)行轉(zhuǎn)換,直接利用所求特征字(詞)的文檔概率數(shù)字(浮點型數(shù)字,處于0~1之間)

由于本文所進(jìn)行的實驗不涉及對這兩種算法的改進(jìn)研究,所以在實驗中仍使用臺灣林智仁教授開發(fā)的LIBSVM-2.91工具包。

3.2 實驗結(jié)果

訓(xùn)練語料采用文獻(xiàn)[14]中提到的2 500條有機化學(xué)文摘,并對單字和單元詞分別在訓(xùn)練集中進(jìn)行訓(xùn)練得到訓(xùn)練模型,再利用得到的訓(xùn)練模型在測試語料庫的500條有機化學(xué)文摘中進(jìn)行測試,與CRF對照的實驗結(jié)果如下:

特征1特征1、2特征1、2、3CRF單字標(biāo)注1 535.111 950.722 121.88SVM單字標(biāo)注3 6004 5005 505CRF單元詞標(biāo)注138.41153.47170.55SVM單元詞標(biāo)注1 0501 7452 500注:因SVM算法不能自動計算運行時間,所以表4.5中的SVM耗費時間由人工計算,與實際運行時間相比可能略有誤差。

3.3 實驗分析

在上文的實驗結(jié)果中可以發(fā)現(xiàn),無論采用條件隨機場模型還是支持向量機模型,都取得了較好的實驗效果,尤其是采用條件隨機場模型,可以使識別正確率達(dá)到80%以上,證明將統(tǒng)計機器學(xué)習(xí)方法應(yīng)用于中文化學(xué)物質(zhì)名稱的識別是切實可行的。

從表2可以發(fā)現(xiàn),無論是單字標(biāo)注和單元詞標(biāo)注,條件隨機場模型的識別效果均好于支持向量機的識別效果,證明條件隨機場CRF模型比支持向量機SVM模型更加適合應(yīng)用到中文化學(xué)物質(zhì)名稱的識別中。

特征的選取是影響統(tǒng)計模型識別效果的重要因素,實驗中我們發(fā)現(xiàn),在CRF模型中,盡管隨著特征數(shù)量的增多,系統(tǒng)運行時間變長,但CRF模型的識別效果并沒有得到相應(yīng)提高,甚至有降低的趨勢,這說明在使用CRF對中文化學(xué)物質(zhì)名稱的識別中,單純增加特征的數(shù)量未必可行。同時我們也發(fā)現(xiàn),隨著特征數(shù)量的增加,支持向量機的識別效果卻越來越好,特征標(biāo)記從1個增加到3個,識別正確率增加約4%,這說明單純增加特征數(shù)量可以提高支持向量機的識別效果,但對條件隨機場卻不適用。究其原因,是因為兩種模型對序列標(biāo)注的 處理方式不同,支持向量機通過對訓(xùn)練樣本進(jìn)行訓(xùn)練,得到一個目標(biāo)函數(shù),再由目標(biāo)函數(shù)去 測試樣本中進(jìn)行測試,這樣每個特征就等同于該目標(biāo)函數(shù)的自變量,所以特征的增加就等于 自變量個數(shù)的增加,而自變量個數(shù)的增加有利于訓(xùn)練出更準(zhǔn)確的目標(biāo)函數(shù)。條件隨機場模型 因為將特征值均轉(zhuǎn)化為標(biāo)記,則不具備這些優(yōu)點。

從表3中可以看出,支持向量機不僅識別效果不如條件隨機場模型,支持向量機模型要從樣本中訓(xùn)練出一個目標(biāo)函數(shù),所以耗時頗長。在相同樣本容量下,支持向量機模型的單字標(biāo)注運行時間約是條件隨機場的3倍左右,而單元詞標(biāo)注的運行時間大約是條件隨機場模型下單元詞標(biāo)注的10倍。

4 總 結(jié)

本文以中文化學(xué)物質(zhì)名稱為識別對象,使用支持向量機學(xué)習(xí)模型(SVM)進(jìn)行識別實驗,并將識別結(jié)果與CRF模型識別結(jié)果對比分析,從而得到這兩種模型對中文化學(xué)物質(zhì)名稱的識別效果和識別效率對比。

實驗結(jié)果表明,條件概率模型(CRF)較支持向量機模型(SVM)識別效果及識別效率更佳。同時,實驗還考察了兩種統(tǒng)計模型對特征數(shù)量變化的依賴程度,發(fā)現(xiàn)特征數(shù)量的增多可以提升SVM模型的識別效果,但對于CRF模型卻不適用,這說明SVM較CRF模型對特征數(shù)量的依賴性更強。

參考文獻(xiàn)

[1]ICTCLAS漢語分詞系統(tǒng):ICTCLAS簡介[EB/OL].http:∥ictclas.org/sub11.html,2009-05-18.

[2]Ying He and Mehmet Kayaalp.Biological Entity Recognition with Conditional Random Fields.AMIA Annu Symp Proc,2008:293-297.

[3]梁睴,李.商品文本中藥物名稱和化學(xué)名稱識別的研究[J].煙臺大學(xué)學(xué)報:自然科學(xué)與工程版,2002,15(4):280-285.

[4]宋丹,孫濟慶.基于規(guī)則的化學(xué)特征詞自動標(biāo)引研究[J].情報學(xué)報,2009,28(5):689-692.

[5]黃昌寧,趙海.中文分詞十年回顧[J].中文信息學(xué)報,2007,21(3):8-19.

[6]Lafferty J,McCallum A,Pereira F.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[A].In:Proceedings of the 18th International Conference on Machine Learning(ICML01)[C].Williamstown,MA,USA,2001:282-289.

[7]王昊,蘇新寧.基于CRFs的角色標(biāo)注人名識別模型在網(wǎng)絡(luò)輿情分析中的應(yīng)用[J].情報學(xué)報,2009,28(1):88-96.

[8]Andrew McCallum,F(xiàn)eng Fangfang.Chinese word segmentation with conditional random fields and integrated domain knowledge.Unpublished Manuscript,2003:24-26.

[9]Corinna Cortes and Vladimir N.Vapnik,“Support-Vector Networks,”Machine L earning,1995,20(3):273-297.

[10]賈美英,楊炳儒,鄭德權(quán),等.采用CRF技術(shù)的軍事情報術(shù)語自動抽取研究[J].計算機工程與應(yīng)用,2009,45(32):126-129.

[11]C.J.van Rijsbergen.Information Retrieval[M].London:Butterworth,1979.

[12]滕青青,吉久明,鄭榮廷,等.基于文獻(xiàn)的中文命名實體識別算法適用性分析研究[J].情報雜志,2010,(9).

[13]鄭榮廷,李楠,吉久明,等.中文化學(xué)物質(zhì)名稱識別研究[J].現(xiàn)代圖書情報技術(shù),2010,(6).

[14]李楠,鄭榮廷,吉久明,等.基于啟發(fā)式規(guī)則的中文化學(xué)物質(zhì)命名識別研究[J].現(xiàn)代圖書情報技術(shù),2010,(5).

[15]鄭榮廷,吉久明,李楠.特征值區(qū)間的有效劃分對CRF識別效果的影響[J].圖書情報工作,2011,55(4):114-118.

主站蜘蛛池模板: 中文字幕欧美日韩| 国产99免费视频| 国产成人艳妇AA视频在线| 青青青国产视频| 91一级片| 国产在线精彩视频论坛| 四虎亚洲国产成人久久精品| 国产一二三区视频| 综合色在线| 欧美在线视频不卡| 国产一区免费在线观看| 欧美亚洲香蕉| 人妻中文字幕无码久久一区| 亚洲综合色吧| 99久久无色码中文字幕| 免费高清毛片| 韩国福利一区| 亚洲国产精品VA在线看黑人| 日韩精品少妇无码受不了| 亚洲无限乱码一二三四区| 黄色网址免费在线| 欧美69视频在线| 久久久久久午夜精品| 亚洲成AV人手机在线观看网站| AV熟女乱| 日本三区视频| 亚洲女同一区二区| 中文字幕欧美日韩| 亚洲天堂网在线观看视频| 国产成+人+综合+亚洲欧美| 视频国产精品丝袜第一页| 91色在线观看| 波多野结衣二区| 99激情网| a亚洲视频| 国产成人综合欧美精品久久| 一级片一区| 欧美精品一二三区| 51国产偷自视频区视频手机观看| 日韩大乳视频中文字幕| 91人妻日韩人妻无码专区精品| 国产精品极品美女自在线| 免费在线视频a| 国产sm重味一区二区三区| 免费aa毛片| 日本不卡在线视频| 青青草原偷拍视频| 亚洲国产成人自拍| 一本色道久久88综合日韩精品| 国内精品91| 国产AV毛片| 精品国产免费观看一区| 久久www视频| 欧美人与牲动交a欧美精品| 免费一级无码在线网站 | 欧美国产日韩在线| 国产一区二区色淫影院| 免费亚洲成人| 在线看免费无码av天堂的| 久久人人妻人人爽人人卡片av| 欧美无遮挡国产欧美另类| 国产女人在线| 中文纯内无码H| 97超爽成人免费视频在线播放| 欧美精品亚洲日韩a| 狠狠躁天天躁夜夜躁婷婷| 婷婷成人综合| 欧美精品啪啪| 日本成人福利视频| 亚洲人成网址| 激情综合图区| 久久人体视频| 激情無極限的亚洲一区免费| 国产www网站| 国产理论最新国产精品视频| 日韩精品一区二区三区免费| 国产在线91在线电影| 青青青伊人色综合久久| 波多野结衣一级毛片| 国产内射一区亚洲| 亚洲欧美综合另类图片小说区| 国产在线欧美|