999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

詞位標注漢語分詞中特征模板定量研究

2012-07-25 11:05:42于江德王希杰樊孝忠
計算機工程與設計 2012年3期
關鍵詞:特征實驗模型

于江德,王希杰,樊孝忠

(1.安陽師范學院 計算機與信息工程學院,河南 安陽455002;2.北京理工大學 計算機科學技術學院,北京100081)

0 引 言

在中文信息處理領域,漢語分詞是一項基礎性研究課題。它不僅是詞性標注、命名實體識別等其他詞法分析的基礎,也是進一步句法和語義分析、文本理解等深層中文信息處理任務的基礎,更是信息檢索、數據挖掘、機器翻譯和智能信息系統等應用的關鍵環節[1-5]。近年來,漢語自動分詞技術取得了長足的發展[6-9]。其中,基于字的詞位標注漢語分詞技術得到了廣泛關注。在國際計算語言學會下屬的漢語處理特別興趣研究小組 (special interest group on Chinese language processing,SIGHAN)舉行的一系列評測中性能領先的分詞系統幾乎都采用了類似的思想[10-13]。綜合分析這些文獻,都是將漢語分詞的本質看作是對一個字串的序列標注問題,借助于統計語言模型實現。統計語言建模中設定特征模板至關重要,特征模板集將直接影響模型訓練的時間、訓練后模型的大小、訓練得到的模型性能等。為了在詞位標注漢語分詞中更加準確地設定特征模板,本文采用B、M、E、S四詞位標注集,使用條件隨機場(conditional random fields,CRFs)模型從多個角度定量分析了詞位標注漢語分詞中的特征模板。文中首先簡要闡述了詞位標注漢語分詞的基本思想,然后對詞位標注建模過程中的特征模板作用進行了詳細解析,最后,使用CRF++0.53工具包實現了字串序列的詞位標注,并在國際漢語分詞評測Bakeoff2005的PKU和MSRA兩種語料上進行了多組實驗,通過對實驗數據的分析,從 “量”上揭示出詞位標注漢語分詞中設定特征模板需要遵循的多組規律,為特征模板對漢語分詞及其他詞法分析任務的支持作用提供了一個 “量”上的依據。

1 詞位標注漢語分詞的基本思想

詞位標注漢語分詞方法實際上是由字構詞的方法。漢語中的每個詞語是由一個字或多個字構成的,一個詞語中的每個漢字又都有一個固定的構詞位置,即該字在詞中的位置,簡稱詞位。本文中我們規定字只有4種詞位:B表示詞首位置、M表示詞中位置、E表示詞尾位置和S表示單字成詞。而且同一個漢字在不同的詞語中可以有不同的構詞位置,例如,在 “天”、“天空”、“異想天開”、“今天”這4個詞語中都有漢字 “天”,其詞位依次是:單字成詞S、詞首B、詞中M、詞尾E。詞位標注漢語分詞技術就是把分詞過程轉化為一個字串序列的詞位標注問題。要對一個字串進行詞語切分,只要對該字串中每個字標注出詞位就可以了。

2 詞位標注漢語分詞中的特征模板

2.1 條件隨機場對詞位標注建模

2.1.1 條件隨機場簡介

條件隨機場是一種判定性模型 (discriminative model),是一種基于無向圖的條件概率模型,由Lafferty等在2001年提出[14]。CRFs能夠融合復雜的、重疊的特征進行訓練和推理,通過定義給定觀察序列條件下標記序列出現的條件概率P(S|C)來預測標注序列。用于對序列數據標注建模的條件隨機場是一個簡單的鏈狀圖 (如圖1所示),稱為線鏈CRFs。

設C= {C1,C2,……,CT}表示可被觀察的有待標注詞位的字序列。S= {s1,s2,……,sT}表示被預測的詞位序列 (例如,詞首B、詞中M等)。在給定一個可被觀察的字串序列情況下,權重參數為Λ= {λ1,λ2,…,λK}的CRFs,其詞位序列的條件概率為

圖1 線鏈CRFs的圖形結構

式中:ZC——歸一化因子,公式如下

式中:fk(st-1,st,C,t)—— 一個任意的特征函數,通常是一個二值表征函數,用于表達上下文可能的語言特征。λk—— 一個需要從訓練數據中學習的參數,是相應的特征函數fk(st-1,st,C,t)的 權 重。 特 征 函 數fk(st-1,st,C,t)能夠整合上下文的任何特征,包括給定的字序列C在時刻當前字位置的所有特征,以及詞位轉移st-1→st特征等。

給定一個條件隨機場模型,在給定輸入數據字序列C的情況下,待預測的該字串序列最可能的詞位標注序列可以由下式通過類似于隱馬爾科夫模型中的韋特比算法動態規劃求出

2.1.2 CRFs對詞位標注問題建模

建立CRFs模型的一個關鍵問題是如何針對具體的任務選擇有效的特征集,用篩選出的特征集來表示復雜的語言現象,其實質是模型對上下文特征的刻畫,這些特征是通過特征模板從特征空間中擴展而來的。

通常情況下,上下文的選取是基于當前位置前后一定范圍進行的,這個固定的范圍稱為 “窗口”。由于語言特征要從該上下文 “窗口”中獲取,所以將該 “窗口”稱為特征空間。圖2示意了詞位標注漢語分詞中可能的特征空間。對基于字的詞位標注漢語分詞這一具體任務而言,上下文中可供選擇的特征很少,主要需要考慮的是當前字本身及其上下文中的字所構成的字特征[6]。黃昌寧等提出了構造字特征時 “使用前后各兩個字是比較理想的”的結論[6]。此時的特征空間就是一個 “5字窗口”,該窗口下字特征是指當前字本身、以及當前字前后各兩個字所組成的特征。如果選取的字特征是指當前字本身、以及當前字前后各一個字所組成的特征,此時的特征空間就是一個 “3字窗口”, “3字窗口”是文獻 [6,11]中配合6詞位標注集(B、B2、B3、M、E、S)選取的特征空間。

2.2 特征模板及其作用

習慣上,特征模板可以看作是對一組上下文特征按照共同的屬性進行的抽象。在CRFs的訓練學習中,上下文的每個特征會對應了一組特征函數,這些特征函數對條件隨機場模型的訓練和學習至關重要。而每個特征又都是通過特征模板擴展而來,所以,特征模板集的設定就顯得尤為重要。

圖2 可能的特征空間

2.3 詞位標注漢語分詞中常用特征模板

本文使用條件隨機場工具包進行詞位標注的時候,設定的特征模板有兩大類:①Unigram (一元)特征模板;②Bigram (二元)特征模板。這里劃分 “一元”、 “二元”特征所依據的是特征函數中包含的詞位標記個數,而不是依據特征中的字個數來劃分,這種劃分的方法和CRF++工具包中是一致的。在圖2給出的可能特征空間下,根據特征模板中出現的字與當前字的距離屬性可以將常見的字特征設定為13類,即將字特征設定為13個特征模板,這些模板屬于一元特征模板。表1詳細列出了這些特征模板的類型、特征模板的標識及其表征的意義等。從表中可以看到,僅僅有一個特征模板:T-1T0屬于二元特征模板,該模板用于表征上下文中相鄰兩個字所對應的詞位之間的轉移特征st-1→st。在模型的訓練中該模板擴展出的特征數是有限的,從實驗數據中容易知道:四詞位標注漢語分詞中此類特征模板可以擴展出16個 (詞位轉移)特征。

表1 特征模板

為了對詞位標注漢語分詞中的特征模板有個 “量”的認識,我們從多個角度進行定量分析并設計了相關實驗。表2列出了實驗中用到的幾組特征模板集。其中,TMPT-10是在相關工作中最常用的一組特征模板,TMPT-10’是本文作者在前期研究中用到的一組特征模板[15],TMPT-6是文獻 [6,9,11]中使用的特征模板,它是配合6詞位標注集使用的。后綴 “Single”和 “Double”分別表示相應特征模板集中的單字或雙字特征模板。例如,T10-Single是指TMPT-10中單字特征模板。另外所有的特征模板集都可以包括詞位轉移特征模板T-1T0,由于在特征模板的表示文件中對應的特征模板是B,所以,相應的特征模板集名稱用 “+B”表示。

表2 特征模板集

3 特征模板定量分析實驗

3.1 實驗環境、實驗數據集及性能評估

本文所有實驗是在實驗室DELL Optiplex 760臺式機上進行,軟硬件環境主要參數為:CPU:Intel(R)Core(TM)2Quad CPU Q8200 2.33GHZ;內存:4GB;操作系統:Microsoft Windows XP Professional 2002Service Pack 3。

本文實驗所使用的訓練語料和測試語料是由國際計算語言學會舉辦的第二屆國際中文分詞評測Bakeoff2005所提供的簡體中文語料,這些語料分別是由北京大學 (PKU)和微軟亞洲研究院 (MSRA)提供的。

在對漢語分詞性能進行評估時,采用了同類評測中常用的5個評測指標:準確率 (P)、召回率 (R)、綜合指標F值(F)、未登錄詞召回率 (OOVRR)、詞表詞召回率 (IVRR)。

3.2 實驗及其結果分析

3.2.1 實驗設計

我們設計了3組實驗,分別從不同的角度對詞位標注漢語分詞中特征模板進行定量研究。①模型訓練過程反映出的 “量”屬性。本組實驗關注的是不同特征模板對模型訓練的影響,主要從不同模板擴展出的特征數、模型訓練時間、迭代次數、訓練出的模型大小等幾個 “量”化指標進行考察。②不同特征模板對分詞性能的貢獻情況。本組實驗關注的是使用不同特征模板集訓練出的模型的分詞性能情況。③詞位轉移特征模板:T-1T0的影響。

3.2.2 特征模板對模型訓練的影響

我們首先分別使用表2中的9組特征模板集 (都不包含詞位轉移特征模板),在PKU和MSRA兩個語料集上進行了漢語分詞的訓練,表3給出了訓練過程記錄數據,其中f參數值是訓練過程中特征出現次數所取的閾值,因為本文所用工具包在訓練語料較大、特征數較多時不能完成訓練致使部分數據為空。

綜合分析表3中的數據可以得出如下結論:①同等條件下,訓練出的模型大小與擴展出的特征數成正比。②模型訓練的時間長短和擴展出的特征數并沒有必然聯系。例如,在MSRA訓練語料上,6號特征模板集擴展出61 884個特征,訓練時長為2337.98s。而7號特征模板集擴展出的特征數為6 231 012個,訓練時長僅為1778.14s。③不同的單字特征模板在同一語料中擴展出的特征數基本相同。例如,第4、6、9號特征模板集分別由5個 (C-2,C-1,C0,C1,C2)、3個 (C-1,C0,C1)和1個 (C0)單字特征模板構成,不論在MSRA訓練語料還是PKU訓練語料上,由4號、6號特征模板集擴展出的特征數是由9號特征模板集擴展出的特征數的5倍、3倍。這個結論也在其他實驗中得到了進一步驗證。④雙字特征模板擴展出的特征數要比單字特征模板擴展出的特征數多得多。

3.2.3 特征模板對分詞性能的影響

第二組實驗采用第一組實驗訓練出的模型對測試語料進行分詞,該組實驗關注的是使用不同特征模板集訓練出的模型的分詞性能情況,采用漢語分詞性能評估的5個評測指標進行考察。并從更深的層次分析了不同特征模板對分詞性能的貢獻情況。表4給出了這9組特征模板集訓練出的模型在PKU和MSRA測試語料上的分詞性能。

綜合分析表4中的數據可以得出如下結論:①TMPT-10、 TMPT-10 ’、 TMPT-6、 T10-Double、 T6-Double、TMPT-5這些特征模板集分詞性能差別較小,綜合指標F值的差別在2個百分點以內。這些特征模板集都包含雙字以上特征模板。②單字特征模板對分詞性能的貢獻要比雙字特征模板小很多。例如,在PKU語料上,從6號特征模板集到4號特征模板集,增加了兩個單字特征模板:C-2,C2,綜合指標F值從78.1%增加到了82.0%。而從6號特征模板集到8號特征模板集,增加了兩個雙字特征模板:C-1C0,C0C1,F值從78.1%增加到了90.9%。在 MSRA語料上,也有同樣的規律。③特征空間從 “3字窗口”擴大到 “5字窗口”對分詞性能的提高也很有限,綜合指標F值的變化在1個百分點左右。

表3 PKU和MSRA語料上的訓練過程記錄數據

表4 不同特征模板集的分詞結果

3.2.4 詞位轉移特征模板的影響

從2.3節對特征模板的分析可知,所有用于訓練的特征模板集都可以包括詞位轉移特征模板T-1T0,該模板是唯一的二元特征模板。該組實驗選取了1~7號特征模板集進行了包含和不包含詞位轉移特征模板對模型訓練、分詞性能等方面影響的對比實驗。表5給出了這些特征模板集訓練過程的對比數據,對比實驗過程中除特征模板集包含或不包含B模板的區別外,其他參數都相同。

對比表5中的數據可以得出如下結論:①增加B特征模板之后,訓練中擴展出的特征數都增加了16,這也進一步驗證了在四詞位標注漢語分詞中該模板可以擴展出16個(詞位轉移)特征。②訓練時間和迭代次數都大大增加,是相應的2倍以上。例如,增加B模板后,訓練時間是相應特征模板集訓練時間的2.14~5.59倍。③增加B特征模板基本不改變訓練出的模型大小。

表6給出了1~7號特征模板集包含和不包含B模板的分詞結果對比數據。對比表6中的數據可以得出如下結論:增加B特征模板之后,兩種語料上反映分詞性能的5個指標除了一組數據 (見斜體加粗部分)之外,其他所有的數據都是清一色的增加,雖然增加的幅度不是太大。所以,加入詞位轉移特征對分詞性能是有提高的。

4 結束語

漢語分詞作為中文信息處理領域一項基礎研究課題,從首屆國際漢語分詞評測活動以來得到了廣泛的關注,其中基于字的詞位標注漢語分詞技術成為主流。為了在詞位標注漢語分詞中更加準確地設定特征模板,本文采用B、M、E、S四詞位標注集,使用條件隨機場模型從多個角度定量分析了詞位標注漢語分詞中的特征模板。通過對實驗數據的分析,從 “量”上揭示出詞位標注漢語分詞中設定特征模板需要遵循的多組規律:①同等條件下,訓練出的模型大小與擴展出的特征數成正比。②不同的單字特征模板在同一語料中擴展出的特征數基本相同,單字特征模板對分詞性能的貢獻要比雙字特征模板小很多。③增加B特征模板之后,訓練時間大大增加,模型大小基本不變,對分詞性能都是正增長。這些規律為特征模板對漢語分詞及其他詞法分析任務的支持作用提供了一個 “量”上的依據。

表5 包含和不包含詞位轉移特征模板的訓練過程對比數據

表6 不同特征模板集的分詞結果

[1]JIANG Wei,WANG Xiaolong,GUAN Yi,et al.Research on Chinese lexical analysis system by fusing multiple knowledge sources[J].Chinese Journal of Computers,2007,30 (1):137-145 (in Chinese).[姜維,王曉龍,關毅,等.基于多知識源的中文詞法分析系統 [J].計算機學報,2007,30 (1):137-145.]

[2]LUO Yanyan,HUANG Degen.Chinese word segmentation based on the marginal probabilities generated by CRFs [J].Journal of Chinese Information Processing,2009,23 (5):3-8(in Chinese).[羅彥彥,黃德根.基于CRFs邊緣概率的中文分詞 [J].中文信息學報,2009,23 (5):3-8.]

[3]ZHAO Hai,Chunyu Kit.Unsupervised segmentation helps supervised learning of Character tagging for word segmentation and named entity recognition [C].Proceedings of the Six SIGHAN Workshop on Chinese Language Processing.Hyderabad,India:ACL Press,2008:106-111.

[4]YANG Erhong,FANG Ying,LIU Dongming,et al.The evaluation of Chinese word segmentation and POS tagging [J].Journal of Chinese Information Processing,2006,20 (1):44-49 (in Chinese).[楊爾弘,方瑩,劉冬明,等.漢語自動分詞和詞性標注評測 [J].中文信息學報,2006,20 (1):44-49.]

[5]JIANG Wenbin,HUANG Liang,LIU Qun,et al.A cascaded linear model for joint Chinese word segmentation and part-of-speech tagging [C].Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics,2008:897-904.

[6]HUANG Changning,ZHAO Hai.Chinese word segmentation:A decade review [J].Journal of Chinese Information Processing,2007,21 (3):8-19 (in Chinese). [黃昌寧,趙海.中文分詞十年回顧 [J].中文信息學報,2007,21 (3):8-19.]

[7]SONG Yan,CAI Dongfeng,ZHANG Guiping,et al.Approach to Chinese word segmentation based on character-word joint decoding [J].Journal of Software,2009,20 (9):2366-2375(in Chinese).[宋彥,蔡東風,張桂平,等.一種基于字詞聯合解碼的中文分詞方法 [J].軟件學報,2009,20(9):2366-2375.]

[8]ZHAO Hai,HUANG Changning.Effective tag set selection in Chinese word segmentation via conditional random field modeling[C].Wuhan,China:Proceedings of PACLIC-20,2006:87-94.

[9]HUANG Changning,ZHAO Hai.Which is essential for Chinese word segmentation:Character versus word [C].Wuhan,China:Proceedings of PACLIC-20,2006:1-12.

[10]ZHAO Hai,JIE Chunyu.Effective subsequence-based tagging for Chinese word segmentation [J].Journal of Chinese Information Processing,2007,21 (5):8-13 (in Chinese).[趙海,揭春雨.基于有效子串標注的中文分詞 [J].中文信息學報,2007,21 (5):8-13.]

[11]HUANG Changning,ZHAO Hai.Character-based tagging:A new method for Chinese word segmentation [C].Proceedings of Chinese Information Processing Society 25Annual Conference.Beijing,China:Tsinghua University Press,2006:53-63 (in Chinese). [黃昌寧,趙海.由字構詞——中文分詞新方法[C].中文信息處理前沿進展——中國中文信息學會二十五周年學術會議論文集,北京:清華大學出版社,2006:53-63.]

[12]HUANG Degen,JIAO Shidou,ZHOU Huiwei.Dual-layer CRFs based on subword for Chinese word segmentation [J].Journal of Computer Research and Development,2010,47(5):962-968 (in Chinese).[黃德根,焦世斗,周惠巍.基于子詞的雙層CRFs中文分詞 [J].計算機研究與發展,2010,47 (5):962-968.]

[13]Levow G.The third international Chinese language processing bakeoff:word segmentation and named entity recognition[C].Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing.Sydney:ACL Press,2006:108-117.

[14]Pereira L J,Mccallum F A.Conditional random fields:Probabilistic models for segmenting and labeling sequence data[C]Proceedings of 18th Int Conf on Machine Learning.San Francisco,USA:AAAI Press,2001:282-289.

[15]YU Jiangde,SUI Dan,FAN Xiaozhong. Word-positionbased tagging for Chinese word segmentation [J].Journal of Shandong University (Engineering Science),2010,40 (5):117-122(in Chinese). [于江德,睢丹,樊孝忠.基于字的詞位標注漢語分詞 [J].山東大學學報 (工學版),2010,40(5):117-122.]

猜你喜歡
特征實驗模型
一半模型
記一次有趣的實驗
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
做個怪怪長實驗
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
主站蜘蛛池模板: 色综合中文字幕| 久久久亚洲色| 亚洲av日韩av制服丝袜| 天天摸夜夜操| 国产91在线|日本| 色视频国产| 国产区免费| 天天色天天综合网| 永久毛片在线播| 国产电话自拍伊人| 欧美精品H在线播放| 色天堂无毒不卡| 日韩av无码精品专区| 72种姿势欧美久久久大黄蕉| 欧美日韩中文国产va另类| 成人无码一区二区三区视频在线观看| 91po国产在线精品免费观看| 亚洲无码免费黄色网址| 五月婷婷精品| 免费又爽又刺激高潮网址 | 国产三级成人| 99re66精品视频在线观看| 免费在线看黄网址| 国产97视频在线观看| 久久夜色精品国产嚕嚕亚洲av| 国产99视频精品免费观看9e| 亚洲AV电影不卡在线观看| 亚洲欧美日韩成人在线| 久996视频精品免费观看| 8090成人午夜精品| 最新精品久久精品| 亚洲成人在线网| 欧美日韩第三页| 日本福利视频网站| 人妻中文久热无码丝袜| 国产精彩视频在线观看| 亚洲综合香蕉| 中文字幕波多野不卡一区| 欧美中文字幕第一页线路一| 国产成人在线无码免费视频| 欧美成人免费一区在线播放| 91久久夜色精品| 国产毛片高清一级国语| 亚洲永久视频| 99视频在线免费| 91免费国产高清观看| 19国产精品麻豆免费观看| 亚洲最大福利视频网| 激情综合图区| a毛片免费观看| 久久永久免费人妻精品| 激情爆乳一区二区| 在线视频97| 国产丝袜第一页| 欧美成人精品一区二区| 免费国产福利| 亚洲视频影院| 亚洲第一av网站| 国产视频欧美| 福利片91| 亚洲美女一级毛片| 国产sm重味一区二区三区| 亚洲一区二区视频在线观看| 99久久精品国产综合婷婷| 久久99久久无码毛片一区二区 | 国产视频入口| 国产一级特黄aa级特黄裸毛片| 欧美亚洲欧美区| 中文无码日韩精品| 91无码国产视频| 亚洲国产欧洲精品路线久久| 亚洲大尺度在线| 欧美中文一区| 成人亚洲天堂| 日本三区视频| 日本免费精品| 中文字幕无码制服中字| 中文字幕无码av专区久久| 久久亚洲精少妇毛片午夜无码 | a级毛片毛片免费观看久潮| 全午夜免费一级毛片| AV不卡国产在线观看|