999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進的隱馬爾科夫模型的詞性標注方法

2012-07-31 08:03:48袁里馳
中南大學學報(自然科學版) 2012年8期
關鍵詞:方法模型

袁里馳

(江西財經大學 信息學院 數據與知識工程江西省重點實驗室,江西 南昌,330013)

所謂詞性標注[1],就是根據句子上下文中的信息給句中的每個詞一個正確的詞性標記。詞性標注是對自然語言進一步處理的重要基礎,在許多應用領域,如文本索引、文本分類、語言合成、語料庫加工,詞性標注都是一個重要環節,因此,研究詞性標注的方法具有重要意義?,F有的詞性標注所采用的語言模型主要分為基于規則的方法[2-3]和基于統計的方法[4-16]?;谝巹t的詞性標注依賴手工編輯的規則,將輸入的詞序列分解成形態組件,將結果的詞匯類別作為這些組成的函數加以計算?;谝巹t的標注系統與系統設計者的語言能力有關,其中規則集直接體現了設計者的語言能力。然而,要對某一種語言的各種語言現象都構造規則是一項很艱難也很耗時的任務?;谝巹t的標注系統另一個常見問題是:當根據規則判斷1個詞的詞性時可能面臨多種選擇,若不根據上下文則很難作出正確的選擇?;谝巹t的方法適應性較差,并且非統計模型的本質使它通常作為一個獨立的標注器,很難被用作概率模型的組件部分?;诮y計的方法卻能彌補此缺點。隱馬爾可夫模型[1]是統計模型中應用較廣、效果較好的模型之一。對于隱馬爾科夫模型(hidden Markov model,HMM)用于詞性標注,國內外學者進行了大量研究,如:1988年Church等提出了第一個基于詞語概率和轉移概率的隱馬爾科模型英文標注器;1994年Schvtze等提出了可變記憶馬爾科夫模型(Variable memory Markov model);1999年Scott等提出了完全二階隱馬爾科夫模型(Second order hiddenv Markov model),Sang-Zoo等提出了基于詞匯信息的隱馬爾科夫模型(Lexicalized hidden Markov model);魏歐等[6]介紹了傳統隱馬爾科夫模型用于漢語詞性標注的具體分析與改進;梁以敏等[7]提出了完全二階隱馬爾科夫模型;屈剛等[8]介紹了雙重狀態隱馬爾科夫模型等等。統計標注方法如隱馬爾可夫模型在計算每一輸入詞序列的最可能詞性標注序列時,既考慮上下文,也考慮二元或三元概率參數(這些參數可通過已標注用于訓練的語料估計得到)。目前,許多種語言都有人工標注的訓練語料,并且統計模型有很強的健壯性,這些優點使得統計方法成為當前主流的詞性標注方法?;陔[馬爾可夫模型的詞性標注存在的不足有:為了達到很高的標注準確率,需要大量的訓練語料;傳統的基于隱馬爾可夫模型的標注方法沒有結合現有的語言知識。隱馬爾可夫模型在用于標注時進行了3個基本假設:(1)馬爾可夫性假設;(2)不動性假設;(3)輸出獨立性假設,即輸出(詞的出現)概率僅與當前狀態(詞性標記)有關。這些假定尤其第 3個假定太粗糙。為此,本文作者引入一種統計模型即馬爾可夫族模型[16]。假定1個詞出現的概率既與它的詞性標記有關,也與前面的詞有關,但該詞的詞性標記與該詞前面的詞關于該詞條件獨立(即在該詞已知條件下是獨立的),在上面假設下,將馬爾可夫族模型進行簡化,可用于詞性標注。實驗結果證明:在相同的測試條件下,基于馬爾可夫族模型的詞性標注方法與常規的基于隱馬爾可夫模型的詞性標注方法相比大大提高了標注準確率。在其他許多自然語言處理技術領域中(如分詞、句法分析、語音識別等),馬爾可夫族模型也非常有用。

1 基于隱馬爾可夫模型的詞性標注

設T為標注集,W為詞集,很自然地可以定義一個二元的 HMM 詞性標注模型(T,A,W,B,π)[1]。其中:A為狀態轉移概率分布矩陣;B為狀態符號發射的概率分布矩陣;π為初始狀態概率分布。A,B和π可通過已標注訓練語料估計得到。在上述模型下,模型的狀態是詞性標記;輸出符號是詞。在已知輸入詞序列w1,n的條件下, 尋找最可能標記序列t1,n的任務,可看作在給定觀察序列w1,n條件下搜索最可能的HMM狀態序列的問題:

首先,引入獨立性假設,認為詞序列中的任意一個詞wi的出現概率只同當前詞的詞性標記ti有關。而與周圍(上下文)的詞,詞類標記無關。其次,采用二元假設,即認為任意詞類標記的出現概率只與它緊鄰的前一個詞類標記有關。由上述假設,有:

為簡單起見,定義=1.0。

2 基于馬爾可夫族模型的詞性標注

設S1為詞性標記集,S2為詞表中詞的集合,任意一個詞的詞性標記ti和該詞wi前面的詞關于該詞條件獨立(即在該詞已知的條件下獨立):

在上述假定下,可以利用馬爾可夫族模型進行詞性標注[16](為了簡單,假定隨機向量 {wi,ti}i≥1的成分變量{wi}i≥1和{ti}i≥1都是 2 階馬爾可夫鏈):

其中:

因而,

在得到詞性標注模型后的下一個問題是如何尋找一種有效算法,求出在給定輸入條件下概率最大的詞性標記序列。Viterbi算法[2]是一種動態編程的方法,能夠根據模型參數有效地計算出一給定詞序列w1,…,wn最可能產生的詞性標記序列t1,…,tn。計算過程如下:

圖1 詞性標注算法Fig.1 Part-of-Speech tagging algorithm

3 結合句法分析進行詞性標注

在漢語短語句法分析中,首先要對句子進行漢語詞語切分和詞性標注,然后,在詞性標注的基礎上進行句法分析。詞性標記在句法分析中起了至關重要的作用。英語中,詞的形態變化決定了詞的詞性,而詞性又決定了詞在句子中的句法功能。在這里,“詞性”作為句法分析的基礎,起到了樞紐作用:一方面,“詞性”是詞的特征,可以從詞的形態變化中直接判斷出來;另一方面,詞性又反映了詞語在句子組織過程中充當的語法功能。

中心詞驅動句法分析模型[18]是最具有代表性的詞匯化模型。為了發揮詞匯信息的作用,中心詞驅動模型為文法規則中的每一個非終結符(None terminal)都引入核心詞/詞性信息。由于引入詞匯信息,不可避免地將出現嚴重的稀疏問題。為了緩解這個問題,中心詞驅動模型把每一條文法規則的右手側分解為三大部分:一個中心成分;若干個在中心左邊的修飾成分;若干個在中心右邊的修飾成分??梢詫懗扇缦滦问剑?/p>

其中:P為非終結符;H為中心成分;L1為左邊修飾成分;R1為右邊修飾成分;hw,lw和rw均為成分的核心詞,ht,lt和rt分別為它們的詞性。進一步假設:首先由P產生核心成分H,然后,以H為中心分別獨立地產生左右兩邊的所有修飾成分。這樣,形如(8)式的文法規則的概率為:

其中:Lm+1和Rn+1分別為左右兩邊的停止符號。

為了結合句法分析進行詞性標注,對形如(8)式的文法規則的概率修改為:

其中:Lm+1和Rn+1分別為左、右兩邊的停止符號。式(10)中的概率

可分解為2個概率:

的乘積,句法分析中有關詞性標注的概率為見式(11)。再假定rwi,rti-1,rti-2,…,rt1,ht關于rti條件獨立,則有:

式(13)中概率

即為rti,rti-1,rti-2,…,rt1,hti間的互信息??梢姡菏?13)概率意義十分明確,也符合語言現象。式(13)中的概以考慮引入基于相鄰詞詞性搭配關系的詞性標注模型來解決。

4 實驗結果

選取1998年《人民日報》部分標注語料作為測試和訓練語料,內容涉及政治、經濟、文藝、體育、報告文學等多種題材。語料使用 42種標記,從中抽取30萬詞的語料進行訓練。從訓練集外隨機抽取部分語料作為測試集, 其中測試語料約有 244 974個記號,該語料有關特性如表1所示。采用詞性標注的準確率對模型進行評價,實驗結果見表2。

從表2可見:在相同測試條件下,基于馬爾可夫族模型的詞性標注方法與常規的基于隱馬爾可夫模型詞性標注方法相比大大提高了標注準確率, 標注準確率從94.642%提高到96.214%; 基于馬爾可夫族模型,并結合中心詞驅動句法分析的詞性標注方法更進一步將標注準確率提高到97.126%。

表1 標注語料有關特性Table 1 Some properties of annotated corpus

表2 詞性標注實驗結果Table 2 Experimental results of part-of-speech tagging

5 結論

(1)在基于馬爾可夫族模型的詞性標注中,前詞的詞性不但與前面詞的詞性有關,而且與當前詞本身有關,因而,在相同測試條件下,基于馬爾可夫族模型的詞性標注方法與常規的基于隱馬爾可夫模型詞性標注方法相比大大提高了標注準確率, 標注準確率從94.642%提高到96.214%。

(2)在漢語短語句法分析中,首先要對句子進行漢語詞語切分和詞性標注,然后,在詞性標注的基礎上進行句法分析。詞性標記在句法分析中起到了至關重要的作用。對中心詞驅動句法分析模型的規則進行分解和修改,基于馬爾可夫族模型,并結合中心詞驅動句法分析的詞性標注方法更進一步將標注準確率提高到97.126%。

[1]Christopher D M, Schutze H. Foundations of statistical natural language processing[M]. London: the MIT Press, 1999:136-157.

[2]Turish B. Part-of-speech tagging with finite-state morphology[C]// Proceedings of the International Conference on Collocations and Idioms: linguistic, Computational, and Psycholinguistic Perspective. Berlin, 2003: 18-20.

[3]姜濤, 姚天順, 張俐. 基于實例的中文分詞-詞性標注方法的應用研究[J]. 小型微型計算機系統, 2007, 28(11): 2090-2093.JIANG Tao, YAO Tian-shun, ZHANG Li. Application study of example based chinese word segmentation and part-of-speech tagging method[J]. Journal of Chinese Computer Systems, 2007,28(11): 2090-2093.

[4]王敏, 鄭家恒. 基于改進的隱馬爾科夫模型的漢語詞性標注[J]. 計算機應用, 2006, 26(12): 197-198.WANG Min, ZHENG Jia-heng. Chinese part-of-speech tagging based on improved hidden Markov mode[J].Computer Applications, 2006, 26(12): 197-198.

[5]Charniak E, Hendricson C, Jacobson N, et al. Equations for part-of-speech tagging[C]//Proceedings of the Eleventh National Conference on Artificial Intelligence. Menlo Park: AAAI Press/MIT Press, 1993: 784-789.

[6]Brants T. A statistical part-of-speech tagger[C]//Proceedings of the Sixth Conference on Applied Natural Language Processing(ANLP-2000). Seattle, 2000: 224-231.

[7]魏歐, 吳健, 孫玉芳. 基于統計的漢語詞性標注方法的分析與改進[J]. 軟件學報, 2000, 11(4): 473-480.WEI Ou, WU Jian, SUN Yu-fang. Analysis and improvement of statistics-based Chinese part-of-speech tagging[J]. Journal of Software, 2000, 11(4): 473-480.

[8]梁以敏, 黃德根. 基于完全二階隱馬爾科夫模型的漢語詞性標注[J]. 計算機工程, 2005, 31(10): 177-179.LIANG Yi-min, HUANG De-gen.Chinese part-of-speech tagging based on full second-order hidden Markov model[J].Computer Engineering, 2005, 31(10): 177-179.

[9]屈剛, 陸汝占.一個改進的詞性標注系統[J].上海交通大學學報, 2003, 37(6): 897-900.QU Gang, LU Ru-zhan. An improved part-of-speech(POS)tagging system[J]. Journal of Shanghai Jiaotong University, 2003,37(6): 897-900.

[10]Gimenez J, Marquez L. Fast and accurate part-of-speech tagging:The SVM approach revisited[C]//Proceedings of the International Conference on Recent Advances in Natural Language Processing. Bulgaria, 2003: 158-165.

[11]趙巖, 王曉龍, 劉秉權, 等. 融合聚類觸發對特征的最大熵詞性標注模型[J]. 計算機研究與發展, 2006, 43(2): 268-274.ZHAO Yan, WANG Xiao-long, LIU Bing-quan, et al. Fusion of clustering trigger-pair features for pos tagging based on maximum entropy model[J]. Journal of Computer Research and Development, 2006, 43(2): 268-274.

[12]邢富坤, 宋柔, 羅智勇. SSD模型及其在漢語詞性標注中的應用[J]. 中文信息學報, 2010, 24(1): 20-24.XING Fu-kun, SONG Rou, LUO Zhi-yong. Symbol-andstatistics decoding model and its application in chinese pos tagging[J]. Journal of Chinese Information Processing, 2010,24(1): 20-24.

[13]劉遙峰, 王志良, 王傳經. 中文分詞和詞性標注模型[J]. 計算機工程, 2010, 36(4): 17-19.LIU Yao-feng, WANG Zhi-liang, WANG Chuan-jing. Model of Chinese words segmentation and part-of-word tagging[J].Computer Engineering, 2010, 36(4): 17-19.

[14]朱聰慧, 趙鐵軍, 鄭德權. 基于無向圖序列標注模型的中文分詞詞性標注一體化系統[J]. 電子與信息學報, 2010, 32(3):700-704.ZHU Cong-hui, ZHAO Tie-jun, ZHENG De-quan. Joint Chinese word segmentation and pos tagging system with undirected graphical models[J]. Journal of Electronics & Information Technology, 2010, 32(3): 700-704.

[15]仲其智, 姚建民. 低頻詞的中文詞性標注研究[J]. 計算機應用與軟件, 2011, 28(3): 182-185.ZHONG Qi-zhi, YAO Jian-min. Research on infrequent words chinese part-of-speech tagging[J]. Computer Applications and Software, 2011, 28(3): 182-185.

[16]于江德, 葛彥強, 余正濤. 基于條件隨機場的漢語詞性標注[J]. 微電子學與計算機, 2011, 28(10): 63-66.YU Jiang-de, GE Yan-qiang, YU Zheng-tao. Chinese part-of-speech tagging based on conditional random fields[J].Microelectronics & Computer, 2011, 28(10): 63-66.

[17]袁里馳. 基于改進的隱馬爾科夫模型的語音識別方法[J]. 中南大學學報: 自然科學版, 2008, 39(6): 1303-1308.YUAN Li-chi. A speech recognition method based on improved hidden Markov model[J]. Journal of Central South University:Science and Technology, 2008, 39(6): 1303-1308.

[18]Collins M. Head-driven statistical models for natural language parsing[D]. Pennsylvania: The University of Pennsylvania, 1999:35-47.

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
學習方法
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 国产精品青青| 丁香婷婷综合激情| 玩两个丰满老熟女久久网| 3344在线观看无码| 欧美一级黄片一区2区| 91破解版在线亚洲| 91 九色视频丝袜| 麻豆精品视频在线原创| 亚洲成人高清无码| 国产99精品视频| 天堂成人av| 中文字幕无码制服中字| 精品自拍视频在线观看| 美女视频黄又黄又免费高清| 亚洲天堂视频在线观看免费| 精品久久久无码专区中文字幕| 狠狠v日韩v欧美v| 国产精品无码久久久久久| 91精品亚洲| a级毛片毛片免费观看久潮| 好久久免费视频高清| 亚洲国产精品一区二区第一页免| 成人久久精品一区二区三区| 久久香蕉国产线| 在线观看亚洲人成网站| 国产a网站| 国产一级二级三级毛片| 国产福利在线免费| 狠狠ⅴ日韩v欧美v天堂| 亚洲V日韩V无码一区二区| 亚洲日韩精品欧美中文字幕| 国产日本一区二区三区| 999在线免费视频| 2021精品国产自在现线看| 国产成人无码Av在线播放无广告| 欧美www在线观看| 毛片免费在线| 国产精品嫩草影院av| 露脸真实国语乱在线观看| 日本少妇又色又爽又高潮| 久久久久久高潮白浆| 国产中文在线亚洲精品官网| 怡红院美国分院一区二区| 国产中文一区a级毛片视频| 天天色综网| 青青草原国产一区二区| 国产精品尤物铁牛tv| 亚洲天堂视频在线免费观看| 国产香蕉97碰碰视频VA碰碰看 | 日本在线视频免费| 日韩中文无码av超清| 日本精品一在线观看视频| 日韩精品无码一级毛片免费| 亚洲无线观看| 一区二区日韩国产精久久| 人妻丰满熟妇AV无码区| 日本AⅤ精品一区二区三区日| 国产黑丝视频在线观看| 国产在线精品人成导航| 国产精品自在线天天看片| 精品视频第一页| 天天爽免费视频| 扒开粉嫩的小缝隙喷白浆视频| 偷拍久久网| 天天做天天爱天天爽综合区| 国产精品成人久久| 最新痴汉在线无码AV| 国产玖玖玖精品视频| 99九九成人免费视频精品 | Jizz国产色系免费| 亚洲成人一区二区三区| 97久久精品人人| 精品久久久久无码| 欧洲亚洲欧美国产日本高清| 亚洲狼网站狼狼鲁亚洲下载| 免费在线观看av| 国模私拍一区二区| 99爱在线| 久久精品aⅴ无码中文字幕| 麻豆国产精品| 国产人妖视频一区在线观看| 视频在线观看一区二区|