袁里馳
(江西財經大學 信息學院 數據與知識工程江西省重點實驗室,江西 南昌,330013)
所謂詞性標注[1],就是根據句子上下文中的信息給句中的每個詞一個正確的詞性標記。詞性標注是對自然語言進一步處理的重要基礎,在許多應用領域,如文本索引、文本分類、語言合成、語料庫加工,詞性標注都是一個重要環節,因此,研究詞性標注的方法具有重要意義?,F有的詞性標注所采用的語言模型主要分為基于規則的方法[2-3]和基于統計的方法[4-16]?;谝巹t的詞性標注依賴手工編輯的規則,將輸入的詞序列分解成形態組件,將結果的詞匯類別作為這些組成的函數加以計算?;谝巹t的標注系統與系統設計者的語言能力有關,其中規則集直接體現了設計者的語言能力。然而,要對某一種語言的各種語言現象都構造規則是一項很艱難也很耗時的任務?;谝巹t的標注系統另一個常見問題是:當根據規則判斷1個詞的詞性時可能面臨多種選擇,若不根據上下文則很難作出正確的選擇?;谝巹t的方法適應性較差,并且非統計模型的本質使它通常作為一個獨立的標注器,很難被用作概率模型的組件部分?;诮y計的方法卻能彌補此缺點。隱馬爾可夫模型[1]是統計模型中應用較廣、效果較好的模型之一。對于隱馬爾科夫模型(hidden Markov model,HMM)用于詞性標注,國內外學者進行了大量研究,如:1988年Church等提出了第一個基于詞語概率和轉移概率的隱馬爾科模型英文標注器;1994年Schvtze等提出了可變記憶馬爾科夫模型(Variable memory Markov model);1999年Scott等提出了完全二階隱馬爾科夫模型(Second order hiddenv Markov model),Sang-Zoo等提出了基于詞匯信息的隱馬爾科夫模型(Lexicalized hidden Markov model);魏歐等[6]介紹了傳統隱馬爾科夫模型用于漢語詞性標注的具體分析與改進;梁以敏等[7]提出了完全二階隱馬爾科夫模型;屈剛等[8]介紹了雙重狀態隱馬爾科夫模型等等。統計標注方法如隱馬爾可夫模型在計算每一輸入詞序列的最可能詞性標注序列時,既考慮上下文,也考慮二元或三元概率參數(這些參數可通過已標注用于訓練的語料估計得到)。目前,許多種語言都有人工標注的訓練語料,并且統計模型有很強的健壯性,這些優點使得統計方法成為當前主流的詞性標注方法?;陔[馬爾可夫模型的詞性標注存在的不足有:為了達到很高的標注準確率,需要大量的訓練語料;傳統的基于隱馬爾可夫模型的標注方法沒有結合現有的語言知識。隱馬爾可夫模型在用于標注時進行了3個基本假設:(1)馬爾可夫性假設;(2)不動性假設;(3)輸出獨立性假設,即輸出(詞的出現)概率僅與當前狀態(詞性標記)有關。這些假定尤其第 3個假定太粗糙。為此,本文作者引入一種統計模型即馬爾可夫族模型[16]。假定1個詞出現的概率既與它的詞性標記有關,也與前面的詞有關,但該詞的詞性標記與該詞前面的詞關于該詞條件獨立(即在該詞已知條件下是獨立的),在上面假設下,將馬爾可夫族模型進行簡化,可用于詞性標注。實驗結果證明:在相同的測試條件下,基于馬爾可夫族模型的詞性標注方法與常規的基于隱馬爾可夫模型的詞性標注方法相比大大提高了標注準確率。在其他許多自然語言處理技術領域中(如分詞、句法分析、語音識別等),馬爾可夫族模型也非常有用。
設T為標注集,W為詞集,很自然地可以定義一個二元的 HMM 詞性標注模型(T,A,W,B,π)[1]。其中:A為狀態轉移概率分布矩陣;B為狀態符號發射的概率分布矩陣;π為初始狀態概率分布。A,B和π可通過已標注訓練語料估計得到。在上述模型下,模型的狀態是詞性標記;輸出符號是詞。在已知輸入詞序列w1,n的條件下, 尋找最可能標記序列t1,n的任務,可看作在給定觀察序列w1,n條件下搜索最可能的HMM狀態序列的問題:

首先,引入獨立性假設,認為詞序列中的任意一個詞wi的出現概率只同當前詞的詞性標記ti有關。而與周圍(上下文)的詞,詞類標記無關。其次,采用二元假設,即認為任意詞類標記的出現概率只與它緊鄰的前一個詞類標記有關。由上述假設,有:

為簡單起見,定義=1.0。
設S1為詞性標記集,S2為詞表中詞的集合,任意一個詞的詞性標記ti和該詞wi前面的詞關于該詞條件獨立(即在該詞已知的條件下獨立):

在上述假定下,可以利用馬爾可夫族模型進行詞性標注[16](為了簡單,假定隨機向量 {wi,ti}i≥1的成分變量{wi}i≥1和{ti}i≥1都是 2 階馬爾可夫鏈):

其中:

因而,

在得到詞性標注模型后的下一個問題是如何尋找一種有效算法,求出在給定輸入條件下概率最大的詞性標記序列。Viterbi算法[2]是一種動態編程的方法,能夠根據模型參數有效地計算出一給定詞序列w1,…,wn最可能產生的詞性標記序列t1,…,tn。計算過程如下:

圖1 詞性標注算法Fig.1 Part-of-Speech tagging algorithm
在漢語短語句法分析中,首先要對句子進行漢語詞語切分和詞性標注,然后,在詞性標注的基礎上進行句法分析。詞性標記在句法分析中起了至關重要的作用。英語中,詞的形態變化決定了詞的詞性,而詞性又決定了詞在句子中的句法功能。在這里,“詞性”作為句法分析的基礎,起到了樞紐作用:一方面,“詞性”是詞的特征,可以從詞的形態變化中直接判斷出來;另一方面,詞性又反映了詞語在句子組織過程中充當的語法功能。
中心詞驅動句法分析模型[18]是最具有代表性的詞匯化模型。為了發揮詞匯信息的作用,中心詞驅動模型為文法規則中的每一個非終結符(None terminal)都引入核心詞/詞性信息。由于引入詞匯信息,不可避免地將出現嚴重的稀疏問題。為了緩解這個問題,中心詞驅動模型把每一條文法規則的右手側分解為三大部分:一個中心成分;若干個在中心左邊的修飾成分;若干個在中心右邊的修飾成分??梢詫懗扇缦滦问剑?/p>

其中:P為非終結符;H為中心成分;L1為左邊修飾成分;R1為右邊修飾成分;hw,lw和rw均為成分的核心詞,ht,lt和rt分別為它們的詞性。進一步假設:首先由P產生核心成分H,然后,以H為中心分別獨立地產生左右兩邊的所有修飾成分。這樣,形如(8)式的文法規則的概率為:

其中:Lm+1和Rn+1分別為左右兩邊的停止符號。
為了結合句法分析進行詞性標注,對形如(8)式的文法規則的概率修改為:

其中:Lm+1和Rn+1分別為左、右兩邊的停止符號。式(10)中的概率

可分解為2個概率:

的乘積,句法分析中有關詞性標注的概率為見式(11)。再假定rwi,rti-1,rti-2,…,rt1,ht關于rti條件獨立,則有:

式(13)中概率

即為rti,rti-1,rti-2,…,rt1,hti間的互信息??梢姡菏?13)概率意義十分明確,也符合語言現象。式(13)中的概以考慮引入基于相鄰詞詞性搭配關系的詞性標注模型來解決。
選取1998年《人民日報》部分標注語料作為測試和訓練語料,內容涉及政治、經濟、文藝、體育、報告文學等多種題材。語料使用 42種標記,從中抽取30萬詞的語料進行訓練。從訓練集外隨機抽取部分語料作為測試集, 其中測試語料約有 244 974個記號,該語料有關特性如表1所示。采用詞性標注的準確率對模型進行評價,實驗結果見表2。
從表2可見:在相同測試條件下,基于馬爾可夫族模型的詞性標注方法與常規的基于隱馬爾可夫模型詞性標注方法相比大大提高了標注準確率, 標注準確率從94.642%提高到96.214%; 基于馬爾可夫族模型,并結合中心詞驅動句法分析的詞性標注方法更進一步將標注準確率提高到97.126%。

表1 標注語料有關特性Table 1 Some properties of annotated corpus

表2 詞性標注實驗結果Table 2 Experimental results of part-of-speech tagging
(1)在基于馬爾可夫族模型的詞性標注中,前詞的詞性不但與前面詞的詞性有關,而且與當前詞本身有關,因而,在相同測試條件下,基于馬爾可夫族模型的詞性標注方法與常規的基于隱馬爾可夫模型詞性標注方法相比大大提高了標注準確率, 標注準確率從94.642%提高到96.214%。
(2)在漢語短語句法分析中,首先要對句子進行漢語詞語切分和詞性標注,然后,在詞性標注的基礎上進行句法分析。詞性標記在句法分析中起到了至關重要的作用。對中心詞驅動句法分析模型的規則進行分解和修改,基于馬爾可夫族模型,并結合中心詞驅動句法分析的詞性標注方法更進一步將標注準確率提高到97.126%。
[1]Christopher D M, Schutze H. Foundations of statistical natural language processing[M]. London: the MIT Press, 1999:136-157.
[2]Turish B. Part-of-speech tagging with finite-state morphology[C]// Proceedings of the International Conference on Collocations and Idioms: linguistic, Computational, and Psycholinguistic Perspective. Berlin, 2003: 18-20.
[3]姜濤, 姚天順, 張俐. 基于實例的中文分詞-詞性標注方法的應用研究[J]. 小型微型計算機系統, 2007, 28(11): 2090-2093.JIANG Tao, YAO Tian-shun, ZHANG Li. Application study of example based chinese word segmentation and part-of-speech tagging method[J]. Journal of Chinese Computer Systems, 2007,28(11): 2090-2093.
[4]王敏, 鄭家恒. 基于改進的隱馬爾科夫模型的漢語詞性標注[J]. 計算機應用, 2006, 26(12): 197-198.WANG Min, ZHENG Jia-heng. Chinese part-of-speech tagging based on improved hidden Markov mode[J].Computer Applications, 2006, 26(12): 197-198.
[5]Charniak E, Hendricson C, Jacobson N, et al. Equations for part-of-speech tagging[C]//Proceedings of the Eleventh National Conference on Artificial Intelligence. Menlo Park: AAAI Press/MIT Press, 1993: 784-789.
[6]Brants T. A statistical part-of-speech tagger[C]//Proceedings of the Sixth Conference on Applied Natural Language Processing(ANLP-2000). Seattle, 2000: 224-231.
[7]魏歐, 吳健, 孫玉芳. 基于統計的漢語詞性標注方法的分析與改進[J]. 軟件學報, 2000, 11(4): 473-480.WEI Ou, WU Jian, SUN Yu-fang. Analysis and improvement of statistics-based Chinese part-of-speech tagging[J]. Journal of Software, 2000, 11(4): 473-480.
[8]梁以敏, 黃德根. 基于完全二階隱馬爾科夫模型的漢語詞性標注[J]. 計算機工程, 2005, 31(10): 177-179.LIANG Yi-min, HUANG De-gen.Chinese part-of-speech tagging based on full second-order hidden Markov model[J].Computer Engineering, 2005, 31(10): 177-179.
[9]屈剛, 陸汝占.一個改進的詞性標注系統[J].上海交通大學學報, 2003, 37(6): 897-900.QU Gang, LU Ru-zhan. An improved part-of-speech(POS)tagging system[J]. Journal of Shanghai Jiaotong University, 2003,37(6): 897-900.
[10]Gimenez J, Marquez L. Fast and accurate part-of-speech tagging:The SVM approach revisited[C]//Proceedings of the International Conference on Recent Advances in Natural Language Processing. Bulgaria, 2003: 158-165.
[11]趙巖, 王曉龍, 劉秉權, 等. 融合聚類觸發對特征的最大熵詞性標注模型[J]. 計算機研究與發展, 2006, 43(2): 268-274.ZHAO Yan, WANG Xiao-long, LIU Bing-quan, et al. Fusion of clustering trigger-pair features for pos tagging based on maximum entropy model[J]. Journal of Computer Research and Development, 2006, 43(2): 268-274.
[12]邢富坤, 宋柔, 羅智勇. SSD模型及其在漢語詞性標注中的應用[J]. 中文信息學報, 2010, 24(1): 20-24.XING Fu-kun, SONG Rou, LUO Zhi-yong. Symbol-andstatistics decoding model and its application in chinese pos tagging[J]. Journal of Chinese Information Processing, 2010,24(1): 20-24.
[13]劉遙峰, 王志良, 王傳經. 中文分詞和詞性標注模型[J]. 計算機工程, 2010, 36(4): 17-19.LIU Yao-feng, WANG Zhi-liang, WANG Chuan-jing. Model of Chinese words segmentation and part-of-word tagging[J].Computer Engineering, 2010, 36(4): 17-19.
[14]朱聰慧, 趙鐵軍, 鄭德權. 基于無向圖序列標注模型的中文分詞詞性標注一體化系統[J]. 電子與信息學報, 2010, 32(3):700-704.ZHU Cong-hui, ZHAO Tie-jun, ZHENG De-quan. Joint Chinese word segmentation and pos tagging system with undirected graphical models[J]. Journal of Electronics & Information Technology, 2010, 32(3): 700-704.
[15]仲其智, 姚建民. 低頻詞的中文詞性標注研究[J]. 計算機應用與軟件, 2011, 28(3): 182-185.ZHONG Qi-zhi, YAO Jian-min. Research on infrequent words chinese part-of-speech tagging[J]. Computer Applications and Software, 2011, 28(3): 182-185.
[16]于江德, 葛彥強, 余正濤. 基于條件隨機場的漢語詞性標注[J]. 微電子學與計算機, 2011, 28(10): 63-66.YU Jiang-de, GE Yan-qiang, YU Zheng-tao. Chinese part-of-speech tagging based on conditional random fields[J].Microelectronics & Computer, 2011, 28(10): 63-66.
[17]袁里馳. 基于改進的隱馬爾科夫模型的語音識別方法[J]. 中南大學學報: 自然科學版, 2008, 39(6): 1303-1308.YUAN Li-chi. A speech recognition method based on improved hidden Markov model[J]. Journal of Central South University:Science and Technology, 2008, 39(6): 1303-1308.
[18]Collins M. Head-driven statistical models for natural language parsing[D]. Pennsylvania: The University of Pennsylvania, 1999:35-47.