潘華山,嚴 馨,周 楓,余正濤,郭劍毅
(昆明理工大學 信息工程與自動化學院和云南省計算機技術應用重點實驗室,云南 昆明 650500)
基于層疊條件隨機場的高棉語分詞及詞性標注方法
潘華山,嚴 馨,周 楓,余正濤,郭劍毅
(昆明理工大學 信息工程與自動化學院和云南省計算機技術應用重點實驗室,云南 昆明 650500)
針對高棉語分詞及詞性標注問題,提出一種基于層疊條件隨機場模型的自動分詞及詞性標注方法。該方法由三層條件隨機場模型構成: 第一層是分詞模型,該模型以字符簇為粒度,結合上下文信息與高棉語的構詞特點構建特征模板,實現對高棉語句子的自動分詞;第二層是分詞結果修正模型,該模型以詞語為粒度,結合上下文信息與高棉語中命名實體的構成特點構建特征模板,實現對第一層分詞結果的修正;第三層是詞性標注模型,該模型以詞語為粒度,結合上下文信息與高棉語豐富的詞綴信息構建特征模板,實現對高棉語句子中的詞語進行自動標注詞性。基于該模型進行開放測試實驗,最終準確率為95.44%,結果表明該方法能有效解決高棉語的分詞和詞性標注問題。
高棉語;層疊條件隨機場;分詞;詞性標注
柬埔寨語又稱高棉語,屬南亞語系孟高棉語族高棉語支,是柬埔寨的官方語言。高棉語是在古高棉語的基礎上演變和發展而來的。由于歷史上與印度宗教之間的關系,高棉語吸收了許多巴梵語詞匯,巴梵語的大量借用對高棉語的構詞形態產生了重要影響。近代,由于法國殖民統治和現代科技的發展,高棉語還吸收了英法等多國的語言詞匯。因此,高棉語的構詞形態非常多樣化。高棉語的構詞法大致可分為三類: 單純詞構詞法、合成詞構詞法和內部曲折法[1]。高棉語的構成與英語比較類似: 首先由基本字符根據特定規則構成KCC[2](Khmer Character Cluster,字符簇),然后再由KCC構成詞素,最后由詞素構成詞語,進而構成高棉語句子和文本。
近年來,隨著自然語言處理工作在各國的展開,高棉語的自然語言處理也受到越來越多研究者的重視。高棉語同許多其他亞洲語言一樣是連續書寫的,詞與詞之間沒有明顯的分隔符,因此對高棉語進行分詞和詞性標注研究具有重要意義。目前,已有少數機構和個人開展了相關工作: 蔣艷榮等人[3]針對采用最大匹配算法對高棉語進行分詞準確率低的問題,提出一種采用改進的Viterbi算法通過最優選擇及剪枝操作來改善分詞效率,并取得了一定的效果;Chea Sok Huor等人[4]提出基于詞語和音節的混合二元文法模型對高棉語進行分詞,實驗結果顯示該方法能獲得相對較好的切分效率;Chenda NOU等人[5]針對高棉語詞性標注問題,提出一種融合規則和三元文法模型的混合方法對高棉語進行詞性標注,在一個小型語料集的開放實驗中取得了不錯的效果。上述研究均針對分詞和詞性標注中的單一任務進行研究,并沒有考慮將二者統一到一個框架下,且分詞和詞性標注的效率也有待進一步提高。
針對以上問題,本文提出一種基于層疊條件隨機場(Cascaded Conditional Random Fields,CCRFs)模型的高棉語自動分詞及詞性標注方法,該方法由三層條件隨機場模型構成: 第一層為分詞模型,該模型融合KCC的上下文信息和高棉語的構詞特點,實現高棉語自動分詞;第二層為分詞結果修正模型,該模型融合分詞結果的上下文信息和高棉語命名實體的構成特點,實現對分詞結果的修正;第三層為詞性標注模型,該模型融合詞語的上下文信息和高棉語的詞綴等信息,實現高棉語詞性自動標注。該層疊模型不僅可將高棉語的分詞和詞性標注統一在一個框架下,而且還可利用層級信息來改善處理效率。
2.1 層疊條件隨機場模型
高棉語的分詞和詞性標注都屬于序列標注問題,而條件隨機場[6]在解決序列標注問題上具有許多優勢,它克服了隱馬爾可夫模型的獨立性假設及最大熵模型的標記偏置等缺陷,能獲得全局最優解,為當前解決序列標注問題的最佳方案,且已在多個任務中獲得迄今為止的最佳性能,因此本文將條件隨機場模型作為解決高棉語分詞和詞性標注的基礎模型。
由于分詞結果的上下文信息和高棉語豐富的詞綴信息都能為詞性標注提供有效的特征,因此需要引入多層的條件隨機場模型用于高棉語的分詞和詞性標注。本文所提出的層疊模型共包含三層: 第一層是分詞模型。輸入經過分解KCC之后的KCC序列,利用條件隨機場模型融合KCC序列的上下文信息與高棉語的構詞特征,實現高棉語的自動分詞;第二層是分詞結果修正模型。該模型以上層分詞結果作為輸入,利用條件隨機場模型融合分詞結果的上下文信息和高棉語命名實體的構成特征,實現對上層分詞結果的自動修正;第三層是詞性標注模型,輸入為修正后的分詞結果,利用條件隨機場模型融合分詞結果的上下文信息與高棉語豐富的詞綴信息等特征,實現高棉語的自動詞性標注。整個層疊模型的架構圖如圖1所示。

圖1 基于層疊條件隨機場的高棉語分詞及詞性標注模型架構圖
2.2 分詞模型
高棉語由基本的元音符號、輔音符號和一些其他符號構成,這些符號按照特定規則構成具有固定讀音的KCC,該規則滿足式(1)[2]。

(1)
其中,{}表示包含在其中的內容可出現0-2次,[]表示包含在其中的內容可出現0-1次,

表1 表達式-Unicode碼對應表
除式(1)能匹配的KCC之外,將高棉語中出現的其他字符串,如國際標點符號、高棉語標點符號、阿拉伯數字串、高棉語數字串及英文字符串等都同等視作KCC,將制定單獨的正則表達式進行匹配識別。
按照以上方法可以將高棉語原始文本分解為KCC序列。根據KCC序列所包含的上下文信息以及高棉語的構詞特點,將分詞模型訓練時的特征模板定義如表2所示。

表2 分詞特征模板
訓練語料來源于PLC(PAN Localization Cambodia)*http://www.panl10n.net/發布的公開語料集Khmer Tagged Corpus*http:/www.panl10n.net/english/Outputs%20Phase%202/CCs/Cambodia/MoEYS/Software/2009/ KhmerCorpus.zip(簡稱KCorpus,下同),KCorpus是一個經過分詞和詞性標注處理的高棉語語料集,其中詞性標簽集參照Khmer Part of Speech description*http://www.PANL10n.net/wiki/PartOfSpeech。訓練時,首先需要將語料集中的每個詞語進行KCC分解,并
采用{B,M,E,S}四標記法對每個KCC進行標注;然后按照表2準備好分詞特征模板;最后調用CRF++工具包[8],以分解過KCC的語料集和分詞特征模板為輸入,通過訓練學習即可獲得分詞模型。構建分詞模型的流程圖如圖2所示。

圖2 分詞模型構建流程圖
2.3 分詞結果修正模型
對獲得的分詞模型進行開放測試, 隨機從分詞結果中選取40 000詞進行統計,結果如表3所示。其中,未登錄詞(Out of vocabulary)[9]切分錯誤約占錯誤總數的34%。分詞錯誤會直接傳遞到詞性標

表3 分詞錯誤統計
注,從而導致詞性標注也發生錯誤,進而影響分詞及詞性標注的整體性能。若能對未登錄詞切分錯誤進行有效的修正,不僅可以提高分詞精度,同時還可以降低部分因錯誤傳遞而出現的詞性標注錯誤,可以從整體上提高高棉語分詞以及詞性標注的性能。基于上述考慮,增加分詞結果修正模型。
進一步對未登錄詞切分錯誤進行分析,發現其中大部分錯誤是人名、組織機構名、地名等命名實體的切分錯誤,故分詞結果修正模型主要針對分詞中的命名實體進行建模。總結高棉語命名實體的特點,發現當某些特殊前綴或后綴出現時,連續出現的幾個詞成為命名實體的概率非常大,同時考慮分詞結果的上下文信息,分詞結果修正模型訓練時的特征模板定義如表4所示。

表4 分詞結果修正模型的特征模板
訓練語料同樣采用KCorpus。由于KCorpus沒有標注命名實體,所以需要對KCorpus中的命名實體進行手工標注,標注時以三名高棉語語言學研究人員的投票結果作為最終結果,當投票結果存在異議時參考English-Vietnamese Named Entity Guidelines[10]進行標注。因為此處的命名實體識別只是為了修正分詞模型的切分錯誤,所以無需對實體的類別進行區分。因此,可以直接采用{B,M,E,S}四標記法對實體進行標注。
在準備好訓練語料和特征模板之后,利用CRF++工具包即可實現對KCorpus中的命名實體進行學習從而獲取分詞結果修正模型。構建分詞結果修正模型的流程圖如圖3所示。

圖3 分詞結果修正模型構建流程圖
2.4 詞性標注模型
經過修正會得到更好的分詞結果,接下來需要對分詞結果進行詞性標注。由高棉語的構詞特點可知,高棉語詞匯包含豐富的詞綴信息[11],如果能對詞綴信息加以利用,設計適合高棉語構詞特性的特征模板,可有效提高高棉語詞性標注的性能。高棉語詞綴既有表示語義(詞性)的輔助詞素,又有表示詞義的輔助詞素,且同一詞綴可以表示多種詞性。若采用規則的方法,不僅需要手工構建規則庫,還需要考慮規則庫的覆蓋率和處理效率, 而且規則方法都有主觀性,難以保證一致性,適應性較差。
本文利用條件隨機場模型的多特征融合能力,充分融合分詞結果的上下文信息和高棉語的詞
綴信息,從而解決高棉語的詞性標注問題。其中,詞干的詞性將結合上下文信息從高棉語詞典Chuon Nath Khmer Dictionary[12]中提取,詞性標記采用Khmer Part-of-Speech Tagger[13]中發布的詞性標記集。詞性標注模型訓練時的特征模板定義如表5所示。
訓練語料仍然采用KCorpus。在準備好訓練語料和特征模板后,調用CRF++工具包即可對KCorpus中的詞性標注結果進行學習,從而獲取詞性標注模型。構建詞性標注模型的流程圖如圖4所示。

圖4 詞性標注模型構建流程圖
為了客觀評價本文方法的效果,分別針對高棉語的分詞和詞性標注做了兩組對比實驗。第一組實驗是高棉語分詞的性能對比,用單層模型(CRFs,分詞模型)、兩層模型(CCRFs,分詞模型+分詞結果修正模型)與最大匹配算法[3]、MViterbi算法[3]以及二元文法模型[4]進行開放測試對比實驗;第二組實驗是高棉語詞性標注的性能對比,用三層模型(CCRFs,分詞模型+分詞結果修正模型+詞性標注模型)與基于變換的方法[5]進行開放測試對比實驗。本文開放測試的語料來源于從柬埔寨新聞網*http://www.dap-news.com上收集的自2012年10月至2013年7月的新聞文本,涵蓋藝術、娛樂、體育、健康、經濟、國內以及國際等七大新聞板塊,約10M(50萬詞)。



采用準確率、召回率和F值對實驗結果進行評價。結果如表6、表7所示。
表6 最大匹配算法、MViterbi算法、二元文法模型、單層模型(CRFs)、兩層模型(CCRFs)的高棉語分詞實驗結果比較

測試類型準確率/%召回率/%F值/%最大匹配算法72.26——MViterbi算法88.17——二元文法模型91.56292.13891.849單層模型(CRFs)94.6995.0694.87兩層模型(CCRFs)96.0296.4996.25
由表6可知,兩層模型(CCRFs)的分詞效果相對于單層模型(CRFs)以及其他方法,其正確率、召回率均有提升。尤其是相對于前三種方法中效果最好的二元文法模型來說,兩層模型的準確率提高了近4.5個百分點,說明本文方法對解決高棉語的分詞問題是非常有效的。另外,相對于單層模型(CRFs),兩層模型(CCRFs)的準確率和召回率都得到了小幅提升,說明加入分詞結果修正模型是有必要的。
表7 基于變換的方法與三層模型(CCRFs)的詞性標注實驗結果比較

測試類型準確率/%召回率/%F值/%基于變換的方法91.96——三層模型(CCRFs)95.4494.5795.00
由表7可知,三層模型(CCRFs,分詞模型+分詞結果修正模型+詞性標注模型)的詞性標注效果相對于基于變換的方法,正確率提高了近3.5個百分點,同時還獲得了94.57%的召回率,說明利用層疊條件隨機場模型來解決高棉語分詞及詞性標注問題是行之有效的。
本文針對高棉語的分詞和詞性標注問題,提出一種基于層疊條件隨機場模型的高棉語分詞和詞性標注方法。該方法不僅考慮上下文信息對高棉語分詞和詞性的影響,還通過對大量高棉語文本進行總結歸納,得到一些可利用的語言特征,并將其設計成有效的特征模板。實驗結果表明本文方法不僅能有效地解決高棉語的分詞和詞性標注問題,而且還能將高棉語分詞和詞性標注統一在一個框架中解決。
在實驗中發現兩個問題有待進一步解決: 一是對分詞模型的開放測試結果進行統計后發現,組合型歧義切分錯誤占錯誤總數的55.56%,比未登錄詞切分錯誤還多,雖然對未登錄詞中的命名實體切分錯誤進行了修正,但結果顯示效果提高并不是太大,若能有效解決組合型歧義切分錯誤,將能進一步提高高棉語分詞及詞性標注的性能;二是由于高棉語構詞的特殊性,分詞之前需要先分解KCC,這個過程增加了系統的資源和時間開銷,經統計,層疊模型的處理速度約為32.65kb/s,仍有提升空間。
[1] 莫源源. 高棉語的構詞方式及其語法功能[J]. 教法研究, 2012(10):45-46.
[2] Huor C S, Rithy T, Hemy R P, et al. Detection and Correction of Homophonous Error in Khmer Language[J]. PAN Localization Working Papers, 2006:243-248.
[3] 蔣艷榮,劉習文,陳耿濤.基于Viterbi改進算法的高棉語分詞研究[J].計算機工程, 2011,37(15):174-176.
[4] Huor C S, Rithy T, Hemy R P, et al. Word Bigram Vs Orthographic Syllable Bigram in Khmer Word Segmentation[J]. PAN Localization Working Papers, 2004:249-253.
[5] Nou C, Kameyama W. Khmer POS Tagger: A Transformation-based Approach with Hybrid Unknown Word Handling[C]//Proceedings of the International Conference on Semantic Computing, 2007:482-492.
[6] Lafferty J, McCallum A, Pereira F C N. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the Eighteenth International Conference on Machine Learning, 2001:282-289.
[7] The Unicode Consortium. The Unicode Standard, Version 6.2.0[S]. Unicode Consortium, 2012.
[8] TakuKudo. CRF++ toolkit[CP]. 2005, http://crfpp.sourceforge.net/
[9] Bazzi I, Glass J. Modelling out-of-vocabulary words for robust speech recognition[D]. Proc Icslp, 2002.
[10] Ngo Q H, Dien D, Winiwarter W. Building English-Vietnamese Named Entity Corpus with Aligned Bilingual News Articles[C]//Proceedings of The Workshop on South & Southeast Asian Natural Language Processing,2014:85-93.
[11] 肯素(柬埔寨).高棉語法[M].柬埔寨皇家科學院出版社,2007.5.
[12] Nath C. Dictionnaire cambodgien[M]. Phnom Penh,1967.
[13] Nou C, Kameyama W. Khmer POS Tagger: A Transformation-based Approach with Hybrid Unknown Word Handling[C]//Proceedings of International Conference on Semantic Computing, 2007:482-492.
A Khmer Word Segmentation and Part-of-Speech Tagging Method Based on Cascaded Conditional Random Fields
PAN Huashan, YAN Xin, ZHOU Feng, YU Zhengtao, GUO Jianyi
(School of Information Engineering and Automation, Kunming University of Science and Technology and Key Lab of Computer Technologies Application of Yunnan Province, Kunming, Yunnan 650500,China)
This paper presents a Khmer automatic word segmentation and POS tagging method based on Cascaded Conditional Random Fields(CCRFs) model. The approach consists of three layers of Conditional Random Fields(CRFs) models: the first layer is the word segmentation model in Khmer character cluster(KCC) granularity, integrating the word formation characteristics of Khmer into the feature template; the second layer is the word segmentation correction model in word granularity, integrating the characteristic of Khmer named entities into the feature template; the third layer is the POS tagging model, integrating the rich affixes information into the feature template, and achieved the Khmer POS tagging. We experimented on an open corpus and obtained a final accuracy rate of 95.44%, indicating that the proposed method can effectively solve the Khmer word segmentation and POS tagging problems.
Khmer;cascaded conditional random fields;word segmentation;POS tagging

潘華山(1987—),碩士,主要研究領域為自然語言處理。E-mail:panhuashan2008@126.com嚴馨(1969—),通信作者,副教授,主要研究領域為自然語言處理。E-mail:kg_yanxin@sina.com周楓(1958—),副教授,主要研究領域為自然語言處理。E-mail:zf158@sina.com
1003-0077(2016)04-0110-07
2014-03-20 定稿日期: 2015-06-09
國家自然科學基金(61462055)
TP391
A