龍從軍,劉匯丹,諾明花,吳 健
(1. 中國科學院軟件研究所,北京 100190;2. 中國社會科學院民族學與人類學研究所,北京 100081)
?
基于藏語字性標注的詞性預測研究
龍從軍1,2,劉匯丹1,諾明花1,吳 健1
(1. 中國科學院軟件研究所,北京 100190;2. 中國社會科學院民族學與人類學研究所,北京 100081)
該文選取了藏語文中小學教材的部分語料,構建了帶有藏語字性標記、詞邊界標記和詞性標記的語料庫,通過比較不同的分詞、標注方法,證明分詞、詞性標注一體化效果比分步進行的效果好,準確率、召回率和F值分別提高了0.067、0.073和0.07。但詞級標注模型難以解決詞邊界劃分的一致性和未登錄詞的問題。基于此,作者提出可以利用字性和字構詞的規律預測合成詞的詞性,既可以融入語言學知識又可以減少由未登錄詞導致的標注錯誤,實驗結果證明,作為詞性標注的后處理模塊,基于字性標注的詞性預測準確率提高到了0.916,這個結果已經比分詞標注一體化結果好,說明字性標注對糾正詞性錯誤標注有明顯的效果。
藏語; 語字標注; 分詞; 詞性標注
詞性標注研究指為給定句子中的每個詞確定一個合適的詞性的過程。詞性標注研究是自然語言處理基礎研究內容之一,在語音識別、信息檢索等很多領域發揮著重要的作用。
藏語詞性標注研究已經取得了一些成果,文獻[1]采用隱馬爾科夫模型,實現分詞和詞性標注一體化,最終詞性標注的F值達到79.494%;文獻[2]采用了融合語言特征的最大熵詞性標注模型,標注準確率達到90.94%;文獻[3]提出了利用感知機訓練模型的判別式詞性標注方法,經測試,準確率達98.26%;文獻[4]采用了最大熵和條件隨機場相結合的標注方法,最終在開放測試中,標注準確率達到89.12%。這些研究無疑對藏語文本詞性自動標注做出了重要的貢獻,但是同樣也存在較多的問題,一是各家的詞性標注規范不一致;二是詞性標注的訓練、測試語料不一致;三是都沒有公開各自的標注系統,因此難以對各家的系統進行客觀評價。這些研究都采用了統計模型進行詞性標注,但可供統計訓練的藏語標注文本數量不多,過多的未登錄詞也影響了標注準確率的提高。
本文作者提出基于藏語字性標注的合成詞詞性預測策略,主要思路是可通過標注藏語字性,根據字構詞的規律,預測詞的詞性。藏字字性可以作為特征融入統計模型中,也可以加入到后處理模塊對未登錄詞或者標注錯誤校正;文章第二部分比較了幾種標注方法,說明多特征融合可以提高標注準確率,但對未登錄詞作用不大;第三部分討論藏語字性和詞性的關系;第四部分描述了基于字性的詞性預測實驗及結果。
在進行基于詞的詞性標注研究中,我們分別訓練了幾個不同的模型,獨立分詞模型,獨立標注模型和分詞標注一體化模型。訓練分詞、標注和分詞標注一體化模型時,都采用了條件隨機場工具包*本文中使用的CRF工具包是CRF++ 0.58版,下載地址:http://taku910.github.io/crfpp/.,訓練語料選自語素標注庫(見3.1節介紹),按照1:4的比例,隨機抽取3 987句作為測試語料,其余15 952句作為訓練語料。
2.1 獨立分詞模型
以采用多種方法,文獻[5-8]分別做了闡述。本文在對黏寫形式切分時,采用了把疑似黏寫形式的音節全部切開,然后再根據上下文對非黏寫形式進行合并,例如,中、、、幾個音節為疑似黏寫形式,音節切分結果為:;然后采用四詞位標注法對切分后的音節進行標注,其結果為:;最后進行訓練獲得分詞切分模型。表1中數據為利用獨立分詞模型切分測試結果。

表1 獨立分詞實驗結果*本測試結果三項評測指標數據相同,純屬偶然,測試語料詞有48 073個,受測試的詞有48 099個。
2.2 獨立標注模型
在獨立分詞的基礎上進行單獨標注實驗時,為了比較分詞結果對標注的影響,我們進行了兩輪實驗:分詞后直接標注和對分詞結果校正后再進行標注。兩個實驗的結果如表2所示。

表2 獨立標注實驗結果
從表2可以看出,分詞的準確率對標注的效果影響明顯,在分詞未校正的情況下,標注準確率為0.832、召回率為0.830、F值為0.831。當對分詞結果進行校對之后,各項測試指標分別提高到了0.876,0.875和0.876,每項指標分別提高了0.044、0.045、0.045,這說明分詞的準確率影響標注的準確率。
2.3 分詞標注一體化模型

在分詞標注一體化模型訓練中,由于分詞和標注組合標簽比較多,訓練的時間比較長(10天左右),表3列出了本實驗的測試結果。

表3 分詞標注一體化測試結果
正如我們所料,分詞標注一體化模型的標注結果與獨立分詞、獨立標注的結果相比,各項測試指標分別提高了0.067、0.073和0.07;與校對分詞后的標注結果相比,各項測試指標分別提高了0.023、0.028、0.025。詳細情況如圖1所示。

圖1 標注結果比較圖
這說明,在分詞和標注一體化時,分詞和標注之間相互影響,相輔相成,既可以避免一部分分詞的錯誤,也可以避免部分標注錯誤,分詞和標注實現了兩者之間的優化組合。為了進一步考察分詞標注一體化中分詞的準確性,我們對分詞標注一體化測試結果中的分詞結果進行測試,發現一體化分詞結果的準確率、召回率和F值分別提高到0.943、0.948、0.945,與單獨分詞結果相比,各項測試指標分別提高0.003,0.008,0.005。
3.1 字性標記


在藏字字性標注過程中,對人名、地名、音譯名的藏字統一標注為k,根據不同的專有名詞類別,對k賦予區分標記,區分標記為詞性標注符號的二級符號,構成人名的藏字標注為kh,如nh,構成地名的藏字標注為kq(由于ks,已經做為其他標注符號,為了區分,這里采用kq),如ns,構成其他專有名詞的藏字標注為kz,如nz等。
3.2 合成詞詞性特點




4.1 實驗設計
我們原本設想,聯合利用字性、分詞標記和詞性標記訓練一個模型,以此考查標注效果,但由于訓練時間過長而中斷。因此采用了另一種方案,利用藏字字性標記和詞邊界標記兩個特征,訓練了一個能同時給出藏字字性標注和分詞標記的模型,然后利用藏字構詞的規則來對基于詞的標注模型的錯誤例子進行校正。整個過程如圖2所示。

圖2 實驗流程
4.2 詞性預測結果及分析
如果采用分詞、標注一體化模型,在錯誤標注結果中區分不開是分詞還是標注導致的錯誤,因此我們采用了分詞校正后獨立標注模型進行實驗,然后提取標注錯誤例子,對錯誤例子進行字性標注和利用字構詞的規則對復合詞或結構進行預測。
從評測結果中提取出了約5 900個錯誤例子,通過分析發現標注錯誤包括:在語料中,存在同一個詞的相同用法卻標注不一致的現象,一些特殊符號未給出正確標注,這種錯誤占比約20%,這種問題可以通過進一步調節語料,提高訓練和測試語料的一致性,對特殊符號進行統一處理等方法來解決。在其余錯誤標注中,兩個藏字及以上的復合詞或者短語標注錯誤和單字詞標注錯誤各占約40%。利用藏字字性和構詞規則,有1 888個標注錯誤得到修正,標注準確率提高了約0.04,這個標注結果已經高于分詞標注一體化的效果。幾種標注結果如圖 3所示。

圖 3 幾種標注實驗結果對比
表4列出了部分標注錯誤能夠通過規則預測得到正確的標注結果。

表4 藏字字性校正合成詞標注錯誤示例
字的概念在漢藏語研究中有著獨特的地位,以字(基本上叫語素)為單位進行研究是語言學家長期關注的對象,但是近幾年在文本信息處理、語音識別、語音合成研究中,字的概念(Sub-Word,Sub-Syllable)也得到廣泛關注。本文比較多種標注方法,盡管復合特征能夠提高標注準確率,但是不能根本解決未登錄詞等問題。為此,我們利用藏字字性,通過字構詞的規律預測合成詞或短語的標注問題,經過測試,標注準確率提高到0.916。盡管語料規模有限,加工精度有待提高,但這個研究策略值得進一步探究。
[1] 史曉東,盧亞軍.央金藏文分詞系統[J].中文信息學報,2011,25(4):54-56.
[2] 于洪志,李亞超,汪昆等.融合音節特征的最大熵藏文詞性標注研究[J].中文信息學報,2013, 27(5):160-165.
[3] 華卻才讓,劉群,趙海興等.判別式藏語文本詞性標注研究[J].中文信息學報, 2014, 28(2): 56-60.
[4] 康才畯.藏語分詞與詞性標注研究[D].上海師范大學博士學位論文,2014.
[5] 康才畯,龍從軍,江荻.基于詞位的藏文黏寫形式的切分[J].計算機工程與應用,2014,(11): 218-222.
[6] 才智杰.藏文自動分詞系統中緊縮詞的識別[J].中文信息學報,2009,23(1):35-37.
[7] 巴桑杰布,羊毛卓瑪,歐珠等.藏文分詞系統中緊縮格識別和藏字復原的算法研究[J].西藏科技,2012,(2):73-75,79.
[8] 李亞超,加羊吉,宗成慶等.基于條件隨機場的藏語自動分詞方法研究與實現[J].中文信息學報,2013,27(4):52-58.
[9] Tomá? Mikolov, IlyaSutskever,Hai-Son Leetc.Subword Language Modeling with Neural Networks[DB/OL], www.fit.vutbr.cz/~imikolov/rnnlm/char.pdf.
[10] 龍從軍,劉匯丹,吳健.藏語字性標注研究[C], 第十五屆中國少數民族語言文字信息處理學術研討會,延邊,2015.
[11] 趙小兵,孫媛,龍從軍等.藏文拉丁轉寫、分詞和詞性分類規范-信息處理用現代藏語分詞規范(草案)[M],北京: 商務印書館, 2015.
[12] 趙小兵,孫媛,龍從軍等.藏文拉丁轉寫、分詞和詞性分類規范-信息處理用現代藏語詞性標注規范(草案)[M],北京: 商務印書館,2015.
Tibetan POS Tagging Based on Syllable Tagging
LONG Congjun1,2, LIU Huidan1, NUO Minghua1, WU Jian1
(1. Institute of software Chinese Academy of Sciences, Beijing 100190, China;2. Institute of Ethnology and Anthropology Chinese Academy of Social Sciences, Beijing 100081, China)
A Tibetan corpus is constructed and annotated for the syllable markers, the word boundary markers and the part-of-speech(POS) tags, with texts selected from Tibetan textbooks of Primary and middle school. Then an empirical study reveals that the training data with the multi-level annotation can enhance the effects of POS tagging. Due to the strong relation between the POS tags of words and the tags Tibetan syllables, a method of Tibetan POS tagging by the Tibetan syllables is presented. The results of experiments show that syllable tags can correct certain errors caused in POS tagging.
Tibetan language; tagging of Tibetan syllables; word segmentation;POS

龍從軍(1978—),博士,主要研究領域為藏語語法、藏語信息處理。E-mail:longcj@cass.org.cn劉匯丹(1982—)博士,高級工程師,主要研究領域為藏語信息處理。E-mail:huidan@iscas.ac.cn諾明花(1982—)博士,高級工程師,主要研究領域為藏語信息處理。E-mail:nuominghua@163.com
1003-0077(2015)05-0211-05
2015-09-01 定稿日期: 2015-09-12
國家自然科學基金(61202219,61303165,61132009);中國科學院信息化專項經費資助(XXH12504-1-10);中國社科院創新工程項目
TP391
A