999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于藏語字性標注的詞性預測研究

2015-04-21 10:42:00龍從軍劉匯丹諾明花
中文信息學報 2015年5期
關鍵詞:模型

龍從軍,劉匯丹,諾明花,吳 健

(1. 中國科學院軟件研究所,北京 100190;2. 中國社會科學院民族學與人類學研究所,北京 100081)

?

基于藏語字性標注的詞性預測研究

龍從軍1,2,劉匯丹1,諾明花1,吳 健1

(1. 中國科學院軟件研究所,北京 100190;2. 中國社會科學院民族學與人類學研究所,北京 100081)

該文選取了藏語文中小學教材的部分語料,構建了帶有藏語字性標記、詞邊界標記和詞性標記的語料庫,通過比較不同的分詞、標注方法,證明分詞、詞性標注一體化效果比分步進行的效果好,準確率、召回率和F值分別提高了0.067、0.073和0.07。但詞級標注模型難以解決詞邊界劃分的一致性和未登錄詞的問題。基于此,作者提出可以利用字性和字構詞的規律預測合成詞的詞性,既可以融入語言學知識又可以減少由未登錄詞導致的標注錯誤,實驗結果證明,作為詞性標注的后處理模塊,基于字性標注的詞性預測準確率提高到了0.916,這個結果已經比分詞標注一體化結果好,說明字性標注對糾正詞性錯誤標注有明顯的效果。

藏語; 語字標注; 分詞; 詞性標注

1 藏語詞性標注的現狀和問題

詞性標注研究指為給定句子中的每個詞確定一個合適的詞性的過程。詞性標注研究是自然語言處理基礎研究內容之一,在語音識別、信息檢索等很多領域發揮著重要的作用。

藏語詞性標注研究已經取得了一些成果,文獻[1]采用隱馬爾科夫模型,實現分詞和詞性標注一體化,最終詞性標注的F值達到79.494%;文獻[2]采用了融合語言特征的最大熵詞性標注模型,標注準確率達到90.94%;文獻[3]提出了利用感知機訓練模型的判別式詞性標注方法,經測試,準確率達98.26%;文獻[4]采用了最大熵和條件隨機場相結合的標注方法,最終在開放測試中,標注準確率達到89.12%。這些研究無疑對藏語文本詞性自動標注做出了重要的貢獻,但是同樣也存在較多的問題,一是各家的詞性標注規范不一致;二是詞性標注的訓練、測試語料不一致;三是都沒有公開各自的標注系統,因此難以對各家的系統進行客觀評價。這些研究都采用了統計模型進行詞性標注,但可供統計訓練的藏語標注文本數量不多,過多的未登錄詞也影響了標注準確率的提高。

本文作者提出基于藏語字性標注的合成詞詞性預測策略,主要思路是可通過標注藏語字性,根據字構詞的規律,預測詞的詞性。藏字字性可以作為特征融入統計模型中,也可以加入到后處理模塊對未登錄詞或者標注錯誤校正;文章第二部分比較了幾種標注方法,說明多特征融合可以提高標注準確率,但對未登錄詞作用不大;第三部分討論藏語字性和詞性的關系;第四部分描述了基于字性的詞性預測實驗及結果。

2 基于詞的詞性標注

在進行基于詞的詞性標注研究中,我們分別訓練了幾個不同的模型,獨立分詞模型,獨立標注模型和分詞標注一體化模型。訓練分詞、標注和分詞標注一體化模型時,都采用了條件隨機場工具包*本文中使用的CRF工具包是CRF++ 0.58版,下載地址:http://taku910.github.io/crfpp/.,訓練語料選自語素標注庫(見3.1節介紹),按照1:4的比例,隨機抽取3 987句作為測試語料,其余15 952句作為訓練語料。

2.1 獨立分詞模型

以采用多種方法,文獻[5-8]分別做了闡述。本文在對黏寫形式切分時,采用了把疑似黏寫形式的音節全部切開,然后再根據上下文對非黏寫形式進行合并,例如,中、、、幾個音節為疑似黏寫形式,音節切分結果為:;然后采用四詞位標注法對切分后的音節進行標注,其結果為:;最后進行訓練獲得分詞切分模型。表1中數據為利用獨立分詞模型切分測試結果。

表1 獨立分詞實驗結果*本測試結果三項評測指標數據相同,純屬偶然,測試語料詞有48 073個,受測試的詞有48 099個。

2.2 獨立標注模型

在獨立分詞的基礎上進行單獨標注實驗時,為了比較分詞結果對標注的影響,我們進行了兩輪實驗:分詞后直接標注和對分詞結果校正后再進行標注。兩個實驗的結果如表2所示。

表2 獨立標注實驗結果

從表2可以看出,分詞的準確率對標注的效果影響明顯,在分詞未校正的情況下,標注準確率為0.832、召回率為0.830、F值為0.831。當對分詞結果進行校對之后,各項測試指標分別提高到了0.876,0.875和0.876,每項指標分別提高了0.044、0.045、0.045,這說明分詞的準確率影響標注的準確率。

2.3 分詞標注一體化模型

在分詞標注一體化模型訓練中,由于分詞和標注組合標簽比較多,訓練的時間比較長(10天左右),表3列出了本實驗的測試結果。

表3 分詞標注一體化測試結果

正如我們所料,分詞標注一體化模型的標注結果與獨立分詞、獨立標注的結果相比,各項測試指標分別提高了0.067、0.073和0.07;與校對分詞后的標注結果相比,各項測試指標分別提高了0.023、0.028、0.025。詳細情況如圖1所示。

圖1 標注結果比較圖

這說明,在分詞和標注一體化時,分詞和標注之間相互影響,相輔相成,既可以避免一部分分詞的錯誤,也可以避免部分標注錯誤,分詞和標注實現了兩者之間的優化組合。為了進一步考察分詞標注一體化中分詞的準確性,我們對分詞標注一體化測試結果中的分詞結果進行測試,發現一體化分詞結果的準確率、召回率和F值分別提高到0.943、0.948、0.945,與單獨分詞結果相比,各項測試指標分別提高0.003,0.008,0.005。

3 字性與詞性的關系

3.1 字性標記

在藏字字性標注過程中,對人名、地名、音譯名的藏字統一標注為k,根據不同的專有名詞類別,對k賦予區分標記,區分標記為詞性標注符號的二級符號,構成人名的藏字標注為kh,如nh,構成地名的藏字標注為kq(由于ks,已經做為其他標注符號,為了區分,這里采用kq),如ns,構成其他專有名詞的藏字標注為kz,如nz等。

3.2 合成詞詞性特點

4 詞性預測實驗及結果

4.1 實驗設計

我們原本設想,聯合利用字性、分詞標記和詞性標記訓練一個模型,以此考查標注效果,但由于訓練時間過長而中斷。因此采用了另一種方案,利用藏字字性標記和詞邊界標記兩個特征,訓練了一個能同時給出藏字字性標注和分詞標記的模型,然后利用藏字構詞的規則來對基于詞的標注模型的錯誤例子進行校正。整個過程如圖2所示。

圖2 實驗流程

4.2 詞性預測結果及分析

如果采用分詞、標注一體化模型,在錯誤標注結果中區分不開是分詞還是標注導致的錯誤,因此我們采用了分詞校正后獨立標注模型進行實驗,然后提取標注錯誤例子,對錯誤例子進行字性標注和利用字構詞的規則對復合詞或結構進行預測。

從評測結果中提取出了約5 900個錯誤例子,通過分析發現標注錯誤包括:在語料中,存在同一個詞的相同用法卻標注不一致的現象,一些特殊符號未給出正確標注,這種錯誤占比約20%,這種問題可以通過進一步調節語料,提高訓練和測試語料的一致性,對特殊符號進行統一處理等方法來解決。在其余錯誤標注中,兩個藏字及以上的復合詞或者短語標注錯誤和單字詞標注錯誤各占約40%。利用藏字字性和構詞規則,有1 888個標注錯誤得到修正,標注準確率提高了約0.04,這個標注結果已經高于分詞標注一體化的效果。幾種標注結果如圖 3所示。

圖 3 幾種標注實驗結果對比

表4列出了部分標注錯誤能夠通過規則預測得到正確的標注結果。

表4 藏字字性校正合成詞標注錯誤示例

5 結論

字的概念在漢藏語研究中有著獨特的地位,以字(基本上叫語素)為單位進行研究是語言學家長期關注的對象,但是近幾年在文本信息處理、語音識別、語音合成研究中,字的概念(Sub-Word,Sub-Syllable)也得到廣泛關注。本文比較多種標注方法,盡管復合特征能夠提高標注準確率,但是不能根本解決未登錄詞等問題。為此,我們利用藏字字性,通過字構詞的規律預測合成詞或短語的標注問題,經過測試,標注準確率提高到0.916。盡管語料規模有限,加工精度有待提高,但這個研究策略值得進一步探究。

[1] 史曉東,盧亞軍.央金藏文分詞系統[J].中文信息學報,2011,25(4):54-56.

[2] 于洪志,李亞超,汪昆等.融合音節特征的最大熵藏文詞性標注研究[J].中文信息學報,2013, 27(5):160-165.

[3] 華卻才讓,劉群,趙海興等.判別式藏語文本詞性標注研究[J].中文信息學報, 2014, 28(2): 56-60.

[4] 康才畯.藏語分詞與詞性標注研究[D].上海師范大學博士學位論文,2014.

[5] 康才畯,龍從軍,江荻.基于詞位的藏文黏寫形式的切分[J].計算機工程與應用,2014,(11): 218-222.

[6] 才智杰.藏文自動分詞系統中緊縮詞的識別[J].中文信息學報,2009,23(1):35-37.

[7] 巴桑杰布,羊毛卓瑪,歐珠等.藏文分詞系統中緊縮格識別和藏字復原的算法研究[J].西藏科技,2012,(2):73-75,79.

[8] 李亞超,加羊吉,宗成慶等.基于條件隨機場的藏語自動分詞方法研究與實現[J].中文信息學報,2013,27(4):52-58.

[9] Tomá? Mikolov, IlyaSutskever,Hai-Son Leetc.Subword Language Modeling with Neural Networks[DB/OL], www.fit.vutbr.cz/~imikolov/rnnlm/char.pdf.

[10] 龍從軍,劉匯丹,吳健.藏語字性標注研究[C], 第十五屆中國少數民族語言文字信息處理學術研討會,延邊,2015.

[11] 趙小兵,孫媛,龍從軍等.藏文拉丁轉寫、分詞和詞性分類規范-信息處理用現代藏語分詞規范(草案)[M],北京: 商務印書館, 2015.

[12] 趙小兵,孫媛,龍從軍等.藏文拉丁轉寫、分詞和詞性分類規范-信息處理用現代藏語詞性標注規范(草案)[M],北京: 商務印書館,2015.

Tibetan POS Tagging Based on Syllable Tagging

LONG Congjun1,2, LIU Huidan1, NUO Minghua1, WU Jian1

(1. Institute of software Chinese Academy of Sciences, Beijing 100190, China;2. Institute of Ethnology and Anthropology Chinese Academy of Social Sciences, Beijing 100081, China)

A Tibetan corpus is constructed and annotated for the syllable markers, the word boundary markers and the part-of-speech(POS) tags, with texts selected from Tibetan textbooks of Primary and middle school. Then an empirical study reveals that the training data with the multi-level annotation can enhance the effects of POS tagging. Due to the strong relation between the POS tags of words and the tags Tibetan syllables, a method of Tibetan POS tagging by the Tibetan syllables is presented. The results of experiments show that syllable tags can correct certain errors caused in POS tagging.

Tibetan language; tagging of Tibetan syllables; word segmentation;POS

龍從軍(1978—),博士,主要研究領域為藏語語法、藏語信息處理。E-mail:longcj@cass.org.cn劉匯丹(1982—)博士,高級工程師,主要研究領域為藏語信息處理。E-mail:huidan@iscas.ac.cn諾明花(1982—)博士,高級工程師,主要研究領域為藏語信息處理。E-mail:nuominghua@163.com

1003-0077(2015)05-0211-05

2015-09-01 定稿日期: 2015-09-12

國家自然科學基金(61202219,61303165,61132009);中國科學院信息化專項經費資助(XXH12504-1-10);中國社科院創新工程項目

TP391

A

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 麻豆精品在线| 日韩精品一区二区三区大桥未久| 欧美在线中文字幕| 777午夜精品电影免费看| 国产中文一区a级毛片视频| 中文字幕乱妇无码AV在线| 六月婷婷精品视频在线观看| 亚洲日本中文字幕天堂网| 欧美日本在线播放| 久久黄色免费电影| аⅴ资源中文在线天堂| 国产精品香蕉在线| 毛片最新网址| 国产精品亚洲va在线观看| 日韩精品中文字幕一区三区| 97视频免费看| 亚洲欧美人成电影在线观看| 日本妇乱子伦视频| 浮力影院国产第一页| 国模私拍一区二区三区| 国产美女91呻吟求| 91黄视频在线观看| 国产成人91精品免费网址在线| а∨天堂一区中文字幕| 亚洲一区二区无码视频| 一级毛片免费不卡在线| 好吊色妇女免费视频免费| 欧美精品在线看| 亚洲v日韩v欧美在线观看| 欧美国产日本高清不卡| 国产91无毒不卡在线观看| 天天色综合4| 干中文字幕| 另类专区亚洲| 亚洲人成网7777777国产| 四虎永久在线| 国产丰满成熟女性性满足视频| 97se亚洲综合不卡| 国产av剧情无码精品色午夜| 99这里只有精品6| 依依成人精品无v国产| 欧美国产在线一区| 国产精品所毛片视频| 国产精品极品美女自在线看免费一区二区| 性喷潮久久久久久久久| 亚洲国产综合精品中文第一 | 国产高颜值露脸在线观看| 2020精品极品国产色在线观看 | 中文字幕无码av专区久久| 日韩小视频在线观看| 久久久久人妻精品一区三寸蜜桃| 91小视频在线观看| 五月综合色婷婷| 亚洲欧美日韩成人高清在线一区| 97超爽成人免费视频在线播放| 国产91透明丝袜美腿在线| 久久综合九色综合97婷婷| 国产丝袜丝视频在线观看| 亚洲欧美日韩动漫| 97久久精品人人做人人爽| 欧美yw精品日本国产精品| 亚洲综合片| 国产农村1级毛片| 久热中文字幕在线| 狠狠五月天中文字幕| 日韩欧美国产综合| 日本高清视频在线www色| 九色视频一区| 色综合手机在线| 国产精品专区第1页| 国产制服丝袜91在线| 国产在线欧美| 午夜国产大片免费观看| 精品一区二区三区视频免费观看| 国产人在线成免费视频| 丝袜久久剧情精品国产| 亚洲日本一本dvd高清| 8090成人午夜精品| 亚洲综合经典在线一区二区| 国产成人一二三| 欧美精品v| 日韩欧美中文|