999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于混合策略的藏文人稱代詞指代消解研究

2018-04-08 05:46:34夏吾吉華卻才讓
計算機工程與應用 2018年7期
關鍵詞:規則

夏吾吉,華卻才讓

XIAWuji1,2,HUAQUE Cairang1

1.青海師范大學 藏文信息處理教育部重點實驗室,西寧 810008

2.青海師范大學 民族師范學院,西寧 810008

1.Tibetan Information Processing Key Laboratory of Ministry of Education,Qinghai Normal University,Xining 810008,China

2.Normal College for Nationalities,Qinghai Normal University,Xining 810008,China

1 引言

指代是自然語言中一種復雜的語言現象,是文本處理和信息抽取不可或缺的重要組成部分[1],指代消解在文本處理和信息抽取中起著重要的作用,并已成為文本摘要、機器翻譯、多語言信息處理、語義分析、問答系統等應用的關鍵問題[2]。近五十年來,國外對主流語言指代消解問題的研究比較深入,提出了各種消解方法[3],并且許多重要的會議都設立了指代消解的專題會議(比如:1997年的EACL、MUC和1999年的ACL等)[4]。隨著網絡和計算機技術的快速發展,近期國內研究者對中文指代消解問題的研究也取得了很大的進步,也有不少相關的研究論文和成果[5-10]。

以計算機科學技術為核心的信息化時代,在信息界的相關研究者對藏語言文字進行了分詞、詞性標注、命名實體識別[11]、詞法分析、分句、句法分析等研究工作,對今后的藏文信息處理發展奠定了堅實的基礎,而對藏文進行指代消解也是藏文通過分詞標注和命名實體識別后需要解決的一項重要工作。目前還未見到對藏文進行指代消解的相關文獻和報道。因此,本文將英文和中文的指代消解研究作為參考,采用規則、最大熵模型和規則與最大熵模型相結合等三種方法對藏文人稱代詞進行指代消解研究。

2 藏文人稱代詞的分類及識別

藏文中的人稱代詞同漢文一樣有三種:第一人稱代詞、第二人稱代詞和第三人稱代詞,每個人稱代詞都有單復數之分,并且其表達方式豐富多樣;根據藏文自身的特點和表達方式的多樣性,在漢文中表示第一人稱代詞的單數“我”和復數“我們”,表示第二人稱代詞的單數“你(您)”和復數“你們(您們)”以及表示第三人稱代詞的單數“他、她”和復數“他們、她們”在藏文中分別可以表示成:“ ??? ??? ???????? ???? ?????? ????? ?????? ???????? ??????? ???? ?? ??? ?? ??? ?? ? ?????? ???? ? ? ? ? ? ? ”、“ ??? ??? ? ??? ????? ??? ??? ? ?? ???? ? ??? ????? ?? ???? ? ??? ??? ? ? ? ? ? ??? ??? ? ???? ??? ??? ??? ???????? ???? ? ???? ??? ???? ? ? ? ? ???? ??? ???? ? ? ?”以及“???? ???? ???? ?????? ?? ?????? ?? ???? ???? ???? ????? ? ?????????????? ???????????? ??????????? ”等。

3 規則預處理

分詞標注和命名實體識別是對代詞進行指代消解的關鍵問題,本文針對表示同一人名實體的名詞和代詞進行分析,采取了三種特征屬性和規則進行消解。

3.1 單復數屬性

在藏文中,人稱代詞的單復數有很多種不同的表達形式:第一人稱的單、復數形式“??(我)”和“?????(我們)”可以表示成“??? ???????? ???? ?????? ????? ?????? ???????? ??????? ???? ?? ??? ?? ??? ????????????? ??????”等,第二人稱的單、復數形式“??? ?????????? ?????(你和您)”和“??? ?????????????? ????????? (你們和您們)”可以表示成“??? ?????? ???????? ???? ? ?? ???? ? ??? ??? ? ???? ??? ???????? ??? ?????? ????? ??? ???? ????? ??? ???? ???????? ??? ???????”等,第三人稱的單、復數形式“??????????????? (他和她)”和“??????????????????????? (他們和她們)”可以表示成“???????? ???????? ???? ???????? ??????????? ???????????? ??????????? ????????? ”等;在藏語語法中,名詞和代詞所對應的單復數有非常嚴格的要求,具體如下。

3.1.1名詞短語作主語的情況

若主語是由幾個單一名詞通過連接詞“??(?和)”連接而成的名詞短語時,對應的代詞為復數。比如:“??????? ??? ? ?? ??? ? ?? ????? ? ?? ????? ??? ???? ??? ?????????? ? ?? ???? ???? ????? ? ??? ????? ? ? ? ? ?? ? ? ? ??? ”,其 中“ ???????”是復數,指代的是“???????????????? ??? ????”。

3.1.2名詞作主語的情況

(1)若主語為單獨的人名時,對應的代詞為單數。比 如 :“?? ??????????? ??????????? ? ??? ???????? ??? ? ? ? ????? ? ?? ???? ??????? ???? ???? ????? ? ?? ??????? ??? ??? ”,其 中“???????”是單數,指代的是“???????”。

(2)若主語為表示人的群體的單一名詞+“????? ??????”等數詞時,對應的代詞為復數。比如:“????????????? ??????????????? ??????????????? ????? ???? ????? ??????? ?????? ???? ????????????????? ??????????????????????????????? ??????????? ????????? ??????????????? ”,其中“???????”是復數,指代的是“????????????? ??”。

根據上述可以看出,在藏語中人稱代詞的單復數有著很嚴格的界限,即表示單、復數的名詞一定與表示單、復數的代詞一一對應,因此命名實體和人稱代詞的單復數一致性作為代詞消解的條件,并對單復數屬性制定以下規則。

規則1若人稱代詞是單數,則找到表示單獨人名的名詞;若人稱代詞是復數,則找到連接詞“???(和)”連接而成的名詞短語或表示人的群體的單一名詞+“?? ??? ??????”等數詞的命名實體;否則不予消解。

3.2 性別屬性

無論是藏語、漢語還是英語在表達上對人名都有性別之分,藏語中用“???(他)”表示男性,用“???????或???(她)”表示女性;在漢語和英語中的用法也相類似,用“他(he)”表示男性,用“她(she)”表示女性,用“它(it)”表示不知性別的人或物。在藏語中人名的結構成分復雜多樣,最短兩個音節和最長八九個音節及其以上,比如:“??? ?????? ???”、“????? ????????????? ??????????? ?????? ??????? ?????”。通過對安多藏區典型的常用人名進行搜集,除了宗教人士以外的人名大部分都是由二到四個音節組成,并且性別有明顯的界限區分,在兩個音節組成的藏語人名是從自身可以區分性別的,一般像“??? ?????? ??? ??? ????? ?? ???????? ”等都是典型的男性名字,而“???? ?????? ?? ???????? ???? ?? ????? ”等都是典型的女性名字;三個音節組成的藏語人名由最后一個音節來區分性別,最后的音節為“???????? ??? ”等的是屬于男性名字,最后的音節為“????? ???????? ”等的是屬于女性名字,而最后的音節為“????? ????? ???? ”等是屬于不知性別的人的名字;四個音節組成的藏語人名由后兩個音節來區分性別,后兩個音節為“????????? ?? ??????? ????????????? ”等的是屬于男性名字,后兩個音節為“????????? ????? ???????? ????????? ”等的是屬于女性名字,而后兩個音節為“??????????? ”等的是屬于不知性別的人的名字。不知性別的主要由其前面的音節來區分性別,如果其前面的音節是兩個音節組成的典型的男性名字,則屬于男性,否則就屬于女性(本文針對除了宗教人士以外的安多藏區常用人名以及所對應的代詞進行指代消解)。

根據上述可以看出,由“???(他)”和“???????(他們)”來指代人名為男性的命名實體,而“???????(她)”和“???????????(她們)”來指代人名為女性的命名實體。

規則2若人稱代詞為“???(他)”和“???????(他們)”,則找到表示男性的人名進行消解;若人稱代詞為“???????(她)”和“???????????(她們)”,則找到表示女性的人名進行消解;否則不予消解。

3.3 距離屬性

在語言學中用代詞來指代前文內容的現象是很常見的,但代詞在指代命名實體時對不同句子指代的距離值不同[12],通過對大量的藏文語料和各種類型的句子分析發現,代詞所指代的內容一般都是離代詞很近的內容,而且距離值越小的句子內容越容易看懂,被代詞指代的概率也就越大。根據上述可以對距離屬性制定以下規則。

規則3本文將指代的距離限制在小于等于4的范圍內,并且距離值越小時命名實體被指代時的權重就越大[13]。

具體的消解流程如圖1所示。

圖1 基于規則的指代消解流程圖

圖1中,運用青海師范大學分詞標注工具,對包含2 306個待消解對的藏文句子集進行了分詞、詞性標注,并采用文獻[11]的命名實體識別方法對藏文句子中的命名實體進行自動識別后,對分詞標注和命名實體識別錯誤部分進行了手動修改,最后通過上述三種規則對句子中的人稱代詞進行了指代消解。

4 基于最大熵模型的指代消解

最大熵模型的基本思想是只掌握關于未知分布部分信息的前提下,選取符合這些信息且熵值最大的概率分布[14]。在最大熵模型訓練中,信息一般是以特征的形式進行表達,假設存在n個特征 fi()i=1,2,…,n ,那么定義{0,1}域上一個二值函數來表示一個特征:

對于每一個特征F(a,b),模型P的熵函數為:

其條件概率的最大熵模型為:

其中C表示滿足限制條件下的模型集合。

對于藏文人稱代詞的指代消解,最大熵模型訓練是可以通過 p(b|a)的計算來判斷待消解對(a1,a2)是否指向同一實體,其中,a為特征向量,是通過對待消解對(a1,a2)的特征屬性進行比較而得到的,a1表示候選先行詞,即名詞、命名實體和名詞短語;a2表示代詞,是一個二值屬性,若待消解對(a1,a2)指向同一實體,則F值等于1,否則等于0。p(b|a)表示特征向量a條件下計算指向同一實體的條件概率[15]。

通過大規模的相關藏文文本語料以及對藏文的語法和句法進行分析發現,在藏文中指代同一實體的候選先行詞(名詞、命名實體和名詞短語)和代詞具有三種相同的特征屬性。

4.1 單復數一致性

該屬性是個二值函數,對兩個待消解項的單復數屬性值進行比較,若兩個屬性值一致,則其特征值為1;否則為0。

以上函數中,a表示測試語料中的候選先行詞,b表示測試語料中的代詞。例如:(1)“????????/nr?????/uu??????/rr????? ???? /nt?????/gz??? ??????/nn????? ?/up?/gl? ????????/rr??? ???????? ????/nv? ?/gl?? ??????? ?/dc????/ad? ”;(2)“??????????/nr???/cd??? ??? ?????/nr??? ?????/mj??? ??????? ?????/nn??????/up?/gl? ????????/rr?????/gz???? ???????/nn?????/dc????/ad? ”。經過規則預處理以上兩個句子(1)、(2)中可以提取候選先行詞和待消解的詞對有:(???????? ,???????? )和(???????????????? ??? ????? ,???????? ),其中(???????? ,???????? )的屬性值相同(都屬于單數),所以其函數值為 F1(???????? ,???????? )=1,(???????????????? ??? ????? ,???????? )的屬性值相同(都屬于復數),因此其函數值為 F1(???????????????? ??? ????? ,???????? )=1。

4.2 性別一致性

該屬性是個二值函數,對兩個待消解項的性別屬性值進行比較,若兩個待消解項的性別一致,則其特征值為1;否則為0。

比如,4.1節中的句子(1)經過規則預處理后發現其中的待消解對(???????? ,???????? )的性別一致(都屬于女性),因此其函數值為 F2(???????? ,???????? )=1。

4.3 距離屬性

該屬性是個多值函數,對兩個待消解項的文本距離進行考查,其取值為它們所屬句子的編號之差的絕對值。根據上一章的規則集(3.3節中的規則3),本文將指代的距離限制在小于等于4的范圍內。因此,若兩個待消解項處在同一句中,則其特征值為4;若它們之間相差一句,則其特征值為3;若它們之間相差兩句,則其特征值為2;若它們之間相差三句,則其特征值為1;否則為0。

例如:“??????????/nr??/gl????? ??/nn???????/up??/gx?/rr??/gx???? ???/nn??/gl????/rr??/gl?? ???????/nn?? ?/ux? lz?????? ??/nn?? ????/gx???/rr??/gl?/rr?/gl?? ? ???/nn ?? ????/rz? ????/vt?? ?/gl? ?? ?/vt?? ???? ?/tt?? ???? ?/mj? ?/gl???/rr?????/gz? ? ?/nn??/gx??/rr??/gl??/nn????????/ry?????/df??? ???/vi??/gl?? ??? ??/nn??? ?????/gx???? ??/vt? lz ???/rr?????/gz???/nn??/gx?? ??/cj??/rr??/gl??? ???????????/nv?? ?/vt? lz”經過規則與處理,在本例中提取的候選先行詞和待消解的詞對及其函數值分別為:F4-1(??????????,第一句中的???)=4,F4-2(??????????,第二句中的???)=3,F4-3(??????????,第三句中的???)=2,F4-4(??????????,第四句中的???)=1。

根據以上特征,具體的消解流程如圖2所示。

圖2 基于統計的指代消解流程

5 基于混合策略的指代消解流程

本文所使用的混合策略方法是規則和最大熵模型相結合的方法,首先對語料進行分詞、詞性標注、命名實體識別后對代詞進行過濾,找出能夠用規則的方法進行消解的代詞并進行消解;如果在消解后的語料中出現沒有進行指代消解的名詞和代詞,將把它們提取出來組成待消解對候選集,再利用統計的方法進行消解。具體流程如圖3所示。

圖3 混合策略的指代消解流程圖

從圖3中可以看到,基于混合策略的方法主要有規則預處理、代詞過濾、基于規則的消解和基于統計的消解等四部分。

6 實驗

本文的訓練語料和測試語料取材于藏文小說、新聞、童話等。對這些取材進行切分標注和命名實體后,經手動修改其中出現錯誤的切分標注,精選了包含2 306個待消解對的藏文句子進行測試,并采用了自然語言處理中常用的三個評測指標:準確率(P)、召回率(R)和F值進行實驗分析。各個指標的定義如下:

其中,w是召回率和準確率的相對權重,本文中w取為0.5。實驗結果如表1、表2所示。

表1 三個人稱代詞實驗結果對比%

表2 三種方法的實驗結果對比 %

實驗結果表明,基于規則、統計和規則與統計相結合的方法對藏文人稱代詞指代消解研究的效果較好,但仍然未能達到很理想的效果,主要原因有兩方面。一方面,如果在一個句子當中出現兩種不同的人稱代詞,而只有一個人名,比如 4.3 節中的藏文句子“??????????/nr??/gl????? ??/nn???????/up??/gx?/rr??/gx???? ???/nn??/gl????/rr??/gl?? ???????/nn?? ?/ux ? lz? ? ? ? ?? ? ?/nn ?? ????/gx ???/rr? ?/gl?/rr?/gl?? ? ???/nn ?? ????/rz? ????/vt?? ?/gl??? ?/vt ?? ?????/tt?? ?????/mj??/gl???/rr?????/gz???/nn??/gx??/rr??/gl??/nn????????/ry?????/df??? ???/vi??/gl?? ??? ??/nn??? ?????/gx? ??? ? ?/vt? lz ???/rr?????/gz???/nn? ?/gx?? ??/cj??/rr??/gl??? ???????????/nv?? ?/vt? lz”中人名只有“??????????/nr”一個,而人稱代詞有第一人稱代詞“?/rr”和第三人稱代詞“???/rr”兩種,因此在消解過程中人稱代詞未能正確找出所對應的人名,導致消解錯誤。另一方面,藏文復數形式的人稱代詞不僅形式復雜多樣,而且指代情況千差萬別,導致在指代過程復雜多變,影響了實驗結果。

7 結語

本文根據藏族人名和藏文人稱代詞的構詞規律和形態特征,制定了三類消解規則,并設計了相應的統計特征,最后采用基于規則、最大熵和規則與最大熵模型相結合的方法研究了藏文人稱代詞指代消解。經實驗,對于藏文人稱代詞指代消解研究問題,采用基于混合策略(規則和最大熵模型相結合)的方法為較好的一種消解方法,基于最大熵模型的方法為其次,基于規則的方法相對差一些。后續工作中,將借助于藏語句法和藏語語義的研究,分析影響實驗結果的復數形式人稱代詞,以改善指代消解任務。

參考文獻:

[1]Morton T S.Coreference for NLP applications[C]//Proc of ACL,2000:173-180.

[2] 孔芳,周國棟.指代消解綜述[J].計算機工程,2010,36(8):33-36.

[3]王厚峰.指代消解的基本方法和實現技術[J].中文信息學報,2002,16(6):9-17.

[4]王海東,胡乃全.指代消解中語義角色特征的研究[J].中文信息學報,2009,23(1):23-29.

[5]孔祥勇,張冬茉.一種信息抽取系統中漢語指代消解算法[J].計算機工程,2003,29(16):76-78.

[6]周俊生,黃書劍.一種基于圖劃分的無監督漢語指代消解算法[J].中文信息學報,2007,21(2):76-82.

[7]金可佳.統計與規則相結合的指代消解[D].武漢:武漢科技大學,2009.

[8]孔芳,朱巧明,周國棟.中英文指代消解中待消解項識別的研究[J].計算機研究與發展,2012(5):1072-1085.

[9]奚雪峰,周國棟.基于Deep Learning的代詞指代消解[J].北京大學學報:自然科學版,2014,50(1):100-109.

[10]周炫余,劉娟,羅飛,等.中文指代消解模型的對比研究[J].計算機科學,2016,43(2):31-34.

[11]華卻才讓,姜文斌,趙海興,等.基于感知機模型藏文命名實體識別[J].計算機工程與應用,2014,50(15):172-176.

[12]張文艷,李存華.結合規則與語義的中文人稱代詞指代消解[J].數據采集與處理,2017,32(1):149-156.

[13]李國臣,羅云飛.采用優先選擇策略的中文人稱代詞的指代消解[J].中文信息學報,2005,19(4):24-30.

[14]宗成慶.統計自然語言處理[M].2版.北京:清華大學出版社,2013:122-124.

[15]鐘丹,朱倩,李梅,等.人稱名詞短語單復數信息和最大熵模型的指代消解[J].江南大學學報:自然科學版,2009,8(6):666-669.

猜你喜歡
規則
拼寫規則歌
撐竿跳規則的制定
數獨的規則和演變
依據規則的推理
法律方法(2019年3期)2019-09-11 06:26:16
善用首次銷售規則
中國外匯(2019年7期)2019-07-13 05:44:52
規則的正確打開方式
幸福(2018年33期)2018-12-05 05:22:42
顛覆傳統規則
環球飛行(2018年7期)2018-06-27 07:26:14
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐敗規則對我國的啟示
啦啦操2010—2013版與2013—2016版規則的對比分析
運動(2016年6期)2016-12-01 06:33:42
主站蜘蛛池模板: 天天视频在线91频| av一区二区三区高清久久| 久久永久精品免费视频| 日韩经典精品无码一区二区| 亚洲女同欧美在线| 国产青榴视频在线观看网站| 婷婷伊人久久| 久久动漫精品| 国产爽爽视频| 中文字幕天无码久久精品视频免费| 久久青草免费91线频观看不卡| 久久伊伊香蕉综合精品| 国产91av在线| 成人免费网站在线观看| 国产在线观看精品| a天堂视频| 538国产在线| 日韩精品久久久久久久电影蜜臀| 日本欧美视频在线观看| 色哟哟国产精品| 欧美激情综合一区二区| 国产一级特黄aa级特黄裸毛片| 亚洲一欧洲中文字幕在线| 国产麻豆91网在线看| 成人国产免费| 日韩精品专区免费无码aⅴ| 中国国产A一级毛片| 美女扒开下面流白浆在线试听| 日韩一区二区三免费高清| 亚洲第一天堂无码专区| 22sihu国产精品视频影视资讯| 在线不卡免费视频| 青青草原国产免费av观看| 久久久精品国产SM调教网站| 国模粉嫩小泬视频在线观看| 国内a级毛片| 国产成人免费| 在线精品欧美日韩| 久久人妻xunleige无码| 色噜噜在线观看| 国产亚洲精| 91娇喘视频| 国产精品人人做人人爽人人添| 亚洲男人天堂网址| 麻豆AV网站免费进入| 欧美不卡视频一区发布| 国产黄在线观看| 国产美女无遮挡免费视频| 免费精品一区二区h| 免费看美女毛片| 一区二区三区毛片无码| 一区二区午夜| 国产激爽爽爽大片在线观看| 亚洲成人精品| 欧洲熟妇精品视频| 国产自在线播放| 久久精品视频一| 毛片基地美国正在播放亚洲| 亚洲最黄视频| 国产精品成人免费视频99| 一个色综合久久| 97se亚洲| 国产精品美女免费视频大全| 日本在线亚洲| 日韩在线第三页| 再看日本中文字幕在线观看| 暴力调教一区二区三区| 亚洲美女久久| 亚洲人人视频| 亚洲无码视频图片| 中文字幕资源站| 天天综合亚洲| 国产幂在线无码精品| 国产成人高清精品免费软件 | 在线看免费无码av天堂的| 好吊妞欧美视频免费| 欧美亚洲一二三区| 激情综合网激情综合| 欧美日本中文| 午夜不卡福利| 国产SUV精品一区二区| 国产麻豆aⅴ精品无码|