999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于條件隨機場的維吾爾文組塊分析

2016-05-04 01:15:41艾山吾買爾吐爾根依布拉音卡哈爾江阿比的熱西提早克熱卡德爾買合木提買買提亞森艾則孜
中文信息學報 2016年3期
關鍵詞:特征分析模型

艾山·吾買爾,吐爾根·依布拉音,卡哈爾江·阿比的熱西提,早克熱·卡德爾,買合木提·買買提,亞森·艾則孜

(新疆大學 信息科學與工程學院,新疆 烏魯木齊,830046)

基于條件隨機場的維吾爾文組塊分析

艾山·吾買爾,吐爾根·依布拉音,卡哈爾江·阿比的熱西提,早克熱·卡德爾,買合木提·買買提,亞森·艾則孜

(新疆大學 信息科學與工程學院,新疆 烏魯木齊,830046)

該文對維吾爾語樹庫標注體系進行分析,根據組塊劃分原則,在短語標記集的基礎上制定了維吾爾語組塊標記集,從已完成標注的3 000句語料庫構建組塊庫。根據維文語言的特點,在英漢組塊識別特征基礎上,增加了詞干、詞綴、同義詞標記等特征。該文中的性能評價指標采用了國際通用的準確率,召回率和F值,3 000個標注句子作為訓練和測試語料庫用,實驗采用了交叉驗證法,訓練和測試語料庫的比例分別為9∶1,8∶2,2∶1,召回率分別為80.34%,76.87%,66.76%。實驗表明,語料庫規模對模型性能影響較大。

條件隨機場;維吾爾;組塊分析

1 引言

組塊是一種位于詞語和句子中間的句法結構,也稱作淺層句法分析(shallow parsing)或部分句法分析(partial parsing),致力于識別句子中的某些結構相對簡單、功能和意義相對重要的成分,而不以完整的句法分析樹作為目標,從而簡化分析的復雜度,提升分析的性能。Abney在1991年率先提出了組塊分析的思想[1]。國外的學者們采用基于轉換的錯誤驅動學習方法、基于規則的分析方法等對組塊分析進行了研究。2000年,國際自然語言學習會議(Computational Language Learning,CoNLL)在Abney描述的組塊定義框架的基礎上,重新分解和細化了組塊的定義,并提出了英文的組塊分析共享任務[2]。在這個定義下,很多學者嘗試了使用基于支持向量機、基于手寫規則、基于半指導學習等方法解決組塊分析問題[3-4]。

近幾年來,中文組塊分析研究逐步得到人們的重視。周強在1996年對中文的語塊和基本短語進行了研究[5]。1999年,趙軍和黃昌寧對漢語基本名詞短語的定義和自動識別進行了研究[6]。中國科學院計算技術研究所的李素建提出了12種漢語組塊類型,根據這些組塊類型和賓州大學中文樹庫短語類型的對應關系進行轉化得到組塊庫[7]。周強進行了大規模中文語料庫的組塊標注研究[5],建立了一個完整的組塊劃分體系,構建了200萬漢字的組塊平衡語料庫[8],張玉潔等也對中文組塊分析進行了研究[9]。文獻[10]提出了一體化的分析模型,文獻[11]提出了一種基于分治策略的組塊分析方法。

因(維語)自然語言處理技術的研究起步較晚,詞法分析技術沒達到可用水平等原因,維語句法分析技術的研究基本處于初級階段。本文中對維語組塊分析進行研究,采用條件隨機場建立了組塊分析算法。

2 組塊定義和語料庫的構建

2.1 組塊定義和劃分原則

根據Abney的定義,本文中為維語組塊確定如下定義。

定義1 組塊是一種較詞復雜而較句子簡單,處于詞和短語之間,具有一定句法功能的非遞歸、不重疊、不嵌套的短語。

對上面的定義進行詳細的解讀: 組塊由詞序列組成,其被標記了句法功能標記,并且是非遞歸、非嵌套的。組塊內部一般包含一個中心成分以及中心成分的前置修飾成分,而不包含后置附屬結構。組塊處于詞和短語之間,最簡單的組塊就是一個詞,而最長的組塊就是非嵌套的短語。組塊嚴格按照句法形式定義,而不體現語義性或者功能性。組塊分析的目的是識別句子中某些結構相對簡單、但有重要意義的成分,在詞法分析和完全句法分析中間架起一座橋梁,從而簡化句法分析并且提高句法分析的性能。

2.2 維吾爾語組塊標記集的制定

研究和制定樹庫標注標記集和規范之前,對英語樹庫和TCT樹庫的構建過程進行深入的研究,并與維語句法結構進行了對比研究。根據研究與分析后,按照以下步驟展開了標注標記集的制定工作。

步驟1 根據語法書初步制定一套現代維語短語標記集;

步驟2 從語料庫選擇句子結構差異較大的100個句子;

步驟3 對100個句子進行人工標注,登記使用現有標記集不能準確地標記的現象;

步驟4 若有現有標記集不能準確地標記的現象,則對標記集進行分析與修正;

步驟5 若標記集沒有任何問題,則檢查人工標注的句子是否達到了500句,若沒有,則轉到步驟2,若達到了,則轉到步驟6;

步驟6 結束標注階段。

按照以上步驟,反復地進行標記集的制定、修正,并最終確定了37個維語短語結構標記集和八個功能語塊標記集。本文中,根據組塊分析的特點從37個短語標記集定義了18個組塊標記類型(表1)。

表1 維吾爾語組塊類型和標記

2.3 維吾爾語組塊語料庫的構建

目前,被標注完成的維語樹庫有3 000句,本文中從該樹庫語料庫抽取構建維語組塊庫。從維語標注樹庫中提取產生式右邊同時包含非終結符和終結符的產生式集合以及產生式右邊只包含終結符的產生式集合。對同時包含非終結符和終結符的產生式集合進行人工校對,然后與產生式右邊只包含終結符的產生式集合合并,根據該集合把原始句子轉換成組塊標注的句子(表2)。目前構建的維語組塊庫有31 184個組塊。例如,從標注句子提取組塊的過程如下:

拉丁文: [FS[SS[NP[NP Uning ?yidiki][NP Aq k?ngüllük]] [VP [UP q?rindashliqni [UP[CP b?sip chüshken] Idi]]]].]

表2 從以上例組抽取過程

表3所示的組塊是維語樹庫中的高頻組塊,占所有組塊的90.40%。

表3 主要的十種組塊統計

3 基于統計學習模型的組塊分析算法

3.1 組塊分析的問題描述

組塊分析可以看作一個機器學習過程。它的任務是: 在給定組塊定義和類別下,對輸入句子自動進行塊劃分和對劃分的塊類型進行標記。其可以被形式化地描述如下:

給定樣本集合W=w1,w2,…,wn和類別集合C=c1,c2,…,cn,尋找一個從樣本集W到類別集C的關系模型(映射規則)f: W×C →Boolean,然后利用這種學習得到的關系模型對新的輸入樣本進行類別判斷。具體而言,給定由詞序列W=w1,w2,…,wk組成的句子,句子可以被劃分成若干個組塊,每個詞wi被標記了組塊標記ti,T=t1,t2,…,tn代表組塊標記序列。組塊分析的結果如式(1)和式(2)所示。

W=…[wi,wi+1,…,wi+m]wi+m+1,…,wi+m+n…

(1)

T=…[ti,ti+1,…,ti+m]ti+m+1,…,ti+m+n…

(2)

組塊分析的映射規則是系統根據機器學習的每類樣本特征信息,自動學習出的分類規律和判別準則。在分析中,這種映射是一對一的單標號分類映射。

3.2 組塊分析方法研究與分析

組塊分析問題可以被轉化為序列化標注的問題。而序列標注可用的方法或模型有基于轉換錯誤的方法、隱馬爾科夫模型、最大熵模型、支持向量機、條件隨機場模型等。在以上的方法或模型中,性能最優的是條件隨機場模型,因此,本文采用條件隨機場建立維語組塊分析模型。

3.3 特征空間的構建

判別式統計模型的關鍵是找出對消除歧義有貢獻的各類特征,并使用這些特征組合出不同的特征模板,通過實驗驗證特征模板的有效性,并選擇出最佳特征模板。本文中參考英文、中文等語種基于條件隨機場的組塊分析算法所用的特征,在此基礎上構建維語組塊分析的特征空間。

對于詞類序列W=w1,w2,…,wk,英文、中文的組塊分析中選取寬度為5的窗口,抽取當前詞wi和前后各兩個詞的特征,提取的特征有詞形、詞性、詞綴、組塊標記等,在中文的組塊分析模型中加入了前綴和后綴的特征。本文中,保留以上的特征基礎上,根據維語詞的特點,還加入詞干、詞綴、詞性一級標記、詞性二級標記、同義詞標記等構建特征空間(表4)。

表4 特征空間

3.4 同義詞標記庫的構建

以上特征空間中的SY(synonym)代表同義詞標記,以下詳細解釋該標記相關內容。因為,目前構建的維語樹庫規模較少,使用統計模型容易發生數據稀疏問題造成的參數估計不準確。如果能夠把詞義完全相同的單詞使用某種標記或編號表達出來,那么在一定的程度上可以緩解語料庫規模所帶來的分析性能的下降。因此,從現有的維語同義詞詞典構建了一個維語同義詞標記詞典。該詞典原有9 902個詞條,其中1 778個詞是復合詞,為了保證同義詞標記的準確率,本文中從其余的8 104個同義詞選出詞義嚴格相同的4 623個同義詞,并構建了具有詞性標注的同義詞庫,對所有的同義詞進行根據詞義和詞性的分類,并給每一個分類分配了一個標記,最終構建了有971個同義詞標記的詞典,該同義詞標記詞典結構如表5所示。

表5 同義詞標記詞表

3.5 組塊分析系統結構

條件隨機場模型是有指導的機器學習模型,先需要使用一定規模的標注語料庫進行模型參數的估計,然后可以使用訓練好的模型進行解碼,即對未標注語料進行標注。模型的訓練使用L-BFGS算法,采用BeamSearch 算法進行搜索,搜索寬度為5,CRF模型使用CRFComLib訓練和測試。

4 實驗與分析

本文中把3 000個被標注的句子作為訓練和測試語料庫,由于語料庫的規模較少,采用交叉驗證法進行實驗(圖1)。本文的組塊分析算法的性能評價指標采用了國際通用的準確率(P,Precision),召回率(R,Recall)和F值。

圖1基于條件隨機場的維吾爾文組塊分析系統結構

4.1 特征選擇

特征模板的選取和特征選擇是判別學習模型訓練和應用中的關鍵一步。特征是從訓練樣本中抽取而來的,直接反映了組塊文本中的各種知識和實例。選取的特征規模和特征描述能力直接影響著分析系統的性能。對于不同的語言處理任務,選取的特征也會不相同。一般的特征選取辦法分為兩種:

1) 根據語言學家的語言學知識和文本的統計信息總結出來的經驗,基于文本中的文字和標記,定義形式化的特征模板,并利用特征模板從文本中抽取特征,或者稱為特征模板的實例化。

2) 根據語言學家對于語言學知識的總結,例如語言規則,語法規則,詞典和資源庫等外部信息,給予文本額外的信息和標記。

由于特征的任務相關性,有針對性的、任務驅動的特征模板和特征定義往往可以給予分析系統很大的幫助,而無效的特征反而會降低系統的性能。

本節中,根據文獻[10]中的實驗結果,分別采用詞形、詞干、詞綴、詞性、同義詞標記等構建原子特征空間,在此基礎上組合不同的特征模板進行實驗,如表6所示。

表6 特征模板

續表

為了測試詞形、詞性、詞綴、詞干等特征信息的貢獻,在文獻[10]進行的總結的基礎上,構建表6所示的特征模板。模板A是詞形模板,模板B是增加詞干信息,可以觀察詞性對模型性能的影響。模板C在模板B的基礎上只增加了詞綴特征。模板D中引入了一級詞性標記,模板E中同時使用了一級和二級詞性標記,模板F中引入了同義詞標記。為了觀察一級標記和二級標記對模型性能的影響,模板G中只使用了二級標記。為了選取最佳模板,利用所有的數據對表6包含的模板進行實驗,如表7所示。

表7 封閉測試結果

4.1 交叉驗證測試

由于語料庫規模較少,實驗中采用交叉驗證法。為了觀察模型使用不同規模的語料庫訓練時表現出的性能,進行三次實驗,實驗結果如表8所示。

實驗A 把語料庫分成十個沒有交叉數據的子集,每一個子集的規模為300句,進行十次實驗,最終求十次實驗的平均值。

實驗B 把語料庫分成五個沒有交叉數據的子集,每一個子集的規模為600句,進行五次實驗,最終求五次實驗的平均值。

實驗C 把語料庫分成三個沒有交叉數據的子集,每一個子集的規模為1000句,進行三次實驗,最終求三次實驗的平均值。

表8 開放測試結果

從實驗結果可知,語料庫的規模對模型的影響力較大,主要的原因是使用模型訓練的語料庫規模還不能足以讓模型達到飽和狀態,即語料庫規模的擴大不能提高模型性能的狀態。因此,語料庫的規模導致模型參數的估計出現更多的局部性或片面性。

[1] Abney S P. Parsing by Chunks[J]. Computation and psycholinguistics,1991: 257-278.

[2] T K Sang,S Buchholz.Introduction to the Conll-2000 Shared Task: Chunking[C]//Proceeding of CoNLL-2000,Lisbon,Portugal,2000: 127-132.

[3] A Kinyon. A Language-Independent Shallow-Parser Compiler[C]//Proceedings of 39th ACL Conference,Tourouse,France,2001: 322-329.

[4] J Hammerton,M Osborne,S Armstrong. Introduction to Special Issue on Machine Learning Approaches to Shallow Parsing[J]. Journal of Machine Learning Research.2002,2: 551-558.

[5] 周強.漢語語料庫的短語自動劃分和標注研究[D].北京大學博士學位論文.1996.

[6] 趙軍,黃昌寧.漢語基本名詞短語結構分析模型[J].計算機學報,1999,22(2): 141-146.

[7] 李素建,劉群,楊志峰.基于最大熵模型的組塊分析[J].計算機學報. 2003,25(12): 1722-1727.

[8] 張昱琪,周強.漢語基本短語自動識別[J].中文信息學報.2002,16(6): 1-8.

[9] W Chen,Y Zhang,H Isahara. An Empirical Study of Chinese Chunking[C]//Proceedings of the 44th Annual Meeting of ACL,Sydney,Australia,2006: 97-104.

[10] 孫廣路.基于統計學習的中文組塊分析技術研究[D]哈爾濱工業大學博士學位論文.2008.

[11] 周俏麗,劉新,郎文靜,等.基于分治策略的組塊分析[J].中文信息學報.2012,26(5): 120-128.

Conditional Random Fields Based Uyghur ChunkingAishan Wumaier,Tuergen Yibulayin,Kahaerjiang Abiderexiti,

Zaokere Kadeer,Maihemuti Maimaiti,Yashen Aizezi

(College of Information Science & Engineering,Xinjiang University,Urumqi,Xinjiang 830046,China)

This paper proposes a Uyghur Chunk parsing scheme,and extracts chunks from 3000 annotated sentences. According to the characteristics of Uyghur language,additional features on the stem,affixes,synonyms etc are augmented. 3000 marked sentences are constructed,and the cross-validation experiments at the training/testing ration of 9∶1,8∶2,2∶1 result in the recall rates of 80.34%,76.87% and 66.76%,respectively.

conditional random fields;uyghur;chunk parsing

艾山·吾買爾(1981—),副教授,博士,碩士生導師,主要研究領域為自然語言處理。E?mail:turgun@xju.edu.cn吐爾根·伊布拉音(1958—),教授,博士生導師,主要研究領域為自然語言處理,軟件工程。E?mail:turgun@xju.edu.cn卡哈爾江·阿比的熱西提(1984—),碩士,講師,主要研究領域為自然語言處理,信息抽取。E?mail:kaharjan@xju.deu.cn

2014-01-08 定稿日期: 2014-05-10

新疆大學博士啟動基金,國家自然科學基金(61063043,61262060,60963018,61063026);國家社科基金重點項目(10AYY006);新疆大學校院聯合項目(XY110023);新疆多語種信息技術重點實驗室開放課題(049807);國家社會科學基金科研項目(13CFX055)

1003-0077(2016)03-0090-06

TP391

A

猜你喜歡
特征分析模型
一半模型
隱蔽失效適航要求符合性驗證分析
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
抓住特征巧觀察
電力系統及其自動化發展趨勢分析
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产人免费人成免费视频| 成人国内精品久久久久影院| 99999久久久久久亚洲| 日韩高清中文字幕| 欧美色99| 精品福利一区二区免费视频| 天天摸天天操免费播放小视频| 免费一级成人毛片| 欧美一级片在线| 久久毛片基地| 色成人亚洲| 国产成人成人一区二区| 毛片网站观看| 国产亚洲一区二区三区在线| 97在线观看视频免费| 91无码人妻精品一区| 无码高潮喷水专区久久| 在线不卡免费视频| 国产精品妖精视频| 2020国产免费久久精品99| 成人午夜免费视频| 精品在线免费播放| 亚洲系列中文字幕一区二区| 91精品久久久无码中文字幕vr| 国产一区在线视频观看| 国产日韩欧美在线视频免费观看| 九九精品在线观看| 99福利视频导航| 福利姬国产精品一区在线| 伊人天堂网| 亚洲精品成人片在线观看| 日本欧美在线观看| 亚洲AⅤ波多系列中文字幕| 一级爆乳无码av| AV不卡无码免费一区二区三区| 免费女人18毛片a级毛片视频| 亚洲天堂在线视频| 亚洲永久色| 无码精油按摩潮喷在线播放| 99人妻碰碰碰久久久久禁片| 欧美精品一二三区| 国产精品视频导航| 久久婷婷综合色一区二区| 国产欧美视频在线观看| AV老司机AV天堂| 亚洲二区视频| 狠狠做深爱婷婷综合一区| 亚洲精品无码久久毛片波多野吉| 亚洲视频一区| 日韩美女福利视频| 一本大道东京热无码av| 成人伊人色一区二区三区| 99re免费视频| 欧美国产在线看| 中文字幕66页| 91久久国产综合精品女同我| 无码网站免费观看| …亚洲 欧洲 另类 春色| 久久国产乱子| 国产精品尤物在线| 怡红院美国分院一区二区| 亚洲国产中文在线二区三区免| 亚洲国产精品无码AV| 国产精品播放| 国产AV无码专区亚洲A∨毛片| 又粗又硬又大又爽免费视频播放| 国产精品国产三级国产专业不| 丝袜美女被出水视频一区| 四虎在线观看视频高清无码| 久久久久中文字幕精品视频| 色综合激情网| 午夜福利在线观看成人| 成人一级免费视频| 在线观看国产一区二区三区99| 天天综合网站| 成人国产精品2021| 亚洲 日韩 激情 无码 中出| 国产成人高清亚洲一区久久| 1769国产精品免费视频| 免费99精品国产自在现线| 98超碰在线观看| 久久精品国产国语对白|