999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于HMM與詞典的漢維詞對齊研究

2017-12-18 03:08:40李萍楊勇任鴿賽買提艾力
現代計算機 2017年31期
關鍵詞:方法模型

李萍,楊勇,任鴿,賽買提·艾力

(新疆師范大學計算機科學技術學院,烏魯木齊 830054)

基于HMM與詞典的漢維詞對齊研究

李萍,楊勇,任鴿,賽買提·艾力

(新疆師范大學計算機科學技術學院,烏魯木齊 830054)

詞對齊被廣泛的用于基于短語的統計機器翻譯中,詞對齊效果的好壞直接影響了機器翻譯的質量。提出將隱馬爾科夫模型用于漢維詞對齊時,由于漢維雙語標記的數據量比較大而且標記數據也還沒有公開,導致漢維詞對齊的質量較差,也沒有辦法進行評價,提出采用基于詞典的方法進行對齊評價,實現漢維雙語詞典的構建系統,實驗表明,該方法的效果較好,并同時構建漢維雙語語料庫。

隱馬爾科夫模型;詞對齊;詞典;語料庫

0 引言

在統計機器翻譯中,詞對齊是一個重要的組成部分。在詞對齊的研究中,經典的非監督詞對齊方法主要是基于IBM模型1-IBM模型5[1]詞對齊方法和基于HMM模型的詞對齊方法[2]。這六種模型可以將他們分類,IBM1、IBM2和HMM分為一類,這類模型比較容易處理和實現,IBM模型3、IBM模型4和IBM5分為一類,這類模型不容易處理,但是準確性更高。GIZA++軟件工具將這兩種模型都進行了實現,因此很多的研究者都使用GIZA++來進行詞對齊,本文也將使用此工具進行漢維詞對齊的實驗。

在IBM5模型和HMM模型基礎上,對詞對齊的研究,很多的學者也提出了一些其他方法,文獻[3]沒有采用統計的方法,而是考慮將語言學知識融入詞對齊過程中,語言學知識包括語義、詞性等,初步的對齊是在基于詞典的方法上,這種方法需要計算雙語詞語的語義相似度;文獻[4]提出了基于錨點詞對的詞對齊方法,這種方法獨立于前六種模型,實現較簡單,但其依賴于詞典,在初步對齊時,如果詞典的數量不夠,則對齊就比較粗糙;文獻[5]提出了加權二部圖的漢日詞對齊方法,此方法也是在基于詞典的基礎上,首先根據雙語詞典判斷雙語是否對齊,在不對齊的情況下,再根據相似性、詞性等特征來計算兩個詞語的相似性,從而判斷是否對齊;文獻[6]為了提高漢維之間的詞對齊質量,提出了對維吾爾語進行形態分析,將詞干和詞綴進行分離。

這些方法中有些未考慮到未登錄詞的情況,有的比較依賴于雙語詞典,對詞典的構建要求較高,將維吾爾語詞干和詞綴進行分離后,對齊的效果不是特別明顯,而且增加了對齊的負責性,對于對齊后詞典的再次構建也不是很有利,另外有些方法沒有解決詞語之間的一對多或多對多的情況。

鑒于漢語維吾爾語關于詞對齊之間的標記語料較少的情況,本文提出了將HMM模型應用于漢維詞對齊中,對于對齊后的評價采用基于詞典的方式進行評價,對于詞對齊后的結果,再次修改雙語詞典,使得雙語詞典更豐富。

1 基于HMM的詞對齊

1.1 HMM 模型介紹

隱馬爾科夫模型由一個五元組構成:

其中S為狀態的集合,K為輸出符號的集合,π,A,B分別為初始狀態的概率分布,狀態轉移概率,符號發射概率[7]。

在詞對齊問題中,源語言為隱馬爾科夫模型中觀察符號,目標語言為狀態,對齊位置a為內部狀態序列。其中隱馬爾科夫模型的初始狀態概率,狀態轉換概率和符號發射概率都可以通過HMM的參數估計得到。

1.2 HMM的參數估計

在進行詞對齊時,首先需要對隱馬爾科夫模型進行參數估計,這里采用期望最大化方法EM進行參數估計,具體實現EM方法時,采用前向后向算法。

在t時刻位于狀態si,在t+1時刻位于狀態sj的概率:

模型 μ的參數可以采用下面三個公式循環估計,直到所有的參數收斂為止:

在時間t位于狀態si的概率為:

1.3 維特比算法

通過隱馬爾科夫模型的參數估計運算,得到模型,然后根據源語言即觀察序列和模型,使用維特比算法得到最佳的解釋序列,即最佳的內部狀態,內部狀態序列即為對齊位置a。

2 雙語詞典的自動化構建

由于漢維語料較少,人工標注工作量大,公開的漢維雙語詞典更少,為了漢維的自動化翻譯,漢維雙語詞典的構建尤其重要,本文利用基于HMM的詞對齊方法,將對齊的結果與已有的詞典進行相似度計算,反過來作用于雙語詞典,讓雙語詞典更豐富。為了構建初步的雙語詞典,利用互聯網上的雙語詞典檢索系統,構建本地雙語詞典庫。

本地雙語詞典檢索系統截圖:

圖1 漢維雙語詞典檢索系統

目前已經構建了農業領域的3萬個漢維雙語詞典,如圖2所示,構建了以大連理工大學信息檢索實驗室的情感詞為基礎,構建了3萬個漢維雙語情感詞詞典,如圖3所示。

圖2 農業領域的雙語詞典

圖3 情感詞雙語詞典

本地漢維雙語詞典自動化構建算法描述:

步驟1:從漢維雙語檢索系統的首頁獲取查詢詞或詞對齊結果。

步驟2:與詞典里的數據進行匹配,若匹配成功,將對應的維語顯示在系統上,詞典查詢結束。若匹配失敗,進入步驟3。

步驟3:根據查詢詞從網站izda上抓取網頁數據。

步驟4:網頁數據預處理,并且使用正則表達式匹配對應的漢維雙語。

步驟5:將獲取到的漢維雙語存入到漢維雙語詞典庫中,并將結果顯示在漢維雙語檢索系統中。

3 實驗

3.1 詞對齊評價模型

目前詞對齊的評價主要是三方面的,一個是召回率prec,一個是準確率rec,還有一個是對齊錯誤率AER[8-9]。本文根據對齊的結果和已構建的詞典,將對齊的結果與詞典里的詞動態比較,判斷其正確性,將詞語入庫,重新構建詞典,同時得到維吾爾語的詞綴,以便于后續研究。

3.2 漢維詞對齊實驗

本文采用giza++來進行漢維詞對齊,進行詞對齊之前,先獲取漢維雙語平行語料,部分平行語料如表1所示:

在詞對齊之前,需要對漢語進行分詞,分詞后的結果如表2所示:

表2

詞對齊結果如下圖所示:

圖4 詞對齊結果

4 結語

本文采用基于HMM的漢維詞對齊方法,對平行語料進行漢維詞對齊,將對齊的結果存入詞典中,并且在沒有標注語料的情況下,通過相似性比較,來對詞對齊結果的正確性進行判斷,最后得到漢維雙語詞典,構建和實現了漢維雙語詞典,為以后的研究提供語料基礎。本文在一些方面還存在不足,例如對齊的質量方面,對齊的質量也會影響詞典的質量,詞典和對齊的結果互相依賴,在以后的研究中還有待提高。

[1]F Brown,Peter&Della Pietra,Stephen&Della J Pietra,Vincent&Mercer,Robert.(1993).The Mathematics of Statistical Machine Translation:Parameter Estimation.Computational Linguistics.19.263-311.

[2]Vogel S,Ney H,Tillmann C.HMM-Based Word Alignment in Statistical Translation[C].Conference on Computational Linguistics.DBLP,1996:836-841.

[3]晉薇,黃河燕,夏云慶.基于語義相似度并運用語言學知識進行雙語語句詞對齊[J].計算機科學,2002(11):44-47.

[4]張孝飛,陳肇雄,黃河燕,王建德.基于錨點詞對的雙語詞對齊算法[J].小型微型計算機系統,2006(02):330-334.

[5]吳宏林,劉紹明,于戈.基于加權二部圖的漢日詞對齊[J].中文信息學報,2007(05):101-106.

[6]麥熱哈巴·艾力,王志洋,吐爾根·依布拉音.一種提高維吾爾語-漢語詞語對齊的方法研究[J].小型微型計算機系統,2012,33.(11):2551-2555.

[7]宗成慶.統計自然語言處理[M].北京:清華大學出版社,2013:110-111.

[8]Och F J,Ney H.Improved Statistical Alignment Models[C].Meeting on Association for Computational Linguistics.Association for Computational Linguistics,2000:440-447.

[9]黃書劍,奚寧,趙迎功,戴新宇,陳家駿.一種錯誤敏感的詞對齊評價方法[J].中文信息學報,2009,23(03):88-94.

Research on Chinese-Uyghur Word Alignment Based on HMM and Lexicon

LI Ping,YANG Yong,SAI Mai Ti·Ai Li,REN Ge
(College of Computer Science and Technology,Xinjiang Normal University,Urumqi 830054)

Word alignment is widely used in statistical machine translation phrase based on phrase.The effect of word alignment directly affects the quality of machine translation.Puts forward using a hidden Markov model for Chinese-Uyghur word alignment,because of the large amount of bilingual marker data and the lack of labeled data,resulting in poor quality of Chinese Uyghur word alignment,there is no way to evaluate.Puts forward the evaluation method based on the alignment dictionary and constructs a bilingual dictionary system.The experiment shows that the effect is good and the Chinese Uighur bilingual corpus is constructed.

Hidden Markov Model;Word Alignment;Lexicon;Corpus

新疆師范大學優秀青年教師科研啟動基金項目(No.XJNU201420)

1007-1423(2017)31-0007-04

10.3969/j.issn.1007-1423.2017.31.002

李萍(1989-),女,湖南株洲人,碩士,講師,研究方向為自然語言處理、機器學習

楊勇(1979-),男,陜西漢中人,副教授,博士,研究方向為自然語言處理

賽買提·艾力(1983-),男,新疆烏魯木齊人,講師,碩士,研究方向為自然語言處理

任鴿(19-),女,新疆烏魯木齊人,講師,碩士,研究方向為自然語言處理

2017-10-20

2017-11-03

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
學習方法
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 国产视频你懂得| 91精品啪在线观看国产91九色| 国产青榴视频| 伊人久久大香线蕉影院| 亚洲三级电影在线播放| 免费a级毛片视频| 久久国产亚洲偷自| 美女无遮挡免费视频网站| 国产一级在线播放| 国产精品女主播| 在线播放国产99re| 欧美亚洲一区二区三区导航| 1024你懂的国产精品| 91无码国产视频| 国产精品尹人在线观看| 亚洲人成网站日本片| 久久久久国产精品熟女影院| 高清不卡一区二区三区香蕉| 无码粉嫩虎白一线天在线观看| 人妻精品久久无码区| 国产精品欧美在线观看| 日韩欧美中文在线| 亚洲人成网站色7777| 五月综合色婷婷| 伊人久久婷婷| 国产女人在线视频| 在线永久免费观看的毛片| 好久久免费视频高清| 热九九精品| 亚洲视频二| 97人人做人人爽香蕉精品| 污污网站在线观看| 99这里精品| 波多野结衣一区二区三区AV| 免费精品一区二区h| 秋霞一区二区三区| 久久国产免费观看| 国产精品粉嫩| 亚洲国产欧美国产综合久久| 久草美女视频| 亚洲三级电影在线播放| 99九九成人免费视频精品| 手机精品视频在线观看免费| 国产三级国产精品国产普男人 | 欧美一级高清视频在线播放| 国产福利不卡视频| 88av在线播放| 一本大道视频精品人妻| 久久www视频| 国产日韩欧美成人| 日本午夜网站| 九九香蕉视频| 亚洲第一色视频| 欧美精品高清| 国产地址二永久伊甸园| vvvv98国产成人综合青青| 免费毛片在线| 国产对白刺激真实精品91| 91精品国产91久久久久久三级| 激情综合网激情综合| 日本五区在线不卡精品| 国产女人在线视频| 国产在线91在线电影| 精品成人一区二区三区电影 | 亚洲Va中文字幕久久一区| 麻豆精选在线| 精品国产www| 在线欧美国产| 91香蕉视频下载网站| 99久久精彩视频| 亚洲黄网视频| 一本大道在线一本久道| 亚洲熟妇AV日韩熟妇在线| 91九色国产porny| 国产精品99久久久久久董美香| 亚洲AⅤ综合在线欧美一区| 亚洲免费人成影院| 国产欧美日韩va| 久久精品这里只有精99品| 久久综合伊人 六十路| 国产精品女在线观看| 亚洲一级无毛片无码在线免费视频 |