999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融入雙語最大名詞組塊的樹-串統計機器翻譯模型

2015-04-18 07:18:22李業剛
關鍵詞:模型

李業剛,解 紅,周 潔,李 艷

(山東理工大學 計算機科學與技術學院,山東 淄博 255049)

融入雙語最大名詞組塊的樹-串統計機器翻譯模型

李業剛,解 紅,周 潔,李 艷

(山東理工大學 計算機科學與技術學院,山東 淄博 255049)

在統計機器翻譯中融入語言學知識具有重要的理論研究和應用價值.在考察了具有豐富的句法和語義信息的雙語最大名詞組塊后,提出和實現了在樹-串統計翻譯模型中融入雙語最大名詞短語的統計機器翻譯框架.通過在漢-英測試集的實驗證明:相比基線模型,采用所述框架的翻譯模型的BLEU值提高了1.66%,而且翻譯速度也得到了提高.

統計機器翻譯;樹-串翻譯模型;雙語最大名詞組塊;句子骨架

樹-串統計機器翻譯模型在源語言中引入句法結構,以此限制翻譯路徑,約束詞語的活動范圍.但是完全句法分析也是一個復雜度很高的自然語言處理任務,自身遠遠沒有達到完美的程度.以漢語為例,在賓州中文樹庫上,采用自動詞性標注結果,漢語的分析精度達不到80%.這是基于語言學語法的翻譯系統性能提升的最大瓶頸.雖然N-BEST[1]、句法森林[2-3]等[4-5]方法通過擴大搜索空間,增強了對句法知識的容錯能力,但是翻譯模型要通過計算機實現.隨著語料庫的規模越來越大,更大的搜索空間,更高的計算復雜性,最終將造成翻譯時間越來越長,翻譯性能提高的代價是翻譯時間倍增.因此,保證樹-串統計機器翻譯系統對句法知識的容錯能力,有效地融入合適的句法知識,就成了統計翻譯模型要解決的主要問題.

為了句子中的降句法分析中嵌套短語帶來的干擾,提高句法分析的性能,從而提高機器翻譯的譯文質量.本文提出了一種分而治之的策略,利用一體化的BMNC識別對齊算法獲取高質量的BMNC,在此基礎上,把翻譯模型分成雙語最大名詞組塊(bilingual maximal length noun chunk,BMNC)翻譯子模型和句子骨架(Skeleton)翻譯子模型.

1 BMNC的定義及特性

最大名詞短語[6](Maximal-length Noun Phrase, MNP)指的是不被其它任何名詞短語所包含的名詞短語,如果能夠高質量的識別出句子中的MNP,可以剔除MNP中的嵌套短語等復雜結構給句子結構分析帶來的結構歧義,有利于更好的把握句子結構.

在漢英平行語料中,漢英MNP經常會存在不完全互譯的情況,例如:

上海浦東開發與法制建設同步.

The development of Shanghai 's Pudong is in step with the establishment of its legal system.

在漢語句子中,“上海 浦東 開發 與 法制 建設”被識別為一個最大名詞短語,而其互譯的成分,在英語句子中識別為“The development of Shanghai 's Pudong”和“the establishment of its legal system”兩個不連續的名詞短語.

在這種情況,傳統定義的MNP在雙語中出現了偏差,不完全互譯,無法滿足機器翻譯的需求.因此我們在傳統MNP定義的基礎上,提出了雙語最大名詞組塊(Bilingual Maximal-length Noun Chunks, BMNC),它不僅具備傳統MNP的特性:是一個完整的句法單元和語義單元,有穩定的外部修飾結構,而且要具備雙語間的互譯性和識別的一致性.因此,BMNC不同于傳統的MNP,在單語句子中它有可能被其它名詞短語包含,但是它不能被可互譯的其它名詞短語所包含.定義1描述了漢英BMNC的形式化定義.

定義1 存在漢英句對SP=,其中:S:ws1,ws2,…,wsns表示漢語句子序列,T:wt1,wt2,…,wtnt表示英語句子序列.對于序列對,其中,MNCc?S,MNCe?T,如果滿足以下條件,則稱為漢英雙語最大名詞組塊.

{|MNCc=

ws0,ws1,…,wsm,MNCe=wt0,wt1,…,wtn;

MNCc?MNCe;m

(1)非空.MNCc≠null,MNCe≠null

(2)互譯.MNCc?MNCe,MNCe和MNCc在翻譯上的具有充分轉換性.

(3)繼承.MNCc和MNCe的語義核心均有一個名詞或者名詞短語組成,且其成分特征決定了MNCc和MNCe短語結構的特征.

根據BMNC定義,漢語句子“上海 浦東 開發 與 法制 建設”中,“上海 浦東 開發”(對應英語BMNC“The development of Shanghai 's Pudong”)和“法制 建設”(對應英語BMNC“the establishment of its legal system”)被識別為兩個雙語對齊的BMNC.

2 BMNC&Skeleton翻譯模型框架

在樹-串統計機器翻譯模型中,句法分析錯誤會傳遞到解碼過程,影響譯文的質量.為了降低句法分析錯誤對譯文質量的影響,我們提出了融入BMNC的樹-串統計翻譯模型(BMNC & Skeleton),模型框架如圖1所示.該模型把句子翻譯轉化為BMNC翻譯和句子骨架(Skeleton)翻譯.首先,在源語言端進行BMNC識別,把所有BMNC抽取出來組成BMNC集合;在原來的句子中用BMNC的中心詞或者詞性來代替BMNC短語整體,形成Skeleton.然后分別訓練翻譯模型,把BMNC集合和Skeleton翻譯成目標語言.最后,在目標語言端,組合獨立翻譯的BMNC和Skeleton,形成最終的翻譯結果.

圖1 融入MNC的翻譯框架

用中心詞來代替短語整體要滿足兩個約束條件:其一,源語言端和目標語言端語義上相對應的兩個短語是句法獨立的,不存在一端短語連續,另一端不連續的現象;其二,在各自的句子中句法功能相同,一端是名詞短語,另一端也應具有名詞的功能.因為不同語言之間存在結構差異,這一前提不一定能夠滿足.為此,我們統計分析了雙語對照樹庫CTB1.0(English Chinese Translation Treebank)的4175個句子.分析發現,BMNC具有較好的穩定性,98%以上的BMNC都符合上述約束.

我們統計了CTB5.0《新華日報》語料中所有的9,493漢語句子,共含有24,436個BMNC,占所有詞的57.4%.BMNC的平均長度5.4詞,其中,長度大于7的占了22.9%.把BMNC用中心詞代替后,漢語句子的平均長度降低將近一半,由24.2個詞縮減到12.9個詞.在樹-串翻譯中,翻譯時間主要包含解碼時間和源語言句法分析耗費的時間,翻譯時間復雜度是句子長度的三次方,顯而易見,用中心詞代替BMNC,將大幅度的降低翻譯時間耗費.

在識別出MNC后,把句子中的BMNC用其中心詞代替,形成句子骨架,可以有效降低翻譯時間.但是,實際情況中,漢語詞和英語單詞并不是完全一一對齊的,還會存在一對多、多對一,甚至是多對多的情況.也就是說中心詞會存在不完全互譯的情況,這就會造成句子骨架并不是充分互譯的.例如:

[新區/n BS 管委會/ n IH]

[the/DT BS new/JJ IS region/NN IS 's/POS IS management/NN IS committee/NN IH]

漢語端BMNC的中心詞“管委會”對應的英語翻譯是“management committee”,而不只是英語端的BMNC中心詞“committee”,如果只是用中心詞BMNC,就會形成兩個并不是完全互譯的英漢句子骨架,給后續的翻譯帶來衍生錯誤.為了避免這樣的錯誤,我們的策略是用中心詞的詞性代替原來的中心詞.

3 BMNC獲取

BMNC對齊雖然是識別的后續過程,但對齊信息卻能輔助BMNC的識別,修正已有的識別錯誤.因此,將對齊信息反饋給識別過程會提高識別的質量.針對漢英雙語語料,我們建立起BMNC識別與對齊相結合的整體框架,提出一種漢英BMNC一體化識別對齊模型,使雙語實體對齊具有修正識別的功能,實現二者性能的同時提高.

Align_Conf(MNPci,MNPej)=

(1)

式中:count(MNPci,MNPej)表示MNPci和MNPej之間對齊的詞的數量,count(MNPci),count(MNPej)分別表示MNPci和MNPej中包含的詞的數量.

(2)

(3)

其中,ti,ti-1,ti+1表示wi的詞性,wi前一個詞的詞性和wi的后一個詞的詞性;count(*,*,*)表示詞性組合出現的次數.

(4)

我們采用詞性組合共現、互為翻譯和長度關聯3個特征來對雙語對齊置信度進行建模.

詞性組合共現特征指的是組成BMNC的詞的詞性組合在整個語料庫中的共現頻率.具體計算如公式(5)所示.

(5)

(6)

(7)

其中:

count(x)表示x包含的字符數.

4 實驗結果及分析

4.1 實驗設置

實驗使用了北京市海量語言信息處理與云計算應用工程技術研究中心提供的100,000句子級對齊的漢英平行語料作為樹-串翻譯模型的訓練語料,東北大學NiuTrans開源統計機器翻譯系統的訓練語料作為最大熵特征參數訓練語料.測試語料使用了2002 NIST機器翻譯漢英測試集.我們用基于IBM models的GIZA++[8]獲得了漢英和英漢兩個方向的詞對齊.

4.2 實驗結果及分析

實驗選用了東北大學開發的NiuTrans中的tree-to-string模型作為翻譯基線模型.分別考察了金本位和自動識別的BMNC兩種不同的情況在測試集的表現(表1).其中:Model1表示NiuTrans的tree-to-string模型,Model2表示金本位的BMNC識別的BMNC&Skeleton翻譯模型,Model3表示自動識別的BMNC基礎上的BMNC&Skeleton翻譯模型.

表1 不同模型的翻譯性能比較

模型MNPs正確率/%BLEU/%Model1-24.37Model210025.2Model382.124.64

從實驗結果可以看出,基于金本位的BMNC識別的Model2的BLEU值比基線翻譯模型Model1提高了0.83%.由于識別錯誤的累積,基于自動識別的BMNC翻譯模型Model3的BLEU值雖然比Model1高了0.27%,但是相比Mode2,則低了0.56%.也就是說,BMNC的識別性能對翻譯的結果是有影響的,進一步提高BMNC的質量可以提升機器翻譯的性能.

為了進一步的探討BMNC&Skeleton翻譯模型的翻譯性能,我們測試集上進行了進一步的實驗,把整個測試集分為10詞以下,10到20詞和20詞以上三個不同的測試集,分別進行翻譯實驗,實驗結果如表2所示.

表2 不同句長測試集上的翻譯性能比較

模型BLEU/%<10[10,20)≥20Model129.1224.8120.35Model328.9325.3822.01

從實驗結果來看,雖然隨著句子長度的增加,兩個模型的翻譯性能都表現除了降低的趨勢,但是Model3降低的幅度要低于Model1,尤其是在句子長度超過20的測試集上,Model3的BLEU值比Model1提高了1.66%,這說明了我們提出的翻譯框架是有效的.但是,我們也看到在10詞以下的測試集中,Model3的表現差強人意,這可以歸結為短句中含有BMNC的可能行比較小,這時Model3的優勢無法體現.

樹-串翻譯模型的翻譯時間主要有兩大部分,源語言句法分析時間和翻譯解碼時間.對于翻譯系統來說,翻譯時間也是一個重要的衡量指標.不同句長的模型的翻譯時間比較見表3.從表3可以看出,Model3的時間耗費遠遠低于Model1,在長句翻譯中尤其明顯.

表3 不同句長的翻譯時間比較

模型句法分析時間/s·每句翻譯解碼時間/s·每句<10[10,20)≥20<10[10,20)≥20Model10.310.480.630.610.971.32Model30.290.390.490.590.750.98

5 結束語

本文提出了在樹-串翻譯模型中引入雙語最大名詞組塊的統計機器翻譯框架.首先利用BMNC識別對齊一體化模型從雙語對齊語料中獲取高質量的BMNC;然后采用分而治之的策略,把翻譯分成BMNC翻譯子模型和句子骨架翻譯子模型,分別訓練翻譯模型,把BMNC集合和句子骨架翻譯成目標語言;最后,在目標語言端,組合獨立翻譯的BMNC和句子骨架形成最終的翻譯結果.實驗結果表明,使用我們的方法,在測試集上提升了樹-串翻譯模型的BLEU值,在較長的句子中效果更明顯.另外,BMNC和句子骨架分治的思想對諸多依賴句法分析結果的自然語言處理任務都有一定的參考價值.

[1] Xiao T, Zhu J B, Zhang H,etal. An empirical study of translation rule extraction with multiple parsers [C]// Huang C R, Dan Jurafsky. Proceedings of 23th InternationalConference on Computational Linguistics. Beijing, China: Coling 2010 Organizing Committee, 2010: 1345-1353.

[2] Mi H T, Huang L, Liu Q. Forest-based translation[C]// Moore J D, Teufels, Allan J,etal. Proceedings of Association for Computational Linguistics. Columbus, Ohio: Association for Computational Linguistics, 2008:192-199.

[3] Zhang H, Zhang M, Li H Z,etal. Forest-based tree sequence to string translation model[C]// Su K Y, Su J,Wiebe J,etal. Proceedings of Association for Computational Linguistics IJCNLP, Suntec. Singapore: Association for Computational Linguistics, 2009:172-180.

[4] Zhu J B, Xiao T. Improving decoding generalization for tree-to-string translation[C]// Matsumoto Y, Mihalcea R. In Proceedings of Association for Computational Linguistics. Portland: Association for Computational Linguistics, 2011: 418-423.

[5] Xiao T, Gispert Adrià de, Zhu J B,etal. Effective incorporation of source syntax into hierarchical phrase-based translation[C]// Tsujii, Jan Hajic. Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers. Dublin Dublin City University and Association for Computational Linguistics, 2014: 2064-2074.

[6] 周強,孫茂松,黃昌寧.漢語最長名詞短語的自動識別[J].軟件學報,2000,11(2):195-201.

[7] Li Y G, Huang H Y. Automatic identifying of maximal length noun phrase[C]// Li E Y, Yang F C. Proceedings of 2nd IEEE CCIS. Hangzhou: Institute of Electrical and Electronics Engineers, Inc., 2012:1445-1448.

[8] Och F J, Ney H. Improved statistical alignment models[C]// Brennan S E. Proceedings of the 38th Annual Meeting on Association for Computational Linguistics. Hong Kong: Association for Computational Linguistics, 2000: 440-447.

(編輯:姚佳良)

Tree-to-string model integrated with bilingual maximal-length noun chunk

LI Ye-gang, XIE Hong, ZHOU Jie, LI Yan

(School of Computer Science and Technology, Shangdong University of Technology, Zibo 255049, China)

It has important theoretical and application value to promote the statistical machine translation by integrating meaningful linguistic knowledge effectively. After inspected structural characteristics of maximal-length noun chunks with rich syntactic and semantic information, we proposed a statistical machine translation model which integrated with bilingual maximal-length noun chunks for improving an existing tree-to-string machine translation system. Under this scenario, we experimented on a Chinese-English corpus and achieved an improvement of 1.66 BLEU percentage point over a non-adapted state-of-the-art tree-to-string baseline system, and had a significant improvement over the baseline method on decoding speed in practice.

statistical machine translation; tree-to-string translation model; bilingual maximal-length noun chunk; sentence skeleton

2014-12-07

國家重點基礎研究發展計劃(2013CB329303); 國家自然科學基金資助項目(61132009)

李業剛,男,lyg8256@bit.edu.cn

1672-6197(2015)06-0011-05

TP391

A

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲精品片911| 真实国产乱子伦视频| 国产精品网址你懂的| a毛片免费在线观看| 日韩欧美视频第一区在线观看| 国产高清在线丝袜精品一区| 亚洲成A人V欧美综合天堂| 一级香蕉视频在线观看| 高潮毛片无遮挡高清视频播放| 亚洲a级在线观看| 国产区网址| 91国内外精品自在线播放| 日韩毛片在线播放| 国产办公室秘书无码精品| 亚洲有无码中文网| 国产白浆一区二区三区视频在线| 亚洲成人精品在线| 亚洲六月丁香六月婷婷蜜芽| 久久99久久无码毛片一区二区| 欧美国产日本高清不卡| 亚洲高清无在码在线无弹窗| 亚洲系列无码专区偷窥无码| 亚洲第一视频区| 青青热久免费精品视频6| 91综合色区亚洲熟妇p| 婷婷六月色| 久久国产精品77777| 丁香五月激情图片| 国产欧美日韩另类精彩视频| 午夜福利无码一区二区| 国产成人三级在线观看视频| 亚洲色图欧美激情| 午夜性刺激在线观看免费| 国产成人在线无码免费视频| 日韩在线中文| 国产99视频在线| 伊人中文网| 91无码人妻精品一区二区蜜桃| 国产精品一区二区久久精品无码| 伊伊人成亚洲综合人网7777| 另类综合视频| 国产自在自线午夜精品视频| 99ri国产在线| 国产91精品调教在线播放| 亚洲欧美日韩动漫| 欧美日韩91| 一级片一区| 中国一级特黄大片在线观看| 精品一区二区无码av| 欧美精品在线看| 熟女成人国产精品视频| 午夜国产精品视频黄| 午夜精品久久久久久久2023| 亚洲欧美国产五月天综合| 国产激爽爽爽大片在线观看| www欧美在线观看| www.国产福利| 久久精品一卡日本电影| 亚洲无码视频喷水| 亚洲高清中文字幕在线看不卡| 99这里只有精品免费视频| 精品一区二区三区四区五区| 欧美成人午夜在线全部免费| 69国产精品视频免费| 欧美精品亚洲精品日韩专区| 国产爽歪歪免费视频在线观看| 一级毛片免费的| 日韩精品一区二区三区中文无码 | 免费在线国产一区二区三区精品| 国产一二视频| 国产在线小视频| 欧美日本在线观看| 国产成人1024精品下载| 国产AV无码专区亚洲A∨毛片| 99久久精品免费看国产电影| 国产精品永久久久久| 在线免费观看a视频| 国产亚洲精品va在线| 99在线观看免费视频| 在线免费观看a视频| 久久伊人操| 国产系列在线|