999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于模板的漢維商品命名實體翻譯研究

2015-09-28 06:10:51王靜雅袁保社
現代計算機 2015年8期
關鍵詞:實驗方法

王靜雅,袁保社

(新疆大學信息工程學院,烏魯木齊 830046)

基于模板的漢維商品命名實體翻譯研究

王靜雅,袁保社

(新疆大學信息工程學院,烏魯木齊830046)

0 引言

基于模板的翻譯方法TBMT(Template Based Machine Translation)是基于規則的機器翻譯(RBMT)方法和基于實例的機器翻譯(EBMT)方法的結合與優化[1]。商品名是一種特殊的命名實體,如果直接使用現有的命名實體翻譯技術,會出現很多問題。我們通過分析大量的產品命名實體,發現其結構通常為:品牌名+型號名+修飾詞+核心詞+規格說明。共同點如下:同品牌商品名中相同詞語重復率大、同系列商品命名結構類似、形容詞多等。結合商品命名實體自身結構,我們認為此方法十分適合商品名實體的翻譯。

本文中,我們提出一種改進了的TTL機器翻譯模板自動抽取算法。這種方法是首先將語料進行聚類操作,通過對相似實例一一進行比較,統計出現頻率較高但并不是全部出現的詞語或短語,添加作為候選部分。此方法使模板質量有明顯提高,可大大減少翻譯時模板匹配時的工作量,提高效率。

1 翻譯模板的抽取

1.1TTL模板抽取算法

Ilyas Cicekli和H.Altay Guvenir于 2001年提出TTL(Translation Template Learner)啟發式類比學習模板抽取算法,此方法不需要語法知識和句法結構。主要思想是從兩對互譯的實例中學習得到翻譯模板;通過比較實例中的相同部分和不同部分,將相同部分作為固定項,不同部分作為可變項,然后加以歸納,將不同部分進行變量置換而得到翻譯模板。最后建立源語言和目標語言變量之間的對應關系[2]。文獻[3]也用過類似算法進行模板的抽取,但主要針對的是農業常用短語進行的模板抽取。

1.2改進的TTL模板抽取算法

由于TTL算法只能從結構相同或相近的實例對中取得好模板,若從結構差異大的實例對中,往往抽取出無用模板。并且只需比較兩個實例就可抽取出一個模板,得到模板重復較多,質量和泛化能力不高。我們對TTL模板抽取算法進行改進,主要通過語料聚類和加入候選項兩個方面。

(1)語料聚類

聚類操作是利用文獻[4]提出的相似度計算方法,利用公式(1),(2),計算每個商品名的相似度,將相似度大于特定閾值的語料歸為同類。

在公式(1)中,前一部分表示詞形相似度,后一部分表示詞序相似度。其中SameWord(S1+S2)表示兩實例中相同詞語的個數,Word表示實例中詞語的個數。公式2中OnceWS(S1,S2)表示在S1,S2中都出現且都只出現一次的單詞的集合。RevOrd(S1,S2)表示相同單詞在S1中的排序后,將此單詞序號對應放入S2中,得出S2中單詞序號的各相鄰分量的逆序數。由于詞形相似度起主要作用,詞序相似度起次要作用,所以要求α>>β,一般α取值為0.9,β取值為0.1。

(2)增加候選項

我們將聚類操作后的同類實例一一進行比較,得出一個模板。在比較后得出相同部分和不同部分,對于實例中出現頻率較高,但并不是全部實例中都包含相同的部分,我們把它歸結為候選項。將每個實例中都出現的部分歸結為固定項,不重復出現的部分歸結為可變項,即為模板槽。改進模板抽取的算法如下:

輸入:源語言實例Si,目標語言實例Tj,與其分詞結果和詞對齊結果

輸出:抽取出的模板對TemplateSet

其中,函數Similarity找出兩個實例中的相同單詞;函數ExtractCommonPart提取兩個實例的相同部分;CommonPartNumber表示詞語重復次數,CompareTimes表示實例比較次數,FixedPortion和OptionalParts分別表示模板中固定項和候選項;GetSlotRelations函數獲得漢語模板和維語模板之間的一一對應關系。在抽取算法中,我們規定相同項出現次數大于比較次數的1/2,但小于比較總次數時,將它們定義為候選項。據上述算法,以下面經過分詞和詞對齊處理后的實例對輸入為例:

S1:樂事天然薯片

T1:lexi tEbi bErENgE yapriKi

詞對齊:1-1 2-2 3-3 3-4

S2:樂事薯片

T2:lexi bErENgE yapriKi

詞對齊:1-1 2-2 2-3

S3:樂事墨西哥 雞汁 西紅柿 味天然 薯片

T3:lexi miksika tohukiyami pEmidur tEmlik tEbi bErENgE yapriKi

詞對齊:1-1 2-2 3-3 4-4 5-5 6-6 7-7 7-8

S4:樂事 忠于 原味 天然 薯片

T4:lexi Esli tEmlik tEbi bErENgE yapriKi

詞對齊:1-1 2-0 3-2 3-3 4-4 5-5 5-6

首先進行漢語單語實例的比較,然后再選取對應譯文部分,其中*表示變量部分,可以是單詞或短語、<>內表示候選項,()內表示此單詞出現次數。

1.S1與S2比較—>樂事(1)*薯片(1)

2.S1與S3比較—>樂事(2)*天然(1)薯片(2)

3.S1與S4比較—>樂事(3)*天然(2)薯片(3)

4.S2與S3比較—>樂事(4)*天然(3)薯片(4)

5.S2與S4比較—>樂事(5)*薯片(5)

6.S3與S4比較—>樂事(6)*天然(4)薯片(6)

對結果進行比較,“樂事”和“薯片”在6次比較中都重復出現6次,我們把它作為固定項。“天然”出現4次,小于比較次數6,而大于比較次數的一半,我們把它作為候選項。得出單語模板后,再去目標語言中選取對應部分,按照其語言規范,作為目標模板。

最終得出模板為:

SP=樂事 *<天然>薯片

TP=lexi*<tEbix>bErENgE yapriKi

2 模板的匹配

2.1建立模板索引

為提高模板匹配速度,解決模板沖突等問題[5],我們建立了模板索引。其中選取漢語商品類別作為關鍵字。在進行模板匹配之前,首先按照商品類別索引,查找模板大概位置,這樣可以縮小模板查找范圍。

2.2模板匹配

模板匹配算法主要由三個部分組成:第一部分是根據輸入商品名的分詞結果中的類別去篩選翻譯模板,檢索出和當前輸入的商品類別相同的翻譯模板;第二部分是判斷翻譯模板的框架同輸入商品名結構是否能夠匹配,并且將各個槽對應的片段保存,通過查字典翻譯來完成;第三部分是根據翻譯模板的其他參數選擇最佳的翻譯模板。

例:([樂事][u4e00-u9fa5]*[薯片])+$

對于同時存在多個模板可以匹配的情況,我們需要從中進行舍去。衡量翻譯模板的優劣有以下幾個指標:

●漢語模板框架上詞語個數 WordCount

●漢語模板槽的個數 SoltCount

●模板匹配成功的實例個數 SuccessMatchCount

●模板翻譯正確的實例個數 SuccessTransCount

如果漢語模板上的固定詞語越多,越接近一個真實的例子,其翻譯結果越可靠;漢語模板槽越多,越抽象,其翻譯結果越不可靠;第三項與第四項的比值就是翻譯正確率[6]。根據以上參數,我們規定模板的可信度為:

Credibility=(WordCount/SoltCount)×(SuccessTransCount/ SuccessMatchCount)

對于候選項的翻譯,我們將其取一個初值為0布爾值,如果翻譯實例中存在候選項,則將其置為1,顯示候選項的翻譯結果。模板匹配算法如下:

輸入:待翻譯的商品實體名Si輸出:可信度最高的翻譯模板

其中,Matched Template表示可匹配的模板集合,函數Seg對目標語言分詞,函數GetLastWordSeg是得到分詞結果中最后一個詞語,按照商品結構特點,最后一個單詞一般為商品類別,我們把它作為索引Index。函數Select Template按照索引Index去模板庫中查找模板。Match對查找出的模板一一進行比較,返回匹配的模板;函數Sort是按照模板匹配可信度進行排序。對于無法與模板進行匹配的商品名,我們利用基于規則的方法進行翻譯。

3 實驗結果分析

本次實驗所用的實驗語料來源于本實驗室加工處理的漢維平行語料庫。語料庫中,我們選取可以和老維語進行無歧義轉換的拉丁維文和簡體中文,這樣可以加快處理速度,方便計算機進行存儲處理的[7]。模板抽取試驗中分別利用傳統的TTL方法和我們改進的TTL方法進行抽取實驗對比。實驗結果表明,經過類聚操作后,改進的TTL方法抽取到的模板數量減少了。這是因為此種方法由于互相比較的實例數量較多,一個模板的抽取綜合了多個實例的結構與特點,使得抽取出的模板概括能力和泛化能力有所增強,可減少下一步的模板匹配的工作量。

為驗證模板質量,我們利用抽取到的模板進行翻譯實驗,對翻譯的結果進行了人工測試,并統計了翻譯的正確率。我們將本系統和一個基于規則的商品名翻譯系統進行對比。實驗中使用了2000個商品名對,用1600個商品名稱對進行抽取模板和翻譯訓練,選取剩下400個商品名進行開放測試,再從訓練使用的1600個商品名中隨機抽取400個進行了封閉測試。實驗結果如表1。

表1 實驗結果

實驗結果表明,本文的漢維翻譯系統在正確率上已達到了中等水平,它所使用的模板數量還有待提高。

實驗結果中錯誤產生的原因主要有兩方面:其一是無法與模板庫匹配的商品名的翻譯詞序結構不合理;其二是一些在數據庫中不存在的新商標、新品牌等未登錄詞的翻譯,結果不理想。

4 結語

本文提出了一種改進的基于模板的商品命名實體機器翻譯方法,這種方法能夠合理地綜合基于規則和基于例子的翻譯系統的優點。改進的TTL模板抽取方法,使得模板質量和模板匹配效率有所提高。初步的實驗結果表明,雖然在提高模板組合翻譯質量和對未登錄詞翻譯方面還面臨很多困難,但該系統還是取得了比較滿意的效果。同時此方法還可應用到地名、機構名的翻譯。

[1]林賢明,李堂秋,史曉東.基于模板的機器翻譯系統中模板庫的自動構建技術[J].計算機應用,2004,24(9):133~135

[2]胡日勒,宗成慶,徐波.基于統計學習的機器翻譯模板自動獲取方法[J].中文信息學,2005,19(6):0001~0006

[3]駱凱,李森,強靜,烏達巴拉.基于統計和模板的雙層漢蒙翻譯研究[J].計算機應用,2009,29(7):2026~2031

[4]呂學強,任飛亮,黃志丹,姚天順.句子相似模型和最相似句子查找算法[J].東北大學學報,2003,24(6):531~534

[5]李玉鑒.基于索引模板匹配替換通用算法的機器翻譯[J].計算機應用研究,2004(5):54~57

[6]張健.基于實例的機器翻譯的泛化方法研究[D].北京:中國科學院計算機技術研究所,2001

[7]吐爾根·依布拉音,袁保社.新疆少數民族語言文字信息處理研究與應用[J].中文信息學報,2011,25(6)149~156

Machine Translation;Template;Commodity Named Entity

Research on Chinese-Uighur Commodity Named Entity Translation Based on Template

WANG Jing-ya,YUAN Bao-she
(College of Information Science and Engineering,Xinjiang University,Urumqi 830046)

1007-1423(2015)08-0034-04

10.3969/j.issn.1007-1423.2015.08.008

王靜雅(1990-),女,新疆烏魯木齊人,碩士研究生,研究方向為少數民族語言處理

2014-12-11

2015-02-10

結合商品命名實體自身結構的特點,提出一種基于模板的產品名命名實體的翻譯方法。該方法在傳統模板中包含的固定項和可變項的基礎上,添加候選項。首次把TTL模板抽取算法應用于“漢語-維吾爾語”,并加以改進。實驗結果表明模板中候選部分的添加可大大減少模板的數量,提高模板的泛化能力和翻譯質量。

機器翻譯;模板;商品命名實體

袁保社(1955-),男,新疆庫爾勒人,本科,教授,研究方向為中文信息處理

Combined with the structure characteristics of the commodity named entities,puts forward a kind of commodity named entity translation method based on template.The method in traditional template contains fixed and variable,on the basis of adding the candidate items.For the first time,puts the TTL template extraction algorithm applied in"Chinese-Uighur",and improves it.The experimental results express that adding a candidate in the template can greatly reduce the number of templates and improve the generalization ability and the quality of translation templates.

猜你喜歡
實驗方法
記一次有趣的實驗
微型實驗里看“燃燒”
做個怪怪長實驗
學習方法
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 欧美色丁香| 亚洲va欧美va国产综合下载| AV老司机AV天堂| 无码人中文字幕| 亚洲最黄视频| 日韩美一区二区| 亚洲天堂首页| AV老司机AV天堂| 国产成人福利在线视老湿机| 91青青视频| 99精品这里只有精品高清视频| 亚洲日本中文字幕乱码中文| 97国产精品视频自在拍| 大香伊人久久| 欧美成人aⅴ| 国产欧美精品一区aⅴ影院| a毛片免费在线观看| 国产欧美日韩综合在线第一| 国产在线观看高清不卡| 国产精品jizz在线观看软件| 国产h视频在线观看视频| 国产精品自拍露脸视频| 久久国产av麻豆| 成人另类稀缺在线观看| 国产免费羞羞视频| 亚洲三级片在线看| 福利在线一区| 干中文字幕| 2021精品国产自在现线看| 日韩一级毛一欧美一国产| 毛片大全免费观看| 久热99这里只有精品视频6| 人人91人人澡人人妻人人爽| 国产va免费精品观看| 日韩精品一区二区三区免费在线观看| 亚洲国产精品VA在线看黑人| 欧美日韩激情在线| 日韩精品一区二区深田咏美| 亚洲无码91视频| 国产日本欧美亚洲精品视| 99热国产这里只有精品9九| 色天天综合| 日韩中文无码av超清| 呦女亚洲一区精品| 欧美日韩一区二区在线免费观看| 欧洲高清无码在线| 999国产精品| 国产成人一区| 日韩在线1| 国内精自线i品一区202| 国产一区亚洲一区| 亚洲日韩AV无码一区二区三区人| a毛片在线| 久久99久久无码毛片一区二区| 欧美性精品| 国产在线精彩视频二区| 色网站免费在线观看| 国产91导航| 青青青国产免费线在| 国产中文在线亚洲精品官网| 9丨情侣偷在线精品国产| 97久久精品人人| 韩国福利一区| 亚洲小视频网站| 国产亚洲欧美日韩在线一区二区三区| 老司机aⅴ在线精品导航| 久久五月视频| 一区二区三区在线不卡免费| 99久久99这里只有免费的精品| 亚洲高清在线天堂精品| 91精品久久久无码中文字幕vr| 毛片网站在线看| 1级黄色毛片| 一级毛片免费高清视频| www.亚洲天堂| 国产毛片高清一级国语 | 国产日本欧美在线观看| 婷婷五月在线| 久久久久青草大香线综合精品| 日韩国产精品无码一区二区三区 | 91色国产在线| 午夜国产大片免费观看|