999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于平行語料庫的雙語術語抽取系統研究

2016-04-12 00:00:00蔣俊梅
現代電子技術 2016年15期

摘 要: 針對雙語術語抽取系統在處理多種語言時大量耗費人力、財力、物力等的局限性問題,提出基于平行語料庫的雙語術語抽取方法,同時,分析此方法的不足,結合多種方法進行改善。在此基礎上開發了一個雙語術語抽取系統,并通過實驗分析了相似度函數、語料規模以及改進后方法對術語抽取結果的影響,而且該系統已經作為商品化軟件投入實際應用。

關鍵詞: 平行語料庫; 詞對齊; 共現矩陣; 相似度函數; 雙語術語抽取

中圖分類號: TN911?34; TP391.7 文獻標識碼: A 文章編號: 1004?373X(2016)15?0108?04

Abstract: Since the bilingual terminology extraction system exists the limitation problems of consuming massive manpower, financial resources and material resources while treating with multilingual languages, the bilingual terminology extraction method based on parallel corpus is put forward. The shortcomings of this method are analyzed, and improved with a variety of methods. On the basis of the above, a bilingual terminology extraction system was developed. The similarity function, corpus scale, and the effect of the improved method on terminology extraction results are analyzed with the experiment. The extraction system was put into practical application as a commercial software.

Keywords: parallel corpus; word alignment; co?occurrence matrix; similarity function; bilingual terminology extraction

0 引 言

術語是人類智慧和知識的結晶,包含著豐富的信息,雙語術語自動抽取任務早已引起學術界和工業界廣泛的關注[1]。同時,隨著全球化進程的推進,各國之間越來越迫切地要求知識和技術的交流,而術語作為知識最核心的載體,其相互翻譯恰恰成為了各國間知識、技術交流的最大障礙之一[2]。所以,實現雙語術語自動抽取,對于雙語術語詞典的構建和跨語言檢索都有重要的意義。

本文介紹了用基于相似度函數的方法生成對齊詞典的過程并分析其不足之處,融合了多種方法提高雙語術語抽取的準確率,在此基礎上開發了一個雙語術語抽取系統并做了三方面的實驗:不同的相似度函數對最后抽取結果的影響、不同的語料規模對最后抽取結果的影響以及改進方法對雙語術語抽取準確率的影響。

1 基于相似度函數的對齊詞典生成

1.1 詞典生成的過程

對齊詞典的生成以雙語平行語料庫為基礎,采用相似度函數計算雙語中不同詞語之間的關聯程度,把關聯程度最強的詞語作為對齊詞典的詞對[3?4]。整個過程主要分為語料預處理、語料編碼、生成對齊矩陣和生成對齊詞典四個步驟。

1.2 對齊詞典存在的問題及其他對其方式嘗試

僅僅用源語言中的每個詞(包括抽取出來的候選術語)與目標語言的每個詞(也包括候選術語)進行對齊,取得的效果并不理想,原因主要集中在以下幾個方面:單語術語抽取并不能窮盡所有的術語詞;很多中文多詞術語對應的英文術語只有一個詞;有些中文術語,在英文中根本就沒有固定的翻譯以及通過分析生成的對齊詞典,中文術語與英文單詞的對齊概率總比中文術語與英文多詞術語的對齊概率要高[5?6]。

基于上述對齊詞典存在的問題,為了讓對齊的效果更好,本文對多種不同的對齊方法進行嘗試,雖然最后的結果不夠理想,不能達到實際應用的目標,但是為找出能夠解決上述問題的方法做了鋪墊。

基于窗口匹配和相似函數的方法:經過大量實驗,但結果并不理想,原因包括:共現矩陣太大;處理時間增長;很多正確的但不滿足條件的詞沒能被抽取出來。

迭代對齊法:該方法通過不斷迭代,直到滿足條件才停止。通過實驗證明結果并不是很好,原因可能是:對齊的方法本身會產生錯誤的結果,而迭代過程對這種誤差也是迭代的,誤差導致錯誤的結果會越來越多,影響下一次需要對齊的詞語。

2 基于多策略融合的雙語術語抽取方法

分析導致生成對齊詞典準確率不高的原因,針對不同的問題,提出對應的改進方法。用基于相同原理的統計方法分別抽取單語,最大限度地減少單語術語抽取的不平衡;結合HMM模型的對齊結果和權衡比重的方法增大對齊的準確度。

2.1 基于Pat Tree的方法分別抽取單語

Pat Tree是一個特殊的二叉樹結構。它與常規的二叉樹的主要區別在于:當某個節點沒有子節點時,其左右子樹指針指向自己或者自己的祖先節點[7]。圖2所示的就是一個Pat Tree。

Pat Tree是用來高效地表示數據的一系列0,1字符串。具體表示為:從根節點開始遍歷,根據與字符串中相應的位值選擇下個要遍歷的是當前節點的左子樹還是右子樹,當對應的位值為“0”時,選擇左子樹;當位值為“1”時,選擇右子樹。在單語術語抽取中,雖然字符串是由漢字或者字母組成,但是任何漢字或者字母在計算機中都是由0,1字符串表示(或者可以說是用十六進制的數字表示)。所以單語抽取中,漢字或者字母的表示還是用Pat Tree的形式。與基本的Pat Tree工作原理不同的是中間節點也同樣能夠表示一段文字或者字母。術語抽取的方式主要是根據詞語出現的頻率來計算的,要滿足這個詞的結合度比有前綴和后綴的結合度都高。統一用該方法分別抽取中文術語和英文術語,從抽取的結果來看,確實降低了不平衡的情況。

2.2 綜合的術語對齊方法

GIZA++實現了IBM的5個模型和HMM模型,且其詞對齊有一定的精確度,故使用GIZA++對齊的結果來改善中文多詞術語到單個英語詞上的對齊效果,同時考慮適當提高多詞術語到多詞術語的相似度權重最終完成術語對齊。

HMM模型的雙向詞對齊結果有兩個比較直觀的文件,分別是中文單詞對應的英文單詞以及對齊概率和英文單詞對應的中文單詞以及對齊概率。把雙向詞對齊結果加入到術語對齊中,由于分詞時中文語料已經完成以源術語為詞典的分詞,只需要考慮源術語與哪一個英文詞的對齊概率最大[8]。設定一個閾值,并把高于閾值的單個英語詞典也抽取出來,作為源術語翻譯的一個候選項。為了用到雙向詞對齊的結果,把中文詞[x]與英文詞[y]的對齊概率定義為:

3 系統框架及實驗

雙語術語抽取系統在Windows平臺(Windows 7 Professional)下進行開發,采用標準C++語言。為了改進對齊效果,將開源軟件(GIZA++)生成的actual.ti.final文件作為系統的一個輸入。

3.1 系統框架

系統分為4個模塊:語言預處理模塊、單語抽取模塊、對齊詞典生成模塊、術語抽取模塊。

預處理模塊:對不同的語言是獨立的,輸入是單語語料,輸出是經過預處理之后的語料,主要進行了中文分詞,英文詞形還原,還提供了對語料進行編碼的功能,將原始的用字符表示的語料替換成用數字表示的語料。

單語術語抽取模塊:輸入是單語語料,輸出是源語言(中文)術語候選列表或者目標語言(英文)術語候選列表。

對齊詞典生成模塊:輸入是人工選出的源語言術語、目標語言候選術語、編碼詞典,輸出是對齊詞典,即源語言術語與目標語言候選術語或者目標語言詞語組成的詞對(候選術語對)及它們的相似度值。

雙語術語抽取模塊:輸入是對齊詞典和HMM模型生成的對齊文件,輸出是最終雙語術語對。

3.2 仿真實驗

實驗所用語料是中英雙語平行語料,包括日常交際用語、經濟、政治領域及少量軍事領域的語料,主要集中在經濟和政治領域。一共包含10萬個翻譯句對,不同的中英文詞語共70 855個,其中中文詞語43 924個,英文詞語26 931個。

4 結 論

本文詳細介紹了用相似度函數的方法生成雙語對齊詞典的過程,分析了該方法生成對齊詞典存在的問題。為了提高雙語術語抽取的準確率,融合了多種方法進行改進,以此為基礎開發了一個雙語術語抽取系統,通過實驗對不同因素的影響進行了考察:不同的相似度函數、不同的語料規模以及融合了多種方法后對雙語術語抽取準確率的影響。在未來的工作中,可以采取一些啟發式信息來改善詞對齊,從而進一步提高雙語術語抽取的準確率。

參考文獻

[1] 李秀英.基于歷史典籍雙語平行語料庫的術語對齊研究[D].大連:大連理工大學,2010.

[2] 姚振軍,鄭旭紅,徐鵬濤.基于本體的雙語平行語料庫的構建研究[J].語言教育,2014(1):29?36.

[3] 孫茂松,李莉,劉知遠.面向中英平行專利的雙語術語自動抽取[J].清華大學學報(自然科學版),2014(10):1339?1343.

[4] 張莉,劉昱顯.基于語序位置特征的漢英術語對自動抽取研究[J].南京大學學報(自然科學版),2015,51(4):707?713.

[5] LEFEVER E, MACKEN L, HOSTE V. Language?independent bilingual terminology extraction from a multilingual parallel corpus [C]// Proceedings of 2009 Conference of the European Chapter of the Association for Computational Linguistics. Stroudsburg: ACM, 2009: 496?504.

[6] LIU F. The construction of China characteristic vocabulary bilingual thesaurus based on parallel corpus [J]. Wireless internet technology, 2015(8): 46?50.

[7] 湯青,呂學強,李卓,等.領域本體術語抽取研究[J].現代圖書情報技術,2014(1):43?50.

[8] 李文剛,周杰,楊保群.基于詞典和句長及位置的雙語對齊方法的改進[J].現代電子技術,2011,34(14):25?27.

主站蜘蛛池模板: 国产h视频在线观看视频| 在线观看国产一区二区三区99| 国产成人一区| 欧美精品啪啪| а∨天堂一区中文字幕| 国产成人精品一区二区免费看京| 日韩高清无码免费| 色婷婷亚洲综合五月| 99人妻碰碰碰久久久久禁片| 无码中文字幕乱码免费2| 国产成人欧美| 色综合久久无码网| 国产国模一区二区三区四区| 妇女自拍偷自拍亚洲精品| 日韩精品无码免费专网站| 欧美日韩理论| 色综合网址| 狠狠综合久久| 99久视频| 国产区精品高清在线观看| 久久久久亚洲精品成人网| 亚洲欧洲自拍拍偷午夜色无码| av在线5g无码天天| 日本高清免费不卡视频| 国产一级毛片在线| 亚洲激情99| 国产精品思思热在线| 日韩一区精品视频一区二区| 国产91丝袜在线播放动漫| 亚洲一级毛片在线播放| 久久精品国产亚洲麻豆| 欧亚日韩Av| 成人一区专区在线观看| 福利在线不卡| 日本免费精品| 国产在线精品美女观看| 色一情一乱一伦一区二区三区小说| 91精品亚洲| 高清欧美性猛交XXXX黑人猛交| 免费国产高清精品一区在线| 亚洲国产精品日韩欧美一区| 免费99精品国产自在现线| 国产亚洲精品无码专| 九九热视频在线免费观看| 亚洲视频二| 欧美国产三级| 亚洲最猛黑人xxxx黑人猛交| 国产免费精彩视频| 精品成人免费自拍视频| a级毛片免费网站| 三级毛片在线播放| 亚洲精品国产精品乱码不卞| 国产在线精彩视频论坛| 亚洲高清中文字幕在线看不卡| 一本大道无码日韩精品影视| 欧美区一区二区三| 一级毛片中文字幕| av免费在线观看美女叉开腿| 久久精品午夜视频| 天天综合网亚洲网站| 日本三级欧美三级| 最新痴汉在线无码AV| 九九热精品视频在线| 97se亚洲| 久久天天躁狠狠躁夜夜2020一| 亚洲码一区二区三区| 国产视频只有无码精品| 亚洲成人黄色在线| 黄色一级视频欧美| 国产精品女在线观看| 综合天天色| 免费久久一级欧美特大黄| 台湾AV国片精品女同性| 欧美高清国产| 日韩欧美中文字幕一本| 亚洲国产AV无码综合原创| 国产精品无码久久久久AV| 免费无码AV片在线观看国产| 国产视频a| 国产h视频在线观看视频| 国产网友愉拍精品视频| 19国产精品麻豆免费观看|