漢維雙語平行詞匯語料庫構(gòu)建技術(shù)研究

2020-04-22 20:36:14祖力克爾江艾孜海爾江艾孜爾古麗

電腦知識與技術(shù) 2020年6期

關(guān)鍵詞：詞匯

祖力克爾江艾孜海爾江艾孜爾古麗

摘要：該文主要研究雙語平行詞匯語料庫為目的研究翻譯插件技術(shù)及方法，并進行探討。首先陳述雙語平行語料庫構(gòu)建進展和研究技術(shù)及方法;其次介紹漢語語料形成方法;探索通過引入API翻譯插件完成讀取一翻譯一寫入的語料詞匯翻譯對齊工作，并通過人工校正后生成漢維詞典;最后通過實驗，分析方法的可行性和可靠性。

關(guān)鍵詞：雙語;詞匯;翻譯技術(shù);雙語詞典

中圖分類號：TP18 文獻標識碼：A

文章編號：1009-3044（2020）06-0202-03

在“人工智能”“大數(shù)據(jù)處理”領(lǐng)域開展自然語言處理工作對大量對雙語資源庫和語言知識庫的需求越來越大，對資源知識庫的構(gòu)建工作越來越重視。在現(xiàn)實生活中語言成為我們交流發(fā)展之間最大的障礙，這個問題在社會交流過程中尤為突出，影響人們的生活、學(xué)習(xí)、工作。為解決語言溝通問題，就需要一個可靠的漢語一維吾爾語機器翻譯系統(tǒng)，完成這樣一個完整的漢語維吾爾語翻譯系統(tǒng)就需要大量的基礎(chǔ)工作作為支撐，漢語一維吾爾語雙語資源構(gòu)建對漢維機器翻譯起了重要作用。本文的主要工作就是研究漢語一維吾爾語機器翻譯系統(tǒng)的基礎(chǔ)部分之一——漢語一維吾爾語雙語資源庫的構(gòu)建。

目前國內(nèi)隨著統(tǒng)計機器翻譯的發(fā)展，多種不同的翻譯方法相繼被提出：基于詞的翻譯模型，基于短語的翻譯模型，基于形式句法的翻譯模型，基于句法的翻譯模型等。本文采用目前工業(yè)界和學(xué)術(shù)界中廣泛使用的層次短語模型（基于形式句法）。在統(tǒng)計機器翻譯過程中，詞語對齊為機器翻譯的關(guān)鍵。詞語對齊利用大量雙語平行句對，依靠無監(jiān)督的統(tǒng)計信息，自動對雙語平行句對進行詞對齊。常用的工具為根據(jù)IBMmode實現(xiàn)的GIZAG++。不管使用什么方都法離不開詞對齊資源的支持。真實語料需要經(jīng)分析和處理，才能成為有用的資源。世界上第一個網(wǎng)絡(luò)檢索工具Web Crawler于1994年誕生，目前家喻戶曉的主流搜索引擎有Google、Baidu、搜狗和LiveSearch等。為了獲取雙語平行語料，一個最重要的條件是有雙語知識，也可以理解為雙語互譯詞信息，雙語互譯詞是一個寶貴的資源，因此本文重點研究雙語詞典的獲取技術(shù)問題。

本研究采用網(wǎng)絡(luò)爬蟲技術(shù)、網(wǎng)頁正文提取技術(shù)、文本預(yù)處理技術(shù)等文本采集和加工技術(shù)，開展雙語語言資源獲取。除了對齊技術(shù)、術(shù)語提取技術(shù)等外，還有文本分類技術(shù)、去重技術(shù)、句子邊界識別等技術(shù)，服務(wù)于語言資源知識庫建設(shè)。該成果將在自然語言理解、機器翻譯、人工智能、大數(shù)據(jù)分析、語言模型構(gòu)造等方面廣泛應(yīng)用。

本研究選擇網(wǎng)絡(luò)媒體語料作為漢語詞匯資源庫語料，使用Python編程工具快速有效地生成漢語一維吾爾語對照詞表，并經(jīng)過后期人工校對，形成漢語一維吾爾語雙語詞匯資源庫。對后期的漢語維吾爾語機器翻譯系統(tǒng)開發(fā)奠定基礎(chǔ)，這對學(xué)習(xí)國語也有很大的幫助，提高其交流水平，以減少溝通障礙。因此，構(gòu)建漢語維吾爾語詞匯雙語資源庫具有重要意義，服務(wù)于決勝全面建成小康社會，實現(xiàn)最偉大的夢想。

1漢維雙語文本語料獲取技術(shù)研究

1.1語料獲取

在雙語平行詞匯語料庫構(gòu)建過程中，為建設(shè)漢一維雙語詞匯資源庫，利用Scrapy爬蟲框架爬取“天山網(wǎng)”（網(wǎng)絡(luò)媒體語料）中的漢語語料，通過漢語分詞處理系統(tǒng)形成大量漢語詞匯語料庫。

1.2語料預(yù)處理

處理初始語料遇到以下幾種問題，

（1）編碼問題，根據(jù)不同情況會遇到漢語語料的編碼格式問題，主要是uff-8與gbk直接的相互轉(zhuǎn)換，這個問題讀取和寫入時用python代碼來處理。

（2）替換某些特定字符，需要替換字符的時候使用自己編寫腳本進行替換。

（3）去除數(shù)據(jù)中不是文本的部分，主要是針對爬蟲收集的語料數(shù)據(jù)，由于爬下來的內(nèi)容中有很多html的標簽，需要刪除這些標簽。對爬取的頁面用X-path來進行頁面分析提取題目，作者，發(fā)布時間，正文。提取的文本里有少量的標點符號，這些多余的標點符號則用正則表達式刪除。

2翻譯插件技術(shù)研究

2.1研究思路

隨著社會發(fā)展，特別是科學(xué)、互聯(lián)網(wǎng)信息的快速增長，人們的生活、工作及學(xué)習(xí)方式逐步適應(yīng)新的生活、工作、學(xué)習(xí)方式，現(xiàn)有的雙語對照標準詞匯資源庫，靠人工處理不能滿足人民生活、工作及學(xué)習(xí)需求。為了適應(yīng)人民現(xiàn)代生活、工作及學(xué)習(xí)需求，為了利用好互聯(lián)網(wǎng)資源，本文研究翻譯插件技術(shù)，自動、動態(tài)的增加雙語對照標準詞匯資源庫的詞匯，滿足人民不斷產(chǎn)生的新時代生活、工作、學(xué)習(xí)需求。

首先使用自己開發(fā)的爬蟲軟件收集漢語網(wǎng)絡(luò)媒體文本語料，再進行預(yù)處理，以文本形式保存，并構(gòu)建漢語文本電子語料庫;其次利用漢語通用的分詞軟件，對文本進行分詞，構(gòu)建漢語單語詞匯表;通過翻譯插件技術(shù)，構(gòu)建漢維雙語對照動態(tài)標準詞匯資源庫。

2.2翻譯器模型

隨著機器翻譯技術(shù)的興起，市面上出現(xiàn)了大量具有不同功能、適應(yīng)不同環(huán)境、滿足不同需求的詞典或翻譯軟件，其中應(yīng)用比較廣泛的有谷歌翻譯、有道翻譯、百度翻譯。三大主流翻譯軟件都為用戶提供了免費或有償?shù)膽?yīng)用程序接口（API），這三種翻譯工具除了應(yīng)用環(huán)境不同以外，所包含的語言數(shù)量也不同。谷歌翻譯包含語言種類有104種，有道翻譯包含語言種類有23種，百度翻譯包含語言種類28種，其中有道翻譯和百度翻譯所包含語種多為國際主流語言，而谷歌翻譯除了主流語言以外還包括了許多非主流語言，這就為許多語言研究者提供了便利，研究者可以通過調(diào)用翻譯插件快速處理問題。本文主要研究基于翻譯插件的漢語一維吾爾語的雙語詞匯資源庫構(gòu)建技術(shù)。

本次研究核心算法主要是通過循環(huán)依次讀取語料詞匯表中的已處理詞匯;然后通過引入的互聯(lián)網(wǎng)搜索引擎技術(shù)搜索符合翻譯需求的資源;通過翻譯插件翻譯，對讀取詞匯依次翻譯生成翻譯結(jié)果，其中這一翻譯過程，為防止出現(xiàn)因訪問頻繁而導(dǎo)致翻譯失敗或禁止翻譯，采用詞匯階段方法，在每個階段翻譯結(jié)束后使翻譯程序強制調(diào)整，調(diào)整結(jié)束后再進入下一個階段的詞匯翻譯;最后將翻譯生成結(jié)果，通過正則表達式獲取正確翻譯結(jié)果，并依次輸入到其對應(yīng)詞匯的下一列單元格。其構(gòu)建模型如圖1所示。

2.3翻譯器的實現(xiàn)

構(gòu)建對齊雙語詞匯庫流程：按順序在漢語詞匯表中讀取詞匯;將讀取內(nèi)容利用程序調(diào)用搜索引擎模塊，搜索對應(yīng)的API翻譯插件對齊翻譯;將翻譯結(jié)果寫入詞匯表中與翻譯內(nèi)容對齊位置，構(gòu)建對齊雙語語料。由上述方法構(gòu)建而成的對齊雙語詞匯庫實例結(jié)果如表1所示。

在完成自動生成漢維對照詞表的過程中，所遇到并需要解決的問題主要集中在數(shù)據(jù)從讀到翻譯再到寫入方法的實現(xiàn)上。首先是對表格的讀取，通過讀取表格方法讀取表格數(shù)據(jù)，寫人數(shù)據(jù)到表格;其次是完成翻譯過程，翻譯過程主要采用的是引入搜索引擎找到需要的API翻譯插件，通過編程模仿用戶進行翻譯行為，并獲取翻譯結(jié)果。具體實驗中發(fā)現(xiàn)，翻譯過程中出現(xiàn)翻譯過于頻繁導(dǎo)致翻譯中斷或主機被禁。針對這個問題，采用大規(guī)模詞匯翻譯時利用分段處理方法詞匯翻譯為一個階段，每個階段之間強制程序睡眠一段時間。通過反復(fù)實驗，積累經(jīng)驗基礎(chǔ)上，翻譯過程中采用50個詞匯為一個翻譯階段，每個階段時間間隔為30秒的實驗策略，可以達到快速穩(wěn)定地自動生成對照詞表的效果。

3實驗分析

本文使用的語料來源主要是“網(wǎng)站新聞”媒體中爬取的漢語語料，經(jīng)過公開的分詞軟件來進行分詞，并構(gòu)建詞匯語料庫。本文以20萬種詞匯作為實驗對象，進行實驗。詞匯翻譯率85%以上，翻譯正確率75%左右，達到預(yù)期研究效果。在研究中發(fā)現(xiàn)了以下這個問題。

（1）語料來源的動態(tài)性。由于本文使用的語料來源“網(wǎng)站新聞”媒體，更新速度快，靜態(tài)翻譯平臺無法適應(yīng)產(chǎn)生的新詞匯，影響翻譯率的提高。

（2）翻譯平臺提供的資源有限。由于是從網(wǎng)絡(luò)媒體上爬下來，會出現(xiàn)一定規(guī)模的未登錄詞，影響翻譯率的提高。

（3）翻譯平臺提供的資源中具有一個詞匯多種翻譯的現(xiàn)象，導(dǎo)致翻譯正確率不太高。

中英平行語料對齊技術(shù)以及機器翻譯技術(shù)相對成熟。在進一步研究漢語一維吾爾語平行語料庫以及機器翻譯時，可以借鑒這些成果，采取多種方法，使用智能技術(shù)手段提升漢語一維吾爾語平行語料庫及機器翻譯質(zhì)量。