祖力克爾江 艾孜海爾江 艾孜爾古麗


摘要:該文主要研究雙語平行詞匯語料庫為目的研究翻譯插件技術及方法,并進行探討。首先陳述雙語平行語料庫構建進展和研究技術及方法;其次介紹漢語語料形成方法;探索通過引入API翻譯插件完成讀取一翻譯一寫入的語料詞匯翻譯對齊工作,并通過人工校正后生成漢維詞典;最后通過實驗,分析方法的可行性和可靠性。
關鍵詞:雙語;詞匯;翻譯技術;雙語詞典
中圖分類號:TP18 文獻標識碼:A
文章編號:1009-3044(2020)06-0202-03
在“人工智能”“大數據處理”領域開展自然語言處理工作對大量對雙語資源庫和語言知識庫的需求越來越大,對資源知識庫的構建工作越來越重視。在現實生活中語言成為我們交流發展之間最大的障礙,這個問題在社會交流過程中尤為突出,影響人們的生活、學習、工作。為解決語言溝通問題,就需要一個可靠的漢語一維吾爾語機器翻譯系統,完成這樣一個完整的漢語維吾爾語翻譯系統就需要大量的基礎工作作為支撐,漢語一維吾爾語雙語資源構建對漢維機器翻譯起了重要作用。本文的主要工作就是研究漢語一維吾爾語機器翻譯系統的基礎部分之一——漢語一維吾爾語雙語資源庫的構建。
目前國內隨著統計機器翻譯的發展,多種不同的翻譯方法相繼被提出:基于詞的翻譯模型,基于短語的翻譯模型,基于形式句法的翻譯模型,基于句法的翻譯模型等。本文采用目前工業界和學術界中廣泛使用的層次短語模型(基于形式句法)。在統計機器翻譯過程中,詞語對齊為機器翻譯的關鍵。詞語對齊利用大量雙語平行句對,依靠無監督的統計信息,自動對雙語平行句對進行詞對齊。常用的工具為根據IBMmode實現的GIZAG++。不管使用什么方都法離不開詞對齊資源的支持。真實語料需要經分析和處理,才能成為有用的資源。世界上第一個網絡檢索工具Web Crawler于1994年誕生,目前家喻戶曉的主流搜索引擎有Google、Baidu、搜狗和LiveSearch等。為了獲取雙語平行語料,一個最重要的條件是有雙語知識,也可以理解為雙語互譯詞信息,雙語互譯詞是一個寶貴的資源,因此本文重點研究雙語詞典的獲取技術問題。
本研究采用網絡爬蟲技術、網頁正文提取技術、文本預處理技術等文本采集和加工技術,開展雙語語言資源獲取。除了對齊技術、術語提取技術等外,還有文本分類技術、去重技術、句子邊界識別等技術,服務于語言資源知識庫建設。該成果將在自然語言理解、機器翻譯、人工智能、大數據分析、語言模型構造等方面廣泛應用。
本研究選擇網絡媒體語料作為漢語詞匯資源庫語料,使用Python編程工具快速有效地生成漢語一維吾爾語對照詞表,并經過后期人工校對,形成漢語一維吾爾語雙語詞匯資源庫。對后期的漢語維吾爾語機器翻譯系統開發奠定基礎,這對學習國語也有很大的幫助,提高其交流水平,以減少溝通障礙。因此,構建漢語維吾爾語詞匯雙語資源庫具有重要意義,服務于決勝全面建成小康社會,實現最偉大的夢想。
1漢維雙語文本語料獲取技術研究
1.1語料獲取
在雙語平行詞匯語料庫構建過程中,為建設漢一維雙語詞匯資源庫,利用Scrapy爬蟲框架爬取“天山網”(網絡媒體語料)中的漢語語料,通過漢語分詞處理系統形成大量漢語詞匯語料庫。
1.2語料預處理
處理初始語料遇到以下幾種問題,
(1)編碼問題,根據不同情況會遇到漢語語料的編碼格式問題,主要是uff-8與gbk直接的相互轉換,這個問題讀取和寫入時用python代碼來處理。
(2)替換某些特定字符,需要替換字符的時候使用自己編寫腳本進行替換。
(3)去除數據中不是文本的部分,主要是針對爬蟲收集的語料數據,由于爬下來的內容中有很多html的標簽,需要刪除這些標簽。對爬取的頁面用X-path來進行頁面分析提取題目,作者,發布時間,正文。提取的文本里有少量的標點符號,這些多余的標點符號則用正則表達式刪除。
2翻譯插件技術研究
2.1研究思路
隨著社會發展,特別是科學、互聯網信息的快速增長,人們的生活、工作及學習方式逐步適應新的生活、工作、學習方式,現有的雙語對照標準詞匯資源庫,靠人工處理不能滿足人民生活、工作及學習需求。為了適應人民現代生活、工作及學習需求,為了利用好互聯網資源,本文研究翻譯插件技術,自動、動態的增加雙語對照標準詞匯資源庫的詞匯,滿足人民不斷產生的新時代生活、工作、學習需求。
首先使用自己開發的爬蟲軟件收集漢語網絡媒體文本語料,再進行預處理,以文本形式保存,并構建漢語文本電子語料庫;其次利用漢語通用的分詞軟件,對文本進行分詞,構建漢語單語詞匯表;通過翻譯插件技術,構建漢維雙語對照動態標準詞匯資源庫。
2.2翻譯器模型
隨著機器翻譯技術的興起,市面上出現了大量具有不同功能、適應不同環境、滿足不同需求的詞典或翻譯軟件,其中應用比較廣泛的有谷歌翻譯、有道翻譯、百度翻譯。三大主流翻譯軟件都為用戶提供了免費或有償的應用程序接口(API),這三種翻譯工具除了應用環境不同以外,所包含的語言數量也不同。谷歌翻譯包含語言種類有104種,有道翻譯包含語言種類有23種,百度翻譯包含語言種類28種,其中有道翻譯和百度翻譯所包含語種多為國際主流語言,而谷歌翻譯除了主流語言以外還包括了許多非主流語言,這就為許多語言研究者提供了便利,研究者可以通過調用翻譯插件快速處理問題。本文主要研究基于翻譯插件的漢語一維吾爾語的雙語詞匯資源庫構建技術。
本次研究核心算法主要是通過循環依次讀取語料詞匯表中的已處理詞匯;然后通過引入的互聯網搜索引擎技術搜索符合翻譯需求的資源;通過翻譯插件翻譯,對讀取詞匯依次翻譯生成翻譯結果,其中這一翻譯過程,為防止出現因訪問頻繁而導致翻譯失敗或禁止翻譯,采用詞匯階段方法,在每個階段翻譯結束后使翻譯程序強制調整,調整結束后再進入下一個階段的詞匯翻譯;最后將翻譯生成結果,通過正則表達式獲取正確翻譯結果,并依次輸入到其對應詞匯的下一列單元格。其構建模型如圖1所示。
2.3翻譯器的實現
構建對齊雙語詞匯庫流程:按順序在漢語詞匯表中讀取詞匯;將讀取內容利用程序調用搜索引擎模塊,搜索對應的API翻譯插件對齊翻譯;將翻譯結果寫入詞匯表中與翻譯內容對齊位置,構建對齊雙語語料。由上述方法構建而成的對齊雙語詞匯庫實例結果如表1所示。
在完成自動生成漢維對照詞表的過程中,所遇到并需要解決的問題主要集中在數據從讀到翻譯再到寫入方法的實現上。首先是對表格的讀取,通過讀取表格方法讀取表格數據,寫人數據到表格;其次是完成翻譯過程,翻譯過程主要采用的是引入搜索引擎找到需要的API翻譯插件,通過編程模仿用戶進行翻譯行為,并獲取翻譯結果。具體實驗中發現,翻譯過程中出現翻譯過于頻繁導致翻譯中斷或主機被禁。針對這個問題,采用大規模詞匯翻譯時利用分段處理方法詞匯翻譯為一個階段,每個階段之間強制程序睡眠一段時間。通過反復實驗,積累經驗基礎上,翻譯過程中采用50個詞匯為一個翻譯階段,每個階段時間間隔為30秒的實驗策略,可以達到快速穩定地自動生成對照詞表的效果。
3實驗分析
本文使用的語料來源主要是“網站新聞”媒體中爬取的漢語語料,經過公開的分詞軟件來進行分詞,并構建詞匯語料庫。本文以20萬種詞匯作為實驗對象,進行實驗。詞匯翻譯率85%以上,翻譯正確率75%左右,達到預期研究效果。在研究中發現了以下這個問題。
(1)語料來源的動態性。由于本文使用的語料來源“網站新聞”媒體,更新速度快,靜態翻譯平臺無法適應產生的新詞匯,影響翻譯率的提高。
(2)翻譯平臺提供的資源有限。由于是從網絡媒體上爬下來,會出現一定規模的未登錄詞,影響翻譯率的提高。
(3)翻譯平臺提供的資源中具有一個詞匯多種翻譯的現象,導致翻譯正確率不太高。
中英平行語料對齊技術以及機器翻譯技術相對成熟。在進一步研究漢語一維吾爾語平行語料庫以及機器翻譯時,可以借鑒這些成果,采取多種方法,使用智能技術手段提升漢語一維吾爾語平行語料庫及機器翻譯質量。