999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于翻譯API的HSK漢-烏平行詞庫構建方法研究

2021-07-19 22:31:01胡創業黃欣欣
電腦知識與技術 2021年14期

胡創業 黃欣欣

摘要:該文介紹了如何利用翻譯API技術構建HSK漢語-烏茲別克語平行詞庫的關鍵技術和方法,采用基于翻譯API技術對HSK漢語詞匯完成自動有效的翻譯對齊工作,實現HSK漢-烏平行詞庫的構建目標。并通過兩種方法對平行詞庫完成擴充,最后對未完成對齊的詞匯進行人工近義詞校對,使HSK平行詞庫趨于完善。

關鍵詞:翻譯API;HSK;平行詞庫;對齊;擴充

中圖分類號:TP311? ? ? 文獻標識碼:A

文章編號:1009-3044(2021)14-0201-03

Abstract: This article introduces the key technologies and methods of how to use the translation API technology to build the HSK Chinese-Uzbek parallel thesaurus. The translation API technology is used to complete the automatic and effective translation alignment of HSK Chinese vocabulary to achieve the construction goal of the HSK Chinese-Uzbek parallel thesis. The parallel thesaurus is expanded by two methods. Finally, artificial synonym proofreading is performed on the incompletely aligned words to make the HSK parallel thesaurus perfect.

Key words: translation API; HSK; parallel thesaurus; alignment; expansion

1 背景

平行語料庫是同一含義不同語言對齊所組成的語料資源,對機器翻譯研究具有重要作用和意義[1-2]。目前在國內研究構建漢語-烏茲別克語對齊語料庫的技術外均相對較少,本文將主要介紹漢-烏雙語對齊語料庫構建技術研究,此研究能為漢-烏機器翻譯技術研究者提供語料基礎,具有一定的學術價值與應用價值[3]。

通過對相關文獻資料調查研究發現,漢語-烏茲別克語對齊語料庫的研究仍然處在發展緩慢的初期階段[4]。國家戰略的發展要求我們國家必須加速推進漢-烏對齊語料庫的構建和技術研究[5],這項研究技術的成果會對后期的漢-烏機器翻譯研究有很大促進作用,并為中烏雙方的無障礙交流提供有效的現代信息交流工具,帶動兩國之間的經濟、文化、科技、教育等方面的交流和發展[6-7]。

本文以漢語水平考試(HSK)漢語詞匯為基礎,引出如何利用翻譯API技術自動生成漢語-烏茲別克語雙語對齊詞庫,及其相關技術、問題和實現解決技術方法。漢語水平考試(HSK)中共有1至6級漢語詞匯5000個,實驗采用翻譯API技術能夠快速有效生成漢-烏平行語料庫,并將庫中少量未完成翻譯詞匯進行人工校對,從而形成不斷完善的漢-烏平行語料詞庫。這對后期的漢-烏機器翻譯研究以及烏茲別克語使用者學習漢語都將會有很大的幫助[8-9]。

2 翻譯應用程序接口(API)的應用

隨著近幾年機器翻譯技術的興起[10],研究人員開發了各具不同功能的翻譯程序,谷歌翻譯、有道翻譯、百度翻譯是國內應用比較多的三種翻譯程序。這三種翻譯程序都有可以應用程序接口。有道翻譯和百度翻譯所包含語種多為國際主流語言,而谷歌翻譯除了主流語言以外還包括了許多非主流語言,科研人員可以通過調用翻譯應用程序接口來解決各樣功能的翻譯問題[11-12]。文中研究內容為漢語-烏茲別克語的雙語語料庫構建,參照下表1分析可知,只有谷歌翻譯包含烏茲別克語語種,所以本文采用谷歌翻譯應用程序接口。

谷歌翻譯和其他大多翻譯軟件一樣都為用戶提供API,本文主要使用的是python庫中的googletrans包,其核心思想是模擬用戶進行訪問網頁并獲取網頁內容,通過構造URL發起GET請求,得到一個JSON結果并提取翻譯內容。

3 HSK漢-烏平行詞庫構建

3.1 HSK漢語語料準備與預處理

語料準備。漢語水平考試(HSK)大綱詞匯,語料存儲格式為EXCEL表格形式,語料里面內容有漢語水平考試(HSK)考試大綱詞匯一至六級共5000個。每個詞匯后都帶有括號并標明等級,這屬于噪聲部分需要后期處理,并且一至六級詞匯都在一個表格,一次翻譯內容較多且不易分類,因此需要分為一至六級的六個表格進行分類處理。

語料預處理。去除括號及等級部分,采用表格截取公式為=LEFT(A2,FIND("(",A2)-1),其中A2表示第一列第二行單元格內容,FIND函數表示定位查找目標位置,LEFT表示從左邊開始截取,截取完成就會去除語料詞后面冗余部分,只保留語料詞的有用詞匯部分。最后,通過快速復制公式方法快速處理剩余所有詞匯。例如:原樣的格式“愛(一級)”,改為我們需要的詞匯格式“愛”。建立無帶其他附加符號的漢語詞,總共處理5000個漢語詞匯。

3.2 漢-烏對齊語料自動構建

此次實驗使用的核心思路如下,通過循環依次讀取語料詞匯表中已處理的詞匯;通過調用谷歌翻譯應用程序接口技術,根據不同翻譯環境設計翻譯模型。而在調用谷歌翻譯應用程序接口技術時,由于谷歌翻譯服務器有反爬蟲機制而不能頻繁訪問使用,因此需要通過實驗測試它的訪問最佳參數。通過如圖1所示的實驗結果分析,當翻譯每次翻譯頻次為50次、休眠時間為30秒時,為訪問谷歌翻譯服務器的最佳狀態。

語料分類。將原本集中在一張表的所有等級詞匯,按等級分類分成六張表存儲,便于分類管理以及后期使用。后期在處理過程中可以按類別分批處理,彼此類別之間不會相互影響。最后通過整理分類得出完整的對照語料庫,以六級詞匯為例如圖2所示。

從上圖我們可以看出大部分HSK漢語詞匯均可有效地翻譯并寫入表中,部分詞匯第三方軟件無法識別翻譯,如上圖中的“曖昧”一詞,這是中國漢語中比較形象的一個詞匯,但國外可能無法理解其含義,因此需要找到它的近義詞如“含糊”,進行再次翻譯并人工校正。

4 HSK漢-烏平行詞庫擴充

4.1 基于烏茲別克語語料的HSK詞庫擴充

1)語料預處理。對于直接從烏茲別克語網站上爬取的烏茲別克語語料,里面帶有很多垃圾語料和噪聲語料,如網頁結構標簽、數字、網頁鏈接以及符號等等,整理收集后分類如下表2所示,如果不對其進行預處理除雜,將會對后期實驗產生很大影響。

2)分詞去重。通過對預處理語料分詞后共得到大小共14M的烏語詞語料文檔,經過分詞處理后共計得到1512129條詞匯。文檔中有大量重復詞語,需采用文檔去重技術對詞語料文檔進行去重。使用去重工具,將列表中重復項去掉,最終得到的去重詞表通過循環寫入表中,共計得到不重復烏茲別克語詞條共計11054條,我們這里定義其為新詞庫。

3)新詞庫的平行詞庫構建。

上述所得到的是按順序排列且不重復的烏茲別克語新詞庫,這里仍然使用基于翻譯API技術的詞對齊語料庫的構建方法實現新詞庫的平行詞庫的構建,具體實現模型如圖3所示。

5 結束語

本文首先介紹了翻譯API技術的相關應用,并利用此項技術完成對HSK漢-烏平行詞庫的自動構建。但HSK詞庫中的詞匯是比較常用詞匯,并不能完整涵蓋所有詞匯,因此還有很大的擴展空間。而對于HSK詞庫的擴充本文采用了兩種方法,一種方法是結合所構建的漢-烏平行語料庫中的平行詞庫,以烏茲別克語詞匯為基準對照HSK詞庫進行對照擴充;另一種方法是結合漢語詞典對HSK詞庫進行擴充。這兩種HSK詞庫擴充方法各有優缺點,基于烏茲別克語語料的HSK詞庫擴充方法所擴充新詞都是基于烏茲別克語詞匯,基本上都能找到其對應的平行漢語詞匯;而基于漢語詞典的HSK詞庫擴充方法的擴充規模較大,但其擴充新詞中會存在一定量的詞匯無法找到對應的平行烏茲別克語詞匯。兩種擴充方法的優缺點具有互補的特性,因此將兩種方法結合起來對HSK詞庫進行擴充可以達到很好的效果。

參考文獻:

[1] 蘭彩玉.中藥漢英雙語平行語料庫的設計及構建[J].亞太傳統醫藥,2014,10(8):1-3.

[2] 房璐.英漢可比較語料庫的構建與應用研究[D].蘇州:蘇州大學,2011.

[3] 阿西穆·托合提.維吾爾語-烏茲別克語機器翻譯研究[D].烏魯木齊:新疆大學,2017.

[4] 徐雄飛.大中華區詞對齊自動抽取研究[D].南昌:江西師范大學,2016.

[5] 李哲.俄漢-漢俄平行語料庫建設與研制的迫切性及應用價值[J].文學教育(下),2018(1):90-91.

[6] Tao Deng.Correspondence Analysis of English-Chinese Contrast Relationship and Adverbial Module in the Construction of Parallel Translation Corpus[C]//Institute of Management Science and Industrial Engineering.Proceedings of 2018 4th International Conference on Education,Management and Information Technology(ICEMIT 2018).Institute of Management Science and Industrial Engineering:Computer Science and Electronic Technology International Society,2018:4.

[7] 沈韻,張煉.基于平行語料庫的計算機輔助翻譯軟件在翻譯教學中的應用——以雪人CAT軟件為例[C]//外語教育與翻譯發展創新研究(第七卷),2018:254-257.

[8] Lihua Sun.Teaching Design for Translation Based on English-Chinese Parallel Corpus[C]//Singapore Management and Sports Science Institute,Singapore\International Communication Sciences Association, Hong Kong.Proceedings of 2017 2nd EBMEI International Conference on Education,Information and Management (EBMEI-EIM 2017).Singapore Management and Sports Science Institute,Singapore\International Communication Sciences Association,Hong Kong:智能信息技術應用學會,2017:4.

[9] Levshina N.A multivariate study of T/V forms in European languages based on a parallel corpus of film subtitles[J].Research in Language,2017,15(2):153-172.

[10] 劉克強.基于平行語料庫的莫言小說英譯特征研究[C]//外語教育與翻譯發展創新研究(第六卷),2017:236-241.

[11] Afolabi S.Translation and interpretation market needs analysis:towards optimizing professional translator and interpreter training in Nigeria[J].The Interpreter and Translator Trainer,2019,13(1):104-106.

[12] Nú?ez J L,Bola?os-Medina A.Predictors of problem-solving in translation:implications for translator training[J].The Interpreter and Translator Trainer,2018,12(3):282-298.

【通聯編輯:謝媛媛】

主站蜘蛛池模板: 白浆免费视频国产精品视频| 久久五月视频| 欧美日韩另类国产| 国产主播一区二区三区| 久久婷婷六月| 在线观看国产网址你懂的| 免费无遮挡AV| 亚洲视频在线观看免费视频| 99国产精品免费观看视频| 国产美女91呻吟求| 久久综合色天堂av| 欧美精品1区| 99久久国产综合精品女同| 一级香蕉人体视频| 国产在线精品99一区不卡| 欧美一区福利| 国产99视频精品免费观看9e| 99er这里只有精品| 四虎永久在线| 午夜激情婷婷| 99久久精彩视频| 区国产精品搜索视频| 欧美视频在线观看第一页| 欧美三级视频网站| 97精品伊人久久大香线蕉| 中文字幕亚洲综久久2021| 青青热久麻豆精品视频在线观看| 91探花国产综合在线精品| 国产高清不卡| 国产香蕉97碰碰视频VA碰碰看| 欧美黄网在线| 久久久久亚洲AV成人网站软件| 亚洲天堂视频在线观看免费| 亚洲精品视频免费| 亚洲美女高潮久久久久久久| 亚洲看片网| 久久动漫精品| AV不卡国产在线观看| 一区二区三区高清视频国产女人| 亚洲天堂在线视频| 亚洲欧美h| 亚洲精品波多野结衣| 91av国产在线| 亚洲第一区欧美国产综合 | 国产在线精彩视频二区| 国产精品久久久久无码网站| 亚洲色图在线观看| 久久中文字幕2021精品| 一本色道久久88综合日韩精品| 国产精品自在在线午夜| 国产美女精品一区二区| 97视频精品全国在线观看| 欧洲亚洲一区| 99re在线免费视频| 大香伊人久久| 久久五月视频| 亚洲日韩第九十九页| 国产一二视频| 欧美综合一区二区三区| 亚洲天堂在线免费| 成人一区专区在线观看| 亚洲人成人伊人成综合网无码| 国产欧美日韩在线在线不卡视频| 国产精品无码久久久久久| 丝袜高跟美脚国产1区| 青青草国产免费国产| 亚洲天堂网2014| 视频国产精品丝袜第一页| 在线观看免费人成视频色快速| 国产午夜精品鲁丝片| 色爽网免费视频| 亚洲第一区欧美国产综合| 国内精品久久九九国产精品| 国产交换配偶在线视频| 91色老久久精品偷偷蜜臀| 无码在线激情片| 午夜啪啪网| 亚洲综合片| 日韩麻豆小视频| 国产麻豆精品手机在线观看| 亚洲一区国色天香| 欧美一区二区人人喊爽|