999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于翻譯API的HSK漢-烏平行詞庫構(gòu)建方法研究

2021-07-19 22:31:01胡創(chuàng)業(yè)黃欣欣
電腦知識與技術(shù) 2021年14期

胡創(chuàng)業(yè) 黃欣欣

摘要:該文介紹了如何利用翻譯API技術(shù)構(gòu)建HSK漢語-烏茲別克語平行詞庫的關(guān)鍵技術(shù)和方法,采用基于翻譯API技術(shù)對HSK漢語詞匯完成自動有效的翻譯對齊工作,實現(xiàn)HSK漢-烏平行詞庫的構(gòu)建目標。并通過兩種方法對平行詞庫完成擴充,最后對未完成對齊的詞匯進行人工近義詞校對,使HSK平行詞庫趨于完善。

關(guān)鍵詞:翻譯API;HSK;平行詞庫;對齊;擴充

中圖分類號:TP311? ? ? 文獻標識碼:A

文章編號:1009-3044(2021)14-0201-03

Abstract: This article introduces the key technologies and methods of how to use the translation API technology to build the HSK Chinese-Uzbek parallel thesaurus. The translation API technology is used to complete the automatic and effective translation alignment of HSK Chinese vocabulary to achieve the construction goal of the HSK Chinese-Uzbek parallel thesis. The parallel thesaurus is expanded by two methods. Finally, artificial synonym proofreading is performed on the incompletely aligned words to make the HSK parallel thesaurus perfect.

Key words: translation API; HSK; parallel thesaurus; alignment; expansion

1 背景

平行語料庫是同一含義不同語言對齊所組成的語料資源,對機器翻譯研究具有重要作用和意義[1-2]。目前在國內(nèi)研究構(gòu)建漢語-烏茲別克語對齊語料庫的技術(shù)外均相對較少,本文將主要介紹漢-烏雙語對齊語料庫構(gòu)建技術(shù)研究,此研究能為漢-烏機器翻譯技術(shù)研究者提供語料基礎(chǔ),具有一定的學術(shù)價值與應用價值[3]。

通過對相關(guān)文獻資料調(diào)查研究發(fā)現(xiàn),漢語-烏茲別克語對齊語料庫的研究仍然處在發(fā)展緩慢的初期階段[4]。國家戰(zhàn)略的發(fā)展要求我們國家必須加速推進漢-烏對齊語料庫的構(gòu)建和技術(shù)研究[5],這項研究技術(shù)的成果會對后期的漢-烏機器翻譯研究有很大促進作用,并為中烏雙方的無障礙交流提供有效的現(xiàn)代信息交流工具,帶動兩國之間的經(jīng)濟、文化、科技、教育等方面的交流和發(fā)展[6-7]。

本文以漢語水平考試(HSK)漢語詞匯為基礎(chǔ),引出如何利用翻譯API技術(shù)自動生成漢語-烏茲別克語雙語對齊詞庫,及其相關(guān)技術(shù)、問題和實現(xiàn)解決技術(shù)方法。漢語水平考試(HSK)中共有1至6級漢語詞匯5000個,實驗采用翻譯API技術(shù)能夠快速有效生成漢-烏平行語料庫,并將庫中少量未完成翻譯詞匯進行人工校對,從而形成不斷完善的漢-烏平行語料詞庫。這對后期的漢-烏機器翻譯研究以及烏茲別克語使用者學習漢語都將會有很大的幫助[8-9]。

2 翻譯應用程序接口(API)的應用

隨著近幾年機器翻譯技術(shù)的興起[10],研究人員開發(fā)了各具不同功能的翻譯程序,谷歌翻譯、有道翻譯、百度翻譯是國內(nèi)應用比較多的三種翻譯程序。這三種翻譯程序都有可以應用程序接口。有道翻譯和百度翻譯所包含語種多為國際主流語言,而谷歌翻譯除了主流語言以外還包括了許多非主流語言,科研人員可以通過調(diào)用翻譯應用程序接口來解決各樣功能的翻譯問題[11-12]。文中研究內(nèi)容為漢語-烏茲別克語的雙語語料庫構(gòu)建,參照下表1分析可知,只有谷歌翻譯包含烏茲別克語語種,所以本文采用谷歌翻譯應用程序接口。

谷歌翻譯和其他大多翻譯軟件一樣都為用戶提供API,本文主要使用的是python庫中的googletrans包,其核心思想是模擬用戶進行訪問網(wǎng)頁并獲取網(wǎng)頁內(nèi)容,通過構(gòu)造URL發(fā)起GET請求,得到一個JSON結(jié)果并提取翻譯內(nèi)容。

3 HSK漢-烏平行詞庫構(gòu)建

3.1 HSK漢語語料準備與預處理

語料準備。漢語水平考試(HSK)大綱詞匯,語料存儲格式為EXCEL表格形式,語料里面內(nèi)容有漢語水平考試(HSK)考試大綱詞匯一至六級共5000個。每個詞匯后都帶有括號并標明等級,這屬于噪聲部分需要后期處理,并且一至六級詞匯都在一個表格,一次翻譯內(nèi)容較多且不易分類,因此需要分為一至六級的六個表格進行分類處理。

語料預處理。去除括號及等級部分,采用表格截取公式為=LEFT(A2,F(xiàn)IND("(",A2)-1),其中A2表示第一列第二行單元格內(nèi)容,F(xiàn)IND函數(shù)表示定位查找目標位置,LEFT表示從左邊開始截取,截取完成就會去除語料詞后面冗余部分,只保留語料詞的有用詞匯部分。最后,通過快速復制公式方法快速處理剩余所有詞匯。例如:原樣的格式“愛(一級)”,改為我們需要的詞匯格式“愛”。建立無帶其他附加符號的漢語詞,總共處理5000個漢語詞匯。

3.2 漢-烏對齊語料自動構(gòu)建

此次實驗使用的核心思路如下,通過循環(huán)依次讀取語料詞匯表中已處理的詞匯;通過調(diào)用谷歌翻譯應用程序接口技術(shù),根據(jù)不同翻譯環(huán)境設(shè)計翻譯模型。而在調(diào)用谷歌翻譯應用程序接口技術(shù)時,由于谷歌翻譯服務(wù)器有反爬蟲機制而不能頻繁訪問使用,因此需要通過實驗測試它的訪問最佳參數(shù)。通過如圖1所示的實驗結(jié)果分析,當翻譯每次翻譯頻次為50次、休眠時間為30秒時,為訪問谷歌翻譯服務(wù)器的最佳狀態(tài)。

語料分類。將原本集中在一張表的所有等級詞匯,按等級分類分成六張表存儲,便于分類管理以及后期使用。后期在處理過程中可以按類別分批處理,彼此類別之間不會相互影響。最后通過整理分類得出完整的對照語料庫,以六級詞匯為例如圖2所示。

從上圖我們可以看出大部分HSK漢語詞匯均可有效地翻譯并寫入表中,部分詞匯第三方軟件無法識別翻譯,如上圖中的“曖昧”一詞,這是中國漢語中比較形象的一個詞匯,但國外可能無法理解其含義,因此需要找到它的近義詞如“含糊”,進行再次翻譯并人工校正。

4 HSK漢-烏平行詞庫擴充

4.1 基于烏茲別克語語料的HSK詞庫擴充

1)語料預處理。對于直接從烏茲別克語網(wǎng)站上爬取的烏茲別克語語料,里面帶有很多垃圾語料和噪聲語料,如網(wǎng)頁結(jié)構(gòu)標簽、數(shù)字、網(wǎng)頁鏈接以及符號等等,整理收集后分類如下表2所示,如果不對其進行預處理除雜,將會對后期實驗產(chǎn)生很大影響。

2)分詞去重。通過對預處理語料分詞后共得到大小共14M的烏語詞語料文檔,經(jīng)過分詞處理后共計得到1512129條詞匯。文檔中有大量重復詞語,需采用文檔去重技術(shù)對詞語料文檔進行去重。使用去重工具,將列表中重復項去掉,最終得到的去重詞表通過循環(huán)寫入表中,共計得到不重復烏茲別克語詞條共計11054條,我們這里定義其為新詞庫。

3)新詞庫的平行詞庫構(gòu)建。

上述所得到的是按順序排列且不重復的烏茲別克語新詞庫,這里仍然使用基于翻譯API技術(shù)的詞對齊語料庫的構(gòu)建方法實現(xiàn)新詞庫的平行詞庫的構(gòu)建,具體實現(xiàn)模型如圖3所示。

5 結(jié)束語

本文首先介紹了翻譯API技術(shù)的相關(guān)應用,并利用此項技術(shù)完成對HSK漢-烏平行詞庫的自動構(gòu)建。但HSK詞庫中的詞匯是比較常用詞匯,并不能完整涵蓋所有詞匯,因此還有很大的擴展空間。而對于HSK詞庫的擴充本文采用了兩種方法,一種方法是結(jié)合所構(gòu)建的漢-烏平行語料庫中的平行詞庫,以烏茲別克語詞匯為基準對照HSK詞庫進行對照擴充;另一種方法是結(jié)合漢語詞典對HSK詞庫進行擴充。這兩種HSK詞庫擴充方法各有優(yōu)缺點,基于烏茲別克語語料的HSK詞庫擴充方法所擴充新詞都是基于烏茲別克語詞匯,基本上都能找到其對應的平行漢語詞匯;而基于漢語詞典的HSK詞庫擴充方法的擴充規(guī)模較大,但其擴充新詞中會存在一定量的詞匯無法找到對應的平行烏茲別克語詞匯。兩種擴充方法的優(yōu)缺點具有互補的特性,因此將兩種方法結(jié)合起來對HSK詞庫進行擴充可以達到很好的效果。

參考文獻:

[1] 蘭彩玉.中藥漢英雙語平行語料庫的設(shè)計及構(gòu)建[J].亞太傳統(tǒng)醫(yī)藥,2014,10(8):1-3.

[2] 房璐.英漢可比較語料庫的構(gòu)建與應用研究[D].蘇州:蘇州大學,2011.

[3] 阿西穆·托合提.維吾爾語-烏茲別克語機器翻譯研究[D].烏魯木齊:新疆大學,2017.

[4] 徐雄飛.大中華區(qū)詞對齊自動抽取研究[D].南昌:江西師范大學,2016.

[5] 李哲.俄漢-漢俄平行語料庫建設(shè)與研制的迫切性及應用價值[J].文學教育(下),2018(1):90-91.

[6] Tao Deng.Correspondence Analysis of English-Chinese Contrast Relationship and Adverbial Module in the Construction of Parallel Translation Corpus[C]//Institute of Management Science and Industrial Engineering.Proceedings of 2018 4th International Conference on Education,Management and Information Technology(ICEMIT 2018).Institute of Management Science and Industrial Engineering:Computer Science and Electronic Technology International Society,2018:4.

[7] 沈韻,張煉.基于平行語料庫的計算機輔助翻譯軟件在翻譯教學中的應用——以雪人CAT軟件為例[C]//外語教育與翻譯發(fā)展創(chuàng)新研究(第七卷),2018:254-257.

[8] Lihua Sun.Teaching Design for Translation Based on English-Chinese Parallel Corpus[C]//Singapore Management and Sports Science Institute,Singapore\International Communication Sciences Association, Hong Kong.Proceedings of 2017 2nd EBMEI International Conference on Education,Information and Management (EBMEI-EIM 2017).Singapore Management and Sports Science Institute,Singapore\International Communication Sciences Association,Hong Kong:智能信息技術(shù)應用學會,2017:4.

[9] Levshina N.A multivariate study of T/V forms in European languages based on a parallel corpus of film subtitles[J].Research in Language,2017,15(2):153-172.

[10] 劉克強.基于平行語料庫的莫言小說英譯特征研究[C]//外語教育與翻譯發(fā)展創(chuàng)新研究(第六卷),2017:236-241.

[11] Afolabi S.Translation and interpretation market needs analysis:towards optimizing professional translator and interpreter training in Nigeria[J].The Interpreter and Translator Trainer,2019,13(1):104-106.

[12] Nú?ez J L,Bola?os-Medina A.Predictors of problem-solving in translation:implications for translator training[J].The Interpreter and Translator Trainer,2018,12(3):282-298.

【通聯(lián)編輯:謝媛媛】

主站蜘蛛池模板: 激情国产精品一区| 自拍偷拍欧美日韩| 国产女人爽到高潮的免费视频| 1769国产精品免费视频| 国产区网址| 99re热精品视频中文字幕不卡| 国产乱子伦一区二区=| 中文字幕在线一区二区在线| 国产精品3p视频| 91探花在线观看国产最新| 高清国产va日韩亚洲免费午夜电影| 91精品啪在线观看国产91| 国产乱码精品一区二区三区中文 | 亚洲人成网站在线播放2019| a级毛片在线免费观看| 成人福利在线视频| 日韩午夜伦| 黄色网在线| 国产区在线观看视频| 天天激情综合| 高清不卡一区二区三区香蕉| 亚洲国产中文在线二区三区免| 中文字幕在线观看日本| 伊人大杳蕉中文无码| 91免费国产在线观看尤物| 国产成人精品男人的天堂下载 | 国产91小视频| 国产91精品调教在线播放| 99热最新网址| 91亚瑟视频| 欧美成人一级| 91av国产在线| 在线观看av永久| 精品视频福利| 国产成人91精品| 亚洲欧美另类专区| 亚洲全网成人资源在线观看| 这里只有精品在线播放| 久久精品国产精品国产一区| 色综合网址| 久爱午夜精品免费视频| 丰满人妻一区二区三区视频| 91毛片网| 青青热久免费精品视频6| 99久久精品免费看国产免费软件| 欧美a在线看| 国产jizz| 57pao国产成视频免费播放| 欧美黄色a| 美女免费黄网站| 国产AV毛片| a级毛片免费播放| 国产电话自拍伊人| 色婷婷在线播放| 国产精品极品美女自在线网站| 久热re国产手机在线观看| 国产亚洲精| 99久久性生片| 亚洲精品国产成人7777| 国产亚洲精品资源在线26u| 三级视频中文字幕| 最新日本中文字幕| 99精品高清在线播放| 国产欧美日韩另类| 亚洲无码高清免费视频亚洲 | 噜噜噜久久| 激情综合网激情综合| AV片亚洲国产男人的天堂| 欧美区国产区| 97国产在线观看| 午夜日韩久久影院| 精品视频第一页| 久久精品人人做人人爽| 亚洲毛片一级带毛片基地| 精品国产成人a在线观看| 国产精品久久自在自线观看| 日韩美毛片| 91精品啪在线观看国产60岁| 亚洲人成影视在线观看| 国产美女人喷水在线观看| 亚洲浓毛av| 福利在线不卡|