999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

白-漢語適用的機器翻譯方法對比分析研究

2020-08-04 09:50:33郭靜芳張令通
數字技術與應用 2020年5期
關鍵詞:方法

郭靜芳 張令通

摘要:信息技術的高度發展和各地、各民族之間的交流日益密切,帶來了機器翻譯的繁榮景象,通過對白族語言語音、詞匯、語法方面的特點分析的方法,以及對多種少數民族語言與漢語之間的機器翻譯方法的對比分析,從而尋找到最適合白一漢語互譯的機器翻譯的方法。

關鍵詞:白族語言;機器翻譯;方法;對比分析

中圖分類號:TP391 文獻標識碼:A 文章編號:1007-9416(2020)05-0224-02

1研究背景及研究現狀

(1)研究背景:機器翻譯的大約產生在1930年,一名法國科學家率先提出了機器翻譯的思想;繼而產生了用于語言翻譯的機器,帶來了機器翻譯的繁榮。中國機器翻譯研究起步于二十世紀六十年代,后來因為初期的機器翻譯出現阻礙而導致其發展一度中斷,直到1975年之后機器翻譯才得到進一步得發展。而少數民族語言的機器翻譯出現在上個世紀八十年代,以蒙語、藏語和維語為主要研究對象進行初步的嘗試。(2)研究現狀:目前,機器翻譯的技術已經越來越精湛,對于英語、法語等廣泛使用的語言有很好的成效,但是對于我國少數民族語言來說,由于語料規模小、語序差距大等問題導致少數民族的機器翻譯很難達到想要的效果。(3)研究基礎:基于機器翻譯的普及和繁榮,國家對少數民族的重視和少數民族的機器翻譯也日漸成熟,使白語的機器翻譯更加有理論和技術的支持。

2常用機器翻譯的種類及對比

2.1神經網絡的機器翻譯的研究

2.1.1蒙漢機器翻譯

基本步驟:(1)以CRU-CRF混合算法來進行分詞模塊構建。(2)通過門控循環神經網絡(GRU)和條件隨機場(CRF)相結合的方式來對待標注序列進行語義分析和標注。(3)利用分布式表示方式對切分的單詞進行向量化處理。(4)基于神經網絡模型來構造編碼器。

優:在源語言和目標語言的對齊處理上展現出較好的性能,同時在翻譯質量上,其對應的BLEU值也得到了提高;切分蒙古文有效的解決了蒙古文的數據稀疏性,提高了蒙漢神經機器翻譯的性能。

劣:對有限的蒙漢雙語語料中的專有名詞、人名、地名和數字等名詞泛化處理,構詞詞綴的處理問題;對長句的處理能力較弱。

2.1.2維漢機器翻譯

基本步驟:(1)將老維吾爾文進行拉丁化處理。(2)實現了基于神經網絡維漢機器翻譯,并在此基礎上將傳統的LTSM或GRU等非線性單元替換為LUA非線性單元。

優:當源端語言采用詞亞詞為翻譯單元而目標端語言采用詞為翻譯單元時所得到的翻譯效果最好,通過Nginx+Django+uwsgi的實現方式使整個翻譯系統具有較高的翻譯速度和并發量。

劣:亞詞不能完全解決集外詞問題。

2.2基于混合策略的蒙漢機器翻譯的研究

基本步驟:(1)準備雙語訓練語料庫;(2)雙語訓練語料庫預處理;(3)漢蒙短語翻譯表的建立侗語對齊、短語抽取);(4)蒙古語語言模型的訓練;(5)解碼:重點研究:蒙古語的格、復數及領屬等附加成分的形態分析;蒙古語語序的漢語調序方法。

2.3基于規則的漢藏機器翻譯系統中的句法分析方法研究

模塊:詞典維護模塊、規則維護模塊、分詞標注模塊、漢藏翻譯模塊、系統設置模塊。

優:以動詞謂語為軸心,把詞項信息同語法規則相結合,把語法分析和語義分析融為一爐,實現語法分析和語義分析的一體化,并采用句法分析二分法就可以大大提高機器翻譯語法分析的效率。

劣:出現時間早。

2.4基于統計的漢藏翻譯系統關鍵研究與實現

技術原理:(1)樹到串的翻譯模型,抽取具體規則中更一般的規則;(2)中介語言方法;(3)專名識別;(4)統計翻譯模型訓練方法:無監督方法;(5)時態標注;(6)擴充已有的統計翻譯模型:藏文動詞的時態處理、動詞的及物性、格助詞處理等。

優:對藏文動詞的時態處理、動詞的及物性處理、格助詞處理等進行了適當的處理;改善了統計機器翻譯訓練過程的盲目性、低效性、冗余性、表面性等不足。

劣:漢藏雙語平行語料規模不夠,影響藏語自動分詞系統的分詞準確率和翻譯引擎的翻譯準確率

3幾種常見少數民族語言的對分析

3.1幾種語言的對比(表1)

3.2白語特征簡介

白族語屬于漢藏語系藏緬語族,分為大理(南部)、劍川(中部)、碧江(北部)這三個部分。

語音分析,輔音方面:雙唇、唇齒、舌尖、舌面、舌根。

元音方面:分松緊兩類,這一特點與彝語支語言相同。

詞匯方面,單音節詞較多,多音節詞較少。白語詞匯中漢語借詞所占比例是相當高的,構詞形式有附加式、重疊式和復合式三類。

語法方面,白語語序以主謂賓的結構為主,與漢語相似,但也保留了古代白語的主賓謂型語序;白語量詞發達,一般情況量詞置于名詞之后,其中部分量詞已具有名詞綴;白語聲調較多,例如動詞、助動詞的否定和肯定以及人稱代詞的數和格的變化,都需要通過語調的曲折變化來表達。

4白-漢語適用的機器翻譯方法

目前,基于統計和基于實例這兩種機器翻譯方法的技術已經十分成熟,但是這兩種機器翻譯的方法與語料庫密不可分,它們的準確度直接依賴于與語料庫的覆蓋面、精確度,因此需要大規模的雙語語料庫,盡管漢語語料庫的建設取得了很大的成就,比如:CCL漢語語料庫總字符數已經到達了783,163 175,其中現代漢語語料庫也有581794456字符,但是白語可收集的語料少、語料庫小,以至于不是特別有效。所以我們可以通過語法方面的研究進行補足,基于規則的機器翻譯的方法是依靠語言學家總結的語言翻譯規則庫,通過對句子的語法分析,按照語法規則進行判斷和推導,再生成目標語言語句,一般通過以動詞謂語為軸心,把語法和語義相結合,實現利用語法分析進行語義分析。而且,我國的自動分詞系統已經有9%以上的正確率,因此可以采用統計與規則相結合的方式進行白族語言機器翻譯,充分發揮規則和統計的作用,從而提高機器翻譯的準確率。再加上白族語屬于漢藏語系藏緬語族,與藏語的發音、詞匯、語法等方面有很大的相似度,因此對與藏語適用的機器翻譯的方法對白語也基本適用。

綜上,根據白族語言特點和各類機器翻譯的特點,白語的機器翻譯可采用統計與規則相結合的混合策略實現。

5結語

通過對比分析多種常用的少數民族語言與漢語之間互譯的機器翻譯方法的優點和不足,并根據白族語言語音、詞匯、語法方面的特點,提出了采用統計與規則相結合的混合策略實現白漢語互譯的機器翻譯方法,通過統計與規則二者之間的互補,解決白語語料庫不足的問題,并可通過不斷補充語料庫和完善規則庫,使白漢語互譯的效果得到進一步的提升。

猜你喜歡
方法
中醫特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數學教學改革的方法
河北畫報(2021年2期)2021-05-25 02:07:46
化學反應多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學習方法
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 好紧太爽了视频免费无码| 日韩午夜片| 亚洲综合二区| 高清视频一区| 天堂av综合网| 无码区日韩专区免费系列 | 国产地址二永久伊甸园| 人妻21p大胆| 狠狠色狠狠色综合久久第一次| 久久精品电影| 成人亚洲国产| 成人福利免费在线观看| 国产91透明丝袜美腿在线| 亚洲精品免费网站| 亚洲h视频在线| 国产精鲁鲁网在线视频| 国产99在线观看| 婷婷亚洲视频| 亚洲精品中文字幕午夜| 亚洲一级毛片免费看| 亚洲最黄视频| 中文字幕亚洲精品2页| 国产成人成人一区二区| 91小视频在线播放| 日韩人妻无码制服丝袜视频| 亚洲日韩Av中文字幕无码| 9999在线视频| 99视频在线免费观看| 1769国产精品视频免费观看| 天天综合色网| 亚洲福利视频一区二区| 91视频首页| 国产原创演绎剧情有字幕的| 99热这里只有免费国产精品 | 亚洲精品大秀视频| 啦啦啦网站在线观看a毛片| 91麻豆精品视频| 伊人丁香五月天久久综合| 麻豆AV网站免费进入| av在线人妻熟妇| 国产SUV精品一区二区| 亚洲男人的天堂视频| 中国国产高清免费AV片| 国产欧美日韩va另类在线播放| 51国产偷自视频区视频手机观看| 中文一级毛片| 91精品视频在线播放| 欲色天天综合网| 无码国产伊人| 伊人久久大线影院首页| 国产手机在线小视频免费观看 | 色屁屁一区二区三区视频国产| 国产一区二区三区免费观看| 免费无码网站| 久综合日韩| 国产综合欧美| 综合天天色| 欧美成人在线免费| 国产福利在线免费观看| 国产精品亚洲一区二区在线观看| 青青草91视频| 亚洲人妖在线| 伊人AV天堂| 国产最爽的乱婬视频国语对白 | 99精品高清在线播放| 国产无人区一区二区三区| 六月婷婷综合| 亚洲无码在线午夜电影| 国产一区亚洲一区| 国产日韩欧美精品区性色| 日本AⅤ精品一区二区三区日| 国产精品污视频| 91成人试看福利体验区| 啪啪啪亚洲无码| 99热国产在线精品99| 四虎国产精品永久一区| 精品国产美女福到在线不卡f| 韩日免费小视频| 久久国产香蕉| 欧美午夜一区| 亚洲av无码片一区二区三区| 综合色在线|