999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

漢越機器翻譯方法與難點

2019-08-10 06:36:17王聞慧
電腦知識與技術 2019年17期

王聞慧

摘要;機器翻譯作為信息時代的產物已經愈來愈成為人們生活所必需的工具。計算機要實現“理解”語言以及語言“轉換”的功能,歧義的消解是其所面臨的最大難題。通過對越南語語言特點分析,本文介紹了目前的機器翻譯方法,并提出了漢越機器翻譯中存在的難點和可行的解決思路。本文對于認識漢越機器翻譯的現狀和難點做了有益介紹,并提出了相應的解決思路,可以為相關研究者提供參考。

關鍵詞:機器翻譯;越南語;語言特點

中圖分類號:TP391? ? ? ?文獻標識碼:A

文章編號:1009-3044(2019)17-0204-03

開放科學(資源服務)標識碼(OSID):

Abstract: Machine translation, as a product of the information age, has become an increasingly necessary tool for people's lives. In order to realize the function of “understanding” the language and “transforming” the language, the resolution of ambiguity is the biggest problem. This paper aims introduces current mainstream methods of machine translation and analyzes the difficulties and corresponding solutions of machine translation between Chinese and Vietnamese. This paper can provide references for related researchers.

Key words: Machine translation; Vietnamese; Language features

1 引言

作為信息時代的產物,機器翻譯已經成為人們生活所必需的工具,它也在無形之中改變著人們的生活方式。隨著全球化的突飛猛進,機器翻譯已經深入到人類日常交際、科學研究、商業(yè)交流等方方面面。近些年來,隨著深度學習的興起,機器翻譯效果也得到了巨大提升。然而,機器翻譯遠未得到完全解決,尤其對于小語種而言,其機器翻譯效果往往不盡如人意。對于漢越機器翻譯而言,由于兩種語言之間的差異性和深度學習方法的局限性,其翻譯效果還存在著諸多問題。對漢語與越語兩種語言的差異性進行分析,對于提升漢越機器翻譯的效果有著很強的現實意義。

2 機器翻譯方法

機器翻譯是應用計算機來進行不同語言之間的翻譯。總體來看,機器翻譯方法可分為經驗主義和理性主義兩種方法。20世紀30年代初,法國人阿爾楚尼首先提出了用機器進行翻譯的想法。隨著計算機的出現,機器翻譯逐漸成了研究熱點。首先興起的是以基于轉換的機器翻譯方法為代表的理性主義方法。但由于有限的規(guī)則并不能描述語言的復雜性,再加上隨著規(guī)則的增多,規(guī)則之間的沖突也開始增多,使得基于轉換的機器翻譯方法在達到瓶頸之后逐漸淡出研究者視野。從20世紀90年代開始,基于語料庫的機器翻譯方法逐漸成為機器翻譯方法的主流,主要代表有基于統(tǒng)計的機器翻譯方法、基于實例的機器翻譯方法和近些年興起的基于神經網絡的機器翻譯方法。對于理性主義方法與經驗主義方法而言,兩者各有優(yōu)缺點:單純的語言規(guī)則難以涵蓋大量的語言現象,且基于不同語言的差異性而制定的詞匯庫、語法規(guī)則庫、語義規(guī)則庫往往規(guī)模大、開發(fā)成本高;而基于語料庫的方法雖然能夠依靠大規(guī)模真實文本涵蓋大量的語言現象,但大規(guī)模、高質量對齊語料庫卻難以獲取,且模型的遷移性較差。因此在實踐中,常采用基于規(guī)則與基于語料庫相結合的方法以提升翻譯效果。

2.1 基于轉換的機器翻譯方法

基于轉換的機器翻譯方法包含三個步驟:源語言分析,源語言與目標語轉換,目標語生成。不同的基于轉換的機器翻譯方法在上述三個步驟中涉及的語言學深度不同,因此也產生了不同種類的機器翻譯方法。其中,直接翻譯法忽略了句法、語義與語境信息,通過一部詞典將源語言直接轉化為目標語言。這種不考慮句子句法語義而只依賴于詞典的翻譯方法準確性、拓展性較差,因此使用范圍較為狹窄。更為深層次的基于轉換的機器翻譯方法則會對源語言進行句法層面乃至語義層面的分析,從而使機器翻譯效果更好。該方法先將源語言句子轉換為源語言的一種表達方式,再將源語言的內部表達轉換為目標語言的內部表達,最后按照目標語言的內部表達生成目標語言。整個轉換的過程需要對句子進行詞匯分析、句法分析、語義分析、語篇分析等,其所生成的中間表達方式也是一種句法-語義表達式。其具體翻譯步驟如圖1所示。

2.2 基于中間語言的機器翻譯方法

基于中間語言的方法與基于轉換方法不一樣的地方在于中間語言方法是將源語言轉換為一種新的語言的中間表達式,并以此為基礎再轉換成目標語言。這種中間語言對于不同系統(tǒng)可以是靈活的,并沒有被固化。在多語種翻譯時可以起到提高效率的作用,將原有n(n-1)個翻譯過程減少到2n,并且在譯文質量、理解性等方面均有所改善。如圖2所示。

2.3 傳統(tǒng)的基于語料庫的機器翻譯方法

經驗主義的方法主要包括基于統(tǒng)計與基于實例的機器翻譯方法。基于統(tǒng)計的翻譯方法最早由Weaver在1949年提出,其主要采用了信息論思想,將翻譯過程看作是編碼與解碼的過程。通過將大規(guī)模雙語平行語料庫中出現的語言現象以概率的方式統(tǒng)計計算出來,從而得到從目標語言到源語言的翻譯概率,即翻譯模型。再針對目標語言選擇特定的語言模型進行訓練,從而得到語言模型。最后,結合翻譯模型與語言模型進行計算,從而篩選出最貼合實際的譯文。目前,經典的翻譯模型主要有IBM的研究者建立的五種翻譯模型,可以在GitHub上下載使用。經典的語言模型則主要有n元語言模型與近些年來興起的神經網絡語言模型。

基于實例的翻譯方法則是將雙語對照的實例導入到實例庫中去,當輸入源語言句子時,系統(tǒng)自動搜索實例庫,從而獲得與當輸入句子最相近的源語言句子并找到其對應的譯文句子,再根據輸入句對譯文句子進行調整以輸出最終的翻譯結果。基于實例的機器翻譯方法的關鍵點在于將輸入句子與實例庫中源語言句子進行相似度計算,從而找到與輸入句子最相似的源語言句子。目前,基于實例的機器翻譯方法已經廣泛應用在“機輔人譯”系統(tǒng)中。

總體來說,這兩種方法各有利弊,對前者來說其語言模型與翻譯模型的訓練需要大量的高質量雙語對齊語料作為支撐,而后者利用實例庫的方法盡管質量效率高,但在多領域、多語種翻譯的應用上,則需要大規(guī)模的實例庫支持。

2.4 基于神經網絡的翻譯方法

近年來隨著深度學習的興起,神經網絡方法在圖像識別、語音識別以及自然語言處理的各項任務中已取得較大突破與進展。與傳統(tǒng)的基于統(tǒng)計的機器翻譯方法相比,神經網絡翻譯系統(tǒng)(NMT)在對語言規(guī)模的要求方面要更加嚴格,但其學習到的深度則是統(tǒng)計機器翻譯所不能及的。現階段神經機器翻譯中比較常見的網絡架構主要有RNN(recurrent neural network,循環(huán)神經網絡)、CNN(convolutional neural network,卷積神經網絡)、LSTM(long-short-time memory,長短時記憶網絡)等。其主要通過編碼解碼的方式將源語言句子的向量表示映射到目標語言的輸出序列。

3 機器理解語言的難點

計算機要想實現兩種語言間的轉換,首先需要“讀懂”源語言,然而在這個過程中歧義的存在是計算機所面對的最大障礙。歧義分為兩種,一種是句子本身就存在歧義,另一種是句子本身沒有歧義,但對于機器而言存在著歧義。如“北京大學生”本身是不存在歧義的,其分詞結果就是“北京/大學生”。但對于機器而言,“北京大學/生”也是一種分詞結果,因為“北京大學”與“生”都是漢語詞匯。但對于機器翻譯而言,其面臨的歧義問題主要指后者,即句子本身是沒有歧義的。歧義主要分為交集型歧義和組合型歧義,交集型歧義是指ABC可以分為AB/C、A/BC兩種,如“北京/大學生”與“北京大學/生”。組合型歧義則是指AB可以理解為AB或者A/B。如在“他馬上下來”中,“馬上”就存在組合型歧義。對于越語這門語言,歧義分布在詞匯、句法結構、語義的各個層面。

3.1 詞匯層面歧義

越南語同漢語一樣都是孤立性語言,盡管越南語每個音節(jié)之間都有空格隔開,但其實質就相當于漢語中在所有字之間添加空格。漢語的分詞對應到越南語則表現為“聚詞”。與漢語一樣,越南語中存在著眾多一詞多義以及同形異性(詞形相同詞性不同)的情況。例如漢語中的“把”一詞,既有持、拿又有端著、端起之義,越南語中的“cha?y”一詞,既可以表示跑這個動作,也可以用來形容商品的暢銷程度;漢語中的“研究”一詞,對應于越南語中的“nghiên c??u”(研究)同時都可以作名詞以及動詞。由詞匯層面的歧義所造成的機器在做分詞和詞性標注上的困難是很難克服的,僅依靠建立規(guī)則庫來解決歧義問題必然會造成規(guī)則庫規(guī)模過大、執(zhí)行效率低等問題。

3.2 句法結構層面歧義

漢語、越南語在對所屬關系的表示方面與英語不同,英語有明顯的標志性詞語用以界定,而漢語、越南語則沒有特定分隔或標志性詞語,因此存在著結構方面的歧義。例如漢語中“三個北京大學和清華大學的教授”對應于越南語“ba(三) gia?o s?(教授) cu?a(的) ?a?i ho?c B??c Kinh(北京大學) va?(和) ?a?i ho?c Thanh Ho?a(清華大學)”這樣的短語表達中,“三個”是界定在北京大學還是北京大學和清華大學則需要參考上下文語義進行理解。在機器分析這類結構時可用多種句法樹來表示,通過經驗主義的方法,利用大規(guī)模語料庫構建語言模型對每個詞之間的轉換概率進行計算,從而選擇一條概率最大的路徑,進而尋找出最符合人們思維認知以及上下文語境的結構。

3.3 語義層面歧義

語義的不確定性、模糊性無疑使得計算機無法像人腦一樣從認知層面理解語句的真正意思。再者,兩個民族之間風俗習慣的差異性必然會導致兩種語言在表達上的不同。例如將“炸薯條”翻譯成越南語時需要考慮其是一種菜名還是一種行為動作。這需要結合語境來考察,而語境信息如何融入系統(tǒng)中則需要知識庫或者統(tǒng)計概率的支持。但目前的系統(tǒng)都無法做到對語境的充分理解與應用。

4 漢-越雙語轉換難點及解決方法

越南語是一種孤立語,屬南亞語系越芒語族。由于受漢文化影響較大,越南語同中文具有一定的相似性。一是同為孤立語,缺少形態(tài)變化以及語法標記,語法的表示通常采用虛詞、詞序等方式。二是越南語中存在大量的漢越詞,不論是發(fā)音還是結構都與中文保持高度的同一性。三是語序都采用“主語+謂語+賓語”形式,在語言形式上具有相通性。與英文相比,漢、越語對句法結構以及語法規(guī)則的限定性遠不如英文,這就給漢、越語自然語言處理帶來了一定的困難,同樣直接影響到漢越機器翻譯任務之中。

4.1 人稱代詞的多樣性

越南是一個十分講究尊卑的國家,這在越南語人際稱謂語中得以體現。例如同輩間比自己年長的男性統(tǒng)稱為anh+名,女性統(tǒng)稱為chi?+名,自稱通常用em;對父輩父親稱b??,母親稱me?,自稱con。在百度翻譯漢-越翻譯中輸入“小明應該去上小學”這句話,軟件翻譯給出的結果為“pha?i ?i tr???ng tiê?u ho?c”,與人工翻譯出的“Con Minh pha?i ?i tr???ng tiê?u ho?c”相比,“小明”未翻譯出來。解決該問題首先要處理好未登錄詞中人名的識別問題,只有將漢語中的人名識別出來才能利用人稱關系將規(guī)則嵌入到翻譯系統(tǒng)中去。因此覆蓋度達到一定規(guī)模的詞表是一項十分重要的語言資源,而小語種低資源的建設同樣需要耗費大量人力物力,因此上層任務都需要扎實的基礎性資源的支撐。

4.2 長距離依賴

漢語中多存在復句等較為復雜的語言成分,句子的冗長使得在翻譯過程中處理分句主語對主句主語的依賴、指稱代詞對上文的依賴等長距離依賴問題是自然語言處理難以解決的問題之一,在這一點上越南語與漢語較為相似。目前解決該問題的相關研究中做得最多的是基于循環(huán)神經網絡的機器翻譯,其主要的處理方法為通過將上文的信息與下文共同輸入到網絡當中,從而將上文的信息融入下文的處理過程中來。但基于循環(huán)神經網絡的機器翻譯存在著梯度爆炸與梯度彌散的問題,即上文的信息通過多次循環(huán)后,其對下文的影響往往很小。為解決這個問題,現階段主流的機器翻譯系統(tǒng)大都基于長短時記憶網絡。

長短時記憶網絡是循環(huán)神經網絡的一個變體,其不再單純地將上文信息傳遞給下文,而是采用了門限技術。通過將上文的信息設置三個“門”:輸入門,輸出門和遺忘門,從而決定哪些信息被傳遞給下文。通過使用門限技術,長短時記憶網絡很好地解決了梯度彌散和梯度爆炸問題。但長短時記憶網絡對于長距離依賴問題的解決是有限的,其對過長的依賴問題也不能很好的解決。而越南語中存在著大量的長距離依賴現象,這就要求翻譯系統(tǒng)對句子結構能夠很好地進行分析,而這目前仍然是一個難點。

4.3 復雜定語后置

越南語與漢語間一個重要的不同點是越南語的定語后置:除了一些表示數量、部分與全部、單位詞需要前置,越南語中的其他定語都需要后置。例如漢語中“中華人民共和國”翻譯成越文則是“n???c(國) C??ng Ho?a(共和) Nh?n d?n(人民) Trung Hoa(中華)”,越文翻譯正好與漢語語序相反。漢語中存在的定語過長而導致的中心詞靠后的問題對應于越南語中就表現為需要讀者“從后往前讀”。除此之外,越南語定語成分的順序有所固定,通常先次要后主要,先小范圍后大范圍。由此,機器在判斷哪些是次要、小范圍,哪些是主要、大范圍時必然不可能具備像人一樣對大小范圍的認知能力,若僅僅依靠漢語定語語序倒序輸出越語譯文往往會出現一些問題。例如,在越南語中存在這樣的特殊情況:翻譯“經濟社會”一詞中,越語譯文應為“kinh tê?(經濟) xa? h??i(社會)”而并非“xa? h??i(社會) kinh tê?(經濟)”(此時定語前置)。對于此類特殊情況可以將其收入到詞典中去,盡管詞典規(guī)模過大會影響系統(tǒng)效率等問題,但卻可以對其進行有效的規(guī)避。此外,越南語定語的復雜性特征使得機器很難將其邊界識別準確,對下一步進行句法分析等高層次任務造成阻礙。解決此類問題最重要的則是翻譯系統(tǒng)對句子結構的正確分析,判斷動詞短語是做名詞的定語還是整句話的謂語、介詞短語是修飾名詞短語或動詞短語還是做句子狀語,這些對于翻譯的準確性至關重要。

4.4 虛詞的處理

越南語與漢語一樣,都是缺乏形態(tài)變化、曲折變化的孤立性語言,時態(tài)、人稱、數等的變化只能通過虛詞來完成,因此虛詞承擔著重要的句法功能。例如漢語中“我吃過飯了”表示的是一種完成時狀態(tài),對應于越語則表示為“T?i(我) ?a?(已經) ?n(吃) xong(過) r??i(了)”,“?a?”與“過”“了”的功能相同都表示完成的狀態(tài),除了這些表示時態(tài)的虛詞之外還包括表示處所、方向、方式等。在處理漢、越語虛詞方面,一般情況下計算機要對將要處理的語料進行預處理,將句子中可能缺少或省略的虛詞補充完整。機器在識別出實詞之后往往將剩下來的詞視作虛詞,通過建立虛詞用法詞典,將虛詞及其用法錄入到詞典之中,并制定一系列虛詞用法規(guī)則便于機器進行模式匹配。另外,利用越南語與漢語在虛詞特點的相似之處也可直接建立漢-越虛詞映射表,例如過-?a?,未-ch?a,將-se?,從-t??等雙語映射對,省去不必要的分析和模式匹配環(huán)節(jié)。

5 結束語

盡管就目前來看機器翻譯已經做到了比較純熟的程度,但涉及越南語方面的研究還是少之又少,漢越對譯仍存在著許多較為突出的問題需要我們解決。機器翻譯的難點必然與不同語種的特殊性所對應,要解決好所有可能的問題是一項繁重的工程。漢越機器翻譯不僅僅要在基礎資源建設上下功夫,還應當針對兩種語言的相似性與差異性找出既能省去煩瑣工作的有效方法以及具體問題具體分析的實用性經驗,在兩者之間尋找平衡點。盡管深度學習的方法已成為主流,但自然語言不同于聲音與圖像,其內部隱含的特征豐富使得神經網絡的方法難以做到物盡其用。在深度學習方法達到一定瓶頸之后如何將

語言知識融合進去將會是有所突破更進一步的關鍵所在,因此語言特征的分析及應用是漢越翻譯系統(tǒng)改進發(fā)展的必然趨勢。

參考文獻:

[1] 劉穎. 計算語言學[M]. 清華大學出版社, 2014.

[2] 劉云.英漢機器翻譯中漢語自動分析的難點[J].長江藝術, 2009(1):111-115.

[3] 曹英華,郝進仕.漢語機器理解與漢英機器翻譯[J].內江師范學院報, 2006, 21(1):55-57.

[4] 張政.機器翻譯難點所在[J].外語研究, 2005(5):59-62.

[5] 詹衛(wèi)東,常寶寶,俞士汶.漢語短語結構定界歧義類型分析及分布統(tǒng)計[J].中文信息學報,1999, 1999, 13(3):10-18.

[6] 譚志詞, 徐方宇, 林麗. 基礎越南語(3)[M]. 世界圖書出版公司, 2013:95.

[7] 戴新宇, 尹存燕, 陳家駿,等. 機器翻譯研究現狀與展望[J]. 計算機科學,2004, 31(11):176-179.

[8] 戴新宇, 尹存燕, 陳家駿,等. 機器翻譯研究現狀與展望[J]. 計算機科學,2004, 31(11):176-179.

[9] 劉群, 俞士汶. 漢英機器翻譯的難點分析1[C]// 中文信息處理國際會議,1998.

[10] 程節(jié)華, 戴新宇, 陳家駿,等. 漢英機器翻譯中時體態(tài)處理[J].計算機應用研究,2004, 21(3):79-80.

[通聯編輯:梁書]

主站蜘蛛池模板: 免费人成在线观看成人片 | 精品三级网站| 精品一区二区无码av| 亚洲精品中文字幕午夜| 国产精品自在线拍国产电影| 免费欧美一级| 成年女人18毛片毛片免费| 毛片基地美国正在播放亚洲| 欧美日韩亚洲综合在线观看| 国产欧美视频在线观看| 成人免费黄色小视频| 人妻一本久道久久综合久久鬼色| 国产精品毛片在线直播完整版| 久久鸭综合久久国产| 在线观看91香蕉国产免费| 日韩视频福利| 99热精品久久| 在线观看的黄网| 免费看av在线网站网址| 凹凸精品免费精品视频| 久久久久国产精品熟女影院| 日本高清成本人视频一区| AV色爱天堂网| 精品国产香蕉伊思人在线| 中文字幕日韩视频欧美一区| 亚洲高清在线天堂精品| 99re热精品视频国产免费| 亚洲第一网站男人都懂| 综合色婷婷| 国产精品第一区在线观看| 美女无遮挡免费网站| 国产免费精彩视频| 伊人91在线| 久久影院一区二区h| 国产农村1级毛片| 国产精品永久免费嫩草研究院| 国产啪在线91| 五月天丁香婷婷综合久久| 中文字幕天无码久久精品视频免费 | 精品国产成人国产在线| 又爽又大又黄a级毛片在线视频| 亚洲天堂网站在线| 久久久四虎成人永久免费网站| 日韩美女福利视频| 国产第一页亚洲| 亚洲精品色AV无码看| 911亚洲精品| 91麻豆国产视频| 在线观看91香蕉国产免费| 中文字幕人妻av一区二区| 中字无码av在线电影| 欧美精品一区二区三区中文字幕| 欧美成人在线免费| www亚洲天堂| 又爽又黄又无遮挡网站| 亚洲无码91视频| 亚洲欧美一级一级a| 亚洲va在线∨a天堂va欧美va| 22sihu国产精品视频影视资讯| 香蕉视频在线观看www| 中文字幕乱码二三区免费| 成年人视频一区二区| 熟妇人妻无乱码中文字幕真矢织江| 国内a级毛片| 国产精品福利尤物youwu| 欧美在线视频不卡第一页| 国产理论一区| 天天视频在线91频| 99视频国产精品| 91福利片| 激情无码视频在线看| 国产日韩久久久久无码精品| 亚洲中文制服丝袜欧美精品| 亚洲一区二区三区麻豆| 久久精品人人做人人爽97| 婷婷伊人久久| 国产精品成人不卡在线观看| 国产特一级毛片| 国产精品永久免费嫩草研究院 | 免费国产一级 片内射老| 婷婷丁香色| 呦女精品网站|