鄒蓉 覃潘燕 董健
【摘 要】本文論述以實例歸納和以類比歸納為手段的機器學習技術原理,分析基于類比的機器學習相關理論,從完全實例翻譯、實例句型轉換翻譯、類比近似翻譯等方面研究機器翻譯中類比機器學習技術的應用,旨在進一步優化機器翻譯的智能技術。
【關鍵詞】機器翻譯 機器學習 技術應用
【中圖分類號】G 【文獻標識碼】A
【文章編號】0450-9889(2018)08C-0190-03
隨著我國科學技術的不斷革新,越來越多產品的智能功能為人們的工作生活提供了更多的助力與保障,機器翻譯正是重要的智能化功能之一?,F如今,機器翻譯軟件正不斷涌現,大多遵循自然語言處理規則。要想在翻譯質量和效率上做到精益求精,應對語言中的各種歧義展開準確處理,提高翻譯速度,同時還應該加強機器翻譯的擬人化,不斷增強機器對人類語言的認知。因此,加強機器學習技術的研究非常重要,堅持讓機器學習的技術應用來幫助機器掌握自然語言的不同歧義,是一個重要的研究課題。
一、機器學習技術簡述
機器學習方法的目的在于幫助計算機等機器能夠不斷優化程序,進而按照人類的思維在面對不同問題時可以搜集歷史數據,增強對問題的全面思考,提高復雜邏輯的準確度,圖1所示代表了機器學習與人類思考之間的機制吻合。
基于實例的機器學習技術,在于為程序設定特定目標概念的正確例子或錯誤例子,程序經過理性分析歸納,形成相對完整的概念體系,從而面對新的例子中能夠識別正確,排除錯誤?;陬惐鹊臋C器學習技術,是更接近于人類思維和行為習慣的重要學習方法,簡言之就是對不同事物個體之間所存在的相似關聯性進行比較和辨識。一旦新問題出現后,主導程序仍然會快速回顧并梳理歷史數據,對于曾經處理過的類似案例進行排列分析,可從中挖掘與當前問題最為相似的處理方案來參考解決新問題。
二、基于實例的機器學習
(一)技術思路
基于實例的機器學習可設置為單次行為,也可設置為累積行為。在單次行為中,無論是正確的例子還是錯誤的例子都應一次性顯示;在累積行為中,系統程序則更容易在有用數據庫中分多次假設案例概念,并在陸續添加案例的過程中不斷修正和調整概念假設,從而使得例子所代表的準確度更高。實例累積的機器學習行為以仿人類學習思維為目標,并在技術上致力于無限接近與人類的學習能動性。一旦機器學習啟動,處理程序將會梳理已掌握的各種理論概念,這些概念可以直接進行內涵與外延的拓展,也可以幫助程序引導實現新的案例。機器操作人員在編寫新程序的過程中,可以在已掌握概念的基礎上,完成對新概念基本點的描述。從實踐效果看,累積行為比單次行為的準確度更高,單次行為往往在重塑概念的過程中會選擇一定比例的錯誤例子,這樣并不利于機器的有效學習。
基于實例的機器學習應以歸納思維為主,盡可能完成對案例對象的一般性描述。所謂機器學習中的歸納學習系統模型轉換過程,如圖2所示。
圖2 機器歸納學習的系統模型示意圖
所謂一般性描述,即能夠對各種輸入數據進行必要的解釋,并根據解釋行為結果來推算新信息。機器程序的編寫中,需要將一般性描述使用某種規范性的描述語言變得更加形式化。只要涉及不同的數據輸入或描述語言,就能夠以形式化的一般性描述來概括,隨之形成更有約束性與代表性的關系描述集合,整個集合的最小元素都能在特定的描述語言中看作是特點輸入值,而集合的最大元素就稱之為是代表性的一般描述。故而按慣例可先描述特征輸入值,再以歸納手段組織完成一般描述。
(二)基于案例的問題描述
通常,腳本、框架、層次結構、規則產生、語義結構、推演網絡等都可以用來進行事件問題描述。其中,微詞演算的方法更為嚴格,其產生的語法語義也更為精巧。當前不少人工智能的歸納學習都傾向于沿用謂詞演算的方法,人們在相關歸納動作的理論問題上得到了更多的研究實踐經驗。當然,很多學習方法對于如何進行一般性描述的形式進行了約束。如在某學習系統雖然理論上能夠直接描述,但并未構建描述機制。
(三)基于案例的機器學習執行規則
對一般性差異化半序描述體而言,可指明由非一般描述轉為一般性描述的具體方法。這就需要進行必要的歸納分析與邏輯推理,應對整個語言描述中的初始量與中間量制定一般性執行規則,即稱之為轉換規則。邏輯上可表述為:若一般規則可執行分類規則出現S1∶∶>K時,會產生更為普遍的分類規則S2∶∶>K2,則S1→S2的推導成立。S2與S1之間的描述字符或量化值相對比后,若前者描述內容全部映射在后者描述符中則稱之為選擇性規則,若前者描述內容在完成對應映射外還有其他描述符則稱之為構造性規則。由此可見,出現構造性規則將意味著一般性描述空間的變化,而選擇性規則沒有空間變化異象。
降低條件規則的做法,實屬一般性規則的低級操作,主要靠降低合取條件來對合取式完成一般化處理。如對“黃香蕉”類別在執行條件規則的降低后,將條件因素“黃”去掉,則會產生不分顏色的所有香蕉的類。可表示為:yellow(V)&banana;(V)∶∶>K,經一般化處理后應為:banana(V)∶∶>K。
上述簡式代表了選擇性規則,因為在整個描述中結論部分并未再出現新的描述要素。而對于構造性規則的產生過程,可引入“偏序極元”的規則進行處理,主要思想就是找準有序鏈條結構中的不同節點,并對節點元素展開描述,從而提升結構性。
三、基于類比的機器學習
(一)技術思路
機器類比學習在近些年來更得到了研究者的高度關注,成為人工智能發展的核心技術之一。研究基于類比的學習技術,能夠有效掌握新知識的學習形式,更能夠為解決問題提供重要的參考。當前,人類的智能邏輯體系中所要求的技能包括類比推斷,運用類比推斷的方法,能夠客觀且合理地梳理不同對象之間的相似或相悖關系,從而由已知屬性或功能的對象來推導得到其他對象的某些對應屬性。
類比推斷模式的邏輯表述為:若甲屬性為abc,乙屬性為abcd,則甲可能有屬性d。這就表明基于類比的機器學習方法能夠對早期的系統知識進行合理優化,并將其作為基礎來總結得到更大系統的原理或規律。類比推斷所應遵循的客觀要素就在于事物個體所經歷的過程與系統各要素之間的聯系是普遍存在的。
我們可以用數學語言來表述基于類比的方法:當存在A1與B1確保對象S1成立,存在A1與B1確保對象S2成立,而對象S1與S2之間的相似關系為Φ,則有:
S1:A1、A2、…An→B1,相似性Φ。
S2:A1、A2、…An→B1,相似性Φ。
在上述式子中,只有當Φ的定義明確,并且可以列出兩個對象求相似性的公式,同時得到B1ΦB1時的B1值,才能確保類比推理實現真正意義上的可行。
(二)基于類比的機器學習步驟
機器類比學習主要按以下步驟完成:第一步,遭遇新問題后以回憶或聯想的方式迅速查找已經解決的相似問題,可借鑒其解題原理。第二步,篩選相似問題中與新問題最接近的,相似度越高越能提高學習效率。第三步,在已解決相似問題的解題方法與新問題之間建立對應鏈路。第四步,對解決新問題的方法或知識進行驗證。出錯則重復以上步驟修正直至正確。當然,在實際運行過程中,基于類比的機器學習還應加強類比系統建設以提供更大保障。
四、機器翻譯中的機器學習技術應用研究
我們主要來探討機器翻譯中基于類比學習技術的應用。
(一)應用思路
類比學習的技術方法就是拿早已翻譯過的文本來加強對新對象的類比翻譯。機器翻譯過程中,往往通過富有結構化的案例將各種含大量已翻譯案例的知識源信息與新的翻譯目標進行對接,重點是完成其中短語與各句式的對應,雖然在對應過程中因方法不同會導致各種步驟的差異性,但并不影響知識源信息與目標信息之間的語言轉換,其基本的思路就是形成從詞到詞、從短語到短語、從長句到長句、從語法樹到語法樹之間的映射。
簡言之就是基于類比學習思想的機器翻譯實現過程,可表述為:若給出某一待譯句子S,則在語料數據庫中可查找一個最相近翻譯句子S,S的譯文即可成為S的譯文。可見,機器翻譯在類比學習狀態下,就成為查找、對應、重現的過程,查找的例子越是接近,就越能夠提高新句子的翻譯準確性,機器要掌握好歷史翻譯句子的翻譯手法與特點,從而在新句子的翻譯中作為重要的參考點。
(二)類比學習應用下的機器翻譯形式
1.完全實例翻譯。此翻譯形式在于對待譯語句進行分析后,在已建翻譯實例數據庫中可搜索到對應的語句,與待譯語句的結構組成一致,因此,完全實例翻譯就轉變為搜索動作,而由翻譯實例組成的數據庫信息量就顯得十分重要,這些實例應該是中英文都有包含的雙語文本。數據庫的建立初期,需要人員先組織一定量的常用語句形成雙語文本,然后輸入到數據庫或翻譯系統的某一模塊內,并且要確保整個數據庫可以隨時填充翻譯好的文本信息,成為后期開展機器翻譯的重要參考樣本。理論上,若待翻譯語句是由若干個最為常見的單次或短語組成,實現搜索翻譯的成功率和準確率更高。然而事實上,很多自然語言并非簡單地詞組短語堆砌,結構句子的數量較多,且在各種詞句的組合中增添了語法與語義的差別,這樣的信息量并不是翻譯實例數據庫或其他計算機系統模塊能夠加載完全的,也就意味著完全實例翻譯的處理方法并不具備更高的實用性。
顯然,完全實例翻譯還無法滿足人們實現機器智能化翻譯的要求,但是我們在實際系統開發中仍然會保留這一形式,并在數據庫中大量累積存放相對穩定成熟的雙語翻譯實例,這就在必要的時候能夠對待譯語言中的翻譯步驟進行有效省略,特別是對自動分詞、句法和語義解析、譯文轉換等內容,所以對于各種待譯語句而言,翻譯的成功率也會得到明顯提升。
2.實例句型轉換翻譯。顯然,完全案例翻譯的翻譯質量較高,但成功率卻不盡如人意,已建翻譯實例數據庫中的雙語本文量數也不能代表完全案例翻譯成功數。當然,若換一角度以句型實例來替代數據庫中的完全實例,則可提升成功率。其主要思想就是將原有長語句中的部分單詞與句型進行結構映射,從而形成譯文中的單詞與句型,可見,句型結構是否表達一致,將是雙語對譯的重點。在該形式下,首要考慮一種情況:句型轉換順序吻合。此時,句型翻譯要實現自動分詞和語法語義無錯就可確保質量。同時,還需要考慮另一種情況:句型轉換順序有別。與完全實例翻譯相比,實例句型轉換翻譯在技術應用上更顯一籌,然而無法越過自動分詞、語法語義解析等步驟。
3.類比近似翻譯。若上述兩種方式無法解決翻譯問題,就需要計算機系統開啟近似翻譯邏輯模式。該形式的翻譯思想就在于主張加強對句型表達語句的近似匹配,在數據庫中找出與待譯語句在結構上最為相似的實例,并定義好兩者中間的相似度,比較不同語句之間的相似度,擇選最優項。此時,相似度的計算則需要作為系統運行中的重點關注點。系統可編入距離程度計算方法,實行罰分概念,分值以趨小為佳,系統選擇最小分值的表達式來開展譯文翻譯。
需要注意的是,類比近似翻譯中的運算復雜度要想降低,應在罰分上加強處理,如可對句型表達式的元素進行增減,并由增減元素在決定罰分分值。若要刪減某元素,則元素是原語句中的關鍵詞,則可取3分罰分值,若是量詞、助詞等輔助元素,則罰分值控制在[0.1,0.3]區間內,具體刪減元素可提前由數據庫中已存的句型表達式來決定。若要增加某元素,則罰分分值將按詞性來分配,具體操作機理有待進一步完善。
總之,機器翻譯已經成為當前各類翻譯工作的得力助手,甚至可在質量效率上取代人工翻譯,但是此目標的實現還有待加強機器翻譯的智能化來完成。機器學習技術的研究,能夠為機器翻譯帶來更大的升級變革,加強基于案例和基于類比的機器學習,無疑是優化機器翻譯的有效保障。以上闡述了以實例歸納和以類比歸納為手段的機器學習技術原理,并基于類比的機器學習相關理論研究了機器翻譯中類比機器學習技術的應用,可為進一步優化機器翻譯的智能技術提供有益的參考與借鑒。
【參考文獻】
[1]楊憲澤,肖明.一種混合式機器翻譯方法的分析研究[J].計算機工程與科學,2012(2)
[2]王莎.統計機器翻譯譯文錯誤檢測方法研究[D].西安:西安理工大學,2013
[3]薛松.基于機器學習的文本處理技術研究與應用[D].北京:北京郵電大學,2015
[4]文佳勝.基于機器學習的少數民族語言翻譯關鍵技術研究與實現[D].成都:電子科技大學,2016
[5]尚劉剛.基于統計的譯文質量評估技術的研究[D].沈陽:沈陽航空航天大學,2016
[6]馬國來,尹長青,宋善.威基于機器翻譯語塊的命名實體翻譯方法研究[J].硅谷,2015(3)
[7]丁亮,李穎,何彥青.統計機器翻譯領域自適應方法比較研究[J].情報工程,2016 (4)
【基金項目】2016年度廣西中青年教師基礎能力提升項目“基于跨文化交際理論的英文門戶網站翻譯研究”(KY2016YB769)
【作者簡介】鄒 蓉(1983— ),女,廣東韶關人,碩士,柳州城市職業學院講師,研究方向:英語教學與研究;覃潘燕(1982— ),女,廣西宜州人,學士,柳州城市職業學院講師,研究方向:英語教學與研究;董 ?。?983— ),男,湖北洪湖人,學士,柳州城市職業學院講師,研究方向:英語教學與研究。
(責編 黎 原)