摘要:計算語言學是計算機對人類自然語言利用的全新領域,通過相關研究發現,計算機利用英語和機器翻譯過程中會出現歧義問題,需要將相關知識作為基礎,進而對高質量的機器翻譯系統開發。本文從計算語言學及其發展入手,討論自然語言處理過程中存在的問題,闡述如何解決歧義問題,希望對相關研究帶來幫助。
關鍵詞:自然語言;計算機;歧義問題
自然語言處理(NLP)是人工智能領域主要的研究方向,在利用計算機的過程中會存在自然語言非規范性、歧義性等影響,需要專業知識與通過一定的推力能力實現語言理解,這也讓自然語言處理面臨極大的挑戰,以下進行相關分析。
一、計算語言學及其歷史
計算機語言學是語言學研究的一個分支,通過計算機和語言學的結合可以輔助分析以及處理英語、漢語、日語等本族語言,進而對自然語言處理系統設計和加工。在技術層面看,計算機對自然語言起到了多方面的輔助作用,具體說來:其一是連接了計算機軟件和自然語言,當前已經證實通過麥克風向計算機咨詢商業航班;其二是借助計算機檢索和更新資料,比如對報刊和相關文章進行瀏覽,之后進行索引,進而快速的計算文章中語句、詞匯等出現頻率,也可以分析文章的語法;其三是實現了機器翻譯,如今的計算機可以將文章從某種語言翻譯成另一種語言。上世紀50年代世界計算機領域的研究人員開始分析計算機語言,并且在信息檢索預計機器翻譯領域取得一定的成績,比如50年代末期,美國、俄羅斯與歐洲的學者都認為隨著科技的發展短期出現高質量的機械翻譯,然而10年過去依舊未能實現。美國科學院曾發表了自動語言處理顧問委員會的報告,認為當時的資源尚不能解決機器翻譯方面的資源問題,需要關注語言處理中更多基本的問題,只有對這些問題解決才能建立翻譯機器,然而機器翻譯遠遠比想象中的困難。隨后世界很多先進國家在該項研究中的實驗室數量減少,政府也很少提供長期研究的資金。語言學家也將研究成果用于其它領域,比如分析語言成分出現頻率,然后在文學文體研究中得到了利用,之后在信息檢索中利用自動化語言分析[1]。
進入80年代,對機械翻譯的研究熱潮再次響起,該階段的研究方法略不同于50-60年代,人們普遍認為主要的研究成就來源于日本,這也側面指明了語言學與軟件技術的發展聯系不大,和計算機規模與發展速度關系不大,更多的和人們欣賞獨創性有關,進而促進機器翻譯初步成功。該階段蒙特利爾大學研發了氣象系統,受到了社會的廣泛關注,這個系統為貨運公司、航空以及有關機構提供法語翻譯,部分機器生產商發現技術員使用特定的語言,之后對模式仔細規劃,這樣就可以對機構內部維修說明書自動翻譯[2]。
二、NLP過程中存在的問題
(一)計算機在使用語言過程中出現的難題
計算機具有強大的功能,但是不能對英語這種簡單的語言利用,比如對于美國、英國等群眾來說英語是十分簡單的語言,盡管計算機有著強大的性能,但是人們使用語言要比計算機更為復雜,比如為盲人提供閱讀機器,需要先把書面的符號轉化為語音,這是一項復雜的工作,即使計算機可以對詞典中每個詞匯的讀音掌握,在實施的過程中依舊存在很多的難題,比如說“read”可以讀成“reed”、“red”,這時機器不會分析在哪種情況下才是正確的讀音,機器并不能懂得在每一種情形下哪個讀音才是正確的呢?假設機器遇到如下句子:The boys will read the book(reed),這時就可以進行程序的編寫,讓read出現在will后面時讀“reed”,出現在have后時讀“red”,不過這樣又會帶來以下問題:①Will the boys read the book? (reed)②Have any men of good will read the book? (red)③Have the executors of the will read the book? (red),在①中,盡管will和read不挨著,但是依舊讀成read;在②和③中,will和read挨著,但是read讀成“red”。如何通過程序的編寫才能讓計算機正確讀出,關鍵如下:其一是計算機需要明確在①和②中will、have 是助動詞,是對read的修飾,所以需要分析閱讀這個詞匯是發生在過去還是將來,需要告知計算機“reed”在助動詞will之后讀“reed”,如果在助動詞have之后讀“red”即使will、have的位置在語句中不相鄰。Will也是助動詞,是對reed的修飾,所以讀“reed”但是在②和③中Will不是助動詞,read修飾have,所以讀“red”,那么機械如何進行識別,只通過一個單詞無法區分,這是由于Will在①和③中用法一樣,需要計算機對文章中語法進行分析,之后組成短語,分析詞匯屬于哪一類,究竟是名詞還是動詞,所以工作更加簡單[3]。
初中生都知道如何區分哪種條件下讀“read”、“reed”或者“red”,但是機器不確定,需要進行細致的分析。上述問題無傷大雅,但是在計算機中的人類語言里,不管是盲人閱讀還是自動電話系統都會出現這一問題。以上例子只是無數疑難問題的一個表現,這些疑難問題需要學者進行語句分析和開發,以往的30-40年人們對句法的理解也幫助了了解語言結構,幫助人類首次對人類自然語言通過機器翻譯出來。但是這種簡單的語言運用也需要計算機編入語言程序,人們不論是閱讀、寫作還是聆聽與對話也需要對這種問題解決,但是人類就可以輕松解決,甚至在不經意間就完成。隨著心理學和神經學的發展,人們對如何理解這些任務有了更深刻的理解。此外,深入理解語言機構也有利于提升計算機的智能性,可以說明的是,對于語言處理來說,即使計算機十分先進也不能和人類大腦比擬[4]。
(二)機器翻譯中的歧義問題
對于計算機的翻譯歧義問題來說,其中包括了諸多的因素,比如詞語有著多重語義,句子中有多種語法,代詞指代不明確,計算語言專家需要進行可以識別詞性或者語法的系統,在機器翻譯中的歧義問題可以在以下方面說明:“我用望遠鏡觀察操場上的那個運動員”,該句中計算機不能確定望遠鏡是我的還是運動員的,或者是運動場的。當消防員說“你的汽車旁邊有一堆易燃垃圾,你得把它處理掉”,所以需要處理汽車還是易燃垃圾,人們的理解不同,行動也會不同,這些歧義會對口語或者書面語言歪曲。人們對語言歧義普遍不在意,這是由于人們已經有了足夠的知識,可以根據上下文分析,但是計算機卻不能做到這一點[5]。
對于翻譯問題來說主要存在如下誤解:一方面是翻譯不需要利用語言知識。另一方面是翻譯的過程中不需要保留原意,這也導致了人們普遍認為計算機進行語言翻譯是簡單的工作,比如說“警察拒絕給學生發放許可證,因為他們害怕暴力”,如果將語義放在法語中“(police)警察”這個詞匯是陰性的,如果用“(advocate)提倡”代替“feared”,好像是指學生,那么翻譯結果就會明顯不同。這個結論得到只需要理解學生、警察等常識與關系就可以分析。
比如在法語中,Ou voulez - vous que je me mette?這句話的意識是“你想把我放在哪里?”如果翻譯為“你想讓我坐在哪里?”、“你想讓我在哪個位置簽名?”、“讓我把船停在哪里”也無可厚非。一般情況下,很多的語言就像法語,代詞中需要區分數量,漢語中的名詞不需要區分復數,再如日語中可以將代詞省略,而俄語中部存在冠詞,德語的語序更加多樣,難以區分其中的主語,所以翻譯是一項復雜的工作,計算機進行語言的翻譯難度更大[6]。
三、如何解決歧義問題
從邏輯關系來看,自然語言是機器智能化的基礎,而自然語言理解的主要障礙就是消除歧義,這一過程中需要開展諸多工作。要想解決歧義問題并找出其中的答案,需要以知識為基礎、以統計為基礎,從這兩個方面入手并將知識作為解決方法,需要系統開發人員對知識進行編碼,通過程序代指內容,比如消防員警告的語句中,需要掌握汽車與廢物之間的價值關系,廢物和丟掉兩個詞匯的聯系,之后對以上內容編碼,該方法更加接近人類對語言的處理方式,所以更容易取得成功。不足之處在于編碼是一項龐大的工程,并且利用已有的知識進行編程效率很低。以統計學為基礎的方法中,需要對大量的語言庫和注解資料搜集,之后逐漸消除歧義帶來的不利影響,也可就是計算歧義后得到想要的結果。比如人們收到三個一組的詞語、介詞、名詞組合,在語料庫中會發現相比man、with的組合更為常見,這種組合的優勢在于利用語料庫可以自動的完成預定任務,不足之處是對這種帶有注解的語料庫制作需要很大成本,需要具備對上文的洞察力,并且在分析的過程中可能出現錯誤[7]。
(一)關系映射歧義消解算法
在網絡技術不斷發展的背景下,網絡中的信息海量增加,對于自然語言中的歧義問題,長期利用關鍵詞:模式匹配的搜索引擎技術,不過在信息的不斷增加下這種技術缺陷開始暴露出來,比如信息組織混亂問題,導致查詢的代價過大,再如關鍵詞:匹配不能理解用戶問題,無法準確的體現檢索需要。所以近年來對于非結構化及半結構化信息出現了大量結構化數據集,YAGO就是一種的代表性數據集,其在Wikipedia中抽取了海量數據,之后結合WordNet構建的本體,如今在YAGO本體中的國家、城市、地名、機構、人物等實體超過107個,使用RDF三元組的形式表示全部知識,其中主要包括兩種方法,其一是實體映射歧義消解,其二是關系映射歧義消解。有研究發現,該算法從自然語言向SPARQL語言映射過程中的正確率高達到81.3%,說明了該算法靠性較高[8]。
(二)基于語料庫的方法
這種方法就是研究人員大量標注語料的基礎上考察已經標注的意向文本,然后得到和將要考察詞義項相關的參數和數據,之后通過得到的數據和參數標注目標詞義項,比如說漢語當中的“單數”,該詞匯有不同的義項,一方面是指1、3、5、7等正奇數,另一方面是指語言當中的單一數量,所以在開始階段需要搜集包括單數的句子,然后標注詞性,在上下文中進行參數提取,考察過程中需要列舉包括單數的新句子,然后通過新句子上下文以及已經標注詞性的句子上下文進行分析,不過這種基于語料庫的方法進行參數提取期間需要對較多語料人工標注,并且參數也需要大量計算,此外標注人員自身的語言水平也會對消除歧義的準確率受到影響[9]。
(三)基于詞典釋義的排歧方法
這種方法就是借助詞典條目的解釋,以此分析多義詞釋義和語境之間的交集,也就是通過詞典釋義分析詞匯的相關程度,比如在漢語詞匯中X是個多義項,在詞典中X的每個義項都對應了不同的釋義,X在某個具體語境當中出現時利用上下文出現的詞匯可以判斷其特征詞,并且每個特征詞在詞典中的釋義有所不同。在分析X在具體語境當中的義項時也需要計算交集,這種排除歧義的方法依賴詞典,而詞典需要對詞語釋義精煉概括,導致在復雜的自然語言環境下不能充分應對。
(四)基于詞類分析進行排歧的方法
詞義在當代漢語當中需要應對不同詞類,所以需要分析多義詞的詞類,這樣就能解決詞類的歧義問題,比如干凈的“凈”,用于形容詞表示為潔凈、沒有剩余,用于動詞代表洗刷干凈,用于副詞代表單純,用于名詞代表戲曲中的角色。比如“地上凈是水”這一句當中用于副詞,這種排除歧義的方法由于詞匯自身義項較多,所以判斷難度較大。整體來看,在漢語當中詞性和句法的成分也未能形成相對應關系,導致難以解決詞性分析的問題[10]。
四、機器翻譯系統的構成
盡管多數的機器翻譯系統都存在差異不過在已經投入系統的部分都可以作為教科書中的章節名稱,并且在系統中都對語法、句法、語義、形態的組成成分進行了設定。源語和目的語這兩種語言都可以找到某個特定的部分,進而對語句中的基本詞匯、復雜詞匯、句子、語義進行分析,在翻譯的過程中單獨成分載入另外成分中,然后到詞語鏈的最后成分中,由此對目的語的某個句子或者體現成分概括。載入轉換成分,這是專門為兩種語言而設計,首先可以對源語的體現形式概括,之后轉化成目的語,在轉換的過程中翻譯系統利用語言關系或者中間語把轉換的部分分成兩個階段,其中第一個階段將源語言翻譯成中間語,之后將得到的結果概括成為目的語。
五、自動分詞深度學習模型
(一)Bi-LSTM模型
在深度學習系列模型當中,循環神經網絡是一種用于序列標記的人工神經網絡,這種模型適合用于詞性標注、自動分詞、實體識別等自然語言處理的任務中。從模型理論上講,循環神經網絡可以對不同自動分詞特征依賴關系屬性加以學習,不過在自動分詞模型訓練期間,隨著時間順序推移循環神經網絡自動分詞的深度也在加強,一旦循環神經網絡自動分詞層數達到臨界值容易造成梯度下降。LSTM可以解決這種問題,在漢語自動分詞當中LSTM結合了記憶單元,并且引入門控制器,對自動分詞模型訓練當中的歷史信息保留或者舍棄。通常來講,單個LSTM神經網絡神經元涵蓋了單個記憶單元,在自動分詞當中對應了信息輸入門、分詞相應信息輸入門以及分詞相應信息遺忘門,分別對分詞信息、輸入輸出進行控制。
(二)Bi-LSTM-CRF模型
在構建漢語自動分詞模型過程中,盡管通過LSTM模型能夠達到良好的分詞順序效果,不過中文自動分詞這種輸出標簽之間對于順序標記問題較為依賴,并且softmax激活函數只能分析當前漢語字分布狀態特點,無法關聯漢語字前后特點。所以LSTM模型當中的漢語自動分詞模型性能受到一定影響,為解決這一問題,CRF模型應運而生,可以將LSTM模型當中的soft max層去掉,之后實現LSTM模型融合CRF模型這種組合,保留了LSTM考慮漢語字上下文信息特性并且借助CRF層對整個漢語自動分詞觀察順序狀態標記當中的聯合條件概率分布進行了計算。
六、結論
綜上所述,在心理學、語言學和計算機等領域中的發現為機器翻譯提供了巨大的便利,而隨著人工智能技術的發展,也為自然語言的翻譯提供了更多便利,如今語言專家對相關的研究也更加深入,其中心理學專家認為假設人腦是生物計算機,可以對大腦理解的以及產生的語言原理掌握,并且可以作為計算機工作模式,之后進行機器翻譯系統的研究,不過能否實現翻譯質量的提升依舊是今后研究的重點。
參考文獻:
[1]楊凡,任丹.基于知識圖譜的自然語言中歧義字段切分系統設計[J].現代電子技術,2020,43(1):44-47,52.
[2]陳倩,樂紅兵.基于改進Trie樹的歧義消解方法[J].計算機與數字工程,2020,48(9):2238-2243.
[3]姚建華,李佳,徐雯麗.第五講化學結構的歧義性及其計算機表達方法[J].上海化工,2019,44(8):8-10.
[4]徐兵,石少青,陳超.基于自然語言的中文地址匹配研究[J].電子設計工程,2020,28(16):7-10,16.
[5]宋一凡.自然語言處理的發展歷史與現狀[J].中國高新科技,2019,22(3):64-66.
[6]侯圣巒,費超群,張書涵.面向中文的修辭結構關系分類體系及無歧義標注方法[J].中文信息學報,2019,33(7):20-30.
[7]陸正揚.基于計算機自然語言處理的機器翻譯技術應用與簡介[J].科技傳播,2019,11(22):140-141.
[8]郭蕾.基于自然語言處理的英語翻譯計算機智能評分系統設計[J].現代電子技術,2019,42(4):158-160,165.
[9]Meesad P .Thai Fake News Detection Based on Information Retrieval,Natural Language Processing and Machine Learning[J].SN Computer Science,2021,2(6):1-17.
[10]Bi S .Research on English Translation of Computer-aided Classics Based on Natural Language Processing[J].Journal of Physics Conference Series,2020,1550:032036.
作者簡介:吳鐘健,(1981-)男,本科,華云天下(南京)科技有限公司。