內容摘要:BLEU作為當前相對具備較高應用價值的機器算法之一,在機器翻譯尤其是語句生成領域存在著一定的協同發展作用。現就BLEU衡量標準在NLP領域的實際地位及發展歷程,淺析基于BLEU的格律詩生成的自動評測方法研究。
關鍵詞:BLEU NLP 機器翻譯 語句生成 自動評測方法
BLEU作為NLP領域中十分經典的衡量標準,目前在多數機器語句生成技術中均存在著相應應用。早在2002年該衡量標準便得到了國外研究人員的提出,并與同年由Kishore Papineni et al.在相關學術會議中提出。這一衡量標準在實際發展過程中通過機器計算來完成對兩個句子的共現詞頻率計算來實現對兩句語句一致程度的最終測評。雖然就該自動評估方式而言容易受常用詞以及較短翻譯句式的影響,但不可否認其在諸如格律詩等文學類語句自動生成領域存在著較大的應用價值。現就筆者觀點,對基于BLEU的格律是自動生成評測方法進行相應研究。
一.BLEU概述
在機器翻譯領域BLEU技術存在著較為廣泛的應用范圍。由于當前機器翻譯領域之中在語句生成方面的需求面日益寬廣,因此在語句生成的邏輯研究以及機器算法開發方面的投入力度也隨之增加。為保證語句生成的實際質量滿足相應需求方的具體需求,需要在語句生成過程中做到生成思路符合人工智能的實際思路,并在具體算法設計上對語句之間的邏輯性和語言性做到良好的認知。
BLEU作為機器翻譯領域中常用輔助工具的一種,其本質是指雙語互譯質量評估輔助工具,作用于評估機器翻譯的具體質量。BLEU的設計思想與評判機器翻譯好壞的思想是一致的:機器翻譯結果越接近專業人工翻譯的結果,則越好。眾所周知,對于機器翻譯實際質量的評測工作往往是由人工來完成,同時在面對多數機器翻譯的實際作品時也通常存在著翻譯結果與實際表達含義存在著出入的情況發生。為應對這一現象便進行了BLEU技術的開發工作。這一舉措不僅實現了對于機器翻譯語句質量檢測的信息化渠道搭建,同時極大的節約了人工檢測的成本與時間。BLEU是做不到百分百的準確的,它只能做到個大概判斷,它的目標也只是給出一個快且不差自動評估解決方案,但這一結果已然體現了機器檢測結果體系在機器翻譯領域的應用價值。當前對于BLEU技術的開發工作仍在繼續,實現BLEU算法的機器翻譯檢測工具同樣具備了較高的應用程度,并在相關行業領域存在了一定程度的普及。
二.格律詩自動評測方法研究中BLEU技術的應用價值分析
當前現存的BLEU參與的漢語言文學作品自動生成系統中較為成功的一款便是由微軟亞洲研究所自主開發研究的對聯自動生成系統。由于對聯在實際格式上與格律詩存在著較大的相似之處,尤其是在對仗、押韻以及各式、寓意方面的需求存在著較大的共通之處,因此在格律詩自動生成系統中同樣可以應用這一體系的運行特點來在思路方面帶來突破。自動對聯系統在實際統計翻譯理論的結合以及統計翻譯理論應用的思路方面在于通過現有數字建模技術來對對聯信息中的源語句、格式類型進行建模,通過較為復雜的運算進行創作格式以及創作思路的規律模擬;同時通過數字建模系統能夠有效的對作品之中大多數案例中上下文之間的語義關系進行模擬,找出目標語句之間的對應關系。這一機制體現出的特點與BLEU應用價值大致吻合,且在實際應用過程中通過BLEU評測標準能夠基本判斷對聯生成質量是否符合用戶基本需求。同樣的,對聯自動生成系統與格律詩自動生成系統在搭建思路方面存在著較高的共通之處,為確保用戶在使用格律詩自動生成系統時能夠實現自身需求得到大致滿足,進行BLEU標準的搭建具有著較高的應用價值。由于格律詩自動生成系統在自身系統自動評測方法上對效率及準確精度存在著較大需求,同時在詩詞自動生成過程中有效避免了常用詞對BLEU的實際干擾,因此該標準在格律詩的自動生成系統中存在著較為高度的發展空間,二者協同發展的實際前景具有科研價值。
三.基于BLEU的格律詩生成自動評測方法研究
作為新興的機器算法檢測的衡量標準之一,BLEU標準在實際應用過程中存在著較為明顯的優缺點。其優勢在于自身檢測結果的應用價值顯著且具備了較為高度的參考價值,同時相對于人工檢測方式而言這一檢測機制響應時間更短、檢測效果更明顯,且在多數的自動評測方法之中這一單元的應用成本要明顯低于人工成本。然而同時BLEU的缺陷相對而言同樣較為顯著。首先,BLEU作為邏輯層面的檢測響應機制在語法語義方面的應用缺失較為嚴重,雖然能夠基本實現對于語言邏輯層面的布控,卻不考慮語言表達(語法)上的準確性;其次,由于當前BLEU應用詞庫依舊處于填充過程之中,因此在關鍵詞檢測中雖然具備較高的精確度,但在常用詞檢測之中同樣會受到詞庫匱乏這一弊端的影響,測評精度會受常用詞的干擾;第三,短譯句的測評精度有時會較高;同時沒有考慮同義詞或相似表達的情況,可能會導致合理翻譯被否定。這一結果顯然不是研究人員所期望的實際結果,因此目前對于BLEU標準的界定較為模糊,是否落實應用這一標準也是多數檢測評測系統搭建的重點探討問題之一。
目前對于格律詩自動生成系統的應用建設已然具備了較為完善的相關經驗,且格律詩的創作應用具備了較大的特殊性。于漢語語言文學與計算機算法的結合發展相對傳統計算機算法的發展建設進程而言其建設工作的內涵相對較為復雜,因此實際應用過程中對于機器算法的實際質量存在著較高要求。這一系統的運作機制在于通過對漢語言文學以及詩詞類藝術鑒賞進行數字建模,來實現通過計算機技術系統化的生成格律詩題材的文學作品,以適應現階段社會環境中的信息化藝術發展形勢。同時格律詩由于自身特殊的文學地位在創作過程中同樣具備了較高的難度。眾所周知,格律詩在自身題材中包含了律詩以及絕句兩大組成部分,我國漢語語言文學史上具有著較高的地位。而格律詩的自動生成系統開發難度之所以較高是因為這一題材的詩詞作品在創作過程中對于已經以及韻腳存在著高度的要求,既需要在題材格式上滿足詩詞的多元化搭配,同時在詩詞自身的意境上同樣需要具有較高的文學素養。
在格律詩自動生成系統中進行基于BLEU的自動評測發展時間相對較短,且依舊存在著經驗缺失的問題,因此就筆者觀點而言對其進行自動評測方法研究具有著一定的積極價值。目前常見的基于BLEU是自動評測方法主要存在于關鍵詞檢測以及核心語句建模兩大方面。關鍵詞檢測是指在格律詩的自動生成過程中首句生成階段。目前我國常見的格律詩自動生成系統在進行首句生成時主要依靠于《詩學含英》中的分類體系進行參考。眾所周知,《詩學含英》一書中在語義類別的具體分類上面向不同的詩詞類型共存在著40大類、1016個關鍵詞、41248個詞匯,因此在進行首句生成時該自動生成系統僅僅需要用戶進行詩詞題材的選擇以及三個關鍵詞的確定即可完成對于格律詩首句的生成工作。而核心語句建模則相對較為復雜,是指通過對同一類型關鍵詞、核心詞匯的評測來完成對于格律詩自身風格的數字建模工作。在通過相似度檢測以及首句、二三四句的實際生成關系確認后通過核心語句建模能夠有效確保語句在生成后韻腳、平仄均符合律詩或絕句對于整體作品的相關需求。
BLEU標準與格律詩的自動生成體系建設具有著較高的協同發展價值,同時就BLEU標準的實際發展來看這一理論在自動生成等技術領域的實際應用已然具備了一定的成熟度。為確保我國相關格律詩自動生成系統在實際應用過程中能夠穩定發揮自身機制特點,在作品生成時滿足用戶具體需求,對BLEU進行應用是當前我國格律詩自動生成系統開發研究的重點工作內容之一。相關科研人員還應加強對于該技術類型的具體認知,實現基于BLEU理論的格律詩自動生成的評測方法及實際作用符合該系統的開發需求。
參考文獻
[1]杜金華,張萌,宗成慶,孫樂.中國機器翻譯研究的機遇與挑戰——第八屆全國機器翻譯研討會總結與展望[J].中文信息學報,2016,(07):15-16
[2]蔣銳瀅,崔磊,何晶,周明,潘志庚.基于主題模型和統計機器翻譯方法的中文格律詩自動生成[J].計算機學報,2017,(16):30-34
[3]何晶,周明,蔣龍.基于統計的漢語格律詩生成研究[J].中文信息學報,2015,(22):35-40
(作者介紹:朱騏,鹽城工學院信息學院副教授,從事計算機應用與教學、中國古典文學研究)