改造者:余長江 馬 斌 鐘方偉 周 平
基于混合策略的多語種票據轉換
改造者:余長江 馬 斌 鐘方偉 周 平
主要研究現有業務系統實現多語種票據自動轉換的方法;首先闡述了多語種票據轉換的必要性,然后論述多語種票據轉換的關鍵技術,給出自動轉換方法的流程,最后通過實例論證了方法的可行性,對多語種票據轉換方法的擴展性做了展望。
中國實行民族區域自治政策,對少數民族聚集地區社會穩定、民族團結和經濟發展起到積極的推動作用。隨著信息技術在各行各業的深入應用,很多票據、單據、發票等內容還是以漢語作為唯一表述語言;部分采用雙語打印的票據,由于業務或內容變更而無法及時顯示準確的信息,無法滿足還沒有掌握漢語文字的群眾需求,對服務雙方的交流造成一定的障礙,從而對當地民族團結和社會穩定造成了一定的影響。
新疆是國家重要的能源基地,電力行業是新疆經濟發展的重要支撐,電力行業的服務質量對新疆發展和社會穩定起著重要作用。國家電網公司推廣的電力營銷業務系統,操作語言只有漢語,系統在新疆本地推廣存在著嚴重的語言問題,尤其是電費繳費業務中票據的雙語顯示問題,不能完全滿足客戶需求。
為此,需要研究一種多語種票據轉換和打印方法,將漢語票據內容通過實時翻譯自動轉換為多語種內容,同時按照票據格式進行排版,最后在不影響現有業務系統流程的前提下,實現多語種票據打印。
現有業務系統已經形成獨立、完整的系統架構,因此,增加翻譯服務需要考慮對現有系統的影響,開發、部署原則應當以最小代價為基礎,不影響現有系統的業務獨立性。
圖1 混合策略翻譯原理
基于混合策略的翻譯模式
目前,市場上自動翻譯系統的翻譯準確率平均在60%左右,無法滿足商業用途。但是,在特定領域內,存在有針對性的翻譯方法,如針對姓名、地名的專有名詞翻譯,基于專業術語的詞匯翻譯,針對大批量和重復性工作的基于記憶庫的翻譯方法等,能夠有效提升翻譯準確率,使其滿足商業要求。因此,針對票據內容的翻譯,可以采用基于詞典、記憶庫、規則等混合策略的翻譯模式,來提高翻譯的準確率。
由于少數民族的人名或者地名,一般采用音譯的方式,尤其是人名的翻譯沒有統一標準,存在多個漢語名字對應同一個少數民族語言名字的情況,因此,對人名和地名進行單獨翻譯不但能夠提升翻譯效率,更重要的是可以統一翻譯標準。
常用詞匯翻譯,一般采用基于記憶庫和專業術語庫的翻譯方式。在某一個領域內,通過翻譯訓練,將常用詞匯記錄在記憶庫或者術語庫,因此,能夠滿足大多數商業應用的需求。其他詞匯的翻譯需求,需要通過通用翻譯方式來實現,這種翻譯方式的準確率比較低、翻譯效率低,因此,在特定領域或者場景中,主要用于對前幾種翻譯方式
由于目前已經存在漢英、漢維、漢哈、漢蒙、漢藏等多語種的翻譯引擎,因此,將票據的漢語內容實時轉換為多語種,需要重點解決兩個問題。
一是提高翻譯的準確率
由于當前的翻譯引擎自動翻譯的結果準確率比較低,還不具備普遍應用的水平,不能直接應用于實際業務。但是,可以通過擴展專業術語庫、提供多策略的翻譯方式、多倫次的語言訓練等方式來解決此問題。
二是翻譯服務集成方式的選擇的補充。
基于混合策略的翻譯模式,其主要步驟包括:
1.分詞:將翻譯目標語句,按照語言特點進行分詞,分分離出單詞、詞組等;
2.標準:結合應用場景,按照詞的特性,標注詞的屬性,例如,人名、地名、專業術語、領域詞匯、通用詞匯等;
3.分類:按照標準屬性,翻譯引擎調用不同語料庫,進行檢索翻譯;
4.翻譯:在詞匯翻譯后,調用翻譯引擎進行詞匯組合(翻譯引擎提供語意分析,按照語言特點進行語句組合),形成完整的語句方式的翻譯結果;
5.還原:按照商業應用目的或者場景,將翻譯結果按照目標格式組合輸出。
圖2 翻譯服務集成架構
圖3 混合策略的票據自動轉換打印流程
票據轉換服務集成架構
多語種翻譯作為一個服務,應該與原有業務系統獨立,不影響業務系統的業務流程;同時,翻譯服務也不應該重復業務系統的業務流程,只需提供翻譯服務或者調用業務應用即可實現多語種業務,這樣既保證了系統松散耦合,又可以降低開發成本。
實現多語種翻譯、票據自動轉換和打印等功能,首先需要開發和集成兩個服務接口:一是在業務平臺上開發相應的接口服務,二是多語種翻譯服務中開發相應的接口服務。導出WSDL接口描述文件,通過應用集成將服務注冊部署在企業服務總線(ESB)上,通過SOAP協議方式,實現在業務平臺側的業務響應服務和多語種翻譯服務側的業務響應服務。
其次,業務應用集成滿足如下兩個場景:
1.多語種翻譯服務發送SOAP消息給ESB上的代理服務偵聽,由代理服務動態路由到業務服務,實現調用業務平臺上的接口服務。業務平臺上的服務在完成業務處理后實時反饋執行結果。如圖中右側虛線部分;
2.業務平臺發送SOAP消息給ESB上的代理服務偵聽,由代理服務動態路由到業務服務,實現調用多語種翻譯的接口服務。多語種翻譯服務在完成翻譯處理后實時反饋執行結果。如圖中左側實線部分。
自動轉換流程
多語種票據自動轉換方法包括三個主要步驟:一是預處理部分,主要完成業務交互數據的封裝和解析;二是機器翻譯部分,主要完成基于混合策略的機器翻譯過程;三是后處理部分,主要完成翻譯記憶、多語種票據生成等過程。其具體流程如圖3所示。
預處理部分接收XML格式的數據包,通過數據解析,判斷票據的類型,提取票據內容到待翻譯隊列中。判斷票據類型主要有兩個作用:一是獲取票據主要數據項,用于票據內容提取、待翻譯詞匯的屬性標注,助于翻譯方式的選擇;二是針對票據格式的記錄,翻譯結果將會按照數據項分別輸入到對應的內容框中,并根據內容框的大小調整多語種文字的大小。
在預處理提取了票據內容后,將標注了屬性的待翻譯信息輸入到翻譯引擎,翻譯引擎根據屬性選擇相應的語料庫進行實時翻譯,最后將詞匯翻譯結果組合成目標語句翻譯結果輸出。
后處理部分首先將翻譯結果中,標準常用屬性的部分提取出來,通過記憶庫檢索比較,將庫中沒有的詞匯或詞組錄入記憶庫,以備后續應用。然后根據預處理部分解析的票據類型和格式,填充多語種翻譯結果,然后生成多語種票據,以XML格式封裝保存。最后將生成的多語種票據輸出到業務平臺進行打印。
xml票據數據結構
多語種票據轉換過程中,票據數據以XML格式封裝,具體格式如下例所示:
<dataset〉</dataset〉:標記數據集的開始和結束;
<headers〉</headers〉:頭元素集;
<header name=”頭元素名”〉頭元素值</ header〉:頭元素;
<parameters〉</parameters〉:參數元素集;
<parameter name=”參數元素名”〉參數元素值</parameter〉:參數元素
<datastores〉</datastores〉:數據存儲集的開始和結束;
<datastore name=”數據存儲名”〉</ datastore〉:數據存儲集的開始和結束;
<metadata name=”元素定義名”〉</ metadata〉:數據存儲集中字段元素的定義;
<rowset〉</rowset〉:多行記錄集的開始和結束;
<row〉</row〉:行記錄的開始和結束;
<column name=”字段名” type=”字段類型”〉字段值</column〉:字段元素。
圖4 多語種票據實例
基于混合策略的多語種票據自動轉換方法已經應用于新疆電力維漢雙語營銷業務系統,在營銷業務應用中需要與最終用電用戶確認的表卡單據,如電費發票類單據、用電申請類表單、電費賬單類、客戶用電事故類表單、用電設備裝拆類表單、停送電通知類表單、用電檢查工作類表單等實現維語打印,確保最終的用戶能看懂填報內容,保證確認信息清晰、明白、理解無歧義,有效的解決了民族用戶看不懂漢語票據的難題,提高了供電企業服務用電客戶,滿足少數民族用戶需求。
基于混合策略的多語種票據轉換方法,是多語種機器翻譯技術商業化成功應用,對于機器翻譯技術的發展和普及具有重要意義。后續,將基于多語種處理技術的研究進展、應用領域的拓展,進行針對性的改進,提升應用面和翻譯性能。
10.3969/j.issn.1001-8972.2015.23.020