

【摘 要】研究中俄文字符號在網絡上的應用規律和特點,通過GB2312和UTF-8編碼技術的轉換技術解決中俄網絡語言編程編碼接口問題,結合中俄文語法特點,使用Java語言進行Web方式的中俄網絡語言編碼接口問題,提出解決方案。
【關鍵詞】中俄文;編碼;接口;Java
0 引言
研究中俄文互譯和接口標準關系,能得中國科技企業面向俄語世界的網絡貿易工作都能達到更好的經濟效果。本文針對核心中俄文互通問題,整合與集成不同文化背景的網絡符號互譯與信息交換的標準接口問題,研究中俄文字符號在網絡上的應用規律和特點,注意與計算機搜索引擎技術的協調配合,提高本研究的持續適應能力,形成具有統一性的國際協議。本項目實施相對長期的客戶支持,能促進中國對俄語系21國家的電子商務活動,激勵大眾創業和萬眾創新,最終實現中俄電子商務合作的國際市場化應用[1]。
1 編碼分析
中俄網絡語言編碼接口技術,通過合作研究GB2312和UTF-8編碼技術的轉換技術解決中俄網絡語言編程編碼接口問題,無論是俄文網站,還是中文網站,都能確保文字符號在,中、俄兩個國家適用的操作平臺上正常顯示運行。
1.1 編碼集
完成GB2312和UTF-8編碼技術轉換的研發工作,實現異構系統之間的互聯互通,制定統一的信息標準。由于缺乏編碼方案來解決中俄這兩種不同語言體系在計算機語言中表示的問題,從而導致一直以來中國的商品基本上通過歐美、日、韓等國家轉銷至俄語世界,原因在于他們擁有通往俄語國家的信息交流通道,UTF-8編碼接軌較早。為了通過網絡技術,給中俄企業溝通、交流、發布及獲取信息提供直接的渠道,雙方需要有設計全新的編碼模型方案解決中俄這兩種不同語言體系在計算機語言中表示的問題。
1.1.1 GB2312
GB2312編碼適用于漢字處理、漢字通信等系統之間的信息交換,通行于中國大陸;新加坡等地也采用此編碼。中國大陸幾乎所有的中文系統和國際化的軟件都支持GB2312。基本集共收入漢字6763個和非漢字圖形字符682個。整個字符集分成94個區,每區有94個位。每個區位上只有一個字符,因此可用所在的區和位來對漢字進行編碼,稱為區位碼。同時,GB2312收錄了包括拉丁字母、希臘字母、日文平假名及片假名字母、俄語西里爾字母在內的682個全角字符。GB2312的出現,基本滿足了漢字的計算機處理需要,它所收錄的漢字已經覆蓋中國大陸99.75%的使用頻率。
1.1.2 Unicode
Unicode是為了解決傳統的字符編碼方案的局限而產生的,例如ISO8859-1(Latin-1,是西歐常用字符)所定義的字符雖然在不同的國家中廣泛地使用,可是在不同國家間卻經常出現不兼容的情況。很多傳統的編碼方式都有一個共同的問題,即允許電腦處理雙語環境(通常使用拉丁字母以及其本地語言),但卻無法同時支持多語言環境(指可同時處理多種語言混合的情況)。Unicode為每種語言中的每個字符設定了統一并且唯一的二進制編碼,以滿足跨語言、跨平臺進行文本轉換、處理的要求。幾乎所有電腦系統都支持基本拉丁字母,并各自支持不同的其他編碼方式。Unicode為了和它們相互兼容,其首256字符保留給ISO8859-1所定義的字符,使既有的西歐語系文字的轉換不需特別處理;并且把大量相同的字符重復編到不同的字符碼中去,使得舊有紛雜的編碼方式得以和Unicode編碼間互相直接轉換,而不會丟失任何信息。在文字處理方面,Unicode為每一個字符而非字形定義唯一的代碼(即一個整數)。以一種抽象的方式(即數字)來處理字符,并將視覺上的演繹工作(例如字體大小、外觀形狀、字體形態、文體等)留給其他軟件來處理,例如網頁瀏覽器或是文字處理器。UNICODE用2個字節編碼,它通過增加一個高字節對ISOLatin-1字符集進行擴展,可以用ASCII表示的字符使用UNICODE并不高效,因為UNICODE比ASCII占用大一倍的空間,而對ASCII來說高字節的0對他毫無用處。為了解決這個問題,就出現了一些中間格式的字符集,他們被稱為通用轉換格式,即UTF(Universal Transformation Format)。常見的UTF格式有:UTF-7,UTF-7.5,UTF-8,UTF-16,以及UTF-32。UTF-8用1到6個字節編碼UNICODE字符。用在網頁上可以同一頁面顯示中文簡體繁體及其它語言(如英文、日文、韓文)。
1.2 中俄文字差別
1.2.1 中文雙字節
GB2312和UTF-8編碼技術轉換的研發工作,實現異構系統之間的互聯互通,制定統一的信息標準。在兩國架設的服務器設備中同時嵌入中俄兩國的標準字符庫,為數據匯總和數據交換中的數據沖突問題提供完善的解決方案,從而避免在境外使用出現的文字亂碼現象。漢字是雙字節而一些漢字編輯軟件并沒有充分認識到這一點,例如:漢化對光標移動、刪除等還是按單字節方式處理,16*16俄文,8*16俄文字都是單字節的,給用戶造半個字顯示的混亂的后果[2]。
1.2.2 俄文重形式
俄語是莊重的書面體語體,它的商務行文簡練,語法比較嚴謹,重點也突出,言辭極具數學邏輯性和技術準確性,交流要求盡可能準確地描述和解釋一定的事實。俄羅斯人更加接近西方世界的直觀式思維方式。強調由細節部到整體部,由外表到內涵的分析思路。比較理性的思維,注重形式的論證過程,不喜歡采用藝術比喻手段,追求語義簡明且凝練,要求明白、并且直露[3]。
1.2.3 俄文多語格
俄語符號文句在語法上是:使用非一致性定語的第二格的特點比例較高[4]。俄語符號文句二格在網絡俄文中,首先要用于表示出定語關系,語句中包含比列達到41%。形容詞性在俄語文句中的混合運用相當多而普遍,除了形容詞的普通混用之外,還大量地使用帶著補語語法的形容詞根。絕大多數俄語動詞都用未完成語體的“現在時”來表達含義,比較復雜的動詞第三人稱的陳述式,占文章的大部分。網絡現在時和網絡動詞的第三人稱單數形式很多,使用比率較頻繁。俄語還多喜歡用長句和復合句式,以便能確切地表達出嚴格的語義上的關聯邏輯[5]。
1.3 商務編碼轉換
中亞國家屬于俄語使用范圍,俄語的交際功能和實際應用性并沒有因法律地位的下降而大幅度降低。俄語仍然是主要的族際交際語言語言政策與現實需求的背離。嚴重影響著社會生活的方方面面[6]。中俄之間的互訪路徑往往要通過多次編碼轉換才能達成[7]。這就直接導致中俄雙方頁面在異域的運行速度非常慢,為實現雙方文字在應用終端準確、實時的顯現,中俄雙方專家擬采用架設鏡像服務器(Mirror server)的方式,完成主服務器字庫定時鏡像的任務,實現在網絡以及雙方現場進行俄、漢或其他文種貿易文本的起草、翻譯、溝通、修改、確認、完成貿易合同;提供貿易活動的下游的雙語文件和信息(包括商檢、物流、報關活動所需的雙語文件信息);通過網絡對貿易活動全過程進行必要的安全監控。受到貿易規模的影響,國內大部分企業沒有通過互聯網開拓。國際市場基本上通過歐美、日、韓等國家轉銷至俄語世界,所以對俄企業數據庫的建設速度較慢。
2 動態接口轉換
將Web頁面上的域標記,及其文本屬性值進行Java程序化動態隔離,以DIV、SB和BB等標記為樣本容器,利用Java腳本分析技術,實現動態的Web文本的過濾、布局、刪除和修正的功能,來修正頁面編碼方式。在java編碼中,要對網絡平臺的頁面文件作“字符集設置”,如圖1所示。
2.1 動態字符集
利用Web頁面上的表單分析語法,將Web單元的文本數據和交互過程,實現動態翻譯管理,豐富用戶交互數據輸入形式,動態俄文翻譯的支持格式要求相應字符集的變動和動態字符的變更,目的是為客戶數據能適用I/O功能來鋪墊動態翻譯模塊。在編程開發工具中要對集成開發環境的字符編碼做出設定,例如:ISO88591-1,以適應動態變更的需要。
2.2 轉碼方法
Web頁面的專碼問題,要求將俄文文本頁面組織布局形式,劃分的更加細小,適應文字節單位。服務器只傳遞“節部分”的變動性Web數據,直接翻譯,不需要重復發送補充性重復資料。當用戶請求翻譯頁面時,往往只需要動態構造的新的翻譯字符碼數據列表或DIV域局部。當用戶翻譯請求時得到的服務器動態響應時,啟動異步翻譯功能,對應域文本位置上,就能動態適用翻譯結果替換HTML元素的局部文字。“動元翻譯”是實現異國語言接口自動翻譯系統的嵌入性技術基礎,需要翻譯插件的模塊性支持。通過動態域元素字符集設定,可以解決獨立頁面和編程文件的字符統一問題,但是實際上在文字信息通過網絡傳輸的過程中,仍然會因為不同用戶的國家區域不同,操作語言不同,而產生亂碼,因此需要對傳輸得到的文字信息進行編碼和解碼,如圖2所示。
在一個多語種的網頁中,Java腳本與HTML、CSS和COM組件集成,能實現復雜的交互過程,極大地豐富Java程序接口設計的手段。這樣我們在文字信息的發送端對信息用固定的編碼方式編碼,在信息接受端用相應的解碼方式進行解碼,使得最終得到的信息適應接收端的本地環境,以接收端的本地語言方式正確顯示出來。
如果客戶適配本地的語言為:簡體中文,但是對于俄語文字的保存,如果不做正確處理,就會保存為亂碼。可根據數據庫服務器所在國家的語言環境設定好默認字符集,并對數據庫接收的信息進行預加工、預處理使它適配于數據庫服務器所兼容的字符集,最后,再對處理好的信息進行保存操作。信息從數據庫輸出時,也要做類似的信息編碼轉換工作,使得從數據庫中查詢出的信息適配于各個本國家的語言環境,從而展示出來沒有亂碼。
2.3 亂碼處理
網絡上的俄文信息,一部分通過網絡直接傳輸,但是大部分實際上是要保存到數據庫中,來自不同國家,不同語言的文字信息要保存到數據庫里,同樣面對著信息亂碼問題。
客戶端通過頁面操作激發自動接口動作,調用了Java組件的異步引擎。自動接口模塊要捕獲Web文本和圖片對象的操作事件,直接合成翻譯參數URL途徑,再向客戶發出翻譯結果。客戶端可以不等待自動接口的反饋結果,繼續維持客戶的其它交互性操作流程,保持業務操作的連貫性。Java語言可以操控Web文檔的元素構成,默認以document指向整體文檔對象,例如:和等為高級節點,節點類型是Element。對于每一次頁面啟動的Element節點元素,都可調用get-Attribute()、set-Attribute()和remove-Attribute()等方法,來設置或修改節點的接口性質[8]。也能使用parent-Node屬性和child-Nodes[]數組形式,在預定文檔樹中,上下移動文本元素;可以通過遍歷child-Nodes[]數組,使用first-Child和next-Sibling性進行循環性接口設置。從而改變文本結構和接口屬性,達到靈活多變的翻譯目標,避免文本混亂顯示問題。
3 結果與分析
俄方網絡平臺展現情況:①應用本項目的轉碼技術后,俄方網絡平臺展示中文商品信息沒有亂碼。②中方網絡平臺展現情況:在中國國內訪問俄方外貿交易平臺沒有亂碼。同時在國內可以以俄文錄入中國商品信息,在雙方網絡平臺展示均無亂碼。
網絡平臺采用轉碼技術后應用效果比較。①俄方網絡平臺應用情況:俄方網絡平臺能準確、完整地展現中國商品信息,客戶認可率高。②中方網絡平臺應用情況:中方網絡平臺可以自如地用俄文描述,錄入中國商品信息,并在俄方平臺準確展示,很受企業歡迎。
使用接口轉碼技術后,在中俄兩方的網絡平臺上均解決了亂碼問題。實現了無論是俄文網站,還是中文網站,都能確保其在中、俄兩個國家適用的操作平臺上正常顯示運行。有效解決了中俄網絡語言編程編碼差異化問題,提升了中國科技企業的跨國技術創新能力,從而幫助中國商品能迅速、有效、準確、直接在俄羅斯主流網絡媒體展示。
【參考文獻】
[1]李海艦,田躍新,李文杰.互聯網思維與傳統企業再造[J].中國工業經濟,2014,10:135-146.
[2]王曉華,張鵬,傅景歆.俄漢編輯軟件的實現[J].黑龍江大學自然科學學報,1998,02:43-45+48.
[3]徐濤.基于“情景更替理論”的俄語動詞體常體意義新論[J].中國俄語教學,2015,01:40-44.
[4]陳雪.俄語計算機術語構成研究[J].中國俄語教學,2010,01:37-41.
[5]樂路.試探科技俄語的特點及其翻譯[D].上海外國語大學,2009.
[6]張宏莉.中亞國家語言政策及其發展走向分析[J].新疆社會科學,2015,02:72-79+161.
[7]余自潔.計算機、多媒體技術和當今俄語教學[J].中國俄語教學,2003,01:51-54.
[8]王翠云.高校網絡教學輔助平臺的設計與實現[D].電子科技大學,2013.
[責任編輯:王楠]
客服熱線:400-656-5456??客服專線:010-56265043??電子郵箱:longyuankf@126.com
電信與信息服務業務經營許可證:京icp證060024號
Dragonsource.com Inc. All Rights Reserved