羅霞



摘 要: 針對海量的互聯網數據經常產生翻譯歧義的問題,設計英語翻譯術語高效搜索系統。所設計系統的工作模型從海量互聯網數據中收集英語翻譯術語,搜索模型構造映射線程來剖析目標英語翻譯術語的基本概念和學科范圍,通過搜索鏈接來驅動工作模型進行搜索。工作模型分5條路徑采集搜索結果中英語翻譯術語的結構特征,提取相關比率高的結果并存儲于搜索鏈接中,將相似度小的搜索結果排列在搜索鏈接前端,反饋給搜索模型供用戶查看。實驗測評顯示,系統的查全率和查準率等級很高,也可保證搜索效率。
關鍵詞: 海量互聯網數據; 英語翻譯; 術語; 高效搜索
中圖分類號: TN911?34; TP391.3 文獻標識碼: A 文章編號: 1004?373X(2017)13?0134?03
Abstract: Since the massive Internet data often produces the translation ambiguity, the English translation term efficient search system was designed. The working model of the designed system collects the English translation term in the massive Internet data. The mapping thread is constructed with search model to analyze the basic concept and subject scope of the target English translation term. The working model is driven by search link for search. Five paths are divided in the working model to acquire the structure feature of the English translation term in search results. The result with high correction ratio is extracted, and stored in the search link. The search result with low similarity is arranged in the front end of search link, and feed back to the search model for user viewing. The experimental evaluation results show that the recall ratio and precision ratio of the system are both high, and can ensure the search efficiency.
Keywords: massive Internet data; English translation; term; efficient search
科學技術的日益發展帶來了海量的專業術語,國際間多領域的溝通離不開英語翻譯,英語翻譯術語使用越發頻繁。專業術語在日常生活中并不常用,術語數量每天都在不斷增加,專業的英語翻譯人員也無法完全掌握術語釋義,因此,逐漸產生了英語翻譯術語高效搜索系統,這種系統合理利用了互聯網數據,適合專業翻譯和普通人群使用。海量的互聯網數據是動態的,數據結構和評價標準欠缺,數據雜亂無章,經常產生術語翻譯歧義,英語翻譯術語高效搜索系統的設計難點在于如何提高系統查全率及查準率等級。
1 海量互聯網數據中英語翻譯術語高效搜索系
統結構設計
英語翻譯術語高效搜索系統并非直接在互聯網數據中進行搜索,而是當用戶輸入一個目標英語翻譯術語后,系統自動向海量互聯網數據集群中發送搜索指令,采集目標英語翻譯術語特征,通過特殊方式在集群中匹配到目標英語翻譯術語,一般來講,含有目標英語翻譯術語的有效互聯網數據都會被顯示在系統頁面上。對顯示內容進行篩選,選擇一些數據之間相似度[1]低且相關比率[2]高的搜索結果輸出。相似度和相關比率的計算公式如下:
避免產生術語翻譯歧義的前提是構造一個工作模型,對英語翻譯術語特征進行高精度采集,要求必須時刻保持工作模型的高效處理能力。此外,還需重點構造一個搜索模型,要求搜索模型的更新能力強,易于維護[3]。圖1是設計的英語翻譯術語高效搜索系統組成,系統由用戶模塊、互聯網機器翻譯模塊、工作模型和搜索模型組成,4個模塊的工作數據統一生成行為日志,供開發者查看和分析,以維護系統功能。
系統的互聯網機器翻譯模塊接入互聯網,按照網頁中URL(Uniform Resource Locator,統一資源定位器)[4]的指引方向,以蜘蛛式延伸到其他網頁,從海量互聯網數據中收集英語翻譯術語,存儲到工作模型中。以上介紹的是系統前期準備過程,當用戶通過用戶模塊登錄到系統中搜索英語翻譯術語時,搜索模型向互聯網機器翻譯模塊發送搜索指令,互聯網機器翻譯模塊建立搜索鏈接傳給工作模型。工作模型對收集到的英語翻譯術語進行解釋,剖析術語結構特征,提取相關比率高的互聯網數據并按照相似度進行排序,將相似度小的搜索結果排列在前端,并存儲到搜索鏈接中,反饋給搜索模型供用戶查看。
2 工作模型介紹
設計的英語翻譯術語高效搜索系統的工作模型負責進行海量互聯網數據加工,模型分5條路徑采集英語翻譯術語結構特征,如圖2所示。
由圖2可知,每條互聯網數據都會經歷5次采集,最終得到最具代表性的英語翻譯術語搜索結果。為滿足系統的高效搜索能力,5次采集過程同時進行,將5次采集結果匯總在一起進行去重,只保留一個重復結果,在權重比例最大的采集路徑上輸出[5]。再對比目標英語翻譯術語的語境給出搜索結果。
前4條采集路徑通過查閱互聯網上的專業英語翻譯文獻、整合內部知識和外部知識,對數據結構特征進行挖掘,第5條采集路徑給出的數據結構特征則完全由內部知識決定。內部知識指專業術語發源地給定的參考釋義,這種釋義受到地域、文化和專業差異的約束,并非百分百準確,但能夠指引英語翻譯方向[6]。外部知識指專業的英語翻譯人員給出的參考釋義,考慮到英語翻譯人員對專業術語的領域知識儲備不多,外部知識的指導性不及內部知識,錯誤率稍高一些[7]。各條采集路徑對英語翻譯術語的指導性排列順序為:
根據指導性排列順序確定每條采集路徑的數據結構特征權重,設總權重為1,那么第1條采集路徑的權重最大,為0.4,第4條為0.35,第2條為0.15,第3條和第5條的權重均為0.1。
3 搜索模型介紹
搜索模型的主要作用是剖析用戶自然語言的結構特征,提純出術語的基本概念和學科范圍,模擬人腦記憶保留方式,不斷維護、更新結構特征,必要時可采用邏輯分析技術。搜索模型結構如圖3所示。
設計的英語翻譯術語高效搜索系統以用戶要求為導向,用戶要求涵蓋在用戶輸入的自然語言中,用戶輸入何種自然語言結構,系統反饋給用戶的大部分搜索結果就是何種結構,這與系統進行的相關比率計算有關。進行目標英語翻譯術語特征提取時,搜索模型將構造一個映射線程,分析目標英語翻譯術語表達的基本概念和學科范圍。可見,搜索模型的映射線程為一個一對多線程,線程上的每一個映射點都坐落在目標英語翻譯術語的學科范圍之上,與基本概念相近的學科也連接在線程上,可避免因用戶自然語言表述不清晰而不能輸出標準搜索結果[7]。映射線程要表達出目標英語翻譯術語的詞性,名詞與名詞對應,動詞與動詞對應,以此類推。
映射線程將目標英語翻譯術語的基本概念和學科范圍混合顯示,對結構特征表述不清楚,搜索模型構造語料庫進行映射點分類和分層,父節點為頂點,表述特征類別,按照相關比率向下依次連接子節點[8]。分析父、子節點的范化特征矢量,對特征進行聚類,獲取目標英語翻譯術語想要表達的基本概念和學科范圍,給出搜索指令。
指令擴展并非搜索模型的必經處理步驟,在圖3中用虛線表示。如果一次搜索的搜索結果沒能給出用戶滿意答案,用戶行為傾向于進行二次搜索。當行為日志監測到用戶有連續兩次或兩次以上的相同術語搜索行為,系統自動擴大映射線程映射點范圍,給予用戶不同種類的搜索結果。
4 實 驗
4.1 實驗步驟介紹
在如圖4所示的某高校大型計算機實驗室中,依次對本文英語翻譯術語高效搜索系統的查全率和查準率進行測評,查全率體現出的是在特定數據集群中,搜索系統與海量互聯網數據中對目標英語術語的搜索效果,查準率用于衡量搜索結果的重復率。由于在查全率的測評中需要考慮響應時間,因此查全率也間接表述了系統搜索效率。
實驗先使用2個互聯網搜索引擎(百度和谷歌)搜索英語術語,目標英語術語包括金融、計算機網絡、醫學和體育四個領域的485個專用術語,為節省實驗時間,不采用人工輸入目標英語術語的方法進行實驗,而是通過Java語言編寫一個自動輸入程序。百度和谷歌引擎對每項英語術語的搜索結果都達到上千甚至上萬條,將搜索結果組成海量互聯網數據集群,在此環境下進行實驗。
對本文搜索系統、Web垂直優化搜索系統和鄰域搜索系統進行初始化,在海量互聯網數據集群中搜索上文中的485個專用術語,獲取三個搜索系統的響應時間、搜索結果數量、漏選結果數量和搜索結果重復率等項目,測評本文搜索系統的有效性。
4.2 結果與討論
實驗前分析用戶行為習慣,得知用戶在使用搜索系統時通常只查看前幾頁的搜索結果,因此實驗采用Java語言編寫一個自動求取平均值的程序,對本文搜索系統、Web垂直優化搜索系統和鄰域搜索系統的前15頁英語術語搜索結果進行統計,搜索結果統計表見表1。
搜索結果中的重復結果和漏選結果在原則上都是不容許存在的,但在海量互聯網數據集群中,重復結果之間也存在一定的數據結構特征差異,想要完全排除重復結果是不可能的,只能極度縮減。如表1所示,Web垂直優化搜索系統雖然無漏選,但重復結果過多,查全率高、查準率低。鄰域搜索系統的查全率和查準率均比較中庸。本文搜索系統的重復結果比例為1%,無漏選現象,查全率和查準率整體等級偏高,但確切結論仍不能給出,因為表1中響應時間和重復結果的數據過于籠統,為保證測評結果的有效性,將響應時間利用計算機仿真手段進行圖表繪制,輸出如圖5所示的單項響應時間仿真結果。結合表1和圖5能夠明顯看出,本文搜索系統的響應時間最短,搜索效率高,提高了系統的查全率等級。
通過相關比例分析法統計出前30條搜索結果的相似度和相關比率,如表2所示,可以看出,本文搜索系統的前30條搜索結果相似度最低、相關比率最高,提高了系統的查準率等級。
綜上所述,本文搜索系統搜索結果的有效性最好,查全率和查準率等級很高,并可保證系統的搜索效率。
5 結 論
本文設計的英語翻譯術語高效搜索系統包括用戶模塊、互聯網機器翻譯模塊、工作模型和搜索模型,要求工作模型能夠進行高精度的海量互聯網數據采集和高效搜索,搜索模型具備更新能力強且易于維護的優勢。使用Java語言編寫實驗測評程序,實驗結果顯示,從查全率、查準率和搜索效率來看,本文系統的搜索結果均有效。
參考文獻
[1] 張弘弦,田玉玲.Web垂直搜索引擎實現過程的研究[J].現代電子技術,2016,39(8):55?59.
[2] 郭猛,胡秀香,邵國金,等.混合語義相似度計算優化模糊查詢的智能信息檢索算法[J].科學技術與工程,2014,14(23):97?102.
[3] 戴圣法,魏慶國,魏中海.基于回溯搜索算法的導聯選擇腦機接口研究[J].現代電子技術,2016,39(13):10?14.
[4] 馮愛芬.基于模式搜索方法的解不等式約束優化問題的算法設計[J].科技通報,2016,32(5):5?10.
[5] 吳彪,陳南.基于模式搜索的自適應干擾抵消器算法的研究[J].計算機測量與控制,2016,24(2):235?238.
[6] 王琳,劉伍穎,梁曉波.英漢雙向哲學社科術語詞典系統設計與實現[J].中國科技術語,2014,16(2):18?21.
[7] 賈瑞玉,馬文華.基于鄰域搜索的改進最大最小蟻群算法[J].計算機仿真,2014,31(12):261?264.
[8] 任雪婷,賀興時.一種改進的粒子群與差分進化混合算法[J].西安工程大學學報,2016,30(3):380?387.