摘要:簡單介紹了跨語言信息檢索在搜索引擎中應(yīng)用的必要性、重要性和最近的國內(nèi)外應(yīng)用狀況。指出了對應(yīng)用中存在的不足和缺陷,并相對應(yīng)提出了改進建議。最后對跨語言信息檢索在搜索引擎中的應(yīng)用趨勢進行了展望。
關(guān)鍵詞:跨語言信息檢索 CLIR 搜索引擎
1 概述
所謂跨語言信息檢索(Cross-language Information Retrieval,CLIR),系指用戶以一種語言(通常是自己的母語)提問,檢出另一種或幾種語言描述的信息資源的信息檢索技術(shù)和方法。CLIR中,用戶用以表達自己的信息需求、構(gòu)造檢索提問式的語言稱為源語言(Source Language),被檢索的信息資源所使用的語言稱為目標(biāo)語言(Target Language)。網(wǎng)絡(luò)用戶檢索信息主要通過搜索引擎來達到其目的。就中國來說,CNNIC最新發(fā)布的《第25次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》顯示,截至2009年12月31日,中國網(wǎng)民規(guī)模達到3.84億人。目前搜索引擎用戶規(guī)模達到2.8億人,年增長率為38.6%。搜索引擎的使用率為73.3%,較2008年增加了5.3個百分點,超過了即時通信成為網(wǎng)民使用互聯(lián)網(wǎng)的第三大應(yīng)用[1]。然而,網(wǎng)絡(luò)資源語種的多樣性和差異性成為了網(wǎng)絡(luò)用戶存取信息的巨大障礙。網(wǎng)絡(luò)信息語種分布和網(wǎng)絡(luò)用戶語言分布不平衡。據(jù)Internet World Stas統(tǒng)計,截止2009年12月31日,目前全球18億多網(wǎng)絡(luò)用戶所使用的語言依次為:英語27.7%,中文22.6% ,西班牙語7.8%,日語5.3%,葡萄牙語4.3%,德語4.0%,阿拉伯語3.3%,法語3.2%,俄語2.5%,韓語2.1%,其他語言17.2%。雖然筆者沒有找到最近Web網(wǎng)頁所使用的語言比率,根據(jù)Netcraft統(tǒng)計顯示,截止2010年6月全球共有2億多個網(wǎng)站[2]。而根據(jù)《第25次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》統(tǒng)計結(jié)果,中國網(wǎng)站數(shù)量僅為232萬個,比率剛剛超過10%,由此可見一斑。因此,CLIR是全球知識共享的關(guān)鍵因素,是跨越地理和語言障礙獲取信息的技術(shù)需求。而且,網(wǎng)絡(luò)用戶需要CLIR工具,用其查找、檢索和獲悉任何語言和形式的相關(guān)信息[3]。
2 跨語言信息檢索在搜索引擎中的應(yīng)用現(xiàn)狀
搜索引擎按語種分為單語種搜索引擎、多語種搜索引擎和跨語言搜索引擎等。它主要涉及信息檢索和機器翻譯兩個領(lǐng)域的知識,但又不是這兩種技術(shù)的簡單融合。跨語言綜合搜索引擎是在一般的搜索引擎基礎(chǔ)上加了兩個功能:不同語言提問的翻譯和不同搜索引擎檢索結(jié)果的集成。
2.1 跨語言搜索引擎
2.1.1 國內(nèi)外概況。國外多數(shù)主流的搜索引擎一般具有跨語言檢索的功能,如Google、Yahoo!、AltaVista和ixquick等。另外,對檢索結(jié)果的翻譯功能是CLIR技術(shù)的一個有機組成部分,是檢驗CLIR是否成熟以及是否具有實用性的重要指標(biāo)[4]。此外,Google和AltaVista還能夠?qū)崿F(xiàn)網(wǎng)頁翻譯,極大地便利了網(wǎng)絡(luò)用戶瀏覽外文網(wǎng)站。如AltaVista的Babel Fish翻譯個人網(wǎng)頁多達10000個,當(dāng)用戶點擊鏈接時,鏈接的網(wǎng)頁也會自動翻譯。
而具有CLIR功能的中文搜索引擎則較少。就筆者所知的只有傳承自Yahoo!的雅虎中國搜索。另外,搜狗具有在線翻譯功能[4]。
2.1.2 支持語種數(shù)量。Google Translate目前支持52種語言之間的任何翻譯,Yahoo!也可以進行13種語言之間翻譯整個網(wǎng)站的文字或短文的檢索,AltaVista則可以在19種語言之間進行翻譯。但是這些標(biāo)榜CLIR的搜索引擎大多其實只是多個單語言模式搜索的集合,只有Google Translate可以算是真正意義上的跨語言搜索引擎。這仍將是CLIR發(fā)展的一個重要方向[5]。
2.1.3 工作流程。跨語言搜索引擎的工作流程可以簡單的概括為:用戶向系統(tǒng)提交檢索詞,形成一個源語言的搜索式。系統(tǒng)對搜索式進行語言識別,識別出語種后,就進行提問式的詞法分析和結(jié)構(gòu)分析,然后把這些分析過的搜索式翻譯成各種語言的搜索式。最后把這一系列的搜索式提交給系統(tǒng)進行檢索。系統(tǒng)再將檢索到的結(jié)果反饋給用戶。
Google Translate則在它的幫助文檔中提到的:“Google Translate是一個自動翻譯器,也就是說,它不受人類翻譯的干預(yù),而是以國家最先進的技術(shù)代替。現(xiàn)在大多數(shù)使用中的商業(yè)機器翻譯系統(tǒng)已經(jīng)開發(fā)了基于規(guī)則的方法,并且需要大量的工作來定義詞匯和語法。我們的系統(tǒng)采用不同的方法,我們提供數(shù)十億字詞的文本給計算機,同時包括目標(biāo)語言的集成文本,和由各種語言之間人類翻譯實例構(gòu)成的對齊文本。然后,我們應(yīng)用統(tǒng)計學(xué)技術(shù),來建立一個翻譯模型。”可見,不同于傳統(tǒng)的基于規(guī)則的方法,Google Translate的檢索策略是基于語料庫的方法。它用統(tǒng)計學(xué)方法從大規(guī)模語料中分析和歸納語言現(xiàn)象和規(guī)律,再用得到的統(tǒng)計規(guī)律或語言模型來處理自然語言。不過在實際使用中,效果差別不大。
2.2 搜索引擎的在線翻譯工具
無論搜索引擎是否具有跨語言檢索功能,但是它們提供的各種各樣的翻譯資源也是很重要的研究工具。除了現(xiàn)有的各種詞典外,還有不少的在線翻譯工具。另外,如AltaVista提供的在線翻譯工具Babel Fish,可以為用戶翻譯一段字?jǐn)?shù)多達150字的文本。搜狗百寶箱中的在線翻譯也可起到辭典和翻譯短文的作用。
3 不足與改進建議
跨語言搜索引擎現(xiàn)正處于方興未艾的狀況,因此也存在許多不足與缺陷。找出它們的問題所在,并提出改進的建議,才是推進CLIR的實際措施。
3.1 跨語言搜索引擎的不足
3.1.1 實用性方面,如今CLIR的技術(shù)已經(jīng)取得了長足的進步,但即使是最好的CLIR系統(tǒng)的性能整體上和發(fā)展成熟的單語言檢索系統(tǒng)仍有差距。在真實語境下跨語言檢索系統(tǒng)及其相關(guān)工具還是非常缺乏,現(xiàn)有技術(shù)離真正的實用化還有一段距離[6]。
3.1.2 交互性方面,大多數(shù)跨語言搜索引擎都沒有做到與用戶的良好互動。單語言搜索引擎在檢索結(jié)果下方顯示相鄰和相關(guān)詞匯的功能,跨語言搜索引擎就不具備。在急需詞義消歧的情況下,搜索引擎的交互性顯得更加重要。
3.1.3 準(zhǔn)確性方面,由于使用商業(yè)機器翻譯系統(tǒng),跨語言搜索引擎和在線翻譯工具的翻譯準(zhǔn)確程度顯然跟不上用戶的需求,當(dāng)翻譯語法結(jié)構(gòu)復(fù)雜的文本時更是如此。而真正意義上的CLIR應(yīng)該是在文檔層次進行翻譯的。翻譯精度不高往往會造成用戶對檢索結(jié)果難以理解。
3.1.4 靈活性方面,傳統(tǒng)的基于規(guī)則的方法靈活性較差,容易忽略語言中那些經(jīng)驗性的、小粒度的知識,難以覆蓋各種復(fù)雜紛繁的語言現(xiàn)象。
3.2 改進建議
3.2.1 加強跨語言搜索引擎的系統(tǒng)交互性,采用查詢擴展。許多檢索詞在雙語詞典中的譯項并不唯一,且這些譯項所表達的意思有時相差甚遠。查詢擴展則是在用戶輸入檢索提問后,采取一定策略,對用戶的檢索要求進行擴充。這樣一來,就可以提高檢索結(jié)果的檢全率。同時,要建立用戶反饋機制,以求改善CLIR系統(tǒng)。
3.2.2 加強通用商業(yè)機器翻譯軟件的研究,提高機器翻譯的質(zhì)量。在CLIR中,解決語言障礙的基本方法是兩種語言之間的翻譯,而所有的翻譯方法都離不開機器翻譯、雙語詞典、語料庫等作為翻譯的語言基礎(chǔ)。目前的通用商業(yè)機器翻譯軟件普遍質(zhì)量較低。成為制約CLIR在搜索引擎中廣泛應(yīng)用的一個關(guān)鍵因素。同時,要逐步從限制性強的基于規(guī)則的策略過渡到基于語料庫的策略。
3.2.3 加強Web語料庫的建設(shè)。語料庫是大量文本的集合,由相互對應(yīng)的兩種語言的素材構(gòu)成。通過建立語料庫收集大量單語或雙語語料和詞典,可以從中獲取語言知識和翻譯知識。另一方面,還要克服Web資源種類繁多、數(shù)量龐大、所涉及的語種眾多,以及Web資源版權(quán)保護等給Web語料庫建設(shè)帶來的困難。
4 結(jié)語
CLIR研究真正活躍起來并取得成果,是在Internet迅猛發(fā)展的20世紀(jì)90年代后期,一些實驗性CLIR技術(shù)相繼問世[7]。然而經(jīng)過十幾年的發(fā)展,跨語言搜索引擎還是很少,效果也不盡如人意。但是相信隨著網(wǎng)絡(luò)的發(fā)展、信息技術(shù)的進步和對CLIR技術(shù)研究的深入,CLIR能夠在將來普遍應(yīng)用于搜索引擎之中。如今垂直跨媒體搜索引擎發(fā)展的如火如荼的良機之下,將來CLIR內(nèi)容也不會局限于文檔檢索,而是擴展到跨語言圖像檢索、跨語言語音檢索、跨語言視頻檢索、跨語言交互式檢索、跨語言問答系統(tǒng)、跨語言新話題發(fā)現(xiàn)和跟蹤等。
參考文獻:
[1]中國互聯(lián)網(wǎng)絡(luò)信息中心.第25次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告.2010(1).
[2]Net craft.June 2010 Web Server Survey.http://news.Net craft.com/archives/2010/06/16/june-2010-web-server-survey.ht
ml#more-2249.2010-06-16.
[3]吳丹.多語言處理技術(shù)——數(shù)字圖書館的關(guān)鍵技術(shù),2010(5).
[4]華薇娜.搜索引擎的最新進展述要.圖書與情報,2009(6).
[5]郭華庚,趙英.跨語言信息檢索研究與應(yīng)用.現(xiàn)代情報,2008(9).
[6]楊麗.國外跨語言信息檢索的技術(shù)研究綜述.情報雜志,2008(7).
[7]劉偉成,孫吉紅.跨語言信息檢索進展研究.中國圖書館學(xué)報,2008(1).