

摘 要:文章通過對常用中文搜索引擎中奧運運動相關術語的檢索與結果比較,分析目前常用中文搜索引擎專業運動術語信息查詢能力,為深層次的專業信息查詢提供借鑒,并促進中文搜索引擎文獻信息專業服務的發展。
關鍵詞:運動術語 中文搜索引擎 檢索 結果
中圖分類號:G354 文獻標識碼:A 文章編號:1003-6938(2010)03-0102-002
Olympic Movement in The Chinese Search Engine Comparative Study of Retrieval
Shao Jiping (Lanzhou University of Finance and Economics, Lanzhou, Gansu, 730020)
Abstract: The article through common Chinese search engine Olympic sports related terminology retrieval and result compares and analyzes currently used Chinese search engine professional sports ability, for the information query terms in-depth provide reference information, and to promote the Chinese search engine literature information service development.
Key words: sporting terms; Chinese search engine; retrieval; results
CLC number:G354 Document code:A Article ID:1003-6938(2010)03-0102-002
奧運會在我國的召開,推動了國人對奧運項目的了解與普及,更促進了廣大體育工作者接觸奧運項目運動術語的機會。然而,這些專業運動術語的定義與翻譯在日常應用中常常使我們感到很棘手,因為專門的工具書很少。網絡囊括了海量的信息,又具有極大的普及程度,個人電腦、手機、固定電話等都可以通過聯網從網絡中獲取信息。在互聯網中,人們使用最多的查詢信息的工具就是搜索引擎。本文將常用的中文搜索引擎中奧運運動項目相關術語檢索的結果進行比較,既可以為體育愛好者和體育科研工作者進行查詢時提供參考,也可促使網絡中奧運運動項目相關術語的信息更加豐富。
1 常用中文搜索引擎
根據網絡查詢,2008年中國搜索引擎排名為:百度、谷歌、搜搜、搜狗、狗狗、雅虎、有道、酷訊、愛問。其中“狗狗”搜索引擎網頁搜索結果引用自“百度”搜索引擎;“愛問”搜索引擎網頁搜索結果引用自“谷歌”搜索引擎;為避免重復,將這兩個中文搜索引擎排除研究范圍。“酷訊”搜索引擎是專業的外出、旅游、出行住宿等內容資訊的搜索網站,不在本文研究范圍。百度擁有目前世界上最大的中文搜索引擎,不斷保持快速增長。百度搜索引擎具有高準確性、高查全率、更新快以及服務穩定的特點,深受國內網民的喜愛。Google(谷歌)目前被公認為全球最大的搜索引擎,它提供了簡單易用的免費服務。搜搜(SOSO)是QQ推出的獨立搜索網站。搜狐正式推出全新獨立域名專業搜索網站“搜狗”,成為全球首家第三代中文互動式搜索引擎服務提供商,提供全球網頁、新聞、商品、分類網站等搜索服務。全球性搜索技術雅虎(YST,Yahoo!)是一個涵蓋全球120多億網頁(其中雅虎中國為12億)的強大數據庫,擁有數十項技術專利、精準運算能力,支持38種語言,近 10,000臺服務器,服務全球50%以上互聯網用戶的搜索需求。網易也推出了中文搜索引擎有道。
2 檢索結果及分析
2.1 檢索研究的樣本
張玉亭主編的《英漢雙向體育詞典》,內容涉及夏、冬季奧運會的所有項目及其相關項目,[1 ]該詞典中第1頁至第558頁的英漢部分,每頁約70個詞匯,應用隨機數表選取三位數和兩位數,分別對照該詞典找到詞條作為抽樣的術語,共抽取了6個術語:lose possession of ball(失球),half back spinner lateral play 前衛假動作側面傳球戰術,three quarter back (TQ) 中后衛,exercise unit for the chest and back muscles 胸背肌肉運動器,jumping seat 前傾斜騎坐姿勢,stealing 偷壘,bumping tournament 梯次比賽。
2.2 相關術語檢索結果及分析
在百度、谷歌、搜搜、搜狗、雅虎和有道六大中文搜索引擎中對抽樣的6個術語直接輸入進行檢索,得到下面的檢索結果。檢索結果評價主要是查全率和查準率。[2 ] 查全率高可以提高用戶命中結果的可能性(見表1);查準率高可以減少重復檢索,節省用戶的檢索時間(見表2)。
從表1中可以看到,所列中文搜索引擎對6個術語檢索耗用的時間都比較短,最少的用時為0.013秒,最長用時也只有0.759秒,都少于1秒,充分反映了計算機網絡發展為檢索帶來的快捷效果,遠遠優于任何工具書的查詢與檢索。在檢索結果中,可以看出,專業性較強的術語檢索的結果數較少,例如“前衛假動作側面傳球戰術”、“前傾斜騎坐姿勢”和“偷壘”;而普及性較大的術語檢索結果數較多,例如“中后衛”。對表1中搜索結果做系數處理(以相同術語檢索結果數最少的定為X,其它檢索結果數除以X后的數值為系數),通過系數可以反映不同中文搜索引擎對同一詞條查詢結果數的量級差別,反映了該中文搜索引擎鏈接的網頁數量。對比中文搜索引擎檢索術語之間的系數,證明谷歌確實是目前全球最大的搜索引擎。百度的搜索系數與其付費檢索排名和側重新聞鏈接有較密切的關系。搜搜的搜索系數是六個中文搜索引擎中最大的,這是它能在眾多中文搜索引擎中排名第三的重要原因。搜狗在檢索中注重查詢詞條的一致性,使網頁搜索系數較低。雅虎與有道的搜索系數很接近,其中雅虎鏈接了較多的新聞,包括不少的繁體字網頁,這與谷歌相似;而有道則更加實用。這次術語檢索中,六個中文搜索引擎中有道是唯一在檢索結果中沒有出現“零”的搜索引擎,并且通過有道檢索,連接了一個非常實用的科研專業術語翻譯網頁:CNKI翻譯助手(http://dict.cnki.net/)。
當然,在中文搜索引擎對術語的檢索過程中,會將術語進行“拆分”,例如“前傾斜騎坐姿勢”,是騎馬的一種基本姿勢,在搜索引擎中會被拆分為“前+傾斜+騎坐+姿勢”的組合。每個搜索引擎有其各自的特點,都有不同的組織排序方法和不同的索引方法,這也會造成檢索數量方面的差別。[3 ]例如,搜搜的檢索結果中,只要出現拆分組合中的任意一個單詞,就被列為檢索結果出現,造成檢索結果數目巨大。據調查網民一般僅會瀏覽搜索引擎結果中前三頁的內容(一般每頁顯示10條),如果第一頁滿足需要,后面的網頁就不會被瀏覽。因此,本文對上述六個中文搜索引擎的前10條檢索結果進行了一致度的分類。搜索引擎一致度是指用戶輸入的查詢內容與搜索引擎提供的文件內容或相關網站資源之間的相關關系。[4 ]一致度好表明搜索引擎查準率高。本文將結果中對術語的釋義與翻譯視為與術語一致度相同,否則視為與術語一致度不同,統計后得到下面的數據(見表2)。
從檢索結果一致度合計數據看出谷歌與有道兩個中文搜索引擎的檢索效率較高。此外,表2中數據反映了一個突出問題,即專業性強的詞匯在目前常用的中文搜索引擎中無法找到其釋義,如“前衛假動作側面傳球戰術”和“梯次比賽”,搜索結果中沒有具體的釋義,只有類似的內容或翻譯,檢索“前衛假動作側面傳球戰術什么意思”,依然無法查詢到其解釋,說明常用中文搜索引擎鏈接的信息中缺乏奧運運動相關術語的內容,尚不能滿足用戶的特殊的深層次的文獻需求。[5 ] 這一現象在各個中文搜索引擎中都給出了解決方案,如百度的“百科全書”,谷歌的“問答”,搜搜的“問問”,搜狗的“問答”,雅虎的“知識堂”,有道的“快貼”。其中百度的“百科全書”是網絡中最大的免費中文百科全書,由網民進行詞條的創建、編輯和完善,優點是直接快捷,缺點是沒有的詞條就無能為力。其它的解決方案基本是“問答式”,網上提出問題,等待其他網友回答,或者查詢已有的類似回答內容,優點是碰到熱心人就會很快得到詳細專業的回答,缺點是得到答案的周期不確定。所以目前的“解決方案”并不能滿意地解決存在的問題。
3 結語
中文搜索引擎,已日益成為國內網民上網查詢信息時不可缺少的網絡工具。如何整合更多的信息資源,提供更有效的查詢服務,是中文搜索引擎發展亟待解決的課題。特別是怎樣提供免費的專業查詢,百科全書及其它工具書信息檢索數字化、網絡化的公共資源供給。已成為現今網絡社會化時代普通大眾的要求和需求。同時,中文搜索引擎完善檢索功能,注重對用戶的培訓,提供詳盡的幫助信息,使各種檢索功能得到充分發揮,均可以幫助用戶提高信息檢索效率。
參考文獻:
[1]張玉亭.英漢雙向體育詞典[M].上海:上海交通大學出版社,2006.
[2]李友良.常用中文搜索引擎檢索性能比較分析[J].江西圖書館學刊,2005,(2):59-62.
[3][4]李萌等.基于搜索引擎的中文文本檢索效果比較研究[J].情報探索,2009,(2):49-51.
[5]吳進.中文搜索引擎與網絡文獻檢索[J].科技情報開發與經濟,2009,(3):42-43.
作者簡介:邵繼萍(1971-),女,蘭州商學院副教授。