搜索引擎績效評估研究

2018-06-14 07:15:08王一華

軟件 2018年5期

王一華

（鄭州大學(xué)科學(xué)技術(shù)信息研究所，河南鄭州 450001）

0 引言

目前，搜索引擎可以說是用戶上網(wǎng)信息檢索時手中的一把利劍。眾所周知，工具的優(yōu)劣往往影響工作的成效。因此，為了提高用戶的使用體驗，進行搜索引擎績效評估很有必要。搜索引擎績效評估就是采用搜索引擎績效評價的指標(biāo)體系，評價其滿足用戶需求的信息服務(wù)情況。在參考有關(guān)文獻的基礎(chǔ)上[1-9]，本文從檢索功能、檢索效果、用戶負(fù)擔(dān)、影響力、用戶滿意度五個方面構(gòu)建搜索引擎績效評價指標(biāo)體系，并進行實證分析研究。最后，依據(jù)分析調(diào)查問卷而得到的搜索引擎績效評價結(jié)果，提出搜索引擎的改進建議，并指出搜索引擎評估的未來研究方向。

1 搜索引擎的選取

根據(jù)成年用戶因特網(wǎng)利用調(diào)查，成年因特網(wǎng)用戶把利用搜索引擎作為最重要的上網(wǎng)行為之一，甚至高達91%。可見，搜索引擎在人們?nèi)粘Ｉ钪姓加蟹浅Ｖ匾牡匚弧Ｄ壳埃俣取?60、搜狗、谷歌中文、必應(yīng)、搜搜、有道、雅虎中文這8個搜索引擎在 PC端搜索引擎使用率所占市場份額比較大，因此作者選擇這8種搜索引擎作為代表（表1）。

2 搜索引擎績效評價指標(biāo)體系的構(gòu)建

借鑒國內(nèi)外搜索引擎評價領(lǐng)域的研究成果[1-9]，再加上使用搜索引擎的實踐，根據(jù)對搜索引擎基本原理和主要功能的分析，把搜索引擎評價指標(biāo)歸為五類：檢索功能、檢索效果、用戶負(fù)擔(dān)、影響力、用戶滿意度。所構(gòu)建的搜索引擎績效評價的指標(biāo)有：檢索功能（包括自然語言檢索、高級檢索、多媒體檢索、相似檢索和特色服務(wù)五項二級指標(biāo)）、檢索效果（包括檢索結(jié)果數(shù)量、相對查準(zhǔn)率、相對死鏈接率和相對重復(fù)率四項二級指標(biāo)）、用戶負(fù)擔(dān)（包括結(jié)果的顯示、相關(guān)性排列、個性化查詢界面、幫助文件實用詳盡性、界面友好性和快照預(yù)覽功能六項二級指標(biāo)）、影響力（包括首選可能性、Alexa排名和外鏈接數(shù)三項二級指標(biāo)）、用戶滿意度（包括搜索功能滿意度、響應(yīng)時間滿意度和結(jié)果滿意度三項二級指標(biāo)）。

表1 八個搜索引擎網(wǎng)址及所屬公司Tab.1 URLs of eight search engines and their companies

3 研究方法

測量環(huán)境采用操作系統(tǒng)是Windows 7，瀏覽器采用360極速瀏覽器。該研究測量要求：關(guān)于同一指標(biāo)的各搜索引擎的測試在一天內(nèi)完成，以保證各搜索引擎結(jié)果的客觀性。在使用某一檢索詞測量時，分早中晚測3次，取平均值作為最終測量結(jié)果。高級檢索指有無高級檢索以及選項多少。關(guān)于 Alexa排名，參見網(wǎng)站（http://www.alexa.com/）。多媒體檢索包括圖片、音樂、視頻、地圖等。相似檢索可以檢索到與特定網(wǎng)頁相似的網(wǎng)頁信息[10]。特色服務(wù)是對搜索引擎實用功能的測評。每個搜索引擎都各有特色。相對查準(zhǔn)率=（相關(guān)檢出數(shù)目/相對檢索數(shù)目）*100%。界面友好性指界面是否美觀大方、人性化、操作易學(xué)易用。個性化查詢界面，通過搜索設(shè)置可對搜索引擎進行設(shè)置。百度有輸入法設(shè)置，可拼音、手寫。結(jié)果的顯示是指顯示標(biāo)題、描述信息、類目位置、網(wǎng)頁文本大小、快照、相似頁面、結(jié)果集中放置、檢索結(jié)果總數(shù)、搜索時間。死鏈率，即測試檢索結(jié)果死鏈情況，在參與測試的搜索引擎上進行搜索，查看各引擎的前 20個結(jié)果中的可成功打開的鏈接比例。對無法打開頁面進行統(tǒng)計，得出死鏈率[11]。網(wǎng)頁檢索評測任務(wù)對測試集提出了較高的要求，參考北京大學(xué)網(wǎng)絡(luò)實驗室中文Web信息檢索論壇（http://www.cwirf.org/）中的中文Web信息檢索評測，構(gòu)建查詢主題集。本次研究把清華大學(xué)圖書館網(wǎng)站、武夷山的博客、論文+顛覆數(shù)字圖書館的大趨勢、感動中國十大人物、南京大屠殺、詠春拳等共計60個任務(wù)作為查詢主題集。具體評分方法如下：參考文獻[12]，并進行修正，把主題與相關(guān)文檔間的相關(guān)度分為三個層次：非常相關(guān)（3分），相關(guān)（2分）、部分相關(guān)（1分）和不相關(guān)（0分），再者，查詢返回條數(shù)均大于20條，因此計算式如下：P(20)=[R(1-3)*20+R(4-10)*17+R(11-20)*10]/(279*3)。其中，P(20）為前20個搜索結(jié)果的檢準(zhǔn)率，R為各個命中記錄的相關(guān)系數(shù)。關(guān)于各指標(biāo)的權(quán)重，則采用專家算術(shù)平均法進行確定。

4 評價結(jié)果

對有關(guān)數(shù)據(jù)進行處理后，八大搜索引擎績效評價結(jié)果如下：

4.1 檢索功能

谷歌中文除相似檢索功能不理想外，其他都很好，因此這項得分第一（0.8518）；百度自然語音檢索也不如谷歌中文，所以這項得分第二（0.829762）；搜狗多媒體檢索和特色服務(wù)搞得不錯，所以得分第三（0.812471）；搜搜和360搜索多媒體檢索和相似檢索功能都很好，但由于高級檢索功能差，所以得分不高；而有道、雅虎中文由于這幾項功能均不出色，所以得分最低分別為0.43356、0.311415。建議必應(yīng)、搜搜、有道、360搜索、雅虎中文加強高級檢索功能，而有道、雅虎中文加強檢索功能。

4.2 檢索效果

谷歌中文和百度檢索效果評測結(jié)果之間無明顯差異，但檢索數(shù)量百度不如谷歌中文，在所有檢索數(shù)量中，由于檢索結(jié)果的重復(fù)，除非專門選擇，百度一般顯示搜索到的前800條信息，谷歌中文一般顯示前 1000條信息；相對查準(zhǔn)率較好的是谷歌中文、百度和必應(yīng)。重復(fù)內(nèi)容多不但影響用戶感受，還很耗費系統(tǒng)資源，影響檢索效率[13]，相對重復(fù)率較小的是百度和雅虎中文。建議搜狗增加檢索數(shù)量，有道、360搜索、必應(yīng)減少查詢結(jié)果的重復(fù)率。

4.3 用戶負(fù)擔(dān)

谷歌中文在結(jié)果的顯示、個性化查詢界面、幫助文件的實用性詳盡性、界面友好性上做的都很好，但沒有快照預(yù)覽功能，建議以后加上；相關(guān)性排序是一項非常重要的指標(biāo)，這項做得名列前茅的是谷歌中文和必應(yīng)，其它網(wǎng)站搜索結(jié)果里前幾項出現(xiàn)的是廣告，而不是用戶所查詢的東西，不符合用戶需求，嚴(yán)重影響了用戶的體驗，特別是有道、雅虎中文相對于其他搜索引擎差距不小，希望以后改進，最好是把廣告放在用戶查詢結(jié)果的側(cè)面；幫助文件的實用性詳盡性方面以搜狗和360搜索較佳，希望其它搜索引擎能夠借鑒；搜狗和搜搜的快照預(yù)覽功能做的最好，期望其它搜索引擎能夠多學(xué)習(xí)；用戶負(fù)擔(dān)包含的這幾項雅虎中文和有道可以說各項做的均不理想，因此得分很低，分別為0.29307、0.27，建議以后多加改進。

4.4 影響力

因為Alexa排名和外鏈接數(shù)是客觀的、定量的統(tǒng)計，所以沒有讓被調(diào)查者進行評價。谷歌中文和百度各項結(jié)果都比較好，較其它搜索引擎要占較大優(yōu)勢，因此很多人都把它們作為查找資料的首選。

4.5 用戶滿意度

得分最高的是谷歌中文，得分為 0.946166，其次是必應(yīng)和搜搜，得分分別為0.862504、0.858838。搜索結(jié)果滿意度是一項非常重要的指標(biāo)，谷歌中文、必應(yīng)、搜搜做得較好，因此得分較高，而百度搜索結(jié)果的第一頁因廣告占據(jù)了重要位置，所以得分稍低一些；最差的是雅虎中文，得分僅為0.499506。

4.6 綜合評價

八大搜索引擎綜合評價參見圖 1。得分第一的是谷歌中文，得分為4.522380，盡管它在相似檢索、外連接數(shù)和快照預(yù)覽功能相對弱些，但是因為它在很多方面做的都很好，所以得分最高；百度由于幾個重要指標(biāo)比如相對查準(zhǔn)率、相關(guān)性排序等不如谷歌中文，因此得分為 4.108437，位居亞軍；得分最差的是雅虎中文和有道，得分分別為 2.31000、2.20673，因為相關(guān)性排序等很多指標(biāo)做的都不如其他搜索引擎。

圖1 八大搜索引擎綜合評價Fig.1 Comprehensive evaluation of eight search engines

下面以用戶負(fù)擔(dān)、影響力為例繪出雷達圖，可以形象地表明各搜索引擎之間的差異。由圖2可以看出，用戶負(fù)擔(dān)一項谷歌中文得分最高而有道得分最低，影響力一項谷歌中文得分最高而有道明顯偏低。

圖2 八大搜索引擎以用戶負(fù)擔(dān)與影響力為例所畫雷達圖Fig.2 Radar chart drawn by user burdens and influence of eight search engines

5 討論

5.1 搜索引擎的改進建議

（1）加強優(yōu)化設(shè)計，提升用戶的搜索體驗。優(yōu)化鏈接，努力提升搜索的速度；優(yōu)化界面設(shè)計，提高用戶的搜索體驗；搜索結(jié)果要加強可信性評價，可像必應(yīng)（bing）、搜搜、搜狗等那樣加上“可信網(wǎng)站”標(biāo)示；定時更新程序，減少死鏈接的出現(xiàn)；優(yōu)化程序，提升搜索結(jié)果的覆蓋率和收錄率；從數(shù)據(jù)空間化、空間顯示、用戶交互三方面提高檢索結(jié)果可視化展示；可參考點擊率的數(shù)量等因素優(yōu)化檢索結(jié)果的位置；搜索引擎應(yīng)與文獻計量學(xué)有關(guān)理論與技術(shù)相結(jié)合，提供更優(yōu)的搜索結(jié)果；優(yōu)化內(nèi)容，減少重復(fù)等。

（2）把握未來發(fā)展趨勢，打造新型搜索引擎。搜索引擎未來朝著移動化、智能化、社會化、個性化、可視化、語音化發(fā)展。搜索引擎功能更豐富，智能化程度更高，可進行視覺搜索、語音搜索、地點感知搜索，最好還有推薦引擎的功能，搜索結(jié)果呈現(xiàn)知識圖譜化。搜索引擎會針對社交信息進行挖掘，將社交結(jié)果嵌入到搜索結(jié)果之中，并對搜索結(jié)果進行優(yōu)化，以滿足更多的用戶需求[14-15]。未來搜索引擎像Siri那樣自然口語輸入，并能提供對話式的應(yīng)答。未來搜索引擎不僅可以搜索到表層網(wǎng)絡(luò)（Surface Web）的內(nèi)容，也可搜索到暗網(wǎng)（deep web）中的內(nèi)容。此外，計算機搜索將與用戶（包括移動終端用戶）人工回答有機結(jié)合，產(chǎn)生出更佳的問題解決方案。在不久的未來，采用虛擬現(xiàn)實技術(shù)展現(xiàn)用戶的搜索結(jié)果將令用戶產(chǎn)生身臨其境的體驗。比如，搜索“東坡餅”，香甜酥脆的美食呈現(xiàn)在人們的眼前，用戶在“品嘗”著東坡餅的唇齒留香與回味悠長的同時，內(nèi)心也許還品味著蘇東坡的詩句：“纖手搓來玉色勻，碧油煎出嫩黃深。夜來春睡知輕重，壓扁佳人纏臂金”，這些都將會大大增強用戶的快樂搜索體驗。

5.2 搜索引擎評估的未來研究方向

在參考有關(guān)文獻的基礎(chǔ)上[16-33]，筆者認(rèn)為搜索引擎評估的未來研究方向主要有以下方面：

（1）應(yīng)多層次研究搜索引擎的績效評價。目前本研究是中文網(wǎng)頁信息檢索為例進行搜索引擎的績效評價，以后可以以英文為例，研究搜索引擎的績效評價，還可以進行中英文的比較，為進一步優(yōu)化搜索引擎提供基礎(chǔ)。當(dāng)然，也可從圖片、音頻、視頻、地圖等其他格式的文件方面進行搜索評價。此外，也可對Metasearch Engines進行績效評價研究。

（2）應(yīng)探討搜索引擎多種評價方法的優(yōu)劣性。衡量搜索引擎質(zhì)量指標(biāo)（DCG, Discounted Cumulative Gain）方法[34]與前20條記錄方法比較，哪個更好? DCG方法中以2為底，下一步可以2、e及10為底進行計算，然后與人工排序比較，看看孰優(yōu)孰劣？此外，對解決問題而言，搜索引擎與社交網(wǎng)絡(luò)（Social Networks）哪個效果更好、效率更高？

（3）應(yīng)多角度地研究探討搜索引擎評價。要讓普通用戶、專家學(xué)者、搜索引擎開發(fā)者、網(wǎng)站開發(fā)者等參與搜索引擎的評價研究，綜合考慮用戶角度和系統(tǒng)角度，如把普通用戶檢索評價和TREC類的檢索評價結(jié)合起來，這樣會使搜索引擎評價結(jié)果更有說服力。當(dāng)然，也可從搜索引擎的廣告效果、用戶滿意度、經(jīng)濟效益、社會影響等多個角度對搜索引擎進行評價研究。

（4）應(yīng)加強可信性評價，提高自動評價的實效性。要加強搜索引擎有關(guān)技術(shù)研發(fā)，大力推進其智能化、移動化、社會化、個性化、可視化、語音化，特別是要提升語義理解力，提高情境搜索水平。這應(yīng)該把人工智慧和搜索科技相融合，呈現(xiàn)出符合用戶個人需求的搜索結(jié)果[35]。搜索引擎評價也要與時俱進，滿足用戶的信息需求[36-38]，加強可信性評價，提升相關(guān)的評價水平，尤其注意提高自動評價的實效性[39]，最終達到提升用戶滿意度的目的。

[1] 吳勝利, 譚延之, 施化吉. 搜索引擎指標(biāo)綜合特性的評價[J]. 江蘇大學(xué)學(xué)報(自然科學(xué)版), 2015, 02: 181-186+214.

[2] 費巍. 搜索引擎評價研究方法綜述[J]. 現(xiàn)代情報, 2010, 12:163-167.

[3] 邱均平, 胡文君, 羅力. 基于知識圖譜的國際網(wǎng)絡(luò)搜索引擎研究現(xiàn)狀與前沿分析[J]. 圖書情報工作, 2010, 24:89-94.

[4] 涂佳琪. 國內(nèi)三大中文搜索引擎檢索性能評價的實證研究[J]. 中山大學(xué)研究生學(xué)刊(社會科學(xué)版), 2014, 02: 64-73.

[5] 馬志杰. 國外搜索引擎評價研究綜述[J]. 圖書館學(xué)研究,2013, 02: 2-6.

[6] 馬志杰. 我國搜索引擎評價研究的現(xiàn)狀、問題及對策[J].圖書館學(xué)研究, 2013, 04: 11-17.

[7] 朱慶華, 杜佳. 搜索引擎評價指標(biāo)體系的建立與應(yīng)用[J].情報學(xué)報, 2007, 26(5): 684-690

[8] 董文鴛, 吳娟仙. 圖像搜索引擎綜合評價指標(biāo)體系的構(gòu)建[J]. 嘉興學(xué)院學(xué)報, 2008, (04): 121-125.

[9] 鳳元杰, 劉正春, 王堅毅．搜索引擎主要性能評價指標(biāo)體系研究[J]．情報學(xué)報, 2004, 23(1): 63-68.

[10] 費巍, 張進. 相似檢索與鏈接檢索的性能評價研究[J]. 情報雜志, 2011, (02): 156-159.

[11] 常用六大網(wǎng)絡(luò)搜索引擎實用簡評. http: //www. topenergy.[2016-06-20]

[12] Leighton V and Srivastava J. First 20 precision among World Wide Web search services(search engines)[J]. Journal of the American Society for Information Science. 1999, 50(10):870-881.

[13] 清華大學(xué)IT可用性實驗室. 2005中文搜索引擎質(zhì)量對比[N].計算機世界, 2005-11-14(E07)

[14] 搜索引擎的未來趨勢. http://blog.sina.com.cn/s/blog_6592-c40501019l37. html?tj=2. [ 2016-05-02]

[15] 華薇娜. 搜索引擎的最新進展述要[J]. 圖書與情報, 2009,06: 83-87.

[16] Ajayi O O, Elegbeleye D M. Performance Evaluation of Selected Search Engines[J]. Computer Engineering & Intelligent Systems, 2014, 5(1): 01-13.

[17] Deka S K, Lahkar N. Performance evaluation and comparison of the five most used search engines in retrieving web resources[J]. Online Information Review, 2013, 34(5): 757-771.

[18] Ribeiro C, Lopes C T. Comparative evaluation of web search engines in health information retrieval[J]. Online Information Review, 2011, 35(6): 869-892.

[19] Su, L. T. A comprehensive and systematic model of user evaluation of Web search engines: I. Theory and background.Journal of the American Society for Information Science and Technology, 2003, 54: 1175–1192.

[20] Su, L. T. A comprehensive and systematic model of user evaluation of Web search engines: II. An evaluation by undergraduates. Journal of the American Society for Information Science and Technology, 2003, 54: 1193–1223.

[21] Dai N, Davison B D. Topic-sensitive search engine evaluation[J]. Online Information Review, 2011, 35(6): 893-908.

[22] 劉璇, 于雙元. 非結(jié)構(gòu)化P2P 網(wǎng)絡(luò)基于馬爾科夫鏈的搜索算法研究[J]. 軟件, 2015, 36(3): 116-121

[23] 王一華. 基于超效率DEA的網(wǎng)站績效評價[J]. 情報科學(xué),2012, 30(09): 1371-1375+1384.

[24] 武濤. 基于云計算的并行動態(tài)路徑搜索算法研究[J]. 軟件,2015, 36(4): 128-132

[25] 王一華. 圖情博客評價實證研究[J]. 現(xiàn)代情報, 2015,35(11): 13-17.

[26] 王一華. 社交媒體信息可信度評估研究綜述[J]. 現(xiàn)代情報,2016, 36(12): 164-169.

[27] 胡一然, 宋中山, 孫翀, 等. NVSA: 一種具有可變節(jié)點值的查詢圖搜索算法[J]. 軟件, 2018, 39（3）: 16-21

[28] 靳佳麗, 王一華. 我國高校圖書館微信服務(wù)評價[J]. 圖書館學(xué)研究, 2015(10): 56-61+78.

[29] 王一華. 基于IF(JCR)、IF(Scopus)、H指數(shù)、SJR值、SNIP值的期刊評價研究[J]. 圖書情報工作, 2011, 55(16):144-148.

[30] 王一華. 中國大陸圖書情報專業(yè)期刊的綜合評價——基于熵權(quán)法、主成分分析法和簡單線性加權(quán)法的比較研究[J].情報科學(xué), 2011, 29(06): 943-947.

[31] 王一華. 學(xué)術(shù)期刊的組合評價研究[J]. 情報科學(xué), 2011,29(05): 763-765.

[32] 王一華. 期刊評價指標(biāo)SJR、JIF和H指數(shù)的關(guān)系研究[J]. 圖書情報工作, 2010, 54(06): 145-147.

[33] 王一華. 圖書館學(xué)術(shù)論文評價指標(biāo)體系初探[J]. 現(xiàn)代情報,2008, 28(12): 138-139.

[34] Jarvelin K and Kekalainen J. Cumulated gain-based evaluation of IR techniques[J]. ACM Transactions on Information Systems. 2002, 20(4), 422–446.

[35] 秦海波. 讓更多人用上第三代搜索[N]. 經(jīng)濟日報,2013-02-27(012).

[36] 李詩苗, 王一華. 我國數(shù)據(jù)庫評價研究現(xiàn)狀與發(fā)展趨勢[J].圖書館學(xué)研究, 2013, 16: 2-9.

[37] 王一華. 國內(nèi)外網(wǎng)站評價研究綜述[J]. 情報科學(xué), 2013, 11:125-132.

[38] 王一華. 數(shù)據(jù)庫績效評估實證研究[J]. 情報科學(xué), 2016, 06:82-86.

[39] Azimzadeh M, Badie R, Esnaashari M M. A review on web search engines' automatic evaluation methods and how to select the evaluation method[C]// Second International Conference on Web Research. IEEE, 2016.