王一華
(鄭州大學科學技術信息研究所,河南 鄭州 450001)
目前,搜索引擎可以說是用戶上網信息檢索時手中的一把利劍。眾所周知,工具的優劣往往影響工作的成效。因此,為了提高用戶的使用體驗,進行搜索引擎績效評估很有必要。搜索引擎績效評估就是采用搜索引擎績效評價的指標體系,評價其滿足用戶需求的信息服務情況。在參考有關文獻的基礎上[1-9],本文從檢索功能、檢索效果、用戶負擔、影響力、用戶滿意度五個方面構建搜索引擎績效評價指標體系,并進行實證分析研究。最后,依據分析調查問卷而得到的搜索引擎績效評價結果,提出搜索引擎的改進建議,并指出搜索引擎評估的未來研究方向。
根據成年用戶因特網利用調查,成年因特網用戶把利用搜索引擎作為最重要的上網行為之一,甚至高達91%。可見,搜索引擎在人們日常生活中占有非常重要的地位。目前,百度、360、搜狗、谷歌中文、必應、搜搜、有道、雅虎中文這8個搜索引擎在 PC端搜索引擎使用率所占市場份額比較大,因此作者選擇這8種搜索引擎作為代表(表1)。
借鑒國內外搜索引擎評價領域的研究成果[1-9],再加上使用搜索引擎的實踐,根據對搜索引擎基本原理和主要功能的分析,把搜索引擎評價指標歸為五類:檢索功能、檢索效果、用戶負擔、影響力、用戶滿意度。所構建的搜索引擎績效評價的指標有:檢索功能(包括自然語言檢索、高級檢索、多媒體檢索、相似檢索和特色服務五項二級指標)、檢索效果(包括檢索結果數量、相對查準率、相對死鏈接率和相對重復率四項二級指標)、用戶負擔(包括結果的顯示、相關性排列、個性化查詢界面、幫助文件實用詳盡性、界面友好性和快照預覽功能六項二級指標)、影響力(包括首選可能性、Alexa排名和外鏈接數三項二級指標)、用戶滿意度(包括搜索功能滿意度、響應時間滿意度和結果滿意度三項二級指標)。

表1 八個搜索引擎網址及所屬公司Tab.1 URLs of eight search engines and their companies
測量環境采用操作系統是Windows 7,瀏覽器采用360極速瀏覽器。該研究測量要求:關于同一指標的各搜索引擎的測試在一天內完成,以保證各搜索引擎結果的客觀性。在使用某一檢索詞測量時,分早中晚測3次,取平均值作為最終測量結果。高級檢索指有無高級檢索以及選項多少。關于 Alexa排名,參見網站(http://www.alexa.com/)。多媒體檢索包括圖片、音樂、視頻、地圖等。相似檢索可以檢索到與特定網頁相似的網頁信息[10]。特色服務是對搜索引擎實用功能的測評。每個搜索引擎都各有特色。相對查準率=(相關檢出數目/相對檢索數目)*100%。界面友好性指界面是否美觀大方、人性化、操作易學易用。個性化查詢界面,通過搜索設置可對搜索引擎進行設置。百度有輸入法設置,可拼音、手寫。結果的顯示是指顯示標題、描述信息、類目位置、網頁文本大小、快照、相似頁面、結果集中放置、檢索結果總數、搜索時間。死鏈率,即測試檢索結果死鏈情況,在參與測試的搜索引擎上進行搜索,查看各引擎的前 20個結果中的可成功打開的鏈接比例。對無法打開頁面進行統計,得出死鏈率[11]。網頁檢索評測任務對測試集提出了較高的要求,參考北京大學網絡實驗室中文Web信息檢索論壇(http://www.cwirf.org/)中的中文Web信息檢索評測,構建查詢主題集。本次研究把清華大學圖書館網站、武夷山的博客、論文+顛覆數字圖書館的大趨勢、感動中國十大人物、南京大屠殺、詠春拳等共計60個任務作為查詢主題集。具體評分方法如下:參考文獻[12],并進行修正,把主題與相關文檔間的相關度分為三個層次:非常相關(3分),相關(2分)、部分相關(1分)和不相關(0分),再者,查詢返回條數均大于20條,因此計算式如下:P(20)=[R(1-3)*20+R(4-10)*17+R(11-20)*10]/(279*3)。其中,P(20)為前20個搜索結果的檢準率,R為各個命中記錄的相關系數。關于各指標的權重,則采用專家算術平均法進行確定。
對有關數據進行處理后,八大搜索引擎績效評價結果如下:
谷歌中文除相似檢索功能不理想外,其他都很好,因此這項得分第一(0.8518);百度自然語音檢索也不如谷歌中文,所以這項得分第二(0.829762);搜狗多媒體檢索和特色服務搞得不錯,所以得分第三(0.812471);搜搜和360搜索多媒體檢索和相似檢索功能都很好,但由于高級檢索功能差,所以得分不高;而有道、雅虎中文由于這幾項功能均不出色,所以得分最低分別為0.43356、0.311415。建議必應、搜搜、有道、360搜索、雅虎中文加強高級檢索功能,而有道、雅虎中文加強檢索功能。
谷歌中文和百度檢索效果評測結果之間無明顯差異,但檢索數量百度不如谷歌中文,在所有檢索數量中,由于檢索結果的重復,除非專門選擇,百度一般顯示搜索到的前800條信息,谷歌中文一般顯示前 1000條信息;相對查準率較好的是谷歌中文、百度和必應。重復內容多不但影響用戶感受,還很耗費系統資源,影響檢索效率[13],相對重復率較小的是百度和雅虎中文。建議搜狗增加檢索數量,有道、360搜索、必應減少查詢結果的重復率。
谷歌中文在結果的顯示、個性化查詢界面、幫助文件的實用性詳盡性、界面友好性上做的都很好,但沒有快照預覽功能,建議以后加上;相關性排序是一項非常重要的指標,這項做得名列前茅的是谷歌中文和必應,其它網站搜索結果里前幾項出現的是廣告,而不是用戶所查詢的東西,不符合用戶需求,嚴重影響了用戶的體驗,特別是有道、雅虎中文相對于其他搜索引擎差距不小,希望以后改進,最好是把廣告放在用戶查詢結果的側面;幫助文件的實用性詳盡性方面以搜狗和360搜索較佳,希望其它搜索引擎能夠借鑒;搜狗和搜搜的快照預覽功能做的最好,期望其它搜索引擎能夠多學習;用戶負擔包含的這幾項雅虎中文和有道可以說各項做的均不理想,因此得分很低,分別為0.29307、0.27,建議以后多加改進。
因為Alexa排名和外鏈接數是客觀的、定量的統計,所以沒有讓被調查者進行評價。谷歌中文和百度各項結果都比較好,較其它搜索引擎要占較大優勢,因此很多人都把它們作為查找資料的首選。
得分最高的是谷歌中文,得分為 0.946166,其次是必應和搜搜,得分分別為0.862504、0.858838。搜索結果滿意度是一項非常重要的指標,谷歌中文、必應、搜搜做得較好,因此得分較高,而百度搜索結果的第一頁因廣告占據了重要位置,所以得分稍低一些;最差的是雅虎中文,得分僅為0.499506。
八大搜索引擎綜合評價參見圖 1。得分第一的是谷歌中文,得分為4.522380,盡管它在相似檢索、外連接數和快照預覽功能相對弱些,但是因為它在很多方面做的都很好,所以得分最高;百度由于幾個重要指標比如相對查準率、相關性排序等不如谷歌中文,因此得分為 4.108437,位居亞軍;得分最差的是雅虎中文和有道,得分分別為 2.31000、2.20673,因為相關性排序等很多指標做的都不如其他搜索引擎。

圖1 八大搜索引擎綜合評價Fig.1 Comprehensive evaluation of eight search engines
下面以用戶負擔、影響力為例繪出雷達圖,可以形象地表明各搜索引擎之間的差異。由圖2可以看出,用戶負擔一項谷歌中文得分最高而有道得分最低,影響力一項谷歌中文得分最高而有道明顯偏低。

圖2 八大搜索引擎以用戶負擔與影響力為例所畫雷達圖Fig.2 Radar chart drawn by user burdens and influence of eight search engines
(1)加強優化設計,提升用戶的搜索體驗。優化鏈接,努力提升搜索的速度;優化界面設計,提高用戶的搜索體驗;搜索結果要加強可信性評價,可像必應(bing)、搜搜、搜狗等那樣加上“可信網站”標示;定時更新程序,減少死鏈接的出現;優化程序,提升搜索結果的覆蓋率和收錄率;從數據空間化、空間顯示、用戶交互三方面提高檢索結果可視化展示;可參考點擊率的數量等因素優化檢索結果的位置;搜索引擎應與文獻計量學有關理論與技術相結合,提供更優的搜索結果;優化內容,減少重復等。
(2)把握未來發展趨勢,打造新型搜索引擎。搜索引擎未來朝著移動化、智能化、社會化、個性化、可視化、語音化發展。搜索引擎功能更豐富,智能化程度更高,可進行視覺搜索、語音搜索、地點感知搜索,最好還有推薦引擎的功能,搜索結果呈現知識圖譜化。搜索引擎會針對社交信息進行挖掘,將社交結果嵌入到搜索結果之中,并對搜索結果進行優化,以滿足更多的用戶需求[14-15]。未來搜索引擎像Siri那樣自然口語輸入,并能提供對話式的應答。未來搜索引擎不僅可以搜索到表層網絡(Surface Web)的內容,也可搜索到暗網(deep web)中的內容。此外,計算機搜索將與用戶(包括移動終端用戶)人工回答有機結合,產生出更佳的問題解決方案。在不久的未來,采用虛擬現實技術展現用戶的搜索結果將令用戶產生身臨其境的體驗。比如,搜索“東坡餅”,香甜酥脆的美食呈現在人們的眼前,用戶在“品嘗”著東坡餅的唇齒留香與回味悠長的同時,內心也許還品味著蘇東坡的詩句:“纖手搓來玉色勻,碧油煎出嫩黃深。夜來春睡知輕重,壓扁佳人纏臂金”,這些都將會大大增強用戶的快樂搜索體驗。
在參考有關文獻的基礎上[16-33],筆者認為搜索引擎評估的未來研究方向主要有以下方面:
(1)應多層次研究搜索引擎的績效評價。目前本研究是中文網頁信息檢索為例進行搜索引擎的績效評價,以后可以以英文為例,研究搜索引擎的績效評價,還可以進行中英文的比較,為進一步優化搜索引擎提供基礎。當然,也可從圖片、音頻、視頻、地圖等其他格式的文件方面進行搜索評價。此外,也可對Metasearch Engines進行績效評價研究。
(2)應探討搜索引擎多種評價方法的優劣性。衡量搜索引擎質量指標(DCG, Discounted Cumulative Gain)方法[34]與前20條記錄方法比較,哪個更好? DCG方法中以2為底,下一步可以2、e及10為底進行計算,然后與人工排序比較,看看孰優孰劣?此外,對解決問題而言,搜索引擎與社交網絡(Social Networks)哪個效果更好、效率更高?
(3)應多角度地研究探討搜索引擎評價。要讓普通用戶、專家學者、搜索引擎開發者、網站開發者等參與搜索引擎的評價研究,綜合考慮用戶角度和系統角度,如把普通用戶檢索評價和TREC類的檢索評價結合起來,這樣會使搜索引擎評價結果更有說服力。當然,也可從搜索引擎的廣告效果、用戶滿意度、經濟效益、社會影響等多個角度對搜索引擎進行評價研究。
(4)應加強可信性評價,提高自動評價的實效性。要加強搜索引擎有關技術研發,大力推進其智能化、移動化、社會化、個性化、可視化、語音化,特別是要提升語義理解力,提高情境搜索水平。這應該把人工智慧和搜索科技相融合,呈現出符合用戶個人需求的搜索結果[35]。搜索引擎評價也要與時俱進,滿足用戶的信息需求[36-38],加強可信性評價,提升相關的評價水平,尤其注意提高自動評價的實效性[39],最終達到提升用戶滿意度的目的。
[1] 吳勝利, 譚延之, 施化吉. 搜索引擎指標綜合特性的評價[J]. 江蘇大學學報(自然科學版), 2015, 02: 181-186+214.
[2] 費巍. 搜索引擎評價研究方法綜述[J]. 現代情報, 2010, 12:163-167.
[3] 邱均平, 胡文君, 羅力. 基于知識圖譜的國際網絡搜索引擎研究現狀與前沿分析[J]. 圖書情報工作, 2010, 24:89-94.
[4] 涂佳琪. 國內三大中文搜索引擎檢索性能評價的實證研究[J]. 中山大學研究生學刊(社會科學版), 2014, 02: 64-73.
[5] 馬志杰. 國外搜索引擎評價研究綜述[J]. 圖書館學研究,2013, 02: 2-6.
[6] 馬志杰. 我國搜索引擎評價研究的現狀、問題及對策[J].圖書館學研究, 2013, 04: 11-17.
[7] 朱慶華, 杜佳. 搜索引擎評價指標體系的建立與應用[J].情報學報, 2007, 26(5): 684-690
[8] 董文鴛, 吳娟仙. 圖像搜索引擎綜合評價指標體系的構建[J]. 嘉興學院學報, 2008, (04): 121-125.
[9] 鳳元杰, 劉正春, 王堅毅.搜索引擎主要性能評價指標體系研究[J].情報學報, 2004, 23(1): 63-68.
[10] 費巍, 張進. 相似檢索與鏈接檢索的性能評價研究[J]. 情報雜志, 2011, (02): 156-159.
[11] 常用六大網絡搜索引擎實用簡評. http: //www. topenergy.[2016-06-20]
[12] Leighton V and Srivastava J. First 20 precision among World Wide Web search services(search engines)[J]. Journal of the American Society for Information Science. 1999, 50(10):870-881.
[13] 清華大學IT可用性實驗室. 2005中文搜索引擎質量對比[N].計算機世界, 2005-11-14(E07)
[14] 搜索引擎的未來趨勢. http://blog.sina.com.cn/s/blog_6592-c40501019l37. html?tj=2. [ 2016-05-02]
[15] 華薇娜. 搜索引擎的最新進展述要[J]. 圖書與情報, 2009,06: 83-87.
[16] Ajayi O O, Elegbeleye D M. Performance Evaluation of Selected Search Engines[J]. Computer Engineering & Intelligent Systems, 2014, 5(1): 01-13.
[17] Deka S K, Lahkar N. Performance evaluation and comparison of the five most used search engines in retrieving web resources[J]. Online Information Review, 2013, 34(5): 757-771.
[18] Ribeiro C, Lopes C T. Comparative evaluation of web search engines in health information retrieval[J]. Online Information Review, 2011, 35(6): 869-892.
[19] Su, L. T. A comprehensive and systematic model of user evaluation of Web search engines: I. Theory and background.Journal of the American Society for Information Science and Technology, 2003, 54: 1175–1192.
[20] Su, L. T. A comprehensive and systematic model of user evaluation of Web search engines: II. An evaluation by undergraduates. Journal of the American Society for Information Science and Technology, 2003, 54: 1193–1223.
[21] Dai N, Davison B D. Topic-sensitive search engine evaluation[J]. Online Information Review, 2011, 35(6): 893-908.
[22] 劉璇, 于雙元. 非結構化P2P 網絡基于馬爾科夫鏈的搜索算法研究[J]. 軟件, 2015, 36(3): 116-121
[23] 王一華. 基于超效率DEA的網站績效評價[J]. 情報科學,2012, 30(09): 1371-1375+1384.
[24] 武濤. 基于云計算的并行動態路徑搜索算法研究[J]. 軟件,2015, 36(4): 128-132
[25] 王一華. 圖情博客評價實證研究[J]. 現代情報, 2015,35(11): 13-17.
[26] 王一華. 社交媒體信息可信度評估研究綜述[J]. 現代情報,2016, 36(12): 164-169.
[27] 胡一然, 宋中山, 孫翀, 等. NVSA: 一種具有可變節點值的查詢圖搜索算法[J]. 軟件, 2018, 39(3): 16-21
[28] 靳佳麗, 王一華. 我國高校圖書館微信服務評價[J]. 圖書館學研究, 2015(10): 56-61+78.
[29] 王一華. 基于IF(JCR)、IF(Scopus)、H指數、SJR值、SNIP值的期刊評價研究[J]. 圖書情報工作, 2011, 55(16):144-148.
[30] 王一華. 中國大陸圖書情報專業期刊的綜合評價——基于熵權法、主成分分析法和簡單線性加權法的比較研究[J].情報科學, 2011, 29(06): 943-947.
[31] 王一華. 學術期刊的組合評價研究[J]. 情報科學, 2011,29(05): 763-765.
[32] 王一華. 期刊評價指標SJR、JIF和H指數的關系研究[J]. 圖書情報工作, 2010, 54(06): 145-147.
[33] 王一華. 圖書館學術論文評價指標體系初探[J]. 現代情報,2008, 28(12): 138-139.
[34] Jarvelin K and Kekalainen J. Cumulated gain-based evaluation of IR techniques[J]. ACM Transactions on Information Systems. 2002, 20(4), 422–446.
[35] 秦海波. 讓更多人用上第三代搜索[N]. 經濟日報,2013-02-27(012).
[36] 李詩苗, 王一華. 我國數據庫評價研究現狀與發展趨勢[J].圖書館學研究, 2013, 16: 2-9.
[37] 王一華. 國內外網站評價研究綜述[J]. 情報科學, 2013, 11:125-132.
[38] 王一華. 數據庫績效評估實證研究[J]. 情報科學, 2016, 06:82-86.
[39] Azimzadeh M, Badie R, Esnaashari M M. A review on web search engines' automatic evaluation methods and how to select the evaluation method[C]// Second International Conference on Web Research. IEEE, 2016.