顧恒軒 楊青飏
摘 要:隨著學術資源的大規模數字化與爆炸式增長,學術搜索引擎的價值已經漸漸體現。但學術搜索引擎的更新換代并未與其用戶數量的激增相對應。學術搜索引擎用戶查詢意圖分類體系不明確;PC端學術搜索引擎使用不便捷;學術搜索引擎未充分使用用戶個人檔案等問題在阻礙學術搜索引擎的發展。本文重點介紹了學術搜索引擎的研究與應用現狀,并針對目前的不足提出未來展望。
關鍵詞:學術搜索引擎;移動化;用戶
1 引言
隨著學術資源的大規模數字化與爆炸式增長,學術搜索引擎的價值已經漸漸體現。所謂學術搜索引擎,是指專門搜索學術資源的,具備簡單搜索框的搜索引擎。相較于具有跨庫檢索功能的學術數據庫而言,學術搜索引擎不需要使用者進行人工選擇數據庫或文章特征,操作簡單。相較于綜合類搜索引擎而言,學術搜索引擎在搜索對象特征、用戶行為特征、用戶查詢式特征上都與之不同,因此二者不能混為一談。在實踐操作中,由于學術研究者的時間與檢索技術水平有限,因此需要使用學術搜索引擎來降低學術信息搜尋成本,提高自己的工作和學習效率。實際上,越來越多的學者和公司已經意識到了這一點,構建和上線了學術搜索引擎,如Google Scholar, Microsoft Academic,Aminer等。且各大公司和機構在根據學術搜索引擎的上線效果不斷嘗試著優化,如:微軟學術搜索在2012年由于檢索效果不佳而下線,直到2017年下旬,經過改善的“Microsoft Academic”才重新上線;美國艾倫人工智能研究所也于2016年推出了使用深度學習技術進行結果呈現優化的學術搜索引擎Semantic Scholar等。這也印證了學術搜索引擎具備極高的使用價值。
2 學術搜索引擎現狀
由于目前關于學術搜索引擎理論層面的研究數量太少,且僅有的理論研究也不全面,因此本文從幾個常用、且有特點的學術搜索引擎出發介紹學術搜索引擎的研究現狀
目前比較常用的學術搜索引擎有Google于2004年推出的“Google Scholar”,Microsoft于2017年上線的“Microsoft Academic”,中文學術搜索引擎“百度學術”等。后文將對Google Scholar,Microsoft Academic,百度學術以及基于深度學習的學術搜素引擎Semantic Scholar的基本功能和特點做簡單的介紹。
Google Scholar是較早推出的一款學術搜索引擎,支持多種語言檢索。Google未公開發布其數據來源,但一般認為其文獻信息來源包括:學術性商業數據庫;出版社網站和來自“.gov”,“.org”,“.edu”的信息,即政府、社會機構和高校網站的信息。Google Scholar的文獻檢索查全率非常高,是Microsoft Academic,百度學術等學術搜索引擎的數倍至數十倍。基于其龐大的文獻資源,它為用戶推出了個性化功能:引文分析和個人學術管理。用戶可以通過文獻記錄的錨文本查看該文獻的引文列表,作為判斷該文獻影響力的一個依據;也可以使用個人學術管理功能,知曉自己文獻的引用情況,管理自己的文獻,計算自己的學術影響力指數等。
Microsoft Academic是微軟公司推出的基于語義的學術搜索引擎,是為數不多的一款實現按領域檢索的學術搜索引擎,包括了15個領域,每個領域包含若干學科方向。它是上一個版本“Microsoft Academic Search”優化后的成果。與Google Scholar類似,Microsoft Academic也為用戶建立了個人檔案。以個人檔案為基礎,Microsoft Academic提供了可視化服務,個性化搜索等功能 。用戶可以查看學術地圖、作者關系圖、引文關系圖等。但由于Microsoft Academic未完全解決“重復文獻”“重復作者”的問題,因此關系圖的準確性還有待提升。值得一提的是,上一個版本的Microsoft Academic Search曾經通過Windows Phone Client推出過移動服務功能,用戶可以使用手機進行學術文獻檢索。
百度學術作為目前國內代表性的學術搜索引擎,在中文文獻檢索領域處于世界領先的地位。其UI設計與功能設計上很大程度借鑒了Google Scholar的思路,為用戶提供了個人學術管理和可視化功能,包括研究熱點分析可視化和學術成果可視化等。
Semantic Scholar是2016年推出的基于深度學習的學術搜索引擎。盡管目前它僅包含computer science和medicine兩個學科,且相較于成熟的學術搜索引擎,其在檢索模式上更為單一,但它提出了一套新的文獻影響力評價指標,也為學術搜索引擎的結果呈現提供了一種新思路。學術搜索引擎使用者渴望用盡可能少的檢索次數找到符合自己需求的學術文獻,但僅根據被引量和下載量這兩個指標難以全面地衡量一篇學術論文在某領域的重要性。鑒于此,Semantic Scholar使用深度學習技術為學術文獻設計了如高影響力引用次數,引用加速度,年度引用趨勢圖等文獻、作者評價指標,并運用深度學習技術優化推薦排序,旨在用盡可能少的檢索次數檢索到更符合其信息需求的學術文獻。
3 現有學術搜索引擎的不足
盡管現有的學術搜索引擎正不斷地努力優化改良,但它們依舊存在幾個共有的問題:
1)學術搜索引擎用戶查詢意圖分類體系不明確。對于搜索引擎而言,查詢意圖分類體系可以指導工程師更好地設計整個搜索引擎的檢索策略。在綜合性搜索引擎研究中,當下較為權威的搜索引擎用戶查詢意圖分類體系有Broder和Rose提出的“信息類、導航類、事務類”分類體系。可它的分類對象是所有電子資源,而非學術資源,因此并不合適。在學術信息檢索領域尚未出現合適的、學界公認的學術查詢意圖分類體系,這一定程度上制約了學術搜索引擎相關研究的進展,導致學術查詢意圖識別以及學術檢索的突破發展緩慢。
2)PC端學術搜索引擎使用不便捷。近些年,智能手機的高速普及帶動了移動設備用戶數量的增加,但學術搜索引擎的移動化卻進展緩慢。在第一代“Microsoft academic search”推出時,曾為Windows Phone手機提供了移動端學術信息檢索。可隨著Microsoft academic search的下架,移動端學術搜索引擎也隨之下架。因為學術搜索引擎具備“一站式”的優勢,絕大多數情況只需要一個搜索框即可完成檢索,并不需要如學術數據庫的諸多選擇框,很適合在移動設備上操作,所以如果學術搜索引擎實現移動化,那將會提高學者的學術搜索便捷度,并同時增加學術搜索引擎的普及率和關注度。
3)學術搜索引擎未充分使用用戶個人檔案。用戶個人檔案包括了用戶個人基本信息、學術信息、檢索記錄等一系列可以反映用戶特征和用戶行為的數據。然而大多數建立個人檔案的學術搜索引擎都只對用戶的學術信息進行開發利用,推出了引文分析、學術管理等功能,并未合理利用檢索記錄優化檢索結果呈現。根據Verberne等學者得出的研究結論:結合用戶的檢索記錄可以一定程度上優化學術檢索的結果。但目前尚未出現合理利用個人檔案中的檢索記錄,為用戶提供個性化檢索的學術搜索引擎。
4 展望
作者認為,對于學術搜索引擎而言,接下來的研究重點應主要包括兩部分:學術搜索引擎的移動化研究和學術搜索引擎理論的研究。前者包括移動化學術搜索引擎的設計,用戶行為研究,用戶心理研究,檢索結果呈現等;而后者主要包括學術搜索引擎用戶查詢意圖分類,查詢意圖識別,查詢策略及算法優化等。移動化,個性化,精準化是學術搜索引擎發展的關鍵詞。
參考文獻
[1]趙蓉英,陳燁.學術搜索引擎Google Scholar和Microsoft Academic Search的比較研究[J].情報科學,2014,32(02):3-6,15.
[2]Verberne S, Sappelli M, S?rensen D R, et al. Personalization in Professional Academic Search[C]// Proceedings of the Integrating IR Technologies for Professional Search Workshop. 2013:1–8.
[3]Khabsa M, Wu Z, Giles C L. Towards Better Understanding of Academic Search[C]// Proceedings of the 16th ACM/IEEE-CS on Joint Conference on Digital Libraries, 2016: 111-114.
[4]Li X, de Rijke M. Academic Search in Response to Major Scientific Events[C]//The 5th International Workshop on Bibliometric-enhanced Information Retrieval. 2017: 41-50.
[5]Li X, de Rijke M. Do Topic Shift and Query Reformulation Patterns Correlate in Academic Search?[C]//European Conference on Information Retrieval, 2017: 146-159.
[6]謝智敏,郭倩玲.基于深度學習的學術搜索引擎——Semantic Scholar[J].情報雜志,2017,36(08):175-182.
[7]WIKIPEDIA. Microsoft Academic Search[EB/OL].(2017-09-06)[2019-2-12]. https://en.wikipedia.org/wiki/Microsoft_Academic_Search#cite_note-Microsoft_Academic_Search_FAQ-1.
[8]Ortega J L, Aguillo I F. Microsoft Academic Search and Google Scholar Citations: Comparative Analysis of Author Profiles[J]. Journal of the Association for Information Science and Technology, 2014, 65(6): 1149-1156.
[9]劉敏.基于用戶體驗的微軟學術搜索和百度學術搜索對比研究[J].情報探索,2018(07):55-63.