劉 如,吳 瓊,蔚曉川,劉彥君
(北京市科學(xué)技術(shù)情報(bào)研究所 北京 100120)
在大數(shù)據(jù)時(shí)代,科研人員進(jìn)行學(xué)術(shù)搜索的過程就是利用各種信息技術(shù)手段對(duì)大量原始、雜亂無章的數(shù)據(jù)進(jìn)行歸類,抽取有核心價(jià)值的內(nèi)容,整理成能清晰表達(dá)一定含義的信息。目前,絕大多數(shù)的學(xué)術(shù)搜索引擎都是對(duì)搜索結(jié)果進(jìn)行簡(jiǎn)單的邏輯排列。為了更直觀地展示這些搜索結(jié)果中隱藏在背后的變化趨勢(shì)和數(shù)據(jù)背后之間的相互關(guān)系,使研究人員更好地掌握和利用搜索出來的信息價(jià)值,就需要學(xué)術(shù)搜索引擎繼續(xù)對(duì)搜索的結(jié)果自動(dòng)抓取、自動(dòng)分類,并將有價(jià)值的元素關(guān)系及變化趨勢(shì)以可視化的形式展示出來。微軟學(xué)術(shù)搜索的可視化應(yīng)用就是一個(gè)成功的典范,為研究人員提供了一種全新的用戶體驗(yàn),同時(shí)也為我國(guó)建設(shè)和完善自己的學(xué)術(shù)搜索引擎提供了借鑒。
微軟學(xué)術(shù)搜索(Microsoft Academic Search)是近幾年發(fā)展起來的一個(gè)強(qiáng)大的免費(fèi)學(xué)術(shù)搜索引擎,自2009年正式推出使用,為研究員、學(xué)生、圖書館館員和其他用戶查找學(xué)術(shù)論文、國(guó)際會(huì)議、權(quán)威期刊、作者和研究領(lǐng)域等提供了一個(gè)智能、新穎的搜索平臺(tái)。該平臺(tái)應(yīng)用了諸如對(duì)象級(jí)別垂直搜索、命名實(shí)體的提取和消歧、數(shù)據(jù)可視化等許多研究思路,與傳統(tǒng)的學(xué)術(shù)搜索引擎相比,可以提供更多有價(jià)值的學(xué)術(shù)信息。
微軟學(xué)術(shù)搜索引擎與大多數(shù)學(xué)術(shù)搜索引擎的首頁不同,前者在主界面上列出了 15個(gè)大類的學(xué)科目錄,對(duì)每一個(gè)學(xué)科都提供該學(xué)科領(lǐng)域各種信息(作者、出版物、期刊、關(guān)鍵詞、組織機(jī)構(gòu))的排序表,可以使用戶輕松獲得有影響力的論文、作者、期刊、機(jī)構(gòu)和關(guān)鍵詞等信息。
與傳統(tǒng)的學(xué)術(shù)搜索引擎相比,微軟學(xué)術(shù)搜索采用的是基于對(duì)象的垂直搜索技術(shù)。使用該搜索引擎時(shí),搜索的結(jié)果是最終對(duì)象的集合,而不是雜亂的網(wǎng)頁列表。
與研究領(lǐng)域使用最頻繁的谷歌(Google)學(xué)術(shù)搜索相比,谷歌學(xué)術(shù)搜索更偏向?qū)δ繕?biāo)主題的搜索,搜索結(jié)果簡(jiǎn)潔,功能相對(duì)較少;而微軟學(xué)術(shù)的重點(diǎn)是深網(wǎng)的數(shù)據(jù)挖掘,并對(duì)挖掘后的數(shù)據(jù)進(jìn)行自定義分析,最大的亮點(diǎn)是將目標(biāo)論文橫向和縱向的有價(jià)值信息以可視化形式展示。
在微軟學(xué)術(shù)搜索中,搜索結(jié)果的排序基于以下兩個(gè)因素:搜索詞的相關(guān)度和搜索對(duì)象在世界范圍內(nèi)的影響力。搜索詞的相關(guān)度分?jǐn)?shù)通過其屬性計(jì)算得出;搜索對(duì)象在世界范圍內(nèi)的影響力分?jǐn)?shù)則通過它與其他對(duì)象之間的關(guān)系計(jì)算得出。其最終的結(jié)果顯示頁面與 Science Direct、IEEE的顯示形式差不多,可獲得相關(guān)論文的排名列表。在隨后更深入的查詢過程中,微軟學(xué)術(shù)搜索平臺(tái)以可視化的形式展示了很多隱藏在搜索結(jié)果背后的具有價(jià)值的信息。
當(dāng)點(diǎn)擊進(jìn)入一篇論文的詳細(xì)頁面后,可以看到該論文的介紹、可供瀏覽或下載的原始鏈接以及相關(guān)的參考文獻(xiàn)。在頁面中間(見圖 1),以曲線圖的方式直接展示了在一定時(shí)間范圍內(nèi)該論文被引用的趨勢(shì)。

圖1 文章被引用的曲線圖Fig.1 Curve graph of cited articles
這里的關(guān)系網(wǎng)可視化功能分為3個(gè)部分:合作者關(guān)系圖(Co-author Graph)、合作者路徑圖(Co-author Path)、引用關(guān)系圖(Citation Graph)。
3.2.1 合作關(guān)系圖(Co-author Graph)
合作關(guān)系圖(見圖 2)可以更清晰地了解共同作者的關(guān)系,其中,作者的節(jié)點(diǎn)越大,意味著該作者的著作越多。而節(jié)點(diǎn)之間的線越短,意味著兩個(gè)作者之間的合作數(shù)量越多。點(diǎn)擊這條連接線,就可以看到他們合作的文章數(shù)量。

圖2 作者的合作關(guān)系圖Fig.2 Co-author Graph
3.2.2 合作者路徑圖(Co-author Path)
合作者路徑圖(見圖 3)展示了兩名作者之間的合作路徑,路徑中每一個(gè)節(jié)點(diǎn)代表作者間的合作關(guān)系。該圖以樹狀的可視化形式呈現(xiàn)導(dǎo)師、學(xué)生關(guān)系。

圖3 合作者路徑圖Fig.3 Co-author Path
3.2.3 引用關(guān)系圖(Citation Graph)

圖4 作者被引用的關(guān)系圖Fig.4 Citations graph
學(xué)術(shù)研究領(lǐng)域動(dòng)態(tài)圖直觀地顯示了計(jì)算機(jī)科學(xué)領(lǐng)域的出版物動(dòng)態(tài)。領(lǐng)域動(dòng)態(tài)(Domain Trend)主要是分析計(jì)算機(jī)科學(xué)的研究動(dòng)態(tài),并采用疊加分布圖進(jìn)行直觀顯示。這個(gè)可視化展示功能可以提供一個(gè)清晰的圖示,即每個(gè)領(lǐng)域如何隨時(shí)間變化。
發(fā)表物數(shù)量的趨勢(shì)圖如圖 5所示,在 Domain Trend中選擇學(xué)科領(lǐng)域?yàn)橐曨l科學(xué),時(shí)間選擇2005—2010年,從學(xué)術(shù)趨勢(shì)圖可以直觀看到食品科學(xué)在2005—2010年的學(xué)術(shù)發(fā)表有著非常明顯的增長(zhǎng)之勢(shì)。

圖5 食品科學(xué)領(lǐng)域的發(fā)表量趨勢(shì)動(dòng)態(tài)圖Fig.5 Domain trend of quantity of published papers in food science area
發(fā)表物比例的趨勢(shì)圖如圖 6所示,同樣選擇2005—2010年,從圖中可以直觀地看到食品科學(xué)在農(nóng)業(yè)科學(xué)領(lǐng)域中所占的比例。

圖6 食品科學(xué)領(lǐng)域的發(fā)表物比例的趨勢(shì)動(dòng)態(tài)圖Fig.6 Domain trend of proportion of published papers in food science area

圖7 食品科學(xué)領(lǐng)域組織機(jī)構(gòu)的研究趨勢(shì)動(dòng)態(tài)圖Fig.7 Domain trend of researches on organizations in food science area
組織機(jī)構(gòu)的研究趨勢(shì)圖如圖7所示,在選定組織機(jī)構(gòu)后,可以看到這個(gè)組織單位的主要研究領(lǐng)域隨時(shí)間不斷變化,從而發(fā)現(xiàn)該組織的研究?jī)?yōu)勢(shì)領(lǐng)域和發(fā)展趨勢(shì)。
學(xué)術(shù)分布圖的展示主要分為學(xué)術(shù)的組織分布和研究人員分布兩個(gè)方面。
學(xué)術(shù)的組織分布(見圖 8)可以看到在選定的學(xué)科領(lǐng)域內(nèi),主要的研究力量分布在哪個(gè)國(guó)家、哪個(gè)地區(qū)等信息。

圖8 學(xué)術(shù)的組織分布圖Fig.8 Distribution of academic organizations
研究人員分布如圖9所示,選擇計(jì)算機(jī)科學(xué)的研究領(lǐng)域后,點(diǎn)擊中國(guó)地圖,不斷放大到北京地圖,可看到北京郵電大學(xué)的圓圖最大,繼續(xù)點(diǎn)擊后,就呈現(xiàn)出下圖中的人物分布圖,最后可鏈接至該作者的詳細(xì)介紹頁面。

圖9 學(xué)術(shù)的研究人員分布圖Fig.9 Distribution of academic researchers
微軟學(xué)術(shù)搜索的可視化應(yīng)用研究不僅對(duì)大數(shù)據(jù)環(huán)境下完善我國(guó)學(xué)術(shù)搜索服務(wù)的發(fā)展方向具有指導(dǎo)意義,而且彌補(bǔ)了我國(guó)數(shù)據(jù)信息可視化研究不足的現(xiàn)狀,為大數(shù)據(jù)時(shí)代下我國(guó)各領(lǐng)域的發(fā)展提供了可供參考和選擇的戰(zhàn)略思路及方案建議。學(xué)術(shù)搜索數(shù)據(jù)的可視化是學(xué)術(shù)搜索領(lǐng)域發(fā)展的必然趨勢(shì)。■
[1] 微軟學(xué)術(shù)搜索[EB/OL]. http://academic.research.microsoft.com/. 2013-07-01.
[2] 許劍穎. 微軟學(xué)術(shù)搜索初探[J]. 情報(bào)探索,2012(12):96-100.