伊雷 王婷 郭倩玲 張建文
(北京化工大學圖書館,北京100029)
大數據背景下高校圖書館開展知識服務的探索與實踐*——以北京化工大學圖書館為例
伊雷王婷郭倩玲張建文
(北京化工大學圖書館,北京100029)
大數據時代究竟如何通過挖掘海量文獻數據提供知識服務,在高校圖書館界尚未達成一致意見。但開展大數據知識服務,是高校圖書館未來發展的一個重要方向,這一點已經逐漸成為共識。利用文獻計量學分析高校學科發展狀況,為學校制定學科發展戰略提供參考依據,是目前高校圖書館利用大數據開展知識服務的具體途徑之一。
高校圖書館大數據知識服務
“隨著云計算、物聯網以及信息獲取和存儲技術的飛速發展,數據正以幾何級數的速率迅速增長和積累。目前全球已經步入了大數據時代[1]。”大數據時代是網絡社會發展的更高階段,其特點是“數據生成速度加快、采集實現自動化、存儲和傳輸成本大幅降低,數據量急劇膨脹”[2]。在這一背景下,高校廣大師生獲取文獻資源的途徑越來越多,高校圖書館傳統粗放的服務方式已然不能適應學校發展需要,這就要求必須在保證文獻資源數量與質量的同時,在服務師生的方式、方法上不斷創新。因此,高校圖書館如何為師生提供大數據知識服務,已成為值得研究的課題。所謂大數據知識服務“是為適應信息服務智慧化、協作化、綠色化、先覺化和泛在化的發展趨勢而衍生的一種基于網絡的信息服務新模式”[3]。高校圖書館開展大數據知識服務就是要通過挖掘海量學術數據資源為廣大師生提供前瞻性服務。
高校圖書館歷來對信息技術的應用非常重視,幾乎每一項新技術的出現,都能推動其服務升級。大數據時代,高校圖書館的數據處理方式、目的等都將發生巨變。在數字時代,高校圖書館的數據處理主要是將文獻資料數字化、網絡化,其目的是實現師生對學術數據的充分利用;進入大數據時代,對海量文獻數據的分析、處理將成為高校圖書館發展的新趨勢,其服務重心也會逐漸由傳統業務向數據挖掘轉移。在實踐方面,哈佛大學圖書館已引入大數據服務[4];清華大學圖書館正嘗試在大數據環境下從元數據中提取關鍵詞等信息,分析關鍵詞走向及作者與合作者的關系,試圖建立以人為中心的知識關聯網絡[5]。
作為一種全新的服務方式,大數據知識服務是在海量數據的獲取、存儲、分析等過程產生的以數字化、網絡化、智能化為基礎的服務模式。在大數據時代對海量數據的處理能力意味著獲取知識方式的改變。Jim Gray因此提出科學研究的第四范式——以協同化、網絡化與數據驅動為其主要特征的數據密集型科學研究[6]。作為未來服務的新模式,大數據知識服務將成為高校圖書館轉型發展的新方向。
如何在大數據時代開展知識服務,目前高校圖書館界正處于探索階段,尚沒有統一的模式。北京化工大學圖書館也進行了一些嘗試。主要涉及以下幾個方面:第一,采用定量分析方法,通過引文數據庫Web of Science考察了2001~2014年北京化工大學(以下簡稱北化)學者們的總發文量、總被引次數、每篇論文的平均被引次數、H指數等多個指標,利用H指數將數量指標(論文數量)和質量指標(被引頻次)有機結合,使評價結果更加合理。在此基礎上,結合人才類型、研究人員層次、學術生涯年限等多個影響因素,探討現有文獻計量方法和體系的局限性,闡釋如何正確解讀上述評價指標,以便學校決策者們能夠正確地應用這些指標,對老師們的學術影響力做出科學評價。第二,對2001~2014年度以北化為機構的SCI收錄論文進行分析。并從研究方向、發表期刊分布特點以及論文作者群等屬性進行統計,對它們的分布規律和內在聯系進行梳理,以期研究科研產出特點,為學校制定科研政策、交叉學科發展、國際化戰略等提供數據支撐。第三,利用文獻計量分析法,借助Cite Space軟件生成可視化圖譜,通過學科地圖等形式,定量、可視化地深入揭示北化各科群的分布情況,進而系統探討其研究維度,以期把握北化的學科交叉以及滲透融合狀況,內容包括學科分布、合作情況分析、研究方向演化及研究熱點分析、研究前沿分析等。第四,利用Innography專利檢索與分析平臺制作了詳細的專利分析報告,內容涉及當前北化的專利擁有量、專利價值評價、創新優勢學科、活躍學科發明人、專利的合作申請分析、國外專利申請情況分析等。
3.1利用文獻計量分析學科發展水平
利用文獻計量分析學科發展水平,是高校圖書館在大數據時代開展知識服務的具體途徑之一。例如,通過大量文獻計量分析,我們發現Chemistry、Materials Science、Engineer?ing、Polymer Science和Physics為北化最為集中的研究方向。

圖1 主要研究方向及其分布
對以上5個主要科研方向求和,得到的總計數以及總百分比數(110%)均高于所發表論文的總篇數,說明這5個研究方向及其交叉學科是北化科研產出的重要組成部分。并由此可以看出,北化科研產出具有較強的學科集中性。
圖2化學方向關聯情況
同時通過Citespace軟件對熱點研究方向相關文獻的分布情況進行分析(用節點代表分析對象,節點大小表明對象的量級,用節點之間連接線表明文獻之間的關聯性)發現nanoparticles是出現次數最多的
,與之關聯的為nanocrystals(圖2)。此外,由water、seperation和absorbtion為
的文獻構成了一組關聯性非常強的研究熱點。用同樣方法對其他4個熱點研究方向進行分析得到圖3。
圖3材料科學方向關聯情況
圖4工程方向關聯情況
圖5高分子科學方向關聯情況
圖6物理學方向關聯情況
通過對圖2~6進行分析,發現上述5個熱點研究方向其有著非常強的相似性。由此可見北化的研究領域單一,分散性差,高水平研究方向過于集中,學科發展不均衡。
3.2利用專業平臺分析學科發展特色
利用Innograph對北化專利數據進行統計,研究其背后的學科發展信息。
第一,重點研究領域分析。將北化全部專利申請按照IPC統計分析生成樹狀分布圖(圖7),圖7中區塊的不同顏色表示某領域全球專利總量的多少,區塊面積的大小代表北化專利申請數量在某領域的多少。由圖7可見北化在B部和C部申請的專利最多。再取專利申請量排名前10位的IPC小類進行分析,由此可看出北化的重點研發方向。表1為專利申請量排名前10位的IPC小類及對應的技術領域。結合圖7和表1可以看出,北化申請的專利中,B部中以催化和塑料加工領域為主,C部中以高分子化合物領域為最多。說明北化專利發明集中在催化、塑料加工、高分子材料等領域。

圖7 北化專利IPC分類樹狀分布
第二,熱門研究領域競爭力分析。北化專利在該領域的國內競爭力情況見圖8。競爭力分析圖中氣泡大小代表專利數量多少;橫坐標與專利比重、專利分類、引用情況相關,橫坐標越大,說明其專利技術性越強;縱坐標與專利權人的收入高低、專利國家分布、專利涉案情況有關,縱坐標越大,說明專利權人實力越強。在該領域,中石化在公司實力、專利質量和數量上遙遙領先,巴斯夫的專利數量較大。其他機構在專利質量和數量上相差不大,在這些機構中,除中石油、贏創、殼牌、美孚、住友、陶氏等幾家公司外,主要為高校,北化在這些機構中占有一席之地,但也面臨著激烈競爭。

表1 北化專利申請量排名前10位的IPC小類及對應的技術領域

圖8 催化領域北化有效專利在國內的競爭力
北化面臨的競爭主要來自清華、復旦等大學。為了更好地了解對手,對清華、復旦等大學在該領域的專利申請進行文本聚類分析,以了解這兩所大學的研究技術熱點。兩所大學專利申請的文本聚類如圖9所示。由圖9可以看出,清華大學的主要研究熱點為催化活性組分和催化反應器;復旦大學的研究熱點為沸石、分子篩和二氧化鈦在催化方面的應用。北化在該領域的研究熱點為復合金屬氧化物、納米粒子和分子篩在催化方面的應用及催化劑活性組分方面,其在反應器和廢水處理方面研究較少。

圖9 兩所大學在催化領域專利申請的文本聚類
3.3利用大數據發現潛在學科領軍人才
高校學科建設領軍人才是促進高校學科建設的核心人物。在普通高校中,所謂學科建設領軍人才主要包括4個層次:第一層次是以我國兩院院士為代表的高級人才。第二層次是以“長江學者”為代表的高端人才,也包括“千人計劃”及“973首席科學家”等。第三層次是國家杰出青年科學基金入選者。國家杰出青年科學基金用于支持在基礎研究方面已取得突出成績的青年學者自主選擇研究方向開展創新研究,旨在培養造就一批進入世界科技前沿的優秀學術帶頭人。第四層次是“新世紀優秀人才支持計劃”入選者。“新世紀優秀人才支持計劃”屬于教育部“高層次創造性人才計劃”的第二層次(第一層次是“長江學者”),是對高校優秀青年學術帶頭人的一個支持計劃。
然而,對于高校而言,直接引進這些人才的成本太高。另一方面,這些人才都是稀缺資源,高校對他們的爭奪也很激烈,所以在操作層面即使不計成本,這些人才也并不是很好引進的。因此,如果能夠利用學術大數據挖掘一批好苗子進行引進,假以數年培養,使其成為領軍人才,其成本和難度則會大大降低。
在北化引進人才的過程中,我們曾設想利用H指數和ESI高被引論文等多種指標對其學術潛力進行多方面考察,看其是否具備成長為長江學者和院士的素質。H指數的優點是既考慮了論文的數量指標,又考慮了論文的質量指標,而且更多地聚焦于高被引頻次論文,只有當論文數量和質量均有良好表現時,才會獲得較高的H指數,這是目前世界上公認的相對比較科學的評價指標。從北化的具體情況來看,第一梯隊人才的H指數一般都能夠達到30以上,第二梯隊人才的H指數介于20~30之間。
然而,H指數也存在不足之處。具體表現為H指數更多地反映了學者在基礎研究領域內的影響力,對于主要從事應用技術開發的科研人員,用H指數就無法公正地體現其學術貢獻;尤其是對于年輕的學術新星,即使單篇論文的被引頻次很高,也無法獲得較高的H指數。他們必須經過長期的學術積累,才能夠在H指數上有較好的表現。因此,單從H指數來評價年輕學者,不利于發掘新人;H指數學科差異性很大,對不同學科人才的H指數進行橫向對比是不可取的。
因此,運用H指數進行評價時,還要綜合考慮被評價學者的類型、學科領域、層次、學術生涯年限等諸多因素影響,并結合專利授權量和轉化量、獲得國家獎勵情況等多種評價指標建立綜合評價體系(例如,ESI高被引論文應納入考察和發掘科學領軍人才的重要指標之一),才能使得評價結果更為合理、客觀和科學。
總之,合理運用多項評價指標,密切關注高層次的學術影響力動態,及時發掘新人,才能進一步推動高校人才隊伍建設和學科發展。
目前,高校圖書館開展大數據知識服務正處于探索階段。究竟如何通過挖掘海量文獻數據,從大數據中獲取新知,在高校圖書館界尚未達成共識。但開展大數據知識服務,從而不斷提升高校圖書館的服務品質,是高校圖書館未來發展的一個重要方向,這一點應該不會有疑義。開展大數據知識服務將使高校圖書館迎來一個新時代。高校圖書館不同于公共圖書館之處在于其服務對象和服務功能相對單一,主要對象是高校廣大師生,其主要功能是服務高校的教學、科研發展。因此,北化圖書館在開展大數據知識服務探索時,特別關注兩個方向,其一為知識發現,其二為人才發現。這兩個方向將是我們未來開展大數據知識服務的主要方向。
[1]秦小華,王紅濤.大數據時代的高校圖書館服務創新[J].中國科技信息,2014(22):221-222.
[2]鐘輝新.大數據時代信息服務的發展走向及高校圖書館應對策略[C].廣東圖書館學會學術年會論文集,2013.
[3]秦曉珠,李晨暉,麥范金.大數據知識服務的內涵、典型特征及概念模型[J].情報資料工作,2013(2):18-22.
[4]WATTERS A.Strata Week:Harvard Library releases big da?ta for its books:Harvard offers big data for books,Cloudera’s new Hadoop distribution,Splunk goes public[EB/OL].[2013-10-09].http://radar.oreilly.com/2012/04/harvard-book-da?ta-cloudera-hadoop-splunk-ipo.html.
[5]鄧景康.大數據環境下清華大學圖書館的實踐[N].中國新聞出版報,2013-08-29(005).
[6]Jim G.On eScience:transformed scientific method[C].Tony H,Stewart T,Kirstin T.The fourth needs paradigm:Dataintensive scientific discovery.Redmond,WA:Microsoft Re?search,2009:19-33.
伊雷男,1979年生。碩士,館員。研究方向:數據挖掘、學科服務。
王婷女,1976年生。碩士,副研究館員。研究方向:學科服務。
郭倩玲女,1971年生。博士,副研究館員。研究方向:科技查新、專利分析。
張建文男,1969年生。博士,教授。研究方向:圖書館管理。
G258.6
*本文系中央高校基本科研業務費項目(ZZ1403);北京化工大學圖書館館長基金(20141203)研究成果。
(2015-09-28;責編:張欣。)