數據科學時代,情報學快速發展,學科研究文獻數量迅速增長。科學研究目的在于提出前沿的看法而引導人類向前邁進,以及探討當前遇到的問題并提出解決方案[1]。“論文”是科學研究成果產出中極為重要的形式,故“論文”也是情報學研究成果極為重要的表現方式。情報學學者歷來重視學科的回顧與展望,Figuerola、Ivanovic D、Olmeda-Gomez、周鑫、趙蓉英等分別從不同角度及主題對國際情報學領域研究論文進行統計分析[2-6]。大數據、云計算、物聯網等“互聯網+”環境下新一代信息技術的發展,為情報學科的自身發展、情報學科的跨界及與其他學科的融合發展帶來了新的歷史機遇[7]。
為洞悉近5年情報學研究態勢,本文綜合考慮查全率、查準率、可視化布局等有關因素,優化行文結構,保留定量結構,挖掘內容特征,以多樣化的知識圖譜進行國際情報學領域研究分析,以期回答三方面的研究問題:(1)近5年國際情報學研究高影響力作者如何分布?(2)近5年國際情報學研究高被引文獻有哪些?(3)近5年國際情報學研究熱點內容是什么?希望本文的研究能有助于相關學者把握情報學領域研究前沿。
在研究方法的選擇上,與其他研究者所不同的是,本文將洛特卡定律、社會網絡分析、內容分析等方法進行了綜合使用,以期對國際情報學領域研究論文進行全面的分析與解讀,充分借助文獻的內、外部特征,并采用數學與統計學的方法,通過繪制科學知識圖譜來揭示該領域的知識結構、知識特征和研究熱點。
通過WOS中期刊引用報告(Journal Citation Reports,JCR),筆者檢索到2016年(2017年尚未公布)在“Information Science&Library Science”類目中被收錄的85種期刊。以期刊五年影響因子降序排列,根據期刊分布存在的“二八定律”,選取85種期刊中前20%,即17種最具影響力的權威期刊來揭示國際情報學近5年研究態勢(由于前17種期刊都為情報學類刊物,故無需進行情報學專業期刊挑選,見表1)。在WOS核心集數據庫,對17種刊物依次輸入出版物名稱并用布爾邏輯“OR”連接,時間設置為2012-2016年,文獻類型選擇“Article”或“Review”,共檢索到4686條文獻記錄(每條文獻記錄包括題目、作者、關鍵詞、摘要、參考文獻等信息)。

表1 國際情報學領域TOP17高影響力期刊
在工具使用上,結合各軟件優勢,選取多種軟件來為本文研究做輔助工作。首先,使用Cite Space IV和Netdraw軟件進行可視化分析,利用Excel、UCINET、SATI、BICOMB等軟件,對數據庫收錄的情報學研究論文進行統計分析。然后,基于文獻計量學的理論規律和分析方法,通過繪制科學知識圖譜,分別對相關文獻進行揭示與解讀。
根據廣義洛特卡定律的文字表述[8-9],在某一時間內,寫了x篇論文作者總數的比例與其撰寫論文數x的平方成反比關系,即f(x)=C/xn。其中f(x)為寫x篇論文的作者占作者總數的百分比,x為論文篇數,C,n為某主題領域的特征常數,C值范圍為0.6079-0.8276,n值范圍為2-3。根據該定律可分析出近5年情報學領域作者分布的特點和規律,表2為情報學相關文獻作者頻次的分布。從表2可以看出,2012-2016年共有11199位作者(含第二、三作者)發表情報學相關研究論文。其中,發表1篇論文的作者為8802人,約占78.60%,滿足洛特卡定律文字表述中參數C的范圍。發表2篇文章的作者1421人,約占12.69%。隨著頻次的增加,同一頻次的作者數量逐漸減少。作者頻次在3篇及以上的不到9%,說明國際情報學相關研究論文作者分布十分廣泛,研究具有“百家爭鳴”的特點,情報學文獻的分布呈現明顯的集中和離散趨勢。一方面,多數作者集中在頻次低的范圍;另一方面,大部分的文獻由少數高產作者撰寫,而小部分的文獻由其他大量頻次低的作者所撰寫。

表2 近5年情報學相關論文作者頻次
根據洛特卡定律的圖像描述,設x為一位作者撰寫的論文數量,y為撰寫x篇論文的作者數量。將x與y分別求對數,根據作者頻次分布數據,繪制散點圖,利用Excel對其進行曲線擬合,得到作者頻次的近似分布規律。圖1為近5年國際情報學研究論文作者的頻次分布規律(洛特卡分布曲線)。圖1中擬合直線的擬合優度R2為0.96,可見擬合效果良好,lgy與lgx呈良好的線性關系,近5年國際情報學研究論文作者的頻次分布符合洛特卡定律。擬合直線斜率為-3.0101,因此n近似值為3,滿足洛特卡定律文字表述中參數n的范圍。作者頻次(作者產出)的近似分布規律為:lgy=-3.0101lgx+4.0298(由于橫縱坐標取對數,故圖中公式y=lgy,x=lgx)。
為了界定近5年情報學研究的核心學術團體,了解本學科研究者的合作情況以及高被引情況,本文對其合作網絡及共被引網絡做了進一步分析。將情報學相關研究論文題錄及引文信息從WoS數據庫導出后,首先,利用BICOMB軟件對題錄信息進行格式轉換,抽取作者字段(包括第二、第三等所有作者)、統計作者頻次,生成作者共現矩陣(矩陣規模取值149*149,發文量大于8篇的前149名作者),利用UCINET軟件生成.##h格式的作者共現文件,使用可視化軟件Netdraw繪制近5年國際情報學相關研究發文作者共現知識圖譜(見圖2);其次,利用CiteSpaceIV軟件,以1年為時間線,選擇被引作者節點,生成作者共被引知識圖譜(見圖3)。同時,本文運用Excel統計得到,近5年國際情報學相關論文的高產作者及高被引作者的Top10分布情況(見表3、4)。
在圖2中,節點是以點度中心性的大小進行可視化,由此來展現各節點在網絡中的重要程度,其中,將節點采用不同的形狀來做進一步區分。由圖2可知,從作者共現整體網絡結構來看,作者合作網絡較為緊密,互動性效果較好。近5年國際情報學研究擁有多個合著子群(研究團 體 ), 諸 如 以 Denny, Joshua C、 Bates,David W、Chute,Christopher G、Pacheco,Jennifer A、Peissig,Peggy L、 Rasmussen,Luke V等為核心的學術研究團隊。同時,由表3可知,近5年國際情報學研究領域發文量最多的是來自美國的Bates,David W(31篇),發文量排名第二和第三的分別是德國的Bornmann,Lutz和意大利的Abramo,Giovanni。

表3 近5年情報學相關論文Top10高產作者

表4 近5年情報學相關論文Top10高被引作者
由圖 3可知,Venkatesh V、Fornell C、Orlikowski WJ、Gefen D、Podsakoff PM、Davis FD、Eisenhardt KM、Chin WW、Nonaka I等高被引作者,在整個共被引網絡中,具有較高影響力,成為情報學各細分研究方向的關鍵人物,引領情報學學科不斷向前發展。同時,由表4可知,近5年國際情報學研究領域被引頻次最多的是來自美國馬里蘭大學的Venkatesh V(471次),被引頻次排名第二和第三的分別是美國密歇根大學的FornellC和麻省理工大學的OrlikowskiWJ。
結合表3和表4可以發現,情報學領域高產作者和高被引作者主要來自于美國,并長期占據絕對優勢的地位,具有較高的國際影響力。此外,德國、意大利、英國、日本等國家由于匯集了Bornmann,Lutz、Abramo,Giovanni、D'Angelo,Ciriaco Andrea、Thelwall,Mike、Nonaka I等一批高產或具有高被引作者特征的杰出學者,使得其在國際情報學研究領域影響力不斷提升。
被引頻次往往能反映出文獻受關注程度和學術影響力。通常高被引文獻中傳遞的知識在某一時間內易受到學者的認同,同時學者們會將這些高被引文獻所傳遞的知識、觀點作為下一步研究的知識基礎。因此,分析高被引文獻對情報學研究具有重要的參考價值。設置CiteSpace參數,節點選擇被引作者,生成文獻共被引知識圖譜(見圖4)。圖中連線代表文獻共同被引用的關系,節點的大小代表文獻被引用的頻次,不同顏色的年輪圈表示文獻在不同年份被引用的情況。其中,帶有紅色的節點表示近5年詞頻變動較大的爆發詞,即近5年該文獻被引頻次迅猛增多,在一定程度上說明該文獻是近5年情報學某新興研究領域重要的知識基礎來源。
結合圖4對高被引文獻進行統計分析,并研讀相關文獻,重點闡述TOP10高被引文獻。第一篇是2007年Petter S等的Specifying Formative Constructs in Information Systems Research,對信息系統結構構建常見的錯誤做了討論,提出路線圖來說明如何避免該錯誤,還討論了在特定模型中的信息系統構建。第二篇是2007年Liang HG等的Assimilation of Enterprise Systems:The Effect of Institutional Pressures and the Mediating Role of Top Management,開發和測試一個理論模型來研究后期實施階段企業系統的同化,發現制度壓力與高層管理人員對信息技術的同化產生重要影響。第三篇是2010年Kaplan AM等的Users of the world,unite!The challenges and opportunities of Social Media,討論了社交媒體的概念及其與Web2.0、用戶日志的區別,劃分了社交媒體的類型,提出公司利用社交媒體的10條建議。第四篇是2009年 Yin R K的 Case Study Research:Design and Methods,講述案例研究的設計與方法,是一本經典的案例研究叢書。第五篇是2008年 Orlikowski WJ等的 Sociomateriality:Challenging the Separation of Technology,Work and Organization,通過調研文獻發現,95%的高級管理機構未考慮到信息技術在組織生活中的作用,接著根據其技術觀將這些文獻分為兩個流派:離散集合和依賴集合,并進行了實證研究,最后發現組織工作與信息技術不可分離,信息技術和社會活動之間存在不可分割的關系。第六篇是2010年Blumenthal D 等的 The“Meaningful Use”Regulation for Electronic Health Records,介紹了電子健康檔案在美國的重要性、實施效果,回顧并總結了公民對該電子健康檔案制度的看法,最后提出信息驅動醫療,呼吁供應商和消費者重視醫療信息資源,更好服務于病人。第七篇是2010年Hair J F等的Multivariate Data Analysis(6th edition),重點講解多元數據分析的概念,側重于實際應用,如市場調研、研究設計和數據分析。第八篇是2010年Bertot J C等的Using ICTs to create a culture of transparency:E-government and social media as openness and anti-corruption tools for societies,探討了信息和信息通信技術的潛在影響,尤其是對電子政務和社會媒體的影響,并指出可利用信息和通信技術創造文化的透明度,信息和通信技術是電子政務和社會媒體作為社會開放性和反腐敗的工具。第九篇是2005年Hirsch JE的An index to quantify an individual's scientific research output,提出了h指數,作為表征科研人員科研成果的一種有用的評價指標。第十篇是2007年Pavlou PA等的Understanding and Mitigating Uncertainty in Online Exchange Relationships:A Principal-Agent Perspective,以委托代理理論提出一套含有四個不確定性因素(用戶、網站信息、產品特征和社會風氣)的模型,并進行實證調研,以此來減輕在線交流關系中的不確定性問題。以上高被引文獻為近5年國際情報學相關領域研究奠定了堅實的理論與方法基礎,并為其發展指明了方向,是重要的知識基礎來源。
關鍵詞是對論文主題的高度概括和凝練,統計分析近5年情報學研究發表論文中關鍵詞出現頻次及其相互關系,可對該領域的研究熱點分布情況作出清晰揭示。基于獲取的數據統計得到近5年情報學研究論文的關鍵詞總計12563個,總頻次為24471次。表5為近5年情報學Top20高頻關鍵詞及其點度中心性。頻次最高且點度中心性最大的是知識管理(knowledge management)、其次是社交媒體(social media)、知識共享(knowledge sharing)等。

表5 近5年情報學Top20高頻關鍵詞(頻次≥46)
為了更加直觀展示本領域研究內容(關鍵詞),探測研究熱點,利用Netdraw軟件,繪制關鍵詞共現知識圖譜(見圖5)。圖5中節點以點度中心性的大小展現出來,同時可發現近5年國際情報學研究涉及面廣、內容豐富,主要分八大研究維度:管理、信息、醫療衛生、社交媒體、知識、技術、電子政務、理論與方法,對應圖5中的A、B、C、D、E、F、G、H八個子聚類群。
(1)管理維度。A聚類是有關管理維度的熱點詞匯,包括performance(績效)、management(管理)、innovation(創新)、collaboration(合作)、participation(參 與 )、 motivation( 動 機 )、productivity(生產力)、organizational(組織化)、transparency(透明度)、crowdsourcing(眾包)、public sector(公共部門)、absorptive capacity(吸收能力)等,這些詞是情報學研究管理學派的反映。Fitoussi D等運用契約理論研究信息技術外包合同中目標和激勵機制的關系,并對信息技術外包合同中的績效進行了測度[10]。Schmeil A等設計了在虛擬世界合作的結構化方法,通過案例描述了如何在虛擬世界中合作學習[11]。
(2)信息維度。B聚類是有關信息維度的熱點詞匯,包括information(信息)、information systems(信息系統)、information sharing(信息共享)、information management(信息管理)、data(數據)、information security(信息安全)等,這些詞是情報學研究信息學派的反映。Saparova D等指出在線共享空間是具有共同利益的人相互交流以達到共同目標或為個人追求而借用彼此專長的目的地,并對信息管理工具及在線共享空間的設計和開發提出了建議[12]。Silva MM等提出一種信息安全風險管理方法,對信息和系統、通信安全、基礎設施、安全管理和信息系統開發5個方面作了分析,發現影響信息安全風險最重要的方面是通信安全,其次是基礎設施[13]。
(3)醫療衛生維度。C聚類是有關醫療衛生維度的熱點詞匯,包括Electronic/electronic health records(電子健康記錄)、healthcare(醫療保健)、health(健康)、health information technology(醫療信息技術)、security(安全)等,這些詞是情報學研究醫療衛生領域的反映。該維度是既包含醫學,又包含信息技術的交叉學科研究領域。Caban,JJ等對醫療保健領域研究進行了可視化分析,總結該領域面臨的機遇與研究挑戰[14]。Demirezen EM等基于三方博弈模型,研究醫療信息提供者進行醫療信息交換和參與程度可持續性問題[15]。
(4)社交媒體維度。D聚類是有關社交媒體維度的熱點詞匯,包括social media(社交媒體)、social networks(社交網絡)、social capital(社會資本)、Facebook(臉書)、Twitter(推特)、Web 2.0(網絡 2.0)、network(網絡)、communication/diffusion(傳播)、online communities(網絡社區)、digitaldivide(數字鴻溝)、socialnetworking sites(社交網站)等,這些詞是情報學研究社交媒體領域的反映。Lovejoy K等調查了美國100個最大的非營利組織的Twitter使用情況,結果發現,雖然微博的信息使用范圍很廣泛,但是非營利組織更擅長通過使用Twitter進行溝通、交流,從而吸引利益相關者[16]。Cavusoglu H等評估了隱私控制對Facebook內容共享和信息披露的影響[17]。
(5)知識維度。E聚類是有關知識維度的熱點詞匯,包括knowledge management(知識管理)、 knowledge sharing(知識共享)、knowledge(知 識 )、 knowledge transfer(知 識 轉 移 )、knowledge creation(知識創造)等,這些詞是情報學研究知識學派的反映。MantymakiM等以知識管理的視角對如何從企業社會網絡中獲取有用價值進行了研究[18]。Chen L等運用系統動力學方法來進行知識管理績效評價,并通過仿真預測知識管理戰略的發展及演變[19]。
(6)技術維度。F聚類是有關技術維度的熱點詞匯,包括technology(技術)、cloud computing(云計算)、big data(大數據)、software(軟件)、technology adoption(技 術 采 納 )、 natural language processing(自然語言處理)、structural equation modeling(結構方程模型)、model(模型 )、 open source software( 開 源 軟 件 )、ontology(本體)、technology acceptance(技術接受)、machine learning(機器學習)、data mining(數 據 挖 掘 )、 text mining(文 本 挖 掘 )、 usergenerated content(用戶生成內容)等,這些詞是情報學研究技術學派的反映。半個多世紀以來,情報學界一直致力于解決信息飛速增長與難以獲取有用信息的矛盾,最早可以追溯到1945年,“信息科學之父”“NSF之父”Vannevar Bush在大西洋月刊發表As We May Think(誠如所思)一文中首次談到用不斷出現的信息技術來協助人類管理和利用信息的思路,可見技術學派在情報學領域一直占據十分重要的地位[20]。Venkatesh V等結合接受理論和技術使用理論,研究了消費者對技術的接受和使用情況[21]。
(7)電子政務維度。G聚類是有關電子政務維度的熱點詞匯,包括e-government(電子政務)、governance(治理)、government(政府)、open government(開放政府)、IT governance(IT 治理)、open data(開放數據)、business value of IT(IT 商業價值)、business intelligence(商業智能)、E-commerce(電子商務)等,這些詞是情報學電子政務領域的反映。Stefanovic D等從政府雇員角度出發,應用結構方程模型對塞爾維亞市154個電子政務系統的員工進行了問卷調查,發現了影響電子政務系統成功的因素[22]。Veljkovic N等利用美國政府開放數據門戶網站(data.gov)提供的數據,從開放數據的角度提出了開放政府的基準和應用建議[23]。
(8)理論與方法維度。H聚類是有關理論與方法維度的熱點詞匯,包括bibliometrics(文獻計量學)、theory(理論)、socialnetwork analysis(社會網絡分析)、citation analysis(引文分析)、research evaluation(研究評價)、quality(質量)、scientometrics(科 學 計 量 學 )、 qualitative research(定 性 研 究 )、methodology(方 法論 )、institutionaltheory(制度理論)、grounded theory(扎根理論)、h-index(h 指數)、citation(引文)等,該維度主要側重于計量與評價、定性研究、制度理論及扎根理論等領域的研究。Bornmann L等探討了文獻計量學中有效引用與無效引用的特點[24]。Aksnes DW等通過實證介紹國家引證指標整體計數和非整數計數兩種不同的方法,表明在國家層面計算相對引文指標,使用非整數計數更為常見,也更具有說服力[25]。
基于定量與定性相結合的研究方式,本文從文獻計量學角度,利用知識圖譜工具對近5年國際情報學研究態勢作了全面分析。(1)發現了情報學研究的高影響力作者:近5年國際情報學研究的論文作者的頻次分布符合洛特卡定律,近似分布規律為:lgy=-3.0101lgx+4.0298;核心隊伍的領軍人物有Denny,Joshua C、Bates,David W、Chute,Christopher G、Pacheco,Jennifer A、Peissig,Peggy L、Rasmussen,Luke V等學者;高產作者有Bates,David W、Bornmann,Lutz、Abramo,Giovanni、Denny,Joshua C、D'Angelo,Ciriaco Andrea等學者;高被引作者有 Venkatesh V、Fornell C、OrlikowskiWJ、Gefen D、Podsakoff PM等學者。(2)核實了情報學研究的10篇高被引文獻,這些文獻為國際情報學研究奠定了堅實的理論與方法基礎,并為其發展指明了方向,是重要的知識基礎來源。(3)剖析了情報學研究熱點,主要包括管理、信息、醫療衛生、社交媒體、知識、技術、電子政務、理論與方法八個維度。
綜上,國際情報學發展與時俱進,取得了豐碩成果,對于我國情報學發展具有一定的借鑒意義。學科交叉、技術應用、深度需求等仍會是未來情報學學科發展的重要作用因素。大數據、云計算、物聯網等“互聯網+”環境下新一代信息技術的發展,為情報學科的自身發展、情報學科的跨界及其與其他學科的融合發展帶來了新的歷史機遇。基于此,我國情報學發展首先應選擇和培養一批不僅具備情報學學科基礎,同時也了解情報學依附和融合的相關學科知識的情報學理論研究人才,注重以情報學為主,以計算機科學、數據科學、醫學信息、管理學等相關領域為輔的多學科交叉研究。其次,鼓勵研究者嘗試將新一代信息技術應用于情報學理論研究和實踐研究中,同時應當注重建設既與國際接軌又獨立自主的情報學學科體系。再次,鼓勵定量與定性分析進一步結合,鼓勵信息技術突破、推動情報分析和利用的發展。早在1980年代,著名情報學家布魯克斯就指出:“情報學如果不實現定量化,它將是一堆支離破碎的技藝,而不會成為科學”。信息技術為情報分析提供了新的研究方向。然后,2017年6月《情報法》的頒布使情報工作有法可依,為我國情報學學科發展、科技情報工作的展開提供了法律保障。因此,我國情報學發展,不僅要大力提高社會對情報學的重視程度和研究人員的素質,還要大力發展我國情報學的核心理論、方法和技術,完善情報學教育內容與機制。最后,我國情報學研究者,除在原有情報領域展開研究外,還可以結合我國國民經濟和社會發展的重要產業領域和社會發展的民生問題,開展情報工作的延展性和縱深化研究[7],在學科及研究方法的交叉融合中、在與國外研究者的交流合作中更好地實現情報學科研創新。