楊瑞仙 秦 渴(鄭州大學信息管理學院 鄭州 450001)
基于引文的科研關系組織及其服務的研究現狀與發展趨勢*
楊瑞仙 秦 渴
(鄭州大學信息管理學院 鄭州 450001)
〔摘 要〕海量數字資源中蘊含著豐富的科研實體,這些實體之間存在著廣泛而復雜的關系,科研關系組織主要是對科研實體關系的表述、識別、揭示和挖掘。文章從引文分析、科研關系識別與揭示、引文數據服務與科研關系可視化應用三個方面對國內外相關研究現狀進行文獻調研和梳理,認為科研實體的識別與抽取研究、基于引證的科研關系揭示與挖掘研究、科研關系的融合與展示研究以及基于引文的科研關系服務應用研究這四個方面是未來研究的重點。
〔關鍵詞〕引文分析 科研關系組織 科研關系服務
海量數字資源中蘊含著豐富的科研實體,如科研人員、科研機構、科研論文、科研項目等,這些科研實體之間存在著廣泛的、相互交錯的關聯關系,即科研實體之間的關系。基于引文的科研關系組織主要是從作者、機構等科研實體的引證角度出發(如引用、共被引、耦合等引文關系)來識別、揭示科研實體及其內在的關聯關系。通過對科研關系進行組織,可以實現知識聚合和構建基于引文的科研關系網絡,亦可實現從傳統檢索模式向具有知識導航、自動聚類、智能檢索、知識評價等功能的知識服務模式轉變。因此,對于科研關系的識別、揭示和合理化組織是實現知識聚合和構建科研關系網絡的重要基礎,也是知識服務的重要方式和手段,是科研管理和知識評價的基礎所在,是當前數字資源中亟待研究和解決的問題。
科研關系組織的研究主要源于兩大學科領域,一是計算機科學領域的通過抽取算法、數據關聯等來進行科研關系組織;二是圖書情報領域的引證網絡、知識地圖、主題圖等研究。目前兩者的研究方向和內容正在走向融合。相關研究主要集中在引文分析、科研關系識別與揭示、引文數據服務與科研關系可視化應用三個方面。
1.1 引文分析方面
在引文分析研究中,Garfield、Small等是早期的開拓者。1955年尤金·加菲爾德博士(Eugene Garfield)發表了《引文索引應用于科學》一文,提出利用引用文獻來探索科學發展的觀點,掀開了引文分析的新篇章。為了完善和發展引文分析法,他又帶領其所在的美國科學信息研究所(ISI)出版世界上最早利用引文建立關聯關系的檢索評價工具《科學引文索引(SCI)》[1]。1973年Small提出了共被引概念和分析方法,定義了共引強度,用來評價文獻間的共引強度,從而成為分析文獻間關聯程度的一種新方法[2]。這一概念提出以后,White和Griffith等一批學者從作者共引、文獻共引等角度進行了相關研究。在國內,不少學者也開始對引文分析及其相關理論進行了探討,如邱均平闡釋了引文分析法的原理和應用[3],王建芳、冷伏海對共引分析的理論和實踐進行了探討[4]。至此,對于引文分析的研究開始蔓延開來。
隨著互聯網的發展,網絡計量學這一新研究領域的產生使一些學者開始嘗試將引文分析和鏈接分析結合起來,如曾建勛以引文鏈接為基礎,結合行為關聯鏈接、本體鏈接等關聯方式,構建了基于引文的知識鏈接系統[5]。此外,2013年胡志剛、陳超美等從另一角度進行引文分析探索,即通過分析引用與引文之間的多對多關系,提出了一種新的加權的計算引文總被引次數的方法,并認為基于全文的引文分析方法可以更全面地反映參考文獻的真實被引次數,更客觀地分析高被引論文情況[6]。隨著學者們對引文分析方法的研究,綜合引文的內外部特征進行分析成為研究的重點,從而更加精確地揭示被引作者、文獻、期刊、機構和國家等科研實體間的關系。
1.2 科研關系識別與揭示方面
科研關系的識別與揭示研究主要體現在以下三個方面:(1)基于共現原理的科研關系識別與揭示。共現研究是對科研實體間某些特征共同出現的現象的一種研究方法,多篇論文中共同出現的關鍵詞、共同出現的科研機構等都屬于其研究范圍。美國麻省理工學院Kessler在研究中發現,學科專業內容越相近的論文,其參考文獻中相同文獻的數量就越多,反過來,兩篇文獻的參考文獻相似度越高,說明兩篇文獻的關聯度越緊[7]。韓淋等采用共詞分析方法挖掘科學實驗與科研設備之間的關聯關系,揭示不同類型科學儀器在多領域、多學科科學研究中的作用[8]。2013年中科院計算機所研發了“學術圈”,其原理就是通過研究作者共現將該作者與其他主要作者的合作關系及關聯度進行可視化展示。(2)基于本體語義模型的科研實體關系識別與揭示。語義模型是用來表達復雜結構和豐富語義的數據模型,而本體則能夠提供特定領域中存在的對象類型或概念及其屬性相互關系,二者都能夠實現科研實體間的語義關聯。如Freitas基于KA2 ontology開發的科學本體,對科研活動要素,如科學文獻、科研項目、研究主題、研究人員之間的關系進行了揭示與分析[9]。2009年張智雄等分析當前基于GATE等開源工具進行關系識別的研究,提出利用GATE和Stanford Parser構建開放式實體間語義關系識別的Rela Pair模型,實驗顯示該模型可以有效識別出由動詞或介詞所引導的命名實體關系三元組,為后續的情報分析工作提供重要支撐[10]。2013年李勁和程秀峰等提出基于語義的館藏資源聚合模型,揭示和挖掘館藏信息資源中蘊含的科學知識內容及其之間的科研關系,以滿足用戶日趨個性化的知識需求[11]。(3)基于關聯數據的科研關系識別與揭示。關聯數據能夠實現對分布式異構數據的整合,并提供關聯訪問。康奈爾大學等機構研究和開發了VIVO平臺,通過構建一個廣泛適用的科研本體,對科研人員、科研項目、科研成果以及文獻資源等進行語義化的知識揭示,為科研人員提供關聯知識發現服務[12]。游毅認為關聯數據能夠利用館藏書目中概念或實體的語義描述與鏈接構建實現資源內容的充分揭示與關聯關系的規范表達,通過將MARC數據改造成為關聯數據環境下富含語義的RDF 三元組形式,并構建館藏資源間的豐富關聯關系,從而實現書目數據的語義轉換與網絡關聯[13]。
1.3 引文數據服務與科研關系可視化應用方面
1.3.1 引文數據服務發展現狀
國內外對于引文數據庫服務的研究與實踐比較多,如ISI Web of Science在其獨特的引文關系展示基礎上,實現了以知識為基礎的多種鏈接,如期刊目次、期刊影響因子、全文、主題深度標引、專家庫、OpenURL等,形成了豐富的知識網絡[14];美國《科學引文索引》擴展版(Science Citation Index Expanded,簡稱SCIE)涵蓋了100多個學科,能夠提供科學技術領域內最前沿和重要的研究成果,成為世界公認的最權威的科學技術文獻索引工具。目前我國幾大主要的引文數據庫有中國科學引文索引數據庫(CSCD),其被評為中國的SCI;中國科技論文與引文數據庫(CSTPC),其集引文分析和檢索功能為一體;中文社會科學引文索引數據庫(CSSCI),其是我國第一個人文社會科學引文索引。由此可知,引文數據服務的研究與應用正在走向成熟。
1.3.2 科研關系可視化應用現狀
隨著相關科學技術和工具的發展,科研關系的可視化研究將不再停留在理論研究層面,而是更多的考慮其實際的應用。通過利用CiteSpace、Pajek、Ucinet等可視化工具進行共被引分析,以圖譜的方式展示學科領域的熱點主題和核心作者,如Zhao和Strotmann、Chen等學者通過作者共引、文獻耦合等分析圖書情報學的學科結構與知識圖譜。侯海燕、劉則淵等通過繪制科學計量學研究前沿知識圖譜,從而界定了七大國際科學計量學研究前沿領域[15]。美國Drexel大學著名的科學計量學家White和MaCain以共引分析為基礎,采用相關的統計繪圖軟件,建立了基于多維尺度分析的知識圖譜方法,從而全面地對科學文獻間的引文關系進行了可視化[16]。2012年周杰等提出了學術研究主體與研究內容間的關聯關系可視化方法,從而豐富了現有學術關系分析方法[17]。邱均平等借助社會網絡分析法對《中國圖書館學報》近11年作者合著發文的網絡進行了可視化的分析,從而直觀地得到相關領域的核心著者。2014年劉玉琴、曾建勛利用文獻關鍵詞和引文信息進行學術研究主體之間關聯關系計算,采用改進的復雜網絡Fruchterman-Reingold算法設計二維網絡圖,應用Pathfinder算法進行網絡關鍵信息過濾,設計實現學術關聯關系的可視化分析工具,從而彌補了國內在學術關聯可視化工具研發方面的不足[18]。
2.1 相關研究述評
目前,無論是在國內還是國外,科研關系組織都是學術界關注和研究的熱點,不少專家學者圍繞其進行了理論探索和技術實踐研究,相關的服務應用也得到了初步發展。但是現有的科研關系研究比較單一,未反映出多維的、交叉的、復雜的科研實體之間的關聯關系,需要積極探索有效的、科學的科研關系識別與揭示方法,實現對隱性的關系識別與揭示,需要對多類型的科研實體關系進行多階揭示與融合,對用戶科研關系服務需求進行調查研究,從而實現科研關系組織及其服務功能。
2.2 未來發展趨勢
研究需利用知識組織理論、知識鏈接技術、引證分析方法來分析基于引文的科研關系組織原理,探討科研關系組織概念與內涵,分析科研實體屬性與特征,分析科研關系類型、特征、結構與表現形式。并在此基礎上,構建基于引文的科研關系組織與服務研究框架(如圖1),其中科研實體的識別與抽取研究、基于引證的科研關系揭示與挖掘研究、科研關系的融合研究以及基于引文的科研關系服務應用研究是未來的研究方向。

圖1 基于引文的科研關系組織與服務研究框架
2.2.1 科研實體的識別與抽取研究
如何對引文數據中科研實體進行準確地識別和抽取是科研關系組織未來研究的難點和重點。隨著用戶信息需求的日益復雜與多樣化,更細粒度地識別科研實體成為未來研究的發展趨勢。一方面需要對科研實體進行識別與標注:采用基于規則的方法、基于統計的方法、基于規則和統計相結合的方法、機器學習與人工知識相結合等命名實體識別的方法對主要科研實體(如科研人員、科研機構、科研期刊等)進行識別。重點研究如何基于海量信息資源的篇章結構、科研實體的語義特征以及科研實體之間的鄰近度來標注科研實體;另一方面需要進行科研實體的統一與規范:通過建立規范文檔,避免同一科研實體的多個名稱、不同實體的重名,消除實體命名歧義等現象,采用基于上下文的文本向量聚類方法,并充分考慮文本中詞與詞之間的關聯度及相互的語義關系,通過相似度算法自動選擇或生成一個最優命名的方法對科研實體的命名進行規范。基于此實現引文數據中科研實體的識別與抽取,形成科研實體的知識庫。
2.2.2 基于引證的科研關系揭示與挖掘研究
科學文獻的利用是通過科研人員在科學創作過程中通過對科學文獻的引用體現出來的,基于引證的科研關系揭示與挖掘可以從以下幾個方面進行研究:(1)通過對不同時期、不同學科、不同類型的引文耦合關系進行分析,建立科技文獻間引文的相似性模型,進而揭示文獻間深層的關聯關系。(2)引證關系網絡中存在著多種不同的路徑,對這些路徑的數目和寬度的分析可以揭示科研實體間深層的關聯關系。(3)引證關系強度可以直觀地反映科研實體間關系的強弱,量化這種關系強度有利于科研關系的進一步融合和知識聚合。(4)引證關系不僅局限于科學文獻間,還包括科研機構、科研人員、科研項目與科學主題間。在擴展引證關系中,研究單一實體間的引用關系,揭示科研群體的主題相關關系,研究不同科研實體的引用關系,揭示同一主題多實體之間的關聯關系,進而實現同一主題領域科研實體引用、共被引和耦合關系的融合揭示。
2.2.3 科研關系融合與展示研究
科研關系融合是構建科研關系網絡、進行科研關系組織的有效途徑之一,通過研究多類型科研實體關系的多階揭示方法和融合規則,實現同主題領域內多類型科研實體間復雜關系的融合。首先,在基于科研關系揭示的基礎上,綜合各類實體本身的特征,通過細化科研實體之間的基本關系,對不同共現類型、不同路徑、不同強度、不同主題的科研實體間的深層、交叉關系進行多階揭示方法研究。其次,需要對多類型科研實體關系的融合規則進行研究。采用語義推理等模型技術計算科研實體之間的關聯度,包括從關系路徑中推導出的現實中實際的語義關系,以及這種語義關系的強度,增加多級、多層、多類型的科研關系挖掘的深度和廣度,探索實體間多類科研關系的加權、篩選和融合規則。通過對同域內各類科研關系的有效融合可以實現對科研關系整體的知識化組織。
2.2.4 基于引文的科研關系服務應用研究
基于引文的科研關系服務不僅是理論問題,更是現實問題,其最終目的是為用戶提供知識服務,應該堅持以用戶的信息需求為中心、以解決用戶的問題為目標。因此,在科研關系組織的基礎上,要能夠借鑒知識服務原理,針對科研人員、科研機構、科研論文、科研項目等科研實體,實現以科研實體為單位的知識導航、知識檢索、知識評價和知識發現等服務,融入用戶對知識的需求,建立基于引文的科研關系服務模式。通過可視化方法形象地、動態地展示科研實體關系網絡中科研實體節點及其關系,基于不同維度探索特定學科的發展趨勢和研究熱點。在進行實證研究時需要與已有的知識服務機構進行溝通交流,對服務模式的理論進行深化和驗證,達到理論與實踐相結合的要求。
科研關系組織能夠很好地對科研實體間多維交叉的關系進行表述、識別、挖掘和揭示,并基于用戶需求提供知識導航、知識檢索、知識評價等服務。文章首先從三個方面對國內外研究現狀進行分析,指出科研關系識別與揭示的粒度、用戶需求的研究等方面的不足,并基于此提出了未來的研究方向,即科研實體的識別與抽取研究、基于引證的科研關系揭示與挖掘研究、科研關系的融合與展示研究以及基于引文的科研關系服務應用研究四個方面。然而由于引文自身功能的局限性,僅僅采用引文分析這一種方法不能全面揭示科研實體間各種復雜的關系,需要將其他計量方法以及關聯數據與之相結合,才能夠多角度、多層次全面地進行科研關系組織,為用戶提供滿意的服務。
(來稿時間:2015年6月)
參考文獻:
1.張慧敏. 引文分析法的內涵及研究實證. 編輯學報,2006,18(S1):174-177
2. Small H.Co-citation in the scientific literature:A new measure of the relationship between two documents.Journal of the American Society for Information Science, 1973, 24(4):265-269
3.邱均平. 論“引文耦合”與“同被引”.圖書館, 1987(3):13-19
4.王建芳,冷伏海. 共引分析理論與實踐進展. 中國圖書館學報, 2006, 32(1):85-88
5.曾建勛.知識鏈接及其服務研究.北京:中國科技文獻出版社, 2012:123-138
6.胡志剛,陳超美,劉則淵等. 從基于引文到基于引用——一種統計引文總被引次數的新方法. 圖書情報工作,2013, 57(21):5-10
7.王居平.數字圖書館評價的理論和方法.合肥:安徽大學出版社, 2008
8.韓淋等.國際空間站科學實驗與科研設備關聯關系的揭示及其應用研究.北京:中國科學院, 2013
9. Science Ontology. [2015-05-20]. http://protege.Stanford. edu/ontologies/ontology of Science/ontology of science.htm
10.劉建華,張智雄.基于Stanford Parser的實體間關系識別. 現代圖書情報技術, 2009(5):1-5
11.李勁,程秀峰,宋紅文等. 基于語義的館藏資源深度聚合模型探析. 湖北民族學院學報(自然科學版),2013, 31(2):212-215
12.趙雪芹.知識聚合與服務研究現狀及未來研究建議.情報理論與實踐, 2015, 38(2):132-135
13.游毅.面向館藏聚合的書目關聯數據實現.情報理論與實踐, 2014, 37(8):105-110
14.曾建勛.基于海量數字資源的科研關系網絡構建研究.情報學報, 2013, 32(9):929-935
15.侯海燕,劉則淵,欒春娟等. 基于知識圖譜的國際科學計量學研究前沿計量分析. 科研管理, 2009, 30(1):164-170
16.梁永霞,劉則淵,楊中楷. 引文分析學形成與發展的可視化分析. 圖書情報工作, 2010, 54(2):31-35
17.周杰,劉玉琴,曾建勛. 學術研究主體與研究內容間的關聯關系可視化方法. 現代圖書情報技術, 2012(11):92-97
18.劉玉琴,曾建勛,王立學. 學術關聯關系可視化系統設計與實現. 圖書情報工作, 2014, 58(5):75-81
〔分類號〕G350
〔作者簡介〕楊瑞仙(1982-),女,博士后,鄭州大學信息管理學院講師,碩士生導師,發表論文30余篇,主要從事信息計量、科學評價與知識組織研究;秦渴(1992-),女,鄭州大學信息管理學院本科生。
* 本文系中國博士后基金項目“基于引文的科研關系組織及其服務研究”(項目編號:2014M561026)研究成果之一。
Scholarly Relation Organization and Service Based on Citation
Yang Ruixian Qin Ke
( Department of Information Management, Zhengzhou University )
〔Abstract 〕Massive digital resource contains abundant information of scientific research entities, and the relationship between these entities exists wide and complex relationship. Scientific research organization is mainly expression, identification, reveal and mining for scientific research entity relationship. This paper firstly invests and combs domestic and foreign research present situation from the citation analysis research, reveal and mining and construction of the citation data services and the visualization of these relationship, and thinks entity recognition and extraction research, reveal and fusion research, service mode and application of scholarly relations based on citation are the research direction and focus for the future.
〔Keyw ords 〕Citation analysis Scholarly relation organization Scholarly relation service