國內外圖情領域關聯數據研究比較分析*

2020-03-30 13:53:18李朝陽龐弘燊

圖書館研究 2020年1期

李朝陽，龐弘燊

（1.嶺南師范學院圖書館，廣東湛江 524048；2.深圳大學圖書館，廣東深圳 518060；3.中國科學技術信息研究所，北京 100038）

Linked data（關聯數據）一詞，最早于2006年由萬維網主席Tim Berners-Lee在一個語義網項目會議上提出。2009年，TED會議上他提出了關聯數據三個精簡原則［1］。2011年，Tim Berners-Lee等正式以論文的形式給予系統闡述。關聯數據是web用來在不同來源的數據庫之間創建類型鏈接。這里的不同數據源，可能是不同地理位置上的兩個組織維護的數據庫，也可以是自一個組織內部的異構系統，雖然他們不能進行數據級別的互操作，但它們很可能存在著關聯［2］。Linked data（關聯數據）一詞一經興起，圖情領域立即引入。2008年Brooks，Terrence A在電子期刊發文將Linked open data概念正式引入圖情領域［3］；2009年Bradley等最先在紙質期刊發文闡述Linked data［4］；2009年姚小樂、劉煒等最先將Linked data（關聯數據）一詞正式引入中國［5］，關聯數據研究在行業內迅速風靡。但是由于本體研究、語義網檢索技術、大數據和云計算等新興互聯網技術發展水平，館藏資源數字化程度，學科發展水平上存在差異，國內外圖情領域關聯數據研究在發展進程、技術水平、內容和深度上也不盡相同。本文選取2009-2018年間，國內CSSCI和國外WOS數據庫相關研究文獻，利用文獻計量學方法和SATI；Citespace等分析工具，從發文趨勢、核心作者、研究機構、合作關系、熱點等方面對其進行科學計量和分析，為我國圖情領域關聯數據的研究提供指導。

1 數據來源與研究方法

1.1 數據來源

在CNKI期刊頁面中，選中文獻分類目錄“圖書情報與數字圖書館”和來源類別“CSSCI”，以主題詞=“關聯數據”或者“開放關聯數據”，其他不勾選，經過瀏覽題名、關鍵詞和摘要等題錄信息，人工篩選和剔除無效文獻后，得到期刊文獻450篇，根據后期分析工具格式的要求，導出RefWorks和EndNote格式文本題錄信息，并以“download_***”開頭命名，以便軟件識別。在WOS核心集中，以主題詞=（“linked data”）OR（“linked open data”）OR（“LOD”），其他不勾選，限定學科類別“INFORMATION SCIENCE LIBRARY SCIENCE”和文獻類型“ARTICLE”，得到相關文獻256篇，根據后期分析工具的要求，導出html格式文本和純文本題錄信息。檢索時間均為2019年1月18日。發文年度均為“2009-2018”。

1.2 研究方法和思路

本文主要采用了統計分析、社會網絡分析、共現聚類分析、對比分析等分析方法。利用分析工具統計分析發文趨勢、核心作者、主要研究機構、關鍵詞等數據。社會網絡分析用于作者合作關系和機構合作關系分析。關鍵詞共現聚類分析主要用來反映主題之間親疏關系和結構。對比分析主要是將國內外研究從各方面進行對比，試圖找出各自研究特點和規律。將CNKI和WOS下載的數據分別導入SATI和Citespace進行統計和分析，研究思路見圖1。

圖1 研究思路與框架

圖2 國內外年度發文趨勢圖

2 中外圖情領域關聯數據研究現狀

2.1 年度發文分析

圖2中國內外圖情領域關聯數據的研究論文，基本符合普賴斯文獻指數增長規律和文獻邏輯增長規律，國內外在該領域的研究幾乎同時起步，研究逐步深入，同步發展。2009-2018年分為四個階段。研究初始階段（國內2012年前，國外2013年前），受學術趨勢影響，關聯數據從誕生開始，與圖情學科研究交叉滲透，發文量穩步增長。研究停滯階段（國內201-2013，國外2013-2014），受外界社會、資金、技術和人力等因素的制約，發文量出現停滯倒退現象。研究爆發階段（國內2013-2015，國外2014-2015），制約因素取得突破，發文量爆發式增長。研究相對成熟階段（國內外均為2015-2017），增長率變小，曲線變得平緩，這一時期文獻壽命長，對后期學科領域發展貢獻大。2017年后，國內外發文量增長再次受到外界因素制約呈下降趨勢，停滯現象再次出現，但突破也在形成，研究人員要抓住機遇。普賴斯提出隨著科研人數n的增長，科研文獻量以√n數量增長。科研人員參與度制約因素主要有：學術趨勢、碩博士和職稱發文要求、科研經費支持度、研究范圍細分和擴大、學科交叉滲透、技術突破和應用拓展。技術突破對關聯數據的深入研究至關重要，通過對信息學科文獻的分析，我們發現圖情領域關聯數據研究是伴隨語義網搜索技術、數據挖掘、云計算、大數據和數字圖書館技術等的發展而發展的，著重于數據關系的發現、建立和利用。并隨著虛擬技術、物聯網技術、應用平臺等的發展，逐漸由數據向實體服務轉變。

表1 國內外核心作者發文統計表

2.2 作者及合作度分析

通過Citespace分析國內作者夏翠娟、劉煒、陳濤、張磊、張春景等；畢強、牟冬梅、張艷俠、黃麗麗、趙夷平、孫中秋、沈涌等；歐石燕、胡珊、周宇等；夏立新和王忠義；邢啟迪、景然、耿騫等；司莉和李鑫；李欣和張毅；李春旺和蔣世銀；姜恩波和王振榮合作關系密切。國外作者Salvador Sanchezal和Jose A Senso、Sandor Dominguezvelasco、Miguelangel Sicilia、Amed Leivamederos等；Ceri Binding和douglas Tudhope合作關系密切。

文獻計量學通常用合作度和合著率來衡量論文合作情況。一般來說合作度越高科研合作越緊密；合著率越高學科發展水平就越高。具體領域計算公式：

利用SATI統計分析，國內外作者總數分別為630人和368人；國內外論文總數分別為450篇和256篇；國內外合作論文數分別為315篇和172篇。計算得出，十年內國內外合作度分別為1.4和1.44，合著率分別為70.0%和67.2%，為了比較趨勢，又計算得2018年國內圖情領域所有CSSCI期刊論文合作度和合著率分別為1.31和61.7%，從作者間交流合作頻繁、互動密切表明了國內外圖情領域關聯數據研究合作緊密和研究水平較高。

2.3 機構及合作度分析

通過Citespace分析國內機構中科院系統、大學系統和公共圖書館系統之間合作關系緊密。國外 Univ Washington、Univ Florence、IBM 等；Univ Brasilia、Univ Fed Espirito Santo、Univ Estadual Paulista等；Univ Politecn Valencia和Univ Murcia等；Univ Maryland、Univ Stanford、Univ Rice等機構合作緊密。

表2 國內外機構發文統計表

SATI、citespace分析不能區分機構細小文字上的差異，人工合并得到表2。分析國內外圖情領域關聯數據研究機構呈現三個特點：

系統內機構追隨效應，追隨系統內主要機構和研究者。中國科學院（包含中科院的國家科學圖書館、文獻情報中心、大學、科研所等）不僅技術強而且信息溝通流暢，所以交叉學科研究時發展迅速；圖情領域傳統強校南京大學、武漢大學、吉林大學科研教學實力強大，穩居前列；上海圖書館研究者最先將關聯數據引入，同是公共館系統的國家圖書館發文量緊隨其后。

地區內機構協同合作效應，地區內主要研究機構和研究者協同合作。如中科院、國家圖書館同處北京；南京大學、東南大學同處南京；武漢大學、華中師范大學同處武漢；上海圖書館和華東師范大學同處上海，溝通合作便利，發文合作較多。國外西班牙和美國是最主要的研究國家。

機構學術傳承效應，繼承前期成果發展相關研究。西班牙Univ Murcia、美國Univ Illinois、中國武漢大學、南京大學等在本體研究、語義網等方面研究排名靠前。本體研究領域的上海圖書館夏翠娟、吉林大學畢強、牟冬梅也是關聯數據研究的主要參與者。此外，個人貢獻也不可忽視。山西大學國內排名靠前，賈君枝貢獻巨大，但是其碩士和博士學位都是在武漢大學取得，可以說還有系統內機構追隨效應和學術傳承效應的影響。

3 基本理論、技術工具及應用領域分析

3.1 熱點關鍵詞聚類及詞頻表

利用SATI共抽取中文關鍵詞934個，西文關鍵詞755個，人工合并同義詞、近義詞，刪除無意義的詞匯，取前30的關鍵詞降序生成表3。同時利用Citespace進行關鍵詞聚類分析得到圖3和圖4。結合分析將研究熱點劃分為三大領域：基本理論研究、技術方法和工具研究、應用研究。

表3 國內外研究熱點關鍵詞詞頻表

圖3 國內研究關鍵詞聚類

圖4 國外研究關鍵詞聚類

3.2 基本理論研究

國內圖情領域關聯數據基本理論研究主要集中在關聯數據的概念、特點、基本原則、模型、應用、技術、前景和挑戰等方面。劉煒探討了關聯數據概念、基本內涵、技術實現和當前國內外的研究應用狀況。［7］肖強，鄭立新等探討了關聯數據的概念、原則、發布方式、發布工具、應用及面臨的挑戰。［8］林海青，樓向英，夏翠娟等探討了關聯數據發布、消費、服務和平臺等四種模式。［9］國內基本理論多為綜述性文章，沒有通過判斷和推理，將關聯數據的概念、范疇、原理、邏輯體系等基本理論內容與圖情學科形成深度融合和發展。

國內基本理論研究有三個新的趨向，一是由描述、發布關聯數據向利用、消費和平臺建設轉換，更為注重實際效果。二是由組織和管理關聯數據逐漸向互聯、匹配和聚合的技術方法方向轉換，研究更為深入。三是以資源描述RDA為基礎，為各應用領域搭建資源描述框架和建立行業規范，更為注重拓展應用。國外較早的完成了基于信息生命周期的關聯數據從描述、發布、組織、檢索和消費的基本理論研究，目前研究多和實踐項目、技術、工具和方法相融合，來拓展關聯數據研究的邏輯體系和應用范圍。如：利用關聯數據方法對元數據上下級關系發現［10］；建立異構數字資源語義互操作框架［11］；進行社交領域的情感識別［12］和智慧政府的建設［13］等等。

3.3 技術方法和工具研究

關聯書目信息處理技術、方法和工具。關鍵詞如CNMARC、MARC、FRBR、Bibframe［14］、SchemaBibEx［15］等。

關聯數據的描述、組織、存儲、轉化、定位、運算、發布、發現、檢索等技術和工具，可分為基礎層技術、工具層技術和應用層技術。如：可擴展標記語言XML、統一資源定位符URL、資源描述與檢索技術RDA［16］、資源描述框架RDF［17］、知識組織系統KOS［18］、簡單知識組織系統 SKOS、網絡知識組織系統NKOS、中國網絡知識組織系統CNKOS、鏈接工具Silk和LIMES［19］、開放源代碼數字存儲系統Dspace、RDF查詢語言和協議SPARQL、關系數據庫間轉換D2R語言、關聯數據映射語言R2R、Web數據到RDF數據轉換框架W2R、互操作OAI-ORE技術、web信息處理OWL語言、RDF的數據庫系統處理軟件Virtuoso、大規模數據集運算工具MapReduce、發布技術 Drupal［20］、模塊化關聯數據客戶端Rdfizer、RDF數據關系發現工具RelFinder。

特定領域內關聯數據應用技術。圖書館元數據發布eXtensible Catalog［21］、維基百科結構化信息提取工具DBpedia、中文百科結構化信息提取工具CN-DBpedia和SinoPedia［22］、美國國會圖書館標題表LCSH、中文敘詞表本體共建共享系統OTCSS［23］、中文分詞系統 ICTCLAS［24］、關鍵詞搜索工具Triplify［25］、統一醫學語言系統 UMLS［26］、中國科學家在線 iAuthor［27］等。

技術方法和工具研究的共同點是，國內外基礎的技術都為計算機領域著所開發，少數應用領域和圖情領域專家合作開發，如LCSH、OTCSS、UMLS。不同點是多為國外開發，國內繼承和發展，如CNMARC、CNKOS、CN-DBpedia、SinoPedia、OTCSS、ICTCLAS、iAuthor，集中在書目、主題詞、敘詞、關鍵詞、人名等的關系數據的技術處理，創新較少。

3.4 應用研究

國內外共同應用領域集中在（1）LAM（圖書館、檔案館、博物館）的資源和服務上，論文關鍵詞體現在如書目數據、詞表控制、元數據、數字圖書館、移動圖書館、館藏資源、特藏資源、數據庫、視聽資源、圖片資源、科技報告、會議文獻、文化遺產、機構知識庫、科學數據、數據策展、數據監護、數據挖掘、數據質量評估、知識管理和服務、資源發現、知識發現、知識地圖、圖書館自動化系統、參考咨詢服務、用戶需求、個性化服務、數字人文等。（2）網絡資源管理和服務。關鍵詞體現在門戶導航、推薦系統、信息檢索（移動視覺搜索、語義檢索、自問答檢索探索式檢索）、注釋和標簽、電子政務、電子商務、開放政府、MOOC、開放資源、在線學習、web數據、大數據、云計算、情感識別、泛在網絡等詞語上。（3）其他如人名地名術語名稱規范、語義出版、可視化等應用領域。同時也發現了一些國外少有涉及的，但是國內獨有的領域，比如：機構評價、學者和學術關系發現、家譜、版本關系、微博、閱讀推廣、智慧圖書館、智庫等應用領域。

而國外獨有且國內少有涉及領域包括：上市公司數據、3D、公共衛生分析、流行音樂、社交媒體、考古學、專業詞庫、隱私保護、詞匯映射、協同標注、地圖、圖像增強、制圖資源、生物醫藥信息聚合、海洋物種信息聚合、教育資源發現、課程、政府智能治理、政府預算、政治選舉、電子外交、立法信息、跨學科研究等應用領域。可見，國外圖情領域對關聯數據研究社會化應用趨勢更為明顯。

4 研究發展路徑和新興領域分析

4.1 研究發展路徑及趨勢

分析工具做的關鍵詞突顯分析不能區分同義詞、近義詞，也不能做相關數據合并處理。本文利用關鍵詞逐年相異詞矩陣，進行應用領域發展路徑和新興領域識別。分別對國內外圖情領域關聯數據新興關鍵詞及詞頻進行統計，并與時間構成矩陣，以2009年產生的關鍵詞為基準，橫軸表示時間，縱軸表示新興關鍵詞及總詞頻，通過SATI和人工逐年剔除重復的關鍵詞，最終呈現每年新興關鍵詞及總詞頻，從而追蹤應用領域拓展情況和識別新興領域爆發情況，這樣既能逐年全面追蹤又能增加主題識別準確度，見圖5和圖6。

圖5 國內應用領域發展路徑逐年相異矩陣圖

圖6 國外應用領域發展路徑逐年相異矩陣圖

分析發現圖情領域關聯數據研究國外和國內相比有四個特點：（1）理論研究逐步深入。逐步對信息生命周期各階段關聯數據角色定位展開研究；從開發和發展關聯數據的描述、索引、組織、發布和檢索等的工具，走向著重解決關聯數據的可管理性、可重用性、可共享性、可交換性和互操作性的研究。（2）技術引領應用。通過MARC、BIBFRAME、RDA、RDF、SKOS、D2R、DHC、SPARQL、Drupal、DBpedia等信息資源創建、組織和發布的技術或工具，引導應用的發展；（3）社會化應用趨勢增強。從在LAM（圖書館、檔案館、博物館）的應用開始，漸漸注重社會化應用，如在政治、經濟、文化、醫藥、衛生、法律等領域的應用；（4）研究方法理論聯系實踐增強。多以項目和案例形式開展研究。

4.2 新興領域及要解決的問題

需要關注的新興主題領域主要有：

（1）關注關聯數據本身。相關性理論模型和規則制定、數據或數據集自動分類和類簇構建、數據及數據集處理、數據聚合質量和誤差、行業詞表、潛在語義分析、語義融合、知識孵化、跨語言數據匹配等。（2）關注技術采用。跨庫數據轉化器、大數據處理、共享云平臺、數據監護、可配置計算、人工智能、視覺搜索、詞庫管理工具等。（3）關注在圖書館的應用。智慧圖書館、智慧服務、讀者行為分析、用戶生成內容、協同信息推送、推薦系統、協同標引、學術鏈接、開放引文語料庫、信息揭示影響機制等。（4）關注社會化應用。智慧政府、智庫、智能治理、人名或地名消歧、社交網絡、社交標記、情感分析、情景計算及模擬等。

通過分析國內外新興主題2016-2018發文量，我們發現和國外相比目前關聯數據服務的實踐在國內開展較少，同時發文量呈現萎縮的趨勢，這與重點問題在理論和技術上沒有突破有很大關系。還是要重點解決關聯數據可管理性、可重用性、可共享性、可交換性和互操作性等問題，才能更好的實現關聯數據服務的大面積推廣和應用。