洪瑾
摘 要:通過梳理關聯數據的概念與發布原則,采用文獻計量學分析方法,運用引文網絡分析工具CiteSpace對關聯數據研究文獻數據進行計量分析,客觀分析了關聯數據的國內外研究現狀,以期為我國關聯數據研究提供參考。結果顯示:從時間上來看,關聯數據領域的研究數量總體呈上升態勢;從空間上來看,國際上關聯數據研究主要集中于發達國家,而國內呈現分散趨勢,多為獨立研究;從內容上來看,關聯數據領域的研究集中于圖情領域和計算機領域,但國內主要側重于理論研究,實踐成果數量偏少。
關鍵詞:關聯數據;關聯開放數據;語義網;文獻計量學
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1003-5168(2021)28-0-03
Abstract: To introduce the concept and publishing principle of linked data. And it adopts bibliometrics analysis method and uses citation network analysis tool CiteSpace to make bibliometrics analysis on literature data of linked data research, and objectively analyzes the development status of linked data research, in order to provide reference for linked data research in China. From the perspective of time, the research in the field of linked data is on the rise. From the perspective of space, the international research on linked data is concentrated in countries, while the domestic research tends to be scattered and mostly independent. From the perspective of content, the research on linked data is concentrated in library and information science and computer science, but the domestic research mainly focuses on theoretical research, and the number of practical results is relatively small.
Keywords: linked data;linked open data;semantic web;bibliometrics
互聯網技術的發展加快了大數據時代的到來。中國互聯網絡信息中心(China Internet Network Information Center,CNNIC)發布的《中國互聯網絡發展狀況統計報告》顯示,截至2021年6月,我國互聯網普及率達71.6%,我國網民規模為10.11億人,其中我國手機網民規模達10.07億人[1]。由于網絡自身的開放性、自由性、交互性、方便性與快捷性等特質,網絡資源數量劇增,呈現異類、異構和分布的特點,推動信息服務逐步朝著語義服務方向發展。關聯數據因其框架簡潔、標準化、自助化、去中心化及低成本的特點成為語義網實現的途徑[2],為語義服務的發展提供了新的契機。
1 關聯數據概述
“Linked Data”概念由Tim Berners-Lee于2006年首次提出。TIM認為,語義網不僅僅是把數據放到網絡上,而且與建立鏈接有關,以便個人或機器瀏覽數據網絡。有了關聯數據,當擁有其中的一些數據時,就可以找到其他相關的數據。與超文本網絡一樣,數據網絡也由網絡上的文檔構成。與超文本網絡的區別是,關聯數據不是由超鏈接簡單鏈接而成,而是使用資源描述框架(Resource Description Framework,RDF)以統一資源標識符(Uniform Resource Identifier,URI)標識任何類型的對象或概念,形成鏈接世界上任何事物的網絡,即數據網絡(Web of Data)[3]。TIM提出發布關聯數據的4條原則:①給所有事物賦予一個URI(名字);②用HTTP URI,以便于任何人都可以訪問這些標識;③當訪問某個標識時,使用(RDF,SPARQL)標準提供有價值的信息;④盡可能提供與其相關聯的URI,便于訪問者發現更多的事物。維基百科對關聯數據的定義是語義網的主題之一,描述了通過可鏈接的統一資源標識符(URI)方式來發布、分享、鏈接網絡中各類資源的方法[4]。
2 國內外研究現狀
2.1 研究方法
本部分采用文獻計量學分析方法,運用引文網絡分析工具CiteSpace對關聯數據研究文獻數據進行處理分析。CiteSpace是由美國德雷克塞爾大學(Drexel University)陳超美團隊研發的基于Java編程語言運行環境下的信息可視化分析軟件[5]。該軟件能夠繪制各學科領域的知識圖譜,揭示該學科一定時期內的發展現狀與未來走向。
2.2 國外研究現狀
本研究以Web of Science(核心合集)數據庫為檢索來源,采用Web of Science高級檢索,時間跨度為2000—2021年,文獻檢索規則具體設置為TI=Linked Data。剔除書評、報道等,共檢索到5 207篇關聯數據方面的文獻。通過CiteSpace 5.6.R2分析工具對檢索結果中關聯數據文獻的數量年代分布、作者、研究機構、國家地區合作網絡及主題關鍵詞進行共現與聚類分析。
如圖1所示,Web of Science(核心合集)數據庫導出的文獻數據顯示,2006—2016年的11年間,關聯數據的相關論文發表數量呈逐年上升趨勢。值得關注的是,2015—2017年這3年間,年發文量均為550篇左右,為該領域發文量的峰值,說明國際上在這一階段對關聯數據領域給予了高度關注。此后,發文量呈下降趨勢,但年均總發文量仍保持在400篇以上,說明關聯數據的熱度雖有消減但仍屬于重要研究方向。
由國外關聯數據研究領域的作者共現分析可知,該領域的研究作者擅于開展合作研究,作者之間存在較多直接或間接的合作關系,且大多圍繞高產核心作者展開合作,但也存在部分作者進行獨立研究。BIZER C憑借發表的26篇文章排在第一位,屬于關聯數據研究領域的高學術影響力作者。國家地區合作網絡共現分析顯示,大多數關聯數據研究集中于美國、英國、加拿大、西班牙及澳大利亞等西方發達國家,其他國家的研究機構發文相對較少,表明西方發達國家成為關聯數據研究中心。由關聯數據研究文獻的機構共現分析可知,國際上關聯數據領域的主要研究機構集中在高校,其中西澳大利亞大學(Univ Western Australia)為發文量最高的研究機構。研究機構間存在直接或間接的合作關系,以英國哥倫比亞大學節點為例,該節點與加拿大的多倫多大學和曼尼托巴大學等都具有合作關系。但整體來看,合作網絡仍局限于國內合作,國家與國家之間尚未形成一個良好的合作系統。
文獻關鍵詞是對文獻全文內容進行的提煉和概括,是文獻的知識信息標簽。通過對文獻關鍵詞的知識共現分析和聚類分析,可以更快、更深入地掌握關聯數據研究領域的整體現狀。關鍵詞共現分析導出8個關鍵詞聚類標簽,即“cohort study”“open data”“open data approach”“single-cell RNA-seq data”“linking electronic health record”“interactive workspace”“key information”“Multnomah country”,即關聯數據領域國際上的研究重點為“關聯數據”“語義網”“關聯開放數據”“本體”等。
2.3 國內研究現狀
本研究選取國內較權威的中文科技期刊數據庫中國知網(China National Knowledge Infrastructure,CNKI),檢索“關聯數據”方面的研究成果。為保證檢索的查準率與查全率,檢索方式選擇專業檢索,構建檢索式為“TI=關聯數據”。在上述所有檢索結果中刪除誤檢的文獻和與研究主題不符的文獻,最終得到相關文獻417篇(檢索時間為2021年07月21日)。將標題、作者、摘要、關鍵詞及文獻來源等題錄數據導出為Refworks格式的純文本文件,轉碼處理后形成樣本數據庫。基于CiteSpace 5.6.R2分析工具展開作者共現分析、研究機構共現分析和主題關鍵詞共現聚類分析,得到該領域的重點研究學者、主要研究機構及研究熱點等。
如圖2所示,CNKI全文數據庫導出的文獻數據顯示,2006—2010年的5年間,論文發表數量較少,說明這一階段國內對關聯數據的關注度不高,該領域的研究處于萌芽狀態;2011—2015年是關聯數據研究的快速上升期,2010年的發文量僅10余篇,2012年的發文量迅速攀升至將近70篇,2015年發文量達到了75篇,為該領域發文量的峰值,說明國內在這一階段對關聯數據領域給予了高度關注;2016—2019年的4年間,發文量呈下降趨勢。
通過作者共現分析可知,國內關聯數據研究領域作者之間合作不密切,大多數作者為獨立研究。國內關聯數據研究文獻的機構共現分析顯示,56個節點皆為發文頻次超過2次的研究機構。華中師范大學信息管理學院發文數量達到19篇,為該領域發文量最多的國內研究機構。尤為明顯的是,發展過程中形成了以上海圖書館和中國科學院大學為中心的兩大合作區域:①上海圖書館、上海外國語大學圖書館、上海交通大學圖書館、上海財經大學及華東師范大學;②中國科學院大學、中國科學院國家科學圖書館、中國科學院國家科學圖書館蘭州分館、中國科學院文獻情報中心及中國科學院蘭州文獻情報中心。整體來看,關聯數據研究領域的主力為高校、研究所與圖書館,且已取得較豐碩的研究成果。
將CNKI數據庫中的文獻數據導入CiteSpace進行轉換處理,關鍵詞共現分析導出10個關鍵詞聚類標簽,即“鏈接構建”“圖書館”“資源描述框架”“本體”“數字圖書館”“RDF”“SPARQL”“推薦系統”“查詢”和“數據關聯”。以上聚類標簽同樣顯示了國內關聯數據領域學者的研究重點。
2.4 總結歸納
2.4.1 從時間上來看,不論國際上還是國內,關聯數據領域的研究總體呈上升態勢。雖然近兩年關聯數據的研究文獻發標數量較2016年的峰值有所下降,但是總體發文數量仍保持在較高水平,可知關聯數據仍為研究熱點。
2.4.2 從空間上來看,國際上關聯數據研究集中于美國、英國、加拿大、西班牙及澳大利亞等西方發達國家;而國內關聯數據研究集中于以上海圖書館和中國科學院為中心的兩大合作區域,分布在上海、北京等地。此外,空間分布還與致力于關聯數據研究的國內高校所在地息息相關,如湖北、江蘇等省份。與國外不同的是,國內多為獨立研究,呈分散趨勢。
2.4.3 從內容上來看,不論國際上還是國內在關聯數據領域的研究都集中于圖情和計算機方面。國外對關聯數據的研究和實踐力度更大,關聯數據的理論研究與應用研究也進行得較為徹底。反觀國內,學界對關聯數據的研究主要集中于關聯數據的概念、發布、構建技術、技術工具介紹以及國外典型應用實踐的經驗借鑒等方面,偏于理論研究,實踐成果數量偏少。
3 結語
以大數據時代為研究背景,在梳理關聯數據的概念與發布原則的基礎上,闡述了關聯數據研究的國內外發展現狀。分析發現,自2006年關聯數據的概念被提出后,11年間關聯數據的研究熱點呈直線上升趨勢,逐步成為國內外的研究熱點。值得注意的是,雖然關聯數據的研究數量增長迅速,但是關聯數據的應用跟不上數量的增長速度,這與關聯數據的研究質量、有效性及商業化能力息息相關。因此,如何深度挖掘關聯數據,提升關聯數據的可用性,從而實現關聯數據集的價值,成為當前亟待解決的問題。
與國外數量多、規模大的應用項目和實踐成果相比,我國的應用成果并不多,且不夠深入和全面,存在較大差距,這與國內數據開放環境和技術研發水平有關。要促進我國關聯數據研究的深入發展,需要將理論研究與實踐應用相結合,基于理論成果優化應用效果。因此,如何克服關聯數據面臨的困難,突破阻礙關聯數據發展的瓶頸,是目前研究的主要問題。
參考文獻:
[1]中國互聯網絡信息中心.第48次中國互聯網絡發展狀況統計報告[R/OL].(2021-08-27)[2021-09-03].https://cit.buct.edu.cn/2021/0925/c7951a157922/page.htm.
[2]白海燕.關聯數據及DBpedia實例分析[J].現代圖書情報技術,2010(3):39-45.
[3]TIM B.Linked Data[EB/OL].(2021-06-29)[2021-08-21].https://www.w3.org/DesignIssues/ LinkedData.html.
[4]Wikipedia.Linked Data[EB/OL].(2021-05-16)[2021-08-30].http://en.wikipedia.org/wiki/Linked_data.
[5]CHEN C M.Citespace Ⅱ:Detecting and visualizing emerging trends and transient patterns in scientific literature[J].Journal of the American Society For Information Science and Technology,2006(3):359-377.
3940500338290