郭雨絲 首都體育學院
關聯數據自提出起就快速成為國內外的研究熱點,但國內除國家圖書館和上海圖書館外,還少有這方面的實踐開展。現通過文獻計量法、可視化分析對近五年國內外關聯數據的研究情況進行梳理,并基于關聯數據在圖書館領域的應用和BIBFRAME模型在書目資源關聯化中的應用,通過小規模試驗對高校圖書館書目關聯數據創建的方向和困難進行分析和探討。
關聯數據(Linked Data)最早是由萬維網發明者、萬維網聯盟(W3C)創辦者Tim Berners-Lee于2006年提出的。近年來,國內關于關聯數據的相關研究持續增加,關聯數據在圖情領域的應用也逐漸得到學界的廣泛認同,但具體的圖書館館藏資源數據的關聯化還與國際有較大差距。
自關聯數據提出以來,圖情界對其的研究眾多,李朝陽等(2020)通過對國內外圖情領域關聯數據研究論文的分析和研究,認為國內外在該領域的研究幾乎同時起步,同步發展,并將2009—2018年分為初始、停滯、爆發和成熟四個階段,研究內容涉及基本理論研究、技術方法和工具研究、應用研究等方面。隨著關聯數據的概念逐漸被廣泛認知,近年來,越來越多的學者進入這一領域的研究中,本文利用Bicomb和Gephi等分析工具,借助CNKI和Web Of Science數據庫,對近五年國內外該領域的研究文獻進行比較分析,包括發文量、作者及合作關系、研究機構、關鍵詞比較等。
在WOS核心集中,以主題詞=“linked data”OR“linked open data”進行搜索,限定學科類別“INFORMATION SCIENCE LIBRARY SCIENCE”,限定文獻類型為“論文”OR“綜述論文”,得到相關文獻73篇。
在CNKI期刊頁面中,以主題詞=“關聯數據”或者“開放關聯數據”進行精確搜索,篩選文獻分類學科為“圖書情報與數字圖書館”,來源類別為“CSSCI”和“北大核心”,得到相關文獻210篇。
檢索時間為2022年12月7日,發文年度均為“2018—2022”。
如圖1所示,近五年國內有關關聯數據的研究數量持續下降。通過泛讀論文,筆者認為其主要原因是理論研究與實踐推進嚴重脫節。從發文內容可以看出,國內文獻大量集中在概念解讀、理論探討和對國外技術的介紹上,即使是少部分實踐內容也是以框架搭建、模式設計為主,核心源動力的缺失使發文量持續走低。

圖1 國內外年度發文趨勢(作者自制)
相比來講,國外的相關研究發文量緩慢增長,穩扎穩打,多國對書目數據的關聯化進行了實踐推進,并基于此不斷進行詞表、代碼和技術的更新演變。當然,統計口徑和選取標準也是發文絕對數量產生差異的一個主要原因,因此此處不對絕對數量進行比較,僅對近五年國內外本學科發文數量的趨勢進行探討。
通過Bicomb對210篇國內文獻及73篇國外文獻的作者進行分析,統計結果如表1所示。國內有2位學者5年內發文超過10篇,4位學者發文數在5—10篇之間,另有8位學者發表4篇,5位學者發表3篇,參與寫作的學者共計380人;由于搜索總量限制,國外作者整體發文量較少,有1人發表3篇,2人發表2篇,其他198名學者均為單篇發文。國內作者合作度(一段時期內作者總數/論文總數)為1.81(380位學者參與寫作210篇文獻),國外作者合作度為2.75(201位學者參與寫作73篇文獻),整體來講,國外學者在這個研究領域的科研合作更為緊密,平均每篇文章需要3個人共同完成。

表1 發文作者統計
通過Bicomb共抽取了中文關鍵詞521個,英文關鍵詞261個,經過篩選、消歧后統計詞頻較高的關鍵詞統計如表2所示,同時利用Gephi進行中文文獻的關鍵詞聚類分析,如圖2所示。

表2 研究熱點關鍵詞詞頻統計

圖2 國內研究關鍵詞聚類關系(作者自制)
結合圖表可見,圖情界關聯數據的研究熱點大致有6個主要方向,分別為知識組織和知識發現、數據和信息服務、書目數據轉換、數字人文及數字圖書館、大數據及知識庫構建、科學數據及科技文獻。其中,對如本體、元數據、詞表等基本理論的研究,對基于BIBFRAME的書目數據轉換,以及基于關聯數據在圖情領域可以實現的知識組織、知識服務、科學數據、知識圖譜等應用領域的研究是近五年較為熱門的研究內容。
關聯數據在圖書館資源管理與服務中具有明顯優勢,可以協助實現不同機構資源的聚合和共享,實現館藏不同類型文獻資源的關聯,實現數據發現和知識挖掘,并能進一步實現圖書館資源檢索能力的躍升。
但是以上都建立在關聯數據的理念能落地實現的基礎上。盡管學界對關聯數據的技術討論和研究非常熱烈,但在實際應用中并未進行規模性推廣,甚至從某種程度來說,關聯數據的概念還并不為廣大圖書館界從業人員所知。國家圖書館最新的編目員培訓課程仍是對CNMARC進行講解和使用,而關聯數據構建和應用的推廣并未被提上日程。
國外有許多圖書館將MARC數據轉換成關聯數據,而在國內,僅有上海圖書館基于關聯數據構建了開放數據平臺,應用于圖書館的人文信息描述方面,并開放給大眾使用。中國國家圖書館于2009年啟動“國家圖書知識組織標準規范”項目,基于數字圖書館文獻資源描述和組織框架完成了部分知識組織工具與數字館藏元數據的語義化,制定了CNMARC、MARC21與國家圖書館元數據核心元素集映射轉換指南,但目前其詞表和資源尚無法直接訪問。
關聯數據的核心為RDF的三元陳述組,即以主謂賓的形式描述每個元素,并對描述元素進行關聯,從而解決信息孤島的問題。對于書目數據關聯化的轉換,BIBFRAME書目描述框架是一種國際普遍認同的框架方式,可以用于取代目前的MARC的書目數據格式,以實現細粒度、語義性、開放性、向后兼容的資源存儲方式。
BIBFRAME是由美國國會圖書館于2011年5月發布的新型書目數據模型與詞表,它設計了一套完整的關聯數據模型、詞匯、需求與用例,并且提供工具與服務。與現在使用的MARC相比,BIBFRAME模型可以基于實體的層次化結構檢索,以細粒度的語義數據進行標記,實現書目的開放和關聯,對非專業用戶更加友好。
高校作為教育研究的主要陣地,一直走在各個學科探索和實踐的前沿,而高校圖書館在師生教學科研的過程中處于核心地位。結合國際前沿發展趨勢,對高校內的特色型數據逐步開始關聯化嘗試,為未來這一工作的全面展開做好技術、人才和戰略上的儲備,是推進智慧圖書理念館落地的核心工作。并且,關聯數據在知識發現、規范控制和資源關聯方面有著獨特優勢,可以彌補目前各高校科研數據平臺在這方面的不足。
本次實驗將結合首都體育學院的辦學特色對主題詞為“體育產業”的相關書籍信息進行關聯化實踐,并利用Open Refine工具實現關聯數據發布,在這一過程中尋找問題,發現問題,為進一步探討和深入實踐打下基礎。
1.選擇資源
本實驗源數據的獲取是通過檢索系統,對“體育產業”相關的館藏書籍進行搜索,并摘取題名、著者、出版方、出版地、出版年、頁碼、尺寸、ISBN號、索書號等進行關聯數據發布。以上信息既可以幫助讀者對書目形成基本的了解,也可以通過ISBN號對書目進行唯一定位,并基于圖書館屬性,幫助讀者在圖書館搜索查找相關書籍。
2.數據建模
源數據包含11項內容,其中題名為檢索系統對書籍名稱和著者的描述,方便直接搜索;著者為作者信息,包含作者的出生年代等部分內容;出版方為書籍的出版社信息;出版地和出版年分別描述了書籍出版時的地域、年代特征;頁碼和尺寸描述了書籍實體的物理特征;ISBN號作為書籍的身份證號,可以搜索到唯一的相關數據;索書號是讀者到圖書館進行實體書搜索的數據依托;SameAs是與上海圖書館數據關聯的外部鏈接;URI是對應的每本書籍的唯一標識符。
對以上信息進行整理匯總后,使用Open Refine工具導入數據,根據數據建模及其屬性對應的詞表,在工具中添加自定義詞表的URI和命名空間,以及所重用詞表的前綴、類和屬性,并定義類及屬性值的資源類型,從而將數據映射到適當的類和屬性中。書目信息的關聯化詞表,在本實驗中主要是用BIBFRAME進行定義的,外部鏈接使用的是owl的詞表中的SameAs。
3.定義URI
由于書目存在同名或者同出版社等情況,而ISBN號無法直接閱讀大致方向,因此本實驗中使用索書號對URI進行分配。以《布局與結構區域體育產業發展研究》為例,定義URI的命名空間前綴為http://www.HLibrary.org/org/,并在其后分配索書號G812/41,以備查看時大致了解其類別屬性。
定義屬性、類和值后,使用Open Refine工具生成RDF文檔,并通過https://www.w3.org/RDF/Validator/進行可視化和驗證。
實驗中,由于中文識別問題,導出的RDF存在大量亂碼問題,可視化和驗證的過程中也出現了一定的問題。多次報錯發現自動生成的RDF文檔中多處存在結尾句少“<”的問題,這可能是亂碼導致的符號識別錯誤。逐個進行修改后,再次驗證有效性并生成部分可視化圖形。
本次實驗是對書目數據的關聯化,尚未對書目之間的關聯性進行探討,未來可對相同的出版商進行統一URI的定義和關聯,對相同作者也進行關聯,從而進一步發揮關聯數據在智庫搜索中的作用。
在本次實驗中,筆者通過探究高校圖書館對特色學科書目數據關聯化的實驗,細致化體驗了創建關聯數據的過程。學界在談到關聯數據時,總是探討數據關聯后可以實現的種種功能,但就目前來看,關聯數據的發展離這一目標的實現還有較大距離。
創建RDF文件的軟件平臺的本地化是第一步,保證生成的文檔不報錯、不亂碼,是首先需要解決的問題。統一工具后的下一步是統一詞表,詞表的復用非常重要,BIBFRAME雖然與國際接軌,但是對國內許多一線工作人員并不友好。就像此前針對MARC數據我們要制作對應的CNMARK一樣,國家圖書館正在針對這一方面積極建設,相信國內通用的基礎詞表很快就會出現。擁有了基礎詞表和軟件平臺,還需要培養一批工作人員對數據進行改造和創建,這個過程需要耗費大量的人力、物力和時間,初期需要各高校分工,對現有圖書、期刊、電子資源進行關聯化,用統一的平臺和詞表進行標識,后期主要是數據重用和對各自領域的特殊數據進行輕加工,雖然繁雜但是有序。
總體來講,關聯數據的確是大勢所趨,但就目前的發展情況來看,圖書館領域的書目數據關聯化仍然任重而道遠。