基于關聯數據的古文知識組織應用研究

2019-03-20 06:52:10常穎聰翟軍平河北師范大學圖書館

圖書館理論與實踐 2019年2期

常穎聰，路程，翟軍平（河北師范大學圖書館）

1 引言

古籍具有數量龐大、學科種類多、科考價值大等特點，國內古籍藏書僅中醫藥類就高達1.5萬種。［1］古文知識是古籍所承載的知識元及知識元群之間存在的語義關系網絡，對古籍實施現代化的管理和網絡存儲、共享，有利于古文知識的有效積累和應用。古文知識組織涉及古籍數字化、古文智能處理、古文語義描述、組織與關聯等諸多技術，隨著網絡科技的不斷發展，越來越多的研究機構和科研項目團隊開始開展古文知識挖掘、語義描述等工作。圖書館作為古籍保存的重要機構，有義務對古文知識進行更加有效、科學、便捷的組織模式探索，解決傳統的處理技術造成的古籍數據孤島、知識獲取及網絡共享困難等問題，使其適應當前網絡時代的需求，便于基于Web的古文知識組織、共享與互操作。

2006年，Tim Berners-Lee提出關聯數據概念，［2］其核心是基于資源描述框架（Resource Description Framework,RDF）為海量網絡數據創建語義關聯，解決異源異構、訪問權限不匹配等問題，實現數據的搜索、發現和鏈接。將關聯數據應用于古文知識組織，首先，能夠為古文知識提供一個合理、有效的存儲和組織的方式；其次，處于關聯數據網絡中的古文知識元能夠實現超現實的語義情景和知識關聯，將最小粒度的古籍知識價值最大化；最后，能夠實現本地古文知識與Web資源的動態關聯和基于SPARQL的知識檢索。總體而言，關聯數據技術能夠為古文知識提供一種可再生、可擴展的語義組織模式，使當前古文知識組織存在的各種問題得到有效解決。

2 研究現狀

2.1 古文知識組織現狀

古文知識組織涉及古籍數字化、古文智能處理、古文語義描述、組織與關聯等諸多技術與流程。其中，古籍數字化是開展后續知識關聯分析和語義挖掘等深度探究工作的前提和基礎。［3］目前，國內大型數字化古籍工程包括“哈佛大學哈佛燕京圖書館藏善本特藏資源庫”“中華再造善本數據庫”“中國歷代人物圖像數據庫”等以數字化古籍構建的靜態數據庫，這些數據庫均不能改變古文結構，不能進行知識重組、知識關聯。因此，古文知識組織需要更深入的基于古文內容進行文本挖掘、知識標引、知識關聯、存儲與使用等。

中國哲學書電子化計劃（Chinese Text Project）古籍文獻檢索系統包含了儒家、墨家、道家、醫學、先秦兩漢等各種原文資料，該系統使用Unihan數據庫、原典資料庫以及維基百科開發CTP字典對古籍文字進行處理，其中CTP字典通過“語言鏈接”試圖為漢字處于不同語境下不同語義、讀音和實際運用提供盡可能完整的分析。［4］中國臺灣“中央研究院”開發的“中國歷史文化地圖系統”（Chines Civilization in Time and Space，CCTS），基于地理信息系統（Geographic Information System，GIS）對漢籍電子文獻、明清地方志目錄、中國歷史地圖冊、中國數字地圖進行了語義融合，通過CCTS可以查詢中國古今文學家生平和作品中的重要信息，同時能夠以電子地圖的形式呈現該文學家在各地的創作情況及其行蹤路線圖。由北京大學、哈佛大學、臺灣“中央研究院”合作開發關系型數據庫——中國歷代人物傳記資料庫（China Biographical Database，CBDB），利用文本挖掘技術以人物傳記為文本材料，將人作為實體，對其生平事跡、入仕方式、親屬與社會關系、著作等數據進行仿真陳述與語義關聯。截至2017年4月，該數據庫已經收錄37萬條人物傳記數據。CBDB支持人名查詢、地名查詢、官名查詢、關鍵字查詢以及進階查詢，其中，進階查詢可以檢索到某一地點以特定方式入仕的人群信息。筆者以入仕類別為“鄉貢舉人”進行檢索，共檢索出3,604人，再限定朝代為“唐”，檢索結果為8人。以姓名“李白”檢索，結果為清、明，唐及其他朝代共四個名為“李白”的信息，查看唐代李白，信息涵蓋了其生年、卒年、曾任官職“翰林供奉”“王東巡幕中”等信息單元。［5,6］總體來說，CBDB以一種將生命歷程模型化的方式，將歷史人物作為關系數據庫實體，圍繞實體組織其籍貫、住址、求學地、仕宦地、父母配偶、相識之人及歷任官職等社會網絡關系，［7］能在一定程度上提供大規模人群中個人社會關系及其親屬關系等，為古文知識組織提供了方法性實踐。

以CBDB為代表的古文知識關系數據庫，實現了古籍知識深度挖掘，構建了古代人物社會關系網絡，能夠支持基于內容的檢索反饋，但CBDB仍然只是一個單獨的數據庫，不能實現與不同平臺、不同資源的互操作。探索基于關聯數據的古文知識組織，能夠以最小知識元構建語義知識網絡，同時能夠以合適的方式關聯Web相關資源，為古文知識組織提供新的途徑。

2.2 關聯數據技術在古籍知識組織應用的現狀

在CNKI中，以篇名“關聯數據+知識組織”檢索出5篇文獻，以“關聯數據+古籍”僅檢索出2篇，且研究內容均為古籍書目關聯數據研究，說明基于關聯數據的古文知識組織在國內還未引起廣泛關注與研究。

作為國內實踐性探索的代表，上海圖書館基于關聯數據，將散落在不同家譜文獻中的人、地、時、事關聯起來，形成完整的知識圖，構建了家譜數據服務平臺，并支持以可視化的方式展示。［8］相對于國內的探索研究，國外基于關聯數據的知識組織應用尤其是面向歷史知識資源的組織，已經擁有相對成熟的模式與應用平臺，值得借鑒。其中，“Europeana”（歐洲文化遺產數字平臺）通過關聯數據技術對散落在Web中的信息資源進行了整合并提供了統一的訪問入口，如，對世界各地圖書館、博物館等存儲的有關第一次世界大戰期間的電影、公文、信件等進行了整合，用戶可以RDF屬性鏈接直接訪問相關歷史資源實際倉儲網頁并獲取信息。［9,10］由歐盟基金支持的歐洲數字手稿（Digital Manuscripts to Europeana，DM2E）項目，將包括古籍、舊雜志、老照片等在內的歷史性資源以關聯數據的形式穩定開放獲取，支持數據注釋、數據關聯以及以新數據形式存在的結果分享。［11］“關聯人文項目”由美國國家人文研究基金和德國科學基金支持，［11］該項目開發了關聯數據組織與發布平臺，支持數據瀏覽、數據關聯與數據擴展。作為輕量級數據組織手段，關聯數據能夠為古文知識提供健康、可持續的知識組織模式，值得進一步去探索與研究。

3 基于關聯數據的古文知識組織模式與關鍵問題

3.1 基于關聯數據的古文知識組織模式

關聯數據技術是通過RDF描述框架為數據單元建立語義關聯，形成語義知識網絡，發布成功后，實現內部知識體系以及與Web資源的統一標識符（Uniform Resource Identifer，URI）訪問。基于關聯數據技術結構，本文提出了基于關聯數據的古文知識組織模式，包括三個知識組織層（見圖1）。① 序化知識層，通過元數據描述模型對知識元進行標引，將雜亂無序的古文知識轉換為序化的古文知識集，序化知識層的古文知識已經成為結構性知識，表現為實體數據集。其中無序的古文知識來源于古籍知識元挖掘與知識元甄別。② 語義知識層，通過語義驅動的關聯數據技術為序化的古文知識實體構建相應的動態、可訪問的、唯一的URI，形成語義化古文知識集。語義知識層的古文知識實體在結構化知識基礎上添加了網絡地址URI，已經具備網絡可發現性，且知識網絡框架搭建完成。③ 知識應用層，通過關聯數據發布，語義化的古文知識集將以關聯數據形式存在于開放性的互聯網中。知識應用層的古文知識支持本地知識的檢索、瀏覽，同時支持通過有效URI訪問其他相關Web資源，如古文相關數據庫。

基于關聯數據的古文知識組織模式，以知識元為組織單位，構建古文知識系統，能夠面向古文知識服務，改善當前古籍數據孤島、Web共享及獲取困難等問題。該知識組織模式架構需要以下幾個關鍵技術:① 古籍知識元挖掘與知識元甄別，面向知識組織，需要挖掘與甄別最小粒度的知識元，將古籍變為細化的、無序的古文知識；② 元數據標引，通過元數據描述框架識別、標引古文知識實體，序化知識；③語義驅動的關聯數據技術，即通過元數據的RDF化為元數據確定對應語義關系，形成語義化關聯數據集，實現不同類型、格式元數據的語義互操作；④關聯數據發布技術，使用D2R Server等關聯數據工具實現關聯數據的發布與維護。在利用關聯數據進行古文知識組織過程中，古文知識元的粒度與價值度、元數據描述模型及語義關系描述的準確性、可靠性和科學性，都將直接影響古文知識組織的質量。

圖1 基于關聯數據的古文知識組織模式

3.2 基于關聯數據的古文知識組織關鍵問題

古籍具有涉及學科廣泛、知識內容及文章結構比較復雜等特點，且具有特殊性，對古文知識的組織存在諸多困難。基于關聯數據的古文知識組織需要多層技術架構，因此，該組織模式的實現首先需要解決古文知識元挖掘與甄別、古文知識專有元數據、古文知識本體化語義描述、數據格式轉換等關鍵問題。

3.2.1 古文知識元挖掘與甄別

古文知識來源于古籍知識元的挖掘與甄別，需要古文斷句、詞匯處理、語義標注等一系列技術手段的支持。由于古籍文字記載方式、文章結構及古漢語含義的多樣性和特殊性，造成了古文知識元的挖掘與識別具有一定困難。當前，國內對古籍知識元的挖掘主要是對某一學科或某時期內古籍中特定詞匯的識別，如，湯亞芬、黃水清等分別基于條件隨機場模型對先秦古漢語典籍中的人名、地名自動識別展開了研究；［13,14］朱瑣玲等利用規則與統計相結合的命名實體識別方法，對方志類古籍實現了物產地名的自動識別，同時驗證了命名實體識別技術在該領域的可行性；［15］娘本先對藏醫古籍文獻知識元及其語義類型、語義關系進行梳理，建立了藏醫古籍本草知識元、知識體模型，支持知識元的檢索。［16］國內古文實體識別雖仍處于探索階段，但為古文知識元挖掘方法進行了驗證。

一般來說，漢語詞匯的含義包括字典義和使用義，相同詞匯在不同語境中語義各有不同。因此，在古文知識元挖掘過程中需要相關學科領域專家的介入，只有對知識元在上下文語境中的約束以及與上下文詞匯的邏輯關系進行梳理和識別，確定其真正含義，并完成知識元的清洗、甄別與甄選，才能保證其專業性、科學性、規范性和價值性，最終完成古文知識的正確解讀與利用。

3.2.2 古文知識專有元數據

古文知識內容、結構復雜，首先，古籍版本復雜，同一本書有多種記錄方式及記載年代；［17］其次，古文知識并不局限于文字知識，也包括古籍所記載的圖片等信息。對古文知識的組織，需要對其承載的各類信息進行標引。因此，科學有效、規范化的古籍知識專有元數據尤為重要。專有元數據是針對性的、面向古文知識標引需求的，這也是基于關聯數據的古文知識組織模式最重要的基建模塊。

我國數字化古籍存儲主要采用傳統的MARC數據。2003年，姚伯岳等在都柏林核心元數據（Dublin Core，DC）基礎上探討了北京大學數字圖書館古籍元數據標準；［18］2004年，我國《數字圖書館標準規范專門數字對象描述元數據規范》頒布，其中古文獻類型元數據在DC基礎上增加了版本類別、載體形態核心元素。國外對于知識標引包括歷史資源標引有更深的研究與實踐，本文對歐洲數據模型（European Data Model，EDM）及其應用實例“Europeana”進行了調研。EDM對史料資源有詳細、標準的描述框架，在復用 DC、dcterms、skos、cc、svcs基礎上，自建了如edm:dataProvider、edm:Physicalthing 等專有元數據。［19］EDM對不同格式資源采用不同的元數據標準，以“Europeana”收錄的第一次世界大戰期間的文本、圖片史料描述元數據為例，［20,21］不同格式資源均擁有其專有元數據，如描述史料圖片承載的故事發生地點元數據“Location”；相同一級元數據下，二級元數據也有所不同，如“Properties”下的二級元數據文本資源為“Language”“Format”，而圖片類則為“Size”。對不同格式資源采用不同的元數據標準，能夠更準確地對資源進行解讀。相比之下，古文知識內容、結構、格式更加復雜，要實現對古文知識的正確描述、存儲、組織和再利用，需要構建規范化的古文知識專有元數據標準。

3.2.3 古文知識本體化語義描述

古籍承載的是龐大的古文知識系統，對古文知識的正確解讀需要對其知識元及知識元群間的語義關系進行準確描述，形成完整的知識體系，最大程度還原古籍知識脈絡、知識模型及社會關系網絡。不同學科類別的古籍，如，醫藥、地方志及傳記等內容差別懸殊，所承載的知識系統及語義網絡存在很大差異。因此，需要對不同學科類別的古籍構建其專有的元數據及元數據的語義描述方案。

本體是某一特定學科領域內概念與概念之間語義關系的形式化表達，［22］可以實現不同類型、格式間元數據的語義化描述和互操作，具有可擴展和可共享性。在調研可復用已有本體的基礎上能夠繼續增加領域新知識，如，EDM復用了“skos:note”“foaf:name”“skos:has Top Concept”等實體、屬性；CBDB自建了“People-social Relation”“Posted-to-office-address”等屬性表達人物社會關系和赴任地址等屬性關系。“規范化元數據+本體化語義描述”能夠為不同學科古籍知識構建相匹配的領域知識體系，同時為探索、挖掘不同學科古文間的知識遷徙提供可能，如探索同一時期相同或不同地域內人物、疾病、藥物之間的關系，但大面積古文知識元語義關系的確定，需要多學科專家多方位的驗證、考證。

3.2.4 數據格式轉換與知識產權

在擁有科學化古文知識元數據及本體化語義描述框架背景下，若將現有古籍數據及館藏古籍書目等以關聯數據形式進行發布、關聯，需要完成現有古籍存儲元數據到關聯數據元數據的格式轉換與匹配，如MARC格式的轉換，該過程需要專業培訓與指導。針對元數據的格式轉換與匹配過程中可能存在的問題，EDM委員會為那些有將館藏數據轉換為EDM格式數據意愿的圖書館或其他科學機構免費開設了網絡公開課，教授傳統著錄格式如何向EDM轉換，節省了一對一培訓與指導的時間。

目前，僅有少量古籍數據庫支持公開獲取，各地高校及公共圖書館館藏大部分需要本館賬號或文獻傳遞。因此，在數據格式轉換與匹配過程中，知識產權及其產生的一系列權限不匹配問題需要重新定義，合作機構間需要尋求最合理的方法，如簽署相關公開獲取等級協議等，最大限度支持古文知識的網絡公開獲取程度。

4 結語

信息技術的發展為古籍文化價值的挖掘提供了多種手段，傳統的古籍電子化也日益難以滿足科研人員對古文知識的科研需求。因此，需要基于古文內容、最小粒度的對古文知識進行組織，關聯數據技術能夠為古文知識組織提供了一個可再生、可擴展的語義組織模式。雖然關聯數據技術在多種學科領域的數據組織、知識組織方面得到了應用，但面向古文知識的組織還未引起關注，作為輕量級數據組織手段，關聯數據能夠為古文知識提供健康、可持續的知識組織模式，值得去探索與研究。

本文提出了基于關聯數據的古文知識組織模式，對關聯數據應用于古文知識組織的核心技術及關鍵問題進行了探討，該組織模式通過序化知識層、語義化知識層及知識應用層完成古文知識的組織及應用，不僅能夠實現古文內容的語義組織，同時能夠與Web相關信息進行關聯訪問。基于關聯數據的古文知識組織關鍵在于古文知識元挖掘與甄別、古文知識專有元數據模型以及本體化關聯數據集的構建，上述技術過程均需要相關領域專家的知識支持，包括后續數據格式轉換與知識產權等關鍵問題都需要更深層次的進行考量和探索。本文為關聯數據應用于古文知識組織構建了理論依據，下一步研究需要解決古文知識元數據模型、領域本體構建的具體問題。