石華
摘??要:本文介紹了關聯數據概念,提出了基于關聯數據的語義數字檔案館概念,并設計了語義數字檔案館的框架,該框架具有四個層次:數據發布層、數據網、數據存取整合保存層和應用層。其核心是用RDF三元組替換檔案數據庫,將傳統的檔案數據發布為關聯檔案數據,實現檔案數據的共享、擴展和重用。
關鍵詞:語義數字檔案館;關聯數據;元數據;RDF
Abstract:This?paper?pointed?out?the?concepts?of?linked?data?,?proposed?a?conception?of?Semantic?Digital?Archives?on?based?on?linked?data,?and?designed?the?framework?of?the?Semantic?Digital?Archives,?which?includes?four?layers-?publication?layer,web?of?data?,data?access?integration?and?storage?layer?and?application?layer.The?core?of?the?framework?is?migrating?traditional?archive?data?to?Linked?Archive?Data?which?is?sharable,?extensible,?and?easily?re-usable.
Key?words:Semantic?digital?Archives;Linked?data;Metadata;RDF
1??前言
關聯,或者說“互相聯系”的概念對于檔案行業并不陌生,比如檔案整理就要求保持文件之間的有機聯系,還有“參引”的概念等。檔案人員花費大量的人力物力來著錄檔案數據,其目的之一就是揭示檔案和檔案責任者或其他背景之間的聯系,但其中的許多內在聯系,并不能為計算機所理解和使用。檔案數據被局限于各個不同的軟件系統和數據庫中,沒有和網絡資源整合在一起。檔案數據基本上沒有成為一種廣為人知的網絡存在,能夠被方便地查找、標識、選擇、獲取、利用及為第三方開發新的應用。近年來,關聯數據LD(Linked?Data)技術的興起,第一次為上述目標的實現提供了一種可能。
2??語義網及關聯數據概述
2.1??語義網與關聯數據概念。萬維網的發明人蒂姆·博納斯-李將下一代互聯網稱為“語義網”,并解釋說“語義網就是數據網”。所謂“語義”,是指遵循一個統一的標準,給每一片信息賦予一個計算機都能理解的“意義”,也就是“元數據”。在當前使用的萬維網上,網頁是信息資源的基本組織單位,每個網頁都有一個網址,即“統一資源標識”(URI),它們通過開發者定義的鏈接連接起來,用戶可以從一個網頁跳躍切換到另一個網頁,即網上沖浪。
在語義網上,數據將像網頁一樣,成為組織資源的單位。一個數據,可以像萬維網上的網頁一樣獲得一個網址(即統一資源標識URI),同時,還有統一的語義對它進行描述。這樣,語義網上的數據,就不再是一個死的數字,而是一個活的“細胞”,它可以被定位,還擁有和其他數據語義一致的標簽,這意味著它可以和其他數據相聯。之所以稱之為相“聯”,而不是相“連”,是因為,它們并不是像網頁一樣通過一個鏈接簡單連在一起,而是通過數據之間內在的關系掛起鉤來,“聯”在一起。這種關系,不是隨便定義的,而是基于數據的含義和屬性產生的。?這種相聯,就像兩個數據庫通過“主鍵”(Primary?key)相聯起來一樣,不同的是,這里的“主鍵”,是一個數據的元數據。
“語義網,從某種程度上來說,就像一個全球性的數據庫。……語義網不僅僅是把數據放上網,它還要在數據之間創建聯接,數據一旦聯接,計算機和人都可以對數據進行探索:通過一個數據發現另外一些相關的數據。”[1]這將是一次劃時代的革命。而關聯數據是一種推薦的最佳實踐,用來在語義網中使用URI(統一資源標識符,即網址)和RDF(資源描述框架)發表、分享、連接各類數據、信息和知識(引自維基百科)。蒂姆·博納斯-李概括出在網上發布關聯數據的四原則:
1.使用URI(統一資源標識符)作為任何事物的標識名稱。
2.使用HTTP?URI,任何人可以定位到具體的對象。
3.當有人訪問名稱時,提供有用的信息。
4.盡可能提供相關的URI,以使人們可以發現更多的信息。[2]
關聯數據可以說是語義網的一個簡化實現。
2.2???RDF?三元組舉例說明。RDF(Resource?Description?Framework)是一種信息資源描述框架,使用主體、謂詞、客體三段式描述現實世界實體(thing),回答兩種問題:
a.這個實體(thing)是什么?(屬性-值)
b.這個實體(thing)和其他實體(thing)有什么關系?
這兩種問題的答案都可以用三元組來描述,如:
姚明????出生于(birth?Place)??????上海
①[主體]?②[謂語(屬性)]??③[客體(值)]
圖1??三段式舉例
這個三元組就是RDF的表達方式:主體-謂詞-客體結構。
謂詞、客體均盡可能使用已有的URI,如“姚明”可使用一個已有的唯一的網址
http://dbpedia.org/page/Yao_Ming,“上海”也使用一個已經存在的網址
http://dbpedia.org/page/Shanghai,這樣就可以生成一個RDF三元組:

圖2??RDF三元組
三元組的客體部分也可以變為主體,能產生新的三段式。比如上海,還可以有自己的屬性和值。謂詞、客體允許其他人使用自己的數據。三段式的任何一部分都可以回答檢索問題,三段式的任何一部分都可以集中很多信息。比如來自某小學的姚明的畢業證書,可以與某網站上姚明的照片自動關聯,只要兩者生成的RDF三元組中“姚明”使用的是同一個URI。信息從而不僅僅是信息,已經轉化為相互聯接的知識。這種聯接是格式化數據的相聯,不是文本的相聯,是機器可理解和可處理的數據,是對現有數據的再利用,可產生新的資源,其又被利用、再利用,可無限擴展下去。
這種自動關聯,稱之為RDF鏈接。RDF鏈接是關聯數據技術應用最大的價值,它不僅可以對實體的內部資源進行鏈接,還能夠實現實體與實體之間的鏈接,從而將各自獨立分布的實體織成數據網絡,使得用戶能跟隨RDF鏈接從一個實體遍歷到另一個實體,獲取更多更加標準化和規范化的數據資源。如下圖:
圖3??RDF鏈接
3??語義數字檔案館概念及基本框架
本文提出了語義數字檔案館概念,主要利用關聯數據發布數字檔案館資源、擴展資源發現服務、實現數據整合與語義檢索服務、實現異構關聯數據的開放與復用。
從目前檔案部門數據來看,大部分是格式化的數據,如excel或dbf,也有非格式化的數據如PDF等,均不具備語義表達功能,要對這些分布、異構的數據進行共享和操作是很困難的,改變檔案數據著錄和發布標準,按照關聯數據標準對現有檔案數據進行改造、發布,顯得尤為重要。
本文設計了一個基于關聯數據的語義數字檔案館基本架構,其功能層有三層:數據發布層,數據存取、整合和保存層,數據應用層。
圖4??基于關聯數據的語義數字檔案館框架
數據發布層主要由數據發布者構成,是核心部分數據網的數據提供者。各機構以關聯數據的形式發布本機構的信息資源。根據關聯數據的發布原則,首先確立每一個獨立存在的實體對象(例如單位、人員、事件、文檔),賦予其唯一的URI作為標識,將傳統數據轉成RDF三元組數據集。數字檔案館可將元數據集、機構、名人、事件等作為規范文檔發布為關聯數據。部分允許開放的檔案目錄數據也可以發布為關聯數據。
數據應用層由關聯數據消費者即查詢者構成,它們主要是應用數據網中的數據,來滿足自身的數據需求,其消費方式包括瀏覽、發現、抓取、檢索、混搭、推理、展現。
數據存取、整合和保存層,處于中間一層,由關聯數據的第三方參與者構成。它提供了一系列基礎服務,如本體詞匯的維護、不同本體詞匯間的相互映射、數據標識的規范控制等。這一層其實是關聯數據網的基礎設施,構建了數據發布者和消費者間的橋梁。
檔案部門可以存在于這三個功能層中,它可以作為數據的發布者而成為發布層的主要組成部分;它又可以成為關聯數據的消費者。更重要的是,檔案部門以其天然的權威性,可成為數據存取、整合和保存層的主力軍。其工作包括:制定域名策略,以保證URIs的一致性、穩定性,提高效率和質量;創建和維護URIs,保證URIs的持久性;保存元數據和屬性值詞匯;長期保存和維護數據集;?實現不同本體詞匯之間的相互映射。
語義數字檔案館用RDF三元組替換檔案數據庫,用統一資源標識符(URIs)標識每一份檔案(無論是電子還是實物檔案)。
4??檔案數據轉換為RDF三元組過程
傳統上檔案的著錄數據是兩維結構,如:
表1??檔案著錄數據舉例
ID
題名
責任者
主題詞
…
年度
檔案A
54321
市檔案局關于檔案宣傳活動的通知
鄭州市檔案局
宣傳、通知
2011
檔案B
76543
市檔案局關于召開2013年度檔案培訓班的通知
鄭州市檔案局
培訓、通知
2013
采用RDF三段式表示以上著錄數據,如下圖:
圖5??三段式表示檔案數據
由上圖,將檔案數據根據其性能分為三類:數據集、元數據集和取值詞匯。取值詞匯作為客體,有些值是常數,如2013,而有些則是可以識別的實體,如“鄭州市檔案局”。
例如,“檔案A”相對應的URI可以定為檔案館Z所在網址+館內唯一ID號?http://MyArchiveZ.com/54321
為簡化URI的書寫,定義一個由URI確定的命名空間(Name?Space),maz指代所有檔案館Z發布的RDF,http://MyArchiveZ.com/54321可表示為?maz:54321。
屬性盡可能使用已有的URI,如:題名title,來自DC(都柏林核心元數據元素集,圖書館使用,已發布為關聯數據),URI為http://purl.org/dc/terms/title(dct:title)
生成的RDF三元組如下:
5??基于關聯數據的語義數字檔案館應用前景
“關聯數據”自2006年提出至今,受到各界的廣泛關注,研究的深度和廣度都得到不斷拓展,應用領域也有長足的進步。然而問題和困難還是存在的,關聯數據的發展還有很長的路要走。但是其資源數量的龐大性、人機互動的靈活性以及信息發布的高效性,都決定了它未來發展的必然性。面對大環境,檔案部門作為信息的采集者、儲存者和提供者,將關聯數據這一前端技術應用到工作中已是大勢所趨。
基于關聯數據的語義數字檔案館,不僅大大提高檔案資源的利用率,而且在更大程度上滿足社會公眾的文化需求,其優勢如下:
5.1??從封閉的數據到開放的數據。目前檔案數據存儲在各自的數據庫中,沒有與網絡上其他數據資源整合。其實檔案數據和網絡上其他類型的資源,可以在日期、機構、人物、全宗、事件等方面實現互連。檔案數據覆蓋眾多部門、機構、團體,經常需要數據交換與轉換,也就是需要數據開放。關聯數據技術本身并不要求將數據開放,但是該技術隨時可以將數據發布為關聯的開放的數據。不僅可以在本單位內使用、外部各種的應用也可以獲取并使用,數據成為網上的資源,不僅是人可讀的資源,還可以被電腦所使用,可在更大范圍內被任意鏈接和重用,發揮數據的最大價值,消除信息孤島。
5.2??從固定的數據到可混搭的數據。關聯數據間可以隨意混搭,甚至可以和其他關聯數據的不同片段進行混搭。通過自下而上發布數據的方法,關聯數據技術為檔案部門提供了改善著錄現狀的機會。過去描述檔案數據,一條記錄作為一個獨立的整體,不能產生高粒度的信息。有了關聯數據技術,同一資源可以以分散的方式由不同的責任者提供不同的著錄數據,而這些數據可以整合在一起。文件生成部門提供某文件的原始數據,如題名、責任者等;檔案室添加文件歸檔時的信息,如歸檔時間、保管期限、室編件號等;檔案館添加館藏信息,如檔案館、館編件號等,查檔用戶可添加附加信息,如在維基百科的鏈接等。檔案館人員為所有這些與本文件相關的信息生成頁面和鏈接,作為關聯數據發布到萬維網上。無數據冗余,每個流程只創建自己的部分數據;無需下載到本地,所有數據都“聯邦”鏈接;責任明確:哪個流程的元數據出問題,不會影響其他;無需統一工作平臺:以數據為中心,流到哪個平臺就在哪個平臺加工。系統各組成部分松散耦合,互相聯系卻互不干擾,整個系統成為一個不斷增長的有機體。
關聯數據技術可以幫助機構提高內部數據的整合過程,另一優勢是數據發布者可以將發布的數據的部分信息開放。即使機構內部的數據沒有完全開放,關聯數據技術也可以提高機構內部數據的發布過程。
5.3??從低質量的數據到高質量的數據。關聯數據,能夠有效維護各單位不同類型數據的一致與完整性,為查詢者從大量的信息資源中獲取所需要的信息和問題提供解決方案。如,同一責任者“鄭州市人民政府”在不同單位可能簡稱不一,應該統一為同一名稱,但這樣做費時費力。如果將“鄭州市人民政府”賦予唯一的URI,各單位都引用這個URI,就可以保障數據的一致性,并減少數據冗余。檔案部門的資源可以跨領域得到廣泛的參引。互聯網的域名系統保證了URI的穩定性、可信性和可持續性,這和檔案部門的長期保存信息資源的使命是一致的。
5.4??擺脫數據格式和軟件商的限制。所有的技術都是有壽命的,每一階段代表性技術都不例外。關聯數據描述的數據(包含語義),不受限于數據格式(語法或者格式),因此,保證了關聯數據不會被格式的變化所淘汰。通過一般開源軟件就可以滿足開發需要。
6??關聯數據技術在應用中可能遇到的問題
6.1??技術難題:要實現基于關聯數據的語義數字檔案館,需要運用一些語義網的技術,例如SPARQL和OWL等,需要工具和技術支持。
6.2??各相關系統封閉問題:關聯數據最大的阻礙就是封閉,如果其他數字檔案館、數字檔案室、OA系統都不開放,關聯數據也就無計可施。需要鼓勵更多的數據提供者參與進來,并且保證用戶能夠規范使用這些數據。
6.3??關聯數據的監管問題:如果某一數據源的數據被修改或刪除,數據源之間的關聯很可能發生斷鏈現象,從而使得基于關聯數據的應用程序發生錯誤。需建立起有效的監測和修正機制以維護關聯數據的參照完整性和數據更新的同步性。
盡管基于關聯數據的語義數字檔案館目前只是一個框架,也有可能遇到各種問題,但關聯數據是在語義網時代,提供對任何網上資源和數字對象進行著錄和規范控制的基礎技術。關聯數據技術為檔案行業帶來了千載難遇的新機遇,若能利用好這個機遇,檔案行業將成功實現向數字化、網絡化、開放化的華麗轉身,在網絡時代創造新的輝煌。
參考文獻:
[1]涂子沛.大數據[M].桂林:廣西師范大學出版社,2013:284.
[2]劉煒,胡小菁,錢國富,張春景,夏翠娟.RDA與關聯數據[J].中國圖書館學報,2011(197):35~42.
(作者單位:河南省鄭州市檔案局科技教育處???來稿日期:2015-04-20)