程 婭
(武漢軟件工程職業學院,湖北 武漢 430205)
數字檔案資源的日漸豐富在一定程度上保證了數據的多樣性,同時也阻礙了資源的組織與共享。為了優化數字檔案資源的組織方式,相關專家已從多方面提出了資源整合的方法。關聯數據作為實現語義互聯的關鍵技術之一,不僅能實現同一領域的知識互聯,也可以實現跨領域的知識互聯,從而達到數據孤島向互聯數據空間的轉變。
推進檔案資源語義互聯,可以實現數字檔案資源系統與其他信息系統在語義層面進行整合,形成一個機器理解的語義檔案資源共享網絡。目前解決數字資源語義層面的互聯問題主要有四種方法,分別是基于頂層本體的語義互聯方法、基于橋本體的語義互聯方法、基于知識地圖的語義互聯方法和基于關聯數據的語義互聯方法。
頂層本體為領域本體提供統一的語義互聯術語和定義,可以實現全局本體與局部本體之間的映射。橋本體通過定義各種橋關系完成不同領域本體之間的概念關系映射,形成領域內的共享本體。知識地圖通過知識鏈接實現知識之間的關聯。關聯數據采用RDF三元組的形式描述資源,語義網通過這種模式將Web上的數據鏈接起來,形成一個語義互聯的網絡。
通過分析四種語義互聯方法后發現:頂層本體雖然可以實現全局本體與局部本體之間的映射,但要構建一個涵蓋某領域所有知識的頂層本體并不實際。橋本體可以通過簡單定義語義互聯關系實現資源的語義互聯,但實驗表明橋本體概念間的語義關系很難形式化表達。知識地圖受限于現有的數據推理與挖掘技術,難以挖掘潛在知識和隱性知識。關聯數據因其完善的鏈接機制,不僅能對網上不同領域的數據資源進行互聯,還支持用戶在網絡上的信息查詢與資源共享。因此本文選擇關聯數據技術實現數字檔案資源的語義互聯。
關聯數據使用URI標識Web上的各類資源,利用RDF模式描述并鏈接各種數據,并通過HTTP URI命名資源空間。基于關聯數據的數字檔案資源互聯模型使資源都有唯一的標識和相關的資源鏈接,方便用戶快速準確的獲取所需資源。該模型有六個層次,如圖1所示,下面將具體闡述各層次的主要功能。

圖1 基于關聯數據的檔案館數字資源語義互聯模型
隨著檔案信息化工作的深入,各檔案工作部門形成了諸多檔案管理系統和各種特色檔案數據庫,構成了數字檔案資源語義互聯的數據基礎,主要包括文本檔案、音視頻檔案、XML檔案和檔案元數據等數字資源。
標識層需要兩種技術支撐:Unicode和URI。Unicode以一種抽象的字符方式來處理資源,最多可容納1114112個字符。URI用于標識某一數字資源名稱的字符串。檔案工作部門形成的各類數字資源都可以由唯一的URI進行定位,從而確保數據的一致性和準確性。
描述層主要利用本體技術對實體對象進行注釋。該過程采用RDF描述資源,以XML語法結構組織信息,將元數據轉換成具有語義的RDF格式,實現不同元數據的語義化描述和語義化互操作。
本體層在檔案資源語義互聯中尤其重要,它以XML與RDF技術為支撐,先通過RDF定義數字檔案資源,再用本體定義語義關系。本體構建作為本體層的主要任務,需要領域專家和計算機專家在本體構建原則的指導下,通過便捷的本體開發工具加以實現。
由于本體層的實體對象特別是實例對象數量龐大,加之實體對象之間的關系復雜多變,可能會忽視對某些實體及其關系的描述,需要對本體進一步操作,完善數據之間的邏輯關系。該層主要是實現對本體的語義推理與語義映射。
將檔案元數據本體發布到Web中,并提供對其開放的瀏覽與查詢,是應用層的主要任務。檔案工作者在構建與發布關聯數據時,應針對數字檔案資源的特點與實際需求,通過RDF數據模式實現數字檔案資源的最優化發布。
RDF作為一種元數據描述方法,可以表達Web上的任何事物。對檔案部門而言,各種獨立的資源通過RDF鏈接后,可以形成一個全面系統的知識網絡。圖2為RDF元數據的構建實例,描述了一個包括檔案學理論、檔案術語學、檔案法規學和比較檔案學的基礎理論。RDF元數據在不斷收集與標識過程中構建資源間的語義關系,實現整個檔案館數字資源的整合。

圖2 基礎理論RDF元數據構建實例
本體構建是本體技術的基礎,需要各領域專家遵循一定的構建原則,采用合適的技術與工具加以實現。Protégé作為一種本體編輯和知識獲取工具,是當前使用最廣泛的本體編輯工具之一。本文基于對檔案學學科結構的梳理,在檔案領域對檔案學元數據本體進行定義。在檔案學元數據本體構建過程中,將其分為三大類:檔案學、檔案和代表人物,具體細分方法見表1。在使用Protégé構建本體時,依據表1的細化分類,可以獲得檔案學元數據本體的類層級圖,如圖3所示。

表1 檔案學元數據本體類表
數字檔案資源語義互聯的目的是為用戶提供更好的服務,將關聯數據應用于數字檔案資源知識組織時,可以建立科學高效的知識組織與服務體系,推動檔案行業向數字化、網絡化、開放化轉變,給檔案工作帶來全新的發展機遇。

圖3 檔案館學元數據本體類層級圖