孔凡晶 馮雅



*本文系吉林省社會科學規劃基金資助項目“偽滿時期日本的殖民宣傳研究”(項目編號:2020J76)系列研究成果。
摘 要 論文應用語義網相關技術開展地方志資源聚合研究,挖掘海量、分布式、異構資源間的潛在關聯,系統分析了基于語義的三種信息資源深度聚合模式特點,并以東北師范大學圖書館“東北地方志”館藏資源作為數據源,開展基于元數據的地方志資源聚合實證研究。構建元數據視角下地方志資源聚合的理論框架和可視化服務平臺,為地方志資源的深度關聯和揭示提供從理論到實踐的實現路徑。
關鍵詞 高校圖書館;語義網;元數據;資源聚合;東北地方志
分類號 G254.3
DOI 10.16810/j.cnki.1672-514X.2024.02.008
Research on Local Chronicles Resource Aggregation and Visualization Based on Semantics
Kong Fanjing, Feng Ya
Abstract This paper applies Semantic-related technologies to carry out research on the aggregation of university library local chronicles resources, explores potential correlations between massive, distributed, and heterogeneous resources. It systematically analyzes three kinds of information resource aggregation modes based on semantics, and takes the “Northeast Local Chronicles” collection of Northeast Normal University Library as data source to carry out an empirical study on resource aggregation and visualization of aggregation results. A theoretical framework and a visual service platform for the aggregation of Northeast local chronicles from the perspective of metadata are constructed, which provides a realization path from theory to practice for the relevance and disclosure of local chronicle resources.
Keywords University library. Semantics. Metadata. Resource aggregation. Northeast local chronicles.
0 引言
大數據時代,困擾人們的不再是信息匱乏而是信息的無序,對此將海量信息轉化為能夠被人們直接利用的知識,成為互聯網智慧化發展的首要任務。“雙一流”建設背景下,高校圖書館作為文獻資源保障的基礎設施和服務機構,在面臨高校的科學研究和教書育人的雙重需求背景下,應該積極利用現代信息技術解決館藏資源無序、異構、不兼容的現狀,對館藏資源進行深層次聚合、揭示并有效地展示,滿足讀者對信息資源的多元化、精準化需求[1]。
信息資源聚合的目的是揭示不同結構、不同來源資源之間的語義關聯,并基于技術手段構建一個知識網絡[2]。該知識網絡中的資源內容存在多維度、多層次的關聯關系,是一個集概念主題、學科內容和科研對象實體為一體的立體化知識網絡[3]。國外學者對信息資源聚合的基礎理論研究和實踐探索均較為深刻與成熟,通過對關鍵技術、可行工具、聚合模型[4]的開發和探索,實現了信息資源的高效聚合,有效解決了異構信息間存在的互操作困難[5]。20世紀90年代末國內學者將“資源聚合”的概念引入到圖書情報學科中,對圖書館數字化信息資源聚合的相關技術和聚合系統展開了深入研究,從多個角度分析各種資源聚合技術的優劣勢,為全面開展圖書館館藏資源聚合提供了理論基礎。由此,作為信息資源高度集中的高校圖書館應在理論研究的基礎上,加大對館藏資源的聚合應用及數字資源聚合平臺構建,實現網絡學術資源的可視化、個性化推薦[6]。筆者以東北師范大學圖書館“東北地方志”館藏資源作為實例,在系統分析基于語義的信息資源聚合理論與方法以獲取關鍵性指標的基礎上,選擇基于元數據的地方志資源聚合模式,探討構建適合地方志資源聚合模型與體系,以實現資源聚合及聚合結果的可視化。
1 信息資源深度聚合模式及其語義化研究
為實現用戶深層次知識服務的最終目標,國內外圖情學者、專家進行了大量的信息資源聚合應用研究,其應用領域較為廣泛,其中高校圖書館對于資源聚合模式的相關應用主要在數字館藏資源共享、館藏資源管理、資源可視化呈現等方面。
國外信息資源聚合研究的主線鮮明,在資源聚合模型研究上,有分布及異構信息資源聚合模型、語義理論模型和文本內容聚合模型等研究;在資源聚合技術、工具及方法研究方面有分布式資源共享的網格技術、語義網推進轉化技術、語義分析和理解的云標簽技術、語義共現技術、本體技術、元數據收割技術和RSS技術等研究;在資源聚合工具研究上包括RODIN、News Reaper系統、SERSE系統、按需聚合和自主系統為核心機制的IVCE平臺的開發。此外,針對聚合方法有模糊形式概念分析FFCA法、聚合文本數據的Top Keyword聚合算法、基于元數據的聚合方法、基于RDF及包含5級聚合框架的關系聚合方法等應用方法的研究。
國內信息資源聚合研究多側重于介紹國外研究進展和關鍵技術的知識點分析,應用領域主要集中在數字圖書館館藏和網絡資源的資源關聯、可視化、個性化推薦上,資源聚合平臺的構建方面還處于初始階段。針對語義化的研究主要側重于專業知識機構層面的詞義敘事框架在推進數據資源挖掘方面的有效性,如對基于OPAC、引證關系、元數據和信息收集及其他知識資源發現的專用工具和方法,對以數字圖書館館藏資源為主題的研究現狀綜述等。其主要研究包括二個方面,一是資源語義化研究,利用語義技術開展基于本體的數字資源語義聚合與可視化,以及基于關聯數據的數字資源聚合;二是利用計量分析、網絡分析等技術挖掘數字資源之間的引證關系,其理論核心是關于RDF、OWL、本體、元數據和關聯數據等語義網關鍵技術的研究。其中,由于語義是對數據的抽象邏輯表示,指“數據(符號)所指代的概念的含義,以及含義間關系”[7],因此,在語義化研究中,著重針對計算機之間、信息系統之間能夠理解彼此信息的意義并實現數據交換[8]的研究,其中元數據語義化、領域本體和關聯數據的語義化以及計量分析語義化在理論研究中占據基礎地位。武漢大學信息管理學院邱均平教授等提出了三種基于語義化技術的館藏資源深度聚合模式[1],分別是基于領域本體的深度聚合模式、基于元數據的深度聚合模式、基于計量分析的深度聚合模式。這三種聚合模式在數據來源、聚合后的知識結構層次、應用成本等方面既有一定的差別也存在相互聯系。他認為構建某一領域本體時,為了消除本體概念、關系、屬性上的認識差異[9],不僅需要借助領域專家的專業知識來確定核心概念、關系和屬性,而且為了有助于實現知識的共享和集成[10],也需要實現領域本體的深度聚合。針對元數據的深度聚合模式,邱均平教授認為元數據作為結構化描述數據資源屬性的數據,是用來解決語義互操作的重要工具。當對圖書館元數據進行深度聚合時,需要通過對存儲的元數據資源進行結構化描述,幫助圖書館建立一個大型元數據倉庫,將眾多分散的、異構的數據整合在一起來滿足數據即時變更的需求,以能夠同時實現圖書館自身元數據數據庫的內部應用關聯及外購數據庫資源的外部應用關聯[11]。而基于計量分析的聚合模式是國內學者較為關注和常用的方法,通過對文獻資源間的“文獻同被引分析”“合作關系分析”“主題詞共現”“作者耦合”等數據提取和聚類操作,定量分析其之間的相互引用關系,解釋學科間結構關聯及作者間合作關系。該種聚合模式適用于具備關鍵詞、作者、機構、學科等基本概念的數字文獻資源,實現館藏文獻資源之間的語義關聯,滿足讀者多種檢索需求。上述三種模式雖然都能運用于高校圖書館信息資源聚合與知識發現的實踐應用中,但在信息資源聚合過程中,需綜合考慮聚合模式的適用性,針對資源類型和特征,應用專屬的方法與技術手段形成多維度關聯揭示[12],實現語義層面上的知識聚合。
2 地方志資源聚合模式與聚合過程
地方志資源屬于具有史實學術價值的陳述性資源[13],是歷史客觀事實的陳述和展示。資源雖然客觀準確,但作為閱讀材料來說較單調、枯燥且分散,缺乏趣味性和互動性。目前很多高校圖書館采用掃描和文本識別技術,開展地方志紙本文獻的數字化工作[14],其地方志館藏資源既包括結構化數據,也包括半結構化數據,其資源數據不僅多樣、復雜,包含有元數據、概念及概念關系、知識元及其關聯關系等多個語義層次,且有文檔、段落及句子等多個粒度的表現形式。雖能夠實現地方志名稱或主題詞層面的檢索,但缺乏內容層面的知識表示、組織、關聯度的揭示[15],對于地方歷史上發生的相關內容不易全面展示。
地方志涵蓋了多種知識元素,既包括資料的基本數據屬性,也包括地理信息、自然環境、社會、經濟、文化、大事記等描述性數據屬性。針對地方志資源特征,可基于已有的元數據標準,設計地方志資料元數據字段,采用關系型數據庫ACCESS構建地方志元數據倉庫,實現元數據的存儲及檢索功能,將這些分散的不同知識元素組織起來,并與外部異構知識源進行關聯,形成語義化的有機整體。在利用語義技術對地方志原始數據進行元數據的資源聚類、格式轉換、聚合并創建關聯關系的過程中,一方面可通過對資源的元數據結構化描述幫助圖書館將眾多分散的、異構的數據整合在一起[16],利于關聯多樣化的館藏資源;另一方面,可使高校圖書館擁有完整、龐大、規范的元數據體系,在館藏資源描述、組織與管理、保存、檢索與服務等各個環節起到重要作用[17]。同時,通過讀者在日常使用館藏資源過程中產生檢索日志元數據、借閱記錄元數據等構建用戶畫像,深入挖掘讀者的內容傾向和使用習慣,在滿足讀者獲取目標館藏資源的基礎上,幫助其充分了解到資源之間蘊含的規律、模式、特色等知識性內容以及信息之間的語義關聯[18],既能滿足讀者多層面的知識需求,又可以實現針對讀者的資源導航推薦和個性化服務推薦[19],提高讀者獲取信息的效率和圖書館服務水平。
目前地方志元數據存在幾種主流標準,有以20世紀末興起的DC元數據、VRA Core元數據、EAD元數據為主的數據結構標準[20];有以RDA、CCO、DACS為主的數據內容標準;有以MARC、XML、RDF為主的數據交換標準等。不同載體的資源,有不同的元數據標準。其中圖書館OPAC系統里的地方志元數據是以MARC格式存儲,商業數據庫則建立自己的元數據存儲格式。以元數據“作者”為例,在MARC格式里,用“Creator”+“數字序號”來表示作者的排名,在“中國方志庫”中,作者的貢獻度用“作者-修”“作者-篆”來表示。因此,為使圖書館地方志資料元數據實現深度聚合,基于語義的地方志資源聚合過程可以分為資源采集、資源描述、語義聚合和可視化呈現四個階段[21],如圖1所示。
圖1 基于元數據的地方志聚合過程
在對地方志資源聚合過程中,資源采集是開展資源聚合的前提,需要從紙本資源、網絡資源、商業庫、自建庫等資源庫中采集數據,并將這些采集的資源按元數據統一格式納入到一個大型元數據倉庫中進行有效地集成。為了規范元數據的格式,解決各個方志數據資源元數據不一致、重復、粒度粗糙、著錄錯誤等問題,可參考《地方志描述元數據著錄規則》對獲取到的元數據進行標準化規范處理。資源描述為語義聚合奠定基礎,利用統一標準和框架的元數據描述數據資源的屬性特征,對于相同含義的元數據字段進行映射。語義聚合是整個過程的核心環節,RDF(Resource Description Framework,資源描述框架)是一種包含了語義信息的資源描述語言,利用包含資源、屬性類型及屬性值組成的三元組集合的方式描述分布式、異構的實體和實體間關系;資源聚合可視化呈現既要利于讀者快速發現所需資源、深度揭示信息資源間鏈接關系,也應能實現用戶交互。
3 基于語義的東北地方志資源數據關聯
創建的地方志元數據可以分為描述性元數據和結構性元數據。其中,描述性元數據是指包括題名、創建者、出版者、出版日期、主題等志書基本數據的MARC著錄知識條目,用于描述書目信息;結構性元數據是指能夠從多個角度對方志包含的信息進行檢索和揭示、代表地方特征屬性主題的元數據。由于地方志資源具有地域性特點,是涉及到自然、政治、經濟、文化、科技等內容的區域綜錄,因此圍繞章節中的目和細目內容,要依據地理信息、自然環境、農林業、工商業、教育和科技、社會、文化、大事記等元數據屬性分別建立對應的元數據字段作為檢索入口。結構性元數據的標引,能夠揭示并聚合分散在不同地方志中的信息,形成新的關聯性信息系統。
東北師范大學圖書館的“東北地方志”元數據以CNMARC的格式,存儲在OPAC系統里,主要包含的字段有題名、作者、主題、出版日期、出版社,雖然能夠實現地方志書目的檢索與在線閱讀,但是無法實現資源之間的關聯。為了建立方志間的數據關聯,采用關系型數據庫ACCESS構建地方志元數據倉庫,以實現元數據的存儲及檢索功能。元數據表使用UTF-8編碼,以便支持中文服務。采用元數據收割協議OAI-PMH(The Open Archive Protocol for Metadata Harvesting),通過FTPS(Explicit/Implicit FTP over TLS/SSL)數據傳輸協議從異構資源層提取元數據信息[22]。從東北師大圖書館自建數據庫“東北地方志數據庫”獲取到元數據記錄23 800條,從商業數據庫“中國地方志數據庫”獲取到元數據記錄3580條,通過拆分、查重、修改、清洗、合并等處理,平臺采納20 565條方志元數據記錄。以黑龍江省哈爾濱市木蘭縣的《木蘭縣志》為例,所建立的地方志元數據屬性及附屬字段如表1所示。
表1 《木蘭縣志》元數據及附屬字段
元數據屬性 元數據字段
基本數據 題名 創建者 出版者 出版日期 主題
地理信息 地名 隸屬市 海拔 經緯度 面積
自然環境 地貌 氣候 水系 自然災害
農林業 糧食作物 經濟作物 畜牧品種 林木種類
工商業 經營體制 門類 工廠 產品
教育,科技 教育機構 科技機構 科研成果
社會 民族 宗教 幫會 風俗 知名人士
文化 戲曲 遺址 公墓 寺廟 紀念碑
大事記 名稱 時間 地點 內容 重要人物
4 東北地方志聚合平臺可視化設計實現
東北地方志聚合平臺的首頁需要簡單、明了,給人以莊重的感覺。頁面的構思布局,包括背景圖設計、目錄導航信息設計、內容呈現形式設計。地方志文本資源的目錄導航要清晰,各級目錄分層明確,既能夠符合方志的主題,又可以將各個章節的主題內容和頁碼清晰地展示出來,使讀者對方志的分類一目了然,能夠快速識別和鏈接到自己感興趣的章節。因此,在首頁左側設置地址導航欄,地址以省、市、縣、鎮劃分為四級目錄,頁面中間位置為地方志文獻資源展列,可以獲取文獻和主編名稱等概括信息(見圖2)。
圖2 東北地方志聚合平臺首頁
當用戶點擊進入其中某一文獻時,可以獲得該方志具體章節信息,以及地理位置信息。為了方便后續研究中實現用戶與系統的交互功能,也需要在平臺中設置文獻檢索功能,并可通過頁面上方設置“可視化”模塊和“資料上傳模塊”,使用戶可以自主添加或補充方志資源數據。
在平臺中,為了使上述地方志聚合關聯的數據信息能夠較好地可視化,還需要將地方志記載的客觀信息與地理信息系統GIS(Geography Information System)相結合[23],對客觀信息進行更加直觀的呈現。GIS作為一種能夠對地理數據進行輸入、查詢、存儲、分析和現實的計算機系統,能夠滿足地方志數據信息的可視化需求。
4.1 地方信息可視化
地方志有大量的地理空間信息和歷史時間信息,可從空間和時間兩個維度將數據細化加工,構建GIS核心元數據集[24]。在為每一個地名(古代名和現代名)建立唯一URI(統一資源標識符)時,可通過URI定位該地名的空間地址,并展示與地名相關的行政歸屬和空間歸屬等信息。在數據庫中建立空間實體“地址”字段,代表空間中有特定名稱的行政轄區,由地理信息系統里的X、Y坐標交匯點來確定空間實體的位置。如果其地理坐標或者名稱中任何一個信息有所改變,需要為該實體建立一個新的地址。這些歷史場合是行政層級的一部分,都保存在數據庫中的“歸屬”數據表中。其中“地址表”包括如下字段:地址代碼、地址名稱、行政類別、X坐標、Y坐標、地址始年、地址終年。“歸屬表”包括如下字段:地址代碼、從屬地址代碼、從屬始年、從屬終年。表2中列舉了ACCESS關系型數據庫中所涉及到的地理位置相關部分元數據;
表2 地理位置元數據信息表(部分)
字段名 字段含義
c_addr_id 地名ID
c_addr_name 地名
c_firstyear 地名設置始年
c_lastyear 地名設置末年
c_admin_type 地名級別
x_coord x坐標(經度)
y_coord y坐標(緯度)
belongs1_id 地名一級目錄ID
belongs1_name 地名一級目錄名稱
4.2 事件信息可視化
地方志的敘事手法單一,基本上包括5個字段:事件名稱、發生時間、發生地點、主要內容、重要人物[25]。據此,為地方志大事記設置五個元數據字段,字段名稱和定義(見圖3),并利用ACCESS數據庫,將該抽象模型轉化成有關聯的眾多數據表,分別是描述大事件內容的表格、描述大事件和重要人物關系的表格、描述大事件和發生時間的表格。
圖3 大事件元數據字段及相關信息示例
如以“入侵”為檢索詞,可以檢索出“重要人物”字段中ID分別為1、2、3、4的四位人物即波雅科夫(入侵頭領)、斯捷潘諾夫(入侵頭領)、穆拉維約夫(入侵頭領)、沙爾虎達(抗侵頭領),這幾個人物構成了17世紀中葉沙俄侵略黑龍江松花江流域時期的關系網絡;點擊其中任何一位人物的姓名,如“斯捷潘諾夫”,平臺將顯示其參與“沙俄入侵”事件的時間,分別為1654年、1655年、1657年;點擊“沙爾虎達”,平臺將顯示其率兵抗擊“沙俄入侵”事件的時間,為1657年。其檢索可視化流程圖如圖4所示。
圖4 關系型數據庫數據實例
通過以上關聯大事記與人物以及時間等信息的實例,可以看出關系型數據庫通過獨立關系表間的互動、調用,將零星、分散的事件記錄加以整合,為不同事件中涉及的共同人物或人物團體建立關聯,揭示人物間的社會關系以及與之相關的事件特征,為讀者提供社會網絡分析的數據基礎。
4.3 通過HTML語言來描述網頁
為了讓讀者較全面、直觀地了解其反映的文化信息,同時提高地方志的閱讀性和趣味性,平臺要力圖用文字、圖像、影像、聲音等多種方式展示方志中的細節。HTML語言作為用來描述網頁的一種語言,具備良好的跨平臺性,可以通過瀏覽器在多種操作系統運行。HTML 5語言具備圖文并茂的多媒體顯示功能,新增了音頻標簽audio和視頻標簽video,規定了一種包含音視頻的標準方法,因此采用HTML5語言和Adobe公司出品的Dreamweaver cs 5.5 HTML編輯器編寫網頁內容。圖5展示了平臺利用音、視頻的方式,對木蘭縣禪凈寺的歷史與現狀進行講解,結合GIS系統的使用,使讀者對地方志中涉及到的方位信息有更加直觀的理解和感受。
圖5 音視頻呈現
5 結語
為了有效開發地方志資源的科研價值、提高資源利用率,就必然要對地方志的相關信息資源進行語義聚合,實現多數據源方志間的有效關聯和可視化。高校圖書館地方志文獻若能利用元數據描述方志中的地點、人物、自然、社會等對象,則能實現組織語義化與內容語義化的融合,揭示與其他歷史文獻間的隱形關聯關系,實現與地方年鑒、地方史料、地方家譜、地方輿圖等地方文獻的聚合。在本研究中采用了基于MARC元數據的組織語義化描述方式,利用不同版本、名稱的地方志元數據屬性及字段之間的關聯來挖掘地方志資源之間的語義關系,后續將利用構建領域本體的內容語義化手段,開展資源內容層面的語義挖掘和推理,這兩種語義化方式的互補融合研究將是實現進一步提升資源聚合質量的發展方向,也將進一步提升知識服務水平。
參考文獻:
邱均平,方國平.高校圖書館語義化館藏資源深度聚合模式及其應用研究[J].圖書館學研究,2014(21):64-71.
周姍姍.基于Folksonomy模式的數字資源多維度聚合研究[D].長春:吉林大學,2014.
賀德方,曾建勛.基于語義的館藏資源深度聚合研究[J].中國圖書館學報,2012(4):79-87.
閆晶.數字圖書館資源聚合質量評價及優化策略研究[D].長春:吉林大學,2018.
DOERR M, HUNTER J, LAGOZE C. Towards a core ontology for information integration[J]. journal of digital information, 2003,4(9):78-115.
畢強,劉健.基于領域本體的數字文獻資源聚
合及服務推薦方法研究[J].情報學報,2017(5):
452-460.
夏翠娟. 數字圖書館的語義互操作及其實現[D].上海:華東師范大學,2005.
孫紹丹.數字人文視域下歷史報紙資源語義化知識組織研究[D].長春:吉林大學,2022.
邱均平,余凡.基于計量分析的館藏資源語義化理論研究[J].中國圖書館學報, 2012,38(4) :
71-78.
孟宇龍.基于本體的多源異構安全數據聚合[D]. 哈爾濱:哈爾濱工程大學, 2010.
HAL N, MARTINET L, MUHLENBACH F,et al. Metadata enrichment of multi-disciplinary digital library: a semantic-based approach[J]. 22nd International Conference on Theory and Practice of Digital Libraries, 2018,11057:32-43.
于曉繁.基于本體和元數據的語義標注平臺模
型與系統架構研究[D].濟南:山東理工大學,
2012.
陳紅彥,傅靜,黃濤.地方志資源的聚合方法與實現[J].國家圖書館學刊,2018,27(2):8-13.
李春明,薩蕾,梁蕙瑋.基于地方志資源的知識
聚合服務系統構建[J].圖書情報工作,2013,57(18):
44-47.
BAIR S. Linked data, demantic web, and libraries[J].
journal of library metadata, 2013 (13):2-3.
LOVINS D. Toward semantic metadata aggregation for DPLA and beyond[J].Technical services quarterly,2017,34 (2):199-204.
ALEMU G, STEVENS B, ROSS P. Towards a conceptual framework for user-driven semantic metadata interoperability in digital libraries[J].New library world,2012,113(1):38-54.
游毅.基于關聯數據的館藏資源聚合模式研究[D].南京:南京大學,2013.
劉健.數字圖書館資源聚合與服務推薦研究[D].吉林:吉林大學,2017.
金華.基于書目框架的期刊元數據語義聚合探究[J].圖書館工作與研究,2019(9):55-60.
畢強,王傳清,李潔.基于語義的數字資源超網絡聚合研究[J].情報科學,2015,33(3):8-12.
陳云.地方志資源知識融合方法與系統[D].武漢:華中師范大學,2018.
程靜,張毅.基于GIS的圖書館異構資源整合可視化設計[J].圖書館論壇,2018(10):47-54.
朱鎖玲,王明峰.GIS在方志類古籍開發利用中的應用初探[J].大學圖書館學報,2013(5):118-121.
黃濤,李玨,張浩,等.地方志文獻的可視化技術與方法研究[J].新世紀圖書館,2019(3):64-71.
孔凡晶 東北師范大學圖書館館員。 吉林長春,130024。
馮 雅 東北師范大學日本研究所副編審。 吉林長春,130024。
(收稿日期:2022-10-20 編校:劉 明)