徐晨飛倪 媛錢智勇
(1.南通大學管理學院 ,江蘇 南通226019;2.東南大學-莫納什蘇州聯合研究生院 ,江蘇 蘇州215123;2.南通大學圖書館,江蘇 南通226019)
基于本體的“江海文化”文獻知識組織體系構建研究
徐晨飛1倪 媛2錢智勇3
(1.南通大學管理學院 ,江蘇 南通226019;2.東南大學-莫納什蘇州聯合研究生院 ,江蘇 蘇州215123;2.南通大學圖書館,江蘇 南通226019)
〔摘 要〕運用本體工程思想 ,以收集到的各種類型 “江海文化”研究文獻為參考依據 ,對研究文獻的主要元素如作者、文獻名、機構、年代等以及文獻內容中的知識元如人物、地點、事件、建筑、方言、風俗、非物質文化遺產等進行提取與挖掘 ,構建 “江海文化”文獻知識組織體系 ,以期推動 “江海文化”的深化研究以及南通文化的傳承與發展。
〔關鍵詞〕江海文化 ;知識組織體系;本體構建 ;知識推理
南通東臨黃海,南瀕長江,地處江海交匯之處,是長江文化和海洋文化的交集點;南北文化在這里相互匯通 ,江淮文化和吳越文化兩大區域文化的在這里碰撞融合,加上南通固有的本土文化 ,形成了一種獨特的 “江海文化”。它是所處地域的物質運動、人物活動、意識形態等多方面在千百年的歷史長河中積淀與總結而來,具有獨特的文化特征、豐富的歷史內涵和深邃的人文精神。“江海文化”的內容和形態亦不是一成不變,隨著時間的推移,其文化組成因素及組合方式也在不斷深化和發展。自21世紀初以來 ,多位研究學者對 “江海文化”的內涵、特點、形態、題材、產業發展等諸多方面展開了探討與研究,這些研究也賦予了 “江海文化”更多更新的文化內涵。這些載體形式各異的研究文獻數量眾多 ,文獻與內容之間缺乏有效的知識關聯。鑒于此 ,本文提出構建 “江海文化”文獻知識組織體系的設想 ,為學者的科研工作以及普通大眾的知識普及提供有效支持。
現代知識組織的方法隨著信息技術的發展不斷改進 ,傳統的語義分類法、主題詞法、語義元數據等知識組織方
1.1知識組織
知識組織是指對事物的本質及事物間的關系進行揭示的有序結構 ,即知識的序化[1]。知識組織體系是知識組織的基礎,其本質是以知識組織方法為指導,通過一定的技術手段,將無序的數據或信息有序化,組織形成一個能有效獲取知識的網絡。在當今的網絡信息環境下,知識組織體系被賦予了新的內涵和更高的要求:對概念需要進一步細化,構成的概念體系應該還包含支持對概念的屬性、關系等多種性質的組織和描述,還應能滿足可視化表示、知識推理和語義檢索等功能需求[2]。傳統的詞匯表類和分類聚類體系等知識組織方法,僅僅提供了同類或同一主題詞匯的列表,強調的是概念集的創建和歸類,而缺乏對概念及其關系的多方面描述,對組織的知識不能進行網絡化和形象化的展示,也難以支持語義推理和知識檢索功能。因此,這些方法難以滿足現代化知識組織體系的需求。
1.2本 體
本體是一種新型的知識組織體系 ,不僅能準確規范地描述相關概念及其之間的關系,構造豐富的語義關系網絡 ,而且還具有知識推理功能,可以深度挖掘概念之間隱含的知識關系[3]。本體將傳統的樹形的知識組織體系結構轉化為網狀的知識結構,加強了不同類之間的關聯,促進了知識的集中、共享與利用。本體一般由類 (概念)、關系、約束、公理和實例五大部分組成[4]。“類 (概念)”是對客觀事物的抽象和規范化定義,是具有共同屬性的事物的集合。“關系”是概念之間的相互聯系,形式上是n維笛卡爾積(R1×R2…Rn)的子集,其包括定義域和值域兩部分,概念之間的關系是語義推理的基礎。其中 “屬性”是一種特殊的 “關系” (值域為數值或字符串時),它是對類及其內部實例本質和特征的描述。“約束”是關于概念的屬性或關系的一種規則。“公理”是一種約束條件 ,其值始終為真。“實例”是類中需添加的實體。圖1展示了本體的結構并列舉一個關于江海文化知識本體的具體示例 :“人物”和 “事件”是將江海文化文獻知識中的兩個頂層概念,根據實際需求,頂層概念可被劃分成不同詳盡程度的子概念,例如“史海先賢”是對人物基于年代的一個初步劃分,基于不同的人物性質可以更進一步劃分為 “藝苑大師”和 “江海英烈”等子概念 ;其中 “白毓昆”是 “江海英烈”中的一個實例 ,“白雅雨”是其固有的屬性 ,同時也具有參與過 “辛亥革命”的性質。

圖1 本體的組成和一個示例
采用本體構建的方法 ,對 “江海文化”文獻進行知識組織是一項復雜的系統工程 ,需要正確的構建指導方法、步驟和合適的開發工具輔助。目前,由于本體的應用領域眾多 ,不同學科或領域的知識又存在著結構和內容的差異 ,國內研究學界對新型知識組織體系構建的流程還沒有形成統一的認識和標準。本節結合歷史文化領域本體構建的特點與方法,制定了 “江海文化”文獻知識本體構建的思路(主要包括構建方法、構建工具和本體描述語言的選擇),并在此基礎上闡述 “江海文化”文獻知識本體構建的設計過程。
2.1本體構建方法
本體的構建方法是本體構建的靈魂,也是目前本體構建與應用研究的重點。然而本體的構建還沒有成熟的理論指導 ,在具體項目的需求條件下 ,不同領域的構建者采用的本體構建過程和方法也各不相同 ,因此目前還沒有標準統一的本體構建方法。國外已有一些較為先進的本體的人工構建方法,如七步法、METHONTOLOGY法、IDEF5法、TOVE法和骨架法但其使用的領域不同[5]。通過對上述幾種流行的構建方法的特點和適用范圍的比較發現 ,由斯坦福大學創建的七步法[6]適用于領域本體的構建 ,且較為成熟。因此本文將主要借鑒七步法來實現 “江海文化”文獻知識組織體系的構建 ,同時加以修改與補充,最終確定 “江海文化”文獻知識本體構建的具體步驟,其流程如圖2所示。
(1)明確領域本體構建的知識范疇。包含通過需求分析,明確本體構建的知識范疇和目標用戶;對領域知識特點分析,明確本體構建的意義。
(2)信息搜集與知識分析。明確本體構建的主要知識來源和文本參考依據,并對搜集到的知識進行整理和分析。
(3)類及其層次等級結構的劃分。具體包括:基于前人研究內容和劃分方法,確定江海文化文獻知識本體的核心類;按自頂向下的原則對進行進一步細分,建立層次等級關系。
(4)“江海文化”文獻知識本體的構建。借助本體構建工具構建類;定義本體的屬性 (包括對象屬性和數值屬性,定義域與值域等);添加實例;完善類與實例間的關系。
(5)基于本體的知識檢索及其可視化。基于構建好的江海文化知識本體實現檢索查詢并可視化展示。
(6)建立本體函數集和公理集。主要工作為 “江海文化”知識本體建立函數集和推理規則等,利用本體推理工具實現江海文化文獻的知識推理,挖掘其中的隱含知識。

圖2 “江海文化”文獻知識本體構建流程圖
2.2本體構建工具與描述語言的選擇
本體開發是一項浩大的知識工程,確定了 “江海文化”文獻本體的構建方法,我們需要選擇合適的本體開發工具來幫助完成本體開發工作。目前,在國外已經出現了眾多的本體構建工具,典型的包括OntoEdit、WebOnto、KAON和Protégé等[7]。通過對這幾種本體開發工具進行比較與試用 ,發現Protégé[8]可免費獲取 ,且使用簡便 ,同時它支持數據存儲、一致性檢測和語法檢測、支持插件擴展 (如可視化組件、推理引擎等)等功能 ,因此 ,最終確定采用Protégé作為江海文化文獻知識本體的開發工具。
對常用的幾種本體描述語言進行比較后,最終采用OWL本體描述語言對 “江海文化”文獻知識本體進行編碼。OWL描述語言提供了大量用于描述屬性和類的詞匯,具有更豐富的語義表達能力和推理能力[9],其可對所建立的概念層次體系和屬性進行形式化表示,便于機器的讀取和理解。
本節首先對 “江海文化”領域本體構建需求進行分析 ,明確領域知識范疇;對搜集到的文獻知識加以解剖和分析;抽取 “江海文化”文獻中的核心知識概念并確定每個概念的邊界,再由前人研究內容以及目標用戶需求設定本體的概念層次等級結構。最后,在上述工作的基礎之上,定義類的屬性及其約束 ,添加實例 ,進一步完善 “江海文化”文獻知識本體的內容。
3.1確定本體構建領域知識范疇
“江海文化”兼容了齊魯、荊楚、吳越三大古文化意蘊,包孕華夏大地南、北兩個文化大系的色彩,有里下河文化、胡逗洲文化、沙地文化三大文化圈共存共榮的生態環境[10],可以說,其具有豐富的歷史內涵和深邃的人文精神。近十幾年以來 ,已有多位學者對 “江海文化”的內涵、形態、特征、載體、題材、產業發展等諸多方面展開了研究,且已形成錯綜復雜的知識網。本體構建領域知識范疇即為前人對 “江海文化”研究的各類文獻知識綜合。
3.2“江海文化”知識搜集與知識分析
本課題相關資源搜集來源主要有4個方面:第一,各類印刷出版物。如南通地方史志、年報匯報資料、江海文化系列叢書、南通人物專著、南通文化年鑒、中國大百科全書、南通方言詞典以及相關報紙雜志等;第二,網絡信息資源。利用百度、谷歌等搜索引擎、維基百科、南通政府門戶網站、南通檔案局、濠濱論壇、江海論壇、南通網等站點進行信息檢索;第三,電子文獻數據庫資源。如期刊論文數據庫、會議數據庫、優秀博、碩士論文數據庫等;第四 ,相關領域專家的采訪與談話。
筆者通過以上信息源搜集到大量類型各異的 “江海文化”研究文獻。包括圖書47本,地方史志25本,工具書5本,來源于門戶網站和論壇的資源394條,在電子文獻數據庫中主題搜索得到的相關數目整理如表1所示:

表1 電子文獻數據庫中的文獻數量分布

從研究文獻的主題詞分布的角度來看,不同作者描寫的側重點各有所不同。由南通市江海文化研究會編撰的兩輯 《江海文化叢書》,將江海文化的精華分門別類 ,每本書都詳細闡述了一個主題 ,它較為系統地反映了南通不同歷史時期、獨具地方特質的重要遺跡、重大事件、重要人物等;南通市藝術研究所曹琳先生于2002年發表的 《江海文化論綱》中首次對 “江海文化”的內涵與題材進行了界定與闡述;南通職業大學的豐坤武教授以系列論文以及學術專著的形式對南通江海文化進行了橫向解剖和特色探索;黃振平、闞耀平、單澄、栗永芹、駱高遠等作者對江海文化的產業開發與發展進行了研究,此外還有大量學者對“江海文化”中提及的代表性人物、南通方言、建筑文化、民俗文化、音樂藝術、非物質文化遺產等展開了深入細致的研究。
對搜集到的 “江海文化”研究文獻進行分析,其知識來源應包含兩部分:其一為 “江海文化”各類文獻自身內容中蘊含的知識。南通經歷了漫長的成陸過程,在不同階段人們出于不同的原因移民至此,其直接導致文化來源的多樣性及相互交融的復雜性。在一定空間范圍內,組成“江海文化”的文化 “基因”將保持其特性長期共存 ,但同時隨著時間的流逝,組成江海文化的各種文化 “基因”的融合形式不斷發展 ,因此 ,“江海文化”是 “變”與 “不變”的結合體[11]。我們從歷史發展即時間角度和地理演變即空間角度對 “江海文化”研究文獻知識進行梳理,可把握 “江海文化”的發展脈絡,并挖掘其不同階段的人文歷史內涵。其二為與 “江海文化”研究文獻相關聯的人、物 ,或機構及其他內容。“江海文化”依存于獨特的地理、自然環境,而且隨著時間的流逝不斷發展著其歷史文化內涵 ,這些文化特征和人文內涵需要借助一定的載體表現出來。“江海文化”文獻中有大量的歷史文化人物、事件、地點、建筑及歷史文化藝術等,不同時間階段和不同類型的歷史文化是認識南通和 “江海文化”的切入點,對這些知識進行有效的組織和梳理,便于我們深入理解 “江海文化”內涵,探討 “江海文化”的特征以及傳承其優秀傳統和人文精神。
3.3創建核心概念集及其層次等級結構
3.3.1確定核心概念集
從 “江海文化”文獻內容角度分析,“江海文化”是南通的歷史積淀,不僅包含其依存的自然環境和地理位置 ,還包含其特有的人文歷史內涵。其中先民文化和戍邊文化給我們留下許多文化存遺和邊防要址;移民文化體現了人物和語言的交融;士大夫文化養育出一批批名人賢才;“搶灘”文化和市井民俗張揚著南通人的文化性格;戲劇文化將南通曲藝推向了國際平臺,此外還有廟會文化、建筑、服飾和飲食文化等等 ,無不體現出 “江海文化”的內涵。按照目前相關政府部門、研究學者及普通大眾對 “江海文化”知識的需求 ,對 “江海文化”內容知識進行提取與整理 ,最終確定將 “人物”、“地點”、“建筑” “時間”、“事件”、“風俗”、“方言”、“非物質文化遺產”作為 “江海文化”文獻知識的核心子類。
從 “江海文化”研究文獻角度分析,“江海文化”研究文獻的知識內容主要包含文獻的基本信息 (如文獻題名、主題、發表機構、館藏機構、發表時間、出版時間、引用時間、引用頻次等)和作者的相關信息 (姓名、貫籍、職稱、機構、研究方向等)。根據構建 “江海文化”文獻知識本體的實際需要 ,將上述信息可以主要劃分為 “文獻”、“作者”、“機構”以及 “時間”4個核心大類。其中 ,該部分的 “時間”和 “江海文化內容知識”中的 “時間”指的是同一概念 ,無須重復構建;同時 “作者”屬于 “人物”類型的一種 ,可以歸于同一核心概念集。因此,只需再添加 “文獻”和 “機構”兩個核心子類 ,即最終確定的核心概念為 :“人物”、“地點”、“建筑”、“時間”、“事件”、“風俗”、 “方言”、 “非物質文化遺產”、 “文獻”和 “機構”。(如圖3所示)

圖3 “江海文化”文獻核心概念集
3.3.2層次結構劃分
(1)“人物”類的劃分
南通被譽為 “中國近代第一城”,歷史上這里人文薈萃 ,名賢輩出 ,如范仲淹、文天祥、鄭板橋等在這里留下了不朽篇章和逸聞趣事;東吳名將呂岱、北宋大儒胡瑗、明代名醫陳實功、明末清初的文學大家冒襄、清代揚州八怪之一李方膺、清末狀元張謇,辛亥革命先烈白雅雨等歷代名人給南通歷史文化增添色彩;而近現代的這里人杰地靈、星光閃耀 ,神奇蛇醫季德勝、電影表演藝術家趙丹、國畫大師王個簃、刺繡藝術大師沈壽在南通發展史上刻下了光輝的篇章;進入新世紀,亦涌現了以國家國務院副總理劉延東、國際級運動健將仲滿、國家一級演員郁鈞劍等為代表的一大批江海優秀兒女為南通增光添彩 ,賦予其新的文化內涵。但 “人物”類在本文中不僅僅指那些 “江海文化”內容中的杰出文化人物,還包含研究 “江海文化”文獻作者。因此 ,“人物”類首先可劃分為 “文獻作者”和“文化名人”兩個核心大類,之后再根據不同的性質或從不同角度對核心子類進行細分。按時間角度進行劃分,可以把 “文化名人”進而劃分為2個子類 :“史海先賢”和 “時代精杰”。“史海先賢”按人物性質還可以進一步劃分為“藝苑大師”、“中醫藥家”、“江海英烈”和 “實業愛國者”4個子類。為了盡量保持劃分的子類目的均衡,我們將“藝苑大師”再進一步細分為 “繪畫”、“戲劇”、“電影”、“文學”、“技藝”5個子類。“時代精杰”按人物性質可細分為 “政界名人”、“軍隊干部”、“文體明星”和 “科技精英”4個子類,其中 “政界名人”和 “軍隊干部”都可以細分為 “地方”和 “中央”2個子類 ;“文體明星”細分為“文娛明星”和 “體育健將”兩部分 ;“科技精英”細分為“中科院院士”、“工科院院士”和 “其他科技人物”。“人物”類概念層次體系具體如圖4所示。
(2)“地點”類的劃分
本文的 “地點”概念不同于通用本體中的同名概念 ,指的是 “江海文化”文獻中的 “自然風貌”和 “行政區域”。因此 ,首先將概念劃分成上述兩個子集再在此基礎上進行細分。“自然風貌”包含南通的文化遺址或名勝 ,如狼山、劍山、濠河等 ,將其可以細分為 “山川”和 “河流”;“行政區域”根據地域的級別可以劃分為 “省”、“市”、“縣及以下”3個子類,主要用來組織不同概念集可能關聯到的地域名稱 (如圖5所示)。

圖4 “人物”層次結構圖

圖5 “地點”層次結構圖
(3)“建筑”類的劃分
南通是有名的建筑之鄉 ,舊時的南通建筑是以衙署為中心并圍以城墻的傳統建筑風格 ,從近代開始南通深受上海近現代建筑文化的影響 ,發生了城市空間結構的重大轉型。參考豐武坤教授在南通文化特色研究課題中對近代建筑的劃分方式,可以把 “建筑”類最終劃分以下幾類:“工業建筑”、“文化教育建筑”、“公共建筑”和 “居住建筑”[12]。其中本文中的 “工業建筑”主要指的是企業廠房 ;“文化教育建筑”主要包括 “博物館”、“校舍”、“寺廟”、“書局/書館”和“影劇院”5個部分 ;“公共建筑”主要包括 “園林廣場”、“金融商貿”和 “賓館飯店”3個部分;“居住建筑”主要包括 “住宅”和 “街道里巷”2個部分。(如圖6所示)

圖6 “建筑”層次結構圖
(4)“風俗”類的劃分
南通在唐朝是流放之地,因其獨特的地理環境,也曾成為避難逃生之地。隨著后來各地的移民遷定于此,各地的風俗文化在此相互融合,形成了獨具特色的南通風俗文化。傳統風俗習慣涉及社會生活的方方面面 ,在經濟生產、貿易往來、衣食住行、婚嫁喪娶等方面,都有各自的風俗習慣 ,具體來說 ,主要可從 “經濟風俗”、“日常生活風俗”、“禮儀風俗”3個方面進行研究[13]。此外 ,“經濟風俗”可繼續細分為 “農業生產”、“漁業生產”、“手工業生產”、“商業活動”和 “民間信貸”5個子類 ,“日常生活風俗”包含 “飲食”、“服飾”和 “出行”3個子類的內容 ;“禮儀風俗”可從 “生育”、“婚姻”、“壽誕”、“喪葬”4個子類加以歸納。(如圖7所示)

圖7 “風俗”層次結構圖
(5)“方言”類的劃分
“江海文化”是一種地域性文化 ,具有過渡地帶文化的顯著特征 ,這種特征可以直接體現在區域方言上。根據方言狀況實際調查研究的結果 ,可將南通 “方言”劃分為“如海話”、“南通話”、“通東話”和 “海啟話”4個部分[14]。4個方言小片相互影響而相互差異 ,我們可以從“詞匯”、“俗語”、“諺語”、“歇后語”4個角度加以歸納整理,從而分別對上述4種方言進行分析。(如圖8所示)

圖8 “方言”層次結構圖
(6)“非物質文化遺產”類的劃分
“江海文化”的地域特征不僅體現在物質文化遺產上 ,同樣也體現在非物質文化遺產上。根據 《世界遺產公約》第一條規定,物質文化遺產包括歷史文物,歷史文化建筑和歷史文化遺址 ,這3類在上文中基本都已涉及并加以整理歸類。對非物質文化遺產的分類和研究,主要參照黃振平主編的 《江海記憶——南通市第一批非物質文化遺產概覽》[15],將南通首批39個市級保護名錄劃分為 “傳統醫藥”、“傳統戲劇”、“傳統技藝”、“傳統美術”、“傳統舞蹈”、“傳統音樂”、“曲藝”、“民間文學”和 “其他類”9個子類。(如圖9所示)

圖9 “非物質文化遺產”層次結構圖
(7)“事件”類的劃分
“江海文化”文獻中記載的大多是軍事和經濟事件和文化時間,通常從歷史發展的階段加以描述,其中穿插著一些人物、地點等相關信息。從時間角度對 “事件”進行劃分,以轉折性事件為劃分界限,可以劃分為 “南北朝以前事件”、“隋唐五代時期事件”、“宋元時期事件”、“明清時期事件”和 “近代時期事件”5個子類。但是這樣會導致“近代時期事件”的實例過多 ,各子類目的實例數目不均。因此 ,我們該部分不做細分 ,可以通過與 “時間”直接關聯,使時間作為另一種導航方式進行直接檢索。
(8)“時間”類的劃分
這里的 “時間”概念與通用本體中的概念相同,因此可以直接添加實例,無須做進一步劃分。
(9)“機構”類的劃分
從 “江海文化”相關研究文獻角度出發,我們主要研究的是作者、機構、文獻以及時間之間的關系,按照本體構建需求主要劃分為 “作者機構”和 “文獻機構”,“文獻機構”按屬性可進一步劃分為 “出版機構”、“發表機構”和 “館藏機構”。(如圖10所示)

圖10 “機構名”層次結構圖
(10)“文獻”類的劃分
按照文獻研究的目的,從文獻的類型對搜集到的 “江海文化”相關的研究文獻進行細分,主要可以將 “文獻名”劃分為 “圖書專著”、“地方史志”、“期刊論文”、“學位論文”、“會議論文”、“報刊雜志”、“工具書”和 “網絡資源”8個子類。(如圖11所示)

圖11 “文獻”層次結構圖
3.4“江海文化”本體構建
3.4.1構建類及其層次體系結構
選擇Protégé本體構建工具,遵循自頂向下的本體構建原則構建 “江海文化”知識本體,并利用OWL語言本體描述語言對 “江海文化”文獻知識本體進行編碼,轉為計算機可識別的語言并對本體加以存儲。最終在Protégé界面中可以查看到如圖12所示的整體層次體系圖。

圖12 “江海文化”文獻本體層次結構
3.4.2定義屬性及其分面
屬性及其約束與限制確定取決于每個概念自身的特性以及與其他概念集之間的關系。本體的屬性分為數據屬性和對象屬性兩種類型。數據屬性又稱為概念的內在屬性 ,描述的是概念自身特性,其值域只能是某一數據類型,如string、float、int、any等。對象屬性亦稱為概念的外在屬性,描述概念之間的相互聯系,可以將不同的類,類與實例相關聯 ,是本體推理的重要語義基礎。如 “人物”的對象屬性 “血緣關系”描述了兩個人名類實例之間的父子、兄弟、祖孫等關系 ,“參與事件”將 “人物”類和 “事件”類相關聯 ,“出生地點”將 “人物”類與 “地名”類相關聯 ,“出生/去世/任職時間”將 “人物”類和 “時間”類相關聯等等 ,通過創建這些對象屬性可以使相同的或不同的概念聯系到一起 ,概念集以及其相互之間的關系共同搭建起本體的知識網絡。表2列舉了 “江海文化”文獻本體中主要屬性和關聯。
3.4.3添加實例
通過對所搜集到的 “江海文化”文獻知識的整理研究 ,采用人工評估取舍的方法,最終錄入了共880個實例,其中人物類實例220個,事件類40個,地點類23個,建筑類116個,時間類69個 ,方言類53個,非物質文化遺產39個,風俗類110個,文獻類143個,機構類67個。表3列舉了 “江海文化”文獻知識本體中的部分實例。

表2 屬性關聯結構表

表3 “江海文化”文獻知識本體中實例舉例
確定了類的屬性及其值域與定義域等約束,則在實例編輯界面可直接添加每個實例的屬性關系,具體如圖13所示,通過設置這些關系為后續的知識推理做好鋪墊。此外 ,還可在編輯界面中對所添加的實例做附加說明 ,使本體庫的知識內容更加豐富與完整。

圖13 Protégé中的實例編輯界面
3.5知識檢索和可視化展現
在Protégé中打開SPARQL查詢面板,通過輸入相關查詢語言即可查詢 “江海文化”知識本體中的語義關系。例如查詢通過屬性 “創作了”關聯起來的文獻及文獻作者,其結果顯示圖部分如圖14所示:

圖14 文獻創作關聯查詢結果
同時利用Protégé中的Ontograf插件可以網狀結構圖的形式形象化展現父類與子類間的關系以及實例之間的關聯。例圖15中可以鮮明地看到 “江海文化”知識本體中 “人物”類與其子類之間的從屬關系 ,“文獻作者”的所有實例以及不同類之間的相互關聯。
基于本體的 “江海文化”知識組織體系構建工作基本完成后,我們可以利用建好的本體庫進行知識推理挖掘。本體中通過不同的屬性建立了多種多樣的聯系,有些關系可通過可視化關系圖清楚地展現出來,而有些關系卻隱藏其中 ,需要利用一定的推理思維。例如 “江海文化”文獻知識中的建筑的同區域關系 ,“水繪園”和 “定慧禪寺”歸屬于不同的子類的實例 ,但都有坐落于 “如皋市”的屬性 ,及兩建筑歸屬于同一地理區域。通過設置推理規則,可以將這種關系直接體現出來。具體的方法即在Protégé中附加Jess推理引擎,通過構建SWRL推理規則,實現 “江海文化”文獻知識推理。本實例中,判定兩建筑歸屬于同一地理區域的SWRL規則代碼如下:

將上述SWRL規則與本體庫實例通過SwrlJessTab轉換
為Jess規則和實例后,調用Jess推理機進行推理,再將推理后的實例與關系轉換為OWL語言添加到本體庫中。具體處理過程如圖16所示。

圖15 可視化關系例圖

圖16 SWRLJessTab編輯處理界面
打開SPARQL查詢面板輸入以下查詢語言,即能推導出所有隱含的同區域建筑。
SELECT?建筑?同區域建筑 ?坐落地點
WHERE{
?建筑:同地理區域 ?同區域建筑 .
?建筑:坐落于 ?坐落地點 .
}
部分查詢結果如圖17所示。
可見,不同的建筑和通過同一地理位置相互關聯,通過知識組織和推理有助于發現同一空間區域的建筑分布 ,對同地域的建筑進行關聯分析進而有利于對該地域的建筑特點及建筑歷史的研究。
再比如,通過構建相應的推理規則可以整理出那些同年出版或發表的文獻,圖18是利用SPARQL查詢出的同年出版的文獻結果。
從時間角度對研究文獻進行梳理 ,有助于發現同一時間域內大多研究者對 “江海文化”這一領域的研究重點;同時通過對研究文獻相關知識的推理,還可直接歸納出同研究主題的作者、同一作者在不同時間內對 “江海文化”的主要研究范圍以及作者歸屬同機構等更多隱含的關系。通過將這些隱性知識顯性化 ,不僅可以豐富 “江海文化”知識本體的內容 ,同時也有助于拓展研究者的研究視角和思路,深化其主題研究。
本文基于本體工程的相關理論和方法對 “江海文化”這一獨具特色的地域性文化進行研究 ,在參考前人的研究內容以及本體構建需求基礎上 ,以 “江海文化”研究文獻知識為素材 ,抽取主要概念并對概念的層次結構進行劃分 ,創建不同概念的屬性、關系及實例 ,最終完成了基于本體的 “江海文化”文獻知識組織體系構建工作,在此基礎上實現了 “江海文化”文獻實例知識的關聯分析與推理查詢。本研究將有益于推動知識組織方法在地方文化領域的數字化研究 ,推動地域傳統文化的傳承與發展。
此外,本體構建研究在國內尚未形成統一的認識和構建標準,其相關概念、屬性以及關聯規則仍需各領域專家參與協商與界定。本文的局限之處在于,雖參考了大量文獻資源但構建過程中仍難免無法精確把握所有的概念分類和屬性界定標準。筆者認為,知識組織體系構建是一項需多方智慧合力參與的工作,本文亦是拋磚引玉 ,希望 “江海文化”研究領域的專家學者能加強交流、協作,共同完善本課題研究成果。

圖17 同地理區域建筑的查詢結果

圖18 同年出版的文獻查詢結果
參考文獻
[1]蔣永福 ,付小紅 .知識組織論 :圖書情報學的理論基礎[J].圖書館建設 ,2000,(4):14-17.
[2]李寧 ,宋文 .對于知識組織體系概念以及構建模式的一些思考[J].圖書情報工作 ,2005,49(10):37.
[3]馬文峰 ,杜小勇 .關于知識組織體系的若干理論問題 [J].中國圖書館學報 ,2007,(2):13-17.
[4]T.R.Gruber.A Translation Approach to Portable Ontology Specifications[J].Knowledge Acquisition,1993,(5):199-220.
[5]廖作芳.《三國志》歷史領域本體的構建與推理研究 [D].武漢 :華中師范大學 ,2011:18.
[6]Noy N F,McGuinness D L.Ontology Development 101:A Guide to Creating Your First Ontology[R].Stanford:Stanford Knowledge Systems Laboratory Technical Report KSL-01-05 and Stanford Medical Informatics Technical Report,2001.
[7]劉宇松 .本體構建方法和開發工具研究[J].現代情報 , 2009,29(9):17-24.
[8]Ian Horroeks.OWL:A Description Logic Based Ontology Language. In:Logic programming.Springer Berlin:Heidelberg,2005:1-4.
[9]OWL Web Ontology Language Guide[EB/OL].http:∥www.w3. org/TR/2004/REC-owl-guide-20040210/,2004-02-10.
[10]曹琳 .江海文化論綱 [J].藝術百家 ,2002,(1):125-127.
[11]陳金淵 ,陳炅(校補).南通成陸[M].蘇州 :蘇州大學出版社 ,2010:江海文化總序2-3.
[12]豐武坤 .南通文化研究 [M].南京 :南京大學出版社 ,2010:214-218.
[13]冒健 .南通文化選講[M].南京 :南京師范大學出版社 ,2011:151-171.
[14]陳昌海 ,閆曼,余建華.南通方言分區研究 [J].廣播電視大學學報 :哲學社會科學版 ,2010,(3):101-105.
[15]黃振平 .江海記憶——南通市第一批非物質文化遺產概覽[M].西安 :陜西人民出版社 ,2009.
(本文責任編輯:孫國雷)
?信息資源開發與利用?
Knowledge Organization System Construction of“the River-and-Sea Culture”Documents Based on Ontology
Xu Chenfei1Ni Yuan2Qiang Zhiyong3
(1.School of Management,Nantong University,Nantong 226019,China;2.Southeast University-Monash University Joint Graduate School,Suzhou 215123,China;3.Library,Nantong University,Nantong 226019,China)
〔Abstract〕This paper applied the method of ontology engineering to the organization of“the River-and-Sea culture”documents knowledge.To develop the knowledge organization system,the paper extracted the major elements of research literature such as author,document name,agency,year as well as the knowledge element in the content of the document like people,places,events,architecture,dialects,customs and non-material cultural heritage,based on various types of“the River-and -Sea culture”research documents the paper have collected.The paper respected that it will promote the study of“the Riverand-Sea culture”and accelerated the heritage and development of the culture of Nantong.
〔Key words〕the River-and-Sea Culture;knowledge organization system;ontology construction;knowledge reasoning
作者簡介:徐晨飛 (1981-),男 ,講師 ,研究方向:數據挖掘 ,數字人文。book=63,ebook=65法不足以完全滿足數字知識組織的需求。本體是對領域知識的抽象和規范描述,可以準確描述概念的含義并構建豐富的知識關聯,具有較高的邏輯推理能力,有利于挖掘概念間的隱含關系。本課題將本體構建作為文獻知識組織的技術和方法 ,不但可對 “江海文化”的空間構成與歷史演進進行梳理 ,還可推動 “江海文化”研究的深化與文獻資源組織方式的創新。
基金項目:南通市哲學社會科學研究資助基金項目“基于本體的 ‘江海文化’文獻知識組織體系構建研究”(項目編號 :2015CNT027)研究成果之一。
收稿日期:2015-08-29
〔中圖分類號〕G253
〔文獻標識碼〕A
〔文章編號〕1008-0821(2015)10-0062-10
DOI:10.3969/j.issn.1008-0821.2015.10.012