999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

本體在LAM(圖書館、檔案館、博物館)數字資源整合中的局限、問題及解決路徑研究

2021-01-05 06:27:50穆向陽南京郵電大學中國科學技術信息研究所
圖書館理論與實踐 2020年5期
關鍵詞:關聯語義資源

穆向陽(1.南京郵電大學;2.中國科學技術信息研究所)

人類精神以及文化的崇高、博大與深遠都折射在歷史留給我們的信息資源之中,而圖書館、檔案館、博物館(Library,Archives and Museum,簡稱LAM)就是保存和提供這些歷史文化資源的重要機構。文化資源本身就具有其內在的統一性,從整體上獲取和使用這些歷史文化資源是用戶的內在需求,然而信息資源的內在屬性以及技術和管理手段等方面的不足,造成了LAM長期分立保存歷史文化資源的客觀必然性。隨著人類信息技術的飛速發展,打破資源分割、還原歷史以及文化的全貌、從資源的整體維度向用戶提供信息以及知識服務,已經成了時代發展必然而緊迫的需求。

為了更好地履行公共服務的職能,LAM紛紛將館藏資源數字化。數字化資源的先天優勢使LAM融合服務成為可能,這使得諸多學者開始研究LAM數字資源的整合問題。目前,相關領域研究早已從LAM數字資源元數據層的簡單整合過渡到深層次的語義化、智能化整合階段,如何基于LAM數字資源提供知識服務、智能服務已經成為當下的研究熱點。基于LAM融合的知識服務和智能服務均離不開一個重要的智能化組件——本體,但是,目前LAM整合領域對本體的研究還處于探索階段,已經構建的相關本體不能真正實現LAM數字資源的深入融合。因此,如何克服本體在LAM數字資源組織中的局限、構建真正適合于統一描述LAM數字資源的本體、在LAM資源整合過程中更好地發揮本體的優勢等問題需要更深一步的研究。

1 本體及其在LAM中的應用現狀

1.1 本體的概念和特征

本體(Ontology)這一概念源自哲學領域,屬于 “形而上學” 的分支。形而上學所關注的是現實的本質,也就是存在的本質。計算機科學領域借鑒這一概念,將本體看作是對特定領域之中某套概念及其相互之間關系的形式化表達;工程上的本體具有 “概念模型、明確、形式化、共享” 四個特征;作為知識系統的理論和組件,本體被廣泛應用于人工智能方面,它能夠同時指稱模型和現實世界。在信息資源組織過程中,本體已經成為了一種重要的知識組織工具,它能夠根據知識間的語義關系進行結構化組織,在一定程度上支持語義標注和語義互操作,支持知識推理,從而使資源整合上升到知識組織層面。[1]自然,本體也受到LAM合作領域的廣泛青睞,旨在通過本體技術實現LAM資源深度整合。

從構成上看,本體包括以下幾個基本要素:類、屬性、關系、函數術語、約束、規則、公理、個體(實例)、事件。類是集合、概念、對象的類型或者說是事物的種類,屬于個體(實例)的上一個層次;屬性主要用于描述實例或者類的特征和特點;關系用于刻畫個體以及類之間的關聯關系;約束、規則以及公理主要用來支持斷言以及邏輯推理;事件能夠反映屬性和關系所發生的變化。本體利用上述元素所構成的形式化結構來描述客觀世界所具有的樣貌、關系以及變化,將客觀世界的內容映射到計算機世界之中。從本體的特征上來看,它對客觀世界的表達具有一定的局限性。首先,本體包含的結構和關系是明確的、規則的、結構化的,它在描述客觀物質世界時具有一定的優勢,但是在描述人類精神世界時缺乏靈活性以及張力;其次,本體本質上屬于一種復雜的元數據,它仍然停留在所描述對象的外圍視角,對所描述對象內容上的揭示力度不足;最后,本體所體現的關聯關系有限且不夠靈活,仍有進一步完善的空間。但無論如何,本體都是一種關于現實世界或概念體系的重要知識表達形式,是語義網的核心技術,是LAM數字資源深度整合不可或缺的重要手段之一。

1.2 本體在LAM自身資源組織中的應用

1.2.1 本體在圖書館領域內的研究與應用

由于本體在信息資源組織中提供了不同于諸如MARC等簡單元數據的全新視角,因而引起了圖情領域的廣泛關注,本體已經成為將信息組織提升至知識組織的重要技術手段之一。國外學者如Fassnacht M[2]、Halaris C[3]等早在十多年前就開發了相應本體以解決元數據的異構問題,并試圖實現資源的語義化組織。在國內,歐陽寧以《中國圖書館分類法》(以下簡稱《中圖法》)為依據,旨在建立描述領域信息知識的本體,[4]張瑾基于《中圖法》的語義本體進行語義相似度計算,[5]黃金霞通過具體學科領域本體對資源進行組織,對比了第22版杜威法和第四版《中圖法》。[6]白海燕等以書目為研究對象,參照國外相關書目本體,基于形式形態多樣性、生命周期變化性、復合對象復雜性對書目進行語義化組織,并結合本體和關聯數據提高書目數據組織的知識化水平。[7]歐石燕提出了一個本體與關聯數據驅動的資源語義整合框架,實現了不同格式、文獻類型、數據集合中信息資源的語義整合,以及館藏資源與外界資源之間的鏈接與集成。[1]鄧仲華將本體應用于古籍版本這一特殊領域,針對古籍版本知識的數據進行本體設計,為古籍版本數據庫構建打下了基礎。[8]張修文等構建了基于本體、關聯數據的數字圖書館館藏資源融合框架,本體在其中的主要作用是解決不同元數據格式的語義互操作問題。[9]梁藝多等通過本體和關聯數據擴展信息資源之間的關聯關系,并利用圖書館資源進行驗證。[10]

1.2.2 本體在博物館領域內的研究與應用

相對于圖書館來說,國內博物館在本體方面的研究較少,各自領域內學者對數字資源組織與管理的關注方面也略有不同,這主要是由兩種文化機構在服務類型以及服務重點等方面的差異造成的。國外博物館領域對本體的研究相對較早,且非常注重本體在資源語義整合、檢索可視化等方面的創新與應用,如Ngamnij Arch-int等通過本體來解決博物館資源異構問題,提升資源整合的語義深度,提供可視化、個性化的資源檢索服務。[11]近年來,隨著數字資源在博物館中地位的不斷提升,本體越來越受到國內博物館界的重視。劉紹南為了提高數字博物館的資源組織水平和效率,將本體引入到博物館,并給出了數字博物館本體應用的總體思路。[12]李慧從技術視角提出了博物館知識庫的構建方法,旨在實現博物館知識的共享和重用,并實現了B/S架構的博物館知識庫系統。[13]陳明基介紹了數字博物館網格如何利用本體來實現分布異構博物館標本資源的整合,以及如何通過本體實現資源的檢索及瀏覽等。[14]章維亞等以藏品為中心構建了知識化結構模型,構建了博物館領域本體,通過資源的進一步關聯與揭示提升博物館服務的智能化水平。[15]總之,本體技術已經引起了博物館領域的關注,但相對于圖書館領域來說,其對本體的研究稍顯薄弱。

1.2.3 本體在檔案館領域內的研究與應用

本體在檔案領域內的應用處于起步階段,相關研究成果不多。國外在檔案組織與管理方面已經進行了本體應用上的嘗試,Daphne Kyriaki-Manessi等詳細介紹了 “EU Digital Plan 2009-2013” 項目中針對數字教育領域而構建的本體。[16]Goy等為了深入發掘歷史檔案文獻的文化價值,根據歷史檔案的語義,通過本體和關聯數據技術,建立了資源間的深度連接,并為用戶提供動態交互式的資源訪問機制。[17]我國檔案界對本體的研究尚處于理論探索階段。陳丹分析了本體理論應用于數字檔案館的建模流程,以期提升檔案信息檢索的智能化和人性化水平。[18]賈艷平等建立了基于本體論的數字檔案館知識檢索模型,并進行了性能測試,驗證了其檢索模型的可行性。[19]張正強全面論述了基于本體的電子文件元數據在智慧檔案館建設中的重要作用,同時指出本體在智慧檔案建設方面還處于探索階段,其具體建設和發展仍面臨諸多問題和挑戰。[20]

1.3 本體在LAM合作領域中的研究與應用

LAM擁有的數字資源屬于深度加工的標準化、結構化數據,因而元數據和本體在LAM資源整合中具有不可替代的重要作用。本體在LAM數字資源整合理論方面的研究也取得了諸多成果,早在十多年前,國外學者就開始嘗試通過元數據、本體建立更多的分類以容納更為廣泛的資源領域,使本地資源能夠通過更高一層的本體獲得廣泛的關聯和利用。但是標準化描述無法取代人類觀察事物時的視角多樣性,所以尋找一套完美的元數據資源描述方案是沒有意義的,不過仍然可以通過大量的背景本體來彌補標準化描述的缺陷。[21]趙生輝等在構建D-LAM框架的過程中探討了本體在LAM資源整合中的應用模式。[22]在本體的具體開發方法和技術上,也產生了非常多的理論成果,如Uschold等研究了本體構建最為全面的方法。[23]國內外學者對本體在LAM數字資源整合中的應用也進行了大量富有成效的嘗試,比如我國臺灣學者Ya-Ning Chen等以FRBRoo為一種本體方法來集成異構元數據,使語義和語義關聯語境化,并支持語義查詢。[24]陳艷以DC為例詳細介紹了其與CIDOC CRM本體之間的映射,旨在通過該本體實現LAM文化遺產資源元數據的集成。[25]Yoan Gutieérrez等從資源生命周期視角構建了一種本體模式,提供了LAM資源整合的示范性知識本體樣本。[26]

2 本體在三館應用中的特征分析及其對LAM合作的影響

2.1 本體在三館各自應用中的總體特征分析

目前,本體在三館各自領域以及LAM資源整合中已經有了不同程度的研究和應用,對其研究與應用的總體情況進行特征分析能夠發現本體在LAM資源整合中存在的局限和問題,為LAM合作中的本體構建指明方向。本體已經成為LAM數字資源組織中的一項核心技術,在LAM數字資源的整合過程中,本體也已經成為連接不同元數據的重要橋梁和樞紐,比如Europeana和DBpedia等已經通過本體成功解決了元數據的異構問題,并實現了資源的語義化組織。但是,作為一種結構化的描述,本體在文化資源的揭示以及組織上仍然存在諸多局限和問題。目前,三館的本體主要是為了解決各自領域內的問題而分別構建的,因而這些本體在LAM資源整合項目中具有較大的局限性,如果這些問題得不到很好地處理就很難在LAM數字資源整合項目中充分發揮本體的價值。

綜上而言,本體應用的總體特征可以概括如下。

(1)本體已經被廣泛用于三館的資源組織之中,它是相關領域進行知識表達、組織、服務以及重用等方面的重要核心技術。另外,三館也已經注意到本體和關聯數據技術的結合是LAM開展融合服務的重要基礎,也是館藏資源向外延伸和擴展的重要媒介。

(2)三館目前的本體構建均以各自領域內的專有理論、方法以及技術為基礎,這就降低了已有本體在LAM融合中的通用性以及可重用性。目前,大多LAM資源整合采用通用性比較好的本體,如CIDOC CRM、FRBRoo等,其中,FRBRoo(The object-oriented version of the FRBR,書目記錄功能需求的面向對象版)是一個為了抓取與表達書目信息潛在語義的正式本體,而CIDOC CRM是面向對象的概念參考模型,同時也是文化遺產的領域知識本體。2003年,FRBR/CIDOC CRM國際協調工作組將書目記錄的功能需求FRBR整合到CIDOC CRM之中,提升了博物館界模型的跨領域特性。

(3)三館構建的本體類型雖多,但仍無法擺脫實體資源的傳統印記。圖書館領域內本體構建的思路及類型主要包括:以圖書館元數據為基礎構建的本體、以文獻類型特征為基礎構建的本體、以分類法為基礎的本體、以圖書館服務為基礎的本體、特定領域本體、以服務為目的的本體等。同樣,博物館、檔案館有以藏品元數據為核心的本體類型、以服務為核心的本體類型,檔案館有以檔案元數據為核心的本體類型等。但是,基本上所有的類型都保留著其實體資源的傳統和印記,隨著資源的數字化,這些實體特征的重要性已經極大降低,有些已經成為了無關緊要的屬性。

(4)本體在LAM資源揭示的程度上存在很大差異,本體在揭示某些類型的信息資源時存在局限。圖書館資源主要以文獻類資源為主,其本體基本上都是把圖書、期刊等文獻資源看成是一個客觀世界中存在的物件,從文獻資源的外部特征對其進行描述,導致無法深入揭示文獻所包含的深奧而廣博的內容,因而本體對這種信息資源本身所包含的內容揭示程度遠遠不夠。同樣,檔案館也存在類似問題。但博物館則不同,由于博物館的資源以文物資源為主,屬于客觀世界中的物件,符合本體的本質特征因而能夠對其進行很好地揭示。

2.2 本體在LAM數字資源整合中的局限及影響

具體說來,本體在LAM數字資源整合中的局限主要包括以下三個方面:①目前構建的本體包含了很多LAM實體資源的屬性描述,限制了其資源整合的范圍,降低了通用性;②本體從資源的外圍對資源進行結構化描述,限制了資源描述的靈活性及內容揭示的深度;③本體在館藏資源向外界資源的擴展上存在局限,因而限制了資源的開放性。上述局限是由于本體自身及其所描述資源的內在原因共同造成的,這也為LAM數字資源整合提出了亟待解決的根本問題:①LAM數字資源描述的通用性本體問題;②對不同資源所包含具體內容的揭示問題;③LAM數字資源集與外界資源的連接問題。

圖1非常形象地描述了本體在LAM數字資源整合中體現出的局限及對應的理想狀態。圖1-1說明了LAM數字資源整合領域仍然缺少一套適合描述三館館藏資源的通用性本體,通用性本體的構建需要從根本上轉變現有的慣性思維,盡可能拋棄實體館藏資源屬性,更多從內容特征方面進行宏觀設計。圖1-2表明了LAM數字資源內容層次上的差異,尤其是圖書和藏品之間具有本質上的不同:如果把藏品作為一個獨立的資源進行描述,那么圖書實際上對應的是一個包括海量獨立信息的集合。因此,圖書與藏品實際上位于不同層次,需要從不同維度打開層級界限并建立多層次、多維度的關聯網絡。圖1-3反映了本體在LAM數字資源組織中開放性方面的局限,作為一種特殊類型的元數據,本體并不具有開放性的先天優勢,因而必須與其他資源組織技術合作,從而提升資源開放度,為用戶提供更為豐富的檢索結果。

圖1 本體在LAM資源整合中的局限及對應的理想狀態

3 解決路徑及建議

LAM數字資源合作最根本的基礎就是文化、知識以及價值的內在統一性,這也是三館資源整合內在動力的根本來源。對文化資源內涵價值的深度挖掘需要依托龐大的社會歷史文化背景知識體系,[27]而知識體系的構建正是LAM資源合作的目標之一。LAM資源是同一內涵在不同場館中的投射,分立狀態是由技術、管理等方面的歷史局限造成的,三館經過不同維度的沉淀,從不同側面反映著同樣的歷史以及文化。因而,從內容本身出發,以文化和知識的內在特征為依據對LAM資源進行整合更加符合人類的內在需求。然而,一方面,實體資源組織下的傳統印記仍然存在,數字資源很難全面發揮技術優勢,另一方面,技術往往受制于其具體的應用模式。因此,只有通過合理的技術架構與組合才能達到理想的效果。

3.1 通用性本體構建解決思路

LAM數字資源的整合并非三館資源的簡單集合與羅列,而是構建知識與文化的統一體,因而應該以資源的內容特征為主線構建LAM數字資源通用本體的框架結構(見圖2)。①以資源的內容特征為根本依據進行本體框架的構建。LAM數字資源整合項目均圍繞某一個主題進行,即使綜合性的資源整合項目也可以劃分為不同主題,所以,強調資源的內容特征也就意味著以主題為邏輯依據架構本體,盡可能忽略資源的外在屬性(如文獻類的出版年限、藏品類的材質等),資源的具體內容可以通過不同實例呈現。②LAM數字資源整合的本體并非將三館資源整合在一起的本體,而是在某一本體內的資源整合。LAM數字資源整合的目的在于通過不同的資源形式從不同維度展示同一主題,所以應該將不同資源整合到同一本體之中,不同資源在不同層面揭示不同的內容,比如文獻類資源要被截取為諸多片段鑲嵌到本體的不同層次。③借用已有本體提供更為豐富的外圍信息。三館在各自領域已經構建的本體更適合于描述其自身資源,可以將其合理地應用于整合知識體系,實現本體復用以及館藏資源不同層面的檢索。由于結構設置上的特點,這些本體能夠為資源體系提供詳細的外在屬性特征,豐富資源的外在信息,從而提升所構建知識體系的完整性。

由圖2可見,LAM通用本體有四個主要特點。①以資源的內容特征為核心,從主題角度出發構建LAM合作本體。②三館數字資源被無差別地安排在該本體結構的不同層次之中,其中有些是LAM數字資源所包含的知識元,而有些是資源本身,另外該本體還能充分利用已有的通用本體、領域本體等。③將三館各自領域內的元數據和本體通過檢索模塊進行整合,實現已有本體重用,利用本體推理向用戶提供不同層次的檢索結果。④LAM通用本體旨在基于LAM數字資源本身及所包含的知識元構建一個層次化飽滿的知識體系,并以此為基礎提供更具深度的知識服務。

圖2 LAM領域內的本體重用及通用性本體構建(以古生物化石為例)

3.2 跨層次資源組織解決思路

以主題為中心構建LAM通用本體需要突破元數據描述的資源層次,從而獲取更為具體的知識元。學界對知識元獲取進行了諸多研究。①知識元的自動抓取:首先,對實體資源進行預處理,刪除與主題無關的信息部分;其次,分段讀取預處理過的文本信息,對文本進行知識特征判斷,依照相應類型的知識元實體結構抽取復合知識特征的文本段落;[28]最后,對抽取的知識元進行加工存儲,如構建知識元本體等。②利用語義標簽通過自動與手動相結合的方式對知識元進行語義標注,并利用語義標簽對知識元進行組織。③協同編輯關聯表法。這種方法允許用戶在資源以及所包含的任何片段間建立語義聯系,并把這些聯系保存在一張或多張關聯表中,通過這種方式,用戶在使用資源的過程中就形成了協同效應,共同豐富知識間的關聯關系。這種方法實際上也提供了知識元的獲取方式,能夠用于LAM數字資源通用本體的構建。

圖3為LAM數字資源跨層次組織的基本思路,文獻類信息資源可以通過兩種方式獲取知識元:知識元的自動抽取、通過人工添加的語義標簽進行知識元的抽取。這些來自于LAM資源具體內容的知識元可以直接用于知識元檢索,也可以直接用于LAM通用本體的構建。另外,無論是文獻類信息資源還是視頻、圖片等其他類型的數字資源都可以通過協同編輯關聯表的方式建立知識元之間的聯系,[29]它是LAM通用本體的有效補充。這種方式可以自由建立信息資源片段以及信息資源任何層級之間的關聯關系,并通過協同編輯的方式動態地擴展知識網絡。這種方式和本體的有效結合可以極大地解決資源的深度揭示問題。

圖3 LAM數字資源跨層次組織

3.3 合作資源集開放性解決思路

為了將互聯網海量的信息資源和LAM合作數字資源集連接到一起并解決LAM數字資源的開放性問題,學界把主要著眼點放在了關聯數據這一技術之上。關聯數據(Linked Data)本質上是一種數據的發布形式,它通過一系列規范化的標準、協議以及格式(如URI、HTTP、RDF技術)將不同的數據對象連接起來,從而構建機器可讀富含語義的數據網絡。用關聯數據的方式發布資源主要包括如下步驟:在數字資源元數據的基礎上用規范化的RDF進行資源描述→按照關聯數據的四個基本原則發布數字資源→利用RDF所具有的機制建立數據之間的語義關聯。可見,關聯數據的確能夠讓LAM數字資源具有一定的開放性,但這種方法仍然沒有擺脫元數據或者是本體對資源描述的視角,而主要從資源的外部特征上建立館藏資源和外界資源間的聯系。因此,可以結合協同編輯關聯表的方法,合理擴充關聯表的結構和內容,將資源體系外的URI作為可連接的節點,從而極大豐富資源的開放程度(見圖4)。

圖4 LAM數字資源資源開放性解決思路

圖4 形象地反映了LAM數字資源開放性的解決思路,它結合了關聯數據和協同編輯表的雙重方法,旨在全面擴展資源的開放性。關聯數據方法是建立在元數據和本體基礎之上,而協同編輯關聯表則把所有的關聯關系保存在一張或多張表格之中,具有完全不同于關聯數據的關聯機制,它不需要對連接點指定URI,但可以連接URI,從而與關聯數據之間形成優勢互補。協同編輯關聯表通過資源附帶的表格記錄其與其他LAM數字資源及外網URI之間的關聯關系,從而與關聯數據一起共同提升LAM合作體系的資源開放度。

猜你喜歡
關聯語義資源
基礎教育資源展示
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
一樣的資源,不一樣的收獲
語言與語義
資源回收
奇趣搭配
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
智趣
讀者(2017年5期)2017-02-15 18:04:18
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 91精品人妻互换| 美女一区二区在线观看| 国产精品一区在线观看你懂的| 噜噜噜久久| 亚洲欧美成aⅴ人在线观看| 99这里只有精品在线| 国产一级片网址| 欧美第二区| 一区二区三区国产| 国产精品三级av及在线观看| 欧美日韩一区二区在线播放| 天堂网亚洲综合在线| 网久久综合| 亚洲精品久综合蜜| 国产精选自拍| 99热线精品大全在线观看| 日韩专区第一页| 国产日韩精品欧美一区喷| 久草性视频| 亚洲色偷偷偷鲁综合| 99热这里只有精品免费国产| 精品少妇人妻av无码久久| 欧美精品v| 国产精品999在线| 美女扒开下面流白浆在线试听| 美女毛片在线| 欧美爱爱网| 专干老肥熟女视频网站| 五月天综合网亚洲综合天堂网| 久久青青草原亚洲av无码| 动漫精品中文字幕无码| 国产资源免费观看| 成人午夜视频网站| 国产日韩欧美视频| 四虎永久免费网站| 午夜三级在线| 丰满人妻久久中文字幕| 亚洲天堂成人| 亚洲视频四区| 精品国产香蕉在线播出| 天堂在线亚洲| 国产网友愉拍精品| 国产欧美日韩资源在线观看| 亚洲人成成无码网WWW| 99精品这里只有精品高清视频| 9999在线视频| 99视频精品全国免费品| 国产成人综合网| 国产一级α片| 久久亚洲美女精品国产精品| 日韩欧美视频第一区在线观看| 成人国产一区二区三区| 国产熟睡乱子伦视频网站| 九色91在线视频| 精品国产免费观看| 成人福利在线观看| 不卡网亚洲无码| yjizz视频最新网站在线| 黑色丝袜高跟国产在线91| 尤物精品国产福利网站| 在线观看国产黄色| 亚洲中文久久精品无玛| 麻豆精品在线视频| 欧美亚洲一二三区 | 91久久偷偷做嫩草影院精品| 91啦中文字幕| 国产区成人精品视频| 亚洲成人免费在线| 91小视频在线播放| 国产一级裸网站| 亚洲侵犯无码网址在线观看| 久久久久久久久18禁秘| 亚洲天堂自拍| 色精品视频| 国产成人精品优优av| 最新国产高清在线| 国产精品男人的天堂| 波多野结衣第一页| 欧美日韩精品在线播放| 国产亚洲高清在线精品99| 亚洲欧美成人影院| 伊人久久久久久久久久|