周俊燁
(武漢大學信息管理學院 武漢 430072)
為了更好地滿足人們的精神文化追求,圖書館、檔案館、博物館(Libraries Archives and Museums,簡稱LAM)的數字資源整合工作迫在眉睫。在LAM的數字資源整合領域,英國、美國、德國和加拿大等國都采取了一些措施[1]:加拿大將國家圖書館和國家檔案館合二為一,建立了新的國家圖書檔案館(Library and Archives Canada,LAC),美國建立了世界數字圖書館(World Digital Library,WDL),英國組建了博物館、圖書館和檔案館理事會(Museums, Libraries and Archives Council,MLA)。 這 些LAM資源整合案例全部是為了滿足公眾共享社會文化資源的需求,改善圖書館、檔案館和博物館公共文化服務的現狀,結合互聯網手段與電子通信技術,構建的面向公眾的現代化服務平臺。我國在改善LAM數字資源整合現狀、提升公共文化服務水平方面也緊跟國際步伐,開展了部分實踐,如2002年推出的“全國文化信息資源共享工程”[2]。但這些實踐多局限于系統內部的數字資源共享,缺乏建立一體化服務平臺、實現跨機構數字資源整合的意識。基于語義網的關聯數據技術的產生,為LAM數字資源的整合帶來了新的契機。
筆者經調查發現,目前國內對利用關聯數據進行LAM數字資源整合的研究成果寥寥無幾,僅可找到2012年鄭燃等發表的《基于關聯數據的圖書館、檔案館和博物館數字資源整合研究》一文。國內基于關聯數據的數字資源整合研究,重點在圖書館,研究成果主要為對應用模式的探索。檔案館的相關研究成果,目前僅有石華于2015年發表的《基于關聯數據的語義數字檔案館框架設計研究》一文。博物館領域內的相關研究,亦僅有易軍凱于2014年的發表《一種基于關聯數據的數字博物館語義融合方法》一文。
為充分發揮關聯數據在LAM數字資源整合中的價值,筆者基于對關聯數據基本原理的理解,論述了關聯數據應用于LAM數字資源整合的可行性,構建了基于關聯數據的LAM數字資源整合框架,并通過具體案例分析,設計了基于關聯數據的LAM云服務平臺,最后,對基于關聯數據的LAM數字資源整合過程中可能存在的問題進行了論述。
關聯數據技術由“萬維網之父”Tim Berners-Lee于2006年提出,隨后互聯網協會(W3C)推出一種用于發布和聯接各種數據、信息和知識的標準,即開放關聯數據(Link Open Data,LOD)[3],推動了關聯數據在全世界的研究應用。
Tim Berners-Lee認為,關聯數據在理念上就是一箱箱的數據,能夠通過開放標準關聯在一起,從而萌發出新的價值和應用。從應用角度看,關聯數據可視為一種建立在Web網絡標準之上的結構化數據發布與共享方法[4]。這樣就可以將一個個資源孤島通過各種邏輯關系整合為統一的數據空間,提高Web網絡的智能化水平。關聯數據將各類實體和概念都轉換為機器可讀或可理解的方式,并用特定的邏輯關系將它們鏈接起來,再借助互聯網將結構化的數據發布出去,最終形成一個語義網。
關聯數據是通過構建對象間的關聯,最終將其整合成全球語義網的重要途徑。為了統一規范標準,Tim Berners-Lee規定了關聯數據發布的四原則:使用URI(統一資源標識符)作為任何事物的標志;使用HTTP URIs 以便任何人都可以訪問這些標志;當有人訪問某個標志時,使用RDF、SPARQL標準提供有用的信息;盡可能提供相關的URI以便人們發現更多的事物[5]。關聯數據的基本原則是在遵循URI復用原則的前提下,以HTTP URIs命名與解析機制為依據,以RDF數據模型為基礎[6]。這不僅是在關聯數據的運用中建立了明確的統一規范和實踐模式,還在關聯數據資源的聯系和整合中起到了不可替代的作用。
總的來說,以互聯網統一規范和基本框架為基礎的技術支撐提供了關聯數據構建的可能性和便利性,以語義聯系為基礎的邏輯性概念和便于人機交互的規范化語言保證了關聯數據語義問題處理的高效性,同時URI復用原則與RDF數據鏈接機制也在數字資源的整合實踐中作出了巨大的貢獻。
關聯數據因其可透過浮于信息表層的內容,深入資源內部包含的客觀實體和抽象概念間的聯系,以邏輯關系為基礎,借助靈活的語義鏈接機制建立數據間的聯接,將一個個信息孤島拼湊起來形成一個完整的語義網絡[7],而被視為在跨部門、跨領域情況下進行數字資源整合的有效方法。具體而言,關聯數據共享機制主要依靠URI復用原則、RDF鏈接機制和LOD發布,即提倡積極使用URI復用原則揭示資源內部的關系,并借助RDF鏈接機制讓資源對象間建立語義關聯,將結構化數據或文本內容以數據集的形式發布在萬維網上特別是開放關聯數據LOD中,使所有用戶都能夠通過網絡自由開放地檢索、存取與利用LAM數據。其具體共享機制見圖1。

圖1 關聯數據共享機制[8]
3.1.1 廣泛的合作基礎
圖書館、檔案館與博物館是收藏我國民族文化資源的主要部門, 它們有許多共同點與互補點,這是合作的基礎與動力。 第一,在機構屬性上,圖書館、檔案館和博物館同屬于公共文化服務機構,是記錄和傳承社會文化遺產的重要部門,在保留本國文化精髓,滿足民眾精神文化需求方面有著不可或缺的重要作用。第二,在資源屬性上,圖書館的圖書、檔案館的檔案和博物館的館藏實物,同屬于文化資源,都是本國文化所留存的社會文化遺產。第三,在服務方式上,三者都是以免費公益的方式,向全社會公眾開放,保證公眾公平獲取信息,致力于提高全社會文化素養,增強全民族文化軟實力[9]。所以,在目標、關注點相同且面臨共同挑戰的情況下,LAM的數字資源整合存在廣泛的合作基礎。
3.1.2 強大的技術支持
信息技術的高速發展為LAM數字資源整合奠定了技術基礎,突出體現在解決網絡異構問題上。網絡異構指的是計算機快速更新換代,各機構使用的網絡系統不盡相同,缺乏定時的交流與溝通,系統間因不能互相通信而形成一個個信息孤島,導致網絡異構環境的產生。我國圖書館、檔案館和博物館的現狀就是這樣,館際缺乏最基本的協調與合作,館藏數字資源的整合遙不可及。關聯數據的出現則能更好地解決這一問題。
3.1.3 元數據的整合和互操作的實現
LAM擁有豐富的數字資源且對元數據進行了規范控制,但由于管理體制和館藏發展政策等原因,各機構實施的元數據標準、遵循的協議都不同。如果LAM都以統一的關聯數據形式建設館藏資源,就能實現元數據的整合與互操作,促進館藏資源的充分利用,改善資源重復建設現象,進而提高LAM的知識服務質量。
3.1.4 先進的自身意識
在關聯開放數據(LOD)項目的推動下,目前有超過130 億條傳統網頁上的數據,例如維基百科、地理數據集和政府數據集等,已經自動半自動地轉換成了關聯數據,構建了龐大的數據網絡[10]。關聯數據的產生讓LAM三機構間、LAM和相關部門間的數字資源共建共享工作越來越簡單,LAM意識到建立與分布LAM關聯數據的責任,開始將注意點轉移到數字資源整合。LAM應當利用先進的存儲技術如云存儲技術,對以館藏資源為基礎建立的關聯數據進行處理,全方位多層次地滿足用戶多樣化個性化的信息要求,進一步提升用戶對公共文化服務的滿意度。
如圖2所示,館藏數字資源一般要通過5個基本流程才能實現整合。

圖2 基于關聯數據的數字資源整合過程[11]
幾乎所有LAM都進入了館藏數字化進程。為方便機器可讀或可理解,也為后期的整合奠定基礎,LAM在其數字資源整合過程中應做到以下幾點:第一,要以規范化的形式即RDF(資源描述框架)描述館藏數字資源,創建關聯數據。第二,為了實現館藏資源的開放共享,需要將創建好的關聯數據通過互聯網發布,發布過程要遵循關聯數據四原則,尤其提倡URI的復用原則以便于體現資源的內在關聯。第三,通過RDF語義鏈接機制建立所發布資源間的內外部關聯關系。內部關聯關系是指在形成RDF記錄時建立的與其他內容對象的關聯描述,而外部關聯關系的構建主要指的是建立一個數據庫。具體而言,關聯數據瀏覽器能利用RDF 機制為公眾提供對象間的瀏覽服務,把得到的RDF 對象進一步加工,建立能提供訪問服務的RDF 數據庫。這個數據庫既可以是虛擬數據庫也可以是實際數據庫。第四,為了提高用戶使用滿意度,適應用戶的使用習慣,需要將瀏覽界面做得更加友好、人性化。因此要根據用戶所需資源的類型,將與該對象相關的所有信息以可視化的形式展現給用戶,提供直觀便利的關聯數據瀏覽服務,即構建統一視圖。最后,為了避免關聯數據源在開放環境中因數據更改成丟失而造成斷鏈或錯鏈現象,必須定時掃描和修補關聯數據的URI鏈接,維護關聯數據網絡的正常運行。
語義網的誕生在一定程度上減少了用戶在利用數字資源過程中的不便,這些不便產生的原因主要是傳統的Web網絡由大量缺乏關聯的動態或靜態文檔構成。Web的智能化得益于數字資源的有效整合,而實現數字資源有效整合的一個重要方法就是建立數據之間的語義關聯,通過URI來實現語義關聯,提高計算機的數據處理效率,使得Web更加智能化[12]。

圖3 基于關聯數據的數字資源集成一般框架[13]
如圖3所示,基于關聯數據的數字資源集成一般框架由底部至頂部主要包括數據發布層、數據關聯層與數據集成應用層三部分。數據發布層是資源主體將來源渠道不同的數據用資源描述框架進行描述,并在遵循關聯數據四原則的基礎上將數據發布到萬維網上以便其他用戶瀏覽。數據關聯層是將不同領域內可能存在特定關聯關系的資源借助RDF鏈接機制聯系起來,形成一個數據網絡。數據集成應用層指利用關聯數據技術向用戶提供各種服務。
研究者以基于關聯數據的數字資源集成一般框架為基礎,結合各個機構的實際情況與差異點,創建了基于關聯數據的LAM數字資源整合框架(見圖4),主要分為數據及標引、關聯數據的創建和發布、關聯數據的具體應用三部分。

圖4 基于關聯數據的LAM數字資源整合框架[14]
3.3.1 LAM數字資源的元數據標引
數字資源的整合需要在充分考慮元數據的基礎上進行,不應該只是相關資源的簡單集合。通過關聯數據的方法,將基于元數據標引的數字資源進行聚合,首先需要利用URI對有關數據集合進行統一標識,其次就是數據集合的關聯過程,即將具有關聯關系的數據集通過RDF機制鏈接起來。數字資源的整合過程不是單純的分類或者按序調整,而是語義層面的深度關聯,從而形成以元數據為基礎的、高效的數字資源整合[15]。
3.3.2 關聯數據的創建與發布
LAM數字資源進行元數據標引后,需要利用規范格式即資源描述框架(RDF/XML)對數字資源特定的一些屬性作出轉換性的描述,建立HTTP URI以利于機器可讀和可理解,所生成的用來揭示資源對象內部關聯關系的RDF數據則要通過互聯網發布出去以供公眾瀏覽和檢索[16]。將RDF數據發布到互聯網上有兩種選擇,一是利用HTTP的內容協商機制,該機制能根據客戶端信息請求的類型決定返回HTML的表示形式還是RDF的表示形式;二是采用帶“#”號的URI方式定位到RDF中具體的數字資源[17]。除此之外,LAM在使用該數字資源整合框架時還要設置一個開放許可的訪問接口,用戶可以通過這個接口,用RDF標準化的檢索語言SPARQL和預定義函數進行相關檢索,還可不受空間限制調用本地數據。
3.3.3 關聯數據的瀏覽與檢索
關聯數據發布后,其應用除了互聯與維護外,最主要的就是瀏覽與檢索。用戶有這類需求時,既可以選擇專門的關聯數據瀏覽器,也可以利用專門的關聯數據搜索引擎。另外,由于關聯數據的RDF鏈接機制已將一個個資源孤島通過各種邏輯關系整合為統一的數據空間,用戶可以借助導航在不同數據源間進行訪問。目前,被廣泛使用的關聯數據瀏覽器有Tabulator Browser、Disco Hyperdata Browser、OpenLink Data Web Browser、Object-viewer、Marbles等,而常用的關聯數據搜索引擎有Falcons、Sindice、Watson、SWSE(Semantic Web Search Engine)、Swoogle 等[18]。
A市圖書館、檔案館、博物館分布在該市不同地點,其隸屬部門、館藏發展政策均存在較大差異,三者間并無合作。筆者現想將基于關聯數據的LAM數字資源整合框架在A市實踐,針對A市的基本情況提出了基于關聯數據的LAM云服務平臺設計方案。
4.1.1 分類法使用情況與特點
A市LAM館藏資源分類方法各不相同,圖書館分類以《中國圖書館分類法》為準,博物館的館藏大多為實物型,主要根據外部特征來分類,檔案館使用的分類依據是《中國檔案分類法》。
4.1.2 服務模式與特點
圖書館、博物館、檔案館因不同的館藏資源和服務目的而形成了不同的服務模式[19]:①圖書館所提供的服務有文獻資源流通服務、信息服務、讀者教育服務、技術服務以及數字圖書館服務等。②檔案館除了提供檢索、瀏覽、參考咨詢以及培訓等服務外,還提供保密保管服務,但開放服務有所欠缺。③博物館因其館藏資源的特殊性,向公眾提供參觀游覽、講解教育、數字博物館等服務。
4.1.3 資源建設情況與特點
圖書館、檔案館收集和保存的資源主要是文獻型資源,而博物館的資源則大多為實物型,部分資源可能因與各館都有關聯而被各館同時收藏。LAM如果不進行資源整合,就會造成館藏資源重復建設。
LAM云服務平臺即在對所有館藏數字資源進行整合的前提下,根據用戶的需求查找和檢索資源,并及時反饋給用戶的一站式檢索和服務平臺。用戶通過這個云服務平臺,不用輾轉三處,只需聯網就可以不受時間和空間的限制,享受LAM提供的公共文化服務。在關聯技術的幫助下,LAM所提供的信息服務也更加全面、準確和高效。
由圖5可知,基于關聯數據的LAM云服務平臺總體框架包括兩大模塊:LAM云服務平臺和LAM關聯數據處理平臺。LAM云服務平臺主要包括:LAM基礎設施與基礎平臺服務、LAM公共云服務平臺(公有云)、LAM本地云服務平臺(私有云)和LAM混合云服務平臺(混合云)。LAM的基礎設施與基礎平臺建設如計算機、數據庫、存儲系統等由各館自行負責,各館也可選擇由第三方承建。LAM公共云服務平臺主要負責各館數字資源共建共享,減少資源重復建設。公共云服務平臺還會定期發布一些關于館際合作、交流之類的信息,這些都由特定的工作人員負責。LAM本地云服務平臺主要包括本地應用平臺與應用系統,負責各館自身的館藏資源數字化、館藏資源發展、特色數據庫建設、向公眾提供宣傳教育和參考咨詢等。LAM混合云服務平臺主要任務是將LAM云服務平臺中的其他平臺整合到一起,進行統一的集成管理,實現公有云與私有云之間的互操作。

圖5 基于關聯數據的LAM云服務平臺總體框架[20]
LAM關聯數據處理平臺就是當用戶有了具體的信息資源需求,并向LAM云服務平臺提出請求時,LAM云服務平臺會用統一的格式將用戶請求轉換為機器語言,即對用戶請求進行資源描述,以便于機器更好地理解。系統會根據之前的資源描述在數據庫內進行查找與定位,一旦發現與用戶需求相匹配的資源,系統會對其進行預置,將資源位置記錄下來。在所有查找工作結束后,系統根據之前的記錄對所有符合條件的對象進行調度,最后,LAM將依據關聯規則知識庫創建的關聯數據發布在Web網絡上。
關聯數據最突出的優勢在于將之前沒有關聯但相似的對象聯系起來,并在進一步聚合后將與之有關的全部數據進行加工處理,最終以統一視圖的形式呈現在公眾面前。現有的關聯數據搜索引擎能夠提供不同數據源間隨意瀏覽的服務,但針對數據整合而采取的用戶交互模式并不適用且存在難點[21]。因此,LAM應采取有效措施,改進現有的用戶交互模式,如設置與互聯網瀏覽器類似的前進和后退功能或創建用戶能夠對當前視圖中的數據資源進行添加或去除的機制。
LAM 要利用訪問接口才能購買、租用或開發資源庫[22],假如這些資源庫接口都不開放的話,系統封閉,關聯數據就不起作用。為了保證數據源全面可靠,LAM要吸引更多的數據供應者為構建數據網絡提供服務。另外,LAM數字資源整合模式的開放許可標準必須在守法的前提下均衡考慮各方利益,為數據供應者發布關聯數據提供方便和動力。
關聯數據網絡面向用戶開放,且處于持續更新中,數據源若在開放環境或更新過程中發生改變、損壞或丟失,斷鏈或錯鏈隨之產生,系統也會發生錯誤,甚至無法運行。為了避免這種情況,減少不必要的人力、物力和財力損失,LAM需要實時監測數據源并對斷鏈或錯鏈及時采取措施,可以安裝監控插件,并安排專人負責管理,以更好地維護數據源之間的關聯。
LAM的數字資源都較為豐富,館藏資源的類型、數據存儲格式、元數據規范各不相同, 資源載體功能互異,描述方法不一,信息的選擇、組織和揭示有一定難度[23]。基于關聯數據的整合模式實施時,需要首先解決將關系性數據等非關聯性數據轉換為關聯性數據的問題。我們可以建立統一的元數據標準,采用統一的元數據對來自各館的數字資源進行編目,確保各館在資源組織過程中的一致性。
本文以關聯數據有關知識為理論基礎,探索將其運用于LAM數字資源整合的可能性,進而構建出一個整合模式,并通過案例假設讓該模式在A市試點,挖掘其與云服務的聯系,提出了云服務平臺的設計方案。當前的研究只集中在理論層面,該LAM數字資源整合模式與云服務平臺有待在實踐中進行相關效度檢驗,提出評測指標,才能進一步完善。但仍可作為LAM數字資源整合的一種可行方案,為今后的研究提供參考和借鑒。
(來稿時間:2018年4月)