陳 夢,孟 放
(中國傳媒大學 信息工程學院,北京100024)
?
面向互聯網資源共享的元數據收割系統研究
陳夢,孟放
(中國傳媒大學 信息工程學院,北京100024)
隨著網絡技術的飛速發展,互聯網資源的有效管理與共享成為亟待解決的問題。針對資源元數據進行的收割操作可實現對音視頻等網絡資源的共享,提高資源利用率。首先介紹基于OAI-PMH協議的元數據收割流程及其應用現狀,之后設計并實現了一個用于網絡資源元數據收割的簡單示例系統。該系統在MySQL5.6和VC環境下開發,簡單實用,在一般配置計算機之間即可實現元數據收割功能,對該系統的測試,可驗證各項基本功能實現有效。并且通過此示例系統的運行可看出,基于OAI-PMH協議的元數據收割系統可作為互聯網資源共享與管理的有效途徑之一。
網絡資源共享;OAI-PMH;元數據收割
隨著計算機與網絡的迅速發展,人們的生活已經進入了互聯網時代。從傳統途徑獲取的資源已經無法滿足人們工作生活的需求,越來越多的人開始在網上搜索、傳播資源。因此,隨著網絡上的資源數量呈幾何級數增長,海量資源的有效管理、共享與簡潔高效的展示成為人們亟待解決的問題。對于網絡視頻、音頻等大數據量的資源直接進行傳輸與檢索,無論在成本或是技術的實現上都是不現實的。因此,為了提高網絡中各類資源的利用效率,出現了許多對于網絡資源元數據的描述與操作管理標準。
針對元數據的收割操作是實現各地互聯網數字資源的開放式共享的關鍵技術。在收割系統中,中心數據庫可實時和定時向節點數據庫分發與收割元數據和對象數據,各數據庫采用完全分布式的架構,以網絡傳輸和元數據相關標準為規范,對于數字資源采用元數據的形式進行描述,其目的是實現元數據資源和對象資源的統一管理和共享式檢索。目前,國際上比較通用的對于網絡資源共享的互操作標準中,OAI(Open Archive Initiative)[1]得到了廣泛的認可與應用。OAI意為開放文檔先導,目標是尋求各種結構數據庫間數字資源的共享式檢索。在1999年,美國圣達菲舉辦的“電子出版文獻互操作”會議中提出。2001年4月,OAI組織發表了OAI-PMH(Open Archive Initiative Protocol for Metadata Harvesting)元數據收割協議[2],該協議針對資源元數據的互操作給出了可實現框架。在推出后的幾年,以其簡單性、開放性、可操作性的優勢得到了廣泛應用。
目前已有基于OAI-PMH協議的元數據收割系統,多數應用于數字圖書館或高校間進行文獻資源的共享,在網絡資源管理方面應用較少。這些系統大部分利用開源軟件搭建系統與數據倉儲,普遍規模龐大且功能繁雜,并不適用于需要實現簡潔共享的互聯網資源管理。針對這個問題,本系統設計作為用于網絡資源元數據收割的簡單示例系統,脫離開源代碼,深入分析OAI-PMH協議并以其核心功能為基礎,在MySQL5.6和VC環境下自行開發,簡潔實用,在一般配置的計算機間即可實現元數據收割功能并測試有效。通過對此示例系統的運行測試可看出,該系統可簡單有效地解決互聯網資源元數據的收割問題,為解決網絡資源管理與共享的問題提供了一種可行思路。
OAI-PMH是能獨立于應用的、規范實現網絡環境下元數據收割功能的互操作協議標準。根據職能責任不同,協議將元數據互操作雙方劃分為數據提供者(Data Provider,DP)和服務提供者(Service Provider,SP)兩類。數據提供者作為發布元數據的管理系統,是元數據資源的擁有者,在目前的應用模式下可以是嵌入式的元數據倉儲、資源發布系統等;服務提供者是以OAI-PMH為基礎獲取元數據來建立增值服務的一方,可以是資源門戶系統、資源檢索系統,也可以是供其他搜索引擎獲取數據的元數據倉儲系統[3]。
OAI-PMH收割系統框架如圖1所示,數據提供方和服務提供方通過OAI請求和OAI響應來實現通信與數據傳輸。OAI請求根據服務提供者的需求而定,由SP發出請求獲取DP倉儲中的信息,進而收割得到所需元數據資源。數據提供方根據OAI請求做出響應,從數據倉儲中把所需元數據資源以OAI響應格式向服務提供方提供。OAI-PMH協議規定了建立在TCP/IP協議基礎上的網絡連接,并根據不同的收割內容和范圍定義了6個請求動詞[4-5]:
1)GetRecord:獲取特定唯一的元數據記錄。
2)Identify:獲取元數據倉儲的基本信息。
3)ListIdentifiers:返回倉儲中記錄頭部的標識符。
4)ListMetadataFormats:返回數據庫中可能的元數據格式,檢索特定格式的元數據資源。
5)ListRecords:用于從倉儲中獲取多條完整的記錄。
6)ListSets:返回倉儲內的結構信息,被用于進行選擇性收割。

圖1 OAI-PMH協議收割系統基本框架
以這6種命令動詞不同組合、不同參數設置實現全部收割、增量收割和單條收割等不同收割模式并設定不同的收割周期。系統框架中的OAI請求與響應都以XML格式進行傳輸。并且DP與SP之間為多對多的關系,服務提供者作為收割方,可同時收割多個機構中的元數據資源,而數據提供方可作為中心數據庫,向多個節點數據庫進行分發操作。
OAI協議推出以后,以其配置簡單、源碼開放等優點,得到了許多組織與科研機構的認可,尤其在數字圖書館領域得到了廣泛響應與使用。包括數字圖書館聯盟在內的一些圖書館、大學和信息研究所機構都資助并參與了許多關于OAI的項目。在國外方面,美國目前最大的國家科學數學圖書館NSDL(Nation Science Digital Library)便是基于OAI-PMH協議構建元數據倉儲,將全美各州元數據庫資源收割匯總到國家圖書館數據庫中。跨庫文檔檢索系統中的CRS(Collection Registration Service)負責記錄所有的數據提供者,描述他們的倉儲信息、OAI服務和收割信息、收割時刻表和日志。自動周期收割上百的數據提供者。NSDL從113個集合收割元數據,可最終檢索上百萬條的元數據,其中小部分因沒有URL無法獲取對象資源。該平臺每年1 000次以上的自動收割操作中,仍存在由于數據提供方XML數據錯誤和違反協議規范產生的收割失敗可能[6]。
由于OAI-PMH協議源碼開放的優點,大部分機構使用開源平臺實現元數據的收割和檢索操作,其中ARC[7]是Old Dominion大學開發的一個基于OAI-PMH的聯合搜索服務開源平臺,它包括收割器、搜索引擎、一個簡單的搜索界面,能夠支持一個專業組織的擴展和定制。目前ARC提供統一界面可對約六百萬條收割的元數據進行檢索服務。此外,麻省理工大學開發的Dspace系統[8]和針對數據提供者構建的OAICat[9]等開源軟件[10]的廣泛應用,減小了OAI協議實現的難度和成本。
在國內方面,近年來越來越多的項目開始采用OAI協議來實現元數據的互操作。其中,國家科學數字圖書館采用OAI協議提供的資源檢索服務,實現了“科學數據庫跨庫搜索引擎”。北京大學中文古籍數字圖書館也采用了OAI協議來發布和檢索估計拓片的元數據信息[11]。OAI-PMH協議的應用雖越來越廣泛,卻仍局限于各數字圖書館與高校間,對象數據也以文獻資料為主,對于互聯網音視頻元數據收割方面的應用還相對較少。
3.1系統框架設計
在對元數據收割協議OAI-PMH進行研究后,針對互聯網數字資源的互操作,以OAI-PMH協議的系統框架與收割模式為基礎,結合實際需要與系統規模,設計了本課題所需的互聯網資源共享元數據收割系統的基本架構。如圖2所示,要實現數據的共享,解決數據的傳輸問題,首先要實現基本的物理連接,選用的是客戶端/服務器(Client/Sever,C/S)模式,建立基于兩臺服務器之間的連接。建立連接后便可進行文件的傳輸,由元數據收割協議中規定的數據提供者作為客戶端,服務提供者作為服務器端。本系統中客戶端作為網絡資源的擁有者,服務器作為向數據擁有者進行收割的一方為基礎搭建的架構。系統主要由服務器、客戶端連接通信模塊、XML文件解析生成模塊、倉儲數據庫連接查詢模塊3部分組成。其中本系統倉儲內元數據結合網絡數字資源對象數據特點,考慮系統通用性需求,選取在DC格式基礎上擴展的元數據格式。

圖2 互聯網資源元數據收割系統框架
3.1.1服務提供者
在服務器與客戶端建立通信后,進行收割一方的服務提供者實現框架如圖3所示,首先由元數據收割器發送相應的收割命令請求所需的元數據資源。在本系統中定義了3個收割命令動詞,分別實現元數據資源的全部收割、單條收割和增量收割功能。3個命令動詞分別是:
History_mass,即獲取數據提供者倉儲內的全部元數據信息。
History_single,即獲取數據提供者倉儲內特定的一條元數據信息。Identifier為一個被要求提供的參數,指明倉儲中條目的唯一標識符。數據提供者根據傳來的唯一標識符返回特定元數據條目。
Fresh_mass,即獲取數據提供者倉儲內繼上一次收割結束后新增的元數據信息。參數Lasttime為最后收割時間戳,指明倉儲內上一次收割結束時間。數據提供者根據最后收割時間戳返回此時間截點后新增的元數據條目。

圖3 服務提供者實現框架圖
收到數據提供者返回的XML格式的收割響應后,對其進行解析,去掉文件中的結構化標簽,保留元數據信息并存入本地數據庫。通過向用戶提供檢索、展示等增值服務,服務提供者可以對倉儲內收割到的元數據進行有效利用。
3.1.2數據提供者
數據提供者作為資源的擁有者,主要作為元數據發布方。其實現框架如圖4所示,數據倉儲中的元數據格式定義結合了網絡數字對象數據的特點,在DC都柏林元數據的基礎上進行了擴展,包括唯一標識符、題名、主題、格式、創建者、上載時間戳等12個必要元素。數據提供者獲得收割命令,解析后將倉儲中符合要求的元數據條目打包成一個XML格式的OAI響應返回。

圖4 數據提供者實現框架圖
3.2系統模塊實現及運行測試
3.2.1系統模塊實現
系統從實現的角度可以劃分為3個模塊,分別是Socket通信模塊、XML文件的解析與生成模塊和MySQL數據庫連接模塊。
Socket通信模塊基于C/S(Client/Server)服務器客戶端通信模式搭建系統,選用速度快且可雙工傳輸數據的Socket套接字通信方法。套接字的類型有兩種:流式Socket和數據報式Socket。面向連接的是流式套接字,適用于可靠傳輸。而數據報式套接字是一種面向無連接、不可靠的傳輸方式。本系統為TCP連接,所以采用流式套接字;XML文件解析模塊采用TinyXML開源解析庫實現。它主要由DOM模型類和操作類構成。因為它的API接口和Java的十分類似,有很好的面向對象性,可對XML schema中各節點進行指定查詢、指定刪除、指定增加和修改;MySQL數據庫連接模塊使用VC++中自帶的MySQL API庫中的函數實現即可。
3.2.2系統運行測試
為了驗證系統在獨立的兩臺服務器間通信和數據傳輸的可行性,在服務器與客戶端分別建立了符合OAI協議的元數據倉儲。服務器端作為服務提供者向數據提供者進行收割操作,對于系統元數據各收割功能進行測試。客戶端倉儲中數據包括大量數字文化資源和一部分網絡影視資源的DC格式元數據信息,分別測試History_mass、Hisory_single和Fresh_mass這3個動詞,分析返回結果,均滿足收割請求條件要求且完整。以對History_mass動詞進行測試舉例,客戶端元數據倉儲接收結果如圖5所示,下面是收割完成后返回的元數據XML schema片段:
……
……

圖5 全部收割后數據倉儲顯示結果(截圖)
目前,OAI-PMH協議已廣泛應用于數字圖書館等相關領域,但在網絡資源管理方面涉及不多。本文設計并實現了互聯網資源共享元數據收割示例系統,并面向網絡音視頻等互聯網數字資源構建了元數據倉儲。此系統基于TCP網絡傳輸協議和OAI-PMH協議提出的收割流程進行搭建,具有規模較小且簡單實用的特點,可在一般配置的計算機之間實現對各類互聯網資源元數據的單條收割、全部收割和增量收割功能,經測試驗證準確有效。目前本系統可獨立應用于局域網內小規模的元數據資源共享及管理。本文的下一步工作可在此系統基礎上擴展對象資源收割、多用戶定時收割等功能,進一步實現互聯網資源的共享與有效管理。
[1]CARL L. The open archives initiative protocol for metadata harvesting [EB/OL].[2015-10-08]. http://www.openarchives.org.
[2]NELSON M,WARNER S. The open archives initiative protocol for metadata harvesting protocol [EB/OL] [2015-10-08].http://www.openarchives.org/OAI/2.0/openarchivesprotocol.html.
[3]MALY K,ZUBAIR M,LIU X M. An OAI data service provider for the individual [J].D-Lib magazine,2001,7(4):1082-9873.
[4]齊華偉,王軍. OAI-PMH與數字圖書館的互操作[J].圖書館論壇,2005(4):19-22.
[5]王秀慧. OAI-PMH中元數據同步模型的研究[D].太原:太原科技大學,2009.
[6]LAGOZE C,KRAFFT D,CORNWELL T,et al. Metadata aggregation and automated digital libraries: A retrospective on the NSDL experience[C]//Proc. 6th ACM/IEEE-CS Joint Conference on Digital Libraries.[S.l.]:ACM,2006:230-239.
[7]LIU X,MALY K,ZUBAIR M,et al. Arc-an OAI service provider for digital library federation [J]. D-Lib magazine,2001,7(4):12.
[8]Dspace [EB/OL].[2015-09-15]. http://dspace.org/.
[9]OAICat[EB/OL].[2015-09-09].http://www.oclc.org/research/themes/data-science/oaicat.html.
[10]孟喆. 基于開源環境的數字倉儲系統的研究與實現[D].北京:北京郵電大學,2009.
[11]王蜀安,汪萌,張銘. 支持OAI-PMH的元數據互操作體系結構設計與實現[J].計算機工程與應用,2003,39(20):168-172.
陳夢(1992— ),女,碩士生,主研數字電視技術,網絡視頻處理等;
孟放(1972— ),碩士生導師,主要研究方向為數字電視技術、視頻圖像處理、網絡工程等。
責任編輯:許盈
Research of metadata harvesting system for internet resource sharing
CHEN Meng, MENG Fang
(SchoolofInformationEngineering,CommunicationUniversityofChina,Beijing100024,China)
With the rapid development of the Internet technologies, effective management and sharing of massive data become a challenge. Metadata harvesting will be helpful in sharing metadata resources and improving the utilization of those resources over the Internet. First, the process of metadata harvesting based on OAI-PMH and its applications are introduced. After that, a metadata harvesting system for Internet resource sharing is designed and implemented in this paper. This system that based on the MySQL5.6 and VC, can realize the metadata harvesting function between computers with general configuration. Experimental results show that the system can be used as an effective way for Internet resources sharing and management.
internet resource sharing; OAI-PMH; metadata harvesting
TP391.3
ADOI:10.16280/j.videoe.2016.07.014
國家科技支撐計劃項目(2012BAH01F00)
2015-11-25
文獻引用格式:陳夢,孟放. 面向互聯網資源共享的元數據收割系統研究[J].電視技術,2016,40(7):60-64.
CHEN M,MENG F. Research of metadata harvesting system for internet resource sharing[J].Video engineering,2016,40(7):60-64.