董民輝
(浙江海洋學院舟山市 316000)
海洋領域信息數據庫平臺構建研究
——以浙江海洋學院圖書館建庫為例
董民輝
(浙江海洋學院舟山市 316000)
從數據、應用邏輯到語義3 個層次建立規范的海洋信息管理系統,實現相關海洋信息的采集、存貯、檢索、分析、交換和集成等,提出通過 TPI 系統解決海洋領域信息資源的集成和共享問題。
海洋領域 海洋信息數據庫 數據庫建設
隨著經濟的高速增長,陸域資源、能源、空間的壓力日益加劇,人類已將經濟發展的重心逐漸移向海洋。聯合國《21世紀議程》指出:海洋是全球生命支持系統的一個基本組成部分,也是有助于實現可持續發展的寶貴財富。世界海洋經濟增長迅速,海洋產值每十年就翻一番,增長速度遠高于同期 GDP 的增長。海洋經濟在世界經濟中的比重已達 10% 左右,預計到2050年,將上升到 20% 。海洋經濟已成為沿海各國(地區)國民經濟的重要組成部分[1]。
20世紀90年代以來,信息化浪潮席卷全球,世界各國都紛紛以信息技術作為新科技的先鋒。特別是發達國家,以信息化帶動工業化,帶動管理領域和經濟領域,取得顯著效果。海洋是藍色國土,利用信息化促進海洋管理、海洋科研和海洋開發的快速發展,可實現海洋強國戰略。
涉海類高等院校目前把海洋特色專業建設成省級甚至國家級的重要學科,各高校圖書館也都根據自身特點和資源收藏,形成豐富的文獻館藏。怎樣更好地發揮館藏優勢,為讀者、教學和科研提供更好的服務;怎樣整合現有資源,開發新資源,提高資源利用率;怎樣將具有特色的海洋信息資源數字化和共享,是目前面臨的最迫切的問題。其可行辦法是走特色化辦館之路,在現有資源的前提下,充分挖掘自身優勢,融合學院、教學及科研。海洋信息化管理工作主要由 3個部分組成:基礎數據庫、專題數據庫、運行實現信息管理共享平臺。通過這些技術,最大限度地開發和利用共享信息資源,從而提高管理效率和經濟效益。
數據由空間數據和非空間數據兩部分組成,前者包括各種地理電子圖件,后者即屬性數據和文檔資料。空間型數據分矢量數據和柵格數據。
海洋地理空間數據庫主要包括海域地理數據、海岸帶地理數據、海岸帶地形數據、海岸帶地貌數據、海洋地質數據、海底地貌數據等基礎地理信息數據。
海洋資源數據庫主要包括海島資源數據、漁場資源數據、漁港空間分布數據、港口碼頭資源數據、鹽場資源數據、海產品資源數據、旅游資源數據等數據。
海洋環境數據庫主要包括物理海洋數據、海洋氣象數據、海洋化學數據、海洋生物數據等。
海況及海洋災害數據庫包括氣象、海況信息、歷史海洋災害信息以及各種海洋災害的應對預案信息。
港口航運發布信息數據庫主要包括港客運和貨運以及其他有關港口航運所發布的相關信息。
海洋科技及產業信息數據庫包括政府對外招商、經濟合作交流信息,通過各種渠道發布的各類海洋科技及產業信息及海洋科研院所的信息。
海洋旅游發布信息數據庫包括旅游局發布的有關海洋旅游的各類信息。
海域使用信息數據庫主要包括海域使用登記信息、年檢信息等。
海岸帶管理數據庫主要包括海岸帶工程,海岸帶功能區劃,海岸帶利用狀況,淺海、灘涂利用等信息。
漁業管理信息數據庫包括海洋農牧化建設信息、漁業示范基地、魚苗及其審核信息、漁業經濟、魚情預報、漁業法規、水產品生產等信息。
漁業產業數據庫主要包括水產養殖、捕撈、水產品加工等企業的各方面信息;漁業產品信息、漁業生產信息、漁業招商引資信息等。
海洋法規數據庫主要包括海洋執法、海洋環境保護、海洋生產等方面的相關法律法規。
漁業電臺數據庫主要包括電臺設備,船舶電臺的數量、頻段、內容等管理信息。
漁業船舶數據庫主要包括用于水產養殖、遠洋捕撈、近海捕撈等所有漁船的信息。
漁港數據庫主要包括漁業港口的所有信息,規模、水深、設施等。
漁業資源數據庫主要包括遠洋及近海的漁業資源、水產品養殖信息、魚群洄游信息等。
水生野生動植物數據庫主要包括列入保護范圍的水生野生動植物的信息,種群、數量、聚集地等。
安全生產數據庫主要包括漁業企業、水產養殖企業、水產品加工企業的安全生產信息。
海洋污染事故數據庫主要包括海洋污染歷史數據、海洋污染分類、海洋污染應急預案等信息。
海洋工程數據庫主要包括待建、在建、已建的各類海洋工程的詳細信息以及工程場地周邊敏感水域的信息。
海洋保護區數據庫主要包括各類海洋保護區的信息。
漁業病蟲害數據庫主要包括漁業病蟲害的信息、防治辦法信息,以及國際各種漁業病蟲害的最新信息。
水產品防疫檢測數據庫主要包括水產品檢驗檢疫的信息。
海洋基礎信息積累與數據庫建設,是海洋信息資源開發利用的重要環節。只有具備了豐富、有效、及時的信息,海洋信息化工作才有基礎。海洋基礎數據的積累和數據庫的建設應立足于全面、系統的原則,廣泛收集各種有關信息,以滿足海洋管理、科研、教學、推廣及基層漁民等各層次、各部門的需要。浙江海洋學院圖書館數據庫平臺將廣泛收集該校建校以來承擔的各類項目的成果、論文、專利等相關文檔、原始數據、圖件等,建設科學研究基礎信息數據庫;設計科研基礎信息元數據結構,建立元數據庫;開發 B/S模式元數據導航查詢系統,實現科學研究基礎信息的瀏覽、查詢及下載功能。
近年來,該館十分重視數據庫平臺的建設,圖書資料的數字化正在加緊進行中。如館內各種文獻數據庫的建庫、更新、維護與服務;圖書館書目數據庫的自動化建設;圖書館信息檢索,圖書資料的回溯建庫;外文原版圖書的全文數字化加工處理等工作正在積極運作中。目前已經建立了 3 000 多種海洋以及淡水魚類、蝦類、貝類、藻類等海洋生物的基本資料數據庫。同時,建立了水產養殖新品種的引進資料數據庫;水產瀕危動物資料數據庫;水產名貴、珍稀水生動物數據庫;種質資源數據庫;養殖技術數據庫,水產質量官方評價數據庫等。
過去的十余年中,我國先后開發了一系列海洋相關應用軟件,大大提高了海洋觀測、預報的效率和精確度。在海洋信息化系統應用過程中,也暴露出一些問題,體現在:(1)數據資源共享程度低,海洋觀測數據來源廣泛、形式異構,難以實現共享;(2)系統整合程度低,各部門系統獨立開發,彼此間服務和功能相關性差,難以發揮整體效益;(3)功能復用程度低,相同功能的系統模塊重復開發現象普遍;(4)跨領域協同困難,部門間數據表達和服務流程存在較大差異,導致領域內協同業務體系建設難以推進。[3]
目前,我國海洋信息數據庫種類繁多,如海洋水產數據庫、海洋運輸數據庫、海洋油氣業數據庫、國內海洋綜合經濟數據庫等。但由于沒有總體平臺,缺乏統一的數據存貯、交換格式。在進行海洋信息的綜合查詢或統計中會出現問題。因此,迫切需要建立一個規范的海洋信息系統平臺,通過實現海洋信息化管理,制定一系列標準和技術規范來統一各種技術流程和系統中以數字形式存在的各種信息,達到海洋信息的資源共享及信息服務的社會化,為海洋生產單位對海洋開發和科研活動提供準確、權威的數據資料。
TPI 系統即清華同方專業數據庫制作管理系統,是清華同方光盤股份有限公司在積累了信息資源建設領域的大量寶貴經驗的基礎上,為大中小型信息服務機構開發的一個以內容管理為核心的數字圖書館解決方案。TPI 是基于非結構化文檔管理而開發的大型智能內容管理系統。該系統以 FTS 全文檢索數據庫為核心,集成了字典管理(FDT)、內容發布系統(CPS)、元數據標引(ME)、類工具(CF)、檢查工具(CKT)、光盤出版工具(CDPT)等模塊。采用流行的 B/S 瀏覽器的檢索方式和先進的 3 層 C/S 架構,能夠同時管理文字、圖片、多媒體等信息并提供全文檢索服務,支持網頁的動態發布,是一個面向內容管理的數字圖書開發平臺。TPI 系統針對數字圖書建設提供了一條捷徑,特別是其高性能的全文數據庫系統,先進的信息發布系統,支持標準的檢索協議,完全兼容普遍使用的 CNMARC 標準,支持Z39.50協議,動態實時信息處理,可利用COM 實現二次開發以及高性能的全文檢索引擎,是解決目前數字圖書館資源建設的專業化軟件。
利用TPI系統在資源存儲方面支持各種格式的文本和圖片、視音頻文件處理技術,完成數據存儲。在資源管理方面,將數據庫同時建立多種導航樹以支持多種分類體系。導航樹直接和分類結果一一對應,用戶可以在 Web 上直接按照導航樹檢索。支持角色管理和用戶管理,方便定義不同用戶的權限,使數據庫操作同時具備方便性和安全性等特性。分布式檢索系統把分布在不同地理位置的獨立自主的多個 TPI 數據庫服務器聯結為一個集群系統。各自獨立的 TPI 系統可以建立特色數據庫,可控制其他用戶訪問資源。分布式檢索系統提供跨服務器、跨平臺的分布式檢索,用戶通過該系統可以極大地共享整個集群數據庫中的信息,實現分布式、多層次、多類型、特色型的資源共享。
TPI 內容發布系統將加工的數據發布到互聯網上,使之可被用戶瀏覽和檢索。發布提供多種發布模板:CNKI 期刊風格、GOOGLE 風格、EI 風格、OCLC 風格、圖片風格等。支持用戶基于數據庫字段的個性化發布定制;支持多種數據庫間數據記錄之間的關聯、跳轉、校驗、下拉選擇;為數據庫同時建立多種導航樹,支持多種分類體系并存;支持為一條記錄關聯多個全文數據或多種媒體數據的連接功能,該功能為發布多圖片新聞、多附件通知等應用提供技術保障。
方案主要包括5 方面建設內容:數據采集模塊、數據遷移模塊、資源管理模塊、資源發布模塊、信息檢索模塊。各模塊協調工作,實現軟件系統的所有功能。其中資源管理模塊包括全文檢索管理系統和內容管理系統。
4.3.1 數據采集模塊
數據采集模塊的主要功能是實時采集、監控網站內容,對采集的海洋類信息進行過濾和自動分類,將需要的內容及時發布,實現信息檢索。比如定向抓取某些網站的數據,用戶只需設定要抓取站點的首頁地址,程序就會按設定的站點下載相應的網頁并傳給后臺處理程序做進一步的處理。根據設定的更新周期定期對各站點上新發布的網頁或者更新的網頁進行及時抓取。

圖1 應用系統的功能模塊圖
對于館內長期積累的海洋文獻紙質文檔,如技術文檔和政府報告,通過掃描、OCR 識別、編改、標引、分類、檢查、入庫進行加工,提供全文檢索;對于大量電子文檔,如 Word、PDF 等文檔,通過整編、標引、分類、檢查、入庫進行加工,即可提供全文檢索。
4.3.2 數據遷移模塊
通過數據遷移模塊將數據轉換成KBASE 數據源。數據來源主要是:(1)關系數據庫(SQLServer、Oracle、IBM DB2 等);(2)專用數據庫,如國內某些廠商提供的數據庫;(3)文件系統:可能是文本、XML、Word 文檔、PDF 及PPT 文件等。這些信息有不同的安全訪問級別、對不同的用戶需控制其訪問內容,要求做到文檔級別的安全性管理;(4)數據采集模塊采集的頁面信息;(5)非結構化數據:Lotus Domino、Microsoft Exchange。
4.3.3 資源管理模塊
資源管理模塊包括全文檢索管理系統和內容管理系統。全文檢索管理系統為用戶提供全文數據存儲和全文檢索管理功能。它是以管理非結構化數據對象為主,具備智能信息處理能力,以中文信息處理為特色的專用數據庫管理系統,該系統需要對異構數據源提供統一訪問和統一管理手段,直接支持 Z35.90 協議、OpenURL 協議、OAI協議,提供通用數據訪問網關,可統一訪問所有Web 數據源。內容管理系統是建立在全文檢索管理系統之上的實際應用系統,為用戶提供對數據庫的信息管理、用戶管理、權限管理、分類導航、記錄管理、數字對象 DOI 管理等功能。
4.3.4 信息檢索模塊
該模塊是用戶有效利用平臺的重要環節,各種不同種類的數據庫可以有自己的檢索風格,也可以與其他數據庫形成統一的跨庫檢索。
4.3.5 資源發布模塊
資源發布模塊是系統對外服務的窗口,其內容應包含:統一異構檢索、支持標準的 OpenURL、Z39.50、Portlet、SAML、Web Services、ILL協議,含多種發布風格,支持多種導航等功能。
系統的業務流程包括數據采集、數據遷移、資源管理、資源發布、信息檢索等。

圖2 基本業務流程圖
互聯網上的頁面信息通過數據采集模塊得到數據并存放到 KBase 數據庫中;專用數據庫、關系數據庫和文件等其他數據通過數據遷移模塊轉換為該數據庫的資源。通過統一認證管理模塊對數據設置分級權限,資源管理模塊進行統一管理,應用資源發布模塊將信息發布到 Web 上,配合信息檢索模塊實現資源的檢索功能。
該方案的特點:自主研發的大型國產文檔數據庫性能優異。安全與標準共存,自主研發數據庫擁有良好的安全性,同時也支持眾多國際標準協議,并提供完善的二次開發的標準接口 SDK,指揮調度、圖像監控等第三方程序可輕松利用接口 SDK 與服務器端進行數據的交互;統一管理與統一維護,無須第三方數據庫系統,在降低成本的同時,更便于統一培訓、統一管理、統一維護;專業性能優越,數據庫單庫容量可達 8T,記錄條數可達 40億×40 億條;數據檢索查詢速度業界領先,可達 500 G/秒;擁有眾多特有功能,如復合字段,支持自定義。
B/S 與 C/S 架構相結合。提供門戶網站,通過 TPI 的建庫發布,即可提供政務、辦公、信息采集處理等一體化的綜合性門戶網站;強大功能與易用性并重;支持靈活的C/S架構;TPI 系統的客戶端可使用桌面程序與服務器建立 C/S 連接,進行數據的交互和處理。
細節功能齊全強大。Web 在線提交可提交附件,支持任何格式的文件;支持自動發布數據庫,隨時更改發布樣式,可動態發布網站,體現特色支持;對已有紙質文檔進行掃描加工,通過OCR 進行圖形文字識別并入庫;覆蓋文本、圖片、音頻、視頻等各種媒體類型。
海洋信息是海洋科研、教學、工程設計、規劃管理、環境測報及評價、海洋經濟可持續發展和軍事海洋環境條件保證等的主要依據,海洋科學數據的收集、處理和數據庫建設對于以海洋經濟為支柱產業的社會具有科學意義和緊迫需求。因此 TPI 完全符合海洋信息綜合管理平臺的各項功能和支持各類海洋數據標準、規范的處理。
[1]徐長樂,朱元秀.上海市進一步推進海洋經濟發展的若干戰略思考[J]. 科學,2011(1):21-25.
[2]高惠瑛,陳天恩,莫善軍.海洋資源信息化工程中的數據庫構建模式[J]. 海洋科學,2004(7):31-35.
[3]楊鵬,王文俊,董存祥. 海洋領域信息集成與共享研究[J].計算機工程與應用,2010(26):194-197.
2011年6月23日