王剛,王秀娟,李學榮
(中國科學院煙臺海岸帶研究所,山東煙臺 264003)
信息時代,大數據已經成為時代特征,并上升為國家戰略。科學研究由假設驅動轉向基于“數據密集型”的研究模式[1],數據不僅是科學研究的結果,更是科學研究的基礎,數據已成為科研機構的核心資產。科研機構擁有、使用和產生的數字化成果產出、科學數據、知識內容呈現出種類復雜、形式多樣和數據量爆炸性增長的趨勢;這些數字資產蘊含著巨大的價值,但在科研過程中這些數字資產卻是存儲分散、揭示不統一,內容重復、條目不清、記錄不全,難以管理和利用,更不能從機構整體的角度反映機構內的智力資源,而數字資產特征導致其極易資產流失,傳統的資產管理模式難以集成統一管理、利用,無法評估資產存量與價值。本文提出的建立有效的數字資產管理云服務體系,采用新的數字資產管理模式,可以應對大數據的挑戰,為研究機構數字資產管理提供了新的解決思路。
數字資產是科研機構擁有或控制的,科研生命周期產生的各類以電子數據形式存在的海量數據資源集合[2]。科研機構擁有各類數字資源,包括觀測數據、測試數據、計算數據、科研成果、空間數據、實驗數據、衍生數據、工作文檔和軟件資產等,其數據格式包括文本、數字、圖像、視頻、音頻、軟件、算法、方程式、模型與模擬等。這些數據是科研人員的科研成果,反應科研活動的真實記錄,是重要的科研信息資源,是科研機構的重要資源,具有明顯的資產屬性。經過梳理確認,只要符合“資產”概念的兩個要義[3]——機構擁有或控制的資源在未來會帶來經濟效益、成本和價值能夠可靠計量,對未來的科學研究創造知識內涵和科學價值,都可納入“數字資產”的管理范疇。
數據已經成為研究機構最為寶貴的資產。到目前為止,國內還沒有一種成熟的方法來衡量數字資產的具體價值,研究機構產出了海量的數字化科研成果、數據,這些數據來源廣泛,數據類型產生手段各異,數據存儲格式各不相同,導致無論在數據的提取,還是分析成果的獲取,都需耗費大量的人力和物力,目前國內科研數字資產管理面臨的以下五個方面的問題。
對于科研機構龐大的數字資產而言,數據資產管理業務流程缺少完善的管理機制、一致的數據規范、統一的管理機構,數據管理過程、跨部門的協同合作重復而紊亂。目前,由科研管理部門、數據中心、圖書館、檔案、期刊編輯部、分析測試中心、野外觀測臺站、科考船、各科研團隊各自管理著不同類型,不同渠道,不同級別的數字資產,缺乏規范的數據質量控制,缺乏對機構的數據管理和利用進行評估、指導和監督。
針對整個機構的數字資產資源而言,沒有一個統一的管理系統平臺,各部門根據自身業務、學科特點,開發設計了符合自身實際的管理操作系統,不同系統間的兼容性又存在較大差別。管理系統的不同導致數據資產存儲于獨立、分散的數據庫中,這些交叉學科數字信息平臺沒有良好的數據接口,是諸多的 “數據孤島”。這些不同應用領域的信息平臺受限于數據異構性,平臺間難以實現信息共享與交互,數據間缺乏有效數據關聯,既浪費儲存空間,也查詢困難,嚴重阻礙了數字資產的保護和利用。
數據收集范圍、格式、描述說明沒有統一規范和限定。有些由商業公司制定和維護的特殊數據格式和解析算法,隨著操作系統和應用程序更新替代迅速,多年后是否還重復利用,存在風險。除此之外,還有大量其他數字資產,比如:項目交換數據、觀測照片、視頻、學術會議文檔、專業軟件工具等。這些數字資產一般未被完整納入機構信息化系統中進行保存和管理,散落在不同部門和科研人員手中,這些重要的數字資產,會隨著項目結題、人員流動而丟失。
數字資產的宜傳播性使其容易被盜版篡改。對于研究機構文獻成果、科學數據的數據版權保護,目前普遍存在管理缺失的問題。機構的各類數字資產的版權描述、使用范圍、用途和發布渠道,沒有系統化的規范和跟蹤,對于數據、圖片、影像等,數字版權描述、認證、授權、交易,跟蹤使用、衍生數據等信息都無據可查,數字資產內容的完整性、真實性、安全性無法保證。
相對傳統資源而言,數字資產的廣泛應用主要源于其方便性,其存儲也極易出現安全問題。在科研數據量日益龐大的今天,數據資產被竊取、篡改,物理媒介損壞,數據意外丟失,損毀,或被惡意攻擊、破壞和濫用,涉密數字資產的非法傳播、泄露問題屢見發生,數據資產的安全管理值得重視。
針對數字資產管理中存在的“數據孤島”、數據格式規范性、資源完整性、版權保護和管理效率等問題,提出了數字資產管理云體系架構(圖1所示),探索解決數字資產管理中的問題。
研究機構數字資產管理云體系面向數字資產全生命周期管理,主要包括五個層次,分別是:數字資產數據源層、數據集成與訪問層、大數據平臺層、業務功能層和云服務層。

圖1 研究機構數字資產管理云體系架構
其中數字資產數據源層,包括論文、專利、監測數據、測試數據、遙感數據、分析數據等多種類型的數據庫,這些數據庫通過網絡鏈接,數據可以在線獲取。數據集成與訪問層主要實現元數據描述、數據格式轉換、數據集成和數據質量管理等,為大數據處理提供統一的數據訪問接口。大數據平臺層主要為海量數據的獲取、存儲、計算以及挖掘分析提供條件。
該云平臺實施的關鍵技術主要包括如下幾個。
利用元數據技術,建立數字資產元數據標準規范,利用XML語言描述包括數字資產數據源、數字資產內容、數字資產質量控制、數字資產服務四大類,實現異構數據庫的整合與集成,形成數字資產大數據集,提供統一檢索與共享服務,支持資產業務功能。
主要實現數字資產數據轉換、數據存取等功能,實現與異構數據庫、文件系統、數據倉庫等的統一訪問功能,達到數據整合的目的。
數據資產安全包括存儲安全、訪問安全、計算安全、共享安全和監管安全,建立統一的安全框架規范和技術要求,保證數字資產的可用性、完整性;部署數據安全審計、權限管理、日志管理、數據共享和分發加密等機制,保障數據資產安全。
基于HADOOP+SPARK架構,提供大數據存儲能力和計算分析服務。按需進行任務調度,大數據存取和分析操作,提供編程接口為上層數字資產管理業務提供大數據能力。
利用虛擬化技術,提供計算、存儲和網絡資源池,提供動態、靈活的虛擬服務功能。基于SOA架構的云計算,構建數字資產功能業務平臺,利用Web技術實現在線服務。
海岸帶數字資產管理云平臺(CDAMCP:Coastal Digital Assets Management Cloud Platform)是一個面向海岸帶數字資產的全生命周期的分布式云服務平臺。該平臺從數字資產采集、匯聚開始,針對海岸科學數據資源的多來源、多類型、多學科、多維度等特點,將分散、異構、不同專題的數據庫,改造為扁平式、統一資源管理的分布式云服務模式。
科研機構的數字資產已形成大數據,傳統的資產管理方式面臨“數據孤島”、數據格式規范性、資源完整性、版權保護和管理效率五大問題,已無法滿足需求數字資產的管理需求。采用新的數字資產管理模式,應對大數據的挑戰,提出數字資產管理云體系構建模式,并在研究機構開展了數字資產管理實踐,可以實現機構數字資產統一標準,統一規范格式,統一管理利用,可有效管理研究機構擁有的海量數字資產,這為科研機構數字資產管理提供了新的解決思路。
[1]陳源蒸.出版數字資產管理[J].出版經濟,2004(12):74-76.
[2]中國社會科學院經濟研究所.現代經濟詞典[M].南京:鳳凰出版社,江蘇人民出版社,2005:1282.
[3]Digital Curation Ce ntre[EB/OL].[2014-02-18].http://www.dcc.ac.uk/.