[摘要] 隨著電子科研(e-science)的興起,科學數據監管成為近年來的研究熱點。以科學數據的內涵為基礎,本文詳細分析了科學數據監管過程中可能存在的數據衰變、老化、技術故障、元數據缺失、版權問題、自然災害、黑客攻擊、財務風險、機構和人員風險等風險。從頂層設計、風險管理策略選擇標準、風險管理策略制訂等方面,提出了科學數據監管項目風險管理應采取的策略,以為科學數據監管項目的理論研究和實踐提供借鑒。
[關鍵詞] 科學數據 數據監管 長期保存 風險管理
[中圖分類號] G252 [文獻標識碼] A [文章編號] 1004-6623(2018)01
[作者簡介] 楊義民(1984 — ),河南泌陽人,鄭州財經學院圖書館副館長,館員,研究方向:圖書館管理與文獻資源建設。
一、引 言
進入21世紀以來,電子科研(e-science)的產生讓科學數據的作用和地位達到了前所未有的高度,越來越受到科研人員的關注和青睞。在全世界范圍內,科研數據關聯性研究取得了長足的進步,越來越多的大學、科研機構、圖書館和博物館開始免費共享自己的數字資源,并嘗試攜手合作對這些資源進行加工和標準化處理,以保證今后的可獲取性和可用性。
科學數據既包括科學研究過程中產生的原始性、基礎性數據及根據不同需求加工后產生的衍生性數據,也包括各種大規模觀測、勘探、調查、實驗和試驗中所獲得的海量科學數據,以及廣大科研人員長年累月的研究工作所產生的大量分散的科學數據。在其生命周期內,科學數據的保存與利用對于后續及其他研究至關重要。科學數據監管作為一種數字資源長期保存策略,其過程復雜且一直在不斷發展變化,充滿各種不確定性。為了盡量避免不確定性帶來的風險,把可能的損失降到最低,科學數據監管工作在項目建立之初就應該對系統可能面臨的各種風險進行分析和評估,并形成一套完整的風險管理策略,確保各項工作的順利進行。
二、 科學數據監管項目風險分析
在任何的數字長期保存系統和數據監管項目中,風險分析都被認為是一項首要工作。通常情況下,數字資源面臨的風險主要有:數據衰變,老化,技術故障,元數據缺失、版權問題、自然災害、黑客攻擊、財務風險、機構和人員風險等。
1. 數據衰變。指存儲在存儲介質中的數據,其性能和完整性緩慢惡化,也被稱為位衰減、比特衰變、數據腐爛、數據衰變和靜默數據損壞。盡管數據中的數據衰變發生頻率很低,但它可能在遇到磨損、灰塵、其他污染物、背景輻射以及高熱情況時發生率有所上漲。數據衰變可能會導致科學數據的完整性受到破壞,使科研人員在未來無法獲取所需的相關研究數據。
2. 老化。老化可能包括軟硬件,存儲介質和文件格式等,即使現有的軟硬件或存儲介質能保持良好的工作狀態,但隨著技術的進步,它們會很快更新換代,被更好的技術替代。科學數據監管要求長期保存大量的數字資源,而相應的軟硬件設備,存儲介質和文件格式遲早都會老化,從而導致數據丟失或無法讀取。
3. 技術故障。包括系統的軟硬件設備,存儲介質和網絡通信設備出現問題,不但可能會造成科學數據損壞、丟失,還會影響為用戶提供相應的服務。
4. 元數據缺失。科學數據的用戶群可能非常龐大,如果要確保信息能在未來很長一段時間能準確檢索、獲取并充分理解,必須有大量不同類型的元數據作為支持,包括對數據本身進行解釋的描述型元數據,記錄數字保存環境、文件格式等的技術型元數據和記錄版權、評估情況和等級的管理型元數據等。元數據的缺失會對用戶檢索、獲取和理解科學數據造成很大困擾,甚至導致數據無法使用。
5. 版權問題。科學數據監管項目在長期保存和發布數字資源時都可能遇到知識產權問題,在數據產生時就應當隨時關注其版權,當系統提供數據檢索和獲取服務時也應當確保數字資源獲得相應的授權;同時,用戶在下載、使用和共享科學數據時也應當遵守相關的知識產權法律法規,不違規使用數字資源。任何科學數據監管項目都包含數據制造者,數據提供者和最終用戶,每個環節都可能存在違反知識產權的風險。
6. 自然災害。不僅包括洪水、暴雨、颶風、地震、火山爆發、山體滑坡、雪崩和海嘯等由大自然造成的災害,還包括火災、停電、通訊中斷、恐怖襲擊、戰爭等人為因素造成的災難。任何上述風險都會造成數據的損壞、丟失,如果項目所有數據都保存在一個或少數幾個建筑中,還可能導致全部數據的丟失。
7. 信息攻擊。信息系統通常都會受到來自外部的攻擊,包括非法登錄系統,未經授權使用數據,以及對系統數據的破壞、泄漏、修改、禁用和盜取等。任何信息攻擊都可能造成科學數據完整性和真實性的破壞,信息安全對科學數據監管項目至關重要。
8. 財務風險。對于任何信息系統來說,長期的財務支持都必不可少。系統軟硬件的更新,系統人員的維持和管理,都需要花費大量的資金來完成。系統中任意一個環節出現經費短缺的狀況,都可能導致整個項目的停滯、癱瘓,甚至徹底失敗。
9. 機構和人員風險。科學數據監管項目通常由一個或多個機構共同建設完成,不同機構或部門之間由于對概念理解不同,技術手段不同,都可能對科學數據的真實性和完整性造成影響。比如無法保證數字資源唯一標識符的唯一性,無法發現數據庫系統進行了誤操作等。另外,任何科學數據監管項目都需要人力資源的長期支持,比如軟硬件的更新、維護,系統數據的監控、校對都需要人工完成。而員工在進行上述工作過程中很可能會產生誤操作,從而導致系統數據錯誤、數據質量下降,或者無法為終端用戶提供服務等問題。
三、科學數據監管項目風險管理策略
制訂詳實、完善的風險管理策略對科學數據監管項目至關重要,甚至在一定程度上決定了整個項目成功與否。通過項目建設之初對系統進行風險評估,風險管理策略的制訂應當盡量詳實,內容豐富,關注細節,盡量涉及系統可能面臨的各種風險。endprint
(一)頂層設計
頂層設計包括科學合理的組織架構、有效的風險管理政策以及可行、明確的科學數據監管服務路線圖。科學數據監管服務路線圖涵蓋科學數據監管計劃、活躍數據的基礎設施、數據監管及數據管理支持。
數據監管計劃工作職責是對數據收集、整合、創新活動等提供監管支持服務;活躍數據的基礎設施的主要工作是研發活躍數據的存儲設備、通過多種渠道提供訪問和存儲、開發一些工具協助處理數據;數據監管是對科學數據開發工具和服務整個過程進行監督與控制,規避各種侵權風險;科學數據管理支持的主要工作是日常性的咨詢和支持服務。為此,以科學數據管理支持為基礎,形成了科學數據監管計劃、活躍數據的基礎設施、數據監管彼此聯系、促進的清晰科學數據監管服務路線圖。
(二)風險管理策略選擇標準
科學數據監管項目在選擇風險管理策略時必須從實際出發,保證選擇的風險管理策略能得到有效執行和充分驗證。風險管理策略涉及范圍也應該盡可能廣泛,能最大程度降低項目在運營過程中可能面臨的諸多風險威脅。在選擇風險管理策略時應著重從科學數據監管項目的硬件環境入手,進行分析和選擇。可以從以下方面加以考察:風險管理策略是否考慮數據衰減問題,并采取相應措施,包括數據復制,數據校驗,不定期數據可讀性和一致性測試等;是否制訂文件格式老化解決方案,包括保存格式描述信息,在攝取數據時進行格式一致性檢查,制訂可接受文件格式列表等;是否充分考慮了硬件設備和存儲介質老化的情況,并提出應對措施,比如在項目建設時選擇多種技術,多個廠家的存儲設備等;系統數據來源是否具有可追溯性,相關的元數據信息是否得到了有效保存。比如元數據自動抓取,不同元數據間映像,元數據驗證措施等;是否考慮系統數據的知識產權問題;對用戶登錄和操作進行認證,限制用戶權限和使用數據的范圍等。
(三)風險管理策略制訂對策建議
科學數據監管項目的風險管理策略要符合上述標準,避免系統可能出現的各種風險,應從以下幾個方面入手,制訂相應的風險管理策略,保證系統的長期、安全、有效運行。
1. 保證數據安全,避免系統崩潰或數據衰減
科學數據監管項目可能在全世界范圍內由一個或多個機構協同工作,除了地理位置不同以外,所采用的通信協議、操作系統、應用軟件和數據格式也可能多種多樣。因此,在制訂風險管理策略時應保證在所有機構的存儲設備上協同工作,跨區域、跨平臺保存科學數據。
由于每個科學數據監管項目的規模不同,數據使用目的不同,在數據備份時采取的策略也不一樣。項目可靈活掌握數據備份的內容,確定哪些數據價值高,必須保存,哪些數據沒有價值,可以丟棄。但至少要保證在兩個以上物理位置不同的地點對系統數據進行備份,并且在每個地點也保存一份備份數據。
使用云存儲技術實現負載均衡,充分利用不同地點的硬件設備,把科學數據存儲在多個物理或虛擬的存儲空間。同時實時監控磁盤緩存的使用情況,當緩存空間達到上限時,及時清理過時的緩存數據,保證存儲系統高效運行。
最后,對整個硬件系統進行實時監控,控制服務器的線程數量,防止服務器端過載,影響用戶訪問。在每一次數據傳輸后,進行MD5完整性檢測,保證數據的完整性和一致性,并存儲檢測結果以備查驗。另外,還要定期(每30分鐘,24小時,每周,每月或每年)對數據完整性和一致性進行檢測,發現問題及時修復數據。
2. 保證系統長期有效
科學數據監管項目規模、目標不同,其長期保存時間也不一樣,但一般情況下至少應保證系統保存的數據在5~10年時間有效。項目建設過程中應遵循OAIS參考模型標準體系,全面支持OAIS參考模型中的功能和任務,并符合OAIS參考模型中的各種標準要求,保證系統的互操作性。同時,詳細描述系統各模塊的工作流程及使用的工具,并對描述信息進行保存。對終端用戶的軟硬件環境,知識背景進行分析,并記錄。另外,還應完整復制整個科學數據監管項目的整體框架,并在異地進行備份,制訂并測試系統恢復方案,對所有存儲數據定期進行檢查。
為了保證系統數據的長期、有效訪問,系統應對可接受的數據格式進行限制,并盡可能選擇通用、開放式數據格式。同時,應制定數據格式列表,并定期對用戶進行調研,了解用戶使用數據情況,根據實際情況更新系統使用的文件格式,必要時進行數據遷移。在系統攝取數據階段,檢查數據格式,拒絕不符合系統要求的文件格式。對系統文件格式的描述信息進行詳細記錄,以備系統進行數據仿真或數據遷移時使用。
科學數據監管項目應在開始階段就確定保存數據的內容、格式以及用戶的訪問權限和知識產權等問題,雖然沒有統一的標準規定何時對系統數據進行數字遷移或數字仿真,但數字長期保存專家應設計完善的數據存儲流程,不斷關注、學習存儲設備最新技術和動態,選擇適合數字長期保存的媒介,制訂數字遷移或數字仿真方案,確定系統數據格式轉換的正式標準。
3. 保證數據長期可理解性
為了保證原始數據的可理解性,在系統提供原始數據同時,還要提供相應的描述性信息—元數據。因此,系統在攝取數據的階段就同時提取元數據信息,并采用軟件自動提取和人工在線測試相結合的方式生成元數據。
系統應盡量支持多種元數據標準,完善元數據信息,并使用相應工具檢查元數據質量,必要時請元數據專家進行人工檢測。同時開發元數據檢索工具,實現純文本文件的深層次全文檢索。
為了保證元數據的完整性和真實性,系統應定期自動對元數據進行MD5校驗,同時對系統文件,網頁和服務器應用進行實時監控,保證為用戶提供的數據與系統存儲的原始數據沒有任何不同。當有新版本元數據出現時,確保每個數據都分配了不同的信息唯一標識符,并對數據的變化情況進行記錄。
4. 保證數據知識產權
科學數據監管項目中的大部分數據價值都很高,是眾多科研人員長期努力積累的結果,所以應受到嚴格的保護,確保其知識產權不受侵犯。因此,在科學數據監管項目進行數據加工之前就簽訂數字版權協議,確保系統所保存和提供訪問的數據符合法律法規和相關的管理規范,并進行定期的檢查和更新。endprint
科學數據監管項目可能由多個機構共同組成,因此應明確對用戶訪問進行分層控制,明確不同等級用戶的訪問權限,同時對數據訪問進行分層次管理,確保不同訪問級別的用戶不違規使用系統內數據。
任何使用系統數據的用戶必須經過認證許可,簽訂數據知識產權保護協議,并對其訪問系統數據的情況進行記錄。如果發現用戶有違規使用的情況,應及時禁止其今后的訪問請求。
對于正在進行中的科學數據監管項目,應制訂數據保護期限,如規定3~5年時間內,系統數據只能由科學實驗小組的成員進行訪問和使用,在實驗項目結束3年后再向公眾開放等。
[參考文獻]
[1] 錢鵬,鄭建明. 高校科學數據組織與服務初探[J].情報理論與實踐,2011( 2):27-29.
[2] 傅小鋒,李俊,黎建輝.國際科學數據的發展與共享[J].中國基礎科學,2007( 2):30-35.
[3] 楊淑萍.關于數字資源長期保存風險管理問題的探討[J].圖書館學研究,2007(7):83-87.
[4] 臧國全. 數字遷移風險管理[J].中國圖書館學報,2006(3):54-56+86.
[5] David S.H.Rosenthal, Thomas Robertson, Tom Lipkis, Vicky Reich, SethMora bito. Requirements for Digital Preservation Systems:A Bottom-Up Approach. D-Lib Magazine, 2005 (11). http://www.dlib.org/dlib/november05/rosenthal/11rosenthal.html,2017-05-10
[6] Rosenthal,David S H. Format Obsolescence: Assessing the threat and the defenses [J].Library Hi Tech, 2010(2):195-210
[7] 王藝園. 數字保存系統風險管理研究[D].鄭州大學,2009:12.
[8] V.M. Rao Tummala,Y.H. Leung. A risk management model to assess safety and reliability risks [J]. International Journal of Quality&Reliability Management, l996 (8):53
[9] 溫芳芳.國外科學數據開放共享政策研究[J].圖書館學研究,2017(9):91-101.
[10] 王海彪,衛軍朝.科學數據管理關鍵因素研究——基于愛丁堡大學科學數據管理實踐及啟示[J].圖書館雜志,2017(1):20-26.
[11] 王元鋒, 臧國全. 數字保存系統風險管理[J].現代情報, 2009(2):210-213+216.
[12] 郭營.基于SPOT模型的數字保存風險管理研究[D].鄭州大學, 2014:14.endprint