●臧國全,王曉梅(鄭州大學 信息管理系,鄭州 450001)
數字保存主要有兩類:學術論著保存和研究型數據保存。前者比較普遍,理論和實踐相對成熟,后者集中在數據密集型領域,理論和實踐都較滯后。高能物理(又稱粒子物理)是一個典型的實驗型學科,產生大量研究型數據(實驗數據是研究型數據的一種重要類型),對該學科研究人員的實驗數據保存的認知與實踐的調查,有助于了解對數字保存的期望,掌握數字保存的現狀,發現數字保存理論與實踐的不足。
目前為止,全方位對數字保存認知與實踐的調查甚為鮮見,歐盟PARSE.insight項目[1]歷經三年(2008—2010),不僅對數字保存利益相關方(包括科研人員、保存機構和出版商)進行了比較系統的調查,而且也選擇了若干個代表性學科領域進行案例分析,其中之一是高能物理學科,針對該學科的科研人員的調查對象選擇來自歐洲核子研究中心CERN[2]在全球各地分支機構的880位實驗研究者和260位理論研究者。本文基于該項調查,總結該領域科研人員對數字保存的認知與實踐,分析數字保存存在的問題,尋求可能的解決方案。
總體上,絕大多數理論研究者和實驗研究者對數字保存的重要性都給予了高度認可(見表1)。不同研究經歷的人員(少于5年和大于5年)對該項認知的程度沒有明顯差別,但理論研究者要明顯高于實驗研究者,這可能說明了前者更注重使用實驗數據,而不僅僅局限于基于實驗數據分析而公開發表的成果。

表1 數字保存的重要性
保存原因有很多,但得到比較廣泛認可的(見表2)。總體上,與實驗研究者相比,理論研究者對保存原因的認知度要略高一點,可能的解釋是實驗研究者對實驗數據保存的困難以及進行分析的缺憾體會較深,對保存原因的認知更趨理智。

表2 數字保存的原因
原因1:如果由公共資金資助,實驗數據為公共財產,應合理保存,為未來科學研究之用。
原因2:實驗數據可以用于未來研究成果的驗證。
原因3:實驗數據可以結合未來實驗數據一起使用。
原因4:實驗數據可以根據未來新理論模型進行重新分析。
原因5:實驗數據可以用于教育。
數字保存的基本作用是促進科學發展和傳承文化遺產。針對高能物理學科實驗數據保存的最主要作用為前者,對此,實驗研究者(97%) 和理論研究者(99%)都給予了高度認可。具體來說,表3列出的四項用途(尤其是前三項)得到研究人員的認可度較高。除此之外,被調查者提到的用途還有完善或驗證新的模擬工具和分析方法等。

表3 保存數據的用途
用途1:測試新理論模型。
用途2:驗證新老實驗之間的兼容性或一致性;或探測新老實驗之間的偏差。
用途3:供設計新實驗方案時參考。
用途4:專題資料匯編(如述評)。
實驗數據的保存威脅比較多,表4列出了受訪者最關心的威脅。
威脅1:數字保存缺乏可持續性導致實驗數據未來可能無法訪問。
威脅2:保存數據的無控制訪問與使用可能導致錯誤結論的膨脹。
威脅3:使用保存的數據,但未對原始作者進行引用或說明。
威脅4:保存的數據可能被無意地修改或被不恰當地操作。
針對威脅1,對數字保存可持續性的關注為最高,這也充分說明了與傳統信息資源相比,研究人員對數字資源脆弱性的認知更深刻。

表4 保存威脅
針對威脅2,錯誤結論的膨脹被高度關注(尤其是實驗研究者),可能因為實驗研究者深知實驗數據的復雜性和其他研究人員對實驗數據分析的潛在失誤風險。應該說,兩者的最主要區別還是在于學術名譽,如果基于原始數據由第三方進行分析得出的結論不夠完善,可能會影響原始數據生產者的名譽,但對理論研究者沒有影響。
絕大多數實驗研究者(77%)認為,采取一定程度的訪問控制(比如訪問許可、用戶認證等)可以減少錯誤結論。另外也有一些實驗研究者(34%) 和理論研究者(28%)建議,實驗數據在提交保存之前,應該對其真實性和完整性以及應用的合理性等方面進行評價(如通過同行評審方式),但會增加成本,甚至可能會阻礙科學交流的自然流程。實際上,訪問控制與開放存取是數字保存的兩個方面,目前的理論探討和業界實踐比較傾向的看法是:雖然開放存取存在風險,但它帶來的益處要遠遠大于所產生的弊端,并且開放存取也可以進行適當控制。
針對威脅3,業界可以參考現行的學術論著引用規范來制定實驗數據的引用規范,研究人員應該遵守該規范,出版商應該監督實施該規范,學術機構應該評估該規范的實施情況。另外,還應該加強研究人員的科研誠信教育,設立科研誠信監督機構,接受并處理有關投訴。同行之間監督和輿論也是一種方法。總之,科研誠信是科學昌盛之本,多管齊下才是解決方法。
針對威脅4,研究人員的關注度較低,主要是技術層面的問題,任何保存系統都應該提供相應手段(比如設置保存數據的屬性為只讀型)保護數據。另外,保存系統應該具有數據自動備份機制,定期運行數據完整性檢查,必要時實施逆向恢復功能等。
調查結果顯示,實驗研究人員保存實驗數據的類型分布比較寬泛(見表5),表明該研究群體在此項實踐上缺乏共識。

表5 保存數據類型
最常見的答案是在整個實驗結束時,或者完成數據分析且分析結果公開發表后(見表6)。這說明在高能物理領域,對實驗數據的加工需要一個漫長過程,且常常持續到項目結束,甚至在整個實驗周期中需要加工多次。

表6 保存數據時間
保存位置與數據共享密切相關。調查結果顯示(見表7),大多數實驗研究者不僅將實驗數據提交到面向公共服務的數字保存系統,同時也保存在僅供課題組內部使用共享的數據平臺中,說明高能物理學科實驗研究者具有較強的開放存取意識。

表7 保存數據位置
調查結果顯示,保存投資占整個費用(包括實驗數據生產、分析、處理等各項費用)的比例較高,其中近一半的實驗研究者對實驗數據的保存投資占整個費用10%以上(見表8)。而在PARSE.insight的另外一項調查中,[3]只有少數實驗研究者(16%)表明他們所在的機構提供該項投資,并且該項投資伴隨實驗數據生產的整個過程(41%),甚至發生在數據生產之前(31%)。這說明了在實驗項目收尾階段,項目組已優先考慮下一個項目,很難籌集資金用于已經完成的實驗數據的保存。

表8 保存投資
實驗數據不僅被理論研究者使用,而且也被實驗研究者使用(當然實驗研究者同時也是數據生產者)。在數據使用過程中,最常遇到的問題見表9。

表9 數據使用最常遇到的問題
問題1:保存質量無法保證。
問題2:實驗數據丟失。
問題3:表征信息丟失和過時。
問題4:保存格式過時導致無法訪問。
針對問題1,實際上,保存質量是一個寬泛的概念,不僅包括上述其他3個問題,還涵蓋更多內容(如實驗數據的產權、保存所需的軟硬件性能等)。
針對問題2,這里的“數據丟失”不僅包括一般意義上的數據丟失(如存儲介質的退化導致數據的丟失),而且還包括雖然數據存在但已經無法使用,比如,由于實驗數據的有效訪問依賴于充分的元數據,而元數據的丟失會導致相應實驗數據處于“檢索不到”狀態,這種意義的數據丟失所占比例可能更大。
針對問題3,表征信息是有效瀏覽和使用實驗數據所必須的工具,比如瀏覽軟件、分析軟件、理解實驗數據所需的知識、記錄實驗數據生產的文檔等,這類信息常常要求與實驗數據一起保存。由于高能物理領域中實驗數據的高度復雜性,表征信息對有效使用和理解實驗數據至關重要。
表征信息的丟失有三種情況:其一是自然丟失,比如存儲介質的退化導致保存在這些介質中的表征信息丟失;其二是保存策略的實施導致表征信息丟失,比如實施數字遷移可能會導致表征信息沒有同步遷移;其三是惡意損壞,比如黑客對表征信息數據庫的惡意攻擊。表征信息的過時是指新的瀏覽軟件和分析軟件的出現導致采用原來的軟件無法有效使用實驗數據,此時原來的瀏覽軟件就過時了。
針對問題4,格式過時是導致數字資源無法有效使用的最重要原因之一,根據目前的實踐,解決該問題的常用方法有二:數字遷移和數字仿真。數字遷移是通過改變數字資源的文檔格式,使其適應于新的軟件環境,從而使用戶能夠采用當前軟件有效地訪問和瀏覽過去的數字資源。數字仿真則不同,不改變數字資源的文件格式,但要提供采用新的瀏覽軟件來瀏覽過時格式數字資源的仿真工具。
認知上,雖然研究人員認為實驗數據的保存非常重要,并且對實驗數據保存的原因和用途的認識也比較一致,但對實驗數據保存的未來高度憂慮(具體體現在最嚴重的保存威脅是“可持續性”)。因此,業界應該加強對數字保存的可持續性研究。宏觀上,數字保存的可持續性包括管理、技術、經濟可持續性等方面。多年來,對數字保存的研究主要集中在管理和技術層面,但對經濟可持續性涉獵甚少,因此應該開展對該課題的探討。
從運行機制角度,目前的數字保存有兩大類:基于市場機制運營(如CNKI的中國期刊網)和基于公益性機制運營(如美國國會圖書館的American Memory)。這兩類數字保存都可以視為經濟產品,其中前者可視為市場經濟產品,后者可視為公共經濟產品。從經濟產品角度,數字保存經濟可持續性可以從解析其經濟要素并在此基礎上對其進行經濟評價兩個方面進行研究。
數字保存的經濟要素解析可以從宏觀和微觀兩個層面進行,宏觀經濟要素主要包括“供給與需求”,微觀經濟要素主要包括“成本與收入”。數字保存的經濟評價包括定性評價和定量評價,其中定量評價可以從評價指標體系建立和評價方法設計兩個方面進行,評價指標體系包括財務指標和實物期權指標,評價方法包括評價指標的計量方法、評價指標的基準值設置方法以及評價實施等。
實踐上,比較集中的是數字保存質量問題。與其他產品一樣,無論是作為經濟產品的數字保存還是作為公共產品的數字保存,其質量問題都可以通過建立其質量標準并在此基礎上對其進行質量認證來解決。
在質量標準建立方面,根據全面質量管理理論,產品質量不僅限于生產過程,也體現在各個環節:決策、設計、制造、檢查、使用和服務等。對數字保存來說,“決策”和“設計”由保存者實施,“制造”和“檢查”由數字資源生產者實施(有時候,保存者和生產者是同一個機構,有時候則是不同機構),“使用”由用戶實施,“服務”也由保存者實施。鑒于數字保存的特點,“使用”和“服務”都需信息技術支撐。因此,數字保存的質量標準可以從管理質量(如保存方針、災難性事件的應對方案、數字保存風險識別與管理)、性能質量(如數字資源的正確性和完整性、保存信息包組成的完整性、系統檢索性能)、服務質量(如用戶服務政策、用戶服務管理)、技術支持質量(如數據備份的同步更新、損壞和丟失數據的檢測與恢復、系統軟件與硬件、系統安全)等四個方面來研究建立。
在數字保存質量認證方面,可以借鑒成熟的ISO質量體系認證方案,結合數字保存的特點,設計認證模型。該模型可以從認證機構和認證人員的要求與資格、認證模式、認證標準、認證流程和認證方案等方面來構建。