●臧國全,胡喜超(鄭州大學 信息管理系,鄭州 450001)
研究數據類數字資源有很多種,其保存價值也各有所不同。主要類型有下述4種:
(1)觀測型數據。來自于天文望遠鏡、人造衛星、傳感設備、測量儀器以及其他記錄不可重復性現象數據(如天文數據庫SDSS[1]中的數據)的設備,還包括社會觀測類數據(如ICPSR[2]的人口調查數據)。很多情況下,產生這類數據的觀測環境無法再現。
(2)實驗型數據。來自于大型實驗設備(如粒子加速器)的實驗、醫學臨床試驗、生物實驗、制藥實驗以及其他條件控制性實驗的實驗結果(包括中間結果),還包括對人類和瀕臨滅絕物種進行實驗的數據。有些情況下,重復這類實驗要么不可行,要么有悖于人類倫理道德。
(3)計算型數據。來自于大規模計算的模擬。雖然這類數據可以通過重新模擬計算環境再次獲取,但至少有下述原因需要對這類數據進行中期(一般3—5年)以上保存,即短期內難以獲得這種模擬所需的時間和計算設備等資源,這種情況對于大范圍共享的超大型計算設備(如美國國家自然科學基金NSF的計算機)尤其普遍。
這3種類型數據的保存常常需要同時保存一些輔助數據,比如設備的校準數據、實驗參數等。
(4)參考型數據。比如人類基因數據庫和全球蛋白質資源數據庫(UniProt[3]) 等,主要用于跨學科橫向研究(如,全球經濟和社會狀態的交叉研究等)。
一般認為,研究數據類數字資源保存是傳統介質研究數據類信息資源保存的延伸。但是,由于下述兩個原因,導致兩者存在較大區別:其一,研究數據類數字資源的非排斥性消費屬性(原因在于傳統介質研究數據類信息資源是購買使用,而研究數據類數字資源是授權使用),導致保存動機不足,并產生“搭便車”的問題;其二,研究數據類數字資源保存的派生需求屬性,導致保存動機錯位,并產生利益相關方承擔的保存職責變化。
從經濟學角度看,數字保存的基本屬性是供給與需求。影響數字保存供給與需求的因素主要有三:[4]數字資源的保存價值、保存決策者的保存動機和數字資源的保存成本。在數字保存的總體框架下,探討研究數據類數字資源保存的供給與需求影響因素,不僅有助于這類數字資源保存的可持續性,而且也可供其他類型數字資源(如學術型數字資源) 的長期保存參考。
經濟學上,價值指受益。數字資源的保存價值是用戶對其訪問和使用所獲得的受益。保存價值不僅影響數字保存的供給,同時也影響數字保存的需求。保存價值越高,不僅會提升數字保存的供給,也會刺激數字保存的需求;反之,會導致數字保存的供給和需求的下降。
保存價值體現在用戶需求之中。數字保存的用戶需求有兩個基本特征:① 當前需求的發散性,指不同類型的當前用戶群體對某一類型數字資源的訪問需求的分布狀態。針對研究數據類數字資源,當前用戶具有高度集中性,且具有較強學科專業特征,主要分布在兩個領域:一是研究人員,尤其是基于“數據密集型研究”的專業人員,這類用戶將研究數據類數據資源作為一項新研究的輸入,同時其研究的輸出又形成新的研究數據類數字資源;二是公共政策制定人員,這類用戶在制定公共政策時常常需要參考這類數字資源(如,氣候、地震、海洋、社會普查、瀕臨滅絕物種等數據)。以上兩類用戶對研究數據類數字資源保存的完整性、可訪問性和保存實踐的重大變化都會給予高度關注。② 未來需求的預測性,指用戶需求不僅分布在現在,更主要分布在未來,因此在進行數字資源的保存選擇時,不僅要考察當前的用戶需求,還必須預測未來的用戶需求。針對研究數據類數字資源,未來需求可以基于傳統介質研究數據類信息資源進行合理預測,而后者的未來需求預測模式的形成與完善已有很長歷史。
保存價值與保存周期有關。數字資源的保存周期越長,半衰期也可能越長,保存價值可能越大。從保存周期角度劃分,研究數據類數字資源可以分為兩類:一是需長期保存的數字資源,主要涉及觀測環境無法再現的觀測型數據、難以重復進行實驗的實驗型數據以及一些歷史類數據,這類數據半衰期很長,保存價值也很高;二是需要中期保存(一般為3-5年)的數字資源,主要涉及計算型數據和觀測環境可以再現的觀測型數據,這些數據一旦有更新或更完整的數據出現(如,更精確設備實驗產生的數據),就應該及時更新,更新周期取決于數據性質和學科專業,但一般不會太久,所以半衰期相對較短,保存價值也相對較低。
保存價值與數字資源的保存選擇有關。一般來講,經過權威專業機構進行保存選擇的數字資源的保存價值比不加選擇而進行保存的價值要高。針對研究數據類數字資源,專業團體在對這類數字資源進行保存選擇和保存周期設定方面扮演重要角色,比如,美國應用研究中心(ARC[5])和美國政治與社會研究跨大學聯盟(ICPSR[2]) 分別代表天文科學和社會科學的專家和用戶制定天文觀測數據和社會普查數據的保存選擇標準。實際上,幾乎所有的數據密集型研究領域都形成了各自領域的比較一致的保存選擇標準,授權給一個代理機構代表該領域專家和用戶實施該領域數據的保存選擇,實踐證明,這是一種提高保存價值的有效方式。
保存價值的測度來自于用戶訪問的受益。但這種受益很難定量化,很多時候只能定性化,比如增加知識、幫助解決問題等。正是因為這個特征,保存價值常常用負面受益形式表示。負面受益包括兩個方面:① 如果數字資源沒有保存,未來需求時就需重新生產,這會產生生產成本,這種情況適用于計算型數據和觀測環境可以再現的觀測型數據;② 如果無法再次生產,將導致永久性不可訪問,此時的保存價值可以用減少無法接受的損失風險來衡量,這種情況適用于觀測環境無法再現的觀測型數據、無法重復進行實驗的實驗型數據以及一些歷史類數據,一旦錯過保存時間,將導致永久性丟失。
保存動機是保存決策者實施數字保存的驅動力。影響數字保存供給與需求的保存動機缺失有兩種情況:一是保存動機不足,比如以營利為目的的數字保存系統在保存成本高于保存收入時;二是保存動機錯位,比如出現在數字保存的受益群體(因此他們有保存動機)與處于保存位置(因為他們擁有或控制數字資源)但缺乏保存動機的團體之間的錯位。
保存動機不足的根本原因在于數字資源消費的搭便車問題。從經濟學角度講,用戶對數字資源的消費是一種非排斥性消費,數字資源可同時供眾多用戶并發消費,并且相互之間不會產生影響。這種非排斥性消費屬性必然導致“搭便車”問題(也即“免費享受”問題)。“搭便車”問題是指一些人需要某種產品(一般是公共產品),在別人付出代價去取得后,他們采用“拿來主義”,不勞而獲地享受成果。[6]例如,在天文學領域,提倡專業研究者與業余愛好者之間共享數據一直是天文學科的優良文化,該領域的研究數據類數字資源庫SDSS也支持范圍寬泛的各類用戶免費訪問,這種學科文化和訪問政策就導致嚴重的搭便車問題,并因此大大降低了保存決策者(往往也是保存費用的承擔者)的保存動機。
解決研究數據類數字資源保存動機不足的第一種方法是將用戶限定在支付費用的范圍之內。比如,成立于1962年全球最大的社會問題與政策研究數據保存機構ICPSR[2](美國政治與社會研究跨大學聯盟),該聯盟目前運行包括美國人口統計、教育、人類健康與疾病、少數民族等9個領域的20多個有關美國社會問題的研究數據類數據庫,[7]這些數據庫的保存費用有些來自于美國聯邦政府(比如,人口統計數據庫DSDR的保存費用來自聯邦統計局,也即美國公民的稅收),用戶局限在美國本土(采用IP限制方法);有些來自于會員費用(如,人類健康與疾病數據庫HMCA),用戶局限在注冊會員;也有些提供用戶在線注冊訪問,保存費用(至少部分保存費用) 來自用戶的注冊費用。上述3種方法都被證實是解決“搭便車”問題的有效途徑,也是ICPSR保存動機的根源所在。
解決研究數據類數字資源保存動機不足的第二種方法是實施保存意愿,強制性提升保存動機。資助機構常常是保存意愿的施加者,被資助機構或個人則是保存意愿的接收者。比如,作為資助機構的美國國家自然科學基金委員會(NSF)和英國聯合信息系統委員會(JISC),針對資助的研究項目制定了研究數據的保存選擇標準,明確規定用于研究數據保存的受資助項目的資金比例,并將研究數據保存作為成果評價的一個核心指標,監督研究數據的產生和保存過程,建立和完善研究數據生產與保存的報告制度。實際上,針對這種基金資助型研究,研究數據的保存遵循“零和規則”(zero-sum[8]),也即研究數據保存活動花費的時間和資金從研究項目總體預算中扣除,不會產生額外負擔,這種規則對提升保存動機產生較大影響。
保存動機錯位的根本原因是數字保存的派生需求屬性。所謂派生需求是指對一種產品(常常是中間產品) 的需求派生自對另一種產品(常常是最終產品)的需求,如對輪胎的需求派生自對汽車運輸的需求。針對數字資源,社會關心的是未來訪問和利用的可能性,長期保存則產生這種可能。所以,對數字保存的需求派生自用戶對數字資源的未來訪問的需求。
解決保存動機錯位的第一種方法是實施產權的非獨占性許可,從而實現保存職責的轉移。在傳統介質研究數據類信息資源保存與訪問中,版權法保護這類信息資源的產權擁有者在特定時期內享有的獨占權,同時也授予有限權給有資質的公共機構進行保存以滿足公共的訪問需求。但是針對研究數據類數字資源,這種公共與私人之間的利益平衡關系難以實現,因為數字資源是授權使用,而傳統資源是購買使用。為了實施有效的數字保存,學者可以將自己的研究成果的保存權以非獨占方式直接許可給致力于長期保存的數字保存系統,將保存職責從學者個人轉移到專業的數字保存系統。比如美國天文學SDSS數據庫,天文業余愛好者和專業研究者將其觀測和研究出的天文數據的保存權以非獨占方式轉讓給該數據庫進行長期保存,供其他天文愛好者和研究人員免費共享訪問,同時也實現了這類數據的保存職責從個人擁有者到專業保存者的轉移,為后者理順了保存動機。
解決保存動機錯位的第二種方法是構建公共保存與私人保存之間的合作機制,協調保存動機。這類合作機制的基本功能有二:一是界定公共與私人之間的保存角色和承擔的保存職責;二是研究數字資源從私人擁有者到公共保存機構的安全轉移。一些領域已經建立了這類合作機制,比如,根據美國國會頒發的《國家數字信息基礎結構和保存計劃》中的公共與私人數字資源保存之間的多邊合作機制框架,美國U-niProt協會承擔生物科學技術領域中這類合作的協調職能,履行該領域中公共保存與私人保存之間合作機制的管理職責。另外,該機構建立的全球著名的蛋白質UniProt數據庫(收錄生物科學的研究數據,包括基因研究數據、蛋白質序列研究數據等),依靠美國聯邦政府財政撥款從公共利益角度保存該領域的研究數據,供全球生物科學科研人員免費訪問。
基于目前實踐以及經濟學角度,研究數據類數字資源的保存被視為下述兩種不同的經濟產品,成本支付方式差異甚大,對該類數字保存供給與需求的影響也很不同。
(1)研究數據類數字資源的保存被視為一種公共產品。比如,全球蛋白質數據庫、天文學SDSS數據庫等,公共機構保存這類數字資源,通過社會公共資金(一般來源于社會稅收)支付保存費用。針對這類數字資源的保存,成本越低,所需資金就越少,這類公共產品的供給門檻就越低,反之,就會增加這類公共產品供給的困難。目前,業界持有一個普遍觀點是對這類公共產品應該提供公共獲取,甚至免費的公共獲取(如著名機構PubMed Central[9]所提倡的)。但是,如果公共獲取政策不與保存成本相連接,那么這種獲取就失去了經濟基礎。一些數字保存的經歷說明:[10]即使公共投資也沒有長期的保障。
(2)研究數據類數字資源的保存被視為一種經濟產品。比如,ICPSR中一些數據庫,商業化的數字保存系統提供保存并面向公共提供訪問,通過收取用戶的訪問費用支付保存成本。針對這類數字資源的保存,保存成本不僅影響這類經濟產品的供給,也會影響用戶對這類經濟產品的需求。成本過高,會增加數字保存供給的經濟障礙,也會提高用戶支付的訪問費用,降低用戶的訪問需求。因此,降低保存成本是這類經濟產品的一個永恒主題,實現的基本方式有規模經濟和范圍經濟兩種,前者的一個示例是保存的數字資源規模越大,單件保存成本越低;后者的一個示例是綁定保存服務與訪問服務。
另外,還有一種成本支付模式是上述兩種的結合,由政府提供初始資金,用于數字保存系統基礎設施的建設,系統運行成本通過收取用戶訪問費用支付。這種模式有助于促進公益性較強的研究數據類數字資源的可持續保存以及數據密集型研究的基礎建設。
無論是在自然科學領域,還是在人文社會科學領域,基于數據密集型的科學研究方法應用日臻普及,這種方法的應用基礎是研究數據類數字資源的長期保存。構建這類數字資源的長期保存模型應該至少包括:
(1)研究數據類數字資源的保存價值的評估機制。該機制應該由專業社團或其他公共認可的組織構建,用于保存機構對這類數字資源進行長期保存時的篩選。
(2)科學基金資助的研究數據類數字資源的保存意愿的施加機制。該機制應該由科學基金提供者實施,用于受資助項目產生的研究數據類數字資源的保存或轉移給公共保存機構進行保存。
(3)研究數據類數字資源的長期保存成本的分攤機制。該機制應該由數字保存系統實施,用于該類數字資源長期保存的經濟可持續性保障。
(4)研究數據類數字資源生產者的非獨占性許可機制。該機制應該由該類數字資源生產者實施,用于降低公共機構從公共利益出發保存該類數字資源的產權障礙。
(5)研究數據類數字資源的私人保存與公共保存之間的合作機制。該機制應該由這類數字資源的領航保存機構(如美國的ICPSR)構建并測試完善,用于該類數字資源從私人擁有者到公共保存機構的保存職責的轉移。
[1] SDSS.The Sloan Digital Sky Survey[EB/OL].[2010-08-01].http://www.sdss.org/.
[2] ICPSR.Inter-University Consortium for Political and Social Research[EB/OL].[2010-07-23].http://www.icpsr.umich.edu/icpsrweb/ICPSR/.
[3] Uni Prot[EB/OL].[2010-08-19].http://www.uniprot.org.
[4] Francine B,et al.Sustainable economics for a digital planet:Ensuring long-term access to digital information[EB/OL].[2010-03-10].http://brft.sdsc.edu/biblio/BRTF_Final_Report.pdf.
[5] ARC.Applied Research Center[EB/OL].[2010-08-02].http://www.arc.org.
[6] 百度百科.搭便車問題的經濟學含義[EB/OL].[2010-05-10].http://baike.baidu.com/view/1180932.htm.
[7] ICPSR Thematic Collections[EB/OL].[2010-08-06].http://www.icpsr.umich.edu/icpsrweb/ICPSR/partners/archives.jsp.
[8] 零和游戲 [EB/OL].[2010-07-01].http://zhidao.baidu.com/question/7116223.html?si=2.
[9] PubMed Central.U.S.National Institutes of Health free digitalarchive of biomedical and lifesciences journal literature[EB/OL].[2010-07-27].http://www.ncbi.nlm.nih.gov/pmc/.
[10] AHDS.Enabling Digital Resources for the Artsand Humanities[EB/OL].[2010-01-30].http://ahds.ac.uk.