◎彭秀媛 王 楓 周國民
科學數據共享模式研究并不是一個新的研究主題,但在數據密集型科學研究范式和web2.0模式下,新的數據對象和科學數據共享需求的出現,深刻影響著科學數據共享模式。農業科學數據共享研究對象由國家科技計劃項目數據、政府部門長期采集的科學數據和管理的業務數據,擴展到了廣大農業科研人員在研究工作中所產生的大量分布式科學數據。數據共享也需將依靠自上而下的任務推進模式轉變為自下而上的應用倒逼模式。因此基于農業科學數據特點及需求,探索面向重用的農業科學數據共享模式,對于推動農業科學數據資源建設,支撐國家及區域農業科技創新有著重要意義。
隨著技術的進步和需求的變更,共享模式研究的范圍不斷擴大、研究重點也不斷轉移。學者們從不同范圍、不同層面、不同角度對共享模式進行了研究和實踐,按照共享對象可歸納為文獻信息資源共享模式、政府信息資源共享模式、科學數據共享模式、知識共享模式四類。其中較多針對文獻信息資源共享模式進行研究,科學數據共享模式的研究仍處于探索階段。上述共享模式的對象、目的和角度不盡相同,但都構建了符合其需求的最佳模式。從發展趨勢來看,共享模式將呈現多種形式共存、全方位共享的局面。
在科學數據共享模式研究方面,不同研究角度帶給我們紛繁多樣的科學數據共享模式,總體來看,在抽象化共享模式研究方面,微觀層面上圍繞科學數據對象,中觀層面關注共享運行組織,宏觀層面著眼于共享制度;在具體化共享模式研究方面,針對地球系統科學數據、國家人口和健康科學數據、基因和臨床數據等對象開展了實踐研究[1]。不同領域的科學數據需求和共享對象特質決定了科學數據的共享模式,例如氣象學、遙感、水文等領域研究主要重用大型標準化數據集,其共享模式主要采用政府主導的共享模式;生態等領域研究則更需要一些小型分布式科學數據,其共享模式主要采用個體間或基于數據社區等中間體形態的共享模式;農業領域研究將組合涉農多領域科學數據共同開展,因此其所需模式更為復雜多樣,實踐更具特色。現有科學數據共享模式研究只著眼于抽象化共享模式或具體化共享模式展開,未見結合抽象化模式和具體化模式的共享模式研究思路。
前期以遼寧省為例對農業科學數據的用戶情況、資源現狀、共享現狀、重用情況和需求情況進行了調研[2]。通過對調研結果進行深入分析,總結了農業科學數據相關特點:
1.農業科學數據特點:除具有來源復雜、內容復雜、傳播復雜、地域性、季節性、多樣性、周期性等特點外,還具有以下特點:數據存量大;數據呈現“小集中、大分散”的分布模式;數據類型多樣;數據標準化程度低;大部分數據獲取方式原始。
2.農業科學數據重用特點:處理程度不高;數據重用行為較少;數據重用方式單一;論文附帶的證明數據應用頻繁。
3.農業科學數據共享特點:數據共享意愿強烈;可共享的數據資源充足;共享方式單一;共享機制不完善。
科學數據重用模式可歸納為以下三類:1.數據層面的傳統科學數據重用模式(包括基于私有數據接口的數據重用、基于SOA等架構接口服務的數據重用、基于數據交換代理的數據重用);2.組織層面的科學數據重用模式(包括科學數據集成檢索與服務、科學數據語義化組織與再利用等);3.應用層面的科學數據重用模式(包括特定科學數據處理流程構建、基于科學數據挖掘新知識等)。
1.農業科學數據共享模式構建思路
研究構建的數據共享模式為抽象化和具體化相結合的共享模式,首先提出抽象化數據共享模式,基于此模式,在實際應用中衍生出與應用場景緊密聯系的多個具體化共享模式。抽象化數據共享模式研究路線為:綜合分析農業科學數據特點和數據重用特點,設計面向重用的農業科學數據分類。綜合分析農業科學數據特點、數據重用特點和數據共享特點,基于農業科學數據分類,在適應需求、適度超前、因地制宜、漸進發展、可持續等共享模式構建原則下,開展農業科學數據抽象化共享模式研究(圖1)。

圖1 農業科學數據抽象化共享模式研究路線
2.面向重用的農業科學數據分類
數據分類是數據共享和重用工作中不可或缺的環節。國內外進行科學數據共享建設的相關機構也都建有自己的分類體系,但各自獨立、差異很大,且更多考慮檢索的需求,缺乏面向農業科學數據重用,兼顧農業科學數據特點的數據分類[3-5]。根據農業科學數據重用特點和重用模式,結合文獻調研結果,研究認為將農業科學數據分為間證數據、基準數據、一次數據、二次數據四類更為合理(圖2)。其中間證數據和基準數據包含于一次數據和二次數據,但根據科學數據重用的特點,間證數據和基準數據作為廣泛重用的數據類型,特將其從一次數據和二次數據中分離出來進行考慮。

圖2 農業科學數據分類及關系
(1)間證數據。間證數據是指支撐科技論文的科學數據,也是形成論文結論和驗證論文結果的必要數據,NIH將此類數據定義為“最終數據(final data)”[6]。其主要作用是作為同行評審的參考依據,以及論文發表后的研究再現。
間證數據目前主要有論文附件、論文補充數據和數據論文三種形式。其中論文附件是指使用的方法、圖表、公式等支撐論文主要內容的數據;論文補充數據是指原始與衍生數據集、軟件代碼、視頻與音頻文件等不適合印刷的有效電子文件數據[7]。數據論文可被認為是按照學術規范出版的、能夠被檢索的、用來描述一個或多個可在線訪問數據集的數據元數據文件[8]。論文附件、論文補充形式早已有之,較為普遍,數據論文或許是未來的主要形式。
(2)基準數據。基準數據是指農業統計數據、農業常用參數和現代農業基準數據等。
農業統計數據包括全國農業普查數據、中國統計年鑒(農業部分)、省級農業統計年鑒等;在科學研究領域還涉及實驗統計、氣象統計、論文統計等小門類統計,統計類別及側重各有不同。其中2005年出版的《中國農業統計資料匯編1949-2004》是目前較為全面、系統的農業統計資料[9]。
農業常用參數有農業物料基本參數、農業環境參數、動植物機理參數(形態結構參數、農林植物生物特性參數、農田養分平衡和循環基本參數等)、農業生產參數(品種參數、動植物營養參數、標準化生產技術參數等)、常用農業機械和信息裝備技術參數、農業科技成果經濟效益評價指標等。可檢索到的描述農業參數的相關書籍是羅慶成于1984年編寫的《常用農業參數,系統和定額》。
現代農業背景下,中國農業科學院農業信息研究所于2011年提出了現代農業基準數據這一新理念,是指以農業信息規范和標準為基礎,以現代信息技術為手段,收集和整理的產前、產中、產后各環節的基礎精準數據。包括農業自然資源環境基準數據、現代農業生產基準數據、現代農業生產基準數據、現代農業管理基準數據四類[10]。
(3)一次數據。經文獻和網絡調研確定,本研究中一次數據的概念與“一手數據”和“原始數據”的概念相近。已有不同視角的概念界定:以統計視角來看,是指沒有經過整理的數據;以數據庫的視角來看,是指終端用戶存儲使用的各種數據;以數據獲取方式來看,是指通過問卷、訪談、詢問等方式直接獲得的數據。本研究將科研活動中直接產生的觀察、調查、監測、檢測和科學實驗數據統稱為一次數據。具有時效性好、相關性好、可信度高等特點,能夠解決待定問題,回答二次數據不能回答的具體問題。
(4)二次數據。經文獻和網絡調研確定,本研究中二次數據的概念與“已有數據”和“二手數據”的概念相近。已有的概念將其界定為來源于他人的一次數據,包含發表及未發表數據,也有將其界定為對一次數據進行分析、整理和歸納形成的數據。本研究將按照不同需求系統加工、整理和分析獲得的數據產品和相關信息統稱為二次數據。
3.面向重用的農業科學數據抽象化共享模式
為了能夠最大程度上發揮農業科學數據的作用,同時保護數據擁有單位的利益,基于對已有共享模式的歸納分析,在科學數據共享模式構建原則下,按照農業科學數據共享模式構建思路,提出了結合數據組織與數據分類的兩級抽象化共享模式(圖3)。

圖3 農業科學數據共享模式
在組織層面,農業科學數據組織工作需面向數據重用,滿足數據使用者的多元化需求,因此采用集中式與分布式結構相結合的綜合組織模式。其中集中式共享模式具有數據集中、平臺集中、管理集中的特點,適用于共性的、通用的、利用率高的農業科學數據資源,便于統一組織協調,最大限度減少資源重復建設。分布式共享模式中數據資源由多個數據資源站點(如省院各所、地市農科院等所屬資源)的科研部門或人員單級或多級分布存儲,隸屬關系不同,各具特色;基于統一平臺提供數據檢索、目錄導航和互操作等應用;基于較好的技術支撐和協作機制進行組織和管理。綜合以上兩種模式,基于統一平臺支撐農業科學數據資源的管理與服務。
在數據層面,不同數據分類采取相對應的數據組織方式。其中間證數據和基準數據均為已發表或將要發表的數據,且利用頻繁,因此采取集中式方式進行共享更為合適;一次數據和二次數據一般分布在不同的地理位置,往往由不同的單位或個人擁有和管理,且部分只適合在一定條件下和一定范圍內重用,需要留在科研團隊或科研人員手中,因此采取分布式方式進行共享更為合適。
4.共享模式的可行性分析
所提出的農業科學數據共享模式從數據來源看,支持多單位聯合共建;從面向重用的數據分類看,適應農業科研活動規律;從數據類型看,既支持規模化數據,也支持小眾化數據;從數據權益性質看,即支持公益性的開放共享,也支持商業性的數據交易;從共享意愿看,滿足科研人員對其數據知識產權的掌控需求;從共享路徑看,支持橫向和縱向的聯合;從共享形式看,支持多模式并舉,互動式共享;從共享活動看,能夠滿足數據提供者和數據使用者共享活動需求;從數據重用看,支持個體、組織等多對象的數據重用活動;支持地方數據的原始積累;一定程度上緩解數據共享存在的知識產權保護、運行的可持續性、共享積極性方面的問題;有助于培養數據共享意愿,促進共享文化形成。
科學數據本身具有的可復制性和科學數據的綜合應用性,決定了科學數據資源的共享性。因此想要最大化地實現科學數據的價值,必須進行數據的充分共享和重用。本研究設計了面向重用的農業科學數據分類,在以下三方面支撐和促進農業科學數據共享與重用:面向數據擁有者,為其擁有的數據進行定位提供參考;面向數據用戶,為明確其數據重用需求提供參考;面向數據管理者,通過數據分類梳理出數據資源體系,有助于整體部署科學數據集的生成及進一步重用。提出了抽象化與具體化相結合的農業科學數據共享模式構建思路和技術路線,擴展了農業科學數據共享對象范圍,能夠較好的支撐農業科學數據共享與重用。