文/胡良霖 黎建輝 沈志宏
科學大數據的建設與管理
文/胡良霖 黎建輝 沈志宏
科學數據是指通過實驗、測量、觀測、調查和計算等方式采集,以科學證據形式存在的客觀事實(Facts),包括數字化觀測、科學監測等來自儀器設備或傳感器的數據,計算模擬與模型輸出的數據,對情景或現象的描述,對行為的觀測或定性描述,用于管理或者商業目的統計數據等等。科學數據通常是科研過程的輸入,是證實或者證偽科學發現或科學觀點的事實、證據或者論證推理的基礎。廣義上講,人們目前接觸到的所有數據都可以被應用到科學活動,可以納入科學數據的范疇,所以這里不做概念性定義和探討。
科學數據的采集方式主要有兩種:一是手工采集,科研人員通過觀察、測量、訪談、調查等方式,記錄在紙張上或者其計算機中的表格、文本、圖形等,該類數據通常量較小,復雜度低,但價值密度高;二是機器采集,由大型科學儀器設備、大科學裝置、各種聯網的自動監測網絡以及大規模計算模擬等自動產生,這類數據量比較大,產生的速度快,復雜度高,但往往有程度不一的噪聲。
從大數據4V特征分析典型學科領域的科學數據,如表1所示,科學數據是很典型的大數據。科學大數據作為國家科技創新的戰略資源,已在國家《促進大數據發展行動綱要》予以明確。
大數據時代已然到來,科學活動也在進入基于大數據的大發現和大科學新時代。郭華東院士在《中國科學報》發表的題為《大數據+大科學=大發現》訪談文章中提出:“尤其是需要巨額投資建造、運行和維護大型研究設施的大科學工程,以及需要跨學科合作的大規模、大尺度的前沿性科學研究項目,更是與大數據聯系密切。大數據+大科學=大發現。”2016年5月24日,BBC以特別報道的方式詳細介紹引領中國科學革命的五大工程:FAST天文望遠鏡、豬角膜移植人體、大亞灣中微子實驗、彩虹魚無人潛水器、載人航天和探月計劃,很顯然這些工程都離不開數據的支撐,而且FAST天文望遠鏡、大亞灣中微子實驗、載人航天和探月計劃都是生產大數據的工程部署。

表1 典型科學大數據的4V特征
在科學數據建設與管理方面,過去的30年中國科學院一直不斷探索和努力,從1986年國家計委正式批復啟動“科學數據庫及其應用系統”工程以來,在國家和中科院的持續支持下,現在已經發展到了第五個階段。第一個階段是1986~2000年,研究所/課題組自主自治的科學數據資源積累和共享服務;第二個階段是2001~2005年,中科院“十五”信息專項支持,實現了規范化和規模化資源積累;第三個階段是2006~2010年,中科院“十一五”信息化專項和國家科技基礎條件平臺等支持下,實現了領域數據整合與系統性開放共享(科學數據網格);第四個階段是2010~2015年,中科院“十二五”信息專項支持,實現資源深度整合與應用服務,形成了科學數據云;第五個階段是從2016年開始的目前,科學邁入大數據時代,科學數據的資產化管理和數據驅動的科研創新成為該時期工作的重點。表2是過去30年中科院科學數據資源發展的統計。
圍繞著科學數據,經過30年的探索形成了比較完善的體系,主要包括以下工作:
1.科學數據集成整合與共享服務
2.基礎環境與云服務能力
3.數據管理云服務技術體系
4.科學數據管理與服務標準規范體系
5.科學數據服務體系
6.典型應用
7.數據共享政策與數據服務評估管理體系
關于科學數據集成整合,以資源學科領域、植物資源保育學科領域為例,說明集成整合的現狀。在資源學科領域基礎科學數據整合與集成方面,以資源學科體系為框架,通過聯合共建,推動跨單位、跨地域的資源互補和數據整合,形成了比較完善的數據資源體系。在植物資源保育學科領域基礎科學數據整合與集成方面,實現了武漢、版納、華南三個植物園,基于統一的物種名稱和數據訪問中間件實現跨庫整合。在資源融合的基礎上,通過中科院數據云服務門戶(www.csdb.cn)向社會免費共享服務,服務效果良好,取得了很好的科研效果和社會效果。多源異構科學數據云管理技術體系如圖1所示。
中國科學院科學數據庫的基礎環境與云服務能力、數據管理云服務技術體系、科學數據管理與服務標準規范體系、科學數據服務體系都已經形成,并在應用中取得了良好的效果,并且這些成果都向社會開放,以科學數據管理和服務標準為例,據不完全統計,標準規范文檔已經被下載兩萬次之上。
科學數據資源建設和服務的目的是促進數據的深度及廣泛應用,“十二五”期間,數據應用也取得了豐碩的成果,以下從三個示例簡單說明一下。
一是中微子實驗數據庫支持中微子震蕩研究。大亞灣中微子實驗是中國基礎科學領域目前最大的國際合作項目,基于實驗數據建設的中微子實驗數據庫,成功支持了中微子振蕩模式的發現和精準測量,助力我國科學家首獲“基礎物理學突破獎”。
二是動物主題數據庫支撐中國生物多樣性紅色名錄。2015年,由環境保護部聯合中國科學院,全國500多位相關領域專家參與,目的是全面掌握中國物種受威脅狀況。動物數據庫承擔并完成《中國生物多樣性紅色名錄-脊椎動物(兩棲類)卷》和《中國生物多樣性紅色名錄-脊椎動物 (爬行類)卷》的評估報告。
三是學術論文引用,經權威機構統計,在CNKI收錄的期刊中,已經查得有1773篇學術論文明確標注了使用中科院科學數據云開放共享的科學數據資源。

表2 中科院科學數據30年發展統計

圖1 多源異構科學數據云管理技術體系
科學大數據在進入大數據時代以后,無論是天文、空間、高能還是微生物研究,都面臨著海量數據快速、高效處理的挑戰。2016年,中科院計算機網絡信息中心承擔了國家重點研發計劃“云計算和大數據”重點專項科學大數據管理系統,聯合了中科院有關研究所以及清華、北大、人大、西安交大、上海大學、山東大學等高校的共同參與。
經過近一年的聯合攻關,該項目已經取得了重點突破和顯著進展,在完善的技術架構體系下,實現了多源數據采集、大數據組件彈性部署、高性能數據管理、多元大數據管理系統集成管理、可配置大數據流水線管理等多項技術突破和深度應用,且在項目外的部分單位得到了應用驗證。
雖然已經置身于科學大數據時代,我們還應客觀、清醒地認識到科學數據積累與應用的重要性,毋庸置疑大數據管理與分析水平已經成為全球分秒必爭的科技競爭能否勝出的關鍵,正因如此,全社會應該更加重視科學數據的持續積累這一長期性基礎工作。在數據開放共享的政策法規尚需完善的情況下,全社會應利用新技術和新思路去探索數據開放共享的可行模式,這方面比較成功的探索有,以Nature的Scientific data、《中國科學數據》為代表的數據出版等,都值得關注與跟進。科學數據為科學發現服務的同時,應進一步釋放數據紅利,探索服務于“雙創” 的機制、運行模式等,這也符合國家《促進大數據發展行動綱要》對大數據發展的定位和要求。
(責編:楊潔)
(作者單位為中國科學院計算機網絡信息中心)