前 言
科學數據是科研活動的輸入、輸出和資產,是科研人員對其所研究的客觀對象相關現象的描述.以大規模巡天望遠鏡、大型粒子加速器、高通量基因測序儀等為代表的新一代觀測與實驗裝置源源不斷產生巨量科學數據,將科學研究推入一個前所未有的大數據時代.這將改變人類幾個世紀以來主要研究和理解相對簡單、未耦合或弱耦合系統這一局面,大大增強我們詳細表征和描述復雜性的能力,以及分析高度耦合復雜系統動態行為的能力.可見,科學大數據管理與分析的能力及水平,成為了未來在分秒必爭的重大科學發現中能否勝出的關鍵.來自于天文學、生命科學、高能物理等應用領域的迫切需求,也正在挑戰著當今所有數據管理系統的極限,成為當下科學界和數據管理領域需攜手攻堅的難題.
2017年《計算機研究與發展》以科學大數據為專題,結合科學大數據的特點和典型應用需求,重點關注科學大數據管理理論與方法、關鍵技術與系統,以及各應用領域的最新進展等.本期專題經過公開征稿,總計收到40篇論文投稿,最終收錄了5篇論文,內容涉及科學大數據管理基本理論與關鍵技術,天文大數據、高能物理大數據、遙感大數據等領域大數據管理需求與實踐,科學數據眾包服務等主題.這些文章為相關領域的研究者探討科學大數據理論基礎及應用、討論最新的突破性進展、交流新的學術思想和新方法,以及展望未來的發展趨勢,提供了很好的交流機會.
大數據時代科學研究是一個大科學、大需求、大數據、大計算、大發現的過程,發展與科學發現過程有機融合,實現全生命周期、全流程管理的科學大數據管理系統具有重要意義.“科學大數據管理:概念、技術與系統”(黎建輝等,中國科學院計算機網絡信息中心)闡述了科學大數據的概念和特征,剖析了科學大數據管理面臨的挑戰與需求,分析了科學數據管理系統當前的研究進展,提出了一種全域科學大數據管理系統架構,并從數據融合、數據實時分析、長期存儲、云服務體系以及數據開放共享幾個方面分析了科學大數據管理中涉及的關鍵技術問題.
超大型天文觀測技術的出現可以幫助研究人員觀測新的天文現象,而這項技術的成功應用建立在海量天文數據的近乎實時產生、管理和分析的基礎上,當前的數據管理系統無一能滿足這種需求.“天文大數據挑戰與實時處理技術”(楊晨、孟小峰等,中國人民大學)針對地基廣角相機陣(GWAC)在數據存儲、檢索、持久化等方面遇到的挑戰,設計了分布式GWAC數據模擬生成器,用于模擬真實GWAC數據產生場景.在此基礎上,提出一種兩級緩存架構,使用本地內存解決多鏡頭并行輸出、實時瞬變源發現,使用分布式共享內存實現秒級查詢.通過實驗驗證,能有效解決GWAC在數據實時處理和管理上的難題.
規模巨大的高能物理實驗數據對數據采集、存儲、傳輸與共享、分析與處理等數據管理技術提出了挑戰.高能物理數據管理存在數據傳輸量大、IO瓶頸以及數據處理效率低等問題.為此,“高能物理大數據挑戰與海量事例特征索引技術研究”(程耀東等,中國科學院高能物理研究所)提出了一種面向事例的高能物理數據管理方法,該方法可從以文件存儲的海量原始數據中,按需抽取物理事例特征并建立專門的索引.同時,提出和實現了海量事例特征高效索引技術,通過系統驗證和分析,驗證了基于事例特征索引進行事例篩選的可行性,可以大幅提升高能物理數據處理的效率,降低資源的消耗.
遙感數據存在數據量大、數據種類多、數據分布分散等問題,并且遙感應用的復雜程度和個性化程度也不斷提高.然而,目前遙感數據管理和服務系統在容量、可擴展性、易用性和性能等方面都難以滿足遙感應用的需求.針對該問題,“遙感大數據的基礎設施:集成、管理與按需服務”(李國慶等,中國科學院遙感與數字地球研究所)從遙感數據的特點出發,剖析了遙感數據基礎設施應當具備的分布、異構、時空連續和按需數據處理等特性,設計了此類基礎設施的體系結構,探討了實現的技術難點與解決思路.該項工作可以實現數據與處理“存算一體”的目標,支持基于大數據的遙感科學合作研究與協同工作.
獲取科學數據的最終目的是根據需求從數據中提取有用的知識.由于科學數據具有結構復雜、應用多樣等特點,難以通過計算機實現全部自動化提取知識,眾包是一種可能的解決方案.“科學數據眾包處理研究”(趙江華、周園春等,中國科學院計算機網絡信息中心)針對科學大數據眾包處理的特點,圍繞人才篩選機制、任務處理模式和結果評估策略3個方面對科學數據眾包體系進行研究,并通過地理空間數據云平臺開展遙感影像信息提取的眾包實踐.實踐發現,科學數據不僅能夠通過眾包模式進行處理,而且通過合理的設計眾包流程能夠獲得高質量的數據結果.
承蒙各位作者、審稿專家和編輯部等方面的全力支持,本專題得以順利出版.由于科學大數據管理問題涉及的領域極其廣泛,包括了各個不同的科學研究領域.來稿數量大、時間緊、容量有限,所以部分優秀稿件無法刊列,而且本專題也無法全面體現科學大數據方面的最新成果.在審稿過程中亦難免出現不盡人意之處,希望各位作者和讀者包容和諒解,希望同行不吝批評指正.
最后要特別感謝《計算機研究與發展》編委會和編輯部,從專題的立項到征稿啟示的發布,從審稿專家的邀請到評審意見的匯總,以及最后的定稿修改出版,他們都付出了辛勤的汗水.最后衷心感謝各位作者、審稿專家和編輯部的辛勤工作!
孟小峰 中國人民大學
黎建輝 中科院計算機網絡信息中心
郭毅可 英國帝國理工學院
2017年1月