文/陳剛
大科學的數據是現代科學研究的根本,數據平臺的建設將保障和促進科學研究的順利開展。
現代科學研究項目往往規模巨大。高能物理、基因組學、蛋白組學、天體物理學等大科學工程都是以數據為中心的學科,這些大科學工程產生越來越多的數據,迫切需要建立大規模的數據中心對數據進行存儲、管理、分析和處理。
以高能物理實驗為例,當今以歐洲大型強子對撞機LHC(Large Hadron Collider)為代表的一批高能物理實驗每年產生的數據多達數十PB,需要建立一大批數據中心聯合對數據進行分析處理。過去十多年來,國際高能物理的同行在全球范圍內建立了近兩百個數據中心,利用網格技術將這些數據中心聯合起來形成一個統一的數據處理平臺,為LHC的物理研究提供支撐。這種多數據中心聯合形成的網格平臺很好地解決了海量數據開放融合、高效處理的問題。
高能物理采用完全開放融合共享的計算模式,海量基礎數據、計算能力、存儲能力、傳輸能力等等對于全球合作成員都是開放共享的。這種模式確保了所有的數據中心高效地分擔數據處理的任務,同時使物理學家能夠在世界上任何一個地方訪問數據資源和計算資源。可以說,高能物理是科研大數據的先驅,也是科研大數據的典型成功案例。
分布式的數據中心首先需要強大的網絡支撐。高能物理網格平臺采用1Gbps~40Gbps的專用國際網絡鏈路把這些近兩百個數據中心連在一起,利用這些網絡鏈路進行數據的傳輸和計算任務的全局調度。每年在這些數據中心之間的數據交換達數百PB。
大科學裝置產生的海量數據需要經過高效的處理和分析才能獲得研究結果。因此,建立高水平的數據中心為科學研究提供數據處理基礎環境是科學研究的重要工作之一。數據中心包括硬件環境和基礎軟件環境兩大部分,硬件環境包括數據存儲、計算環境、網絡環境三大資源。實驗產生的海量數據需要安全可靠地記錄保存起來,同時又能被高效的訪問。存儲系統需要根據科研數據的規模及處理模式進行仔細的規劃設計,以滿足數據分析的需求。一般而言,科學計算對數據的訪問往往既需要高吞吐率,又需要高并發率,這就要求數據存儲系統能支撐高I/O吞吐能力和高并發訪問能力。數據中心一般配備分布式的并行存儲系統,如GPFS, ZFS, Lustre等等。這些存儲系在性能和容量規模上都后很好的可擴展性,從而能夠很好的滿足作為大規模數據中心的需求。高能物理研究所的數據中心對Lustre進行了改進優化,建立的高性能海量數據存儲系統性能達到國際同行先進水平,可滿足大規模數據處理的需求。
數據中心的基礎軟件部分主要用于硬件資源和服務資源的管理。資源管理系統用于對存儲資源、計算資源及網絡資源進行管理和調度。由于許多大科學工程的數據處理和計算軟件不是標準的商業軟件,這些科學計算應用軟件需要針對科學項目進行自主開發。基礎軟件一方面將硬件平臺進行屏蔽,另一方面提供通用軟件庫來支撐科學計算應用軟件的開發。這樣做的好處是能夠讓科學家把精力放在與科學研究相關的軟件開發上而不必關心底層硬件的特性。這種模式也更便于科學計算軟件向新的計算機硬件平臺上的移植。
以高能物理為例,物理學家開發了用于描述粒子相互作用的軟件包GEANT4。該軟件包用來模擬粒子穿過介質時與介質發生作用的過程,幫助物理學家理解或預測實驗產生的結果和數據,并為實驗裝置的設計、數據的分析處理提供依據。另外,物理學家還開發了各種通用的數字計算和物理分析軟件包,如物理分析框架ROOT。ROOT是一個面向對象的數據分析框架工具,可用于大規模數據的分析處理和可視化。高能物理的數據中心普遍采用這些軟件包作為數據處理的基礎,而物理學家在此基礎上建立自己的數據處理系統。
事實上,以高能物理為代表的科研大數據研究一直在推動著計算、網絡、存儲等大數據基礎技術的發展。2004年開始建立面向數據密集型計算的高能物理數據中心,目前擁有近10PB的海量存儲空間,超萬核的計算能力。高能物理研究所在教育網和科技網的幫助下建立了通過TEIN2/ORIENT和升級后的ORIENTplus到歐洲的高速鏈路,每年的國際數據交換達到3PB以上。高能物理數據中心每年為LHC實驗的完成超過500萬個計算任務,為Higgs粒子的發現等重大物理成果的產出做出了貢獻。同時該數據中心還為其它高能物理、天文、生物等多個領域提供數據和計算服務,有力支撐了大亞灣中微子實驗在海量的事例中發現中微子第三種振蕩模式,被美國《科學》雜志評選為2012年度十大科學突破之一。

高能物理研究所有力支撐了大亞灣中微子實驗在海量的事例中發現中微子第三種振蕩模式,被美國《科學》雜志評選為2012年度十大科學突破之一。
借鑒高能物理海量數據處理的技術與經驗,高能物理研究所正在建設一個開放融合的科研大數據應用中心,通過將數據中心的功能進行外延,與大科學工程的數據獲取系統、數據處理和展示等系統進行整合,力圖成為大科學工程領域大數據的集散地和數據加工廠。
科研大數據應用中心的特點首先表現在數據開放性上。系統集分布式數據獲取和整合、存儲、共享、傳輸、處理與展現與一體,通過將平臺和應用的分工細化,提供不同級別的大數據基礎支撐服務。大數據應用的研究者、開發者只需要利用平臺開放的數據獲取能力,獲取需要的數據,或整合平臺已有數據,并調用已有的存儲、計算以及數據挖掘工具工作,即可以最高的效率、最低的成本達到研究及應用的目標。實際上,高能物理領域一直是按照這個模式開展工作,該平臺將這種模式從高能物理擴大到其它大數據領域。
科研大數據應用中心的另一個特點表現在數據融合能力上。科研大數據應用中心的數據是流動的且不斷更新的。一方面,高能所基于自身科研需求,可以聚合其他領域科學應用的海量數據。另一方面,基于志愿計算的分布式數據采集技術是高能所獨有的優勢,采用該技術可以實現對互聯網海量數據的有效采集,具有時效性、廣泛性與精準性的顯著特征。最后,通過數據合作、交換,可以整合更多領域的科研數據、物聯網數據、互聯網數據等海量數據。這些來源不同的數據依托科研大數據應用中心,實現高效、便捷、可控的分享、交換、融合,最終促進跨學科交叉創新,實現數據價值的最大化。目前該數據應用中心整合了對撞機(如歐洲大型強制對撞機、北京正負電子對撞機)實驗數據、大亞灣中微子實驗數據、羊八井宇宙線實驗數據、高能天體物理數據以及核分析數據等一大批自然科學數據資源,同時還采集了大規模的互聯網數據,為相關科學領域和交叉學科提供服務。
科研大數據應用中心的特點還表現在數據跨地域的傳輸與共享方面。科研大數據的特點是需要進行跨地域的海量數據交換。國內數據中心之間的數據交換仍存在帶寬資源不足的問題。為了解決這一難題,高能物理研究所正在建設高能物理數據傳輸虛擬專用網(CHEPDTN),采用軟件定義網絡技術和網絡架構(SDN),充分利用已有的網絡基礎設施(設備)和資源(IPv4和IPv6帶寬),滿足跨地域的高能物理實驗合作單位之間的高速、穩定、安全的數據傳輸需求。目前CHEPDTN連接了高能物理研究所、山東大學、上海交通大學和中國科技大學,實現科學數據的高速傳輸。與普通的云計算中心相比,建設中的科研大數據應用中心既有工具(云計算平臺)又有金礦(數據),同時整合了科研、互聯網、物聯網等多領域的數據。良好的體系結構和新技術新思想的引入正在推動整個平臺的健康發展。現代大科學都是數據驅動的,大科學工程在數據獲取、存儲與處理、數據傳輸與共享、數據展現等方面有著強烈的需求。在應用需求的引導下,高能物理等大科學領域在過去幾十年中積累了大量的大數據存儲、處理和共享等技術和經驗。大科學的數據是現代科學研究的根本,數據平臺的建設將保障和促進科學研究的順利開展。科研大數據技術的研究和發展反過來可應用于整個社會的大數據行業。