文/中國科學院高能物理研究所(北京 100039) 中國科學院計劃財務局(北京 100864)
數據密集型網格示范站點建設與應用取得良好效果*
文/中國科學院高能物理研究所(北京 100039) 中國科學院計劃財務局(北京 100864)
中國科學院,知識創新工程重大項目,數據密集型網格
近年來,隨著科學研究規模的日益擴大,科學家需要采集海量數據用于研究和解決復雜的科學問題,而科學數據呈數量級增長對計算技術提出了更大的挑戰。數據密集型網格平臺建立在網格技術基礎上,是一種對海量數據進行高效分析處理的有效工具,在物理、化學、生物科學、醫學、核能技術、石油探勘、航天工程等眾多領域具有廣泛的應用前景,并得到了快速推廣。2008年,中科院啟動了知識創新工程重大項目“數據密集型網格平臺示范站點”(英文名稱:Data Intensive Grid Platform),項目以高能物理所為依托單位,聯合計算技術所、網絡信息中心及研究生院等單位共同承擔。
項目以學科實際應用的持續需求為牽引,采用成熟先進的網格中間件搭建和整合數據網格資源,建立了由1 760個CPU核、617.3TB磁盤存儲組成的計算資源網格環境,已成為國際高能物理網格平臺WLCG(Worldwide LHC Computing Grid)的重要組成部分,并實現了與中國國家網格(CNGrid)的互操作,有效支持了與歐洲粒子物理中心、法國國家核物理與粒子物理研究所計算中心、美國國家費米實驗室等國際上重要的科研機構以及國內多家研究機構之間的合作。該網格站點運行穩定,任務飽滿,在國際高能物理網格系統的200多個站點中被評為‘Leadership’站點。

項目建設的數據密集型網格平臺已成功應用于高能物理、地球動力學及生物信息學等若干領域,并成為多領域科學計算的重要支撐系統。在粒子物理計算領域,超環面儀器實驗(ATLAS)是運行在LHC(Large Hadron Collider)上最大規模的實驗之一,數據密集型網格平臺為中國物理學家參與該大型國際合作項目提供了高性能計算環境。緊湊型繆子螺線管探測器實驗(CMS)則是類似于ATLAS的另一個大型LHC實驗項目,數據密集型網格平臺同樣為中國科學家參與CMS物理分析提供了必要的支撐條件。數據密集型網格平臺每年為ATLAS和CMS實驗提供約500萬CPU小時的機時,完成400余萬個計算作業,在希格斯粒子尋找和性質研究、超對稱粒子的尋找、超對稱破缺共振態的尋找、W和Z玻色子特性研究以及top夸克的特性研究,μ+ μ–研究、J/y、?極化研究做出了重要成果。

大連化學物理所利用數據密集型網格平臺進行了具有高度序列一致性但不同三維結構的蛋白折疊機理理論研究。該研究進行了大規模的、一系列不同溫度下的分子動力學模擬,通過計算找到了蛋白質折疊的過渡態,發現了主導蛋白質折疊規律的重要相互作用,對于認知蛋白質折疊的機理,序列、結構和功能之間的關系具有非常重要的意義,為進一步人工設計和改造蛋白質奠定了一定的理論基礎。
此外,項目根據網格平臺的需求研究開發了多網格作業管理系統,實現了不同網格平臺間的互操作。項目開發了基于異構介質的存儲系統、分布式海量數據存儲系統、網格運行監控系統等并得到較好的應用。
基于該項目所取得的成果,項目組將進一步致力于推進數據密集型網格平臺的實用化和產業化工作。數據密集型網格平臺將繼續以學科實際應用的持續需求為牽引,與信息技術的最新發展緊密結合,采用成熟先進的網格中間件建立和整合數據網格資源,形成e-Science示范平臺,通過高效合理的運維管理保證網格平臺的穩定運行,并為大科學工程、國際合作等科學計算需求提供優質服務。

*本文由中科院計劃財務局項目管理處茹加(rujia@cashq.ac. cn)、高能物理所科技處王曉輝共同組織撰寫
2012年5月22日