■ 本刊記者 郭濤
新材料產業不僅是制造業轉型升級的產業基礎,也是制造強國戰略的重點發展領域。以往新材料的研發,大多采用試錯法,一種新材料從最初的研究開發,經過性能優化、系統設計與集成、驗證、制造再到投入市場,整個周期通常需要10~20年時間。不僅研發周期長、成本高,材料研發與應用之間的割裂還往往導致材料研發的成功率不高。
面對工業的快速發展,材料基因組計劃應運而生。材料基因組計劃是在現有數據庫平臺基礎上,通過高通量計算、實驗和大數據分析技術,加速材料發現-研發-生產-應用的全過程,從而縮短材料研發周期,降低材料研發成本。這種從應用需求出發,倒推符合相關結構功能材料的方式,可以說是對傳統材料研發的一種的顛覆。該計劃一經推出,就在全球范圍內得到廣泛響應,發達國家紛紛制定與新材料相關的產業發展戰略,在搶占未來制高點的新材料上加大創新力度。我國也將材料基因組計劃列為新材料產業發展的重要一環。
中科院物理所是我國首屈一指的材料科學研究與應用機構,致力于運用高通量計算方法開展新材料研究。“一村三湖” 作為中國科學院物理研究所提出的長期計劃,其中在北京懷柔雁棲湖的“兩平臺一裝置”,其平臺之一就是材料基因平臺。中科院物理所一期材料數據研究平臺的建設包括兩部分:高通量材料基因計算平臺和基因數據處理平臺。針對這一平臺的建設,中科院物理所具有以下三大訴求。
1.高算力:在材料基因研究過程中,高通量材料基因計算平臺是整個一期項目建設的核心,需要采用高通量計算的方式進行海量的材料基因模擬計算和篩選。古人云,工欲善其事,必先利其器。計算工具是否給力,對材料研發的周期有著決定性影響。只有高算力,才能保證高并行處理性能,以滿足高通量材料計算平臺的計算需求。
2.大存儲:在材料數據研究平臺的建設中,僅僅擁有高算力這項利器只能說搶占了先機。數字化的數據、結構化的數據,可謂是建設材料數據研究平臺的根本。作為材料數據研究平臺不可或缺的一部分,基因數據處理平臺不僅要滿足計算數據的高效存儲,還將要數據歸檔,以便于后續分析。
在高通量材料基因計算的運行過程中,成百上千的并行獨立計算任務會產生大量的過程文件,這些文件需要被高速存儲,以備執行后續的數據推衍和整合。此外,材料基因計算后產生的大量非結構化結果數據,也離不開存儲。
3.廣泛協作:數據除了安全存儲,更重要的一點是盡可能挖掘數據價值。如前所述,中科院物理所建設新平臺的目標,也包括了將材料基因計算中的數據結果、代碼和計算工具進行共享,以幫助更多材料領域的研究人員提升其研究效率。這意味著以下三點要求:
①系統內部縱向和橫向上的數據互通共享,打破業務壁壘,讓業務產生的數據實現融合。
②需打通與其他部門之間的數據互通互聯渠道,實現環境數據的交換共享。
③通過多源頭多渠道多采集方式的海量互聯網數據匯集,并經過數據清洗與存儲,形成數據合規、統一管理、高效運轉、分布式存儲、資源共享平臺。這也是中科院物理所構建私有云平臺的初衷。
在經過一系列調研、評測和測試之后,中科院物理所最終選擇了與戴爾以及英特爾進行緊密合作,引入了戴爾云戰略及基于英特爾升級后的第二代至強可擴展處理器的戴爾易安信高性能計算端到端解決方案。在新一期高通量材料計算和數據處理平臺的建設中,中科院物理所完成了160個計算節點、1個GPU節點、2PB的存儲容量的部署,并在材料基因數據處理平臺的數據中心中構建了完整的統一分級存儲資源池,以及用于資源共享的數據云平臺。
基于中科院物理所的需求,戴爾靈活組合多款機架式服務器,協助其以集群的方式架設了一個高通量計算的作業流程系統。從算力角度出發,該系統部署了160臺戴爾易安信PowerEdge C6420作為計算節點。C6420能夠在2U空間里支持多達4臺獨立的熱插拔雙路服務器,這意味著每個節點可以多達56個核心,能夠很好地滿足高性能計算的苛刻性能需求;其內置的DPAT性能優化技術,針對高性能計算提供BIOS優化,進一步滿足系統工作負載的性能需求。再者,戴爾易安信PowerEdgeC4140服務器作為GPU節點,其大規模并行處理能力,為大型數據處理提供了高計算性能,滿足一系列科學應用程序的性能需求。此外,系統還部署了戴爾易安信PowerEdge R940xa服務器作為胖節點,以滿足大內存并行計算的需求。經過方案的實施,中科院物理所的高通量計算平臺的算力大幅提升,這也正是新材料篩選和模擬工作的第一訴求。
戴爾有著豐富的存儲產品線,可以根據客戶需求提供多樣性的產品組合。針對高通量材料基因計算平臺,戴爾提供了兩臺PowerVault ME4084高密度存儲設備,總容量可達1,344TB。該存儲設備采用了高性能的Lustre并行文件系統,不僅可支持數百PB數據存儲空間以及數TB每秒的并發帶寬,為計算節點提供高性能的讀寫訪問,還具有良好的擴展性,中科院物理所可以靈活便利地根據需求對ME4系列存儲設備進行擴展。
針對中科院物理所的數據處理平臺,戴爾提供了4臺H400 Isilon混合橫向擴展NAS機和8臺A2000 Isilon歸檔橫向擴展NAS機,構成統一的分級存儲資源池,分別承載數據分析和數據安全存儲的重任。這兩款產品具備出色的橫向擴展特性,可幫助平臺彈性地擴展存儲容量。無論環境擴展到多大規模,都能夠實現存儲的輕松管理;內置的多協議支持提供了操作的靈活性,可以在單一平臺支持廣泛的非結構化工作負載;還具備多種數據保護和安全性措施,以確保平臺數據的安全可靠性。
而隨著時間的推移,數據的價值可能也會不斷變化,那些不需要經常被讀寫訪問的數據可以將其歸檔放到更經濟的ECS存儲中,從而降低數據存儲成本。
為了滿足中科院物理所對于協作的需求,戴爾提供了6臺戴爾易安信VxRail超融合一體機,來構建用于資源共享的云資源池。VxRail超融合架構能夠與戴爾的SDDC (Software De ned Data Center,軟件定義數據中心)軟件體系完全集成,使平臺能方便地基于VxRail超融合一體機部署VMware Cloud Foundation云環境。VxRail通過與VMware的深度集成,實現了一鍵部署、一鍵升級,以及從硬件到軟件乃至整個云平臺的全生命周期管理。此外,在中科院物理所后期項目建設中,VxRail還能夠集成VMware基于AI的軟件模塊,無縫對接私有云和公有云,并支持容器技術,從而為客戶后期項目工作的開展做到“未來就緒”。
中科院物理所在部署戴爾易安信高性能計算端到端解決方案和戴爾云戰略之后,從業務角度來看,預計每天可執行3000個基于DFT理論的作業任務,完成100~700個(視材料復雜度不同)無機晶體材料的基因計算,全年可完成目前人類已知的所有無機晶體材料(去重后約10萬個)的計算。
而在此之后的三到五年內,中科院物理所還將利用新平臺提供的上述計算能力,對人類未知材料世界繼續展開探索,將50萬個未知材料的預測數據納入平臺的材料數據庫中,從而將材料研究方法由傳統的“發現-計算”轉變為“計算發現”,使信息技術真正成為新材料研究的強大驅動力。
依托戴爾強大的技術實力和完備的產品線,中科院物理所還將持續優化和擴展材料基因計算平臺規模;同時平臺的計算對象也將由現在的無機晶體材料擴展到分子材料計算,令新材料研究范圍變得更為寬廣。戴爾也將持之以恒,始終從用戶角度出發,通過對自身產品和技術的不斷創新,助力中科院物理所在新材料領域實現更多突破。