葛蔚 曹凝
(中國科學(xué)院過程工程研究所 北京 100190)(中國科學(xué)院計(jì)劃財(cái)務(wù)局 北京 100864)
隨著現(xiàn)代科學(xué)技術(shù)的飛速發(fā)展,傳統(tǒng)的科學(xué)實(shí)驗(yàn)和理論研究方法已不能完全滿足當(dāng)代科學(xué)研究與技術(shù)進(jìn)步的需求,計(jì)算機(jī)模擬作為20世紀(jì)發(fā)展起來的新型科研手段被視為現(xiàn)代科學(xué)技術(shù)進(jìn)步的“加速器”而受到越來越多的重視。大型計(jì)算機(jī)模擬是以計(jì)算能力為基礎(chǔ),依據(jù)研究目標(biāo)的理論模型,運(yùn)用數(shù)值計(jì)算方法,在計(jì)算機(jī)上進(jìn)行虛擬實(shí)驗(yàn)。其特點(diǎn)是費(fèi)用低、周期短、方便靈活、應(yīng)用廣泛,甚至可以模擬人類現(xiàn)代技術(shù)無法實(shí)現(xiàn)的科學(xué)實(shí)驗(yàn),如星系演化和宇宙形成過程等。因此,超級計(jì)算系統(tǒng)已成為世界諸強(qiáng)競相研制的國之重器。
超級計(jì)算系統(tǒng)有通用和專用之分。前者能較均衡地滿足各領(lǐng)域的計(jì)算需求,而后者是為特定算法專門優(yōu)化設(shè)計(jì)的。主頻和集成度等元器件技術(shù)的進(jìn)步能整體提升各種計(jì)算機(jī)對各種算法的計(jì)算速度。但近年來,以集成電路的線寬為標(biāo)志,人類正在逼近當(dāng)前技術(shù)的極限,因此速度的提升已越來越多地依靠多核并行、異構(gòu)和流處理等需要與軟件和算法更緊密配合的途徑。另外,隨著性能的飛速提升,個人計(jì)算機(jī)已進(jìn)入了很多原本需要超級計(jì)算的領(lǐng)域,使超級計(jì)算的需求逐漸集中于若干專門領(lǐng)域。因此,過分追求通用,會使超級計(jì)算系統(tǒng)如同自行車與跑車混行的高速公路,在效率和經(jīng)濟(jì)性上都面臨挑戰(zhàn)。而如果對各種算法分別研制專用系統(tǒng),計(jì)算速度雖高,但開發(fā)、生產(chǎn)、運(yùn)行維護(hù)和應(yīng)用成本同樣提高,也缺乏普遍意義。
高效能低成本多尺度離散模擬超級計(jì)算應(yīng)用系統(tǒng)則提出了能夠涵蓋若干領(lǐng)域、適合大量超級計(jì)算問題的 “多尺度離散模擬”通用算法框架。針對該框架設(shè)計(jì)高效的軟件和優(yōu)化的硬件系統(tǒng),實(shí)現(xiàn)低成本、低能耗、高效率和高性能的計(jì)算,兼?zhèn)渫ㄓ门c專用系統(tǒng)的優(yōu)勢,其具體表現(xiàn)是:
(1)適用范圍廣。利用此框架,代表各種應(yīng)用的各種單元間的作用方式可模塊化地嵌入通用的總體算法和數(shù)據(jù)結(jié)構(gòu)中,而無需獨(dú)立編寫相應(yīng)的計(jì)算軟件。
(2)可擴(kuò)展性強(qiáng)。通用超級計(jì)算系統(tǒng)為適應(yīng)各種不同的算法和應(yīng)用問題,需要任何一對處理器間能快速交換數(shù)據(jù),多尺度離散模擬的特點(diǎn)決定了每個處理器只需和特定的極少數(shù)相鄰處理器交換或共享數(shù)據(jù),只要可靠性允許,這樣的系統(tǒng)中處理器數(shù)量可任意擴(kuò)展而保持相對的成本和使用效率不變。
(3)并行效率高。各離散單元間作用的計(jì)算可在大量處理器上同時進(jìn)行,而不必采用傳統(tǒng)的中央處理器(CPU)順序處理,可極大地提高處于計(jì)算操作中的元器件的比例、減少存儲硬件的開銷,從而降低同樣計(jì)算能力下硬件制造難度、成本及運(yùn)行功耗。
解決自然界很多復(fù)雜問題的瓶頸在于缺乏對其時空多尺度結(jié)構(gòu)的認(rèn)識,這也是復(fù)雜性科學(xué)研究的焦點(diǎn)問題。中科院過程所從1984年開始就致力于用多尺度方法研究氣固兩相系統(tǒng),逐步發(fā)展成極值型多尺度方法。在推廣應(yīng)用極值型多尺度方法的思想和用離散方法證明不同系統(tǒng)穩(wěn)定性條件的過程中,逐步認(rèn)識到多尺度和離散化是很多工程問題的共性,自此致力于建立針對這一共性的計(jì)算模擬方法和軟件,并設(shè)計(jì)相應(yīng)計(jì)算機(jī)系統(tǒng)。
2007年6月,Nvidia(英偉達(dá))公司發(fā)布了CUDA(Compute United Device Architecture)1.0,中科院過程所意識到可以借用“CPU+GPU”方案來實(shí)現(xiàn)多尺度離散模擬。為此,該所僅用4個月時間就建立了由126臺HPUxw8600工作站組成,單精度峰值超過100Tflops的Mole-9.7集群并行計(jì)算系統(tǒng)。利用該系統(tǒng),該所成功開展了多相流動直接數(shù)值模擬、材料和納微系統(tǒng)微觀模擬和生物大分子動態(tài)行為模擬等應(yīng)用,證明了多尺度離散化并行計(jì)算模式的優(yōu)勢和前景。

多尺度離散模擬Mole-8.5系統(tǒng)
2009年1月,高效能低成本多尺度離散模擬超級計(jì)算應(yīng)用系統(tǒng)項(xiàng)目正式啟動。項(xiàng)目組首先對Mole-9.7的應(yīng)用情況進(jìn)行分析,通過采用Nvidia GTX295顯卡,于2009年初將Mole-9.7系統(tǒng)升級到了單精度峰值450Tflops,同時選用AMD的HD4870x2顯卡構(gòu)建了另一套單精度150Tflops單元系統(tǒng)。這兩套系統(tǒng)分別采用CUDA和Brook+編程,為了實(shí)現(xiàn)耦合計(jì)算,項(xiàng)目組采用了基于相同數(shù)據(jù)接口的多道程序MPI并行模式,成功進(jìn)行了計(jì)算流體力學(xué)模型的嘗試。這一成功為更方便靈活地利用多種GPU資源提供了保證,也形成了系統(tǒng)建設(shè)上的新思路:通過與專業(yè)公司的合作,提高系統(tǒng)的產(chǎn)品化水平,力爭推廣到更多用戶;同時,將這些系統(tǒng)通過既有網(wǎng)絡(luò)連接起來,開展異構(gòu)資源的分布式計(jì)算。為此,中科院計(jì)財(cái)局等主管部門積極組織協(xié)調(diào),促成過程所與聯(lián)想、曙光公司各建立一套單精度峰值200萬億次的單元系統(tǒng)的技術(shù)方案,并于2009年2月安裝到位。兩家公司分別采用了Nvidia的 GTX280、TeslaC1060 和 AMD 的HD4870 x2顯卡。它們與過程所研制的兩套系統(tǒng)聯(lián)網(wǎng)共同形成了Mole-8.7系統(tǒng)。全系統(tǒng)共1000多塊GPU卡。采用多程序MPI的方式成功在953塊GPU上實(shí)現(xiàn)了凹紋槽流的格子玻爾茲曼模擬,并且相對效率與CPU系統(tǒng)相當(dāng)。2009年4月20日,中科院正式對外宣布了這一成果。這不僅是該項(xiàng)目的階段性成果,很好地檢驗(yàn)了預(yù)定的整體設(shè)計(jì)思路,而且是國內(nèi)首套單精度峰值超過1000萬億次的超級計(jì)算系統(tǒng)。
在以上成果的基礎(chǔ)上,中科院組織協(xié)調(diào)了10個研究所來推廣部署由曙光和聯(lián)想生產(chǎn)的上述單元系統(tǒng)。歷經(jīng)半年多時間的設(shè)計(jì)、安裝、調(diào)試,至2010年初,各家單位都成功開展了GPU計(jì)算和應(yīng)用研究,并在地質(zhì)勘探數(shù)據(jù)處理和天體物理模擬等方面取得了國際前沿水平的應(yīng)用和理論結(jié)果。與此同時,過程所密切關(guān)注GPU計(jì)算技術(shù)的最新發(fā)展,與Nvidia和Tyan等公司緊密合作,形成了最終目標(biāo)系統(tǒng)的設(shè)計(jì)方案。通過分析應(yīng)用特性,其核心系統(tǒng)Mole-8.5主要采用Tyan的S7015主板,最多可安裝8塊Nvidia公司最新的Tesla C2050 GPU卡(Fermi),從而使單機(jī)點(diǎn)執(zhí)行離散模擬的性能價(jià)格比能得到最充分的發(fā)揮,并使過程所成為了Nvidia C2050 GPU卡在全球的首個批量用戶。
2010年4月24日,Mole-8.5系統(tǒng)初步建成,并實(shí)現(xiàn)了與Mole-8.7以及10個研究所的10套系統(tǒng)的聯(lián)網(wǎng)計(jì)算,形成了單精度峰值近5000萬億次的分布式超級計(jì)算環(huán)境。2010年5月,中科院過程所在軟件所的通力合作下,及時提交了Linpack測試結(jié)果,并在2010年6月Top500排名中名列第19位,而在稍后的Green500排名中更進(jìn)入了前10(列第8位)。2010年7月,采用離散單元法實(shí)現(xiàn)了工業(yè)規(guī)模裝置準(zhǔn)實(shí)時模擬,并開展了實(shí)時模擬和虛擬過程示范系統(tǒng)的前期設(shè)計(jì)。為適應(yīng)實(shí)時模擬的需求,項(xiàng)目組還提出了計(jì)算與顯示耦合的在線可視化方式并在Mole-8.5系統(tǒng)上成功應(yīng)用。后期,過程所通過與中科院計(jì)算所的密切合作,實(shí)現(xiàn)了三維并行顯示計(jì)算耦合,并應(yīng)用于海量計(jì)算數(shù)據(jù)的離線可視化。

超臨界鍋爐模擬
2010年10月,系統(tǒng)硬件、軟件和應(yīng)用等各方面順利達(dá)到了驗(yàn)收要求:理論峰值計(jì)算速度為每秒2224.8萬億次單精度浮點(diǎn)運(yùn)算,實(shí)例測試中達(dá)到的最高計(jì)算速度為每秒1432萬億次單精度浮點(diǎn)運(yùn)算,系統(tǒng)Linpack測試峰值207.3 Tflops;系統(tǒng)能耗563 KW,系統(tǒng)總能耗 (含冷卻系統(tǒng)200KW)763KW,占地面積145m2,系統(tǒng)內(nèi)存容量17.792TB,GPU顯存容量6.48TB,共計(jì)24.272 TB;計(jì)算系統(tǒng)重量12.6噸,磁盤總?cè)萘?20.584TB;系統(tǒng)軟件主要包括結(jié)點(diǎn)操作系統(tǒng) CentOS 5.4、GCC/G++-4.1.2 編 譯 器 、MPI/OpenMP/CUDA編程環(huán)境、Ganglia和MoleMonitor監(jiān)控軟件等,實(shí)現(xiàn)了遠(yuǎn)程系統(tǒng)訪問和作業(yè)管理。2010年11月8日,系統(tǒng)正式通過驗(yàn)收,標(biāo)志著我國在高性能計(jì)算應(yīng)用系統(tǒng)領(lǐng)域又取得重要進(jìn)展。
在高效能低成本多尺度離散模擬超級計(jì)算應(yīng)用系統(tǒng)研制階段,采取工程管理方式組織實(shí)施,設(shè)立工程領(lǐng)導(dǎo)小組、總體組、咨詢委員會、監(jiān)理委員會和用戶聯(lián)盟等5個組織單元。領(lǐng)導(dǎo)小組由中科院主管院領(lǐng)導(dǎo)任組長,財(cái)政部及中科院主管司局領(lǐng)導(dǎo)、項(xiàng)目承擔(dān)單位領(lǐng)導(dǎo)任副組長,主要負(fù)責(zé)工程總體目標(biāo)的設(shè)置、任務(wù)的審定和工程實(shí)施過程中重大事項(xiàng)的決策,與國家相關(guān)部門之間協(xié)調(diào)溝通等。總體組主要負(fù)責(zé)工程的全過程管理,成員由項(xiàng)目牽頭單位中科院過程所聘任,報(bào)領(lǐng)導(dǎo)小組批準(zhǔn),對單位法定代表人負(fù)責(zé)。咨詢委員會由相關(guān)行業(yè)專家組成,對領(lǐng)導(dǎo)小組負(fù)責(zé)決策咨詢,對總體組負(fù)責(zé)技術(shù)咨詢。監(jiān)理委員會由中科院計(jì)財(cái)局聘任,負(fù)責(zé)對工程質(zhì)量、經(jīng)費(fèi)管理及工程進(jìn)度等進(jìn)行全程目標(biāo)控制、跟蹤和監(jiān)督。用戶聯(lián)盟由研制系統(tǒng)現(xiàn)有目標(biāo)用戶單位和潛在用戶單位組成,負(fù)責(zé)參與項(xiàng)目的市場調(diào)研和相關(guān)討論,是研制系統(tǒng)技術(shù)需求和市場需求的來源。
由于應(yīng)用需求迫切,高效能低成本多尺度離散模擬超級計(jì)算應(yīng)用系統(tǒng)在建設(shè)過程中就開始承擔(dān) “大型油氣田及煤層氣開發(fā)”等國家重大專項(xiàng)、國家科技支撐計(jì)劃及國家自然科學(xué)基金重大基金項(xiàng)目中的重要計(jì)算服務(wù),并為中石化、中石油、寶鋼、兗礦以及通用電氣、阿爾斯通、必和必拓、聯(lián)合利華等國內(nèi)外大型企業(yè)提供模擬計(jì)算任務(wù),成功應(yīng)用于化工、冶金、能源、生物和材料等領(lǐng)域的過程模擬與優(yōu)化設(shè)計(jì),以及物理、力學(xué)、化學(xué)和生命科學(xué)領(lǐng)域的若干基礎(chǔ)研究問題。在氣固系統(tǒng)多尺度模擬、復(fù)雜生物分子模擬和金屬晶體材料模擬等領(lǐng)域成功實(shí)施了世界前沿水平的大規(guī)模并行計(jì)算。該系統(tǒng)的硬件成本和運(yùn)行費(fèi)用較傳統(tǒng)的CPU超級計(jì)算系統(tǒng)顯著降低,提高了實(shí)際應(yīng)用效能,有力支持了國家重大項(xiàng)目的研究和國際合作,有力推動了我國超級計(jì)算應(yīng)用水平的跨越式發(fā)展。

項(xiàng)目驗(yàn)收會
該系統(tǒng)主要針對過程工程中大型反應(yīng)器的優(yōu)化和改造開展了模擬研究,包括流化床、攪拌槽、鍋爐和冶金爐等,模擬尺度達(dá)到米級而分辨率達(dá)到毫米級,采用的粒子或網(wǎng)格數(shù)最多超過了10億。通過材料表面結(jié)構(gòu)的分子動力學(xué)模擬與氣體剪切流動的擬顆粒模擬的耦合實(shí)現(xiàn)了對高溫高速下氣動加熱和材料變形破壞等問題的研究,具備了在航空航天、能源動力和材料力學(xué)等領(lǐng)域?qū)嶋H應(yīng)用的能力。實(shí)現(xiàn)了縫洞型油藏中油水驅(qū)替過程的介觀模擬,實(shí)現(xiàn)了微米級裂縫與厘米級孔洞的耦合模擬,整體計(jì)算規(guī)模可超過米級,具備了部分代替油藏物理模擬的能力。針對鋼鐵冶煉新工藝的主反應(yīng)器和鋼渣處理等工藝過程實(shí)現(xiàn)了全系統(tǒng)、全尺寸的模擬優(yōu)化,并在計(jì)算速度上接近實(shí)時模擬。
另外,該系統(tǒng)開展的應(yīng)用還包括天體演化的物理學(xué)計(jì)算、金屬合金材料設(shè)計(jì)、集成電路的電磁場分析、高能物理實(shí)驗(yàn)數(shù)據(jù)分析、高能粒子與材料間相互作用、油藏勘探地震波數(shù)據(jù)的反演、醫(yī)學(xué)影像三維重構(gòu)、移動空間物體跟蹤分析、基因比對等方面。如在多尺度模擬計(jì)算系統(tǒng)上進(jìn)行大規(guī)模計(jì)算模擬三維流感病毒在細(xì)胞液中的動態(tài)結(jié)構(gòu),體系中包含的原子個數(shù)約3億,模擬使用了多達(dá)1728個Tesla C2050 GPU,是目前已知的對該類型體系的最大規(guī)模的模擬,模擬結(jié)果可用于研究流感病毒的結(jié)構(gòu),探索抗流感藥物同流感病毒間的作用。
作為我國超級計(jì)算應(yīng)用水平跨越式發(fā)展的典型標(biāo)志,高效能低成本多尺度離散模擬超級計(jì)算應(yīng)用系統(tǒng)在向我們展示其廣闊應(yīng)用前景的同時,也給我們帶來了許多啟示,并為未來發(fā)展指明了方向。
其一,為我國超級計(jì)算系統(tǒng)的應(yīng)用發(fā)展探索了新的模式,即通過軟件的通用化實(shí)現(xiàn)廣泛的應(yīng)用,而利用硬件的專門化提高計(jì)算效率、降低制造和運(yùn)行成本,突破百萬億次級多尺度離散模擬超級計(jì)算系統(tǒng)的產(chǎn)品化技術(shù),促進(jìn)超級計(jì)算的普及化;
其二,開辟了應(yīng)用牽引、軟件主導(dǎo)、系統(tǒng)創(chuàng)新的計(jì)算機(jī)和模擬技術(shù)發(fā)展道路,扭轉(zhuǎn)了開發(fā)與應(yīng)用的脫節(jié),并利用軟硬件優(yōu)勢的集成與互補(bǔ),巧妙地突破了國外模擬軟件和硬件的壟斷;
其三,為產(chǎn)業(yè)界和科技界提供了強(qiáng)有力的技術(shù)支撐平臺,形成若干具有自主知識產(chǎn)權(quán)的應(yīng)用軟件,解決若干重要工業(yè)過程開發(fā)和基礎(chǔ)科學(xué)研究中的計(jì)算難題,走出一條具有特色的科學(xué)和工程計(jì)算道路,并在多相復(fù)雜系統(tǒng)、多尺度模擬等領(lǐng)域進(jìn)入國際領(lǐng)先行列;
其四,有力促進(jìn)計(jì)算機(jī)模擬在過程研發(fā)中的應(yīng)用,推動過程工程領(lǐng)域的科技水平和自主創(chuàng)新能力的整體進(jìn)步;
其五,為我國培養(yǎng)了超級計(jì)算應(yīng)用系統(tǒng)研發(fā)的新型團(tuán)隊(duì),及覆蓋多個領(lǐng)域的新型模擬應(yīng)用人才,形成研發(fā)與應(yīng)用的可持續(xù)發(fā)展能力;
最后,高效能低成本多尺度離散模擬超級計(jì)算應(yīng)用系統(tǒng)項(xiàng)目的研制成功也啟示我們,在開放的環(huán)境下,只要我們解放思想,不斷從創(chuàng)新實(shí)踐中提出新概念,提出新思想,通過體制機(jī)制創(chuàng)新,有效整合優(yōu)勢技術(shù)資源聯(lián)合攻關(guān),我們完全有能力做出世界一流的儀器設(shè)備。