陳左寧
超級計算機的價值,除了對計算機科學本身的貢獻以外,更重要的是在超級計算機的支撐下解決了重大科學與工程應用領域的關鍵問題,促進了相關應用領域的快速發展,超級計算為解決國家經濟建設、科學進步、國家安全等一系列重大挑戰性問題提供了不可替代的重要手段。
20世紀以來,科學計算、科學實驗和理論研究一起成為研究世界的三大支柱。隨著計算技術的發展,科學計算對超級計算機的能力提出了越來越高的需求,超級計算機為解決國家經濟建設、科學進步、國家安全等一系列重大挑戰性問題提供了不可替代的重要手段。
中國的超級計算機
“十一五”“十二五”期間,我國通過部署多種國家級科技項目和資助計劃來推動中國高性能計算能力的提升,成功研制出多臺超級計算機,逐步形成了具有一定規模的國家級高性能計算服務環境,支撐了一批重大領域應用。國家“863計劃”支持的“神威”“天河”“曙光”等超級計算機進入了世界領先行列。
“神威·太湖之光”超級計算機系統由科技部“863計劃”的“高效能計算機研制”重大項目支持,國家并行計算機工程技術研究中心承研,于2015年12月完成系統研制,落戶國家超級計算無錫中心。該系統是世界上首臺峰值運行速度超過十億億次(125PFlops)的超級計算機,也是我國第一臺全部采用國產處理器構建的世界第一的超級計算機,引領全球超級計算機邁入十億億次時代。
基于“神威·太湖之光”整機系統的大氣、海洋和材料領域的三個應用入圍2016年國際高性能計算應用領域最高獎——戈登·貝爾獎提名,其中大氣領域的“千萬核可擴展大氣動力學全隱式模擬器”應用最終摘取2016年度戈登·貝爾獎,系中國團隊30年來首次入圍并獲獎,打破西方發達國家壟斷。
中國的獲獎引起了世界關注,美國《華爾街日報》網站報道:“神威·太湖之光”的研制成功,以及中國系統保有量首次超越美國,標志著中國已經在高性能計算領域的競爭中超越了美國。同時,明確提出美國需要加大力度投資高性能計算,重新奪回在這一領域的領導地位。
超級計算機的價值,除了對計算機科學本身的貢獻以外,更重要的是在超級計算機的支撐下解決了重大科學與工程應用領域的關鍵問題,促進了相關應用領域的快速發展,超級計算為解決國家經濟建設、科學進步、國家安全等一系列重大挑戰性問題提供了不可替代的重要手段。
超級計算機應用需求
傳統的超級計算機的應用領域是“高、精、尖”的前沿科學和工程研究領域,主要包括石油勘探、天氣氣候、海洋科學、航空航天、核爆模擬、武器研制、信息安全等領域。這些應用領域對系統計算密度有很高的要求,這里的計算密度指的是系統在一定體積和面積內的計算能力,這也是網格計算和云計算等大量分布式計算不能完全代替超級計算的原因。超級計算機在新興領域也有大量應用,如人工智能、深度學習、生物醫藥、基因工程、動漫渲染、過程控制、數據挖掘、金融分析、公共服務等。人工智能中的深度學習也屬計算密集型應用,與傳統數值模擬應用不同,該類問題對單處理器的計算能力和網絡性能需求更高。
當前的實際復雜應用系統向著多時空尺度、強非線性耦合和三維真實構型的方向發展,包含著大量多尺度多模型的計算問題,存在多粒度、多維度、多層次的并行性,面臨著全系統、全物理過程、真三維、自然尺度的計算模擬,對計算機的能力提出更高要求。在城市高分辨率空氣污染數值模擬中,基于“神威·太湖之光”計算機系統,采用基于非結構有限元方法和全隱全耦合非線性系統求解算法,完成了深圳市地王大廈周邊(網格分辨率達1米)大氣環境及空氣污染大規模并行瞬態模擬,常規模擬時間從1周縮短為5小時。在新藥研發領域,上海藥物所開展的藥物虛擬篩選和疾病機理研究,實現了虛擬篩選大規模運行,使用“神威·太湖之光”系統的32768個處理器在7分24秒內完成451萬個化合物分子和寨卡病毒蛋白的對接任務,是世界上速度最快的高通量藥物虛擬篩選系統。
國內外E級計算規劃
發展E級計算機,是實際應用計算精度的需求和計算能力的體現。超級計算機的發展,已經成為國家戰略層面的部署。E級計算,是指每秒完成10的18次方的浮點計算。
中國的“神威·太湖之光”建成之后,特別是中國連續8屆居于TOP500領先位置,加劇了各國超級計算機的競爭。美國將E級計算上升為國家戰略,奧巴馬總統于2015年8月簽署行政命令,要求加快E級計算機的研發進度,以保持世界領導地位。美國能源部先后啟動了多個研究計劃,投資10~14億美元,期待在2022年能夠提供能效比達50GF/W的E級系統。日本在2013年由文部科學省啟動了E級超級計算機計劃“post K”,這是京速計算機的后繼,預計2020年完成研發,擬投資13.8億美元,由Fujitsu、Hitachi和NEC負責系統構建,安裝在日本理化研究所,系統能效達30-50GF/W。
我國科技部于2016年年初也啟動了下一代E級計算機的研制計劃,支持國家并行計算機工程技術研究中心、國防科大、曙光公司3家單位在2018年6月完成E級系統方案和關鍵技術突破,并采用國產核心器件構建小規模的原型系統。科技部對原型系統進行測評后根據情況支持一到兩家進行E級系統建設,預計在2018年啟動,2020年前后完成。
回看美國的研究計劃,他們首先研制一臺具有新型先進體系結構的原型系統,目前該體系結構的具體內容仍在保密狀態,很可能不是經典的體系結構;2022年交付一套達到50GFlops/W能效比的E級系統;達到E級計算能力之后,很有可能在此基礎上研發出計算能力更高的超級計算機。反觀我國的情況,雖然我們現在的指標看起來很高,但很可能的情況是我們的超級計算機技術發展已經面臨天花板問題,現有技術只能勉強支撐做到E級系統,繼續升級可能會遇到極大困難。因此我們沒有理由盲目樂觀,美國的發展戰略更值得我們觀察和思考。
建造E級計算機,我國在主要技術方面依然面臨重大的挑戰。首先是功耗墻問題。“神威·太湖之光”的系統能效比約為6GFlops/W,未來構建E級系統能效比需達到30GFlops/W,差距非常大,目前從工藝角度改變能效收益的程度越來越有限,功耗問題越來越突出。其次是可靠性問題。可靠性主要依賴單芯片的可靠性,隨著集成電路的變化,單芯片的失效率越來越高,對整機穩定性的影響非常大,美國能源部認為E量級系統平均無故障時間小于兩個小時,而兩個小時并不足以完成一個大規模的計算任務。最后是應用效率和可編程性問題。在應用問題計算中,應用問題本身的算法已經非常復雜,程序調試和調優難度更大,而E級計算規模下算法本身很可能因為計算量的增加而失穩。此外在實際工程應用領域,工程問題需要考慮能夠獲取的工程條件和時間進度要求,這也對軟件提出更高的要求。
E級超級計算時代即將到來,國內同行要開展全方位合作,在國產處理器、體系結構、軟件和應用方面做出更多更精彩的創新成果,為我國的崛起和騰飛作出更大的貢獻!