
2012年10月28日~10月31日,全國高性能計算學術年會在湖南張家界召開。從2005年開始,這已經是舉辦的第七屆年會了。在參會的代表看來,高性能計算學術年會和其他的學術年會不太一樣。
中國計算機學會理事長、清華大學鄭煒民教授表示,高性能計算學術年會之所以和其他一些學術會議相比顯得很特別,就是因為它不像是其他的會議,只是吸引了院校、研究機構的人員參加,而是吸引了產學研用,甚至包括業內主流的商業廠商等各方面的代表來參加會議。
阿凡達和超級水稻
為什么高性能計算學術年會能吸引、這么多方面的人來參加?背后原因其實很簡單,高新能計算已經走入我們的生活。
國際高性能計算咨詢委員會主席Gilad Shainer在2012高性能計算咨詢委員會中國研討會上就表示,高性能計算已經和我們的生活緊密相關,不管是國防、航天這樣的國家層面的事務,還是天氣預報、藥品研制這樣和平時生活息息相關的事情,高性能計算都在其中扮演了重要的角色。
即便對于本次學術會議舉辦地張家界來說,它也和高性能計算有著千絲萬縷的關系。張家界誕生了中國第一個國家級森林公園,公園秀美壯麗的景色吸引了來自五湖四海的游客。其中就有一位很特別的游客,知名導演詹姆斯·卡梅隆。卡梅隆日后導演的著名電影《阿凡達》中,有一個重要場景哈利路亞山的原型就是張家界森林公園中的知名景點“南天一柱”。《阿凡達》憑借驚艷的影視特效,一舉成為當年最賣座的影片。而影片中的特效效果,就是由新西蘭Weta Digital公司的具有近6000個處理器核的高性能計算機來完成制作的。
張家界所在的湖南省,一直是中國重要的魚米之鄉,同時也是中國超級水稻的研究中心。國家雜交水稻工程技術中心的研究人員將基因組數據庫和高性能計算相結合,尋找高產穩產的超級水稻。2012年3月13日,國家雜交水稻工程技術中心還與華大基因簽署了長期戰略合作的框架協議書。而后者自1999年成立以來,一直在利用高性能計算技術進行大規模基因組數據的處理。2012年 6月18日,在德國漢堡舉行的國際超級計算大會上,華大基因繼2011年后,第二次獲得“高性能計算創新優秀獎”。
從動漫渲染到生物基因排序,正是這些不同類型的高性能計算應用的不斷豐富,大大促進了中國高性能計算的發展。10月29日,中國計算機學會高性能計算專委會秘書長張云泉研究員在發布中國高性能計算Top100榜單時也提到,當前高性能計算應用呈現百花齊放局面。互聯網服務、政府部門、工程、超算中心、云計算、電信、能源 、科學計算、游戲、電力、大氣氣象、服務提供商、視頻計算、教育、生物信息等十五個領域是中國主要的高性能計算應用領域。
應對百億億次的挑戰
各種應用不斷涌現的直接結果,就是帶動了中國高性能計算設備的制造能力不斷提升。從2009年天河一號突破千萬億次,到2010年天河一號A登頂HPCTop500,再到2011年全國產的神威藍光超級計算機的出現,一系列達到國際先進水平的國產超級計算機相繼出現。
其實在高性能計算領域,大家對于計算能力的追求一直是“沒有最強,只有更強”。一系列超級計算機誕生,讓整個行業把目標又放在了下一個充滿挑戰的、計算能力達到百億億次(EFlops)的超級計算機上。
張云泉研究員認為,到2013年中國會有計算峰值達到10Pflops的系統出現,達到十億億次每秒(100Pflops)的超級計算機將在2014年到2015年間出現。
國防科技大學校長楊學軍院士認為,當前核物理、材料化學、生命科學等方面的大規模應用需求已經帶來了對百億億次計算能力的超強需要。但是在需求的背后,還存在著多方面的挑戰。“從并行計算機體系結構、微處理器體系結構、存儲體系結構、互聯技術到并行軟件,需要多層次多學科的共同發展,來實現百億億次的目標。”楊學軍說,“另外值得思考的就是,硬件技術的發展在解決可靠性、能耗等方面的難點的同時,又會帶來編程方面的壓力,特別是GPGPU異構系統對于編程的壓力巨大。”
除了楊學軍院士所提到的這些阻擋百億億次超級計算機所成為現實的門檻外,目前業內普遍認為能耗也是阻礙著其成為現實的一個巨大難點。華中科技大學金海教授也表示,能耗和超大規模核心的組織與管理是實現百億億次計算的兩大障礙。
Gilad Shainer認為,在當前的技術條件下實現百億億次不是沒有可能,只是以目前技術搭建起來的系統可能需要驚人的投入,其對電力的消耗也是現在所不能接受的。有專家測算過,如果以現有水平構建百億億次的超計算機,其能耗將會是三峽水庫發電量的三分之一。“因此,需要圍繞整個系統的多方面共同努力才能,在一種優化的情況下實現百億億次的目標。”Gilad Shainer說。
Gilad Shainer的觀點,也得到了其他一些業內專家的支持。英特爾高級院士Steve Pawlowski在高性能計算學術年會的主題演講中,也特別強調了能耗對于實現百億億次高性能計算所帶來的挑戰。他指出:“需要高效的處理器、高效的內存、高效的網絡、高效的并行程序以及可靠的系統來共同實現百億億次的目標。”
呼喚超算國家計劃
記者從2008年就開始參加高性能計算學術年會,已經連續參加了五屆。每一屆會議的規模都在不斷擴大,這從一個側面反映出當前高性能計算領域的發展正在不斷加速。記者觀察到,每年的大會上關于硬件體系架構的發言卻是重頭戲。但是正如鄭煒民老師所說的那樣,要想推進高性能計算應用的不斷發展,不但要有高新能的設備,還需要產、學、研、用各方面的力量來共同推動。所以,在本次學術年會上,除了大量技術性發言外,記者特別關注了來自超算用戶的主題發言,并專門參加了超算中心分論壇。
目前,天津、濟南、長沙、深圳等地的國家級的超算中心已經相繼建成,并投入使用。國家超級計算濟南中心陳德訓副主任告訴記者,自從2011年10月濟南中心的神威藍光超級計算機調試完成后,整個系統就沒有停過,一直處在不間斷地工作狀態中。國家超級計算深圳中心黃強副主任也表示,從成立開始,圍繞深圳當地產業的特點,深圳中心在高能物理、生物技術、地球科學、動漫、工業仿真等方面進行了大量的工作。
在各大超算中心緊鑼密鼓地開展各項工作的同時,在本次學術年會上,記者也聽到了關于超算發展的另外一種聲音,那就是“超算中心的發展也需要改革了”。
為什么會有這樣的聲音,記者采訪后發現其背后的原因存在著復雜的因素。
一位超算中心的負責人向記者表示,現在的情況來看,超算中心一般只能得到國家最初幾年的資金投入,之后就需要超算中心自己尋找一條自我造血、自我維持的道路。但是在這位負責人看來,“自我尋找造血”對于超算中心是不現實的。
上海超算中心是我國最早建設的超級計算中心之一,中心李根國副主任也向記者表示,上海超算正在進入一個需要改革的關鍵點了。“當前中心運維壓力越來越大,上海超算曾經算過一筆賬,如果未來實現100PLops的計算規模,相應的運維費用可能每年要達到1.8億元人民幣,但是這個數字是上級主管單位根本無法接受的。所以,我們只能將未來的發展規模定在5PLops的規模,主要圍繞上海當地的企業和高校提供服務。”
在運維方面,李根國透露,上海超算也在計劃進行一些市場化的嘗試,但是前提仍舊是公益性的服務占到中心工作的絕大多數。“目前上海超算中心80%的資源用在了科學研究,未來也不會少于70%,未來也會向科學計算的用戶適當收費,剩下資源則投入到市場化的應用中去。”
除了市場化的考慮,對于尋找自我造血的發展模式,李根國表示上海超算還在摸索與企業和高校打造一種全新的發展模式。一方面,上海超算中心計劃與一些企業打造一種共建的模式,特別是在一些商業應用軟件方面,雙方共享、共建;另一方面,就是與高校合作,與高校內小規模的超算平臺互動,從這個意義上實現資源整合。“上海超算中心的‘大’設備就像一個資源池,高校的這部分用戶在資源不夠而又無力擴展的時候,可以從這個池中獲得資源上的支持,以保證這些高校計算平臺的可持續發展。”李根國說。
在陳德訓看來,要讓超算中心實現持續性發展,必須得到國家更高層面的戰略支持。所以在陳德訓的設想中,現在各地的超算中心有必要組成一個“超算聯盟”這樣的機構,不再是各個單位單打獨斗,而是在一起形成合力,為中國高性能計算發展做出自己的貢獻。