曙光5000A 打進全球超級計算機500強(Top 500)排行榜前十榜單,使得中國成為繼美國之后,世界上第二個可以研發、生產百萬億次超級計算機的國家。

“百萬億次計算機到底是一個什么概念?用它計算一天,相當于用家用的PC計算33年。”上海超級計算機中心姚繼鋒博士這樣解釋曙光5000A。
在前不久公布的全球超級計算機500強排行榜中,裝載了微軟Windows HPC Server 2008操作系統的曙光5000A實現了百萬億次的突破,以峰值速度233.47萬億次、Linpack值180.6萬億次的成績,躋身世界超級計算機級計算機前十名。
曙光5000A也是在美國之外的惟一進入前十名的超級計算機。由此,中國成為世界上第二個可以研發、生產百萬億次超級計算機的國家。
奇跡誕生于地下車庫
2008年除了北京的奧運場館外,中國科學院計算所地下車庫是一個最令人興奮和激動的地方。因為,中國史上最“牛”的計算機以及最“牛”的運算紀錄就是誕生于這里。
2008年9月初,中國科學院計算所地下車庫一片忙碌,這里正在緊鑼密鼓地搭建一個數據中心。造價兩億元人民幣的1920臺服務器已從天津工廠運抵北京,由于機器太多、太沉,一樓的地面無法承受,機器們只能“屈尊”于這里。
整個數據中心的搭建非常神速,僅僅用了10天左右的時間。僅一個晚上,現場共計700條、總長達60公里的光纖居然全部部署完畢——原因很簡單,曙光公司調動了可以調動的全部人員,包括秘書、財務等行政人員。
由于大規模的計算集群對于硬件的穩定性要求非常高,一臺機器的一條內存出問題就會導致整個任務失敗。因此整個過程中,來自曙光的工程師們一直輪流值班,并在現場準備了大量備份硬件,一旦發現問題就立刻上前更換。
這樣夜以繼日地工作,目標只有一個: 趕上11月在美國奧斯汀舉辦的第21屆超級計算機大會,躋身到世界權威的Top 500超級計算機排名的前列。這份自信來源于最近的兩次測試: 6月,在首臺安裝了Windows HPC Server 2008的服務器上進行的單節點測試中,運算效率達到了86%,為同期各類操作系統中最高; 7月,在32節點測試中,運算效率達到84%,幾乎實現了節點數目-運算能力的線形擴展。
從9月1日開始搭建計算機,到10月28日完成最后測試結果,微軟和曙光的工程師團隊與這臺重50噸的超級計算機“同吃、同住、同勞動”了七周半之久,多次在最后的期限前奇跡般地實現了既定目標。
9月28日,曙光5000A的浮點運算能力達到87.6 T; 9月29日,系統運算能力突破百T大關,達到116.3 T,得以趕在世界超級計算機大會的截止日期——10月1日之前順利申報全球超級計算機的Top500; 10月9日,達到了140.3 T的新高; 10月13日凌晨兩點左右,運算能力達到167.4 T,突破了此前曙光預計的160 T,“創造了中國高性能計算的歷史”; 在經歷了10月25日的174.9 T和10月26日的179.8 T之后,2008年10月28日,曙光5000A得到了它提交給世界超級計算機大會的最終結果——180.6 T。
要知道,這些成績是在一個由地下車庫改造成、占地達2000平方米、幾乎完全不通風、環境噪音接近70分貝的數據中心中誕生的。曙光和微軟的工程師們平均每天在這里工作14小時以上,在工作現場的機柜旁、停車場的角落里,不時可以看到悄然入睡的疲憊身影。
冒險者的雙贏
曙光公司副總裁聶華坦承,選擇跟微軟合作,多少有一點冒險的成分。之前,曙光的超級計算機一向依托于Unix或Linux高性能操作系統環境。
從2007年選擇微軟WCCS 2003開始,曙光和微軟在高性能計算機上開展合作。“當高性能計算做到一定境界的時候,曙光真正關心的是能否對整個高性能計算產業經濟發揮作用,能否讓高性能計算機使用得更普及。”聶華說,“而Windows操作系統顯然會讓用戶感覺更親切,調試更方便,界面更友好,這是合作的基礎和前提。”
對微軟而言,將初出茅廬Windows HPC Server 2008在這么大規模的計算集群上部署和應用,尚屬首次。此前,微軟HPC團隊服務過的最大客戶是美國國家超級計算應用中心(NCSA),當時構建的超級計算機由1200個雙路四核的服務器節點構成。而此次曙光5000A由1920個四路四核的服務器節點構成,規模是作為高性能計算技術全球領先者的NCSA擁有的超級計算機的4倍,這對微軟中國HPC團隊來說,挑戰非同尋常。
在9月29日取得116.3 TFlops的運算結果之后,工程師們在10多天的時間里一直無法取得任何新的突破,有人質疑,Windows HPC Server 2008真的是如此大規模計算集群的正確選擇嗎?這個時侯,頂住壓力,不放棄成了惟一的選擇。在總結了前段時間屢屢失敗的教訓后,終于在10月9日,工程師們將曙光5000A推向了140.3T的新高,并隨后多次刷新了中國超級計算機運算紀錄。
評論
技術全球化有利于自主創新
毫無疑問,曙光5000A超級計算機打進全球高性能計算機Top500前十名榜單,是中國自主創新的一個典范。
曙光5000A不僅在全球超級計算機500強的排行中取得亞洲第一、全球第十的驕人成績,更是向世界表明: 中國已經成為繼美國之外,第二個可以研發、生產百萬億次超級計算機的國家。
這一成績背后值得關注的一點是,支撐5000A運行的是微軟的高性能計算平臺Windows HPC Server 2008,這也是它第一次在大規模的超級計算機上亮相。為了和曙光一起見證“中國高性能計算歷史”,微軟中國HPC團隊動用了來自全球的骨干技術力量,可謂不惜血本。最終,曙光5000A使微軟向全球表明了它在高性能計算領域中所潛藏的巨大能量和實力。
從這一角度來看,曙光5000A是技術創新全球化的一個重要案例。曙光恰好抓住了跨國公司微軟向全球公司轉變、研發力量東移所帶來的創新機遇。事實上,在跨國公司研發全球化的趨勢下,利用國際資源與產業結構調整來開拓自己的創新平臺和創新產品,提高國家的創新能力正在成為科技界的共識。
技術全球化有利于自主創新。自主創新,從來就不是封閉創新。高科技發展的一個重要規律,就是在競爭中合作,既競爭又合作,這比關起門來搞競爭要強得多。
因此,我們呼吁業界總結經驗、解放思想,反對閉關自守,克服迷信權威的思想,適應研發全球化和經濟全球化的挑戰。在跨國公司研發全球化的趨勢下,充分利用國際科技和產業資源,明白自己真正需要什么資源,拓展哪方面能力,從而獲取創新的主要收益。(文/毛江華)