錢 煒

在世界超級計算機權威組織TOP500今年發布的榜單上,中國的首臺千萬億次超級計算機“天河一號”打破了美國長期保持的世界第一的紀錄,成為超級計算機新的世界之冠。“天河一號”研發團隊贏得的并非只是一場“看誰更快”的競賽,而是一場為榮譽為國家的理想主義之戰。
由國防科技大學的年輕科技工作者組成“天河一號”研發團隊,平均年齡只有30歲。他們出于對“銀河”(我國第一臺億次巨型計算機)的熱愛而聚到一起,堅持走自主創新之路,努力突破核心元器件技術瓶頸,沖到了該領域的世界之巔。
“這是一項偉大的事業,參與者都有莫大的自豪感,這是多少金錢也買不來的。”
皮膚白凈、身材高挑的盧宇彤,在以男性居多的“天河一號”研發團隊里,可算是“萬綠叢中一點紅”。當記者問她身為一名女性,當初為何要來軍校這么枯燥單調的地方時,她不假思索地說:“因為我從小就從書上知道,這里是銀河—Ⅰ誕生的地方,我向往這里啊!”
隨著“天河一號”再次載入史冊,盧宇彤完美地實現了自己的“銀河夢”。
2010年11月17日,世界超級計算機權威組織TOP500發布了最新一屆世界超級計算機500強榜單。由中國國防科技大學研發的千萬億次級超級計算機“天河一號”榮膺第一。
從國防科大的北門進去,一眼就能望見按照“天河一號”的樣子新建起來的計算機學院科研樓。由于整臺機器現已安裝在天津的超算中心,一樓近千平方米的機房如今已是“機去樓空”。倒是在舊樓實驗室里,記者看到了一臺正運行著的小型超級計算機,深銀灰色的機組群上閃爍著藍色的指示燈,就像夜空中的繁星。身為團隊主任設計師的盧宇彤告訴記者,這里,就是“天河一號”開始的地方。
成功“翻墻”的混搭結構
2007年夏,天河研發團隊總設計師、國防科大副校長楊學軍教授在國際計算機體系結構年會上發表了論文《64位流處理器體系結構研究》,引起轟動。其原因,不僅僅由于這是近十幾年來中國內地學者首次獨立在這一頂尖水平會議上發表成果。
普通個人電腦的結構,就是主機+顯示屏,而主機的心臟是CPU。據“天河一號”工程辦公室主任李楠介紹,從上世紀90年代開始,超級計算機的主流技術路線是大規模并行,簡單地說,就是把幾十、幾百、上千個CPU聯結在一起。但到了2000年,當超級計算機的速度達到了萬億次并向更高的水平發展時,人們發現,CPU數量增加到一定程度時,并不能帶來運算速度的提高,卻遇到了一系列的瓶頸無法解決。
科研人員將這些問題形象地稱之為“墻”。比如,有“內存墻”,CPU多了但內存帶寬有限,這會影響CPU讀取數據的速度,就像一條4車道的高速公路上擠滿了車,跑不快。有“功耗墻”,超級計算機規模越來越大,用電量也隨之增大。一臺千萬億次的超級計算機的用電量就將相當于一個中等城市的用電量。曾有專家說:“如果不解決功耗問題,今后超級計算機只能與核電站建在一起。”還有“造價墻”,國外建造一臺超級計算機往往要斥資上十億美元,投入巨大。
為翻過這些“墻”,國際上有人提出“異構”的概念,將CPU與某種加速器結合起來以提高效率。但至于用什么類型的加速器,二者如何融合,大家都在研究。
楊學軍的論文,正是從理論上確定了CPU+GPU這種異構結構的可行性,意義非凡。于是,國防科大決定根據這個思路來研發千萬億次超級計算機。
科研人員從國外買回性能最好的GPU,將其與CPU連在一起,卻發現運算效率只有20%。“當時我們看到這個結果,心里都涼了半截,但經過分析發現,從技術原理上來說,這個結構是應該能達到更高效率的。”李楠說,
“原因很簡單,就好像我倆跑步速度不一樣,我要等你趕上來了才能一起執行下一個任務,效率肯定低了。”天河研發團隊副總設計師胡慶豐解釋說。實際上,GPU適合處理結構比較規整的批量數據,而CPU擅長復雜的邏輯運算,如果能合理分配任務,讓二者分別干自己適合的事情,這樣就能大幅提高效率。
“但這就不只是硬件的問題了,而是要從底層軟件的層面讓二者更好地融合。”胡慶豐說。
為了突破這個難關,他們拉著核心團隊去長沙郊區一個叫母山基地的地方去“閉關”。那個地方手機信號差,不通公交車,人呆在那兒更容易沉下心來思考問題。
長達半年的“閉關”取得了突破性進展——在實驗室條件下,CPU+GPU的性能最高達到了70%,之前的那些“墻”都被一一成功翻越。
目前整個“天河一號”二期系統,共使用了16384個CPU,7168個GPU。GPU結構簡單,功耗低,價格也比CPU便宜很多。
美國斯坦福大學計算機系主任比爾·戴利教授就曾表示:“中國的天河計算機采取的CPU+GPU的結構,代表了未來高性能計算機的發展趨勢。隨著計算機規模的不斷拓展,這種結構雖然不是唯一的解決方法,但目前看來是最好的。”
“這是一項偉大的事業”
楊學軍還清楚地記得他在1988年曾經歷的一幕:中國氣象局有一間專門的屋子,里面放著從國外租來的超級計算機。因為美國人不愿意把這種計算機賣給中國,中國氣象局只能租用。計算機拉到中國后,放置它的屋子有24小時監控,中國人不能進,連操作的技術人員都是外國人。
“過去我們經常遇到這種情況,大家心里都有種被刺痛的感覺。所以,我們一定要有自己的超級計算機。”他說。
超級計算機的發展規律是每十年性能提高1000倍。2000年的國際先進水平是萬億次,那么到2010年左右將會達到千萬億次。因此在2005年,當國產超級計算機才剛剛突破十萬億次之時,楊學軍感到,如果要占領制高點,就要盡快攻克千萬億次超級計算機系統。
“我們在‘天河一號的研制過程中,堅持走自主創新之路,努力突破核心元器件技術瓶頸,極大增強了自主創新能力”,團隊副總設計師、計算機學院院長廖湘科教授說。
整個天河研發團隊非常年輕,平均年齡只有30歲,總設計師楊學軍也才46歲。“因為大家都是年輕人,每次開會討論問題,大家都爭得臉紅脖子粗,就像吵架一樣,沒有老師學生的區別,沒有上下級的區別。這樣輕松開放的氛圍,才利于我們盡快找出問題的癥結所在,才能出新。”盧宇彤告訴記者。
團隊里,有很多人都像盧宇彤一樣,出于對“銀河”的向往而來到這里。“‘胸懷祖國、團結協作、志在高峰、奮勇拼搏,正因為我們有這樣的‘銀河精神,才能有今天的成績。”國防科大計算機學院政委劉學民表示。
據說,曾有外國公司以年薪30萬美元的高薪來挖團隊里的骨干,卻空手而歸。
“天河一號”除了在結構上有突破,還擁有多項創新,如自主設計的高階路由芯片和高速網絡接口芯片。此外,值得一提的是,“天河一號”的CPU芯片中,有一部分為國防科大自主研發的飛騰—1000。
“目前之所以沒有全部使用國產CPU,一個重要原因是考慮到用戶使用的很多第三方軟件都在基于國外芯片環境開發的,在飛騰上無法運行。”李楠解釋說。
TOP500自1993年發布以來,就成了超級計算機的“奧運會”。而美國長期在此占據第一名的位置,并在榜單中擁有最多席位,只在2002年,被日本研發的“地球模擬器”首次超越。兩年半后,美國重返榜首。此次“天河一號”的后來居上,再次打破了美國已連續保持6年第一的紀錄,在國外同行中引起震動。
然而,超級計算機究竟有什么用?是不是像有些人想象的那樣,各國爭相研發超級計算機只是一場單純的“看誰更快”的競賽?
對此,李楠表示,超級計算機可以幫助眾多領域的科學家更好地理解自然世界、發現科學規律,從而推動科技進步,涉及的領域包括生物醫學、氣候預測、地球物理勘測和材料科學等。尤其在國防領域,目前美國已基本停止了核武器試驗,而改在超級計算機上進行模擬試驗。因此,超級計算機對于國防來說,具有重大意義。
盧宇彤告訴記者,“天河一號”在天津超算中心投入使用后,已經有幾十家用戶排隊預約。中石油有項運算任務,在以前的超級計算機上,需要3個月才能算完,在“天河一號”上只跑了不到一個星期就完成了。
不過,即使是目前“天河一號”的運算速度,也不能完全滿足目前的科研需要,胡慶豐說,“估計當計算速度達到百億億次時,才能滿足需求。但到了那時,也許科學上又會出現新的更復雜的問題,對超級計算速度提出更高要求。不過我們也樹立了新的目標,要向億億次發起沖擊。”★