以下這些知名機(jī)構(gòu)用價(jià)廉低耗的計(jì)算機(jī)構(gòu)建集群,同樣提供了近乎實(shí)時(shí)的處理能力,它們用于搜尋早期宇宙的跡象、研發(fā)下一代雷達(dá)或又快又經(jīng)濟(jì)地運(yùn)行網(wǎng)絡(luò)測(cè)試。他們的做法值得借鑒。
GPU集群與天文研究
這是一項(xiàng)很特別的挑戰(zhàn):在澳大利亞內(nèi)陸為默奇森寬視場(chǎng)射電望遠(yuǎn)鏡陣列(Murchison Widefield Array,MWA)構(gòu)建一個(gè)高性能計(jì)算集群。由于這里晚上沒有任何射電干擾,所以更容易搜尋早期宇宙的跡象。
MWA旨在幫助宇宙學(xué)家了解宇宙大爆炸之后,宇宙的起源、最早的恒星、星系以及類星體形成等問題,同時(shí),該集群還將跟蹤太陽,特別是太陽風(fēng)暴與不斷變化的太陽磁場(chǎng)關(guān)系等。但是,MWA需要驚人的一站式計(jì)算能力來處理大量的數(shù)據(jù)。
可供選擇的辦法并不多。研究人員發(fā)現(xiàn),MWA的電力供給將會(huì)是一個(gè)大問題。MWA距離最近的居民點(diǎn)約50公里,離最近的市鎮(zhèn)約300公里。由標(biāo)準(zhǔn)的高性能計(jì)算節(jié)點(diǎn)組成的集群其耗電量會(huì)很大,而當(dāng)?shù)赜秩鄙傧鄳?yīng)的基礎(chǔ)設(shè)施。
因此,MWA改而使用約80個(gè)圖形處理器(GPU)Nvidia Tesla S1070組成了兩個(gè)集群,整套系統(tǒng)的電力供給依靠40千瓦的柴油發(fā)電機(jī)組來供電。
以最高3GB/s的速度通過MWA的天文數(shù)據(jù)將進(jìn)行2.5TFLOPS運(yùn)算。由于澳大利亞內(nèi)陸沒有光纖通道,圖像只好在本地進(jìn)行處理,工作量相當(dāng)大。天線捕獲射電數(shù)據(jù)(因此需要沒有射電干擾的場(chǎng)地)后,把數(shù)據(jù)傳送給被稱為相關(guān)器的設(shè)備,相關(guān)器再把數(shù)據(jù)提供給GPU。
圖像處理環(huán)節(jié)包括通過數(shù)學(xué)方程式將傅里葉數(shù)據(jù)轉(zhuǎn)換成實(shí)際空間數(shù)據(jù)、校正電離層失真和調(diào)校測(cè)量?jī)x器。
目前,集群還沒有構(gòu)建完畢,不過測(cè)試原型機(jī)已經(jīng)開始運(yùn)行了。Richard Edgar表示,按每瓦TFLOPS這個(gè)指標(biāo)來衡量,該集群是世界上速度最快的。
美國(guó)空軍與PS 3集群
人類在技術(shù)方面的一大挑戰(zhàn)是:讓計(jì)算機(jī)像人那樣執(zhí)行相同的任務(wù)。這對(duì)美國(guó)空軍來說,意味著教計(jì)算機(jī)學(xué)會(huì)識(shí)別雷達(dá)圖像、準(zhǔn)確辨認(rèn)任何異常情況,而且常常是實(shí)時(shí)進(jìn)行,處理起來不能有任何延遲。
美國(guó)空軍研究實(shí)驗(yàn)室信息管理部的首席科學(xué)家Richard Linderman表示,該實(shí)驗(yàn)室對(duì)計(jì)算的需求非常高。他解釋說,實(shí)驗(yàn)室使用的特殊圖像“能實(shí)時(shí)消除大氣扭曲”。實(shí)驗(yàn)室還采用神經(jīng)形態(tài)計(jì)算算法,“探索如何以與人腦同樣的方式使用計(jì)算機(jī),比如強(qiáng)大的目標(biāo)識(shí)別能力。”
Richard Linderman表示,幾年前他的團(tuán)隊(duì)開始分析超級(jí)計(jì)算機(jī)的成本時(shí),首先考慮了PlayStation(PS)游戲機(jī)。他說,IBM專門為洛斯阿拉莫斯國(guó)家實(shí)驗(yàn)室(Los Alamos)制造的“走鵑(Roadrunner)”超級(jí)計(jì)算機(jī)成本遠(yuǎn)超過1億美元,但他看了相關(guān)報(bào)道后認(rèn)識(shí)到,該超級(jí)計(jì)算機(jī)所用的芯片其實(shí)就是IBM、索尼和東芝聯(lián)合設(shè)計(jì)的Cell處理器,而PS 3游戲機(jī)用的也是這種芯片。
Richard Linderman表示,PS 3集群最初的構(gòu)建成本約33萬美元,峰值性能為40TFLOPS,因而性價(jià)比要比Roadrunner高約10倍。美國(guó)空軍最近重新設(shè)計(jì)了集群,以便使用更便宜的組件,獲得更強(qiáng)大的計(jì)算能力。現(xiàn)在,GPU和PS 3芯片基本上各占一半,峰值性能約為500TFLOPS,成本僅為200萬美元。
Richard Linderman說:“我們不想付大筆電費(fèi),所以用電效率是個(gè)重要因素。500TFLOPS超級(jí)計(jì)算機(jī)耗電量大多數(shù)達(dá)到幾兆瓦,而這個(gè)集群的耗電量只有300千瓦,這樣每年將節(jié)省1兆瓦用電,相當(dāng)于省下了100萬美元。其節(jié)省幅度相當(dāng)大,又可以獲得500TFLOPS的性能。”
MIT與插座式集群
對(duì)傳統(tǒng)的集群或超級(jí)計(jì)算機(jī)來說,目的是通過使用速度非常快的共享內(nèi)存,同時(shí)運(yùn)行多個(gè)應(yīng)用或“任務(wù)”,這項(xiàng)工作需要高速網(wǎng)絡(luò)和高速磁盤訪問。
不過有時(shí)候,單項(xiàng)任務(wù)(如運(yùn)行網(wǎng)絡(luò)測(cè)試)則需要高速的單精度浮點(diǎn)格式,而不需要超級(jí)計(jì)算機(jī)或高性能計(jì)算(HPC)集群的雙精度數(shù)據(jù)傳輸速度和共享內(nèi)存。
麻省理工學(xué)院(MIT)發(fā)現(xiàn),使用插座式計(jì)算機(jī)(plug computer)組成的集群,就能在耗電量很低的情況下運(yùn)行網(wǎng)絡(luò)測(cè)試。插座式計(jì)算機(jī)其實(shí)就是連接到網(wǎng)絡(luò)的超小型裸機(jī)服務(wù)器,典型的插座式計(jì)算機(jī)包括Marvell公司的SheevaPlug或GuruPlug,或者基于這種平臺(tái)開發(fā)的其他產(chǎn)品,比如QuadAxis公司的QuadPlug。
設(shè)計(jì)該集群項(xiàng)目的麻省理工學(xué)院系統(tǒng)管理員Kurt Keville稱,麻省理工學(xué)院的這個(gè)集群用標(biāo)準(zhǔn)Wi-Fi連接而成,工作時(shí)總耗電量才約100瓦。他說:“我們現(xiàn)在的一大瓶頸就是內(nèi)存、網(wǎng)絡(luò)帶寬和延遲。”目前,麻省理工學(xué)院使用許多獨(dú)立的處理器核心,借助多路徑網(wǎng)絡(luò)技術(shù),在無線網(wǎng)絡(luò)上劃分任務(wù)。這種技術(shù)需要部署的無線熱點(diǎn)總數(shù)比較少,可以更充分地利用每個(gè)核心。這意味著,麻省理工學(xué)院使用低成本的插座式計(jì)算機(jī),即可為特定的應(yīng)用任務(wù)構(gòu)建多個(gè)集群,費(fèi)用比處理所有HPC任務(wù)的傳統(tǒng)集群低得多。
該團(tuán)隊(duì)還采用這一集群為學(xué)生們提供低成本的、太陽能供電的無線網(wǎng)絡(luò)。Kurt Keville表示,目前不打算構(gòu)建一般性的集群,因?yàn)楣δ芨R全的處理器耗電量很大,成本過高。
但使用共享內(nèi)存來處理復(fù)雜的計(jì)算任務(wù)行不通,因?yàn)閱闻_(tái)插座式計(jì)算機(jī)缺乏足夠的內(nèi)存和處理速度,無法同時(shí)處理多個(gè)任務(wù)。
桑迪亞國(guó)家實(shí)驗(yàn)室與無磁盤集群
這個(gè)值得考慮的集群選擇根本不是傳統(tǒng)的硬件節(jié)點(diǎn)。桑迪亞國(guó)家實(shí)驗(yàn)室(Sandia National Laboratories)的研究人員Ron Minnich構(gòu)建了一個(gè)使用100萬個(gè)虛擬機(jī)的集群,并爭(zhēng)取近期將這個(gè)系統(tǒng)擴(kuò)展到1000萬個(gè)虛擬機(jī)。
每個(gè)虛擬機(jī)由該實(shí)驗(yàn)室的“雷鳥(Thunderbird)”超級(jí)計(jì)算機(jī)上運(yùn)行的Linux內(nèi)核構(gòu)成。有意思的是,這臺(tái)超級(jí)計(jì)算機(jī)本身就是個(gè)集群,由近5000臺(tái)戴爾計(jì)算機(jī)相互連接而成。為了構(gòu)建這個(gè)包括100萬個(gè)節(jié)點(diǎn)的集群,Ron Minnich在每個(gè)戴爾節(jié)點(diǎn)上運(yùn)行250個(gè)虛擬機(jī)。如果要擴(kuò)展到1000萬個(gè)節(jié)點(diǎn),他就得在現(xiàn)有集群中的每臺(tái)戴爾計(jì)算機(jī)上運(yùn)行更多的虛擬機(jī)。
Ron Minnich及其團(tuán)隊(duì)正使用這個(gè)集群模擬僵尸網(wǎng)絡(luò)如何感染計(jì)算機(jī),分析互聯(lián)網(wǎng)如何工作,以及幫助開發(fā)下一代操作系統(tǒng)和安全軟件。他表示,最終,他的團(tuán)隊(duì)希望能夠模擬一個(gè)小國(guó)家的計(jì)算機(jī)網(wǎng)絡(luò),甚至能模擬像美國(guó)這類大國(guó)的計(jì)算機(jī)網(wǎng)絡(luò),以便在虛擬環(huán)境下監(jiān)測(cè)網(wǎng)絡(luò)攻擊。換句話說,他想在實(shí)驗(yàn)室里建立網(wǎng)絡(luò)攻擊的虛擬模型。
Ron Minnich說:“一些緊迫的問題需要越來越多的計(jì)算資源,比如為氣候變化建立模型、研制新藥以及研究更有效的開發(fā)能源。”此外,虛擬化技術(shù)還會(huì)在研發(fā)大規(guī)模系統(tǒng)方面起到越來越重要的作用,因?yàn)樗軌蛟谝粋€(gè)平臺(tái)上運(yùn)行多個(gè)操作系統(tǒng),并處理針對(duì)特定應(yīng)用的操作系統(tǒng)。
基于GPU的射電望遠(yuǎn)鏡集群MWA。很顯然,MWA完全依賴GPU驚人的計(jì)算能力來為天文研究創(chuàng)建大量的實(shí)時(shí)圖像。
麻省理工學(xué)院的系統(tǒng)管理員Kurt Keville說,他們發(fā)現(xiàn),可以使用插座式計(jì)算機(jī)集群,在非常低功耗的情況下進(jìn)行網(wǎng)絡(luò)測(cè)試。
幫助構(gòu)建MWA集群的研究人員Richard Edgar說:“在電力這么有限的情況下,像至強(qiáng)和皓龍這些當(dāng)代處理器提供不了所需的計(jì)算能力。我們考慮過改用低功耗的MIPS處理器,但它們也提供不了所需的性能。由于計(jì)算方面的要求極高,供電量較低,使用GPU就成了惟一有望成功的辦法。”
集群計(jì)算仍在發(fā)展當(dāng)中。據(jù)麻省理工學(xué)院的Kurt Keville預(yù)測(cè),在不遠(yuǎn)的將來,巨型超級(jí)計(jì)算機(jī)集群占整整一層大樓的現(xiàn)象將不復(fù)存在。研究人員不會(huì)提前幾周安排批處理任務(wù),而是會(huì)拿來幾臺(tái)插座式計(jì)算機(jī),即刻構(gòu)建自己的集群。他說:“我們要重新思考對(duì)待科學(xué)計(jì)算的角度,考慮到可以使用的新產(chǎn)品和高昂的電力成本。面對(duì)更多的問題,我們需要更多的解決辦法。”