高性能計(jì)算的海量存儲(chǔ)系統(tǒng)新型訪問(wèn)策略分析

2012-07-19 05:48:58李全龍徐曉飛朱建濤黃永勤

哈爾濱工業(yè)大學(xué)學(xué)報(bào) 2012年11期

關(guān)鍵詞：策略系統(tǒng)

朱平，李全龍，徐曉飛，朱建濤，黃永勤

（1.哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，150001 哈爾濱;2.江南計(jì)算技術(shù)研究所，214083 江蘇無(wú)錫）

高性能計(jì)算的海量存儲(chǔ)系統(tǒng)新型訪問(wèn)策略分析

朱平1，2，李全龍1，徐曉飛1，朱建濤2，黃永勤2

（1.哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，150001 哈爾濱;2.江南計(jì)算技術(shù)研究所，214083 江蘇無(wú)錫）

為解決海量信息處理中實(shí)時(shí)訪問(wèn)的"I/O墻"問(wèn)題，提高海量信息分布式存儲(chǔ)系統(tǒng)的性能，提出了一種基于HPC的存儲(chǔ)部件新型訪問(wèn)策略.首先分析了傳統(tǒng)訪問(wèn)模型存在的問(wèn)題;其次研究了存儲(chǔ)部件直通路模式的工作機(jī)理，建立了存儲(chǔ)系統(tǒng)的多層次、分布式模型，根據(jù)不同層次和映射策略實(shí)現(xiàn)存儲(chǔ)空間物理地址、緩存地址、存儲(chǔ)系統(tǒng)邏輯空間地址的連續(xù)映射;繼而分析了直通路訪問(wèn)模式下的存儲(chǔ)路徑時(shí)間開銷;最后在模擬環(huán)境下進(jìn)行存儲(chǔ)部件訪問(wèn)的性能測(cè)試，并在實(shí)際應(yīng)用系統(tǒng)中對(duì)該策略進(jìn)行驗(yàn)證.驗(yàn)證測(cè)試結(jié)果表明，該方法能夠有效提高存儲(chǔ)系統(tǒng)性能，滿足海量信息處理的實(shí)時(shí)性需要.

高性能計(jì)算;海量存儲(chǔ)系統(tǒng);存儲(chǔ)部件直通路;存儲(chǔ)層次映射

最新公布的第37屆國(guó)際高性能計(jì)算TOP500最快計(jì)算機(jī)是以8 162 Tflops的持續(xù)性能指標(biāo)而榮登榜首，它是1946年第1臺(tái)計(jì)算機(jī)ENIAC的16 324億倍.超性能計(jì)算不斷以增加節(jié)點(diǎn)來(lái)增加系統(tǒng)性能，未來(lái)E級(jí)HPC系統(tǒng)規(guī)模將變得異常龐大，其存儲(chǔ)系統(tǒng)帶來(lái)了擴(kuò)展性、I/O性能和可用性等諸多嚴(yán)峻挑戰(zhàn)［1］.

1 問(wèn)題提出

信息存儲(chǔ)系統(tǒng)對(duì)UC-HPC至關(guān)重要，其性能優(yōu)劣會(huì)嚴(yán)重影響系統(tǒng)的總體性能，包括I/O操作以及處理器間通信等.圖1反映了計(jì)算性能與I/O性能存在難以彌合的“I/O墻”.因此，本文基于此背景下研究了HPC海量存儲(chǔ)系統(tǒng)的存儲(chǔ)策略.

“I/O墻”產(chǎn)生的原因主要有:CPU性能每年增長(zhǎng)超過(guò)60%，而磁盤性能每年僅有4% ～7%的速度增長(zhǎng);在并行分布共享多機(jī)系統(tǒng)中加重了主機(jī)與I/O速度的失配性;多處理器與多核系統(tǒng)使其整體性能以每年80%以上的速度增長(zhǎng);網(wǎng)絡(luò)、多媒體以及巨型復(fù)雜課題等一些新應(yīng)用領(lǐng)域產(chǎn)生了日益增長(zhǎng)的I/O要求.這些因素都加大了計(jì)算和存儲(chǔ)系統(tǒng)的性能差距，加厚了“I/O 墻”［7－8］.外存儲(chǔ)器與高性能計(jì)算的發(fā)展存在明顯的“間隙”，如圖2所示.

圖1 TOP 500計(jì)算性能和I/O性能的趨勢(shì)

圖2 磁盤存儲(chǔ)和TOP500高性能計(jì)算的發(fā)展歷程

緩解“I/O墻”的方法有:研究新型高速存儲(chǔ)載體、體系結(jié)構(gòu)、多級(jí)存儲(chǔ)模式、緩存技術(shù)、外存系統(tǒng)調(diào)度策略、RAID技術(shù)、文件分條、并行I/O技術(shù)、網(wǎng)絡(luò)存儲(chǔ)技術(shù)等［2－3］.HPC 的 I/O 硬件并行度遠(yuǎn)低于計(jì)算節(jié)點(diǎn)的并行度，使I/O性能與計(jì)算性能不匹配問(wèn)題變得更加嚴(yán)重［4－5］.系統(tǒng)規(guī)模越大越是嚴(yán)重地阻礙了下一代HPC計(jì)算能力的發(fā)揮［6－8］.目前，全球已公開在研萬(wàn)萬(wàn)億次級(jí)超級(jí)計(jì)算機(jī)系統(tǒng)如表1所示.

I/O及存儲(chǔ)技術(shù)在高性能計(jì)算機(jī)的發(fā)展中始終是一個(gè)十分重要的關(guān)鍵技術(shù)，由其構(gòu)成的系統(tǒng)是高性能計(jì)算機(jī)系統(tǒng)中的重要組成部分.其技術(shù)特性決定了計(jì)算機(jī)I/O的處理能力，進(jìn)而決定了計(jì)算機(jī)的整體性能以及應(yīng)用環(huán)境.為了提高存儲(chǔ)系統(tǒng)的性能，人們對(duì)存儲(chǔ)系統(tǒng)訪問(wèn)策略進(jìn)行了研究并取得進(jìn)展.HPC對(duì)存儲(chǔ)系統(tǒng)的迫切要求有:超大系統(tǒng)規(guī)模和高性能，需要支持超過(guò)100 000顆處理器、數(shù)十萬(wàn)個(gè)節(jié)點(diǎn)的并發(fā)訪問(wèn);支持系統(tǒng)的可擴(kuò)展性，根據(jù)用戶需求，HPC每4年并行I/O能力增長(zhǎng)10倍，而實(shí)際用戶需求每2年增加10倍，目前系統(tǒng)需支持GB/s乃至TB/s的I/O聚合帶寬、數(shù)據(jù)高可靠和高可用、多核下存儲(chǔ)系統(tǒng)軟件研究等等.

表1 全球已公開的在研萬(wàn)萬(wàn)億次級(jí)超級(jí)計(jì)算機(jī)系統(tǒng)

這對(duì)下一代的高性能計(jì)算機(jī)存儲(chǔ)系統(tǒng)結(jié)構(gòu)、高性能存儲(chǔ)載體部件、I/O通路、高性能存儲(chǔ)網(wǎng)絡(luò)、網(wǎng)絡(luò)存儲(chǔ)技術(shù)等都提出了新的挑戰(zhàn).研究高性能計(jì)算機(jī)中存儲(chǔ)系統(tǒng)關(guān)鍵技術(shù)，主要集中在:高性能存儲(chǔ)網(wǎng)絡(luò)研究、網(wǎng)絡(luò)存儲(chǔ)研究、高性能分布式文件系統(tǒng)、分布式多級(jí)緩存管理、分布式數(shù)據(jù)布局策略研究、網(wǎng)絡(luò)存儲(chǔ)虛擬化研究、網(wǎng)絡(luò)存儲(chǔ)系統(tǒng)高可用、分布式存儲(chǔ)系統(tǒng)可擴(kuò)展性研究、高性能存儲(chǔ)載體研究、云存儲(chǔ)技術(shù)研究等等.本文重點(diǎn)研究提高存儲(chǔ)系統(tǒng)性能的策略，如存儲(chǔ)部件直通路訪問(wèn)策略，提出基于直通路方式的查找策略與系統(tǒng)實(shí)現(xiàn).

2 新型存儲(chǔ)部件訪問(wèn)策略

HPC海量存儲(chǔ)系統(tǒng)需要對(duì)成千上萬(wàn)的存儲(chǔ)對(duì)象進(jìn)行隨機(jī)訪問(wèn)，如何有效地實(shí)現(xiàn)系統(tǒng)的負(fù)載均衡，對(duì)提高系統(tǒng)的整體性能，充分有效利用系統(tǒng)資源至關(guān)重要.在實(shí)際課題中有計(jì)算密集型、通信密集型、數(shù)據(jù)密集型及這3種組合型的應(yīng)用課題.其中本文需要重點(diǎn)關(guān)注與后兩類有關(guān)的課題.

存儲(chǔ)部件一般是由存儲(chǔ)控制器和磁盤組成，其性能影響的關(guān)鍵是磁盤存儲(chǔ)部件，由于近來(lái)新型的存儲(chǔ)載體的性價(jià)比還存在問(wèn)題，雖然有可能替代磁盤存儲(chǔ)載體，但高性能存儲(chǔ)系統(tǒng)大規(guī)模應(yīng)用不能完全取代磁盤.高性能計(jì)算存儲(chǔ)系統(tǒng)將數(shù)據(jù)和元數(shù)據(jù)分離，但元數(shù)據(jù)是一個(gè)非大塊交換量訪問(wèn)方式的數(shù)據(jù)，隨機(jī)性強(qiáng)，根據(jù)I/O強(qiáng)度，有時(shí)訪問(wèn)密度很高，數(shù)據(jù)的局部性不是那么的好.本文結(jié)合軟、硬件條件提出改善這一狀況的新思路.

系統(tǒng)存儲(chǔ)性能的提高可以用多方面的解決方案，但是性能改善的源頭還是存儲(chǔ)部件，在使用一定的存儲(chǔ)介質(zhì)后，系統(tǒng)的輸入性能已經(jīng)基本確定.增加帶寬、采用并發(fā)并行的方法能夠有效的緩解其性能不匹配的瓶頸.本文在此基礎(chǔ)上提出另外一種提高系統(tǒng)效率的思路，主要針對(duì)存儲(chǔ)部件控制器經(jīng)常需要在緩存中“轉(zhuǎn)存－轉(zhuǎn)運(yùn)”數(shù)據(jù)而影響系統(tǒng)I/O性能的特點(diǎn).數(shù)據(jù)流是通過(guò)主機(jī)發(fā)出請(qǐng)求給存儲(chǔ)部件，存儲(chǔ)部件控制器解析，形成對(duì)緩存空間的請(qǐng)求，如果經(jīng)過(guò)查找，不滿足條件，需要從設(shè)備空間獲取，這就需要分析和多次的傳送數(shù)據(jù).如何利用數(shù)據(jù)流在設(shè)備間的連續(xù)傳送，在協(xié)議基礎(chǔ)上拓展以提高其傳輸效率是一個(gè)問(wèn)題.

本文把整個(gè)空間及其數(shù)據(jù)流的轉(zhuǎn)換限定為物理層、操作層、映射層、策略層和應(yīng)用層等，如圖3所示.

圖3 數(shù)據(jù)流及處理策略

設(shè)整個(gè)HPC的空間為SHPC，物理部件存儲(chǔ)空間為PAPi，控制器緩存空間BufCACj，元數(shù)據(jù)定義文件系統(tǒng)的空間 MDSAMDSk，每個(gè)I/O訪問(wèn)空間為IOAIOl.策略層有Pa個(gè)參數(shù)因子，映射層有Mb個(gè)參數(shù)因子，操作層有Oc個(gè)參數(shù)因子，它們將共同作用，完成系統(tǒng)的空間管理和數(shù)據(jù)流的方向.用戶請(qǐng)求的地址為Addrx交換量為County，則有用戶的請(qǐng)求和最終物理空間之間的關(guān)系有:

式(1)表示用戶申請(qǐng)?jiān)L問(wèn)的全局系統(tǒng)存儲(chǔ)空間需要通過(guò)Client發(fā)出請(qǐng)求傳給MDS，經(jīng)過(guò)I/O節(jié)點(diǎn)傳送，使用多種策略和映射方法獲取數(shù)據(jù).

式(2)、式(3)表示不論I/O節(jié)點(diǎn)還是MDS獲取數(shù)據(jù)需要通過(guò)存儲(chǔ)部件的緩存及其控制器相應(yīng)的映射策略等可以獲取數(shù)據(jù).

而控制器的緩存獲取數(shù)據(jù)則需要通過(guò)PAPi、IOCIOl、MDSAMDSk、BufCACj、Pa、Mb、Oc等共同作用.

在HPC中一般應(yīng)用集成的存儲(chǔ)部件，接口間不同協(xié)議割裂了不同層之間的映射關(guān)系.本文可以通過(guò)空間映射的方法，直接在IOAIOl與PAPi以及MDSAMDSk與PAPi間建立關(guān)系，可以形成一個(gè)或多個(gè)物理磁盤通過(guò)存儲(chǔ)部件控制器和I/O服務(wù)器的存儲(chǔ)空間或者M(jìn)DS的存儲(chǔ)服務(wù)空間的直接映射，產(chǎn)生直接的數(shù)據(jù)流動(dòng).

具體的實(shí)現(xiàn)方法是把控制器中設(shè)備地址映像到緩存地址改變?yōu)橛诚竦竭B接主機(jī)接口的地址空間，建立數(shù)據(jù)流的直接流向.這樣可以把設(shè)備接口和主機(jī)接口的數(shù)據(jù)空間通過(guò)數(shù)據(jù)鏈連接起來(lái)，實(shí)現(xiàn)了物理存儲(chǔ)設(shè)備和服務(wù)器(包括MDS和I/O服務(wù)器)間的聯(lián)系.直通路是提高存儲(chǔ)系統(tǒng)性能的方法之一.圖4針對(duì)系統(tǒng)結(jié)構(gòu)特點(diǎn)，建立存儲(chǔ)系統(tǒng)數(shù)據(jù)流和控制流模型，描述了I/O請(qǐng)求路徑和I/O響應(yīng)數(shù)據(jù)傳輸路徑.

圖4 處理數(shù)據(jù)流

圖4中左側(cè)為計(jì)算節(jié)點(diǎn)(PN，Client)發(fā)出I/O請(qǐng)求，右側(cè)為n個(gè)OSS的I/O節(jié)點(diǎn)(存儲(chǔ)服務(wù)器OSS)和MDS及所掛存儲(chǔ)部件，執(zhí)行并行I/O服務(wù)請(qǐng)求.以一次文件讀請(qǐng)求為例.一次文件讀請(qǐng)求服務(wù)時(shí)間T包括:I/O請(qǐng)求在Client和服務(wù)器端的傳輸及服務(wù)延時(shí)，分別表示為TClient和TOSS、響應(yīng)數(shù)據(jù)傳輸延時(shí)TIOdata、并行IO處理開銷TParallel及I/O請(qǐng)求的網(wǎng)絡(luò)傳輸服務(wù)時(shí)間TNetwork.從圖4中可看出采用直通路技術(shù)前后數(shù)據(jù)傳輸路徑有較大差異.采用直通路技術(shù)前分布文件系統(tǒng)服務(wù)一次文件讀請(qǐng)求，未命中緩存情況下讀響應(yīng)數(shù)據(jù)要經(jīng)過(guò)下列傳輸路徑:

2)以DMA方式從磁盤陣列控制器的緩存?zhèn)鬏數(shù)酱鎯?chǔ)服務(wù)器的緩存，記為TDMAIO;

3)從存儲(chǔ)服務(wù)器緩存拷貝到通訊緩沖區(qū)，記為TCOPY1;

4)以RDMA方式從存儲(chǔ)服務(wù)器的通訊緩沖區(qū)，經(jīng)過(guò)存儲(chǔ)互連網(wǎng)，傳輸?shù)桨l(fā)出請(qǐng)求的Client的通訊緩沖區(qū)，記為TRDMA;

6)從Client緩存拷貝到用戶緩沖區(qū)，記為TCOPY3.共計(jì)3次內(nèi)存拷貝，讀響應(yīng)數(shù)據(jù)傳輸延時(shí)TIOdata為

不考慮Client發(fā)送I/O請(qǐng)求的開銷，則1次文件讀請(qǐng)求服務(wù)時(shí)間T1為

而整個(gè)直通路過(guò)程應(yīng)包含:以直通路方式從磁盤組，經(jīng)過(guò)磁盤陣列控制器到存儲(chǔ)服務(wù)器記為TPDMAdisk;其余相同.

讀響應(yīng)數(shù)據(jù)傳輸延時(shí)TIOdata為相應(yīng)的一次文件讀請(qǐng)求服務(wù)時(shí)間T2為

因此采用直通路策略后，1次文件讀請(qǐng)求減少的服務(wù)時(shí)間為

文件讀請(qǐng)求的處理涉及從磁盤陣列控制器到本地I/O內(nèi)存的DMA寫和從本地內(nèi)存到Client內(nèi)存的RDMA寫過(guò)程.

元數(shù)據(jù)的過(guò)程類似，可參照不重復(fù)比較.

經(jīng)過(guò)抽象，可以把上述問(wèn)題簡(jiǎn)化為如圖5所示2張圖，表示在一個(gè)控制器內(nèi)部數(shù)據(jù)的流動(dòng)方向.

圖5 兩種傳輸模式

其工作原理是內(nèi)存M與設(shè)備A或B存在映射為

本文可以通過(guò)硬件方式進(jìn)行地址空間(如存儲(chǔ)器空間或I/O空間)映射，產(chǎn)生另外一個(gè)映射，能夠使設(shè)備A與設(shè)備B之間存在映射為

3 新型存儲(chǔ)部件訪問(wèn)策略(Passthrough)性能分析測(cè)試

在直通路(Pass-through)傳輸模式下，設(shè)備A和設(shè)備B的數(shù)據(jù)交換可以通過(guò)PCI-e總線直接進(jìn)行，此時(shí)存儲(chǔ)器已被旁路;通過(guò)邏輯設(shè)置設(shè)備的主/從方和正確的尋址方式完成以上操作.這種傳輸方式提高了數(shù)據(jù)的傳輸效率，以不占用系統(tǒng)內(nèi)部總線為前提，減少系統(tǒng)開銷.

假設(shè)設(shè)備i傳到設(shè)備j的數(shù)據(jù)量為Dataij，耗時(shí)為 Tij，其平均傳輸率為 vij，則

假設(shè) Tij1、Tij2、Tij3、Tij4、Tij5中每次交易中 Tij1、Tij2、Tij3、Tij5是常量，且隨每次數(shù)據(jù)交換量的不同而不同，設(shè)其突發(fā)數(shù)傳率為C，則

式中:Tij1為邏輯地址映射分配;Tij2為仲裁選擇;Tij3為建立連接;Tij4為數(shù)據(jù)傳輸;Tij5為撤消連接.直通路方式，其設(shè)備A到設(shè)備B傳送交換量為D數(shù)據(jù)量的數(shù)傳率為

而傳統(tǒng)方式下數(shù)傳率為

又設(shè) Tij1為10t，Tij2為5t，Tij3為5t，Tij5為5t，其直通路vpass－AB和傳統(tǒng)方式下的vt－AB加速比A為

則將對(duì)應(yīng)參數(shù)代入式(4)中，得到

但是由于存儲(chǔ)器與磁盤介質(zhì)傳送數(shù)據(jù)，不確定的是尋道時(shí)間和緩存策略處理時(shí)間，因此其加速比僅為

存儲(chǔ)系統(tǒng)性能評(píng)測(cè)程序也可獲取一部分I/O的特征信息［9－10］.存儲(chǔ)系統(tǒng)測(cè)試通常采用一些基準(zhǔn)應(yīng)用，如 Postmark、IOzone、IOmeter、Bonnie 等工具［11－17］.本文使用 IOmeter、Bonnie 基準(zhǔn)程序以及用Linux的基本命令dd等編寫的標(biāo)準(zhǔn)測(cè)試腳本來(lái)測(cè)試系統(tǒng)的性能.

3.1 系統(tǒng)實(shí)驗(yàn)環(huán)境

根據(jù)存儲(chǔ)部件直通路(Passthrough)研究的設(shè)計(jì)思路和具體實(shí)現(xiàn)完成關(guān)于直通路方式和正常傳輸方式下的性能測(cè)試.以服務(wù)器(Linux平臺(tái))掛接存儲(chǔ)部件為例主機(jī)接口協(xié)議為IBA的SRP協(xié)議，底層是SCSI協(xié)議.設(shè)備接口是SAS接口，掛接15 000 r/min的企業(yè)級(jí)300 GB SAS磁盤.

3.2 性能測(cè)試

用標(biāo)準(zhǔn)測(cè)試及其腳本對(duì)上述環(huán)境進(jìn)行讀寫測(cè)試.圖6為存儲(chǔ)部件以直通路方式、傳統(tǒng)方式0命中和傳統(tǒng)方式全命中進(jìn)行數(shù)據(jù)傳送，交換量從512 Byte/(MB·s－1)～1 024 KB/(MB·s－1).如圖6及表2所示.

圖6 直通路方式與傳統(tǒng)方式的對(duì)比

表2 部分存儲(chǔ)部件性能測(cè)試列表

假設(shè)直通路與非直通路(全命中)相比，因?yàn)閿?shù)據(jù)全部在緩存或者暫時(shí)存放在緩存，后者性能比前者高，性能損失直通路讀和非直通路(全命中)數(shù)據(jù)相近.直通路(全命中)和非直通路(0命中)是兩個(gè)極端，兩個(gè)理想狀態(tài)便于測(cè)試，實(shí)際應(yīng)用介于兩者之間.其他值可根據(jù)實(shí)際情況測(cè)試和驗(yàn)證，但是比較復(fù)雜，不能很好地收集緩存的真實(shí)情況，所以才利用最極端的兩種情況說(shuō)明問(wèn)題.

在實(shí)際應(yīng)用中計(jì)算節(jié)點(diǎn)兩組系統(tǒng)采用不同策略進(jìn)行性能比較.

1)系統(tǒng)實(shí)驗(yàn)環(huán)境.

系統(tǒng)試驗(yàn)的目的是對(duì)比虛根文件系統(tǒng)和局部文件系統(tǒng)的性能測(cè)試情況.本系統(tǒng)中以整機(jī)系統(tǒng)有2 000個(gè)計(jì)算節(jié)點(diǎn)為例，原始設(shè)計(jì)中考慮每個(gè)計(jì)算節(jié)點(diǎn)有自己的高速計(jì)算網(wǎng)絡(luò)接口、千兆以太網(wǎng)口、維護(hù)接口、15 000 r/min的企業(yè)級(jí)300 GB SCSI磁盤等.硬盤用于本地局部OS啟動(dòng)以及裝載系統(tǒng)Client自身的文件系統(tǒng).利用虛根文件系統(tǒng)管理虛擬空間再次生成的每個(gè)計(jì)算節(jié)點(diǎn)所需要的邏輯空間，作為其系統(tǒng)的OS、交換區(qū)的swap空間及其局部空間.

2)性能測(cè)試.

圖7～圖9表示對(duì)虛擬邏輯磁盤和真實(shí)物理磁盤的性能測(cè)試比較，采用標(biāo)準(zhǔn)測(cè)試程序和腳本.總體表明前者的性能是后者性能的3倍.

圖7 幾種方式的性能加速比

圖8 小塊方式的性能加速比

圖9 實(shí)際系統(tǒng)驗(yàn)證對(duì)比

通過(guò)上述應(yīng)用環(huán)境下的模擬可以得到系統(tǒng)具備有局部盤不可能有的優(yōu)點(diǎn):加載時(shí)間快、I/O性能提高、可靠性增強(qiáng)、系統(tǒng)易管理和利用空間充分等.

4 結(jié)論

1)直通路策略很好地解決了設(shè)備間的傳輸效率問(wèn)題，在虛擬存儲(chǔ)文件系統(tǒng)的小塊不命中的元數(shù)據(jù)存儲(chǔ)過(guò)程中能夠提高元數(shù)據(jù)的獲取效率和處理能力.

2)由于還有軟件開銷和不同數(shù)據(jù)流在緩存算法中的應(yīng)用延時(shí)不同，沒有精確的對(duì)比.在主機(jī)接口性能一致的前提下，分析傳統(tǒng)存儲(chǔ)部件傳輸機(jī)制上的問(wèn)題，研究數(shù)據(jù)流存儲(chǔ)操作的方式，為最大限度滿足系統(tǒng)存儲(chǔ)性能要求，分析其對(duì)傳統(tǒng)傳輸方式的加速比.

3)綜合利用存儲(chǔ)策略在實(shí)際系統(tǒng)平臺(tái)上進(jìn)行了測(cè)試和性能對(duì)比.該方法是提高分布式海量存儲(chǔ)部件級(jí)性能的有效策略，可以結(jié)合其他方法綜合提高系統(tǒng)性能.

［1］TOP 500 Supercomputer Sites.TOP500 List for June 2011［EB/OL］.［2011 －06 －01］.http://www.top500.org.

［2］PATTERSON D A，GIBSON G，KATZ R.A case for redundant arrays inexpensive disks(RAID)［J］.ACM SIGMOD Conference，1988，17(3):109－116.

［3］PATTERSON D A，HENNESSEY J L.Computer Organization and Design:The Hardware/software Interface［M］.San Francisco，CA:Morgan Kaufmann，1998.

［4］RIPEANU M，IAMNITCHI A.S4:a simple storage service for sciences［C］//Proceedings of the 16thIEEE International Symposium on High Performance Distributed Computing(HPDC).Monterey Bay，CA:Hot Topics Track，2007.

［5］HWANG Kai，XU Zhiwei.Scalable Parallel Computing Technology，Architecture Programming［M］.［S.n.］:McGraw-Hill，1998.

［6］SALEM K，GARCIA-MOLINA H.Disk striping［C］//Proceedings of 2ndIEEE International Conference on Data Engineering.Washington，DC:IEEE，1986:336－342.

［7］CABRERA L，LONG D D E.Swift:using distributed disk striping to provide high i/o data rates［R］.Santa Cruz，CA:University of California at Santa Cruz，1991.

［8］KIM M Y.Synchronized disk interleaving［J］.IEEE Transactions on Computers，1986，35(11):978 －988.

［9］KATCHER J.PostMark:A new file system benchmark.［EB/OL］.http://www.netapp.com//techndogy/level3/3022.html.

［10］BRYANT R，RADDAZ D，SUNSHINE R.PenguinoM-eter:a new fileIO benchmark for linux?［C］//Proceedings of the 5thAnnual Linux Showcase ＆ Conference.Berkeley，CA:USENIX Association，2001:5 －10.

［11］Network Appliance.PostMark:a new file system benchmark［EB/OL］.［1997－10－08］http://www.netapp.com.

［12］TIM Bray.The bonnie benchmark［EB/OL］.http://www.text-uality.com.

［13］NORCOTT W，CAPPS Don.IOzone filesystem benchmark［EB/OL］.http://www.iozone.org.

［14］Intel Corporation.Iometer［EB/OL］.http://www.iometer.org.

［15］I/O Performance Inc.Xdd［EB/OL］.http://www.ioperformance.com.

［16］TRAEGER A，ZADOK E，JOUKOV N，et al.A nine year study of file system and storage benchmarking［J］.ACM Transactions on Storage，2008，4(2):5－56.

［17］Intel Corp.IOMETER user guide［EB/OL］.www.intel.Com/developer/iometer.etc.

Research on the new access policy of storage unit under HPC mass storage system

ZHU Ping1，2，LI Quan-Long1，XU Xiao-fei1，ZHU Jian-tao2，HUANG Yong-qin2

(1.School of Computer Science and Technology，Harbin Institute of Technology，Harbin 150001，China;2.Jiangnan Institute of Computing Technology，214083 Wuxi，China)

To solve the"I/O wall"problem in the case of real-time accessing about mass information processing and to improve performance of distributed mass storage systems，an access policy based on storage unit pass-through is proposed and the problem of traditional access models is analyzed.Then the mechanism of pass-through pattern is studied，and a multi-level and distributed model is built up.Next，the continuous mapping of physical address，cache address of storage space and logical space address of storage system are realized depend on the different levels and mapping strategies.The time consuming of pass-through storage path in pass-through pattern is analyzed.Last，the performance of the storage unit in the simulated environment is tested.The results show that the method can improve the performance of storage system effectively，and can meet the needs of real-time accessing about massive information processing.

HPC;mass storage system;storage unit pass-through;map of storage hierarchical structure

TP333

0367－6234(2012)11－0059－06

2011－10－12.

國(guó)家高技術(shù)研究發(fā)展計(jì)劃資助項(xiàng)目(2009AA01A402).

朱平(1965—)，男，高級(jí)工程師;

徐曉飛(1962—)，男，教授，博士生導(dǎo)師;

黃永勤(1955—)，女，高級(jí)工程師，博士生導(dǎo)師.

朱平，fendicmm@sina.com.

(編輯張紅)