林 增,武 錚,安 虹,陳俊仕
(中國科學技術(shù)大學 計算機科學與技術(shù)學院,合肥 230026)
分子動力學模擬(molecular dynamics,MD)是通過數(shù)值求解牛頓運動方程獲得分子、原子運動軌跡的計算機模擬方法,廣泛應(yīng)用于物理、化學和生物體系的理論研究.由于目前分子動力學可模擬的時間尺度在ns量級,遠不能滿足真實實驗的需求,所以在超級計算機上對分子動力學模擬應(yīng)用進行移植優(yōu)化有了更迫切的需求[1].現(xiàn)有很多分子動力學模擬軟件普及于各個研究領(lǐng)域,例如NAMD[2]、LAMMPS[3]、AMBER[4]等.其中大部分MD應(yīng)用支持不同平臺上進行模擬,例如CPU、GPU、FPGA等.
GROMACS是廣泛用于MD模擬的開源軟件包之一,主要用來模擬蛋白質(zhì)、脂質(zhì)、核酸等生物分子的運動,以推測物質(zhì)的宏觀特性[5].GROMACS計算非鍵相互作用的效率很高,使得越來越多的研究小組使用它來模擬非生物體系.同時,GROMACS是免費的開源軟件,現(xiàn)由世界各地的大學和研究機構(gòu)共同維護.
MD應(yīng)用的熱點在于非鍵力計算部分[6],為了優(yōu)化計算模式,GROMACS進一步根據(jù)原子的截斷半徑大小將非鍵力分為短程力和長程力兩部分.對于短程力,粒子只需要計算自身和截斷半徑內(nèi)的原子相互作用;而對于長程力,粒子需要計算自身和體系中其他粒子的相互作用,GROMACS內(nèi)部采用PME(Particle Mesh Ewald)算法將時間復(fù)雜度降低為O(NlogN)[7].最初短程力作用是程序熱點,GROMACS官方代碼早期在通用平臺上對其進行優(yōu)化[8,9]之后,熱點轉(zhuǎn)移到長程力作用,所以GROMACS最新官方代碼在通用平臺進一步優(yōu)化PME算法.同樣,已有研究團隊基于申威平臺對短程力作用開展研究[10,11],在短程力作用優(yōu)化之后,申威平臺上的PME算法占比75.3%,成為了程序熱點.因此,本文通過重構(gòu)PME計算代碼,完成PME算法在神威太湖之光上的移植和優(yōu)化.
神威太湖之光是世界排名第3的超級計算機,其性能主要來自于SW26010眾核處理器芯片[12].如圖1所示,每個SW26010包含4個核組(core groups,CGs),核組之間通過片上網(wǎng)絡(luò)(network-on-chip,NoC)連接.每個核組由一個運算控制核心和一個運算核心陣列組成,主核(management processing element,MPE)主要負責管理和通信等邏輯復(fù)雜部分,運算核心陣列是由64個從核(computing processing element,CPE)通過8*8網(wǎng)絡(luò)互連,主要負責計算密集部分.內(nèi)存層次上,主核包含8G DDR3內(nèi)存,32KB L1指令cache,32KB L1數(shù)據(jù)cache和256 KB L2指令數(shù)據(jù)cache;相比之下,每個從核只包含16KB L1指令cache和64KB的局存(local directive memory,LDM),其中局存為每個從核所私有.計算能力上,主核和從核的時鐘頻率都為1.45GHZ,且都使用256位向量指令.由于主從核工作頻率相同且單芯片內(nèi)的從核核心數(shù)遠大于主核,所以從核貢獻了整個芯片97%的浮點性能.數(shù)據(jù)傳輸上,從核可以通過DMA高效地獲取主核內(nèi)存中連續(xù)區(qū)域的數(shù)據(jù),否則只能通過高延遲的全局加載/存儲指令(gld/gst)來訪問主核內(nèi)存中的數(shù)據(jù).

圖1 SW26010芯片架構(gòu)Fig.1 SW26010 architecture
實際上,將PME算法移植到神威太湖之光還存在很多困難.一方面,SW26010存在很多限制:從核的局存過小,主從核之間的DMA傳輸帶寬過低等[13].另一方面,PME算法中大量的離散數(shù)據(jù)訪存極大地限制了基于無緩存內(nèi)存層次結(jié)構(gòu)設(shè)計的從核陣列的內(nèi)存訪問效率,以及并行B樣條插值[14]引入了網(wǎng)格點寫-寫沖突為PME算法的優(yōu)化帶來了巨大挑戰(zhàn).為了克服上述問題,本文的主要貢獻如下所示:
1)提出基于局部網(wǎng)格序的分塊策略,解決了PME算法的并行難點.
2)提出了數(shù)據(jù)重組策略進一步提升訪存局部性,以及使用非線性函數(shù)近似等方法提升計算性能.
3)優(yōu)化后的算法性能相對于初始版本有8.85倍性能提升,相對于CPU向量化版本有1.2倍性能提升.
MD模擬需要在短時間內(nèi)求解N個相互作用粒子的牛頓運動方程,而作用在粒子上的力需要對勢能求偏導得到.
(1)
為了消除有限系統(tǒng)的邊界效應(yīng),一般MD模擬引入周期性邊界條件(Periodic Boundary Conditions,PBC)進行處理.在PBC下體系的靜電勢能可以表示為.
(2)
其中k是關(guān)于介電常數(shù)ε的量k=1/4πε ,N表示該體系所有的粒子數(shù),q表示粒子的電荷量.在PBC影響下,體系所在的元胞復(fù)制出完全相同的元胞(鏡像),并向周圍空間無限延伸.那么不僅體系中的N個粒子之間會產(chǎn)生靜電作用,原元胞粒子與鏡像粒子也會產(chǎn)生靜電作用.|ri-rj+n|即表示粒子i和跨鏡像的粒子j之間的真實距離.式(2)添加*號表示排除兩個粒子為同一粒子且同時在原元胞的情況.
由于式(2)屬于條件收斂,收斂速度較慢,Ewald加和方法[15]將電勢能的求解拆分成如下3部分勢能之和,以達到快速收斂的目的.
(3)
(4)
(5)
其中傅里葉空間的結(jié)構(gòu)因子如下所示.
(6)
上述式(3)-式(5)分別表示了實空間(direct space)勢能、傅里葉空間(reciprocal space)勢能及能量修正項(correction term).erf為高斯誤差函數(shù),erfc是erf的互補函數(shù).其中能量修正項的時間復(fù)雜度為O(N),不做優(yōu)化考慮.參數(shù)β用于控制實空間和傅里葉空間的計算相對權(quán)重,若將β調(diào)大,Edir會相對r收斂很快,因此可以采用截斷半徑的方法將實空間勢能的計算復(fù)雜度從O(N2)降到O(N).而由于式(6)中的結(jié)構(gòu)因子和難以近似,導致Erec的求解成為瓶頸,使得Ewald加和方法的計算復(fù)雜度仍為O(N2).通過引入PME算法,使用基數(shù)B樣條網(wǎng)格插值方法[16]近似式(6)的值.
(7)
Ml(u2i-k2-n2K2)×Ml(u3i-k3-n3K3)
(8)
其中F(Q)表示Q數(shù)組的傅里葉變換,Q表示原體系電荷插值后所得到的三維數(shù)組,Ml表示B樣條插值系數(shù).那么式(7)、式(8)表示電荷插值到三維網(wǎng)格的散亂數(shù)據(jù)插值過程,即體系中每個電荷都需要擴散到周圍n3個格點上,而對每個格點的電荷貢獻由Ml決定.圖2為電荷在二維網(wǎng)格的插值過程.
那么最終可以將近似后的傅里葉空間勢能代入式(1),得到體系中粒子的受力.

圖2 PME電荷擴散示意圖Fig.2 Charge spreading in PME
(9)
其中θrec=F(B·C),B、C數(shù)組的定義如下.
(10)
近年來,GROMACS作為高性能領(lǐng)域的重要MD應(yīng)用,已經(jīng)成為了眾多超級計算機的主流應(yīng)用.眾多研究團隊在異構(gòu)計算平臺展開研究,并提出了有效的優(yōu)化方法來提高GROMACS的性能.
Li等[17]通過分析MPI+OpenMP+CUDA的三級混合并行編程模式的性能,實驗得出了GROMACS在CPU-GPU集群的最佳配置機制.Wang等[18]在天河二號對GROMACS進行加速,第一次通過offload模式將短程力計算部分offload到MIC卡上,并使用2xnn SIMD代碼來加速MIC線程.
Yu等[10]聚焦于在申威平臺的芯片級優(yōu)化,采用軟件模擬cache、混合并行計算等方法提高數(shù)據(jù)局部性,取得了不錯的效果.Zhang等[11]聚焦于在神威太湖之光上的系統(tǒng)級優(yōu)化,通過重構(gòu)短程力計算代碼,RDMA優(yōu)化通信[19]等方法實現(xiàn)GROMACS在多節(jié)點間的優(yōu)化,取得了較好的性能提升.
Shi等[20]提出使用格點變量收集電荷貢獻的策略替代原算法中電荷擴散到格點的方法,通過修改PME算法計算結(jié)構(gòu)從而消除并行時帶來的寫-寫沖突,并將這種方法應(yīng)用于其課題組開發(fā)的GMD程序中.而由于GROMACS代碼量巨大,結(jié)構(gòu)體嵌套復(fù)雜,模塊間聯(lián)系緊密,無法采用這種方法進行優(yōu)化.GROMACS最新版本在GPU上移植了PME算法,其直接采用原子加操作消除寫沖突,而在申威平臺從核不支持浮點原子操作,且從核局存間無法進行共享,使得此方法無法在申威平臺進行應(yīng)用.
上述研究工作是在不同異構(gòu)平臺對GROMACS進行性能優(yōu)化,但是在申威平臺的研究工作只針對于GROMACS中的短程力計算部分,而尚未有將PME算法移植到申威平臺的相關(guān)研究.并且PME算法在GMD程序及GPU上移植的經(jīng)驗也無法直接利用.在此,本文做了一種新的研究嘗試,即設(shè)計了一種基于局部網(wǎng)格序的新型分塊策略,以此來實現(xiàn)GROMACS的PME算法在SW26010眾核處理器上的移植.
首先剖析PME算法在GROMACS的具體執(zhí)行流程,如圖3所示.

圖3 PME執(zhí)行流程圖Fig.3 Execution flowchart for PME
大體可以分為如下5個部分:
1)使用B樣條值擴散粒子電荷到離散的三維網(wǎng)格,得到式(8)中插值后的數(shù)組Q;
2)對網(wǎng)格點執(zhí)行3D FFT變換;
3)計算傅里葉空間靜電勢能,并更改網(wǎng)格值;
4)對修改后的網(wǎng)格執(zhí)行3D逆FFT變換;
5)使用樣條值從網(wǎng)格插值得到式(9)中原系統(tǒng)各粒子的受力.
其中電荷擴散是利用FFT變換的前提,是至關(guān)重要的過程,且文獻[20,21]均提到此過程的并行最具挑戰(zhàn)性,也是本文著重優(yōu)化的部分.除了FFT計算直接調(diào)用申威平臺的數(shù)學庫[22],本文也優(yōu)化了PME算法的其余模塊.
在模擬系統(tǒng)中,蛋白質(zhì)本身排列無規(guī)則外加PBC的影響,導致空間中電荷幾乎是隨機分布,當我們直接按原電荷序訪問網(wǎng)格點時會嚴重影響性能.另外電荷擴散需要使用圖2所示的B樣條插值方法,這種擴散很容易在串行中實現(xiàn),但在使用細粒度并行時會帶來很大挑戰(zhàn),因為當不同的從核嘗試在同一網(wǎng)格點累積電荷貢獻值時會產(chǎn)生寫-寫沖突,而SW26010并不支持浮點原子操作.所以我們的移植過程面臨上述隨機的內(nèi)存訪問模式及寫寫沖突兩大挑戰(zhàn).
為了解決上述問題,本文在每個從核內(nèi)建立局部網(wǎng)格序以取代原電荷序的訪問模式,并建立與原電荷序的映射表.首先將網(wǎng)格空間劃分為N塊,并對各小網(wǎng)格進行編號(空間標識).考慮到從核架構(gòu)及局存空間限制,定義劃分數(shù)N如下.
(11)
其中Ki為原網(wǎng)格各維度大小,order表示B樣條插值階數(shù),上述定義保證了64個從核負載均衡以及充分利用從核局存空間,且每個空間標識對應(yīng)唯一的從核.然后,為獲得核內(nèi)原子數(shù)據(jù)的局部網(wǎng)格序,在每個從核內(nèi)部實現(xiàn)圖4所示的局部網(wǎng)格分塊算法.
圖4使用兩個從核來簡要解釋局部網(wǎng)格分塊的并行過程,主要分為4個步驟:
1)將原電荷序排列的原子數(shù)據(jù)均勻劃分到各個從核.
2)從核內(nèi)部根據(jù)原子坐標信息計算所處網(wǎng)格位置,進而計算該網(wǎng)格所在的空間標識,通過界定核內(nèi)空間標識的種類和數(shù)量,獲得核內(nèi)局部空間標識序的原子映射序列.
3)將重排后的局部空間標識序的各從核原子數(shù)據(jù)整合并更新回主存.
4)借助式(11),各從核收集對應(yīng)的空間標識的原子數(shù)據(jù),例如圖4中從核1收集空間標識為Ⅰ的原子序列,從核2收集空間標識為Ⅱ的原子序列.

圖4 局部網(wǎng)格分塊示意圖Fig.4 Local grid partition
至此,通過上述局部網(wǎng)格分塊算法,各從核得到了按局部網(wǎng)格序排列的新型原子序列.分塊前后的原子序列空間差異如圖5所示.

圖5 模擬體系空間平面圖Fig.5 Simulation system space
圖5為模擬體系空間平面圖,假定將空間劃分成4部分,分別標記為Ⅰ、Ⅱ、Ⅲ和Ⅳ,其中大小不一的圓圈代表有序粒子簇,連線表示跨空間訪問,編號代表原電荷序訪問次序,灰色的圈標識原子序列訪問起始端,跨外邊緣連線表示受PBC影響訪問鏡像粒子簇.圖5左圖表示分塊前沿原電荷序跨空間訪問現(xiàn)象嚴重,導致訪問的空間局部性很差,并且電荷擴散過程無法進行并行.而在從核內(nèi)部利用網(wǎng)格局部性對原子序列重新構(gòu)建之后,如圖5右圖所示,粒子簇僅與空間標識塊內(nèi)部的粒子簇連接,且不破壞原來的粒子簇訪問次序.每個從核負責一個空間標識塊的計算,由于所有的粒子簇都在同一個三維空間,加載到從核局存的網(wǎng)格數(shù)據(jù)可以被重復(fù)使用,很大程度上提高了數(shù)據(jù)局部性.并且由于各個空間標識下的粒子簇互不沖突,樣條插值時所造成的寫寫沖突也可以通過填充局部網(wǎng)格空間的方式解決,所以從核間可以并行執(zhí)行.
在引入基于局部網(wǎng)格序的分塊策略之后,數(shù)據(jù)訪問局部性得到了比較好的改善,但是從核在獲取新序列的原子信息時,訪問模式仍不連續(xù),如圖6左下部分所示.

圖6 數(shù)據(jù)重組圖Fig.6 Data reorganization
當按0號空間局部網(wǎng)格序訪問數(shù)據(jù)時,由于此時局存中原子信息列表仍按原電荷順序存儲,所以仍需要通過二次索引才能訪問粒子數(shù)據(jù),導致訪問的數(shù)據(jù)空間不連續(xù).我們將原子列表按局部網(wǎng)格序重組成如圖6右下部分所示結(jié)構(gòu),使得待順序訪問的數(shù)據(jù)被存儲在一個連續(xù)的內(nèi)存區(qū)域內(nèi).
采用上述數(shù)據(jù)重組策略,一方面提高了數(shù)據(jù)的訪存連續(xù)性,便于進一步實現(xiàn)SIMD并行;另一方面,重組結(jié)構(gòu)丟棄了無用數(shù)據(jù),減小了下次數(shù)據(jù)傳輸?shù)娜萘?
在求解靜電勢能的過程中,同時也需要將式(10)中B、C數(shù)組與網(wǎng)格值相乘,為庫侖力的插值求解做準備.而計算C數(shù)組時,引入了exp超越函數(shù).最初的從核移植版本直接調(diào)用神威內(nèi)置數(shù)學庫函數(shù),其中內(nèi)置的超越函數(shù)來自GNU的libm庫實現(xiàn),需要調(diào)用查找表.由于查找表的大小一般會大于從核局存大小,所以將查找表放置在DDR3主存上進行訪問,而這高延遲的數(shù)據(jù)傳輸導致了超越函數(shù)性能低下.求解靜電勢能部分是計算密集型的模塊,而內(nèi)置exp函數(shù)占了91%的計算時間,成為該模塊熱點.因此本文設(shè)計了基于多項式的方法[23]來近似求解超越函數(shù).
由于單純使用多項式近似無法在全局定義域上高精度近似exp函數(shù),所以我們將exp函數(shù)拆分成兩部分,如式(12)所示.左半部分乘數(shù)較大,主要是擴展exp函數(shù)的定義域,可以通過設(shè)置浮點數(shù)的指數(shù)部分實現(xiàn).右半部分乘數(shù)較小,主要是為保證exp函數(shù)的精度,采用式(13)的多項式近似實現(xiàn),此多項式在近零區(qū)域的精確度較高.
ex=ep·ln2+q=2p·eq0 (12) (13) 最終我們的近似方法有10.2倍的性能提升且可以非常好地擬合任意值的指數(shù)函數(shù),雙精度和單精度的近似誤差分別為3.5×10-12和1.2×10-7,充分保證程序結(jié)果的正確性. 3.4.1 主從核異步并行 上述優(yōu)化都是基于主從核加速并行的模式,即主核將計算遷移到從核之后進入等待狀態(tài),直到從核計算執(zhí)行完畢后醒來繼續(xù)執(zhí)行.而這種模式未能發(fā)揮主核計算能力,所以我們采取主從核異步并行的模式充分利用主核.為充分利用DMA的傳輸帶寬,我們將連續(xù)塊數(shù)據(jù)訪問模式的計算放置到從核,同時主核負責獨立片段式數(shù)據(jù)訪問模式的計算,從而實現(xiàn)主從核異步并行模式,例如從核在計算網(wǎng)格插值力過程的同時,主核計算非相關(guān)的能量規(guī)約. 3.4.2 數(shù)據(jù)復(fù)用 在最初移植的從核版本中,F(xiàn)FT網(wǎng)格參數(shù)及逆FFT網(wǎng)格參數(shù)需要被頻繁地計算并傳輸?shù)綇暮诉M行使用.而在單步計算過程中,這些參數(shù)并不會改變.所以我們在單步起始處計算這些參數(shù)值,合并數(shù)據(jù)并打包,通過DMA通信直接傳輸?shù)綇暮司执孢M行緩存,從而減少對參數(shù)數(shù)據(jù)的訪存開銷. 3.4.3 優(yōu)化從核的空間開辟 由于PME算法涉及很多數(shù)據(jù)結(jié)構(gòu)(包括原子序列、B樣條、三維網(wǎng)格等),所以在從核計算前需要大量地使用malloc函數(shù)進行空間開辟.而每次進行空間開辟與釋放都需要大量的時間,所以我們在從核局存直接開辟56KB的空類型空間,并使用指針外加強類型轉(zhuǎn)換為每個數(shù)據(jù)結(jié)構(gòu)指定一塊內(nèi)存空間,那么每次調(diào)用從核函數(shù)時只需要一次空間開辟及釋放即可. 本文實驗平臺為SW26010眾核處理器和Intel(R)Xeon(R)CPU E5-2660處理器,具體的軟硬件環(huán)境配置如表1所示. 表1 軟、硬件環(huán)境配置Table 1 Software/Hardware environment configuration 實驗主要對比申威主核、從核版本及CPU的串行執(zhí)行版本的性能并進行分析.其中GROMACS的測試版本為5.1.5,測試算例4Q21是經(jīng)典的生物實驗蛋白模擬,因其結(jié)構(gòu)變化容易觀察,現(xiàn)已在實際生物實驗中獲取它的主要構(gòu)象,適合用來驗證計算模擬效果的優(yōu)劣.并且該蛋白為著名的抗腫瘤藥物靶標蛋白,對它的研究具有重要的生理學意義.其中算例總原子數(shù)為28161,采用顯溶劑模型,系綜為NVT. 4.2.1 不同模塊間優(yōu)化分析 第1組對比實驗設(shè)置在申威平臺對比分析優(yōu)化前后不同模塊的性能提升.本文使用O3、內(nèi)聯(lián)等編譯選項調(diào)優(yōu)后的GROMACS代碼作為初始版本,各模塊性能對比測試如圖7所示.其中spread、solve、gather分別對應(yīng)PME算法中電荷擴散、靜電勢能計算和網(wǎng)格插值力的模塊,total代表整個PME過程. 從圖7可以看到,主核向量化對比初始化版本提升并不大,其中性能提升最大的是solve模塊,加速了1.5倍.我們在主核向量化版本的工作主要是針對模塊內(nèi)的核心計算部分進行循環(huán)展開和SIMD并行.而spread模塊的計算部分集中在樣條值的求解及網(wǎng)格點累加電荷貢獻值部分,但是由于沿原電荷序訪問的不連續(xù)網(wǎng)格點存在空間離散性,導致主核cache利用率極低,向量寄存器加載時間長,從而提升效果不佳.gather模塊的計算部分集中于根據(jù)網(wǎng)格點插值求粒子受力的過程,與spread模塊有一樣的問題.而由于solve模塊是計算密集型的且訪存效率高,所以較其他兩個模塊提升效果好,但是由于超越函數(shù)耗時高導致優(yōu)化效果不明顯,也只有1.5倍的性能提升. 圖7 模塊優(yōu)化前后對比圖Fig.7 Module optimization comparison 從核對比初始化版本在各模塊提升明顯,平均性能提升了8.85倍.其中spread模塊在原程序中存在寫寫沖突等問題而導致不易并行,我們通過引入局部網(wǎng)格序的從核分塊策略,維持數(shù)據(jù)空間局部性的同時消除了寫寫沖突,但是由于額外引入了排列開銷,所以提升并不顯著.solve模塊的主要開銷在于計算,在用多項式近似方法優(yōu)化了從核超越函數(shù)之后,相比主核有40.13倍的提升.在對從核數(shù)據(jù)進行重組之后,gather模塊內(nèi)的訪存變得連續(xù),性能提升了9.6倍. 4.2.2 不同平臺間優(yōu)化分析 第2組對比實驗建立在SW26010與Intel(R)Xeon(R)CPU E5-2660兩個不同平臺的結(jié)果對比上,如圖8所示. 圖8 不同平臺性能對比圖Fig.8 Performance comparison between platforms 其中cpu-none和cpu-sse4.1分別代表CPU的非向量化版本和使用SSE4.1指令集優(yōu)化的向量化版本.從圖8可以看出,Intel CPU的向量化優(yōu)化提升了1.24倍,與申威主核向量化優(yōu)化的性能提升相近,這是由于算法本身的訪存特性決定的.并且最終從核版本的PME算法性能相較于CPU向量化版本提升了1.2倍. 盡管從核的性能高于CPU向量化版本,但PME算法在從核上的運行效率低于Intel CPU.經(jīng)測試發(fā)現(xiàn),算法的性能有以下3方面的限制: 1)PME算法內(nèi)有大量的訪存操作,而主從核DMA傳輸?shù)膸挼陀贑PU訪存的帶寬,導致訪存受限. 2)引入局部網(wǎng)格序提高數(shù)據(jù)局部性和解決寫沖突的同時,也引進了排序開銷和冗余計算,需要進一步優(yōu)化算法最小化性能損失. 3)在網(wǎng)格插值求受力的過程,從核將計算完的局部網(wǎng)格序的力數(shù)組傳回主核,由主核將受力映射到原電荷序的力數(shù)組.由于寫回的數(shù)據(jù)量較大,由主核處理會帶來一定的性能損失,但目前還沒有更好的解決方案. 本論文首次嘗試將GROMACS的PME算法移植到SW26010眾核處理器上,并根據(jù)芯片體系結(jié)構(gòu)及算法特點提出基于局部網(wǎng)格序的分塊策略等方法進行移植優(yōu)化.通過實驗證明優(yōu)化后的從核版本相較于主核有8.85倍的性能提升,相較于CPU有1.2倍的性能提升.PME算法廣泛應(yīng)用于分子動力學模擬程序,本工作可以為相關(guān)應(yīng)用的優(yōu)化提供參考.此外,局部網(wǎng)格序的設(shè)計方法也可以為神威太湖之光上涉及散亂數(shù)據(jù)插值的應(yīng)用優(yōu)化提供借鑒.未來,我們將進一步使用更底層的編程方法來深度優(yōu)化PME算法的性能,并在神威太湖之光上對PME算法進行強擴展性的優(yōu)化與測試.3.4 其他優(yōu)化
4 實驗結(jié)果及分析
4.1 測試環(huán)境及算例

4.2 測試結(jié)果及分析


5 總 結(jié)