摘要:針對標準并行算法難以在圖形處理器(GPu)上高效運行的問題,以累加和算法為例,基于Nvidja公司統(tǒng)一計算設備架構(cuDA)GPu介紹了指令優(yōu)化、共享緩存沖突避免、解循環(huán)優(yōu)化和線程過載優(yōu)化四種優(yōu)化方法。實驗結果表明,并行優(yōu)化能有效提高算法在GPu上的執(zhí)行效率,優(yōu)化后累加和算法的運算速度相比標準并行算法提高了約34倍,相比cPU串行實現(xiàn)提高了約70倍。
關鍵詞:圖形處理器;并行優(yōu)化;累加和;統(tǒng)一計算設備架構
中圖分類號:TP391;Tf311
文獻標志碼:A
文章編號:1001—3695(2009)11-4115—04