999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多核的進程拓撲感知映射研究

2021-04-23 05:51:08
軟件導刊 2021年4期
關鍵詞:進程信息

馮 慧

(山東科技大學計算機科學與工程學院,山東青島 266000)

0 引言

多核架構目前為并行計算中較常見的計算架構,未來幾年芯片上的核心數量仍會急劇增長,在高性能計算中,集群已從單個網絡互連的單處理器轉變為復雜且高度分層的結構,如中國超級計算機中心的超級計算機系統神威·太湖之光[1]由40 960 個節點組成。通常每個計算節點包含多個共享內存的多核處理器,節點內的內存訪問時間取決于計算核心與內存之間的距離。與不同芯片上的計算核相比,同一芯片上的計算核之間通信延遲要低得多,通信帶寬要高得多。因此,編程標準及其實現在充分發揮硬件系統計算潛力方面起著關鍵作用。在并行編程標準中,消息傳遞接口(Message Passing Interface,MPI)因其豐富的接口而廣受歡迎,但是MPI 是一種跨平臺的編程標準,設計成獨立于硬件、不提供拓撲感知的進程映射功能。一般的MPI 提供諸如MPI_DIST_GRAPH_CREATE[2]功能創建拓撲,但由于未考慮底層架構,所以并不能提供有效的映射方法。

如何更好地利用多核體系架構是真正的挑戰。為在多核環境下獲得最佳性能,必須考慮到硬件底層架構和應用特點。關于拓撲感知映射研究有:Hoffler[3]提出結合幾種啟發式算法的網格互連體系結構的通用拓撲映射策略;Bhatele[4]針對網格互聯提出規則通信圖的自動映射方法;Hatazaki[5]為特殊的HP 集群實現MPI 拓撲映射功能;Mercier 等[6]使用圖分區工具SCOTCH[7]實現加權通信圖到加權節點架構圖映射,但其沒有考慮網絡拓撲;Jeannot 等[8]提出TreeMatch 算法計算NUMA 集群中進程到資源的近似最優映射;Wu 等[9]提出遞歸樹映射算法和遞歸二分映射算法,解決并行應用程序的層次任務映射;Li 等[10]提出一種基于拓撲感知進程映射的同構樹映射算法,該算法根據進程間的親和性將進程分區映射;Brandfass 等[11]通過重新排序MPI 的進程號建立MPI 進程到CPU 內核的映射;Pellegrini[12]提出一種基于應用程序進程圖和目標體系結構圖的遞歸雙分割映射算法進行映射。

本文針對當前進程拓撲感知映射方法進行測試分析,重點討論硬件架構和應用通信特點二者在多核環境下進程拓撲感知映射中的影響,總結解決此類問題的研究思路:利用不同類型的應用(CGKernal 和分子動力學)在兩種系統(天河1A 和曙光)上進行測試,依據測試結果分析不同架構處理應用時的不同特點,總結進程拓撲感知映射的適用范圍,以更好地發揮拓撲感知映射優勢處理更復雜的大規模計算問題,硬件的架構選擇和不同類型應用的選擇在進程拓撲感知映射中同等重要。

1 拓撲感知信息獲取及分析

檢索有關底層硬件的內存層次結構、內核編號等信息并非易事,目前一些感知工具可獲得硬件的底層結構,最常見的工具是HardwareLocality(HWLOC)[13]。這種工具能輕松地提供有關廣泛系統上各種高速緩存級別信息,通過HWLOC 收集硬件的詳細內部信息,如插槽的數量、計算核心數量以及內存層次信息(包括NUMA 節點中的多級緩存)。使用HWLOC 將硬件結構抽象成樹進行建模,其深度與層次結構中硬件組件的深度(如網絡交換機、機柜、節點、處理器、緩存、核心)相對應,其葉子節點是架構的計算單元。

HWLOC 的靈活性使其允許跨操作系統對硬件架構進行建模。HWLOC 實現了眾多功能的庫函數,可被其它軟件調用,因此可用來動態建立模型。另一種分析硬件方法是使用LINUX[14]查看CPU 信息指令,雖然可以通過進一步分析得出硬件的架構信息,但前提是必須對硬件信息比較了解,才能準確無誤地分析出硬件信息。另外,通過LINUX 自帶的命令分析出來的硬件信息并不完整,cache的層次不能得到完整構建。相反,通過HWLOC 可以檢測到任意節點的硬件信息,通過命令行方式以PDF 或XML格式對硬件信息進行輸出,使硬件信息更加直觀,這也是使用HWLOC 的一大便利。

2 應用通信獲取及分析

為獲得應用的通信信息,Zhang 等[15]提出OPP 方法,根據通信庫中集合通信的實現,將集合通信轉換為一系列點對點通信操作;Buntinas[16]通過修改MPICH2[17]和Open MPI 堆棧中的低級通信層,在點對點和集合通信情況下詳盡跟蹤數據交換信息。由于該收集應用通信信息的方法比較簡單,因此不會影響應用程序的執行。還有其他的MPI 實現者也采用這種方法,Chen 等[18]結合應用程序代碼的靜態分析和對修改后的應用程序動態執行,使該應用程序執行速度更快,同時保留了與原始應用程序相同的通信模式,目的是將確定通信模式所需的時間減少幾個數量級;Bosilca 等[19]提供了基于MPI 工具信息接口標準的MPI,在不修改應用程序情況下進行通信信息追蹤。要注意的是,在所有方法中都必須執行原始版本或更簡單版本的應用程序。

應用通信特點在拓撲感知映射過程中的作用至關重要,可從兩個方面去考慮應用通信類型:①應用通信是否規則;②應用通信占比大小。較規則的通信應用特點是每個進程和其它所有進程進行通信傳送的信息量幾乎一樣。另外不能忽略應用通信占比,一般來講,應用通信時間占總體運行時間較小的應用對拓撲感知映射效果不會很好。

3 測試

3.1 測試環境及測試程序

在兩類架構上對兩種類型應用進行測試。

3.1.1 兩種架構

(1)TH-1A。登陸節點由8 個CPU 插槽組成,每個CPU 由8 個計算核心組成(不考慮開啟超線程情況),登陸節點一共有64 個計算核心。每個CPU 上的8 個核心分別擁有32KB 的一級指令cache、32KB 的一級數據cache 和256KB 的二級cache,同時每個CPU 上的8 個計算核心通過片上互聯共享18MB 的三級cache;TH-1A 登陸節點的8個CPU 通過PCI 總線技術共享256GB 內存。

(2)曙光集群單節點架構。曙光登陸節點由2 個CPU插槽組成,每個CPU 由8 個計算核心組成(不考慮開啟超線程情況),登陸節點一共有16 個計算核心,每個CPU 上的8 個核心分別擁有32KB 的一級指令cache、32KB 的一級數據cache 和256KB 的二級cache,同時每個CPU 上的8 個計算核心通過片上互聯共享20MB 的三級cache;曙光登陸節點的2 個CPU 通過PCI 總線技術共享64GB 內存。

3.1.2 兩類應用

(1)分子動力學。分子動力學(Molecular Dynamics,MD)模擬指使用數值方法,利用計算機模擬原子核和電子所構成的多體系統運動過程,廣泛應用于物理、化學、生物、材料、醫學等多個領域,用來研究系統的結構和性質。通過對MD 應用各部分運行時間進行分析,得知該應用的大部分運行時間在進行計算,進程和進程間的通信時間占整個應用運行時間極小部分,幾乎可以忽略不計。通過跟蹤MD 應用的進程間通信信息,對應用進程間通信的信息量進行分析,發現進程間的通信不規則以及進程之間信息交換總量小,所以MD 屬于通信不規則且通信量占比很小的應用。

(2)CG Kernal。CG(Conjugate Gradient)是NAS Parallel Benchmarks(NPB)[20]中的一個核心程序,用于求解大型稀疏對稱正定矩陣最小特征值的近似值,它表征了非結構風格計算和非規整遠程通信計算類問題。通過跟蹤MD 應用的進程間通信信息,對應用進程間通信的信息量大小進行分析,發現進程間通信是不規則的,同時該應用進程間通信的信息總量較大,所以CG 應用屬于通信不規則且通信量較大的應用。

3.2 測試結果及分析

分別對MD 和CG 兩類應用在TH-1A 和曙光集群上進行3 種映射算法(自動調度、RR 算法、TreeMatch 算法)測試,測試結果見圖1—圖4。

Fig.1 Molecular dynamics(TH-1A)圖1 分子動力學(TH-1A)

Fig.2 Molecular dynamics(Dawn)圖2 分子動力學(曙光)

Fig.3 CG Kernal(TH-1A)圖3 CG Kernal(TH-1A)

Fig.4 CG Kernal(Dawn)圖4 CG Kernal(曙光)

在TH-1A 和曙光架構上分別對3 種調度算法進行分子動力學映射綁定測試。3 種調度映射算法都沒有表現出較好的計算結果,這是因為分子動力學中進程間通信的時間占總體執行時間比較小,所以進行拓撲感知映射不能得到好的效果,見圖1 和圖2。分別對CG Kernal 進行3 種調度測試,CG Kernal 在TH-1A 上使用匹配樹算法,和另外兩種算法相比表現出較好性能,相反CG Kernal 在曙光上3種調度方式結果差異性不明顯,如圖3 和圖4 的測試結果所示。使用相同應用在不同架構上進行的測試結果相差較大,分析原因是硬件架構不同。在TH-1A 上使用64 個計算核心進行測試,由8 個CPU 插槽組成。由于計算核心數量較多,所以計算核心之間存在的層次關系也較多,需要描述的親和性信息也更加復雜。而在曙光上使用16 個計算核心,由兩個CPU 插槽組成,相較于TH-1A 計算核心數量較少,計算核心之間層次較單一,親和關系較簡單,由此可見硬件架構特點在拓撲感知映射中至關重要。

4 結語

本文針對當前的拓撲感知映射,從系統架構和應用特點兩方面分析了進行拓撲感知映射性能優化時需要考慮的問題,并分析了目前該領域相關研究進展及特點。

綜合當前存在的拓撲感知映射方法硬件架構差異較大、應用通信特點不同問題,從硬件的架構層次及應用的通信特點兩個方面考慮多核環境下進行拓撲感知映射性能提升,這也是未來研究的趨勢。

猜你喜歡
進程信息
債券市場對外開放的進程與展望
中國外匯(2019年20期)2019-11-25 09:54:58
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
我國高等教育改革進程與反思
教育與職業(2014年7期)2014-01-21 02:35:04
Linux僵死進程的產生與避免
男女平等進程中出現的新矛盾和新問題
俄羅斯現代化進程的阻礙
論文萊的民族獨立進程
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 国产特级毛片aaaaaaa高清| 久久精品只有这里有| 亚洲福利网址| 99在线视频免费观看| 老司机久久精品视频| 亚洲综合色在线| 99精品高清在线播放| 在线永久免费观看的毛片| 色婷婷亚洲综合五月| 一区二区日韩国产精久久| 漂亮人妻被中出中文字幕久久| 久久人搡人人玩人妻精品| 精品三级网站| 一级毛片视频免费| 国产日产欧美精品| 欧美第二区| 亚洲人成网址| 亚洲婷婷在线视频| 国产主播在线一区| 香蕉久久国产超碰青草| 丁香五月婷婷激情基地| 成人国产精品网站在线看| 综合网久久| 日本a∨在线观看| 久久久精品无码一二三区| 亚洲中文字幕在线精品一区| 国产成人精品免费av| 亚欧成人无码AV在线播放| 色呦呦手机在线精品| 日本少妇又色又爽又高潮| 亚洲一区网站| 精品人妻系列无码专区久久| 国产美女无遮挡免费视频网站| 狠狠色狠狠综合久久| 国产96在线 | 国产97公开成人免费视频| 亚洲色图欧美视频| 免费国产在线精品一区| 午夜福利在线观看入口| 91无码人妻精品一区二区蜜桃| 91亚洲精品国产自在现线| 幺女国产一级毛片| 嫩草影院在线观看精品视频| 免费激情网站| 国产毛片高清一级国语| 欧美一级高清片欧美国产欧美| 亚洲成a人片| 久久免费视频6| 日韩成人在线网站| 亚洲最大福利网站| 亚洲精品视频在线观看视频| 国产青榴视频在线观看网站| 香蕉久人久人青草青草| 免费一极毛片| 欧美性猛交一区二区三区| 啪啪啪亚洲无码| 国产精品冒白浆免费视频| 精品福利一区二区免费视频| 精品国产美女福到在线不卡f| 九九久久精品免费观看| 久久久噜噜噜久久中文字幕色伊伊 | 小说 亚洲 无码 精品| 亚洲精品动漫| 亚洲国产精品美女| 3344在线观看无码| 国产视频入口| 99热这里只有精品久久免费| 国产精品专区第1页| 日韩免费成人| 久久久受www免费人成| 国产精品久久久久久久伊一| 88av在线看| 久久综合伊人 六十路| 99热国产这里只有精品9九| 日韩成人免费网站| 92精品国产自产在线观看| 欧美精品H在线播放| 色婷婷丁香| 91美女视频在线| 久久久精品国产SM调教网站| 狠狠色综合久久狠狠色综合| 一级毛片基地|