999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

OpenCL在國產(chǎn)GPU上的實現(xiàn)?

2021-10-11 08:16:24高勝寒熊庭剛
艦船電子工程 2021年9期
關鍵詞:設備模型設計

高勝寒 熊庭剛

(武漢數(shù)字工程研究所 武漢 430205)

1 引言

近年來,GPU進行通用計算的潛力引起了研究者的注意。由于GPU具有極強的浮點運算能力,通過將GPU引入異構計算系統(tǒng),可以大幅提高計算系統(tǒng)性能[1]。OpenCL是面向異構系統(tǒng)的并行編程標準和編程環(huán)境,它的出現(xiàn)為異構計算提供了一種通用和開放的解決方案[2]。據(jù)2018年中國高性能計算機發(fā)展現(xiàn)狀分析與展望指出,近年我國采用異構加速體系架構的系統(tǒng)數(shù)量逐年增加,但是所用GPU硬件仍然為國外主流廠商所壟斷[3]。所以,在國產(chǎn)GPU硬件上實現(xiàn)OpenCL異構計算編程框架的實現(xiàn)具有相當?shù)难芯恳饬x。

2 異構計算國內(nèi)外發(fā)展現(xiàn)狀

在異構計算領域,國外廠商在軟硬件方面均處于領先地位。硬件層面上,圖形處理器(GPU)市場基本上為國外公司所壟斷,AMD、NVIDIA占有了桌面級GPU市場,在嵌入式市場則主要由ARM、Imagination、VIVANTE等占據(jù)[4]。在軟件層面,上述國外公司也對如CUDA和OpenCL等一系列異構計算標準提供了支持[5~6]。

當前,盡管已有國內(nèi)廠商推出了一系列國產(chǎn)GPU,但是其研發(fā)重點仍然集中于提高GPU的圖形渲染能力上,在通用計算方向研究較少[7-8]。從目前所知的報道看,大部分國產(chǎn)GPU尚未對OpenCL標準提供支持,異構計算在國產(chǎn)GPU上的研究尚有很大空間。

3 OpenCL在國產(chǎn)GPU上的設計與實現(xiàn)

OpenCL標準中定義了四個抽象模型,即平臺模型、執(zhí)行模型、內(nèi)存模型和編程模型[9]。在國產(chǎn)GPU上進行OpenCL的設計和實現(xiàn),其關鍵在于實現(xiàn)隔離,即操作系統(tǒng)無關性和平臺無關性[10]。本節(jié)結合國產(chǎn)GPU的系統(tǒng)結構,定義和設計了兩個隔離層并設計了API解析程序,從而將OpenCL標準的四個模型映射到了國產(chǎn)GPU架構上,實現(xiàn)了模型的匹配。由于國產(chǎn)GPU設計的通用性,OpenCL的各模型都較為便利地在GP201上得到了實現(xiàn)。

3.1 國產(chǎn)GPU架構

3.1.1 國產(chǎn)GPU計算架構

國產(chǎn)GPU采用可拓展的統(tǒng)一渲染架構(Scalable Universal Shader Architecture,SUSA),以流處理器為基本計算單元。其渲染架構如圖1所示。

圖1 GP201的可拓展的統(tǒng)一渲染架構

OpenCL的平臺模型定義了其異構計算平臺的組織方式。OpenCL平臺由兩部分組成,即宿主機(Host)和 OpenCL 設備(compute device)[11]。Open-CL設備內(nèi)部的計算資源由多個計算單元(compute unit)組成,每個計算單元內(nèi)部則有處理單元(processing element)。

國產(chǎn)GPU在OpenCL平臺模型中作為OpenCL設備存在,其內(nèi)部具有多個Cluster即對應模型中的處理單元,每個處理單元內(nèi)部則以流處理器作為基本處理單元。基于此,國產(chǎn)GPU計算架構實現(xiàn)了與OpenCL的抽象平臺模型的匹配。

方位意義是“東西”的初始意義,隨著時間的推移,整個語言系統(tǒng)的變化,“東西”也衍生出了其他的意義。“東西”可泛指各種具體的或者抽象的事物,也可指代人。我們常說“買東西”、“賣東西”,對于“東西”的“貨物”這一意義的起源,或源于東漢時期,初時只表示貨賣的物品。彼時洛陽為“東京”,長安為“西京”,到洛陽購貨為“買東”,到長安購貨為“買西”,在《木蘭詩》中亦有“東市買駿馬,西市買鞍韉”,于是“東西”逐漸用來指代貨物。再后來,其指代的范圍擴大,不再局限于貨賣的物品,而是用來指代各種具體的和抽閑的事物。不過,“東西”用來指代各種具體或抽象的事物的現(xiàn)象,宋時始見,直到明清時期才尤為廣泛。

如圖2所示,在執(zhí)行任務時,主機將各命令塊以多指令多數(shù)據(jù)流(MIMD)模式分別下發(fā)至設備,命令在設備中以單指令多數(shù)據(jù)流模式(SIMD)分配到流處理器中,流處理器作為最小的運算單元采用單指令多線程模式(SIMT)對數(shù)據(jù)執(zhí)行操作。

國產(chǎn)GPU采用多核多線程調(diào)度與管理機制,即使用多指令多數(shù)據(jù)流(MIMD)、單指令多數(shù)據(jù)流(SIMD)、單指令多線程(SIMT)三模式相結合,實現(xiàn)了軟硬件協(xié)調(diào)的動態(tài)負載均衡、數(shù)據(jù)阻塞檢測與控制等技術。其指令處理流程如圖2所示。

圖2 GP201指令處理流程

3.1.2 國產(chǎn)GPU指令處理流程

[7] Aileen San Pablo-Baviera, “Security Challenges of the Philippine Archipelago”, Southeast Asian Affairs, Institute of Southeast Asian Studies, Singapore, 1998, p. 219.

OpenCL標準定義了兩種不同的編程模型:任務并行和數(shù)據(jù)并行。通過上述調(diào)度與管理機制,實現(xiàn)了國產(chǎn)GPU與OpenCL編程模型的匹配,充分利用了國產(chǎn)GPU的計算資源。

3.1.3 國產(chǎn)GPU存儲體系

5)Constant memory(常量存儲器):對應于常量內(nèi)存。

GPU需要進行大量的數(shù)據(jù)搬移工作,這就對顯存的帶寬、數(shù)據(jù)讀取速度提出了更高的要求。因此,存儲管理單元已經(jīng)成為現(xiàn)代GPU設計的關鍵之一。國產(chǎn)GPU設計了一套多級存儲系統(tǒng),以此提高了系統(tǒng)中信息存儲和傳遞效率。

OpenCL標準定義了抽象的內(nèi)存模型[12],國產(chǎn)GPU由驅(qū)動完成了具體向硬件上的映射。國產(chǎn)GPU多級存儲器模型和OpenCL存儲模型映射關系如下。

1.2.3 健康對照組納入標準 (1)年齡20~70歲,(2)最佳矯正視力≥1.0,(3)屈光度≤ ±6D、柱鏡≤±2D,(4)Goldmann壓平眼壓測量值小于21 mm Hg,(5)視乳頭及黃斑區(qū)結構正常(眼底鏡檢查),(6)無眼科疾病史,(8)無眼科手術史。

1)Register(寄存器);

國產(chǎn)GPU驅(qū)動程序為各主流圖形API提供了支持,目前實現(xiàn)了對OpenCL 1.2標準的支持。在國產(chǎn)GPU上,OpenCL應用通過調(diào)用OpenCL中間庫,向不同的操作系統(tǒng)提供了不同的底層庫調(diào)用接口,并在底層庫中實現(xiàn)了基于OpenCL執(zhí)行模型的一系列API操作。未來,通過對OpenCL API解析函數(shù)的補充和更新,國產(chǎn)GPU對于更高版本的OpenCL標準的支持也是可以實現(xiàn)的。

3)Shared memory(共享存儲器):對應于局部內(nèi)存;

4)Global memory(全局存儲器):對應于全局內(nèi)存;

“我們把盆往床邊放來試試看好不好?”(我動手去幫忙移盆了,因為在對話過程中我發(fā)現(xiàn)他對“邊”還沒有概念,他對上下有概念了,在搭腳手架過程中我發(fā)現(xiàn)他對 “邊”沒有概念。)“好了,圖圖現(xiàn)在站上盆,看看能不能爬上床了?”(站上去,一下子就爬到床上了,特別開心。)

從圖1可以看出,鋰離子電池在離線后,其端電壓會經(jīng)歷一個跳變,圖中A點到B點的變化,然后在脫離負載的情況下經(jīng)過一段時間緩慢恢復至一個穩(wěn)定的電壓值——開路電壓OCV。上述過程中B點的電壓值我們稱為回跳電壓,并記為Ut。

如前所述,我們可以把那個一般意義上的啟蒙看作是一個過程,是個體逐漸學會主動運用自身理性進行批判性思考的過程,這就從兩個層面決定了啟蒙要面對并接受種種反啟蒙,啟蒙要在種種反啟蒙的鞭撻下不斷地自我完善從而走向那個一般意義上的啟蒙。

3.2 基于國產(chǎn)GPU的OpenCL實現(xiàn)

OpenCL是一個完整的并行編程框架,為Open-CL開發(fā)人員提供了硬件抽象層API和面向內(nèi)核的異構編程環(huán)境,便于開發(fā)者更方便地開發(fā)和優(yōu)化他們的應用。國產(chǎn)GPU上的OpenCL框架如圖3所示。

如圖3所示,為了使得設計代碼具有良好的可移植性,國產(chǎn)GPU上的OpenCL實現(xiàn)采用了硬件適配層(HAL)、操作系統(tǒng)適配層(OSL)和庫函數(shù)實現(xiàn)層三層結構。

圖3 基于國產(chǎn)GPU的OpenCL框架

作為OpenCL設計與實現(xiàn)的重要組成部分,驅(qū)動程序中的HAL層和OSL層分別實現(xiàn)了硬件和操作系統(tǒng)的隔離。在具體應用實現(xiàn)過程中,OpenCL API的解析程序并不直接與硬件和操作系統(tǒng)交互,而是通過HAL層和OSL層實現(xiàn)該操作,從而屏蔽了不同硬件和操作系統(tǒng)的差異,實現(xiàn)了硬件和操作系統(tǒng)的無關性。

2)Local memory(本地存儲器):對應于私有內(nèi)存;

4 測試與驗證

由于快速傅里葉變換需要進行大量的并行運算操作,使其較為適合評估設備運算性能。為測試并展示GP201的計算性能及在其之上設計與實現(xiàn)的OpenCL執(zhí)行效率,本文基于快速傅里葉算法,以OpenCL編程語言設計了快速傅里葉變換程序[13]。本文基于蝶形算法進行了序列長度為16~65536的多組測試,比較了該應用程序在GP201原型和商用顯卡上的運算表現(xiàn),對國產(chǎn)GPU上OpenCL設計效果進行了評估。

4.1 測試程序設計

改進后的DEA模型結果表明鄭州市創(chuàng)新型城市的效率變動呈現(xiàn)下降趨勢,其效率評價指數(shù)從2011年的0.75降至2016年的0.44,期間在2014年效率水平略有回升。可見,盡管鄭州市在樣本期間整體處于最優(yōu)規(guī)模階段且實現(xiàn)了DEA有效,但其核心創(chuàng)新能力的輕微弱化現(xiàn)象必須予以高度關注。

Cooley-Tukey算法也稱為蝶形算法[14],于1965年由J.W.庫利和T.W.圖基最先提出,是各快速傅里葉變換算法中最常見的一種,也是通常所說的FFT算法所指的算法。一個N點序列的離散傅里葉變換公式如下式所示。

(2)將“無障礙網(wǎng)絡課程”打造成特色。目前國內(nèi)所有殘障人士幾乎都是在專門的學校接受教育。但是這種教育并不是終身的,而無障礙網(wǎng)絡課程則使他們能夠繼續(xù)學習。因此,應該將無障礙網(wǎng)絡課程打造成特色,一方面可以滿足障礙人士終身學習的需求,另一方面還可以利用網(wǎng)絡課程給他們頒發(fā)相應的證書。

“南海核心利益說”距其提出已經(jīng)整整8年。追根溯源,引發(fā)該說的是《中國軍隊尋求拓展海軍實力》這篇文章。此后,關于該說的研究及其影響大體都在該文的框架之內(nèi)。就這篇文章而言,“南海核心利益說”不過是一個具體的論據(jù);但就此后該說的影響而言,該文不過是為該說提供的一個國際趨勢分析框架。因此,對該說的思考宜以這篇文章的框架為基礎,以前后事實發(fā)展為依據(jù),同時就該話題的“政治性”以及同國際關系理論的關系進行探討。

在國產(chǎn)GP201上運行的快速傅里葉變換程序的程序流程如下。

OpenCL模型中的宿主機內(nèi)存不在國產(chǎn)GPU內(nèi)部,該內(nèi)存取決于組成異構計算體系時的主機設備。通過上述映射關系,國產(chǎn)GPU完成了對Open-CL標準中內(nèi)存模型的匹配。

1)查詢平臺上OpenCL設備數(shù)量,并儲存設備信息,若找不到則結束程序。

2)由設備類型創(chuàng)建一個上下文,獲取設備信息并選擇運算所使用的具體設備。打印設備相關信息,主要是其compute units數(shù)量。

3)創(chuàng)建命令隊列,然后開始進行主要的設備運算階段。

實習基地單位老師負責考評學生的出勤率、實習態(tài)度、溝通能力和業(yè)務能力。校方指導老師負責考評學生的實習記錄和實習報告。雙方評分權重各占一半,最后得分為綜合得分。

4)統(tǒng)計程序運行時間以便后續(xù)分析。清理內(nèi)存空間,結束程序。

4.2 測試平臺

異構計算平臺由主機端和設備端構成,本文中主機端為基于X86架構的CPU電腦主機,設備端為搭載了GP201原型的FPGA加速板卡,該原型為GP201的1∕64裁剪子集,核心頻率為0.5MHz。本文采用的商用顯卡為AMD公司生產(chǎn)的AMD Radeon HD7450M,其核心頻率為700MHz。本文使用的主機端的操作系統(tǒng)是Linux操作系統(tǒng),版本為Ubuntu 12.04,主機程序使用的編譯軟件是Linux系統(tǒng)下的GNU編譯器套件GCC4.8.2。

4.3 測試結果

在GP201原型上和商用顯卡上分別執(zhí)行應用程序,測試結果如表1所示。

表1 原型快速傅里葉變換運算用時

本文采用的FPGA上搭載的邏輯為GP201的1∕64裁剪子集,運算單元數(shù)較少,且其核心運算頻率較低,約為0.5MHz。盡管如此,該裁剪子集仍然表現(xiàn)出來不俗的計算速度。依據(jù)當前設計,GP201目標產(chǎn)品的主頻將達到1GHz以上,運算單元個數(shù)為原型64倍。為便于計算比對,本文取GP201頻率為1000MHz。依據(jù)上述參數(shù),結合GP201原型系統(tǒng)運行時間數(shù)據(jù),本文對GP201運算速度進行了預測,并將其與商用顯卡運行時間進行比較,數(shù)據(jù)如表2所示。

表2 GP201快速傅里葉變換運算用時

從表中我們可以看出,本文中所實現(xiàn)基于GP201原型的加速方案運算速度相當優(yōu)秀。在FFT序列較短時尤其明顯,在序列較長的運算中依然優(yōu)于商用顯卡。以此可以預見,GP201的實際產(chǎn)品性能將可達到更高水準。相應地也表明所設計與實現(xiàn)的基于國產(chǎn)GPU的OpenCL異構計算架構具有較高的性能。

5 結語

如今,GPU已經(jīng)被廣泛運用于異構計算體系之中。在國產(chǎn)GPU上實現(xiàn)OpenCL異構計算標準的應用,可以充分發(fā)揮其運算能力,拓寬國產(chǎn)GPU的應用面。本文通過實驗,驗證了國產(chǎn)GPU上Open-CL的設計與實現(xiàn)的效果。通過數(shù)學計算,將GP201的運算結果與商用顯卡的運算結果進行比較。結果表明,基于國產(chǎn)GPU的OpenCL異構計算應用運行正常,OpenCL各結構層次運行正常,國產(chǎn)GPU作為異構計算組件性能良好,較好地發(fā)揮出了硬件的能力,基于國產(chǎn)GPU的OpenCL的設計與實現(xiàn)是較為成功的,國產(chǎn)GPU在異構計算領域前景十分光明。

猜你喜歡
設備模型設計
一半模型
諧響應分析在設備減振中的應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
瞞天過海——仿生設計萌到家
藝術啟蒙(2018年7期)2018-08-23 09:14:18
基于MPU6050簡單控制設備
電子制作(2018年11期)2018-08-04 03:26:08
設計秀
海峽姐妹(2017年7期)2017-07-31 19:08:17
有種設計叫而專
Coco薇(2017年5期)2017-06-05 08:53:16
3D打印中的模型分割與打包
500kV輸變電設備運行維護探討
主站蜘蛛池模板: 国产成年无码AⅤ片在线 | 97se亚洲综合| 欧美日韩国产在线播放| 成年看免费观看视频拍拍| 国产精品成人观看视频国产 | 呦视频在线一区二区三区| 欧美激情第一欧美在线| 四虎成人在线视频| 国产成人综合亚洲欧洲色就色| 91福利一区二区三区| 久久国产V一级毛多内射| 欧美一级视频免费| 亚洲三级色| 在线免费观看AV| 国产理论一区| 天天视频在线91频| 日韩免费毛片视频| 欧美成人看片一区二区三区| 亚洲综合色在线| 五月婷婷精品| 国产成人夜色91| 热思思久久免费视频| 伊人色在线视频| 一级一级一片免费| 爱色欧美亚洲综合图区| 久久精品亚洲热综合一区二区| 日本精品视频一区二区| 国产成人91精品| 国产激情第一页| 欧美日韩亚洲国产| 毛片免费高清免费| 日韩免费毛片| 国产成人福利在线| 久热99这里只有精品视频6| 亚洲天堂免费在线视频| 9丨情侣偷在线精品国产| 国产爽妇精品| 日韩视频免费| 国产尤物在线播放| 精品一区二区三区四区五区| 国产精品视频观看裸模 | 国产va视频| 欧美不卡视频在线观看| 国产特级毛片aaaaaaa高清| 婷婷综合亚洲| 欧美日在线观看| 日韩精品一区二区深田咏美 | 成人一区专区在线观看| 欧美亚洲网| 欧美一级视频免费| 人妻丰满熟妇av五码区| 国模视频一区二区| 国产精品观看视频免费完整版| 国产极品美女在线| 中文字幕无码av专区久久 | 亚洲综合色在线| 久久久久国色AV免费观看性色| 激情综合图区| 高清无码一本到东京热| 日本欧美中文字幕精品亚洲| 免费在线播放毛片| а∨天堂一区中文字幕| 国产成人免费手机在线观看视频| 中文字幕天无码久久精品视频免费 | 国产欧美在线观看一区| 黄色在线网| 亚洲欧美综合在线观看| 精品国产欧美精品v| 色135综合网| 亚洲国产成人久久77| 精品国产免费观看一区| 国产亚洲视频在线观看| 亚洲成A人V欧美综合| 国产成人1024精品| 亚洲IV视频免费在线光看| 国产精品太粉嫩高中在线观看 | 亚洲色图综合在线| 国产h视频在线观看视频| 9啪在线视频| 国产精品综合色区在线观看| 九九免费观看全部免费视频| 色欲不卡无码一区二区|