999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

邊緣計算設(shè)備的性能功耗測量與分析

2021-02-05 03:03:30袁佳偉宋慶增王雪純姜文超金光浩
計算機工程 2021年2期
關(guān)鍵詞:測量設(shè)備模型

袁佳偉,宋慶增,王雪純,姜文超,金光浩

(1.天津工業(yè)大學(xué)計算機科學(xué)與技術(shù)學(xué)院,天津 300387;2.廣東工業(yè)大學(xué)計算機學(xué)院,廣州 510006)

0 概述

在當前神經(jīng)網(wǎng)絡(luò)應(yīng)用(人臉識別、自動駕駛等)普遍增長的背景下,大型與復(fù)雜的神經(jīng)網(wǎng)絡(luò)將面向商業(yè)化發(fā)展。根據(jù)IDC[1]預(yù)測,到2020年全球產(chǎn)生的數(shù)據(jù)總量將大于40 ZB,在這種情形下,以服務(wù)器為計算核心的集中式處理模式將無法高效處理邊緣設(shè)備產(chǎn)生的數(shù)據(jù)。因此,邊緣計算[2]就顯得尤為重要,邊緣計算數(shù)據(jù)處理更接近數(shù)據(jù)來源,具有實時和快速進行數(shù)據(jù)處理分析的優(yōu)點[3],這對于神經(jīng)網(wǎng)絡(luò)的商業(yè)化而言至關(guān)重要。

EDGE TPU計算板是當前最新的邊緣計算設(shè)備,該設(shè)備集成了專為運行神經(jīng)網(wǎng)絡(luò)所設(shè)計的專用集成電路(ASIC)芯片,在以較快的速度運行神經(jīng)網(wǎng)絡(luò)的同時又能保持較低的功耗。NVIDIA Jetson TX2是一款面向人工智能的超級計算機模塊,采用Maxwell GPU架構(gòu)引入了流式處理多處理器(SM)的全新設(shè)計,支持32位單精度和16位半精度運算。Jetson NANO在TX1基礎(chǔ)上弱化了數(shù)據(jù)流,并顯著改善了電源管理,擁有128個CUDA核心,支持32位單精度計算和16位半精度計算,其中半精度計算的吞吐量為單精度的兩倍。

對于Jetson TX2與而言,在發(fā)布時研究人員分析了其與深度學(xué)習(xí)模型的適配度,該實驗將神經(jīng)網(wǎng)絡(luò)在不同框架下實現(xiàn),對比TensorFlow、Caffe2、PyTorch等框架不同時的能耗和延遲情況[4]。隨后有多種神經(jīng)網(wǎng)絡(luò)基于TX2的實現(xiàn)與優(yōu)化,以及調(diào)整TX2的工作模式來分析比較不同模式下運行神經(jīng)網(wǎng)絡(luò)的延遲與能耗[5]。

目前有實驗將神經(jīng)網(wǎng)絡(luò)部署在Jetson NANO邊緣計算板上,該實驗對具有實時語義分段功能的卷積網(wǎng)絡(luò)進行改進,使用深度卷積來代替普通卷積以減輕網(wǎng)絡(luò)負擔(dān),獲得了較好的效果,平均交并比和FPS分別達到54.47%和47[6]。

FPGA原是作為一種半集成電路而出現(xiàn)的,目前多用來加速神經(jīng)網(wǎng)絡(luò),在2007年,研究人員將前饋神經(jīng)網(wǎng)絡(luò)部署在FPGA上,根據(jù)要實現(xiàn)的功能劃分與片上資源提出了通量估計器,通過該估算器部署神經(jīng)網(wǎng)絡(luò),能以較低的消耗運行前饋神經(jīng)網(wǎng)絡(luò)[7]。目前已經(jīng)有研究人員將流行神經(jīng)網(wǎng)絡(luò)部署在FPGA上,對YOLO V2中的部分參數(shù)進行二值化處理,實現(xiàn)了基于混合精度的YOLO V2架構(gòu)[8]。

當前神經(jīng)網(wǎng)絡(luò)提升性能的方法主要有避免使用全連接層[9]、縮小卷積核與減少通道數(shù)、將下采樣時間盡量提前、對訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)進行剪枝操作[10]、量化權(quán)重、使用霍夫曼編碼方式表示權(quán)重等6種。其中前4種都可減少計算量與訪存量,量化權(quán)重與用編碼方式表示權(quán)重可以降低訪存量。使用建立Roofline模型查看在當前平臺上運行的神經(jīng)網(wǎng)絡(luò)受何種因素限制,進而采取對應(yīng)的方式來加速神經(jīng)網(wǎng)絡(luò)。

目前較少有在EDGE TPU計算板上的應(yīng)用及Jetson NANO與EDGE TPU的性能功耗評測分析,且多數(shù)的Roofline研究只涉及性能測量與比較。本文對多種開發(fā)板的理論速度與實際測量速度使用Roofline模型進行建模,比較不同平臺的理論與實際模型,測量分析模型性能,并對設(shè)備性能功耗進行比較,為設(shè)備的商業(yè)化應(yīng)用提供更全面的應(yīng)用數(shù)據(jù)。

1 本文研究方法

本文選用Roofline[11]模型作為評判性能的工具,測量計算出各個神經(jīng)網(wǎng)絡(luò)在不同平臺運行時的幀率與運行推斷時所需算力,構(gòu)建各個基于不同平臺神經(jīng)網(wǎng)絡(luò)的Roofline模型,以直觀地觀測出模型的性能,根據(jù)該實驗結(jié)果可對在邊緣設(shè)備上運行的神經(jīng)網(wǎng)絡(luò)進行優(yōu)化以提高運行速率。

利用外置功耗測量設(shè)備,分別測量出不同平臺的待機與工作功耗,再根據(jù)模型運行速度計算得出效能功耗比模型[12],即可對比觀測各個平臺待機時功率與運行神經(jīng)網(wǎng)絡(luò)時的性能能耗比,本文在實驗中添加了服務(wù)器級別GPU(K40、K80)作為對照組進行對比,來突出邊緣計算具有較大的優(yōu)勢與極高的發(fā)展?jié)摿Α?/p>

EDGE TPU具有4 TOPS的峰值計算量與50 Gb/s的帶寬,EDGE TPU又僅支持通過量化所產(chǎn)生的8位整型數(shù)據(jù)運算,8位整型乘法處理器占用的面積與消耗的能量均為IEEE754定義的FP16處理器的1/6。因此,EDGE TPU計算板在以較快的速度運行的同時,又能保持較低的功耗。

TPU在運行之前的準備工作中的重要數(shù)據(jù)處理步驟是量化,雖然量化會在一定程度上降低精度,但一般神經(jīng)網(wǎng)絡(luò)模型擁有較好的泛化能力,表1所示為單精度(FP32)和8位定點權(quán)重參數(shù)的Mobile Net V2[13]及Inception V4[14]的正確率,可見進行量化之后并沒有對精度造成較大的影響。

表1 不同神經(jīng)網(wǎng)絡(luò)單精度和8位定點參數(shù)的正確率Table1 Accuracy of single precision and 8-bit fixed point parameters of different neural networks

本文采用常用的神經(jīng)網(wǎng)絡(luò)作為實驗對象,如Mobile Net[15]與Inception[16]均為當前市場化應(yīng)用較多的神經(jīng)網(wǎng)絡(luò)。4種常用神經(jīng)網(wǎng)絡(luò)基本情況如表2所示。

表2 4種常用神經(jīng)網(wǎng)絡(luò)基本情況Table 2 Basic situation of four common neural networks

2 Roofline模型的性能分析

為觀察測試網(wǎng)絡(luò)模型在3個平臺上的表現(xiàn),本文引入Roofline模型,該模型是一種常用的設(shè)備性能分析模型,它將計算性能、計算密度和存儲性能等相關(guān)聯(lián)[17],并在一個二維坐標系中表示出來,Roofline模型背后的假設(shè)是網(wǎng)絡(luò)模型不適合片上高速緩存,因此神經(jīng)網(wǎng)絡(luò)在Roofline模型中的位置受計算力限制與內(nèi)存帶寬限制。在二維坐標系中,Y軸為每秒浮點運算次數(shù),因此峰值計算速率形成Roofline模型中的“平坦”部分[18],X軸是計算強度,測量為每個訪問的DRAM字節(jié)的浮點運算,內(nèi)存帶寬是每秒字節(jié)數(shù)。因為(OPS/s)(/OPS/B)=Byte/s,變成了Roofline的“傾斜”部分。如果沒有足夠大的計算強度,網(wǎng)絡(luò)模型會受到內(nèi)存帶寬限制,并且在坐標系中位于傾斜部分下方。

為測繪計算平臺的Roofline曲線,需要計算計算平臺理論上的算力峰值和顯存帶寬:

其中,OPS表示算力,PRO用來表示處理器數(shù)量,OpePerSec表示每個處理器每秒鐘操作數(shù),將TX2、NANO和EDGE TPU計算板的參數(shù)分別代入式(1),得出的算力分別為1.3 TOPS、471 GOPS和4 TOPS(8位)。服務(wù)器級別GPU(K80、K40)的峰值算力數(shù)據(jù)也可計算得出8.74 TFLOPS(FP32)和4.29 TFLOPS(FP32)。

Roofline模型的另一個重要元素為內(nèi)存帶寬,峰值帶寬的計算公式如式(2)所示:

其中,BW代表帶寬,ClockRate代表時鐘頻率,BitW代表位寬。將參數(shù)代入式(2)可得K80、K40、TX2、NANO、Coral的理論帶寬分別為480 Gb/s、288 Gb/s、58.3 Gb/s、25.6 Gb/s和50 Gb/s。

根據(jù)所得算力及帶寬信息,可得3塊邊緣計算板的理論Roofline模型如圖1所示。

圖1 TX2、NANO、Coral的Roofline模型Fig.1 Roofline model of TX2,NANO,Coral

圖1中的Roofline圖像采用對數(shù)直角坐標系,Coral算力值采用處理INT8數(shù)據(jù)類型算力值,從圖1可以看出,Coral算力約為TX2算力的3倍和NANO的8倍。這是由于Coral開發(fā)板承載了EDGE TPU,該TPU改進結(jié)構(gòu)以適應(yīng)神經(jīng)網(wǎng)絡(luò)的部署以及使用量化8位定點數(shù)據(jù)的方式來加速計算。計算板的顯存帶寬受硬件實現(xiàn)、線路上的電磁干擾和其他諸多復(fù)雜的物理因素的影響[19]。使用CUDA自帶的測試帶寬的應(yīng)用實例Bandwidth,實際測得TX2、NANO的帶寬分別為33.2 Gb/s、14.7 Gb/s,另測得Coral的實際帶寬約為30 Gb/s 。

TX2的實際Roofline模型如圖2所示。

圖2 TX2的實際Roofline模型Fig.2 Actual Roofline model of TX2

當計算強度到達40 OPS/Byte時,算力達到峰值,在坐標系中即平行X軸向右。雖然在實際中還有其他因素的影響使各個神經(jīng)網(wǎng)絡(luò)在圖2中的位置并不能坐落在Roofline線上,但是每一個神經(jīng)網(wǎng)絡(luò)與Roofline線峰值的距離都反映了調(diào)整操作強度的好處[20]。對應(yīng)Y軸距離的差值反映的是緩存阻塞之類的問題。當神經(jīng)網(wǎng)絡(luò)落點在斜線部分時,因受到帶寬限制,故不能達到計算平臺的峰值[21]。

NANO的實際Roofline模型如圖3所示。

圖3 NANO的實際Roofline模型Fig.3 Actual Roofline model of NANO

當計算強度到達32 OPS/Byte時,算力達到峰值,在坐標系中即平行X軸向右。若要建立關(guān)于EDGE TPU計算板的Roofline模型,則要對神經(jīng)網(wǎng)絡(luò)進行量化,由于原來的權(quán)重不適應(yīng)EDGE TPU,因此要將浮點型參數(shù)變?yōu)檎蛥?shù),此外,參數(shù)的變化要求重新定義計算強度,因此,將計算強度改為每字節(jié)計算數(shù)[22]。

當計算強度到達136 OPS/Byte時,算力達到峰值,在坐標系中即平行X軸向右。從圖4可以看出,Coral中的4種神經(jīng)網(wǎng)絡(luò)運行結(jié)果較好。

圖4 Coral的實際Roofline模型Fig 4 Actual Roofline model of Coral

如圖5所示,EDGE TPU計算板的Roofline的“傾斜”部分較長,峰值最高,在Coral上運行的神經(jīng)網(wǎng)絡(luò)均有較好的結(jié)果,4種網(wǎng)絡(luò)中的3種算力值最高,這主要有以下2種原因:

1)經(jīng)過量化處理的神經(jīng)網(wǎng)絡(luò)計算強度變大,在Roofline的圖像上自然要向右移,對于受帶寬限制(斜線區(qū)域)的神經(jīng)網(wǎng)絡(luò)改善較大。

2)Coral集成的EDGE TPU算力值較高,對于處于算力值限制(平行線區(qū)域)的神經(jīng)網(wǎng)絡(luò)有明顯提升。

圖5 合并后的實際Roofline模型Fig.5 Combined actual Roofline model

從圖5可以看出:TX2的表現(xiàn)趨于穩(wěn)定,TX2對于Inception V4的執(zhí)行取得了最佳結(jié)果,在3種邊緣計算版中具有最高帶寬;TX2具有1.3T的峰值算力,具有強大的靈活性,支持多種深度學(xué)習(xí)框架,可以用來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。

NANO的Roofline形狀和TX2基本相似(NANO的構(gòu)造和TX1的大部分參數(shù)相同),各個神經(jīng)網(wǎng)絡(luò)計算強度一樣,但基于TX2運行的神經(jīng)網(wǎng)絡(luò)算力值約為基于NANO的2倍,比TX2和NANO在大小和價格上的差距要小得多。

3 功耗測量與分析

當設(shè)備在投入應(yīng)用時,能耗往往是一個需要考慮的問題。本文使用性能/瓦特作為一個評測標準來進行分析,并且引入K40與K80[23]進行比較。

功耗測量設(shè)備型號為EXTECH-380803,誤差為±0.9%,輸入電流為220 V交流電。嵌入式設(shè)備能耗數(shù)據(jù)來自整塊板卡能耗,K40與K80能耗數(shù)據(jù)來自顯卡內(nèi)部寄存器取值。測量Jetson NANO的能耗值示意圖如圖6所示。

圖6 Jetson NANO能耗值測量示意圖Fig.6 Schematic diagram of Jetson NANO energy consumption value measurement

雖然K80與K40只支持單雙精度計算,但算力峰值仍超出3個邊緣計算平臺算力峰值,帶寬遠超邊緣計算板帶寬,K40與K80廣泛應(yīng)用于云端服務(wù)器[24-25]。

K80、K40的Roofline模型如圖7所示。

圖7 K80、K40的Roofline模型Fig.7 Roofline model of K80,K40

3.1 空閑功耗測量與分析

為測量出準確的空閑能耗,設(shè)邊緣計算板均為開機后未運行任何任務(wù)的情況下,K80與K40均為P8[26]狀態(tài)。

NANO、Coral、TX2、K40、K80的待機功率值如圖8所示。其中,NANO、TX2、Coral為整個開發(fā)板功耗,K40與K80為單GPU在P8狀態(tài)下的功耗可以看出,NANO實測最低為1.4 W,約為K80的1/40和TX2的1/5,邊緣開發(fā)版中TX2待機功率最高。

圖8 NANO、Coral、TX2、K40、K80待機功率Fig.8 Standby power of NANO,Coral,TX2,K40,K80 computing boards

3.2 工作功耗測量與分析

在工作狀態(tài)下測量各個平臺的功耗[27]如圖9所示。可以看出,雖然K40與K80具有相當高的算力與帶寬[28],但在此項比值中卻占據(jù)了后兩名,邊緣計算板的性能功耗比對于服務(wù)器來說有較大的優(yōu)勢,其中EDGE TPU計算板的性能功耗比較高,遠高于其他邊緣開發(fā)板。Coral性能功耗比約為NANO的12倍和TX2的6倍,這意味著執(zhí)行同樣的任務(wù),使用EDGE TPU計算板可以極大地節(jié)約能源[29]。

圖9 NANO、Coral、TX2、K40、K80算力與功耗比值Fig.9 NANO,Coral,TX2,K40,K80 computing power to power consumption ratio

本文分別測試了4種神經(jīng)網(wǎng)絡(luò)(MNSSD V1、MNSSD V2、Inception V1、Inception V4)在3種硬件平臺上實現(xiàn)的各項指標,實驗結(jié)果如表3所示。

表3 4種神經(jīng)網(wǎng)絡(luò)的實驗結(jié)果Table 3 Experimental results of four neural networks

4 模型改進

將傳統(tǒng)模型VGG 16[30]在TX2上運行,每秒處理圖片數(shù)約為31張,Roofline模型如圖10所示。該模型在坐標系中的位置較為靠近斜線部分,說明在TX2上運行VGG 16時受訪存量限制。為加快模型運行速度,更多地利用TX2的性能,對傳統(tǒng)的VGG 16網(wǎng)絡(luò)結(jié)構(gòu)進行修改,將卷積核維度縮減到原來的1/5左右,減少通道數(shù)量以達到減小計算量與訪存量的目的。實驗結(jié)果表明,在準確度下降僅為5%左右的前提下,將每秒圖片處理數(shù)提升至255張左右,極大地加快了模型運行速度。同時提高了TX2的資源利用率,將每秒操作數(shù)提升至0.83 TOPS左右。

圖10 運行在TX2上的Roofline模型Fig.10 Roofline model running on TX2

5 結(jié)束語

本文以邊緣計算板作為實驗平臺,分別建立了TX2、NANO、Coral開發(fā)板的理論與實際Roofline模型并進行綜合比較,根據(jù)量化后的神經(jīng)網(wǎng)絡(luò)計算算力和訪存量,并分析TX2、NANO、Coral 3塊邊緣計算板及云端服務(wù)器的功耗性能。實驗結(jié)果表明,EDGE TPU計算板具有較高算力值與最優(yōu)性能功耗比,其執(zhí)行速度約為TX2的1.5倍和NANO的3倍,Coral的性能功耗比約為TX2的6倍和NANO的12倍。下一步將對邊緣設(shè)備上運行的多種神經(jīng)網(wǎng)絡(luò)優(yōu)化方式及其組合進行比較分析,研究在設(shè)備運算性能受限情況下如何最大化地優(yōu)化神經(jīng)網(wǎng)絡(luò)。

猜你喜歡
測量設(shè)備模型
一半模型
諧響應(yīng)分析在設(shè)備減振中的應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
把握四個“三” 測量變簡單
滑動摩擦力的測量和計算
基于MPU6050簡單控制設(shè)備
電子制作(2018年11期)2018-08-04 03:26:08
滑動摩擦力的測量與計算
3D打印中的模型分割與打包
500kV輸變電設(shè)備運行維護探討
主站蜘蛛池模板: 蜜桃视频一区| 亚洲无码视频一区二区三区 | 尤物视频一区| 国产黑人在线| 中文字幕1区2区| 91丝袜乱伦| 精品乱码久久久久久久| 日日碰狠狠添天天爽| 永久免费无码日韩视频| 啪啪免费视频一区二区| 91探花国产综合在线精品| 无码丝袜人妻| 精品91在线| 天天综合天天综合| 精品欧美日韩国产日漫一区不卡| 国产一区二区三区视频| 日韩欧美国产三级| 国产又粗又猛又爽| yjizz视频最新网站在线| 国产精品综合久久久| 国产日韩欧美精品区性色| 欧美成人一级| 久久99蜜桃精品久久久久小说| 高清色本在线www| 国产99在线| 日韩中文欧美| 亚洲精品男人天堂| 伊人五月丁香综合AⅤ| 国产高清国内精品福利| 亚洲bt欧美bt精品| 国产精品网拍在线| 国产精品粉嫩| 麻豆精品在线视频| 青青青伊人色综合久久| 欧美日本激情| 国产内射一区亚洲| 在线a视频免费观看| 欧美视频二区| 中文字幕在线视频免费| 免费观看成人久久网免费观看| 99这里只有精品免费视频| 国产精品永久在线| 午夜激情福利视频| 3344在线观看无码| 亚洲视频三级| 九九热精品视频在线| 三上悠亚精品二区在线观看| 久久午夜影院| 亚洲精品无码日韩国产不卡| 91精品国产综合久久香蕉922 | 无码一区二区波多野结衣播放搜索| 亚洲日韩久久综合中文字幕| 久久久久88色偷偷| 成年人国产网站| 一本无码在线观看| 99热国产这里只有精品无卡顿"| 久久永久精品免费视频| 国产免费精彩视频| 亚洲天堂.com| 免费看美女毛片| 亚洲第一成年人网站| 亚洲AV无码久久精品色欲| 在线观看国产精品一区| 亚洲视频在线青青| 国产激情无码一区二区三区免费| 午夜爽爽视频| 国产网站黄| 中国精品自拍| 综合久久久久久久综合网| 亚亚洲乱码一二三四区| 久久中文字幕av不卡一区二区| 美女被躁出白浆视频播放| 伊人久久福利中文字幕| 日韩精品一区二区三区大桥未久| 国产精彩视频在线观看| 久久国产拍爱| 亚洲综合亚洲国产尤物| 国产精品污污在线观看网站| 白浆免费视频国产精品视频| 国产一区二区三区在线精品专区| 在线观看国产网址你懂的| 日本高清成本人视频一区|