999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種面向異構(gòu)邊緣架構(gòu)的實(shí)時(shí)高能效圖像分類(lèi)任務(wù)劃分策略

2021-08-24 03:31:10楊晶晶薛明浩王繼禾
關(guān)鍵詞:設(shè)備模型

楊晶晶,薛明浩,王繼禾

1(西安交通大學(xué) 機(jī)械結(jié)構(gòu)強(qiáng)度與振動(dòng)國(guó)家重點(diǎn)實(shí)驗(yàn)室,西安 710049) 2(北京航空工程技術(shù)研究中心,北京 100076) 3(西北工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,西安 710129)

1 引 言

近年來(lái),神經(jīng)網(wǎng)絡(luò)在眾多領(lǐng)域都取得了很大的進(jìn)展.與此同時(shí),邊緣設(shè)備的快速發(fā)展也在一定程度上推動(dòng)了輕量級(jí)神經(jīng)網(wǎng)絡(luò)的研究[1].然而,一般的神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過(guò)程中并沒(méi)有考慮到具體的應(yīng)用場(chǎng)景.事實(shí)上,在某些特定的應(yīng)用場(chǎng)景中,神經(jīng)網(wǎng)絡(luò)處理的數(shù)據(jù)存在很大的偏差[2],即某些類(lèi)別的數(shù)據(jù)在整個(gè)數(shù)據(jù)集中出現(xiàn)的頻率相對(duì)較高.如果使用通用神經(jīng)網(wǎng)絡(luò)處理這樣的數(shù)據(jù)集,那么對(duì)于低頻和高頻類(lèi)別的評(píng)估則近乎相同,無(wú)法體現(xiàn)出數(shù)據(jù)的特異性.此外,網(wǎng)絡(luò)模型的分類(lèi)效果與模型的規(guī)模有關(guān).分類(lèi)類(lèi)別越多的網(wǎng)絡(luò),復(fù)雜度也越高,越不適合部署在資源有限的邊緣設(shè)備上[3].

目前,學(xué)界對(duì)于在邊緣設(shè)備上高效部署神經(jīng)網(wǎng)絡(luò)開(kāi)展了一定的研究工作.Mohd等人[4]嘗試在異構(gòu)環(huán)境上實(shí)現(xiàn)高效部署神經(jīng)網(wǎng)絡(luò),提出了任務(wù)劃分的思想,根據(jù)應(yīng)用場(chǎng)景將數(shù)據(jù)進(jìn)行劃分.在異構(gòu)邊緣設(shè)備的前端(CPU)和后端(GPU)采用兩種低功耗、高精度的網(wǎng)絡(luò)模型[5]分別處理高頻和低頻數(shù)據(jù).但是,由于異構(gòu)邊緣設(shè)備前后端之間的的處理性能差異較大[6],并且前端CPU在處理神經(jīng)網(wǎng)絡(luò)訓(xùn)練任務(wù)以外,還需要處理其他實(shí)時(shí)任務(wù),因此如何根據(jù)CPU和GPU的計(jì)算資源在前后端之間合理分配工作負(fù)載是亟待解決的問(wèn)題.

本文在任務(wù)劃分理論的基礎(chǔ)上,提出了一種根據(jù)邊緣異構(gòu)設(shè)備前端負(fù)載情況動(dòng)態(tài)進(jìn)行任務(wù)分區(qū)的調(diào)度算法.該算法估計(jì)前端CPU一段時(shí)間內(nèi)的利用情況,根據(jù)計(jì)算能力和資源占用的不同,分別將不同的負(fù)載動(dòng)態(tài)分配給前端和后端,以提高執(zhí)行效率.

本文的主要貢獻(xiàn)有:

1)提出了一種實(shí)時(shí)任務(wù)CPU負(fù)載估計(jì)模型,即在某一周期時(shí)段內(nèi)估計(jì)CPU的負(fù)載情況;

2)提出了一種實(shí)現(xiàn)異構(gòu)邊緣設(shè)備前后端動(dòng)態(tài)負(fù)載均衡的任務(wù)分區(qū)策略;

3)對(duì)所提出的策略進(jìn)行了實(shí)驗(yàn)評(píng)估,并與傳統(tǒng)策略進(jìn)行對(duì)比,在不影響分類(lèi)精度的情況下,能耗上降低了31.4%,實(shí)現(xiàn)了高性能.

2 相關(guān)概念

2.1 異構(gòu)邊緣設(shè)備

近年來(lái),智能手機(jī)等移動(dòng)設(shè)備的廣泛應(yīng)用推動(dòng)了邊緣設(shè)備的加速發(fā)展.邊緣設(shè)備在使用過(guò)程中所產(chǎn)生的數(shù)據(jù)量巨大,僅憑中心化的服務(wù)器平臺(tái)難以做到數(shù)據(jù)的高效處理[7].為了提升邊緣設(shè)備的數(shù)據(jù)處理能力,一些硬件制造商在傳統(tǒng)邊緣設(shè)備中增加了額外的處理單元,異構(gòu)邊緣設(shè)備應(yīng)運(yùn)而生[8].異構(gòu)邊緣設(shè)備通常由通用處理單元(CPU)和專(zhuān)用處理單元(例如GPU)組成,分別稱(chēng)為前端和后端.雖然邊緣設(shè)備所占有的存儲(chǔ)容量和資源有限,但其高性能和低功耗的優(yōu)勢(shì)使得在邊緣設(shè)備上部署神經(jīng)網(wǎng)絡(luò)成為可能[9].

2.2 神經(jīng)網(wǎng)絡(luò)

運(yùn)行神經(jīng)網(wǎng)絡(luò)需要消耗大量的計(jì)算和內(nèi)存資源,這使得在資源受限的邊緣設(shè)備上部署神經(jīng)網(wǎng)絡(luò)困難重重.MobileNet[10]和ShuffleNet[11]是適用于移動(dòng)和邊緣視覺(jué)設(shè)備的高效卷積神經(jīng)網(wǎng)絡(luò).MobileNet通過(guò)使用深度可分離卷積來(lái)構(gòu)建輕量級(jí)網(wǎng)絡(luò),它將傳統(tǒng)卷積劃分為點(diǎn)卷積和深度卷積兩部分,大大降低了參數(shù)的數(shù)量,提升了網(wǎng)絡(luò)模型的效率.但是,MobileNet所產(chǎn)生的大量1×1點(diǎn)卷積同時(shí)也增加了計(jì)算的復(fù)雜度,為了改善這一問(wèn)題,ShuffleNet通過(guò)添加組卷積來(lái)降低計(jì)算復(fù)雜度,同時(shí)還增加了一個(gè)shuffle層用于幫助信息在不同特征組之間的流動(dòng).

2.3 Hot/Cold-Class

通常,在訓(xùn)練神經(jīng)網(wǎng)絡(luò)的過(guò)程中,所使用的訓(xùn)練集都是均勻的,即每個(gè)類(lèi)中訓(xùn)練數(shù)據(jù)的數(shù)量是相差無(wú)幾或者相同的,這是為了讓網(wǎng)絡(luò)可以兼顧到數(shù)據(jù)集中所有類(lèi)別的數(shù)據(jù),從而使網(wǎng)絡(luò)具備判斷所有類(lèi)別數(shù)據(jù)的能力.但是在某些實(shí)際場(chǎng)景下,網(wǎng)絡(luò)所要處理的數(shù)據(jù)可能是不均勻的,也就是有一定的偏置性[12],即可能某一類(lèi)數(shù)據(jù)或者幾類(lèi)數(shù)據(jù)出現(xiàn)的頻率很高,剩余類(lèi)別數(shù)據(jù)出現(xiàn)的頻率較低,比如將神經(jīng)網(wǎng)絡(luò)在醫(yī)學(xué)胸片影像分析領(lǐng)域的應(yīng)用,由此提出了Hot/Cold-Class的概念.

所謂Hot-Class就是在特定場(chǎng)景下出現(xiàn)頻率較高的一種或者幾種類(lèi)別的數(shù)據(jù),而剩余的出現(xiàn)頻率較低的類(lèi)別則統(tǒng)一歸為Cold-Class,將數(shù)據(jù)以這種形式進(jìn)行劃分的目的是充分利用異構(gòu)嵌入式設(shè)備的特點(diǎn).一般情況下,通用處理器的性能相對(duì)較低,只能進(jìn)行較小規(guī)模的運(yùn)算,不足以運(yùn)行針對(duì)所有類(lèi)別數(shù)據(jù)的完整的網(wǎng)絡(luò)[13],而專(zhuān)用處理器則針對(duì)某些特定的數(shù)據(jù)具有較高的性能,有能力運(yùn)行一個(gè)能夠分辨所有類(lèi)別的完整的網(wǎng)絡(luò).根據(jù)異構(gòu)嵌入式設(shè)備的這個(gè)特點(diǎn),將整個(gè)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練任務(wù)進(jìn)行劃分[14],將異構(gòu)嵌入式設(shè)備中的CPU作為前端,部署一個(gè)較為簡(jiǎn)單高效的網(wǎng)絡(luò),該網(wǎng)絡(luò)在訓(xùn)練時(shí)只負(fù)責(zé)Hot-Class數(shù)據(jù),即網(wǎng)絡(luò)僅識(shí)別Hot-Class數(shù)據(jù);把異構(gòu)嵌入式設(shè)備的專(zhuān)用處理器(GPU)作為后端,部署一個(gè)更為復(fù)雜的網(wǎng)絡(luò),該網(wǎng)絡(luò)在訓(xùn)練時(shí)負(fù)責(zé)所有類(lèi)別的數(shù)據(jù),即可以識(shí)別所有類(lèi)別的數(shù)據(jù).

樣本置信度是正確劃分Hot-Class和Cold-Class的關(guān)鍵.通常,圖像分類(lèi)的每個(gè)輸出結(jié)果均是一個(gè)One-Hot[15]向量,向量中元素的值表示某個(gè)類(lèi)出現(xiàn)的概率,值越大,對(duì)應(yīng)類(lèi)出現(xiàn)的概率也越大.One-Hot向量應(yīng)該相對(duì)清晰,即向量中的最大值應(yīng)遠(yuǎn)遠(yuǎn)大于其他值.One-Hot向量越清晰,分類(lèi)效果越好.在信源中,需要考慮所有可能情況的平均不確定性,假設(shè)信源符號(hào)有n個(gè)值:U1,U2,…,Un每個(gè)值對(duì)應(yīng)概率為:P1,P2,…,Pn,且各種符號(hào)相互獨(dú)立.所有符號(hào)的平均不確定性則為各個(gè)符號(hào)不確定性-logPi的統(tǒng)計(jì)平均值(E),稱(chēng)之為信號(hào)熵.式(1)為信號(hào)熵的計(jì)算公式.

(1)

式(1)可以準(zhǔn)確滿足網(wǎng)絡(luò)輸出的一個(gè)One-Hot向量,與此同時(shí),信息熵是度量信息的指標(biāo),信息熵的值就越低,一個(gè)系統(tǒng)越有序,某個(gè)類(lèi)別出現(xiàn)的概率就越高,說(shuō)明該模型分類(lèi)效果較好.

(2)

式(2)是典型的熵值計(jì)算公式,其中C表示所有可能的類(lèi),xi表示每個(gè)類(lèi)的可能性.但是式(2)的自然性質(zhì)會(huì)引起熵值范圍的不確定性,因此有學(xué)者將熵值限制在[0,1]范圍內(nèi),修正后的公式如式(3)所示.

(3)

傳統(tǒng)策略中沒(méi)有進(jìn)行前后端之間的調(diào)度,即不考慮前后端之間的負(fù)載情況,其根據(jù)樣本置信度將數(shù)據(jù)進(jìn)行劃分,數(shù)據(jù)在被送入前端網(wǎng)絡(luò)時(shí),在整個(gè)被處理數(shù)據(jù)中占多數(shù)的Hot-Class數(shù)據(jù)將會(huì)被前端網(wǎng)絡(luò)直接進(jìn)行處理,得到結(jié)果,然后將剩余的Cold-Class數(shù)據(jù)轉(zhuǎn)移至后端(GPU),通過(guò)后端更加復(fù)雜的網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行更加精細(xì)的處理,從而得到最終的結(jié)果.

由于傳統(tǒng)策略并沒(méi)有考慮到前后端之間的負(fù)載差異,前端的處理能力較弱,如果將所有的數(shù)據(jù)都送入前端進(jìn)行處理,前端的負(fù)載會(huì)很重,而處理能力很強(qiáng)的后端卻僅處理在數(shù)據(jù)中占少數(shù)的Cold-Class數(shù)據(jù),這就導(dǎo)致了前后端之間資源利用的失衡.

3 負(fù)載均衡的分區(qū)調(diào)度

3.1 異構(gòu)實(shí)時(shí)任務(wù)的模型假設(shè)

假設(shè)神經(jīng)網(wǎng)絡(luò)訓(xùn)練任務(wù)的訓(xùn)練樣本數(shù)為N,分區(qū)調(diào)度過(guò)程中,動(dòng)態(tài)分配給前端CPU的樣本數(shù)為nCPU,則后端GPU需要處理的樣本數(shù)量nGPU=N-nCPU.

假設(shè)CPU和GPU處理一張圖片的時(shí)間單元是恒定的,分別為tCPU和tGPU,則CPU和GPU處理完對(duì)應(yīng)數(shù)量樣本的時(shí)間單元分別為nCPUtCPU和(N-nCPU)tGPU.

由于異構(gòu)邊緣設(shè)備中,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需要滿足一定的實(shí)時(shí)性要求,因此前后端樣本處理時(shí)間應(yīng)滿足如下約束條件:

|nCPUtCPU-(N-nCPU)tGPU|≤δ

(4)

其中δ為規(guī)定的延遲要求.

假設(shè)前端CPU在處理神經(jīng)網(wǎng)絡(luò)訓(xùn)練任務(wù)以外,還需要處理n個(gè)實(shí)時(shí)任務(wù),K={k1,k2,…,kn},每個(gè)任務(wù)ki表示為(Ci,Di),其中Ci為任務(wù)ki的到達(dá)時(shí)間,Di為任務(wù)ki的死限,Ci≤Pi,且任意時(shí)間段內(nèi),處理任務(wù)所需要的負(fù)載量不超過(guò)CPU的總負(fù)載量.

3.2 實(shí)時(shí)任務(wù)CPU負(fù)載估計(jì)模型

將神經(jīng)網(wǎng)絡(luò)訓(xùn)練樣本分配給CPU之前,需要周期性地對(duì)CPU進(jìn)行負(fù)載估計(jì),通過(guò)計(jì)算某一周期內(nèi)其他實(shí)時(shí)任務(wù)所占用的CPU利用率,可以得出該周期內(nèi)CPU的剩余利用率,這部分剩余利用率就用于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練任務(wù).如圖1所示,假設(shè)以時(shí)間間隔Δ為周期對(duì)CPU進(jìn)行負(fù)載估計(jì),在某一周期t1~t2內(nèi),其中t2-t1=Δ,即t1為周期起始時(shí)刻,t2為周期終止時(shí)刻,假設(shè)CPU在t1時(shí)刻可知下一周期內(nèi)需要處理的實(shí)時(shí)任務(wù)集合為K′?K,則需要估計(jì)K′中每一個(gè)實(shí)時(shí)任務(wù)的CPU利用率.

圖1 負(fù)載估計(jì)示意圖

當(dāng)任務(wù)ki的到達(dá)時(shí)間Ci≤t1且死限D(zhuǎn)i≤t2時(shí),表明ki為CPU正在處理的實(shí)時(shí)任務(wù)且需要在該周期處理結(jié)束,此類(lèi)任務(wù)集合用K(1)?K′表示.K(1)任務(wù)集合的最小CPU利用單元U(K(1))計(jì)算公式如式(4)所示.

(5)

當(dāng)ki的到達(dá)時(shí)間Ci>t1且死限D(zhuǎn)i≤t2時(shí),表明ki為該周期內(nèi)新到達(dá)的任務(wù)且需要在該周期內(nèi)處理結(jié)束,此類(lèi)任務(wù)用集合K(2)?K′表示.K(2)任務(wù)集合的最小CPU利用單元U(K(2))計(jì)算公式如式(5)所示.

(6)

當(dāng)ki的到達(dá)時(shí)間Ci≤t1且死限D(zhuǎn)i>t2時(shí),表明ki為CPU正在處理的任務(wù)且死限在后續(xù)周期內(nèi),此類(lèi)任務(wù)用集合K(3)?K′表示.K(3)任務(wù)集合的CPU最小利用單元U(K(3))計(jì)算公式如式(6)所示.

(7)

當(dāng)ki的到達(dá)時(shí)間Ci>t1且死限D(zhuǎn)i>t2時(shí),表明ki為該周期內(nèi)新到達(dá)的任務(wù)且死限在后續(xù)周期內(nèi),此類(lèi)任務(wù)用集合K(4)?K′表示.K(4)任務(wù)集合的CPU最小利用單元U(K(4))計(jì)算公式如式(7)所示.

(8)

在周期t1~t2時(shí)間段內(nèi),CPU完成任務(wù)集K′的最小利用單元為Umin(Δ)=U(K(1))+U(K(2))+U(K(3))+U(K(4)),則該周期內(nèi)CPU剩余最大可利用時(shí)間單元Space(Δ)=Δ-Umin(Δ),即為圖中陰影線所示部分.

3.3 負(fù)載均衡算法

由于前端CPU處理能力較弱,并且還需要處理額外的實(shí)時(shí)任務(wù),如果所有神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)都進(jìn)入前端處理,前端負(fù)載會(huì)很重,而后端處理能力很強(qiáng),但它只處理數(shù)量占少數(shù)的Cold-Class數(shù)據(jù),這就導(dǎo)致資源利用很不平衡.本文提出了一種在前后端之間動(dòng)態(tài)任務(wù)分區(qū)的算法,該算法根據(jù)負(fù)載估計(jì)模型,每隔一定周期估計(jì)周期內(nèi)的CPU剩余負(fù)載,據(jù)此分配前后端處理的數(shù)據(jù)量.算法描述如下:

步驟1.根據(jù)負(fù)載估計(jì)模型,在某一周期開(kāi)始時(shí)估計(jì)Δ時(shí)間段內(nèi),神經(jīng)網(wǎng)絡(luò)任務(wù)以外任務(wù)集所占用的CPU最小利用單元,則剩余可用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的利用單元達(dá)到最大,即為Space(Δ);

步驟2.在不超過(guò)Space(Δ)的前提下,將部分訓(xùn)練數(shù)據(jù)分配給前端CPU,其余數(shù)據(jù)分配給后端GPU,前端處理延遲為front_delay,后端處理延遲為back_delay;

步驟3.判斷前后端是否滿足實(shí)時(shí)條件|front_delay-back_delay|≤δ,其中δ為延遲要求.若滿足條件則得到數(shù)據(jù)的分區(qū)均衡點(diǎn)lbalance;若不滿足條件則以Symbol為步長(zhǎng),調(diào)整前后端數(shù)據(jù)分區(qū);

步驟4.在下一周期重復(fù)步驟1-步驟4.

算法1.負(fù)載均衡算法

輸出:lbalance

1.Initializeallvariables

2.foreachperiodt2→t1do

7.Umin(Δ)=U(K(1))+U(K(2))+U(K(3))+U(K(4))

8.Space(Δ)=Δ-Umin(Δ)

9.front_load=Space(Δ)

10.forfront_load≤Space(Δ)do

11.lbalance=front_load

12.if|front_latency-back_latency|≤δ

13.returnl_balance

14.break

15.else

16.front_load=front_load-Symbol

17.back_load=back_load+Symbol

18.endif

19.endfor

20.endfor

4 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

4.1 實(shí)驗(yàn)環(huán)境

本文所使用的服務(wù)器端配備有一塊32GB的DDR4內(nèi)存,一塊12GB的DDR5顯存、384位寬的英偉達(dá)TitanXP顯卡,6核12線程的英特爾酷睿i7-8700k處理器.實(shí)驗(yàn)中所使用的數(shù)據(jù)集為T(mén)iny-ImageNet.Tiny-ImageNet來(lái)源于ImageNet數(shù)據(jù)集,但是相比于ImageNet,Tiny-ImageNet的數(shù)據(jù)規(guī)模更小.Tiny-ImageNet共有200個(gè)類(lèi)別,每張圖片為64×64的3通道RGB圖像;而在ImageNet中,每張圖片大小為224×224.由于異構(gòu)邊緣設(shè)備資源受限的特征,所部署的神經(jīng)網(wǎng)絡(luò)不能過(guò)于復(fù)雜,因此更加適合中小型數(shù)據(jù)集的訓(xùn)練.在本文實(shí)驗(yàn)中,隨機(jī)選取10個(gè)類(lèi)別作為Hot-Class,其余類(lèi)別作為Cold-Class.實(shí)驗(yàn)中使用的異構(gòu)邊緣設(shè)備為英偉達(dá)JetsonTX1開(kāi)發(fā)版,配備有4GBLPDDR4內(nèi)存,4核ARMCortex-A57處理器,256核Maxwell顯卡.此外,還使用了神經(jīng)網(wǎng)絡(luò)框架Pytorch來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)架構(gòu).實(shí)驗(yàn)對(duì)所提出的策略進(jìn)行了評(píng)估,并在實(shí)時(shí)性與能耗方面與傳統(tǒng)的策略進(jìn)行了對(duì)比.

4.2 實(shí)驗(yàn)評(píng)估

4.2.1 樣本置信度與負(fù)載均衡

在本文中,我們通過(guò)實(shí)驗(yàn)來(lái)確定樣本置信度的閾值,用以劃分?jǐn)?shù)據(jù).通過(guò)前端網(wǎng)絡(luò)分別對(duì)500個(gè)Hot-Class和500個(gè)Cold-Class數(shù)據(jù)進(jìn)行處理,得到了樣本置信度的分布情況,如圖2、圖3所示.從圖中可以看出,Hot-Class和Cold-Class樣本的置信度分布差異較大,Hot-Class樣本的置信度分布區(qū)間較為集中,而Cold-Class樣本的置信度分布則趨于均勻,大多數(shù)置信度區(qū)間內(nèi)的樣本數(shù)量相近.

為了確定樣本置信度閾值,實(shí)驗(yàn)對(duì)幾種不同的測(cè)試數(shù)據(jù)進(jìn)行了對(duì)比分析.圖4展示了3個(gè)不同測(cè)試樣本的置信度分布情況,每個(gè)測(cè)試樣本中Hot-Class數(shù)據(jù)所占比例分別為60%、80%和100%.從圖中可以看出,當(dāng)500個(gè)測(cè)試樣本均為Hot-Class數(shù)據(jù)時(shí),置信度大于或等于0.7的樣本數(shù)量為452,與網(wǎng)絡(luò)模型的精度大致相同(模型精度約為98%),與此同時(shí),Hot-Class樣本占比60%和80%時(shí)也是如此.所以本文選取0.7作為樣本的置信度閾值.

此外,本文根據(jù)算法1對(duì)負(fù)載均衡進(jìn)行了驗(yàn)證.對(duì)于不同前端網(wǎng)絡(luò)模型,我們通過(guò)實(shí)驗(yàn)得出了對(duì)應(yīng)的負(fù)載均衡點(diǎn),具體數(shù)據(jù)如圖5所示.在后續(xù)的對(duì)比實(shí)驗(yàn)中,我們將根據(jù)負(fù)載均衡點(diǎn),分別為前端和后端分配不同數(shù)量的圖像,以最大程度發(fā)揮前端和后端的優(yōu)勢(shì),提高資源利用率.

4.2.2 網(wǎng)絡(luò)驗(yàn)證

盡可能滿足邊緣設(shè)備CPU有限的計(jì)算資源是前端網(wǎng)絡(luò)設(shè)計(jì)的目標(biāo),因此前端只需要處理Hot-Class數(shù)據(jù).本文對(duì)10種小型網(wǎng)絡(luò)模型進(jìn)行了比較,結(jié)果如表1所示.在模型1-7中,只包含一個(gè)卷積層,其余的模型均包含兩個(gè)卷積層.此外,全連接層的數(shù)量也會(huì)對(duì)網(wǎng)絡(luò)精度產(chǎn)生一定影響.

表1 前端網(wǎng)絡(luò)結(jié)構(gòu)和精度表

實(shí)驗(yàn)中設(shè)計(jì)的網(wǎng)絡(luò)模型較為簡(jiǎn)單,能夠滿足異構(gòu)邊緣設(shè)備有限的計(jì)算能力和資源需求.從表1中可以看出,模型10具有最高的精度,達(dá)到了98.8%,但是其對(duì)應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)也相對(duì)復(fù)雜,包含3個(gè)全連接層和兩個(gè)卷積層.在選擇網(wǎng)絡(luò)模型時(shí),需要考慮時(shí)延、能耗等因素,每個(gè)選擇都要根據(jù)特定的邊緣設(shè)備和應(yīng)用場(chǎng)景.本文中,我們選擇模型7部署到前端,其只包含兩個(gè)全連接層和一個(gè)卷積層,相比于模型10,更為輕量級(jí).雖然模型7的精度低于模型10,但其具有更優(yōu)的時(shí)延和能耗.

后端基于ShuffleNet進(jìn)行網(wǎng)絡(luò)設(shè)計(jì),我們調(diào)整了網(wǎng)絡(luò)的輸入,同時(shí)去掉了一些不必要的部分,以滿足后端的需求.通過(guò)實(shí)驗(yàn)訓(xùn)練,最終得到了適用于Tiny-ImageNet數(shù)據(jù)集的網(wǎng)絡(luò)模型.

基于得到的前后端網(wǎng)絡(luò)模型,我們分別對(duì)本文策略和傳統(tǒng)策略進(jìn)行了對(duì)比實(shí)驗(yàn),得到了兩種策略在Tiny-ImageNet數(shù)據(jù)集上的分類(lèi)精度,如表2所示.可以看到,相較于傳統(tǒng)策略,本文策略在分類(lèi)精度上提高了1.1%.

表2 分類(lèi)精度對(duì)比

4.2.3 實(shí)時(shí)性和能耗

在異構(gòu)架構(gòu)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)任務(wù)需要滿足實(shí)時(shí)性要求.本文分別使用20個(gè)包含不同圖像數(shù)量的測(cè)試集對(duì)本文提出的策略和傳統(tǒng)策略進(jìn)行了實(shí)時(shí)性驗(yàn)證,其中Hot-Class樣本數(shù)量占樣本總數(shù)的80%,驗(yàn)證結(jié)果如表3所示.從表中可以看出,對(duì)于實(shí)驗(yàn)中所用的絕大部分訓(xùn)練集,本文所提出的策略均能很好地滿足實(shí)時(shí)性的要求.而在傳統(tǒng)策略中,需要在前端先完成Hot-Class數(shù)據(jù)的處理,再將Cold-Class數(shù)據(jù)送入后端進(jìn)行處理,當(dāng)圖像數(shù)量較多時(shí),很難滿足實(shí)時(shí)性要求.

表3 實(shí)時(shí)性驗(yàn)證對(duì)比

在本文中,我們通過(guò)實(shí)驗(yàn)對(duì)能耗進(jìn)行了評(píng)估.圖6為10000張圖像的樣本集合在不同GPU分配比例時(shí)的能耗情況.從圖中可以看出,隨著樣本數(shù)量在GPU上分配比例的增加,神經(jīng)網(wǎng)絡(luò)訓(xùn)練的能耗總體上也呈現(xiàn)出上升的趨勢(shì).圖7為本文策略和傳統(tǒng)策略在處理不同數(shù)量樣本集合時(shí)的能耗.可以看到,傳統(tǒng)策略在處理不同數(shù)量的樣本時(shí),其能耗均要高于本文中所提出的策略,主要原因是因?yàn)榍岸薈PU的性能較差,不適合做大量的卷積操作,從而導(dǎo)致處理時(shí)間過(guò)長(zhǎng),能耗大.相比之下,GPU由于核心眾多,在卷積運(yùn)算方面具有天然的優(yōu)勢(shì).結(jié)果表明,與傳統(tǒng)策略相比,本文策略的能耗降低了31.4%,實(shí)現(xiàn)了高性能.

5 結(jié) 語(yǔ)

本文根據(jù)異構(gòu)邊緣設(shè)備前后端處理能力差異很大的特點(diǎn),在Hot/Cold-Class理論的基礎(chǔ)上,提出了一種實(shí)現(xiàn)前后端之間動(dòng)態(tài)負(fù)載均衡的任務(wù)分區(qū)算法.實(shí)驗(yàn)表明,本文所提出的算法可以在相對(duì)低延遲和低功耗的情況下,根據(jù)前端CPU負(fù)載的變化,動(dòng)態(tài)地進(jìn)行任務(wù)的分區(qū),有效解決了異構(gòu)邊緣設(shè)備中前后端資源利用失衡的問(wèn)題.

猜你喜歡
設(shè)備模型
一半模型
諧響應(yīng)分析在設(shè)備減振中的應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
基于VB6.0+Access2010開(kāi)發(fā)的設(shè)備管理信息系統(tǒng)
基于MPU6050簡(jiǎn)單控制設(shè)備
電子制作(2018年11期)2018-08-04 03:26:08
3D打印中的模型分割與打包
500kV輸變電設(shè)備運(yùn)行維護(hù)探討
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
如何在設(shè)備采購(gòu)中節(jié)省成本
主站蜘蛛池模板: 欧美天堂久久| 综合色区亚洲熟妇在线| 午夜激情福利视频| 激情亚洲天堂| 国产精品999在线| 久久五月视频| 亚洲一区二区三区香蕉| 人人91人人澡人人妻人人爽 | 国产欧美精品专区一区二区| 红杏AV在线无码| 真人高潮娇喘嗯啊在线观看| 激情综合婷婷丁香五月尤物| 亚洲精品无码av中文字幕| 国产尤物jk自慰制服喷水| 国产无码在线调教| 91精品亚洲| 国产永久无码观看在线| 国产亚洲精品精品精品| 欧美第九页| 久久动漫精品| 中国黄色一级视频| 国产成人AV综合久久| 欧美色视频网站| 精品国产Ⅴ无码大片在线观看81| 这里只有精品在线播放| 99精品欧美一区| 制服丝袜亚洲| 自慰网址在线观看| 91国内视频在线观看| 国产爽妇精品| 中文一区二区视频| 国产精品成人久久| 国产91导航| 精品视频一区二区观看| 婷婷丁香在线观看| 欧美精品亚洲精品日韩专区| 亚欧乱色视频网站大全| 久久毛片网| 午夜成人在线视频| 一本大道无码高清| 色婷婷成人| 69av在线| 无码人妻热线精品视频| 毛片视频网址| 亚洲成人一区在线| 久久久噜噜噜| 996免费视频国产在线播放| 激情无码字幕综合| 真实国产乱子伦视频| 91精品国产91欠久久久久| 国产精品99在线观看| 国产极品美女在线| 色天堂无毒不卡| 国产人妖视频一区在线观看| 国产精品真实对白精彩久久| 国产激爽大片高清在线观看| 中文字幕久久亚洲一区| www.99在线观看| 啦啦啦网站在线观看a毛片| 成人亚洲国产| 青青草国产免费国产| 91精品小视频| 91偷拍一区| 亚洲欧洲日韩综合| 久久青草视频| 国产一区二区丝袜高跟鞋| 亚卅精品无码久久毛片乌克兰 | 婷婷午夜影院| 午夜啪啪网| 四虎亚洲精品| a毛片在线播放| 午夜啪啪网| 国产精品偷伦在线观看| 久久青草免费91观看| jizz亚洲高清在线观看| 国产呦视频免费视频在线观看| 波多野结衣一二三| 伦伦影院精品一区| 国产午夜一级毛片| a级毛片在线免费| 精品福利国产| 国内熟女少妇一线天|