基于邊緣節點的深度神經網絡任務分配方法

2021-01-20 07:57:26陳明浩陳慶奎

計算機工程與設計 2021年1期

陳明浩，陳慶奎

(上海理工大學光電信息與計算機工程學院，上海 200093)

0 引言

近幾年物聯網的發展，數以百千萬個邊緣節點通過無數網絡節點鏈接在一起進行數據交互、分析，同時越來越多的節點設備也在通過物聯網方式不斷加入，邊緣設備的智能化已經大勢所趨[1]。由于邊緣節點自身硬件資源限制，往往需要通過遠程的云計算資源為用戶提供相關服務，云端服務器仍承擔著巨大的計算負載[2]。因此在邊緣節點上搭載神經網絡成為新的趨勢。但由于節點設備自身硬件性能與網絡通信環境的限制，目前難以全部實現[3]。

為了解決低性能邊緣節點難以搭載神經網絡的問題，本文提出通過改進Roofline模型對通信環境、邊緣設備與神經網絡參數三者進行動態評估，并根據評估指標對不同的神經網絡計算任務進行動態適應性劃分方法，使得邊緣節點與服務器節點能夠共同完成神經網絡計算任務。實驗結果表明，對計算任務的適應性分配，能夠避免邊緣節點計算資源的浪費，降低服務器節點的通信與計算開銷。該方法克服了邊緣節點的硬件條件限制，將邊緣設備與神經網絡進行有效結合，表現出優良效果。

1 相關工作

目前將神經網絡計算與邊緣設備節點相結合主要分為兩種方式：①運用客戶端/服務器架構模式(C/S模式)；②對網絡模型進行優化。

傳統的C/S架構模式，是指通過邊緣節點獲取數據信息，將采集的信息傳輸至中心服務器，服務器結合神經網絡進行數據處理分析。該模式保證了計算結果的高精度性，并避免了邊緣設備終端的自身硬件性能的限制。但C/S架構模式面臨著的巨大通信開銷，以及服務器資源分配調度等問題。文獻[4]提出通過對于通信數據進行壓縮，優化傳輸功耗實現了通信時間延遲以及邊緣節點的物理損耗。文獻[5]結合了邊緣設備任務優先級，設備運算性能，任務完成時間等條件，自適應調用Max-Min與Min-min算法進行任務分配。但邊緣設備節點不斷增多，中心服務器仍面臨著巨大的負載壓力。

優化網絡模型，則主要分兩種情況。第一種情況，若邊緣設備硬件條件良好，則對傳統神經網絡模型進行參數壓縮從而達到模型優化。文獻[6]通過在保證網絡結構的前提下進行網絡修剪，去除不重要的網絡連接，減少模型冗余，達到降低模型復雜度的目的。文獻[7]基于遷移卷積濾波器的方式設計新型結構卷積濾波器，縮小計算規模。文獻[8]指出借助復雜的神經網絡訓練結果訓練新型網絡，從而減少計算開銷，優化網絡模型。第二種情況，若邊緣設備自身硬件性能較為低下，難以支撐傳統的神經網絡模型，則選擇搭載輕量化網絡模型。輕量化模型主要通過改變自身網絡結構，減少參數量，從而減少存儲空間的占用，降低計算開銷。輕量化模型主要包括：①基于流線型架構，使用分離卷積核，深度可分離卷積的MobileNet[9]；②借鑒ResNet[10]分組卷積，采用各點卷積的ShuffleNet；③采用個點卷積，并利用Squeeze layer限制通道數的SqueezeNet[11]等。神經網絡模型的輕量化，讓越來越多節點設備能夠成功搭載神經網絡，使之得到充分的利用。但模型的壓縮與輕量化難以保證運算結果精度的準確性，目前生活中仍有大部分邊緣節點設備無法支持輕量化模型的計算。

為了使邊緣計算節點進行神經網絡計算，同時避免上述兩種方式的現有問題。本文提出了一種創新性地解決方案，在確保計算結果準確性的同時減輕服務器原計算負載與傳輸延遲，即對深度神經網絡模型進行可分離式拆分。根據不同節點設備的網絡環境與硬件性能瓶頸，動態分配計算任務，其它部分計算任務則通過網絡傳輸由中心服務器進行完成。從而充分利用大批移動設備的空閑計算力，使邊緣設備得到利用，同時降低傳輸延遲，減輕服務器的負載壓力。

2 模型分析

本文對Roofline模型進行改進，選取神經網絡模型作為分析對象。結合節點設備自身性能以及網絡環境，分析設備在網絡計算過程中產生的計算與通信開銷，進行動態計算任務分配。

2.1 節點設備與網絡模型的性能評估

神經網絡模型與節點設備需要相互“配合”，才能發揮各自的性能優勢。因此不僅需要對節點設備進行分析，還需要對網絡模型進行性能評估。伯克利大學并行計算實驗室的Williams和Patterson提出了Roofline模型，該模型可將復雜的性能問題進行可視化描述從而進行相關的性能評估[12]。Roofline模型指出計算設備的性能指標主要有兩點：①每秒浮點運算最大次數π(單位FLOP/s)，指的是系統每秒內所執行的最大浮點運算次數。②內存帶寬上限M(單位 Byte/s)，指的是系統每秒可進行內存交換的字節數最大值[13]。模型同時提供了評估網絡模型性能的指標：①計算量O(單位FLOAPS)指模型進行一次完整的輸入計算所產生浮點計算總數。②內存訪問量T(單位 Bytes) 指模型進行一次完整的輸入計算能夠達到最高的內存交換量，亦稱作空間復雜度。③計算密度I(單位 FLOP/Byte)：指模型的計算量與內存訪問量的比值，計算方式如式(1)所示

(1)

2.1.1 Roofline模型

提出Roofline模型的目的是為了能夠創建適用于共享內核系統的可視化模型。發展至今，該模型已被廣泛用來評估設備系統性能[14]。它表達出設備的內存帶寬與設備最佳性能之間的關系，節點設備實際可達到的最大浮點計算量F的計算方法如式(2)所示

(2)

當計算密度小于某一閾值Imax時，節點可達到的最大計算性能，受自身內存帶寬上限控制。當計算密度大于閾值Imax時，可達到的計算性能取決于系統的最大浮點計算性能上限π，其關系如圖1所示。

圖1 Roofline模型構

2.1.2 Roofline模型的擴展

由于原始Roofline模型一般研究的對象為單機平臺理論評估，并沒有考慮到節點設備在實際應用中與外部機器進行數據通信占用系統性能的情況。為了評估因數據通信產生的影響，本文對傳統Roofline模型進行改進，引用新的參數指標：①數據通信帶寬Mc(單位BPS),指設備進行數據通信時單位時間內傳輸的數據量。②網絡傳輸字節數N(單位Byte)，指設備進行一次數據網絡通信傳輸的字節數。③通信計算密度Ic(單位 FLOP/Byte)指設備在單次網絡通信中設備總計算量與通信字節數的比值，其計算方式如式(3)所示

(3)

節點設備在進行數據通信時，可達到的最大計算性能F計算公式如式(4)所示

(4)

由式(4)可看出，當系統應用的通信計算密度小于特定閾值Icmax時，系統的達到的最大計算性能由通信帶寬主導。當通信計算密度大于閾值Icmax時，可達到的最大計算性能受限于該系統的浮點計算性能上限π。在原始Roofline模型基礎上進行改進，通過將通信計算密度與數據通信帶寬替換原始模型中的平臺計算密度與存儲器帶寬可以得到新Roofline模型如圖2所示。

圖2 新Roofline模型

2.2 模型相關分析

2.2.1 計算分析

本文選取卷積神經網絡作為分析對象，卷積神經網絡主要包括卷積層、線性整流層、池化層、損失函數層[15]。不同神經網絡模型之間結構的主要區別在于計算層的數量以及排序不同。卷積層是卷積神經網絡最重要的一環，并且它數據計算量占據了整個網絡計算量的絕大部份，因此以卷積層為例并進行著重分析，其它層的計算方法與卷積層計算方法類似將不詳細介紹。卷積層的結構如圖3所示。

圖3 卷積層解析

從圖3中可看出，卷積層的輸入參數：Hn為輸入的高度，Wn為輸入的寬度，常規計算中有Hn=Wn，Dn為輸入的深度。卷積核的計算參數包括：Fh為卷積核的高度，Fw為卷積核的寬度，常規計算中Fh=Fw，Fd為卷積核的深度，默認卷積核深度與輸入核深度相同，卷積核個數為N。單層卷積的輸入參數量Tn如式(5)[16]所示

Tn=Hn*Wn*Dn

(5)

卷積核的總參數量Fn如式(6)所示

Fn=Fd*Fh*Fw*Fd*N

(6)

單層卷積總計算開銷公式Cn如式(7)所示

Cn=Hn*Wn*Fh*Fw*Fd*N

(7)

單層卷積產生的內存訪問開銷Mn滿足式(8)

(8)

卷積神經網絡完成一次前向傳播總計算量Ctotal，總內存訪問量Mtotal滿足式(9)、式(10)

(9)

(10)

2.2.2 通信分析

為了簡化模型，我們不考慮內存之間，或網絡波動產生的延遲。為了確定計算中的動態參數值，編寫一個簡易的“彈球準則”腳本來進行對網絡通信帶寬的測量[17]。在測試中，節點設備發送指定固定大小的通訊消息至中心服務器，服務器收到消息后回復同樣大小的消息。節點設備通過計時器獲取從發送消息到接收回復消息的時間T，消息字節大小為S，通信帶寬為Mc，其計算方法如式(11)所示

(11)

假定第N層卷積層為任務分割層，則需要在完成卷積操作后將該層的計算結果進行數據傳輸。則該傳輸數據量大小TDn如式(12)所示

(12)

其中，Hn+1為完成第N層卷積層的輸出數據尺寸，Dn+1為輸出數據的深度，其中4 Bytes為矩陣中單位值所占大小。

卷積神經網絡模型完成一次完整的前向傳播計算傳輸的總數據量TDtotal滿足式(13)

(13)

數據通信效率更多依賴于網絡帶寬，若計算數據量較大時，數據通信往往更容易成為設備平臺的性能瓶頸。

2.2.3 模型綜合分析

為了能夠綜合性評估設備運行模型的性能，同時考慮節點設備的計算開銷與通信開銷。結合原始Roofline模型與新Roofline模型，構建全新的三維模型，如圖4所示。借助新模型可以更明顯觀察出計算密度與通信計算密度對計算平臺浮點運算瓶頸產生的影響。新模型主要參數包括浮點計算量、存儲器帶寬、通信帶寬、計算密度、通信計算密度。

圖4 Roofline三維模型

從圖4中可看出在不同計算密度以及不同通信密度條件下，系統可達到的最大運算性能。X軸代表計算密度，Y軸代表通信計算密度，Z軸代表設備可達到的計算性能。系統進行一定卷積計算任務時，若通信計算密度固定不變，伴隨計算密度的提升，系統的運算性能隨之增加。同時，若計算密度不變，改變通信計算密度大小，系統的運算性能也將改變。如果當前應用的計算密度很大時，整個平臺性能可達到的性能上限將受到通信密度的制約，此時對數據通信方面的優化對平臺產生的影響遠比優化計算密度產生的影響大的多。當計算密度與通信計算密度分別各自達到特定值時，計算平臺才能充分發揮其最大計算性能。

結合網絡模型的計算量分析、數據通信量分析以及系統自身性能參數，可適應性分配給計算設備相應的計算任務。假定設備自動分配k層計算任務，完成第n層卷積計算時可達到的浮點計算性能fn如式(14)所示，設備完成計算任務時間記為TCn。在獲取每層計算峰值性能后，可預估出設備完成各層計算任務的時間以及完成一次完整模型計算所需時間TCtotal如式(15)所示，從而進行任務分配，但設備信息或設備環境發生變化時將自動重新評估分析

fn=Min(π,M*I,Mc*Ic)

(14)

(15)

相比于傳統模式服務器運行全部計算任務，利用設備節點計算大大減少了服務器的運行負載，內存訪問以及運行時間。服務器減少的計算負載量CS如式(16)所示

(16)

服務器減少的內存訪問量MS如式(17)所示

(17)

網絡數據通信減少的傳輸量TD如式(18)所示

(18)

2.2.4 系統運行分析

當邊緣設備接收到計算指令，結合自身硬件資源與當前網絡狀態，借助Roofline三維模型進行性能評估，若當前性能足以支持完成對應層計算任務，則進行下一層，否則返回上一層，并以該層數作為任務劃分層。若網絡環境發生較大波動時則將重新進行性能評估與任務分配，以確保已分配任務的可執行性。任務完成后，將分層信息與參數傳輸至服務器。

服務器接收到信息后進行下一步處理，若服務器為單節點模式架構，其余任務將直接由該節點進行完成。

若服務器為多節點分布式架構，則需先根據Roofline模型評估各個從節點的實際計算力并進行排序。每當主控制節點接收到計算指令后，將掃描各個從節點的工作狀態，若從節點存在空閑節點則按照先前順序進行任務分配，若不存空閑節點則借助AP哈希算法進行任務調度分配，盡量使各個從節點均衡負載，避免某個服務器壓力過大情況的發生。

2.3 算法分析

每當系統設備接收到計算指令，進行計算前，首先獲取系統相關參數，測試網絡狀態，并將設備閑置時間作為分配任務的時間上限Free_T，結合分析深度網絡模型，進行任務分層劃分[18]。具體的分配步驟如下：

(1)獲取當前狀態設備系統，模型信息，并分析相關參數，模型層數以及每層計算層的計算量與內存訪問量；

(2)系統與服務器之間進行數據通信，獲取當前網絡實時帶寬；

(3)根據相關公式計算出系統計算以及通信計算密度，并確認當前狀態下系統在各層所計算時所能達到的最佳浮點性能(步驟(1)～步驟(3)參考算法1)；

(4)根據每層的參數以及系統可達到的計算性能可得出每層消耗時間Ti；

(5)將每層的耗時累計，若到達N層時，耗時累計超過Free_T，則返回N-1層；

(6)將第N-1層作為界限進行任務劃分(步驟(4)～步驟(6)參考算法2)；

(7)若下一次計算時，則返回步驟(1)重新進行任務劃分。

算法1：計算與數據通信分析偽代碼：

Data calculation and communication analysis of equipment

Get the System.info.

Get the Layer.info.

Time_begin = sys_gettime();

While{

length = Recv(Client_socket, buffer, Data 0);

Send_num++;

Time_end = sys_gettime ();

Time[send_num] = (Time_end - Time_begin)/2;

Mc[send_num] = Data /Time[send_num];

If(send_num == 20):

Break;

Send(Client_socket, buffer, Data, 0);

}

I ← O_Pre/T; /* Operational intensity*/

Ic ← O_Pre/N; /*Communication arithmetic intensity*/

If (M*I>π) & (Mc*Ic>π):

F←π;

Else:

F←Min(M*I, Mc*Ic);

Return F

END

算法2：計算任務劃分偽代碼：

Data calculation and communication analysis of equipment

Get the System.info.

Get the Layer.info.

Get the equipment free time.

For N = 0→Layer:

LayerTime[n]← O_Pre/F;

If Sum(LayerTime)<=Free_T:

N++;

Else:

Break;

END

分布式服務器主控制節點收到新的計算請求，對本次任務進行分析，結合集群中可利用的計算資源，進行任務分配。具體計算步驟如下：

(1)服務器控制節點通過廣播，對所有服務器進行檢測，獲取可用的從節點資源集合List。每個從節點屬性涵括其GPU算力，最大帶寬，節點狀態等。如果List為空，則繼續步驟(1),否則進入下一步；

(2)為了能夠確定最優分配方案，需先對List內各個節點借助Roofline模型計算出實際計算能力，并依照結果進行排序(步驟(1)～步驟(2)參考算法3)；

(3)接下來分情況討論，若存在多個空閑服務器節點，則依照排序將任務分配給算力最高的節點。若只存在一個空閑服務器節點，則直接進行分配。若無處于空閑狀態的節點，則借助APHASH算法進行分配(參考算法4)；

(4)配置執行腳本開始執行。

算法3：計算服務器節點實際計算力并排序：

Calculate computing power of the server node and sort

Get the Server.info.

Get the Layer.info.

I_Server←O_Other/T;

For(i=0;i

M_Server ←List[i].[BandWith]

If (M_ Server *I_ Server > π)：

List[i].[Computer]←π

Else:

List[i].[Computer]←M_ Server *I_ Server;

QuickSort(List,left,right)

Return List

END

算法4：服務器節點任務分配：

Task assignment of Server Node

Get the Server.info.

List_State = False

If (List.length == 1):

UseNode = List[0]

Else:

For(i=0;i

If (List[i].state == Free)：

UseNode = List[i]

List[i].[Computer]←π

If (List_state == False):

UseNode←APHash(List)

Return UseNode

END

3 實驗分析

本次實驗設備由中心服務器與邊緣節點設備構成，因由實際條件限制，服務器采用的是單節點模式架構。實驗設備信息如下：中心服務器GPU為GTX1080，8 G顯存；邊緣節點設備采用的是樹莓派3B型，其CPU采用的是四核1.2 GHz Broadcom BCM2837 64位處理器 1 G 內存。實驗環境，樹莓派編譯環境采用的是Tensorflow 1.7，服務器采用的是Tensorflow 1.3，IDE工具為Anaconda-Navigator，本文采用LeNet-5以及OpenPose神經網絡模型，通過改變任務計算量、網絡環境進行對比實驗分析。

3.1 LeNet-5結果及分析

為了防止模型計算任務過大從而導致系統宕機，首先對結構簡單、計算量較少的LeNet-5進行分析，LeNet-5網絡具體參數見表1[19]。

表1 LeNet-5網絡具體參數

從表1可得出完成一次LeNet-5網絡前向傳播計算開銷約為13.88 MFLOPS,內存訪問量約為13.45 MB，因此可計算出該網絡模型的計算密度約為1.03 FLOP/Byte，根據官方文檔所示，樹莓派3B型的內存帶寬M為1 GB/s。π為24 GFLOPS從表2可得出系統進行數據傳輸速率基本不變，相對穩定，限定傳輸速率平均在8 MB/S，系統數據通信密度約為38 FLOP/Byte，由此可見在本次LeNet-5計算過程中，系統性能受到雙條件約束：①計算任務的內存限制；②系統通信帶寬限制，因此可提升計算任務工作量與復雜度，并對網絡通信環境進行改善。

實驗以200張圖片作為一個測試單位，計算完成后并以二進制文件進行數據傳輸。由于實驗網絡中采用的每一層計算輸入輸出矩陣尺寸基本不變，其數據量在輸入圖片尺寸相同的情況下相對固定，因此本次計算數據量的大小取決于設備本身采集圖片的清晰度大小。實驗完成相應分層任務后進行數據通信的結果見表2。

表2 數據通信結果

3.2 OpenPose結果及分析

通過實驗發現，邊緣節點設備可以完成對于簡單網絡模型計算分層處理，于是我們通過在系統上運行OpenPose網絡進行分析[20,21]。因OpenPose網絡過于復雜，本實驗僅對模型前26層進行分析研究，OpenPose網絡具體參數見表3。

表3 OpenPose網絡具體參數

從表2可得出完成一次OpenPose網絡前向傳播計算開銷約為31 GFLOPS,內存訪問量約為191.4 MB，因此可計算出該網絡模型的計算密度約為163 FLOP/Byte。π為24 GFLOPS從表2可得出系統進行數據傳輸速率基本不變，相對穩定，由于網絡環境限制，傳輸帶寬最高保持在速率25.5 MB/S，系統數據通信密度約為166 FLOP/Byte，由此可見在本次OpenPose計算過程中，系統的計算性能受通信帶寬限制，提高網絡帶寬是當前提高系統性能的有效辦法。以單張圖像為例，不同分割層完成計算后進行數據通信傳輸時間如圖5所示。

從圖5中可看出，伴隨劃分層數的深入，節點設備的通信傳輸時間不斷減少，最多甚至可減少90%以上。對于設備系統來說減少了系統通信開銷，釋放了更多的系統資源。單個節點通信時間減少產生的影響并不顯著，但若應用到大規模節點設備中并采用分布式服務器架構，則將大幅度降低網絡通信負載。

圖5 通信時間

3.3 綜合對比研究

通過將系統置于不同網絡環境下并搭載不同神經網絡模型進行實驗，可分析出網絡環境質量的好壞以及任務計算量的大小對于系統性能造成的影響。

系統搭載LeNet-5模型時，在進行不同計算層劃分時系統實時性能如圖6所示。

圖6 系統運行LeNet-5性能

搭載OpenPose模型時，在不同層進行切分時系統達到的實時性能如圖7所示。

圖7 系統運行OpenPose性能

結合圖6、圖7可看出，在不同的計算任務下，節點設備性能表現截然不同，若在網絡環境良好狀況下，計算任務的計算量越高，則系統內存訪問量越高，節點實時性能隨之提升，直至達到峰值。因此，邊緣節點設備則可結合當前網絡通信環境，以及自身可達到的性能峰值對計算任務進行動態劃分。

若在網絡環境較差的情況下，任務的高數據計算量已經無法提升系統的性能瓶頸，因此節點設備將自適應地選擇數據傳輸量相對較少的計算層進行分離。若邊緣設備出現無法連接網絡情況，則自動停止分配計算。

設備根據自身硬件性能與不斷變化的網絡環境，動態分配邊緣節點計算任務，有效減輕服務器負擔。以搭載OpenPose模型實驗為例，設備搭模型，伴隨網絡模型分離的深入，服務器的負載逐漸降低，更多的時間、空間資源得到釋放。系統設備分配到的計算層數越多，服務器的所需承受壓力越少。實驗中服務器GPU負載減少量具體情況如圖8所示。

圖8 服務器負載減少量

4 結束語

本文對傳統的邊緣節點計算模式進行改進，不再將全部的計算任務交付服務器進行計算，從而避免邊緣設備的計算資源與網絡通信的浪費。通過使用全新的方法，基于邊緣設備系統性能以及設備網絡環境對神經網絡模型進行合理的動態分離，充分利用了設備系統的閑置性能，減輕了服務器的負載壓力，提高了整個網絡系統的兼容性與計算通信性能。本文以卷積神經網絡為例，通過對性能評估模型的改進對設備系統、通信環境和計算任務進行定量評估。同時此模型通用適合其它情境下的計算分析，具有一定的實際通用性。

在接下來的工作中，仍需要對整個系統的運行進行監測，同時考慮系統自身物理損耗造成的性能影響并進行算法改進，以便有效改善應用系統，進行更為準確的評估分析。

基于邊緣節點的深度神經網絡任務分配方法

0 引 言

1 相關工作

2 模型分析

2.1 節點設備與網絡模型的性能評估

2.2 模型相關分析

2.3 算法分析

3 實驗分析

3.1 LeNet-5結果及分析

3.2 OpenPose結果及分析

3.3 綜合對比研究

4 結束語

0 引言