面向無人裝備的智能邊緣計算軟技術分析

2023-10-07 02:25:30張凱歌盧志剛聶天常李志偉郭宇強

兵工學報 2023年9期

張凱歌, 盧志剛, 聶天常, 李志偉, 郭宇強

(北方自動控制技術研究所, 山西太原 030006)

0 引言

神經網絡在計算機視覺[1]、自然語言處理[2]、強化學習[3]等方面的應用逐漸走向成熟。尤其是計算機視覺方面,深度神經網絡已經成為目標檢測、目標識別、圖像降噪等問題的主要解決方案。這得益于深度神經網絡模型在網絡結構上的不斷完善。具體來說,殘差網絡的出現使得神經網絡的深度不再受到梯度爆炸和梯度消失的限制[4];CSPNet的出現解決了梯度信息重復導致的計算量龐大的問題[5];注意力機制的出現提升了神經網絡對關鍵信息的敏銳度[6];自注意力和transformer的引入使得深度神經網絡模型的特征提取功能擴大到范圍更廣的局部-全局特征間的聯系[7]。模型結構復雜度的提升往往伴隨著更大的算力需求,使得深度神經網絡模型的部署被局限在TPU或GPU。例如,在TPU或GPU上訓練一個ResNet典型目標識別網絡只需不到10 min,推理可以實現實時處理[8],而這對于嵌入式設備來說幾乎無法實現。在這種情況下,一系列對計算和內存資源要求不高的方法成為研究熱點[9-10]。這種在邊緣端實現智能技術的方法稱為智能邊緣計算。

隨著智能化、無人化裝備技術的發展,智能技術在無人裝備上的應用成為實現無人裝備戰斗力生成的關鍵。然而,受到體積、質量、能耗等的約束,無人機、無人車、巡飛彈等無人化裝備采用的硬件算力受到極大限制,使得大規模深度學習模型的應用成為挑戰。而無人裝備智能化的發展卻日益迫切,對智能化計算技術提出了部署在低功耗、小體積的嵌入式平臺等資源受限條件下運用的需求,主要有:模型計算量要小,便于實現實時處理;模型參數量要少,便于在邊緣端部署;模型性能要優,在滿足輕量化的條件下易于訓練。鑒于上述原因,智能邊緣計算軟技術得到了廣泛關注,分析其實現方法和計算性能,對深度學習模型在智能無人化裝備的應用具有重要意義。

本文的主要貢獻有:

目前邊緣計算方面的絕大多數文獻包括技術類和綜述類文獻,對智能化算法的研究往往側重某項或者某類技術,缺乏面向應用的系統性分析。本文對近年來智能邊緣計算相關技術進行整理分析,提出一種從模型設計、訓練,再到部署的全棧式智能邊緣計算應用框架,即通過模型壓縮方法來設計輕量化的神經網絡模型,通過引入知識蒸餾的方法對輕量化模型進行有效訓練,通過參數量化來加速模型推理時間。

目前大多數邊緣計算綜述性文獻介紹過于宏觀,或者過于偏向某單項技術,且對近兩年來該方向的工作介紹分析不足。本文在分析得出上述框架基礎上增加了對近兩年相關技術的整理,從定性和定量角度對各類方法的優缺點進行了總結,并從實際應用的角度開展了分析研究。

1 智能邊緣計算軟技術

近年來,實現智能邊緣計算的軟方法有多種,如卷積核分解法,使用1×N和N×1卷積核代替N×N卷積核;深度壓縮方法,包括模型剪枝、參數量化、哈弗曼編碼等;還有奇異值分解、低精度浮點數保存等方法。智能邊緣計算軟技術主要利用模型設計、壓縮和加速計算理念,從模型算法層面實現深度神經網絡在邊緣設備上輕量化設計與部署的目標,本文主要采用的方法有模型剪枝[11]、知識蒸餾[12]、參數量化[13]等技術。圖1對本文重點介紹的智能邊緣計算軟技術進行了匯總。所涉及的技術有:OBD[14]、Greg[15]、OBS[14]、DepGraph[16]、RMP[17]、ASS[18]、Hrank[19]、CRD[20]、HSAKD[21]、Attention transfer[22]、RCO[23]、semantic calibration[24]、FSP[25]、IRG[26]、Feature embedding[27]、在線蒸餾[28]、自蒸餾[29]、無標簽蒸餾[30]、robust quantization[31]、BRECQ[32]、Adaround[33]、EIAOI[34]、STE[35]、QFT[36]、quantization noise[37]。表1對25類智能邊緣計算軟技術的優點和缺點進行了概括總結。

表1 常見模型壓縮方法的優點和缺點

圖1 智能邊緣計算技術匯總

1.1 采用模型剪枝的輕量化神經網絡構建方法

模型剪枝旨在減少網絡模型的參數數量和計算復雜度。通常的手段是將特定數量的參數置為零實現,根據置零參數的分布可分為結構剪枝[38]和非結構剪枝[39]。非結構化剪枝的特點是顆粒度較細,但多為隨機權重剪枝,圖2為非結構化剪枝的示意圖,剪枝掉了與神經元A相關的權重。剪枝后的權重是一個稀疏矩陣,因此可編碼為數組格式來減少存儲空間。常見的編碼格式有絕對位置編碼和相對位置編碼。絕對位置編碼由3個數組構成,分別表示非零權重的值、權重的絕對列位置和權重的列索引。相對位置編碼由兩個數組組成,分別存儲非零權重的值和相對位置。

圖2 權重剪枝原理圖

如何選取需要被剪枝的權重是非結構化剪枝的核心。最先提出的非結構化剪枝方法是LeCun提出的最優神經損失(OBD)[14]。該方法用海森矩陣來表示優化目標。隨著“早停(Early Stop)”等優化方法的出現,參數的梯度不再以零結束。針對這個問題,Laurent等提出了針對早停模型的剪枝方法,將優化參數控制在一個較小的浮動范圍,并通過多步優化法和正則項來控制參數變化幅度[40]。

非結構化剪枝的方法由于稀疏的特征往往需要額外的軟件包和硬件支持,而結構化剪枝多為粗粒度剪枝,不需要這些額外的支持[11]。最典型的結構化剪枝方法為基于通道的剪枝[41],如圖3所示,其中B為需要被剪枝的特征圖矩陣,A為B的上一層特征矩陣,Q為需要被剪枝的卷積核矩陣,C為B經過卷積層Q后輸出的矩陣,虛線部分和Q、B中的間隙代表被剪枝的部分。假如將特征圖B中間的兩個通道移除,卷積濾波器Q對應的卷積通道將被移除,再將生成特征圖B的卷積核對應的通道移除,這樣卷積神經網絡的參數量將顯著減少。這體現在圖3中神經網絡的空洞部分。該算法的目的是減少特征圖矩陣B的通道數量,從而減少計算量,同時保證特征層C的輸出在剪枝前后的表征意義沒有太大差別。這種技術通過刪除不重要的通道來實現模型壓縮和加速計算的效果。

圖3 通道剪枝原理圖

結構化剪枝的關鍵在于確定需要被剪枝的通道和稀疏度,Li等提出了一種確認稀疏度的方法,采用馬爾可夫過程建模從較小剪枝稀疏度向較多剪枝稀疏度轉移的過程,在每次優化的過程中更新馬爾可夫過程的參數,從而確定需要保留的通道數[42]。Lin等利用人工蜂群算法,通過比較剪枝前后的網絡性能確認各層通道剪枝比例的離散值,最終確認各層需要被剪枝的通道數量[18]。采用以上方法確認稀疏度后,需要確認哪些通道可以被剪枝。Lin等根據圖像輸入神經網絡后各通道特征圖的秩確認需要被剪枝的通道,特征圖的秩越大代表該通道越重要[19]。Fang等針對剪枝CNN、RNN、GNN等不同網絡結構提出了通用的剪枝技術,構建依賴圖來確定不同層之間的依賴關系,再根據該圖來完成剪枝[16]。Shibu等利用進化算法優化隨機生成的向量,再將該向量送入兩層全連接層來生成通道剪枝后網絡的權重[17]。

1.2 基于知識蒸餾的輕量化模型訓練方法

在當前預訓練模型越做越大的時代,通過知識蒸餾的方法對剪枝的模型進行訓練,能夠得到性能更優的模型。遷移學習是機器學習的一個分支,就是把已經訓練好的模型參數(可理解為模型學到的知識)遷移到新的模型來幫助新模型訓練,從而加快并優化模型的學習效率,使新模型不用從零學習。教師-學生網絡是遷移學習的一種。學生網絡的結構簡單,便于部署在邊緣設備上。教師網絡的學習泛化能力強,可以有效提取所需要的特征。知識蒸餾就是在模型精度不大幅減小的情況下,設計一個小的學生網絡,通過學習實現大型教師網絡的功能。大型網絡相對于簡單網絡來說通常有比較直觀的精度優勢。然而這種優勢不一定是兩種網絡間的架構差距造成的,而是訓練難度之間的差距造成的[43]。這是知識蒸餾能將大型網絡壓縮成一個小型網絡的前提。知識蒸餾使用特定的輕量級網絡來模仿訓練好的教師網絡,通過提取教師網絡激活層的軟輸出來獲取模型的暗能量,從而有效提升模型的性能[44]。根據遷移的激活層位置,可以將知識蒸餾分為基于反應的知識蒸餾、基于特征的知識蒸餾以及基于關系的知識蒸餾。根據蒸餾發生的階段可以劃分為在線蒸餾、離線蒸餾和自蒸餾。

1.2.1 基于反應的蒸餾

基于反應的蒸餾是指學生網絡根據教師網絡最后一個激活層的輸出來學習的技術[44]。傳統神經網絡經過softmax的輸出更接近one-hot編碼,即輸出的分布為硬分布。最后一個激活層的輸出由于還沒有經過softmax層,分布為軟分布,攜帶著更多有價值的信息,更有利于學生網絡的訓練。獲得激活層的輸出后,可給softmax函數引入一個溫度T來控制分布的軟化程度,改進后的函數為

(1)

式中:qi為軟化后的softmax層在第i個維度的輸出;zi為輸入softmax層第i個維度的logits。

學生網絡的損失函數通常由兩部分組成,學生網絡軟分布與教師網絡軟分布的交叉熵損失,以及學生網絡的輸出與真實值之間的交叉熵損失。訓練過程中使用引入T的softmax函數來更新參數,推理過程則使用傳統的softmax函數來使分布z接近one-hot編碼。這種基于反應的知識蒸餾方法的缺點是過于注重最后一層激活層的輸出,略過了對中間層的學習,因此往往受限于教師網絡的特征提取過程[45]?；诜磻闹R蒸餾方法主要有Dilip等提出的CRD,該方法針對知識蒸餾后學生網絡丟失部分特性的問題,根據圖片旋轉后的特征差異訓練學生網絡,有效避免了特征的丟失[20]。

1.2.2 基于特征的知識蒸餾

不同于基于反應的方法,基于特征的蒸餾方法不僅關注最后一個激活層的輸出,也關注教師網絡中間線索層的輸出[46]。通過建立學生網絡中間層和教師網絡線索層之間的關系,使學生網絡更加接近于教師網絡。需要注意的是,學生網絡被選取的中間層數過多往往會導致精度下降。學生網絡被指導層向教師網絡線索層學習的損失函數為

(2)

式中:L(Wg,Wr)為基于特征知識蒸餾需要最小化的損失函數值,Wg為教師網絡輸入到需要被蒸餾的線索層的所有神經網絡參數,Wr為教師網絡與學生網絡之間維度轉換的網絡結構參數;Wh為學生網絡輸入到被指導層的神經網絡參數;uh和vg分別為教師網絡在輸入為x、參數為Wh時在線索層的激活值,以及學生網絡在輸入為x、參數為Wg時在被指導層的激活值;r為vg經過添加的參數為Wr的卷積層或全連接層的輸出。由于被指導層和線索層的大小不一定相同,需要在被指導層之后臨時添加一個全連接層或是卷積層來將被指導層的大小轉變為線索層的大小(見圖4)。

圖4 基于特征知識蒸餾的示意圖

基于特征的知識蒸餾需要先定義好匹配的線索層和被指導層,通過梯度下降法來更新學生網絡的參數,再對最后一個激活層的輸出做基于反應的知識蒸餾,來更新其他網絡層的參數。Zagoruyko等在式(2)基礎上添加了線索層和被指導層注意力特征圖之間的L2損失,將注意力機制應用到知識蒸餾[22]。Jin等提出了基于路徑約束線索的知識蒸餾方法[23]。

Chen等提出了跨層知識蒸餾方法,通過注意力分配機制自適應地給學生網絡分配教師網絡特征[24]。盡管基于特征的知識蒸餾在訓練過程中展現出了良好的性能,但如何高效地選擇相對應的線索層和被指導層仍然需要進一步研究[46]。Yang等提出了HSAKD方法,將網絡的輸出特征對圖像的不同旋轉角度進行區分,再逐層進行差異學習,加深了模型對知識的理解[21]。

1.2.3 基于關系的知識蒸餾

基于關系的知識蒸餾將教師網絡內部不同激活層之間的聯系考慮在內,學生網絡通過模仿這種層間關系來提升精度[25]。將層級聯系轉化為特征矩陣的方法為計算求解過程流(FSP)矩陣:

(3)

LFSP(Ws,Wt)=

(4)

式中:N為輸出樣本x的個數;LFSP(Ws,Wt)為基于FSP矩陣的知識蒸餾損失函數,Ws為學生網絡權重,Wt為教師網絡權重;λi為自定義的權重。訓練的流程為首先訓練好教師網絡,根據式(3)計算出學生網絡和教師網絡的FSP矩陣,再根據式(4)優化學生網絡,最后做參數微調。

除了用FSP來表示特征層之間的關系,Liu等在2019年提出用個例關系圖的方法表示個例特征、個例特征之間的聯系以及特征空間在層與層之間的轉換[26]。Chen等提出基于流形學習的知識蒸餾方法[27]。Passalis等用概率分布來表示不同層間的關系[47]。

1.2.4 知識蒸餾的其他算法

在線蒸餾是指教師網絡和學生網絡同時進行訓練,其優勢在于可以同時訓練多個學生網絡組成學生集體,結果往往優于離線蒸餾[28]。在線蒸餾教師網絡和學生網絡的損失函數都為真實值與預測值之間的交叉熵損失加上教師網絡和學生網絡softmax值之間的Kullback-Leibler divergence(KL散度)。自蒸餾是一種特殊的在線蒸餾,學生網絡被選取為教師網絡的一部分。自蒸餾將復雜教師網絡分成若干塊,每一塊作為一個學生網絡訓練[29]。程祥鳴等提出了一種無需標簽數據即可完成知識蒸餾的方法,學生網絡通過混合樣本數據增強直接學習教師網絡表征信息,訓練的學生網絡比一些大型網絡的識別效果要好[30]。除了用于模型壓縮,知識蒸餾也可以用來對跨類別特征的模型進行遷移學習[48]。最近知識蒸餾已經被用于常見的YOLOv3[49]和YOLOv4[50]目標檢測算法并取得了良好的效果。

1.3 基于參數量化的模型運算加速方法

參數量化旨在通過將浮點型數據整型化來簡化運算的時間和空間復雜度。參數量化根據量化發生的階段可以分為訓練中量化(QAT)[51]和訓練后量化(PTQ)[52]。QAT參數量化發生在訓練階段和推理階段,PTQ只發生在推理階段。PTQ方法最常見的是將float32的數據轉化為int8的數據來進行模型的正向運算。這里以全連接層的正向運算為例子,說明參數量化的過程。參數的量化滿足式(5):

r=S(q-Z)

(5)

式中:r為數據的浮點型表示;S相當于浮點型空間與整型空間的尺度比,是一個與r同類型的浮點型數據;q為數據量化后的整型數據;Z為整型空間的一個偏移量。對于兩個相乘的特征圖和權重矩陣,整個前向過程可用式(6)表示:

(6)

計算兩個int8相乘后的結果需要用int32的整型數據來表示,因此需要一個將該數據仿射到int8數據類型。整個量化的過程如圖6所示。

圖6 深度學習網絡參數量化前后數據流對比

QAT量化的代表方法是直通估計器(STE),該算法將參數量化需要的比例和偏置項加入到模型的訓練過程,由于量化函數的反向傳播梯度為0,需要對量化函數進行近似。STE將量化函數的梯度近似為1,有效解決了訓練時梯度消失的問題[35]。

除了以上量化方法外,Jacob等使用量化的權重和激活值實現了只使用整數的前向運算,并且以STE為基礎估計的梯度進行反向傳播運算[34]。Fan等在此基礎上提出了基于噪聲的模型壓縮方法,把壓縮的精度進一步提升[37]。針對不同的量化數據類型,Chmiel等提出了robust quantization方法,該量化方法對不同量化步長不敏感,引入Kurtosis損失函數項來使訓練的模型魯棒性更強[31]。Nagel等提出了一種不同于以往量化為最近整數的策略,使用AdaRound方法自適應于數據和任務損失[33]。Li首次提出了一種基于int2的PTQ方法,該方法通過重建神經網絡單元以及混合精度的方法,使量化的精度和速度進一步提高[32]。針對目前大多數PAT量化技術只能優化一種參數如步長、偏置等,Finkelstein等提出了QFT,這是一種可以同時優化多種參數的PAT方法,該方法能在誤差不大幅降低的情況下有效加速前向計算的時間[36]。

2 輕量化神經網絡模型性能計算分析

自動目標識別是無人裝備智能化的一個顯著特征和重要功能。以目標識別為例,采用本文討化的智能邊緣計算方法對當前主流神經網絡模型進行輕量化模型剪枝、知識蒸餾、參數量化處理,對各模型大小、計算效率以及性能進行分析。首先,以VGG-16為初始網絡,采用各種剪枝方法進行剪枝,在數據集CIFAR和ImageNet上測試,計算各模型剪枝技術的精度、速度以及參數量的平均值(見表2)。

表2 模型剪枝方法性能對比

由表2可以看出,各模型剪枝方法均有較明顯的加速效果。其中,L1-GAP、APoZ-GAP、ThiNet和ThiNet-T方法在減少參數數量上都有良好的表現,參數減少到十分之一仍然能夠保持良好的性能。但是,通過對ThiNet和ThiNet-T方法的對比也可以看出,模型壓縮到一定程度后,如果繼續壓縮,則會導致明顯的性能下降,如ThiNet和ThiNet-T方法的Top-1和Top-5的誤差增加率分別從1%和0.52%躍升至9%和6.47%。TE方法采用卷積核裁剪的方法顯著提高了計算效率,但是參數量減小上不是很明顯。這是因為卷積采用共享卷積核方式并行處理,并進行滑窗濾波,卷積核本身所占資源并不大,而TE方法裁剪的卷積部分在整個網絡參數中占比較小,但相比全連接網絡的固定計算量,卷積并行處理的計算資源需求大,因此計算效率仍然有較明顯的提升。Greg提出了一種生長正則化(growing regularization)的自動模型參數剪枝方法,從流程角度對剪枝進行了優化,取得了突出的加速效果[15]。之后,EarlyCroP將結構化剪枝方法與非結構化剪枝相結合,最終精度有所提升,但加速倍速較Greg略有下降。DepGraph考慮了各權重之間的依賴關系,利用依賴圖的方式綜合考慮剪枝對模型的影響,有效減少了剪枝后精度丟失的問題,取得了較好的綜合效果,參數數量減少了一個數量級,在減少算法空間復雜度上有良好的體現,誤差率的增加也較小[16]。進一步分析Greg和EarlyCroP結果和剪枝所用的技術可以看出,模型剪枝的結果和產生的效果與采用的參數重要性衡量方法密切,良好的參數剪枝技術的設計能夠從應用角度出發,綜合考慮精度、壓縮比和計算效率,從而給出最優的模型應用設計方案。

表3為各模型壓縮后在CIFAR100數據集上的性能。其中:FT方法使用一種基于無監督學習的自動編碼器方法,實現了教師網絡和學生網絡之間的知識遷移,在模型大小只有教師網絡約三分之一的情況下實現了與教師網絡(72.34%)相近的精度(69.84%);NST方法通過對損失函數的設計實現對不同數據分布間差異(distribution discrepancy)的衡量,通過減小數據分布之間的差異實現知識的遷移;AB方法通過對激活函數的激活邊界進行分析,設計了基于激活函數輸出值的知識遷移方法,取得了較好的性能;CRD也是一種根據數據分布差異性而進行知識遷移的方法,不同于經典的數據分布度量距離KL差異性距離(KL-Diversity),該方法使用對比學習(contrastive learning)來保留更多結構信息對知識遷移的幫助,取得了更優的遷移效果,精度由教師網絡的72.34%到學生網絡的71.16%;最近的工作HSAKD在訓練時使用了額外的輔助分類任務對原有分類任務進行加強學習,并對中間層和最后層的網絡都進行對比學習的方法,大幅度減少了從教師網絡到學生網絡之間的特征丟失,進一步減少了模型蒸餾后的精度損失,取得了比教師網絡更加優秀的性能(教師網絡72.3%,學生網絡73.62%)。綜合上述分析可以看出,知識蒸餾技術減少的參數數量和時間取決于教師網絡和學生網絡的結構以及相應的訓練方法,在不大幅降低精度的情況下基本能夠實現對小模型的有效訓練/知識遷移。而且,通過對訓練方法的合理涉及,部分學生網絡模型的性能甚至能夠優于教師模型。

表3 知識蒸餾方法性能比較

表4列舉了參數量化方法的加速效果以及對模型精度的影響。其中:BWN方法僅將模型中的濾波器核進行二值化的參數量化處理,得到了2倍加速,誤差也有所增加;XNOR-Net方法同時對輸入參數和濾波器核進行了參數量化,顯著提高了加速效果,提高了58倍,同時也帶來了額外的精度下降,16%的Top-5誤差率增加;DQ方法針對圖像不同的輸入信息評估輸入信息的冗余程度,確定量化精度,從而建立了一種與輸入相關的神經網絡動態量化方法,在顯著提高加速倍數的同時將誤差率增加保持在較小的范圍,如表4中Top-5誤差增加率為2.8%;IntraQ方法針對合成圖像中的類間異質性問題設計了距離約束條件進行零輸入樣本網絡量化,取得了顯著的加速效果以及較低的誤差增加。BRECQ方法使用訓練后量化(Post-training Quantization)方法,第1次將模型量化的位寬(Bitwidth)降至INT2類型,顯著提升了加速倍數(加速29倍),同時保持了非常好的模型精度,如表4所示Top-5誤差增加率為1.06%。綜上可以看出,模型量化可以從模型本身和輸入數據兩方面著手,量化能夠直接有效提高計算速度,但也在一定程度上帶來誤差的增加,并且誤差增加因具體量化方法和實際問題而不同。

表4 參數量化方法對精度的影響

綜上分析,在實際中可以結合上述方法以及實際應用的需求,采用DepGraph等模型剪枝方法進行輕量化模型設計,采用HSAKD等知識蒸餾方法對模型進行有效訓練,減少剪枝方法對模型精度的影響,最后選擇BRECQ等合適的參數量化方法進一步加速計算,可在誤差率增加較少的情況下實現顯著的加速效果。

3 未來展望

無人化智能化技術的發展正在對未來戰場形態和兵器裝備產生著重要影響。其中,作戰指揮樣式由原來的集中式、中心化朝著分布式、無中心轉變,這種改變對武器裝備的端系統提出了更高的計算要求,也對智能邊緣計算技術的應用提出了更強的需求。未來,智能邊緣計算技術將在武器裝備智能化無人化發展的浪潮中持續受到關注,沿著多種技術途徑的方向持續發展。一是隨著對深度網絡可解釋性研究的深入,未來輕量化網絡可以不通過基于經典網絡的模型剪枝,而是直接進行輕量網絡的設計、訓練與部署,這是更有效便捷的方法;二是隨著軟技術中輕量化模型設計技術的不斷發展與成熟,研究基于異構資源的智能計算系統的優化將是提高邊緣計算性能的重要手段,其不僅需要軟件層面的系統優化,更要有軟件和硬件的協同設計;三是目前輕量化模型設計方法多基于傳統經典網絡的設計,對面向邊緣計算的新構型網絡的設計與研究還不足,是該領域的重要方向;四是知識蒸餾算法目前的學生網絡都是采用現有的輕量級網絡,還沒有能生成適合于特定教師網絡的學生網絡的方法,未來使用搜索算法等方法生成適合于本教師網絡的學生網絡是研究方向之一。圖7為未來研究趨勢的示意圖。

圖7 智能邊緣計算發展方向與趨勢

4 結論

本文對模型壓縮、知識蒸餾、參數量化等智能邊緣計算軟技術進行了系統分析,提出了一種從模型設計、訓練再到部署的智能邊緣計算應用框架,為基于深度學習的智能化技術在邊緣端的部署應用提供了一種可行的參考技術路線。

雖然利用目前的邊緣智能計算硬件(如Nvidia NX、華為Altlas200、寒武紀等)和本文提到的模型壓縮與加速方法能夠在一定程度上實現模型的部署,但是對于某些實時處理應用問題仍然存在一定的困難。例如,在嵌入式邊緣端實現多任務處理(目標檢測+識別+跟蹤)仍然比較困難,利用目前單一的嵌入式板卡很難實現。未來,將注重軟件硬件的協同加速設計,研究直接進行輕量化模型的設計與高效的加速方法,同時注重與底層硬件協同的算法優化,如并行處理、多線程資源分配、多處理器系統集成設計等,從軟件算法和硬件適應性相結合的角度加強算法在實際應用中的加速效能。

除此以外,目前大多數智能邊緣計算技術的性能測試工作只針對目標識別等問題和相關數據做了驗證,對其他諸多軍事領域的邊緣智能計算的應用問題研究不夠,如邊緣指揮計算架構等,下一步將進一步結合實際業務對邊緣計算在邊緣指揮、智能火控等相關領域的加速計算架構進行探索研究。