999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

考慮邊緣計算的輕量級網(wǎng)絡硬件優(yōu)化設(shè)計

2024-04-29 00:00:00鄒易奇
無線互聯(lián)科技 2024年3期

摘要:隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)的蓬勃發(fā)展,大量智能終端設(shè)備產(chǎn)生了海量數(shù)據(jù),這需要在網(wǎng)絡邊緣進行實時的智能分析和處理。因此,研究輕量級神經(jīng)網(wǎng)絡的硬件優(yōu)化方案,以實現(xiàn)邊緣智能成為當下的研究熱點。文章闡述了基于模型壓縮與量化、定點計算替代浮點計算、數(shù)據(jù)流優(yōu)化、存儲優(yōu)化與并行計算等方面的輕量級網(wǎng)絡硬件設(shè)計與優(yōu)化策略,在FPGA實現(xiàn)方面,采用流水線并行與BRAM利用提升了MobileNetV2的執(zhí)行效率。結(jié)果表明,與原始模型相比,優(yōu)化后的模型參數(shù)量、內(nèi)存占用等資源利用指標顯著降低,CPU利用率、推理速度等性能指標明顯提升。實驗研究驗證了文章所提的各項優(yōu)化方法,為將深度神經(jīng)網(wǎng)絡部署到邊緣設(shè)備提供了參考。

關(guān)鍵詞:邊緣計算;輕量級網(wǎng)絡;模型壓縮;硬件優(yōu)化

中圖分類號:TN915.07" 文獻標志碼:A

0 引言

隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)的蓬勃發(fā)展,各類智能終端和傳感設(shè)備產(chǎn)生了海量的數(shù)據(jù),這些數(shù)據(jù)往往需要在網(wǎng)絡邊緣獲得實時的智能分析和處理,以實現(xiàn)快速響應、省電和減少帶寬壓力等效果。但是,將云計算中的AI模型原封不動地移植到邊緣設(shè)備上存在明顯的困難,純軟件的模型優(yōu)化和壓縮已經(jīng)很難進一步提升邊緣AI的運算效率,需要借助硬件手段來實現(xiàn)算法和芯片的協(xié)同優(yōu)化設(shè)計。輕量級網(wǎng)絡通過模型壓縮算法及特殊網(wǎng)絡結(jié)構(gòu)設(shè)計,可以大幅降低參數(shù)量和計算量,非常適合資源受限的邊緣設(shè)備。通過定制化的存儲系統(tǒng)、數(shù)據(jù)流設(shè)計、并行計算組織等硬件手段,針對不同的輕量級網(wǎng)絡模型進行優(yōu)化,以獲得更高的性能與效率。

1 邊緣計算概述

邊緣計算是指在靠近數(shù)據(jù)來源的網(wǎng)絡邊緣位置就近進行數(shù)據(jù)處理和分析的一種新型網(wǎng)絡部署架構(gòu),也被稱為邊緣智能或霧計算(Fog Computing)。邊緣計算的提出是為了解決云計算模式下大量數(shù)據(jù)傳輸導致的網(wǎng)絡帶寬壓力問題,能夠在網(wǎng)絡邊緣解析和處理海量數(shù)據(jù),僅將精簡過后的分析結(jié)果傳送到云端,從而大幅減少原始數(shù)據(jù)的上傳和下載次數(shù),有效減輕網(wǎng)絡負載。邊緣計算節(jié)點通常部署在移動基站、路由器、企業(yè)門戶網(wǎng)站等網(wǎng)絡接入點附近,其計算和存儲資源雖相對有限,但遠強于終端設(shè)備[1]。

2 輕量級網(wǎng)絡算法及模型

針對移動終端和邊緣設(shè)備等資源受限的部署環(huán)境,深度學習社區(qū)近年來持續(xù)開展輕量級神經(jīng)網(wǎng)絡的研究,以在保證模型精度的前提下,通過算法和網(wǎng)絡結(jié)構(gòu)設(shè)計的方式極大地減少模型的參數(shù)量,降低計算的復雜度[2]。學術(shù)和產(chǎn)業(yè)界經(jīng)過不斷的探索,已經(jīng)提出和發(fā)展了MobileNet、ShuffleNet、SqueezeNet等一系列典型的輕量級神經(jīng)網(wǎng)絡模型。MobileNet模型通過采用深度可分離卷積以及逐層減少通道數(shù)的策略,構(gòu)建出一個可縮放的輕量級網(wǎng)絡結(jié)構(gòu)。

3 輕量級網(wǎng)絡硬件優(yōu)化設(shè)計

3.1 模型壓縮和量化

在實際部署預訓練的大規(guī)模神經(jīng)網(wǎng)絡模型時,邊緣設(shè)備的計算能力和存儲空間非常有限,直接部署會嚴重超出其資源限制,必須利用模型壓縮和網(wǎng)絡量化技術(shù)對預訓練模型進行優(yōu)化。

3.1.1 參數(shù)修剪

參數(shù)修剪會根據(jù)權(quán)重magnitude大小,將低于特定閾值τ的小權(quán)重置零,從而獲得壓縮后的稀疏模型,可以表示為:

3.1.2 知識蒸餾

知識蒸餾是使用小型“學生”模型去模擬大型“教師”模型的輸出,以取得更好的學習效果,目標函數(shù)如下:

其中,α為平衡參數(shù),y和y~為真實標簽,p和p~為softmax輸出。網(wǎng)絡量化指將模型權(quán)重和激活從32位浮點表示降低比特精度到低比特定點表示,定點化過程為:

其中,x為原始的浮點數(shù)權(quán)重或激活值,s為定點比例因子,用于調(diào)整數(shù)值范圍以便在低比特精度下表示。round(x/s)表示將x除以比例因子s后四舍五入到最近的整數(shù)。

3.2 定點運算替代浮點運算

相比浮點數(shù)運算,定點數(shù)運算可以顯著提升硬件運算效率,節(jié)省芯片面積。定點數(shù)采用固定進制點表示:

其中,xf是小數(shù)部分,xe是指數(shù)部分。定點數(shù)運算避免了浮點數(shù)運算的規(guī)格化與非規(guī)格化判斷。將神經(jīng)網(wǎng)絡從浮點域移植到定點域,需要確定整數(shù)位數(shù)Qin和小數(shù)位數(shù)Qfrac,常見方法有:

Qin=log2(max|x|),Qfrac=-log2(min|x|)

其中,x是層輸入。

為控制量化誤差,可針對激活函數(shù)設(shè)計量化方法,如:

其中,round(·)為四舍五入函數(shù)。

3.3 自定義數(shù)據(jù)流設(shè)計

為更好地匹配神經(jīng)網(wǎng)絡的計算模式,可以自定義數(shù)據(jù)流來優(yōu)化硬件執(zhí)行效率。以卷積層為例,標準的計算流程為:

其中,n、h、w、c分別為批處理維、高維、寬維、通道維。針對特定模型,優(yōu)化調(diào)整循環(huán)順序,改寫為:

將批處理維和通道維打包處理:

定制數(shù)據(jù)流可以充分利用存儲層次結(jié)構(gòu),優(yōu)化數(shù)據(jù)移動,減少存儲器訪問時間,對于提升邊緣計算效率非常關(guān)鍵[3]。

3.4 存儲優(yōu)化

神經(jīng)網(wǎng)絡模型在硬件實現(xiàn)中的存儲優(yōu)化主要涉及降低參數(shù)冗余和減少數(shù)據(jù)寬度2個核心方面。參數(shù)冗余通常是通過模型壓縮技術(shù)來減小的。例如,低秩分解技術(shù)可以將權(quán)重矩陣W分解成2個較小的矩陣的乘積,表示為:

W=AB

這里,A∈Rm×r,B∈Rr×n,其中rmin(m,n)。通過這種方式,模型的參數(shù)數(shù)量大幅減少,相應地降低了存儲需求。在數(shù)據(jù)寬度壓縮方面,采用向量化優(yōu)化,將參數(shù)表示為碼本(codebook)中向量的索引,這樣可以進一步壓縮模型大小,表示為:

其中,C是向量碼本,ci是碼本中的第i個碼字。通過在編譯時確定網(wǎng)絡的形狀,可以采用自定義存儲格式代替通用的稠密矩陣格式,以減少存儲上的冗余。

4 FPGA實現(xiàn)案例

4.1 使用FPGA實現(xiàn)指定輕量級網(wǎng)絡

為驗證所提出的邊緣計算優(yōu)化方法,本文選擇了MobileNet-V2作為具體實現(xiàn)的輕量級卷積神經(jīng)網(wǎng)絡。MobileNet-V2使用了深度可分離卷積和殘差連接等模塊來建立一個較小且高效的網(wǎng)絡結(jié)構(gòu)。其中,第l層的深度可分離卷積運算為:

Yl=δ(W1,l*δ(W0,l*Xl))

在這里,Xl是第l層的輸入特征圖,W0,l是該層的逐通道卷積核,*表示卷積運算,δ是激活函數(shù)(如ReLU),W1,l是逐點卷積核。

殘差塊的計算:

Yl=Xl+F(Xl,Wl)

這里,F(xiàn)表示殘差函數(shù),也是一個卷積運算。殘差結(jié)構(gòu)有助于避免深度網(wǎng)絡在訓練過程中出現(xiàn)的梯度消失問題。

那么,整個MobileNet-V2的前向計算可以表示為:

Y=f(X;W)=(…(f1(f0(X;W0);W1)…)+X)

其中,f0、f1等表示網(wǎng)絡的不同層運算。

4.2 模型訓練與預測流程

本研究選擇了當前圖像分類領(lǐng)域主流的卷積神經(jīng)網(wǎng)絡模型VGG16作為教師模型,該模型由多層連續(xù)的卷積和池化層堆疊構(gòu)成,約有138萬個參數(shù),步驟如下:(1)使用包含10類常見物體如貓、狗、汽車等圖像的CIFAR-10數(shù)據(jù)集進行訓練,數(shù)據(jù)集包含5萬張RGB彩色圖片;(2)使用Stochastic Gradient Descent算法,以交叉熵損失函數(shù)訓練了300個epochs后,教師模型在測試集上達到了90%的分類準確率;(3)構(gòu)建一個輕量級學生模型MobileNetV2,使用深度可分離卷積來減少參數(shù)量和計算量,將教師模型VGG16的softmax輸出作為MobileNetV2的監(jiān)督信號;(4)使用基于L1正則化的裁剪算法Pruning以及量化aware訓練對MobileNetV2進行模型壓縮,將參數(shù)表示從32bit浮點降低到8bit定點,同時裁剪掉冗余連接,壓縮后的模型縮小了8倍,只有300 K參數(shù),但分類準確率略微下降到84%;(5)在樹莓派等資源受限的邊緣設(shè)備上部署這個壓縮后的MobileNetV2模型,并使用NEON指令集進行優(yōu)化,使分類預測速度可以達到每秒7幅圖像,滿足了實時應用需求。

4.3 資源利用和性能分析

在針對模型作了硬件優(yōu)化后,本文比較了優(yōu)化前后的模型在邊緣設(shè)備上的資源利用率和性能指標,具體結(jié)果如表1所示。

從表中可以看出,使用輕量級網(wǎng)絡結(jié)構(gòu)后各項指標明顯改善,特別是隨著參數(shù)量的變化,內(nèi)存占用指數(shù)級降低,MobileNetV2原始模型相比VGG16的內(nèi)存占用減小了90%,壓縮模型參數(shù)量至1.7MB時內(nèi)存占用進一步降低了88%,驗證了可分離卷積等輕量化結(jié)構(gòu)的顯著效果,計算性能也有明顯提升。這與采用可分離卷積等結(jié)構(gòu)降低模型復雜度的方法是一致的。進一步壓縮模型后,參數(shù)和存儲繼續(xù)減小,運算速度也得以大幅提升,推斷其得益于裁剪、量化等方式降低參數(shù)冗余性的優(yōu)化方案。準確率雖然有輕微下降,但仍處于可接受的范圍內(nèi)。

5 結(jié)語

智能邊緣計算作為一種新興的網(wǎng)絡計算架構(gòu),近年來受到廣泛關(guān)注。本研究針對邊緣設(shè)備的資源受限問題,通過算法和硬件的共同優(yōu)化,實現(xiàn)了輕量級神經(jīng)網(wǎng)絡的高效執(zhí)行。研究采用了模型壓縮、網(wǎng)絡量化、定點計算等算法手段,結(jié)合流水線、存儲優(yōu)化、并行計算等硬件設(shè)計策略,在FPGA平臺上實現(xiàn)了MobileNetV2等典型輕量級網(wǎng)絡。后續(xù),筆者還將繼續(xù)改進算法與硬件的匹配適配性,以進一步提高邊緣計算的效率。相信隨著研究的深入,智能邊緣計算必將向著更實用與高效的方向發(fā)展。

參考文獻

[1]金建軍,郭熙,李欠江,等.一種結(jié)合機器學習的移動邊緣計算的切換預測方法[J].計算技術(shù)與自動化,2023(3):136-140.

[2]高紅亮,程睿遠,趙金鳳,等.邊緣計算場景下基于神經(jīng)網(wǎng)絡的可信評估機制分析[J].電子技術(shù),2023(9):16-19.

[3]劉敏.基于深度強化學習的網(wǎng)絡邊緣計算多級卸載模型研究[J].保山學院學報,2023(5):67-74.

Design of lightweight network hardware optimization considering edge computing

Abstract: "With the booming development of mobile internet and the Internet of Things, a large number of intelligent terminal devices have generated massive amounts of data, which requires real-time intelligent analysis and processing at the edge of the network. Therefore, researching hardware optimization solutions for lightweight neural networks to achieve edge intelligence has become a current research hotspot. This article focuses on the design and optimization strategies of lightweight network hardware based on model compression and quantization, fixed-point computing replacing floating-point computing, data flow optimization, storage optimization, and parallel computing. In terms of FPGA implementation, the use of pipeline parallelism and BRAM improves the execution efficiency of MobileNetV2. The results show that compared to the original model,the optimized model significantly reduces resource utilization indicators such as parameter count and memory usage, while performance indicators such as CPU utilization and inference speed are significantly improved. The study validated the proposed optimization methods and provided a reference for deploying deep neural networks to edge devices.

Key words: edge computing; lightweight network; model compression; hardware optimization

主站蜘蛛池模板: 久久伊人操| 欧美日本中文| 伊人91在线| 精品视频在线观看你懂的一区| 中文字幕有乳无码| 亚洲不卡无码av中文字幕| 看看一级毛片| 国产丝袜无码精品| 国产精品欧美激情| 亚洲成人精品久久| 亚洲中文字幕手机在线第一页| 就去吻亚洲精品国产欧美| 亚洲无码视频喷水| 视频二区中文无码| 国产精品夜夜嗨视频免费视频| 日本午夜视频在线观看| 成人自拍视频在线观看| 美女被躁出白浆视频播放| 不卡色老大久久综合网| 國產尤物AV尤物在線觀看| 99热这里只有免费国产精品| 色妞永久免费视频| 久久久噜噜噜| 国产精品中文免费福利| 日本高清在线看免费观看| 狠狠亚洲婷婷综合色香| 国产日韩欧美在线视频免费观看| 久久这里只有精品23| 久久久久免费看成人影片| 亚洲视频无码| 久久性视频| 国产精品亚洲片在线va| 亚洲欧美人成人让影院| 91丨九色丨首页在线播放| 中文字幕永久视频| 波多野结衣无码AV在线| 99视频精品在线观看| 国产探花在线视频| 欧美成人日韩| 国产免费人成视频网| 国产国模一区二区三区四区| 久久免费看片| 国产在线视频导航| 毛片一级在线| 国产精品成人一区二区| 成人亚洲视频| 国产 在线视频无码| 喷潮白浆直流在线播放| 精品中文字幕一区在线| 免费av一区二区三区在线| 欧美在线中文字幕| 五月婷婷丁香色| 欧美成人精品高清在线下载| 国产精品亚洲va在线观看| 在线欧美a| 色天堂无毒不卡| 91福利一区二区三区| 久久黄色小视频| 亚洲精品视频免费| 欧美日韩福利| 精品欧美视频| 久久精品丝袜高跟鞋| 欧美色香蕉| 91精品国产情侣高潮露脸| 一级毛片高清| 国产极品美女在线观看| 先锋资源久久| 在线va视频| 国语少妇高潮| 亚洲综合第一区| 欧美日韩综合网| 日本爱爱精品一区二区| 成人在线观看不卡| 亚洲综合欧美在线一区在线播放| 波多野结衣一区二区三区AV| 美女裸体18禁网站| 91视频99| 97人妻精品专区久久久久| 最新国产在线| 91视频99| 国产亚洲欧美日韩在线一区| av在线5g无码天天|