999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向航空目標檢測的神經網絡加速器設計

2022-07-03 12:56:13施立瑞王帥帥肖昊
航空科學技術 2022年5期

施立瑞 王帥帥 肖昊

摘要:卷積神經網絡被廣泛應用于航空圖像目標檢測領域。然而,由于航空圖像成像背景環境復雜、目標尺寸小且方向任意,為了提取更高層次的特征信息,神經網絡模型的結構復雜度不斷提高,使得模型計算復雜度高、計算時間長,從而難以滿足航空目標檢測的實時性需求。本文提出了一種面向航空目標檢測的基于Winograd算法的神經網絡加速器,通過Winograd卷積算法可大幅減少卷積計算中的乘法數量,并針對Winograd卷積在神經網絡計算中由于時域變換引入額外加法計算的問題,提出了一種深流水的矩陣變換計算結構,通過復用加法計算的中間結果以及調整運算順序減少輸入和輸出變換的計算量。同時,針對加速器的現場可編程門陣列(FPGA)實現,提出了一種高效的數據流形式和DSP陣列結構。試驗結果表明,本文提出的加速器相比CPU和GPU分別獲得了32倍和2.6倍的速度提升。

關鍵詞:目標檢測;卷積神經網絡;加速器;Winograd算法;FPGA

中圖分類號:TP183文獻標識碼:ADOI:10.19452/j.issn1007-5453.2022.05.013

近年來,航空圖像數據分析需求大幅增加,卷積神經網絡(convolutional neural network,CNN)由于其優越的性能被廣泛應用于航空目標檢測[1-5]。然而,由于航空圖像成像背景環境復雜、目標尺寸小且方向任意,為了獲取更高的預測準確率,神經網絡模型層數逐漸加深,結構更加復雜,使得模型計算復雜度高、計算時間長,從而難以滿足航空目標檢測中實時性的需求。因此,如何根據遙感圖像快速檢測目標成為一項巨大的挑戰。

大量研究從軟硬件方面優化提升航空圖像目標檢測速度。在軟件算法優化方面,參考文獻[6]和文獻[7]通過提出輕量級網絡模型減少網絡參數和計算復雜度。參考文獻[6]提出了一種壓縮MobileNet網絡模型,在特征映射下采樣階段減少瓶頸架構數量,但在特征映射平臺階段增加更多瓶頸,從而減少網絡參數,縮短推理時間并提高預測準確性。參考文獻[7]提出了一種輕量級神經網絡模型G-YOLOv3,其主要構件為嵌套殘差塊,每個殘差塊中都包含了本征特征圖與相似特征圖,且殘差塊中添加注意力機制,增強網絡的學習能力,從而降低網絡所需參數和計算復雜度,提升目標檢測速度。在硬件加速方面,參考文獻[8]在MPSOC硬件平臺對網絡計算進行硬件加速,通過豐富的可編程邏輯資源提升計算并行度,縮短網絡計算時間。然而,上述加速目標檢測的方法均基于傳統卷積計算,而在航空目標檢測中用來提取特征值的卷積神經網絡占據了網絡推斷階段70%以上的時間[6,9],傳統卷積由于高計算復雜度成為限制目標檢測速度的瓶頸。因此,本文提出了一種面向航空目標檢測的基于Winograd算法的神經網絡加速器設計,包括:(1)對航空目標檢測網絡中的基干網絡部分進行硬件加速,通過Winograd算法降低了卷積計算的復雜度,與傳統卷積相比減少了75%的乘法計算,同時提出了一種深流水結構的矩陣變換方法,優化Winograd算法中的加法計算,與直接Winograd計算相比減少了18.75%的輸入變換計算量和至少76.19%的輸出變換計算量;(2)在FPGA平臺加速卷積神經網絡,設計了一種高效的DSP陣列結構和數據流方式,大幅提高DSP的計算效率。本文提出的加速器相比CPU和GPU分別獲得了32倍和2.6倍的速度提升。

1目標檢測網絡

1.1網絡結構

航空目標檢測網絡模型結構如圖1所示,整體分為基干網絡和檢測網絡兩個部分。其中,基干網絡主要完成圖片特征值提取的功能,檢測網絡根據基干網絡提取的特征對特定目標進行檢測。由于航空圖像成像背景復雜且目標尺度較小,為了提取更高層次的特征信息,獲得更高的準確率,基干網絡采用深層卷積神經網絡獲取有效特征。其中,卷積計算示意圖如圖2所示,每個通道上的卷積核分別與對應通道上的輸入數據相同大小的區域進行乘累加運算,每個通道上的乘累加后的結果相加得到輸出數據中的一個值,接著卷積核以一定的步長不斷滑動得到所有的輸出數據。可見,傳統卷積的滑窗計算方式計算復雜度高,因此,本文引入Winograd算法,利用圖像像素點之間的結構相似性,將滑窗卷積變為矩陣點乘運算,大幅降低了卷積運算中乘法計算的數量。

1.2 Winograd算法

Winograd算法[10]由數學家Winograd于1980年提出,用于信號處理中的卷積操作。以一維Winograd卷積為例,記輸出尺寸為m,卷積核尺寸為r的卷積計算為F(m,r),d為輸入數據,g為卷積核數據,我們通過一組具體的計算闡述 Winograd卷積原理。

將Winograd卷積應用到CNN中的計算流程圖如圖3所示。第一階段,將輸入特征圖和卷積核數據從時域轉換到Winograd域;第二階段,變換后的輸入特征圖和卷積核執行矩陣點乘計算;第三階段,各通道間的卷積結果執行累加;第四階段,將Winograd域的卷積結果變換到時域。其中,第三階段和第四階段的執行順序不影響最終卷積結果。

2 CNN加速器設計

2.1目標檢測系統架構

航空目標檢測系統架構如圖4所示,基干網絡部分采用FPGA加速,檢測網絡在主機完成。其中,加速器主要由輸入特征圖緩存、權重緩存、輸入特征圖變換、并行計算單元(PE)、輸出特征圖緩存組成。由于神經網絡參數量巨大而片上存儲資源有限,外部存儲器中的數據將根據運算階段分批次加載到片上緩存中。其中,權重變換在片外預處理完成,片上緩存接收到的不再是原始權重數據而是轉換后的數據。多個輸入特征圖轉換模塊并行處理多通道輸入數據,多個PE單元并行處理多個卷積核上的卷積,二者并行度可根據不同硬件平臺的資源進行調整。在輸出變換中,PE單元循環復用多次,完成所有通道卷積和累加后再執行輸出變換,與參考文獻[11]相比,輸出變換的運算量僅為前者的1/N,N為輸入通道數。由于片上存儲資源有限,當輸出特征圖緩存中積累了一定數據后,通過訪存控制傳輸到片外存儲器中。當加速器完成特征值提取后,將數據傳到主機進行檢測網絡計算,實現完整目標檢測功能。

2.2輸入/輸出特征圖轉換

2.3 PE單元

PE單元執行的功能是對轉換后的輸入特征圖和權重進行點乘計算,如何合理地部署DSP資源是PE單元性能的關鍵。現有設計僅使用DSP中的乘法器處理乘法計算,而DSP中除乘法器外還包含加法器等豐富的計算資源。因此,本文提出了一種高效的DSP計算數據流形式和通道間級聯的DSP陣列結構。

DSP內部的計算結構和數據流安排如圖7所示,單個DSP中計算兩個卷積核和輸入特征圖的卷積操作。輸入特征圖固定從A端口輸入,兩個卷積核的權重數據分別固定從B端口和D端口輸入,兩個卷積核復用輸入特征圖,通過控制DSP的配置參數使其乘法器執行A×B和A×D的乒乓操作。同時,加法器乒乓執行A×B和A×D的計算結果與其各自上一通道結果的累加。圖8展示了DSP間級聯的陣列結構,其中,Wa,b表示第a個卷積核的第b個通道的權重數據,indata_m為輸入特征圖第m個通道數據。Psum、psum分別為上一循環和當前的部分和結果。級聯結構主要用來處理通道間累加,級聯的首個DSP從C口輸入上一通道的結果,其余DSP從PCIN口級聯輸入上一通道的結果,最后輸出兩個通道的部分和(psum)結果。PE單元包含多組級聯的DSP組,假設有M組DSP組,N個輸入通道,Z個卷積核,循環復用計算單元N/M次完成單個卷積核的計算,單次循環的最后一組DSP的輸出保存在RAM中參與下一次循環計算,直至完成所有通道的累加。

DSP的數據流安排使得DSP的計算效率在計算過程中提高了4倍;DSP級聯的陣列結構與參考文獻[11]中單獨設置加法單元方法相比,減少了累加計算周期。同時,充分利用了DSP中的計算資源,從而節省了片上LUT資源。

2.4雙緩沖區緩存單元

由于神經網絡參數量龐大,減少數據傳輸時間是加速器性能提升的關鍵。本文采用圖9所示雙緩沖區結構對數據進行乒乓讀寫,隱藏了從片外緩存數據與片上計算之間的延時。

在F(m2,r2)的二維Winograd卷積中,輸入塊的大小為n×n,相鄰輸入塊之間重疊r-1個像素點,為了在讀取輸入圖分塊時復用重疊數據,在緩存單元中,設計時將輸入特征圖按行存儲在RAM中。首先在n個RAM中分別存儲輸入特征圖的n行數據,然后計算模塊開始從緩沖區讀取輸入特征圖塊開始計算,同時,緩沖區的(n- r+1)個RAM繼續接收來自片外的輸入特征圖數據。

當緩沖區中的前n行數據由計算單元讀取完成之后,重新從片外緩存(n- r+1)行輸入特征圖數據,此時計算單元從后n個RAM中讀取數據,實現乒乓讀寫。該方法在復用輸入數據的同時使得數據緩存單元和計算單元一直處于工作狀態,有效減少了加速器整體運行時間。

3試驗與結果分析

為驗證本文提出的基于Winograd算法的神經網絡加速器的綜合性能,試驗選用經典VGG16網絡模型作為航空目標檢測的基干網絡,SSD網絡模型作為檢測網絡,并在Xilinx VCU118硬件平臺部署基干網絡部分CNN加速器,模型檢測結果如圖10所示。

將本文設計的加速器部署在FPGA上的推理延時與CPU、GPU上運行結果做對比見表2,其中,CPU采用Intel i5-4590處理器,GPU采用NVIDIA RTX2070super。相比CPU和GPU,本文加速器分別獲得了32倍和2.6倍的速度提升。

表3評估了設計的硬件資源使用率、吞吐量、運行時間等性能指標。參考文獻[5]加速器采用傳統卷積計算,在硬件資源占用率相近的情況下,本文基于Winograd算法的加速器,相比參考文獻[12]節省了60.1%的網絡推斷時間。參考文獻[13]和文獻[[11]與本文卷積算法相同。其中,參考文獻[13]在Winograd卷積計算階段將輸出變換應用在通道累加之前,相比本文增加了71%的冗余計算。因而,在吞吐量相近的情況下,本文的加速器計算延時減少了31.5%。本文相比參考文獻[11]增加了不到一倍的DSP資源而計算延時僅為其一半不到。在LUT資源占用上,由于本文優化了變換階段的計算(主要由LUT實現),與參考文獻[9]和文獻[11]相比分別減少了20.1%和25.7%。經上述分析可見,本文加速器加速效果更佳。

4結束語

本文提出了一種基于航空目標檢測的神經網絡加速器,通過Winograd卷積算法大幅減少卷積計算中的乘法數量,并針對當前Winograd卷積在CNN計算中由于時域變換引入額外加法計算的問題,提出了一種深流水的矩陣變換計算結構,通過復用加法計算的中間結果以及調整運算順序減少輸入變換和輸出變換的計算量。同時,針對加速器的FPGA實現,提出了一種高效的數據流形式和DSP陣列結構。試驗結果表明,本文的加速器吞吐量更高、計算延時更短。

參考文獻

[1]Yi J,Wu P,Liu B,et al. Oriented object detection in aerial images with box boundary-aware vectors[C]// 2021 IEEE Winter Conference on Applications of Computer Vision(WACV),2021:2149-2158.

[2]Kovbasiuk S,Kanevskyy L,Romanchuk M.Object detection method based on aerial image instance segmentation by unmanned aerial system in the framework of decision making system[C]// 2019 3rd International Conference on Advanced Infor-mation and Communications Technologies(AICT),2019:332-335.

[3]趙文清,孔子旭,周震東,等.增強小目標特征的航空遙感目標檢測[J].中國圖象圖形學報,2021,26(3):644-653. Zhao Wenqing, Kong Zixu, Zhou Zhendong, et al. Aerial remote sensing target detection with enhanced small target features[J]. Chinese Journal of Image and Graphics, 2021,26(3):644-653. (in Chinese)

[4]何曉驍,姚呈康.人工智能等新技術在航空訓練中的應用研究[J].航空科學技術,2020,31(10):7-11. He Xiaoxiao, Yao Chengkang. Research on the application of new technologies such as artificial intelligence in aviation training[J]. Aeronautical Science & Technology, 2020,31(10):7-11. (in Chinese)

[5]鄧偉偉,段朝陽.人工智能在導彈控制系統中的應用[J].航空科學技術,2020,31(10):30-35. Deng Weiwei, Duan Chaoyang. Application of artificial intelligence in missile control system[J]. Aeronautical Science& Technology,2020,31(10):30-35. (in Chinese)

[6]He Y,Pan Z,Li L,et al. Real-time vehicle detection from shortrange aerial image with compressed mobileNet[C]//2019 International Conference on Robotics and Automation(ICRA),2019:8339-8345.

[7]聶子一,張璞.輕量級神經網絡與遙感圖像目標檢測[J].電子制作,2021(18):54-55,62. Nie Ziyi, Zhang Pu. Lightweight neural network and remote sensing image target detection[J] .Electronic Production, 2021(18): 54-55, 62. (in Chinese)

[8]任彬,王宇慶,叢振,等.基于MPSOC的航空圖像目標檢測系統設計[J].液晶與顯示,2021,36(7):1006-1017. Ren Bin, Wang Yuqing, Cong Zhen, et al. Design of aerial image target detection system based on MPSOC[J]. Liquid Crystal and Display, 2021,36(7):1006-1017. (in Chinese)

[9]Ichim L,Popescu D. Road detection and segmentation from aerial images using a CNN based system[C]//2018 41st International Conference on Telecommunications and Signal Pro‐cessing(TSP),2018:1-5.

[10]WinogradS. Arithmeticcomplexityofcomputations[J]. Society for Industrial & Applied Mathematics Philadelphia,1980,43(2):625-633.

[11]Liang Y,Lu L,Xiao Q,et al. Evaluating fast algorithms for convolutional neural networks on FPGAs[C]//IEEE Transac‐tions on Computer-Aided Design of Integrated Circuits and Systems,2020,9(4):857-870.

[12]Yuan T,Liu W,Han J,et al. High performance CNN accelerators based on hardware and algorithm co-optimization[C]//IEEE Transac-tions on Circuits and Systems I:Regular Papers,2021,68(1):250-263.

[13]Shen J,Huang Y,Wen M,et al. Toward an efficient deep pipelined template-based architecture for accelerating the entire 2D and 3D CNNs on FPGA[C]//IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems,2020,1442-1455.

Design of Neural Network Accelerator for Aeronautical Target Detection

Shi Lirui,Wang Shuaishuai,Xiao Hao

Hefei University of Technology,Hefei 230000,China

Abstract: Convolutional neural networks are widely used in the field of object detection in aerial images. However, in order to extract higher-level feature information of small size and arbitrary direction target in complex background environment, the structural complexity of the neural network model continues to increase, which makes the model computationally complex and time-consuming. So it is difficult to satisfy real-time requirements in aerial target detection. This paper proposes a neural network accelerator based on the Winograd algorithm for aerial target detection. The Winograd convolution algorithm greatly reduces the number of multiplications in the convolution calculation. However, there are many additional calculations in transforming input data and filter to Winograd domain in current Winograd convolution. To addresses this problem, a deep pipeline calculation structure of matrix transformation is proposed, which reduces the calculation amount of input transformation and output transformation by reusing the intermediate results of addition calculation and adjusting the operation order. At the same time, for the field programmable gate array (FPGA) implementation of the accelerator, an efficient data flow format and DSP array structure are proposed. The experimental results show that the accelerator proposed in this paper achieves a speed improvement of 32 times and 2.6 times compared to CPU and GPU respectively.

Key Words: target detection; convolutional neural network; accelerator; Winograd algorithm; FPGA

主站蜘蛛池模板: 成人在线不卡视频| 色偷偷一区二区三区| 国产精品自在在线午夜| 亚瑟天堂久久一区二区影院| 一本色道久久88| 亚洲欧洲一区二区三区| 内射人妻无套中出无码| 免费一级全黄少妇性色生活片| 亚洲综合色婷婷| 一本色道久久88| 国产精品视频久| 欧美日本在线观看| 亚洲色欲色欲www网| 国产精品久线在线观看| 日本三区视频| 亚洲欧美日韩天堂| 国产精品真实对白精彩久久| 亚洲伊人天堂| 91福利片| www.99在线观看| 国产精品天干天干在线观看| 91丨九色丨首页在线播放| 啊嗯不日本网站| 亚洲无码高清视频在线观看| 在线无码私拍| 热思思久久免费视频| 欧美 国产 人人视频| 午夜日韩久久影院| 爱色欧美亚洲综合图区| 国产www网站| 中文字幕 91| 亚洲无码视频一区二区三区| www欧美在线观看| 天天操天天噜| 午夜国产理论| 午夜高清国产拍精品| 国产午夜福利在线小视频| 日韩一级毛一欧美一国产| 国产一级无码不卡视频| 亚洲av片在线免费观看| 欧美a在线| 成人在线不卡| 亚洲国产无码有码| 国产精品无码一区二区桃花视频| 思思热在线视频精品| 91麻豆国产精品91久久久| 国产精品久久久久久久久久久久| 亚洲αv毛片| 欧美激情视频一区| 制服丝袜一区| 在线观看无码av免费不卡网站| 国产乱人伦AV在线A| 美女高潮全身流白浆福利区| 色悠久久久久久久综合网伊人| 97国产一区二区精品久久呦| 欧美不卡视频在线| 国产亚洲精品无码专| 久久黄色毛片| www亚洲精品| 亚洲国产精品人久久电影| AV熟女乱| 一级高清毛片免费a级高清毛片| 亚洲一级毛片在线观播放| 国产网站免费看| 夜夜拍夜夜爽| 久久香蕉国产线看观看亚洲片| 无码专区在线观看| 亚洲天堂啪啪| 免费看美女毛片| 播五月综合| 国产黄色免费看| 国产97视频在线观看| 国产成人综合亚洲欧美在| 中文字幕 91| 午夜国产理论| 国产乱子伦视频三区| 99re免费视频| 极品尤物av美乳在线观看| 国产精品毛片在线直播完整版| 亚洲一级毛片在线观| 亚洲va视频| 午夜精品国产自在|