999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向車規級芯片的對象檢測模型優化方法

2021-11-30 05:18:46宮大漢于龍龍陳輝楊帆駱沛丁貴廣
智能系統學報 2021年5期
關鍵詞:深度檢測模型

宮大漢,于龍龍,陳輝,楊帆,駱沛,丁貴廣

(1. 清華大學 軟件學院 , 北京 100084; 2. 清華大學 北京信息科學與技術國家研究中心,北京 100084; 3. 涿溪腦與智能研究所,浙江 杭州 311121; 4. 清華大學 自動化系,北京 100084; 5. 禾多科技(北京)有限公司,北京100102)

卷積神經網絡(convolutional neural network,CNN)在圖像識別、對象檢測等視覺感知任務上取得了巨大的成功。由于其優秀的性能,使得CNN已經成為一種標準的智能結構,在智能手機、可穿戴設備、IoT終端設備、自動駕駛等智能應用中扮演著重要的角色。然而,CNN參數量巨大、計算復雜度高的特點限制了它在實際場景中的大范圍落地應用。比如在自動駕駛領域,如果CNN模型部署到云端,那么網絡傳輸的穩定性將決定系統是否能及時應對不斷變化的外部環境,進而影響整體自動駕駛性能。而受限于網絡傳輸的不穩定性,這種云端計算終端響應的方式在實際自動駕駛系統中難以廣泛應用。所以,基于車載終端設備實現深度模型的部署成為一種越來越流行的解決方案。

然而,面向車載終端設備的深度模型部署存在著計算資源和模型性能的矛盾。具體來說,深度模型復雜度越高,通常它的效果越好,但其計算速率越差。考慮到終端設備上缺少高性能計算單元(如GPU)的支持,使得復雜度高的深度模型無法滿足計算效率的要求。而如果采用復雜度低的小模型,又面臨模型性能不佳的問題。因此,如何在計算資源受限條件下實現高精度深度模型的部署對自動駕駛至關重要。

本文面向自動駕駛場景,研究車規級芯片上的對象檢測[1-2]模型高效計算方法。本文使用先進的對象檢測模型CenterNet[3]作為實驗模型。這種模型通過預測對象中心點的位置和包圍盒的偏移量,進而確定對象的整體位置。通常使用主流深度學習模型,比如ResNet[4]作為模型的主干網絡。主干網絡可以將輸入的視覺圖像均分為網格區域,然后CenterNet判斷每個網格點是否是某個對象的中心。考慮到車載系統缺乏高性能計算單元GPU,本文采用輕量型深度模型ResNet18作為CenterNet的主干網絡。

ResNet18通過堆疊3×3卷積,使得在一個3×3的卷積窗口中,卷積核的中心點對應的區域可以不斷“吸收”周圍區域的信息來增強自身的特征表達。這種方式的缺點在于3×3卷積將中心區域的特征和周圍區域的特征同等對待,容易降低中心區域的特性在特征中的表達,加大了模型混淆中心區域和其他區域的可能性,不利于Center-Net對關鍵點的定位。

為了解決這個問題,本文提出一個基于中心卷積的對象檢測模型。具體來說,本文為3×3卷積增加一個1×1卷積旁路,這種旁路對應3×3卷積核的中心區域,可以充分學習中心區域的隱藏特性。本文對3×3卷積和1×1卷積的輸出進行加和融合,并將這種結構命名為中心卷積。所設計的中心卷積可以獨立學習中心區域的特性和周圍區域的關聯信息,有效增強中心區域的特征表達,促進關鍵點的預測。3×3卷積和1×1卷積都是線性變換,因此在模型部署推理時,可以很方便地將1×1卷積旁路的參數融合到3×3卷積核的中心點上,恢復成標準3×3卷積,大大降低了推理時的模型大小。相比于標準的3×3卷積,所提出的中心卷積不增加推理復雜度,但是具有更強的特征學習能力,使得模型檢測效果更佳。

本文用中心卷積替換了ResNet18中的3×3卷積,構建了基于中心卷積的CenterNet模型,并在實際的車規級計算芯片上進行了模型部署驗證。盡管ResNet18的計算復雜度不高,但為了充分利用車載系統的計算資源,希望盡可能在保持精度的情況下,提升CenterNet的計算效率。為此,本文采用一套基于量化的部署流程:首先使用量化感知的訓練方式對給定的CenterNet進行重訓練,得到int8數值精度的CenterNet模型,然后調用底層開放接口,將模型部署在芯片上。通過這種量化感知訓練,可以得到低比特的模型,減少了模型的大小,并且保持了足夠高的模型精度。而在芯片線上推理過程中,模型以低比特int8進行運算,相比于float32運算,處理速度更快。

綜上所述,本文提出了一種中心卷積來替代ResNet18中的3×3卷積,構建了基于中心卷積的CenterNet對象檢測模型;進一步,采用基于量化的模型部署方法,實現在車規級芯片上的模型效果驗證。

1 相關工作

對象檢測領域的研究熱點經歷了由基于錨點框(anchor-based)檢測模型到無錨點框(anchorfree)檢測模型。其中,以CornerNet[5]為代表的基于關鍵點預測的對象檢測模型的出現引起了研究者的廣泛興趣,anchor-free的方法漸漸興起。CornerNet首次提出預測包圍框的一對角點來檢測目標,并使用角池化操作來更好地定位包圍框的角點。之后,Zhou等[6]提出ExtremeNet來預測對象的極值點和中心點進而實現目標檢測的目的,后面又進一步提出CenterNet只預測中心點來檢測目標。Liu等[7]改進了CenterNet,提出了TTFNet,使用高斯核編碼來引入更多的回歸樣本,極大地加快了模型的訓練速度。而Zhou等[8]又將中心點預測的思想引入到兩階段(two-stage)檢測模型中,獲得了顯著的性能。

需要指出的是,本文重點關注深度模型在車規級芯片上的高效推理。具體來說,本文希望在有限的計算資源條件下實現高性能和高效率的對象檢測模型。考慮到CenterNet具有簡單易擴展的優點,所以本文采用CenterNet為實驗模型進行探索,而不采用近期對CenterNet的改進工作進行實驗,如CenterNet2[8]、TTFNet[7]。

2 基于中心卷積的對象檢測模型

2.1 中心卷積

式中:?表示矩陣元素相乘;Mi,j是從M中以 (i,j)為中心截取的一個大小為H×W×C的矩陣;Fk表示第k個大小為H×W×C的矩陣。3×3卷積和1×1卷積都可以用式(1)來描述。

圖1展示了3×3卷積運算。卷積以3×3為滑動窗口對輸入的特征圖M進行處理,處理時,將中心區域 (i,j)信息和窗口內的區域信息進行融合,輸出的特征可作為中心區域 (i,j)的更高層次的特征表示。可以看到,這種方式直接對窗口內的區域特征進行融合,沒有考慮到每個區域的不同,這樣就容易減弱中心區域的特性信息在更高層次特征中的表達,使得在CenterNet中對關鍵點的預測效果不佳。

圖1 3×3卷積運算Fig.1 3×3 convolution operation

為了解決上述問題,本文提出中心卷積(center-convolution)來增強中心區域的信息。中心卷積被設計為雙分支的架構,其中一個分支是標準的3×3卷積后接一個批規范層(batch normalization,BN)[9],用于融合領域的信息,另外一個分支是一個1×1的卷積旁路,同樣后接一個批規范層,用于增強中心區域自身的信息。需要注意的是,兩個分支學習到的信息是不一樣的,所以學習到的特征空間中的分布不一樣。因此,雙分支的兩個BN層的參數是不共享的。在BN層將不同信息進行規范化約束后,對兩個分支進行加和操作得到最終的中心區域的特征。圖2展示了標準的3×3卷積和所提出的中心卷積的差異。

圖2 標準卷積和中心卷積Fig.2 Standard convolution and center-convolution

中心卷積盡管因為引入了旁路分支而增加了模型的復雜度,但實際上,所引入的1×1卷積以及BN層可以融合進3×3卷積中,因此,形式上就等價于標準的3×3卷積。具體來說,給定中心卷積,其中的3×3卷積設為F3×3∈R3×3×C×D,1×1卷積設為F1×1∈R1×1×C×D,對于給定的輸入特征中的一個3×3的分塊M∈R3×3×C,卷積層的輸出O∈RD為

式(2)可 以很容 易 地將F1×1融合 到F3×3中 的(1,1)的張量上,得到新的 3×3 卷積Fnew∈R3×3×C×D:

圖3展示了中心卷積的融合過程。在模型訓練時,本文將中心卷積設計為圖2所示的雙分支的結構,這樣可以利用冗余的1×1旁路分支來增強模型對圖像顯著性特征的學習,提高網絡的學習性能,而在推理階段,利用圖3所示的分支融合機制,可以很好地將冗余參數融合進主干3×3分支中,融合后的計算等價于標準的3×3卷積,不會提高模型的推理復雜度。

圖3 將1×1卷積融合到3×3卷積中Fig.3 Merging 1×1 into 3×3

2.2 基于中心卷積的CenterNet檢測模型

本文選擇CenterNet來構建檢測模型。CenterNet拋棄了傳統的基于錨點框(anchor)[10]的對象檢測方法,而是通過預測目標對象的中心點位置和大小來預測對象的包圍框。

使用本文提出的中心卷積來構建ResNet18模型,并在ImageNet[11]上進行預訓練。為了方便描述,本文將得到的模型命名為C-ResNet18。并基于C-ResNet18卷積神經網絡設計主干網絡構建CenterNet對象檢測模型,得到的模型稱為CRCenterNet。為了對比,本文也基于ResNet18構建了CenterNet,得到的模型稱為R-CenterNet。對比效果詳見實驗部分。

3 基于量化的深度模型部署

考慮到在自動駕駛車輛上,通常部署一些專用的終端芯片和設備來執行相關算法和模型。計算資源受限是該類設備的一大缺陷,這給復雜度高的智能模型的應用帶來了巨大的挑戰。面向終端設備的深度模型加速技術能夠顯著降低深度模型的復雜度,有利于深度模型在終端設備上的部署。

本文采用基于量化的模型加速方法,以最大化車載系統底層計算模塊的計算效率。深度模型在訓練過程中使用浮點精度來表示參數和數據的數值,從硬件原理來說,整數運算比相同位數的浮點運算更快且更省電,如果將深度模型的計算全部轉化為整數運算,勢必帶來極大的加速效果。基于量化的模型加速方法就是通過將浮點(float32)精度數值量化到短型整數(int8)精度數值,實現了模型的高效運算。

式中:xmax和xmin分別表示x的最大值和最小值;ymax和ymin分別表示y的最大值和最小值;round函數表示四舍五入運算。

基于上述的數值量化方法,可以很容易地將預訓練好的深度模型進行參數量化。但是實驗表明,這種后量化的方式存在量化誤差累積的缺陷,使得量化后的模型性能產生了極大的損失。目前的很多深度學習框架,比如pytorch[12]和TensorFlow[13]都使用了一種量化感知的方法,將參數量化的過程融合進模型訓練過程中,讓網絡參數能夠適應量化帶來的信息損失。本文采用同樣的方法對深度模型進行處理。具體來說,將量化算法集成為一個模塊,并串聯在卷積參數層的后面參與特征計算,流程如圖4所示。因為量化操作里面的round函數不是可導的,所以在反向傳播的時候無法將梯度準確地傳給前面層的參數。為了解決這個問題,本文重構了量化層的前向和后向操作,在前向時按照量化操作正常進行,反向時跳過量化層,直接把卷積層的梯度回傳到量化前的卷積參數中來。因為卷積層的梯度是經過量化操作的,因此可以模擬量化誤差,把誤差的梯度回傳到原來的參數上,使得原來的參數去自適應地感知量化產生的誤差。本文的實驗結果表明,量化感知訓練的方式可以避免模型的性能下降,而其計算效率成倍提升。

圖4 帶量化層的卷積操作Fig.4 Convolution with the quantization layer

4 面向車規級芯片的檢測驗證系統

本文在車規級計算芯片上搭建了對象檢測系統。為了達到這個目標,本文首先針對真實的自動駕駛場景收集了一批數據,并采用人工的方式進行數據標注。本文一共收集了兩批數據:泊車數據和公路數據。泊車數據在室外泊車場景采集,共有7 848張RGB圖像,每張圖像標注了2D的包圍框和物體接地點位置。如圖5所示,紅框是車輛的包圍框,彩色點是車輛的接地點。公路數據是在公路場景采集的,由22 213張RGB圖像組成,標注了3D的包圍框。

圖5 泊車數據和公路數據Fig.5 Parking data and road data

成本是智能算法在自動駕駛場景面臨的一個重要的問題。自動駕駛場景復雜廣泛,如果使用全監督的方式進行數據標注,標注成本將不可估量。其次,對象的3D信息是保障自動駕駛安全可行的一種重要數據,但其采集設備代價昂貴,不適合車輛量產。對此,本文設計了一套從2D圖片到3D空間推斷的對象檢測流程。具體來說,本文用泊車數據中的2D包圍框和接地點訓練了所提出的基于中心卷積的對象檢測模型CRCenterNet,然后利用輸出的2D框和接地點信息,逆投影到世界坐標系中,得到對象的3D位置信息,即輸入是2D圖像,輸出是3D位置信息(這里用鳥瞰圖表示,如圖6所示)。在訓練階段,CRCenterNet只在泊車數據上訓練,測試時只在公路數據上進行測試。實驗發現,盡管模型在訓練過程中沒有感知到公路數據上的對象信息,但是在公路數據上仍然具有較好的性能,說明模型具有較好的泛化能力。

圖6 自動駕駛的檢測任務Fig.6 A detection task toward the autopilot

芯片的計算效率是限制深度模型在車載系統上應用的一個關鍵因素。本文采用常用的tda4芯片來搭建對象檢測算法驗證系統。首先將訓練好的CR-CenterNet模型進行量化(如第3節內容所述),然后注入到tda4芯片上進行運算。整體的開發流程如圖7所示。

圖7 面向車規級芯片的檢測系統構建Fig.7 Constructing the detection system on car-level chips

5 實驗

5.1 中心卷積

在本節中,將驗證所提出的中心卷積的有效性。ImageNet是目前國際上主流的大型圖像分類評測集,在人工智能的發展史上具有舉足輕重的地位。AlexNet[14]、VGGNet[15]、GoogleNet[16]、ResNet[4]和DenseNet[17]的成功都離不開ImageNet,ImageNet也已經成為計算機視覺領域的標準數據集。研究者通常會使用ImageNet來驗證新提出的模型的有效性,然后在下游任務上進行驗證,如對象檢測[1-2,18]、實例分割[19-21]、行人重識別[22-24]等。

因此,本文在ImageNet上對C-ResNet18進行了預訓練,并在圖像分類任務上展示其有效性。在訓練時,本文采用批訓練(batch)的方式來訓練C-ResNet18,每批次采樣256張圖片,并訓練120輪。模型的訓練學習率設置為0.1,采用簡單的數據增廣策略,如隨機裁剪和隨機水平翻轉。

為了展示所提出的中心卷積的有效性,本文把ResNet18作為基線模型,并和C-ResNet18進行對比。對比結果如表1所示。

表1 在ImageNet上的分類準確率Table 1 Classification accuracy on ImageNet %

為了對比公平,這里展示了由pytorch官方提供的ResNet18結果(ResNet18-torchvision)和本文復現的ResNet18的結果(ResNet18-Ours)。從表1的實驗結果可以看出,相比于ResNet18-torchvision,本文復現的ResNet18獲得了更高的分類準確率,原因是本文采用更好的訓練技巧。而本文所提出的C-ResNet優于ResNet18-torchvision和ResNet18-Ours,其中,相比于ResNet18-torchvision,C-ResNet18在 top-1準確率上提高了1.83%,在top-5準確率上提高了1.24%;相比于ResNet18-Ours,C-ResNet18在 top-1準確率上提高了0.84%,在top-5準確率上提高了0.48%。和ResNet18-Ours的性能對比,可以看出所提出的中心卷積對模型性能的增益效果顯著,很好地證明了所提出的中心卷積的有效性。

5.2 CR-CenterNet

本節驗證所提出的中心卷積在本文所構建的面向自動駕駛真實場景中的對象檢測任務的應用效果。本文使用所構建的基于中心卷積的對象檢測模型(CR-CenterNet,見1.2節)在泊車數據上進行模型訓練,實現接地點的預測。盡管泊車數據上提供了2D框的標注數據,但本文致力于研究從2D數據中推斷出對象的3D空間位置。因此,本文構建CR-CenterNet時只預測跟對象有關的接地點位置,然后使用逆投影算法[25]推斷對象的3D空間位置信息,并可視化真實場景的鳥瞰圖。

考慮到對象檢測模型的復雜度較高,因此,本文訓練CR-CenterNet時采用分布式訓練方式。具體來說,本文使用3張2 080Ti的英偉達顯卡訓練模型,每張卡在一個批次內訓練3張圖片,即批次大小是9。本文設置CR-CenterNet的學習率為3e-5。整體訓練進行了300輪,并保存最后一輪的結果進行模型評測。

為了驗證CR-CenterNet的性能,本文也基于ResNet18訓練了CenterNet模型(R-CenterNet)。在模型評測時,本文計算鳥瞰圖模式下,算法推斷的包圍框和人工標注的包圍框的交并比,將交并比大于0.5的預測當作是正確的預測。表2展示了基線模型R-CenterNet和本文的CR-Center-Net的整體性能對比。

表2 R-CenterNet和CR-CenterNet的性能對比Table 2 Performance comparison between R-Center-Net and CR-CenterNet %

從表2可以看出,CR-CenterNet可以比RCenterNet獲得5.9%的提升,進一步證明了所提出的中心卷積在這個任務上的有效性。

圖8展示了算法的對象檢測效果,包括CRCenterNet預測的接地點,以及逆投影后的鳥瞰圖效果。圖8(a)中也展示了標注的包圍框,圖8(b)中綠色的是標注的鳥瞰圖矩形框,紅色的是使用R-CenterNet得到矩形框,橙色的是使用CR-CenterNet得到的矩形框。可以看到,即使因為遮擋問題而無法從圖像中直接看出接地點,所提出的CR-CenterNet也可以有效推斷出對象的接地點;相比于R-CenterNet,CR-CenterNet對對象的3D空間位置推斷(鳥瞰圖)更加準確,也側面說明了所提出的CR-CenterNet的有效性和優越性。

圖8 對象檢測效果可視化Fig.8 Visualization of detected objects

5.3 面向車規級芯片的模型驗證系統

Tda4芯片是一款由世界第三大半導體制造商德州儀器(TI)推出的面向新一代智能駕駛應用的車規級芯片,具有性能強、成本低、功耗低、安全性較高等優勢,因此被許多汽車廠商和一級供應商選為計算平臺。本文采用基于量化的方法成功將所提出的基于中心卷積的對象檢測模型部署到該款車規級芯片tda4上。為了展示模型在tda4上的推理性能,在不同的計算平臺上部署了本文提出的CR-CenterNet,并測試了模型處理單張圖片的時間開銷。表3展示了各個平臺上的時間開銷對比情況。

表3 不同平臺上CR-CenterNet的時間開銷Table 3 Time consumption of CR-CenterNet in various platforms.

本文選擇了6種不同的計算平臺,包括服務器端CPU和GPU、筆記本CPU和GPU、芯片模擬器和車規級芯片tda4,對比結果如表3所示。可以看到,在服務器端,無量化版的CR-CenterNet在CPU上達到776 ms的時間開銷,而量化版的CR-CenterNet在tda4上可以提升超10倍,時間開銷下降到64 ms。由此可見,量化版的深度模型可以在計算性能更受限的車規級芯片上取得比服務端高性能CPU更優的計算速率。

此外,本文所采取的量化方法在訓練過程中進行,可以抵抗由于量化所導致的模型精度的驟降。表4展示了CR-CenterNet在量化前后的檢測性能的對比,可以觀察到,經過量化感知訓練的模型在檢測效果上跟量化前的模型差異不大(僅下降了1.4%)。

表4 量化對模型效果的影響Table 4 Impact of the quantification method on the detection performance %

從上述分析可以看到,基于量化的部署方法可以提升模型的計算效率且保持模型的精度,滿足了車規級芯片的計算需求,因此,本文將整套算法集成到支持tda4芯片的開發板上,形成一套面向車規級芯片的檢測模型驗證系統。圖9展示了利用tda4進行計算得到的檢測效果。可以看到,對于輸入的RGB圖片,所構建的車規級芯片驗證系統能夠準確地給出3D空間位置信息(鳥瞰圖)。

圖9 面向車規級芯片的對象檢測模型驗證系統Fig.9 Object detection model verification system for carlevel chips

6 結束語

本文針對自動駕駛場景下智能模型計算效率要求高和終端設備計算資源受限的矛盾,提出了基于中心卷積的輕量化卷積神經網絡和基于量化的深度模型部署方法。所提出的中心卷積在訓練時為標準3×3卷積引入了1×1卷積旁路,可以增強模型對視覺信息的學習,而在推理時,可以方便地將旁路融合進3×3卷積中,減少了計算量且保持了和原來模型一樣的性能。所采用的量化模型部署方法可以降低模型的大小,在保持量化前模型精度的情況下成倍提升模型的計算效率。基于輕量化中心卷積結構和量化技術,本文成功將深度對象檢測模型在車規級芯片tda4上部署,在自動駕駛場景上取得了良好的檢測性能。未來,有望集成到真實車輛駕駛系統中,在真實自動駕駛場景下發揮更大的作用。

猜你喜歡
深度檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
深度理解一元一次方程
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
深度觀察
深度觀察
深度觀察
主站蜘蛛池模板: 福利姬国产精品一区在线| 国产91小视频| 中文精品久久久久国产网址| 欧美日韩高清在线| 91po国产在线精品免费观看| 99国产精品一区二区| 精品国产亚洲人成在线| www.亚洲一区| 在线国产毛片| 亚洲水蜜桃久久综合网站| 国产一区二区三区精品欧美日韩| 久久精品波多野结衣| 日本国产精品一区久久久| 国产大全韩国亚洲一区二区三区| 亚洲国产欧美国产综合久久| 人妻夜夜爽天天爽| 亚洲人成人无码www| 欧美第一页在线| 午夜成人在线视频| 无码日韩人妻精品久久蜜桃| 精品国产免费观看一区| 久久国产亚洲偷自| 99在线视频精品| 亚洲va视频| 五月婷婷导航| 国产精品55夜色66夜色| 国产午夜人做人免费视频中文| 黄色网站在线观看无码| 精品少妇人妻av无码久久| 少妇精品在线| 国产精品免费电影| 日本久久网站| 亚洲毛片网站| 国产乱子伦无码精品小说| 欧美性天天| 美女扒开下面流白浆在线试听 | 久久91精品牛牛| 456亚洲人成高清在线| 97人人模人人爽人人喊小说| 国产在线精品香蕉麻豆| 超清无码熟妇人妻AV在线绿巨人| 91亚洲免费视频| 国产香蕉在线| 国产精品成人不卡在线观看| 欧美国产三级| 亚洲视频a| 亚洲无码日韩一区| 精品伊人久久久香线蕉| 久久77777| 亚洲欧美国产五月天综合| 亚洲第一av网站| 四虎亚洲精品| 天天色综合4| 久久精品一卡日本电影| 亚洲无码熟妇人妻AV在线| 亚洲高清中文字幕在线看不卡| 亚洲AⅤ永久无码精品毛片| 91伊人国产| 亚洲成人在线网| 亚洲国产理论片在线播放| 精品国产免费观看一区| 中国一级毛片免费观看| 玖玖精品视频在线观看| 亚洲精品色AV无码看| 丁香亚洲综合五月天婷婷| 人与鲁专区| 秋霞午夜国产精品成人片| a级免费视频| 色婷婷色丁香| 久久精品欧美一区二区| 国产欧美日韩18| 欧洲亚洲欧美国产日本高清| 国产v精品成人免费视频71pao| 1级黄色毛片| 999国产精品永久免费视频精品久久 | 欧美一道本| av一区二区人妻无码| 一区二区影院| 亚洲美女视频一区| 亚洲天堂网在线观看视频| 亚洲精品无码抽插日韩| 在线视频亚洲欧美|