面向文本檢測的NMS加速器設(shè)計(jì)

2023-10-12 01:11:12屠程力陳章進(jìn)

計(jì)算機(jī)工程與設(shè)計(jì) 2023年9期

屠程力，陳章進(jìn)，2，喬棟

(1.上海大學(xué) 微電子研究與開發(fā)中心，上海 200444；2.上海大學(xué) 計(jì)算中心，上海 200444)

0 引言

對自然場景中的文本圖片進(jìn)行批量檢測是自動(dòng)駕駛和場景分類等工業(yè)應(yīng)用的基礎(chǔ)，鑒于自然場景中的文本有寬高比差異大和背景光照復(fù)雜等特點(diǎn)，使用神經(jīng)網(wǎng)絡(luò)提取特征并輸出多個(gè)高置信度候選框的深度學(xué)習(xí)檢測方法受到廣泛歡迎。該方法根據(jù)候選框提取的方式不同分為區(qū)域建議，如SegLink[1]、RRD[2]和分割融合，如EAST[3]、SPC-Net[4]。鑒于神經(jīng)網(wǎng)絡(luò)輸出的是多個(gè)置信度不同的候選框，因此通過非極大值抑制算法，即NMS(non-maximum suppression)作為后處理算法[5]，將交并比較高而置信度較低的候選框刪去，其偽代碼[6]如下，其中N為交并比閾值，B為檢測框集，S為檢測框?qū)?yīng)的置信度集，D為保留的目標(biāo)框集。

NMS algorithm

(1)D←{}

(2) whileB≠empty do

(3)m←argmaxS

(4)M←b[m]

(5)D←D∪M;B←B-M

(6) forb[i] in B do

(7) if then iou (M,b[i])≥N

(8)B←B-b[i];S←S-s[i]

(9) end if

(10) end for

(11) end while

隨著拍攝像素的提高，經(jīng)過神經(jīng)網(wǎng)絡(luò)產(chǎn)生的檢測框數(shù)由數(shù)十個(gè)上升到數(shù)百個(gè)，NMS為高復(fù)雜度的貪婪算法，其耗時(shí)與檢測框數(shù)的平方成正比，因此后處理耗時(shí)的比重不斷提高。以EAST算法為例，NMS算法的效果如圖1(a)所示，檢測算法各部分的耗時(shí)如圖1(b)所示，NMS作為后處理算法占總檢測時(shí)間的41%，嚴(yán)重阻礙了檢測算法的實(shí)時(shí)性。

圖1 NMS算法效果和耗時(shí)分析

本文優(yōu)化候選框的排序方法和單次交并比的計(jì)算公式，實(shí)現(xiàn)低耗時(shí)和低功耗的NMS加速器，可以作為異構(gòu)加速器與神經(jīng)網(wǎng)絡(luò)檢測并行運(yùn)算。

1 相關(guān)工作

針對NMS算法延遲過大的問題，文獻(xiàn)[7]將后處理與神經(jīng)網(wǎng)絡(luò)中的池化層相結(jié)合，利用神經(jīng)網(wǎng)絡(luò)專用框架進(jìn)行加速，充分利用高效軟件庫的接口，但該方法缺少泛用性，需要針對特定文本數(shù)據(jù)集進(jìn)行訓(xùn)練。為此，在不改變神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的前提下，文獻(xiàn)[8]針對語義分割后，檢測框緊密圍繞目標(biāo)文本的特點(diǎn)，將交并比較高的檢測框以置信度為權(quán)重進(jìn)行坐標(biāo)合并，在精簡的檢測框集合上進(jìn)行NMS后處理，但該方法的初衷是降低后處理的計(jì)算復(fù)雜度，本質(zhì)仍是基于CPU的順序運(yùn)算，其延遲較高無法滿足實(shí)時(shí)性的要求。

目前，對復(fù)雜算法進(jìn)行加速不再局限于CPU平臺[9]，神經(jīng)網(wǎng)絡(luò)各階段的加速平臺開始向TPU[10]和FPGA[11]轉(zhuǎn)移，受到上述研究影響，對NMS算法進(jìn)行加速的通常做法是在計(jì)算結(jié)構(gòu)上進(jìn)行改良，以圖2(a)中的3個(gè)目標(biāo)和8個(gè)檢測框?yàn)榇幚硎纠?種常見的加速方法如圖2所示。其中圖2(b)為文獻(xiàn)[12]與卷積加速一同提到的高并行NMS方法，通過36個(gè)計(jì)算單元同時(shí)計(jì)算出8個(gè)檢測框之間的交并比，并將交并比與閾值的比較結(jié)果存入8×8的布爾矩陣，最后采用邏輯“與”的運(yùn)算刪去冗余檢測框。但該方法需要的計(jì)算單元與檢測框的平方成正比，同時(shí)需要額外的存儲空間存放中間數(shù)據(jù)。因此為了改進(jìn)計(jì)算單元消耗過大和中間數(shù)據(jù)存放過多的問題，文獻(xiàn)[13]提出了基于PBBT(position-based bit table)的加速方法，如圖2(c)所示，先將檢測框以置信度從高到低排序，第一次迭代時(shí)，以首個(gè)檢測框?yàn)榛瑒?dòng)窗口起始點(diǎn)，將該框與剩下的檢測框依次計(jì)算，其結(jié)果存儲在PBBT表中，用1 bit狀態(tài)位表示與起始點(diǎn)相比是否冗余并附加檢測框的存儲地址，以此大幅節(jié)約中間數(shù)據(jù)的存儲空間，第二次迭代時(shí)，以第二個(gè)“1”狀態(tài)所在的檢測框?yàn)槠鹗键c(diǎn)重復(fù)上一輪操作，直到遍歷完所有“1”狀態(tài)框。該方法采用多個(gè)滑動(dòng)窗口來保證每次迭代能同時(shí)進(jìn)行，但需要對檢測框提前排序，導(dǎo)致計(jì)算延遲較高。

圖2 3種常見的加速方法

為了避免提前排序帶來的延遲，文獻(xiàn)[14]提出的保留最值辦法，如圖2(d)所示，針對置信度大小排列為亂序的檢測框，加入一個(gè)最值模塊，該模塊存儲前一次迭代中置信度最高的n個(gè)檢測框，下次迭代從n個(gè)檢測框中挑選置信度次高的檢測框，并以該檢測框?yàn)槠瘘c(diǎn)，逐個(gè)比較次高檢測框與其它框的重合程度。鑒于該方法的起始點(diǎn)由前次迭代產(chǎn)生，因此不同迭代之間無法并行計(jì)算，另外，容易存在置信度次高框在前一次迭代中滿足交并比條件，歸類為冗余框后刪除，造成最值模塊未命中下一個(gè)起點(diǎn)，需要重新迭代尋找高置信度檢測框的步驟。

2 面向文本檢測的加速方法

在采用深度學(xué)習(xí)方法檢測文本的算法中，神經(jīng)網(wǎng)絡(luò)輸出的是批量隨機(jī)位置的檢測框，而隨著檢測框數(shù)的逐步提升，以文獻(xiàn)[13]為代表的加速方法并行度較高但需要提前排序，其計(jì)算復(fù)雜度為O(N2)，不適合文本檢測任務(wù)，而文獻(xiàn)[14]的方法能處理亂序排列的檢測框，但其并行度較低，無法充分利用嵌入式設(shè)備并行計(jì)算的優(yōu)勢。

本文首先分析文本檢測檢測框特點(diǎn)，如圖1(a)所示，待消除的冗余框緊密包圍目標(biāo)框，同時(shí)冗余框在橫坐標(biāo)的位置偏離不超過目標(biāo)框的長度，在縱坐標(biāo)的位置偏離不超過目標(biāo)框的寬度。因此考慮在比較交并比之前，先將檢測框基于位置范圍分類，而檢測框之間的交并比可以在各類之間并行計(jì)算，提高整體并行度。按位置范圍將兩個(gè)檢測框分為同類的依據(jù)如式(1)、式(2)所示，其中x1、y1、L和W分別為前一個(gè)檢測框的左下坐標(biāo)和長寬，x2、y2為下一個(gè)檢測框的左下坐標(biāo)，不等式左右兩邊為該類的4個(gè)位置閾值，存入閾值表

(1)

(2)

為了保證數(shù)據(jù)能夠被高效存儲，借鑒文獻(xiàn)[13]的PBBT(position-based bit table)方法，也采用附帶存儲框地址的位表來記錄檢測框狀態(tài)。但由于需要記錄類別信息，因此將比特位擴(kuò)展到7位，其中前5位用來記錄該框所屬的類別，后2位記錄該檢測框經(jīng)交并比比較后的3種狀態(tài)，其中寫入“0”表示該框交并比超過閾值被刪除且后續(xù)不進(jìn)行其它操作，“1”表示作為起始框與其它框進(jìn)行比較，“2”表示該框交并比低于閾值并進(jìn)入下一輪比較。

以圖2(a)為待處理示例，本文方法如圖3所示，一共分為兩階段。第一階段如圖3(a)所示，根據(jù)檢測框的坐標(biāo)位置將檢測框分類，將各類的位置范圍存入閾值表，將該框所屬的類別寫入PBBT，PBBT的存儲順序與檢測框的存儲地址為一對一映射，因此無需改變檢測框的存儲空間，在計(jì)算交并比時(shí)，直接通過PBBT中存放的地址索引下一個(gè)檢測框的坐標(biāo)信息。

圖3 面向文本檢測的加速方法

第二階段為圖3(b)所示，分類完成后進(jìn)入檢測框的交并比計(jì)算階段，該階段需要包含兩次迭代過程：

第一次迭代按類別進(jìn)行并行計(jì)算，同一類別內(nèi)的比較采用文獻(xiàn)[13]中單個(gè)起始點(diǎn)并行計(jì)算多個(gè)檢測框的模式，但處理狀態(tài)位的方式不同：所有檢測框的狀態(tài)初始化為“2”，第一步將首個(gè)存儲框的狀態(tài)修改為“1”，以該框?yàn)槠鹗键c(diǎn)與其它框比較交并比，若交并比高于閾值N則不修改檢測框狀態(tài)，若低于閾值則將檢測框刪去并將狀態(tài)位修改為“0”。第一步中同時(shí)比較置信度大小，若起始點(diǎn)置信度低于檢測框而交并比高于閾值，則狀態(tài)修改后交換狀態(tài)，并將該檢測框?yàn)槠鹗键c(diǎn)與剩余的檢測框比較交并比，保證狀態(tài)“1”所在檢測框?yàn)閷?yīng)目標(biāo)的置信度最高位置。第一步結(jié)束后，若存在狀態(tài)“2”的檢測框，則進(jìn)行第二步，將首個(gè)狀態(tài)“2”修改為“1”框并與剩下的狀態(tài)“2”進(jìn)行比較。重復(fù)上述步驟，直到不存在狀態(tài)位“2”時(shí)為止。以圖3(b)中的類別3為例，第一步中b3將b8狀態(tài)修改為“0”，第二步中的b5將b7狀態(tài)修改為“0”，此時(shí)不存在狀態(tài)“2”檢測框。

第二次迭代，比較所有狀態(tài)“1”之間的重復(fù)率，刪去超過閾值的檢測框，此時(shí)剩余檢測框數(shù)較少，無需通過修改狀態(tài)“2”的方式保留中間數(shù)據(jù)。如圖3(b)中的b2檢測框刪去b5檢測框。

基于位置范圍的分類本質(zhì)是將目標(biāo)周圍的檢測框視為同類，但同類檢測框可能混入屬于其它目標(biāo)的檢測框，因此需要第二次迭代，在按類刪去檢測框的基礎(chǔ)上比較剩余檢測框之間的交并比，此時(shí)剩余的檢測框少，計(jì)算復(fù)雜度低。若從內(nèi)存中取出坐標(biāo)并計(jì)算所消耗的時(shí)間視為一次計(jì)算延遲，以圖1(a)中3個(gè)目標(biāo)和8個(gè)檢測框?yàn)槔瑸榱送瓿梢淮蜰MS算法，文獻(xiàn)[13]在比較前需要冒泡排序，所需的延遲為67次。文獻(xiàn)[14]按最值模塊全部命中計(jì)算，一共需要32次延遲。而本方法在第一階段中，基于位置范圍的分類需要8次延遲，在第二階段中，類間和類內(nèi)的計(jì)算可以同時(shí)進(jìn)行，因此本文一共需要12次延遲，計(jì)算復(fù)雜度大幅降低。

3 硬件結(jié)構(gòu)

3.1 系統(tǒng)結(jié)構(gòu)

面向文本檢測的NMS加速器由DDR存儲器、控制模塊、閾值表THT(threshold table)、位表PBBT和計(jì)算單元組(computation unit)組成。整體結(jié)構(gòu)如圖4所示。

圖4 系統(tǒng)結(jié)構(gòu)

DDR存儲器存放檢測框的坐標(biāo)信息和置信度。控制單元根據(jù)PBBT中存儲的狀態(tài)位是否為“1”，決定迭代起始點(diǎn)并分配檢測框數(shù)據(jù)，計(jì)算單元組負(fù)責(zé)在各類檢測框之間并行計(jì)算交并比，同時(shí)比較交并比是否超過閾值、檢測框之間是否完全覆蓋和起始點(diǎn)置信度是否為較大值。

為了更好地說明閾值表和PBBT如何存儲對應(yīng)數(shù)據(jù)，將實(shí)驗(yàn)過程的中間數(shù)據(jù)進(jìn)行展示，如圖5(a)所示，閾值表用來記錄基于位置范圍分類的閾值信息，XL、XR、YU、YD和C分別表示該類位置區(qū)域的左右橫坐標(biāo)范圍、上下縱坐標(biāo)范圍和類號。如圖5(b)所示，PBBT負(fù)責(zé)記錄檢測框的狀態(tài)、分類和存儲地址，Key、C、S分別表示偏移地址、類號和狀態(tài)。如圖5所示，該實(shí)驗(yàn)一共分為18類檢測框，偏移地址為“01”的檢測框?yàn)椤?2”類的起始檢測框，偏移地址為“02”的檢測框交并比高于閾值被刪除，偏移地址為“FF”的檢測框?yàn)榇容^檢測框。

圖5 閾值表和位表的存儲示例

加速器啟動(dòng)時(shí)，THT和PBBT被初始化，其中PBBT上的狀態(tài)位初始化為“2”，其它位清零，控制單元迭代所有檢測框并基于位置范圍分類：

首先，第一個(gè)檢測框視作第一類，將該框的閾值范圍存入THT，將該框的偏移地址和類號寫入PBBT。其次將下一個(gè)檢測框與第一類的位置閾值進(jìn)行比較，若檢測框的左下點(diǎn)坐標(biāo)在閾值范圍內(nèi)則視作同類，否則視為第二類并將該類閾值寫入THT。重復(fù)上述操作，直到整張圖片的檢測框都遍歷一遍，此時(shí)完成基于位置范圍的檢測框分類。在ICDAR2015數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，分類后的類別數(shù)不超過20個(gè)，檢測框數(shù)不超過900個(gè)，因此THT的長度設(shè)為32，PBBT的長度設(shè)為1024。

基于位置范圍的分類完成后，控制單元負(fù)責(zé)派發(fā)各檢測框數(shù)據(jù)，考慮到各類之間的交并比可以并行計(jì)算，因此結(jié)合數(shù)據(jù)集的實(shí)際情況將計(jì)算單元組的列數(shù)設(shè)為8，每列負(fù)責(zé)一類，最大支持8類檢測框的并行計(jì)算。同時(shí)將行數(shù)設(shè)為16，保證在確定起始點(diǎn)后，同類的檢測框之間，支持16個(gè)剩余檢測框與起始點(diǎn)同時(shí)比較交并比。控制單元根據(jù)PBBT中的偏移地址將“1”和“2”狀態(tài)的檢測框數(shù)據(jù)發(fā)送到計(jì)算單元組，最大不超過128個(gè)，同時(shí)根據(jù)返回的比較結(jié)果更新PBBT數(shù)據(jù)。

3.2 針對交并比的計(jì)算單元優(yōu)化

ALU為計(jì)算單元組中的基礎(chǔ)模塊，負(fù)責(zé)計(jì)算兩個(gè)檢測框之間的交并比并比較置信度大小。以檢測框B1和B2為例，比較兩者交并比是否大于閾值的計(jì)算如式(3)所示

(3)

上述公式中關(guān)于面積的計(jì)算需要4個(gè)乘法器和一個(gè)除法器來完成，鑒于計(jì)算單元決定了加速器的整體功耗和資源消耗，而乘法和除法操作占用的硬件資源遠(yuǎn)高于其它運(yùn)算，因此考慮對不等式兩邊進(jìn)行縮放來減少乘法和除法運(yùn)算。

將檢測框B1和B2的位置分別用左下點(diǎn)坐標(biāo) (x1，y1)(x2，y2)，框?qū)抴1w2和框高h(yuǎn)1h2表示。首先，觀察到交并比公式中兩框的并面積與最大面積之間存在式(4)所示的大小關(guān)系，因此采用式(4)對式(3)的分母進(jìn)行縮放。再對不等式兩邊開方，并將新的分母移到不等式右側(cè)，此時(shí)的不等式如式(5)所示

(A(b1)+A(b2)-A(b1∩b2))≥max(A(b1)，A(b2))

(4)

(5)

若忽略開方運(yùn)算，此時(shí)不等式不包含除法操作，但仍需四次乘法才能比較閾值，鑒于存在兩值平均值大于等于兩值開方的定理，即式(6)。為了滿足定理?xiàng)l件，通過式(7)將兩框并面積用坐標(biāo)和寬高來表示，此時(shí)可以將不等式的左側(cè)按式(6)進(jìn)行縮放，同時(shí)將框最大面積的也用坐標(biāo)和寬高來代入，即式(8)

(6)

A(b1∩b2)=(min(x1+w1，x2+w2)-max(x1，x2))×(min(y1+h1，y2+h2)-max(y1，y2))

(7)

max(A(b1)，A(b2))=max(w1×h1，w2×h2)

(8)

(9)

ALU模塊負(fù)責(zé)比較交并比和置信度，引入額外約束會大幅增加計(jì)算單元的面積。因此考慮在實(shí)現(xiàn)完全覆蓋約束時(shí)，將式(9)中的部分條件判斷復(fù)用，減少硬件資源的消耗。復(fù)用后的約束條件如式(10)、式(13)所示，當(dāng)4項(xiàng)公式全部成立時(shí)，b2是被b1完全覆蓋的小尺寸框，b2成為待刪去的冗余框。完整的判斷邏輯如圖6所示，ALU單元的輸入是待比較候選框的左下坐標(biāo)、框?qū)捄涂蚋撸敵鼋徊⒈群椭眯哦鹊谋容^結(jié)果。將交并比的判斷條件復(fù)用后，計(jì)算是否完全覆蓋只需額外的兩個(gè)與門、一個(gè)后門和兩個(gè)比較器，進(jìn)一步降低計(jì)算單元對硬件資源的消耗

圖6 三級流水線的ALU單元

x1+w1≥x2+w2&x1≥x2

(10)

x2+w2≥x1+w1&x2≥x1

(11)

y1+h1≥y2+h2&y1≥y2

(12)

y2+h2≥y1+h1&y2≥y1

(13)

在時(shí)序約束方面，鑒于乘法器的延遲較大，而硬件實(shí)現(xiàn)過程中有平衡各周期延遲的要求，因此將ALU單元?jiǎng)澐譃槿壛魉€結(jié)構(gòu)，如圖6所示，第一個(gè)周期完成加減法和初始條件判斷，延遲相近的雙與門級聯(lián)和乘法器安排在第二個(gè)周期，置信度和交并比的比較在最后一個(gè)周期，此時(shí)各個(gè)關(guān)鍵路徑的延遲最小。

鑒于計(jì)算單元同時(shí)包含置信度的比較，ALU采用雙比特輸出表示計(jì)算結(jié)果：控制模塊負(fù)責(zé)分發(fā)起始框和檢測框的數(shù)據(jù)，將兩框的左下坐標(biāo)、框?qū)捄蛯捀咻斎階LU，經(jīng)過計(jì)算后，輸出“10”表示該檢測框不滿足交并比條件，控制單元將PBBT對應(yīng)的狀態(tài)位設(shè)為“2”；輸出“00”表示兩框的交并比超過閾值或兩框滿足完全覆蓋條件，該檢測框?yàn)樾枰獎(jiǎng)h除的冗余框，PBBT的對應(yīng)狀態(tài)位設(shè)為“0”；輸出“11”表示額外滿足檢測框置信度較大的條件，此時(shí)該檢測框成為新的起始點(diǎn)，PBBT的狀態(tài)位設(shè)為“1”，起始點(diǎn)對應(yīng)的狀態(tài)位設(shè)為“0”，完成一次交并比計(jì)算。

4 實(shí)驗(yàn)與結(jié)果

為了評估硬件資源消耗情況，本文選擇PYNQ-Z2平臺，并以ZYNQ-XC7Z020芯片為核心部署面向文本檢測的NMS加速器，通過Verilog語言描述硬件模塊后，在vivado2019.1環(huán)境中進(jìn)行布局布線，工作頻率設(shè)為100 MHz，并通過內(nèi)置時(shí)序分析報(bào)告，確定加速器各條關(guān)鍵路徑滿足時(shí)序要求。加速器的資源消耗見表1，其中BRAM主要完成閾值表和PBBT的存儲，LUTRAM存放中間比較數(shù)據(jù)，與文獻(xiàn)[14]相比LUT占用減少12%，BRAM減少41%，說明通過多次縮放來優(yōu)化計(jì)算公式，減少計(jì)算交并比所需的乘法器與除法器和重用判斷條件等優(yōu)化方法能夠有效降低硬件資源的消耗。

表1 NMS加速器資源消耗情況

本文采用多次不等式縮放來簡化單次交并比的計(jì)算過程，該方法本質(zhì)上放寬了交并比的約束條件，保留了部分交并比在閾值附近的冗余框，為了探討是否能通過降低交并比閾值來刪去上述冗余框，采用計(jì)算機(jī)模擬縮放算法，設(shè)置階梯閾值進(jìn)行實(shí)驗(yàn)，其中文本檢測前置算法采用EAST方法，文本數(shù)據(jù)集為ICDAR2013水平文本數(shù)據(jù)集，其結(jié)果見表2，縮放后的NMS與標(biāo)準(zhǔn)NMS相比，在閾值為0.4時(shí)準(zhǔn)確率降低0.2%，而在閾值為0.8時(shí)準(zhǔn)確率降低5.1%，驗(yàn)證了降低閾值能減少不等式縮放損失的猜想，但閾值過高和過低都會帶來誤檢和漏檢的問題，因此本文NMS的閾值設(shè)為0.6。

表2 交并比閾值對準(zhǔn)確率的影響

為了進(jìn)一步評估FPGA平臺上本文加速器的文本檢測效果，我們對檢測指標(biāo)、計(jì)算延遲和性能等方面進(jìn)行評估，實(shí)驗(yàn)現(xiàn)場如圖7所示。

圖7 實(shí)驗(yàn)現(xiàn)場

首先將EAST文本檢測算法在ICDAR2013數(shù)據(jù)集上的處理結(jié)果預(yù)先存在SD存儲卡中，并將PYNQ-Z2上的PS處理器作為驗(yàn)證實(shí)驗(yàn)的數(shù)據(jù)控制器，通過AXI-Lite總線讀取候選框的位置信息，最后通過Jupyter Notebook添加測試任務(wù)并輸出實(shí)驗(yàn)結(jié)果。

為了比較不同后處理方法后的文本檢測指標(biāo)，我們在檢測框亂序存儲的基礎(chǔ)上，后處理方法分別選擇CPU實(shí)現(xiàn)的高準(zhǔn)確率NMS、本文的加速器方法和文獻(xiàn)[12]的模擬方法。實(shí)驗(yàn)結(jié)果見表3，相比誤差最小的NMS-CPU，本文方法的準(zhǔn)確率降低2.4%，召回率降低0.8%，同時(shí)與比文獻(xiàn)[13]相比，準(zhǔn)確率提高1.2%，召回率提高2.1%。說明雖然縮放過程會損失一定的準(zhǔn)確率，但本文引入完全覆蓋的約束條件，能刪去部分遺漏的冗余框，提高檢測準(zhǔn)確率。

表3 不同方法在ICDAR2013數(shù)據(jù)集上的效果

為了評估面向文本的NMS加速器性能，分別挑選文本目標(biāo)數(shù)為5、10和15的待處理圖片，采用本文方法、CPU上實(shí)現(xiàn)的NMS算法和NMS的優(yōu)化方法LANMS[3]作為后處理方法，比較三者的計(jì)算延遲，實(shí)驗(yàn)結(jié)果見表4。本文加速器的性能比NMS-CPU方法提高67倍，比LANMS方法提高38倍。說明本文能通過檢測框分類的方法降低計(jì)算復(fù)雜度，通過優(yōu)化計(jì)算公式的方法能減低單次交并比計(jì)算所需的周期。同時(shí)，按列并行計(jì)算異類檢測框和列內(nèi)并行計(jì)算同類檢測框的計(jì)算結(jié)構(gòu)有效，能通過提高NMS計(jì)算并行度的方式減低延遲，在多目標(biāo)的圖片上的延遲較小。

表4 不同目標(biāo)框數(shù)的計(jì)算延遲

為了衡量本文加速器與不同平臺實(shí)現(xiàn)NMS算法的優(yōu)勢，我們選擇同類后處理加速文獻(xiàn)進(jìn)行比較，鑒于文獻(xiàn)中給出的實(shí)驗(yàn)候選框數(shù)最多不超過1000且最少不低于500，因此將處理725個(gè)檢測框時(shí)的數(shù)據(jù)作為本文結(jié)果，比較結(jié)果見表5，對比數(shù)據(jù)來自對應(yīng)文獻(xiàn)。本文方法針對NMS的計(jì)算速度比CPU平臺的文獻(xiàn)[15]方法提高63倍，比同為FPGA平臺上的文獻(xiàn)[16]和文獻(xiàn)[14]分別提高7.1倍和1.8倍，同時(shí)硬件功耗與上述方法相比最低，僅為3.28 W。與TSMC工藝的文獻(xiàn)[13]相比算法延遲較大，但該方法要求檢測框的存儲按置信度從大到小排列，不支持亂序檢測框。上述對比說明，本文提出的面向文本檢測的NMS加速器延遲較低，能作為并行加速器提高文本檢測算法的實(shí)時(shí)性。

表5 NMS算法在不同平臺的性能比較

5 結(jié)束語

本文提出一種低延遲和低功耗NMS加速器設(shè)計(jì)方法，首先，該方法基于位置范圍對檢測框分類，通過各類并行和類內(nèi)并行的方式提高加速器的運(yùn)算效率。其次，通過多個(gè)縮放公式優(yōu)化交并比的計(jì)算方法，減少計(jì)算所需的乘法器和除法器，并補(bǔ)充完全覆蓋的約束條件，改善縮放造成的小尺度候選框保留問題。最后，復(fù)用交并比的判斷條件，并設(shè)計(jì)三級流水線的計(jì)算單元，進(jìn)一步減少硬件資源消耗較少。實(shí)驗(yàn)結(jié)果表明，在100 MHZ的FPGA平臺上，本文提出的NMS加速器相比CPU平臺計(jì)算性能提高67倍。