曾騰, 任露露,3, 王宇杰, 王朋, 黃海寧
(1.中國科學院 先進水下信息技術重點實驗室, 北京 100190;2.中國科學院 聲學研究所, 北京 100190;3.中國科學院大學, 北京 100049)
水下成像聲吶對水下環境認知具有重要的作用,除對水下環境進行成圖外,還能對水下目標實現檢測、跟蹤等[1]。三維成像聲吶相比于二維成像聲吶信息更加豐富,但是由于水下環境的特殊性,聲吶圖像的分辨率較低、容易出現信息缺失等問題,為三維成像聲吶的目標檢測與跟蹤帶來了巨大挑戰。
對于水下二維目標的檢測,國內外主要圍繞基于形狀的檢測算法進行研究。聲學成像由于受水深和光照的影響不大,需要利用灰度特征[2]和幾何特征來實現水下環境的目標檢測。基于圖像的運動目標檢測技術主要有幀差法、背景消減法和光流法[3-4]。幀差法是對前后兩幀間的像素進行逐個對比來突出目標的位置和形狀變化狀態,但在目標運動緩慢的情況下無法較好地檢測到目標[5]。背景消減法將背景信息作為目標提取的參考,原理與幀差法類似,適用于水下環境和發射聲強較為穩定的情況。光流法利用運動場來區分背景和目標,根據像素點的速度矢量特征能夠實現對圖像的動態分析[6-7],在水下這種信噪比低、遮擋等情況下并不適用。
對于水下二維目標的跟蹤方法,主要有基于濾波理論的跟蹤方法、基于MeanShift的跟蹤方法和基于偏微分方程的跟蹤方法[8]。基于濾波理論的方法利用數學統計方法來挖掘信號估計值,常見的有卡爾曼濾波方法、擴展卡爾曼濾波方法和粒子濾波方法。基于MeanShift的方法利用目標特征和空間信息相結合的方式來描述目標,但其對噪聲非常敏感,不適用于水聲圖像。基于偏微分方程的方法主要進行輪廓跟蹤,一般分為基于邊緣的模型和基于區域的模型兩類輪廓模型,其中Li等提出的基于LBF(Local Binary Fitting)的水平集方法模型[9],利用圖像在局部區域的信息,使用核函數的局部邊緣適應能量,獲取精確的局部圖像信息,從而實現強度不均的目標提取。
三維成像聲吶獲取的圖像主要顯示形態為三維點云,其主要特征表現為高稀疏性、不規則性以及缺乏紋理屬性。三維目標檢測在光學和雷達領域取得了顯著的進展,相比于二維目標檢測,三維目標檢測利用幾何、形狀和比例等信息來檢測目標。在光學和雷達領域,根據輸入數據的形態,三維目標檢測方法可以分為基于單目/立體圖像、基于點云和基于多模態融合的方法[10]。其中基于單目/立體圖像的方法中,通常采用基于模板匹配的方法、基于幾何特性的方法和基于圖像的偽激光雷達方法。但對于水下三維成像聲吶的目標檢測和跟蹤處于剛剛起步的階段,研究成果較少。水下環境相比水上存在太多不確定的干擾因素,水下成像聲吶分辨能力也遠遠達不到光學成像系統的精度,同時三維聲吶目標的稀疏性也與其他成熟系統圖像有著本質區別[11],因此無法將雷達、光電圖像處理算法直接應用到三維聲吶圖像處理中。
本文通過三維成像聲吶圖像的特性和二維、三維映射關系,在傳統的背景差分檢測方法和匹配濾波跟蹤方法基礎上,提出一種基于組合特征的水下三維目標檢測跟蹤算法。該算法對三維聲吶獲取的成像數據,首先經過濾波和分割預處理,并將目標的強度信息和距離信息映射到二維圖像上。在此基礎上,對多幀圖像進行累積獲取背景圖像,利用二維水平集核函數的思想,通過背景消減的方式得到目標核函數,并通過聯合目標的幾何特征進行模板匹配跟蹤,在確保檢測率的同時提高目標跟蹤效率。
假設三維成像聲吶接收平面陣的陣元數為64×64,陣元各向同性。發射聲波在傳播途中遇到聲阻抗變化,即聲波打到物體表面會發生反射和散射波。該過程示意圖見圖1,物體本身的特征信息會被調制到回波上。圖1中,Oxyz為笛卡爾坐標系。

圖1 三維成像聲吶工作示意圖Fig.1 Working diagram of 3D imaging sonar work
三維成像聲吶的接收面陣中的每個接收單元,可以接收到不同距離和不同方向的回波疊加形成的混合信息。根據三維成像聲吶的成像原理,對接收到的信號進行P×Q(P為俯仰角方向波束數,Q為方位角方向波束數)的波束形成,從而得到P×Q×S(S為生成的一系列距離切片的數量)大小的單幀數據[12],如圖2所示,其中S由聲吶探測距離L和距離分辨率RPr決定:

圖2 三維成像聲吶一幀波束能量結果Fig.2 Diagram of 3D imaging sonar beam energy per frame
(1)
圖2中,球面ABCD為其中一個距離切片,每個距離切片可以看作是距接收陣一定距離的二維能量分布圖,即切片包含P×Q個像素點,是探測波束對目標后向散射信號能量的體現,每個像素點由聲吶方位角、俯仰角和距離共同作用的信號回波強度決定[11,13]。
當成像范圍內存在目標時,該距離切片上的相應位置處會獲得較大的能量,反之則距離切片上各位置的能量很小。當單幀數據經由濾波和坐標轉換操作后,能夠將三維成像聲吶體數據的能量值一一映射到三維坐標系中,形成一系列形式為(x,y,z,I)的數據點集合,即三維點云形式,其中I為該數據點能量值(散射強度)。
三維聲吶體數據的能量分布反映了目標的外表形狀分布,而忽略了目標表面后面的結構。為了對三維結構的聲吶圖像數據進行分析研究,除直接作用于點云形式,還可以將三維體數據按照一定的規律,拆解成緊密關聯的二維圖像集合,即強度圖和距離圖[11,13]。
基于此,對于圖3中的波束,本文只關注兩個參數,即到目標表面(若存在目標)的距離和聲波響應的幅值。通常通過尋找波束信號包絡的最大峰值位置來確定散射目標的距離[14],如圖4所示。波束信號包絡bb(t,)指向方向=(θa,θe),并在t*時刻獲得包絡最大值s*,其中θa為聲吶方位角,θe為聲吶俯仰角。由此可以得到相應的距離和相應的聲波響應幅值v*=bb(t*,),其中c=1 500 m/s 為水下聲波傳播速度。兩個參數的關聯性代表目標在測量距離r*上目標存在的聲波響應幅值(可看作置信程度)為v*。

圖3 三維聲吶波束指向示意圖Fig.3 Diagram of 3D sonar beam direction

圖4 波束包絡bb(t,)Fig.4 Diagram of beam envelope bb(t,)

圖5 強度圖和距離圖示意圖Fig.5 Diagram of intensity and distance
背景消減法用當前幀圖像減去背景圖像,得到信息量相對較小的差分圖像。對差分圖像的所有像素點與設定閾值做遍歷運算,將大于閾值的像素點歸為目標點,將小于閾值的像素點歸為背景點,從而實現運動目標的檢測[15]。其流程圖如圖6示。圖6中,Ik(x,y)為第k幀輸入圖像,Bk(x,y)為背景圖像,Dk為差分圖像,Ek(x,y)為差分圖像的二值化圖像。

圖6 基于背景消除法的目標檢測流程Fig.6 Diagram of target detection based on background elimination method
則
Dk(x,y)=|Ik(x,y)-Bk(x,y)|
(2)
對差分圖像進行二值化處理,即可得到對應的二值化圖像Ek(x,y):
(3)
式中:T為二值化閾值。
匹配技術屬于基于決策理論方法的識別方法,可以用于目標識別、目標跟蹤、圖像拼接等方面。其原理是基于匹配的技術通過原型向量來表示每個類,并根據一種預先定義的測度,將一個未知模式賦予最接近的類[16]。
在三維聲吶的目標匹配中,采用模板匹配的方式,其基本原理是利用樣本模板,與待匹配圖像進行對比[17]。從待匹配圖像的左上角像素點開始,對比樣本模板和與其大小一樣的待匹配圖像范圍,按照一定的決策準則計算匹配程度,直至樣本模板平移覆蓋整幅待匹配圖像,匹配程度最高的區域即目標所在區域,原理如圖7所示。圖7中,W為二維檢測框寬度,H為二維檢測框高度,I(i,j)為第(i,j)個點的強度值,Im為匹配模板圖像。

圖7 模板匹配原理示意圖Fig.7 Diagram of template matching principle
通過最小距離分類器[16]實現匹配跟蹤的決策,假設每個模式類的原型定義為該模式的平均向量:
(4)
式中:ωj為第j個模式類;Nj為來自類模式向量的數量;xj為第j個模式中的未知模式向量;Nω為類數。采用歐式距離求接近程度,將未知模式向量x賦給最接近的原型類,則問題簡化為計算距離測度:
Dj(x)=‖x-mj‖,j=1,2,…,Nω
(5)
式中:‖a‖=(aTa)1/2為歐幾里得范數。在Dj(x)獲得最小值時,則將x賦類給ωj。
三維聲吶圖像的主要處理形式是點云形式。由于外界環境和目標物理特性等影響,獲取的點云數據量大,且存在大量非目標干擾點,給后續的點云數據處理和應用帶來很大的影響[11]。為了極大程度地壓縮數據量,并抑制干擾信息,需要對三維點云進行圖像預處理。一般來說,三維成像聲吶單幀圖像中強度值越高,代表該點為目標的可能性越大,同時,目標與周邊環境和干擾的強度值差異明顯,可以作為預處理方法的依據。因此,本文對三維圖像的預處理主要采用濾波和分割的方式,包括最大值濾波、閾值濾波和直通濾波。
首先采用固定閾值處理方法,將閾值固定在最大像素值的22%,即-3 dB最大旁瓣處,直接作用于波束信號進行濾波。之后根據聲源位置和已知水深確定距離向的范圍,通過直通濾波過濾掉距離范圍之外的數據點。為了進一步精簡點云,利用最大值濾波進行數量壓縮[18]。根據圖2可知,單幀三維聲吶圖像是多個距離切片的形式,而切片上的像素點對應波束的方位角和俯仰角。本文認為,對于任意一個方向的波束,將能量看作是距離的分布直方圖,可以在所有的距離切片中找到一個最大值,且該點確定的方位角、俯仰角和距離認為是目標存在的位置,如圖8所示。因此,最大值濾波對所有波束進行一系列距離切片的最大值檢索,可以得到最有可能出現目標的位置集合。圖8中,nmax為當前波束強度最大值對應切片索引值,Imax為當前波束強度最大值。

圖8 最大值濾波距離切片能量分布Fig.8 Slice energy distribution at the maximum filtering distance
強度圖是聲波響應幅值v*與點對(x*,y*)關聯得到的(x*,y*,v*)形式,代表了目標存在的置信程度。由于三維點云形式的相關卷積操作較為困難,對三維聲吶圖像的處理從強度圖和距離圖進行展開,主要根據強度圖的信息實現目標的檢測跟蹤。
傳統的跟蹤方法需要將目標模板對每一幀圖像做匹配,跟蹤速度較慢。另外,三維聲吶目標在不同幀圖像中的姿態和角度有所差異,給檢測跟蹤結果帶來較大影響。因此,本文在傳統的背景消除檢測和匹配跟蹤的基礎上,提出一種基于組合特征的水下三維目標檢測跟蹤算法。
在進行跟蹤之前,首先要對首幀圖像做初始化,其流程如圖9所示。首幀輸入包括背景圖像(可由聲吶在無目標情況下采集得到)、首幀強度圖和距離圖。初始化階段的主要任務是實現目標核函數和幾何特征的提取。其中核函數通過背景消減法的方式,對背景圖和首幀強度圖灰度化后進行差分運算,得到相應的差分圖像,當滿足差分圖像和強度灰度圖均為0時,更新強度圖的相應像素點位置為0,認為該點是背景區域,另外設置閾值去除圖像中面積較小的區域塊,此時強度圖的非零位置視為目標位置,從而得到目標核函數。

圖9 首幀初始化流程圖Fig.9 Diagram of first frame initialization
經過初始化得到檢測后的核函數,利用該模板圖像對后續每幀強度圖進行特征關聯和匹配跟蹤,其流程如圖10所示。從強度圖像流的第2幀開始,每一幀與上一幀進行特征提取和特征關聯,當質心特征在一定范圍內時,認為目標在三維成像聲吶視野范圍內基本處于相對靜止的狀態或偏離距離很小,此時對上一幀檢測框進行確認,判斷是否沿用上一幀的檢測框作為當前幀的檢測框,否則對該幀圖像重新進行模板匹配,更新檢測框信息,直至最后一幀完成檢測跟蹤操作。

圖10 基于組合特征的強度圖跟蹤流程圖Fig.10 Diagram of intensity image tracking based on combined features
為了描述聲吶圖像中人工目標的特征,本文采用組合幾何特征的描述子,主要包含Hu不變矩、目標質心和目標距離。對于同一目標在轉動幅度不大的情況下,可以認為質心不會發生變化,通過質心的位置能夠準確定位目標的位置。在聲吶強度圖中,將灰度值看作質量可以求得連通區域的質心。三維成像聲吶由于成像分辨率和水下環境干擾的影響,經過最大值濾波的強度圖上的目標會有所缺失,單個目標會出現割裂的情況,導致在計算質心時出現多個質心或質心偏移嚴重的問題。
根據每幀獲取的質心和距離信息,假設第k幀強度圖按照區域大小獲得M個質心Cm,對應M個距離信息Dm,m=1,…,M和質心相應區塊面積Sm。首先根據Sm最大值對應的距離信息,剔除距離差超過一定閾值的U個區塊,則當前幀的質心由加權可得

(6)

(7)
則第k幀和第k-1幀的質心偏差表示為
dk=|Ck-Ck-1|=(Ck-Ck-1)(Ck-Ck-1)′
(8)

(9)
每幀M×N大小的強度圖函數f(x,y)的(p+q)階矩可定義為

(10)
對應的(p+q)階中心距可由式(11)計算:
(11)

(12)

φ1=η20+η02
(13)
(14)
φ3=(η30-3η12)2+(3η21-η03)2
(15)
φ4=(η30+η12)2+(η21+η03)2
(16)
φ5=(η30-3η12)(η30+η12)[(η30+η12)2-3(η21+η03)2]+(3η21-η03)(η21+η03)[3(η30+η12)2-(η21+η03)2]
(17)
φ6=(η20-η02)[(η30+η12)2-(η21+η03)2]+4η11(η30+η12)(η21+η03)
(18)
φ7=(3η21-η03)(η30+η12)[(η30+η12)2-3(η21+η03)2]+(3η12-η03)(η21+η03)[3((η30+η12)2)-(η21+η03)2]
(19)
式中:φ1~φ7分別為2階矩和3階矩構造的7個不變矩組。
由此可得,聲吶強度圖的組合幾何特征向量為α=[φ1,φ2,φ3,φ4,φ5,φ6,φ7,d,r],對前后幀的特征向量取標準歐式距離衡量兩幀目標的相似程度:
(20)
式中:αk為第k幀的組合幾何特征向量;V為元素為S(j)2的K×K對角矩陣,S為標準偏差向量,K為組合幾何特征向量維度。
由圖5可知,強度圖和距離圖通過(x*,y*)信息緊密關聯,另外根據三維點云映射到二維的規則,同樣可以將強度圖和距離圖反演映射至三維空間獲得點云。同樣,已知二維強度圖中的檢測框位置,可以根據一定規則映射到三維空間得到三維目標檢測框,如圖11所示。

圖11 三維檢測框映射Fig.11 Diagram of 3D detection box mapping

圖12 試驗目標及現場Fig.12 Test target and site
圖11中二維向三維的映射需結合三維聲吶成像的參數。假設三維聲吶成像的方位角范圍為θa=(-α,α,P),俯仰角范圍為θe=(-β,β,Q),與距離圖中的距離信息r可以得到(θa,θe,r)的數據形式。則三維坐標系中的坐標可以表示為
(21)
因此,由二維檢測框的起始點坐標、寬度、高度和目標的距離范圍可以得到三維檢測框,表示為(x+W,y+H,Δz)。
為了驗證本文算法的有效性,對湖試數據進行了算法處理。試驗目標為1.5 m×1.5 m×1.5 m水下鋼框架結構體目標,目標入水深度3.67 m,成像距離為6 m。設備獲取的三維成像聲吶圖像參數為:方位角范圍θa=(-45°,45°),俯仰角范圍θe=(-45°,45°),陣元數48×48,512通道,波束數 128×128,工作頻率600 kHz,發射信號為CW脈沖,脈寬33 ms,聲吶作用距離120 m,測試數據設置N=70幀。
本文對三維聲吶接收回波信號分別做水平向和垂直向的波束形成,并對每幀三維聲吶圖像數據進行預處理,包括最大值濾波、閾值濾波和直通濾波。預處理后并二維映射后得到一系列強度圖像流,圖13 為第1幀強度圖,可見經過處理后的目標輪廓較為清晰。

圖13 鋼框架結構體目標首幀聲吶強度圖Fig.13 Diagram of first frame sonar intensity of steel-frame target
跟蹤特征關聯的前后幀組合幾何特征距離F為0.05,質心偏差閾值μ為8,利用目標尺寸先驗信息將前后幀最大距離偏差閾值為1.5。可以得到二維和三維跟蹤結果如圖14所示。從圖14中可以看出,二維圖像反演得到的點云結果真實地體現了實際目標的幾何結構和位置信息,無論是二維檢測框和三維檢測框,目標都處于全覆蓋的狀態,驗證了同一個目標在平移和小幅度旋轉的狀態下仍然能夠實現較好的檢測跟蹤效果。

圖14 第2幀檢測跟蹤結果Fig.14 Second frame detection and tracking results
在本文提出的算法中,每一幀圖像都能實現較好的匹配結果,檢測框偏離程度處于可接受的范圍內。為了評價算法的跟蹤性能,本文主要采用成功率[20]和計算開銷兩個性能指標。其中跟蹤成功率通過計算邊界框的重疊率得到。
假設跟蹤的邊界框為γt,由人工標注的準確邊界框為γa,重疊率定義為
(24)
將多幀重疊率曲線下的面積作為評估標準,面積越大,則跟蹤效果越好。
湖試數據算法驗證的平臺為Windows10 x64操作系統,處理器為Intel(R) Core(TM) i5-10210U CPU @1.60 GHz 2.11 GHz,內存(RAM)為8.00 GB。在上述參數下,采用傳統檢測跟蹤算法和本文中的算法,對同批次數據得到的重疊率擬合后的曲線如圖15 所示。由圖15可以看出本文算法在跟蹤性能和時間開銷上均占優勢:設定閾值F0=0.6,則重疊率大于閾值的成功幀所占總幀數比例為成功率,傳統算法為85.71%,本文算法為92.86%;傳統算法耗時147.346 090 s,幀均2.104 944 14 s,本文算法耗時58.945 753 s,幀均0.842 082 19 s,算法消耗時間相比傳統算法減少了約60%,大大提高了檢測跟蹤的效率。

圖15 跟蹤方法重疊率對比曲線Fig.15 Comparison of overlap rate of different tracking methods
本文算法的跟蹤性能主要受前后幀組合幾何特征距離F和質心偏差閾值μ影響,為了分析該參數對算法性能的影響,本文首先分析質心偏差閾值μ對算法的影像,取μ值分別為3、5、8、10、15、20來分析重疊率S和時間開銷t。隨著μ值的增加,時間開銷會隨之減少。另外,從圖16中可以看出,μ值越大,重疊率曲線下的面積越小,跟蹤效果越差,在μ值處于8時,魯棒性和時間開銷處于算法性能最佳的平衡狀態。

圖16 不同μ值跟蹤重疊率對比Fig.16 Comparison of different μ vaules

表1 μ取值對時間開銷的影響
之后分析組合幾何特征距離F對算法的影響,主要分析對跟蹤重疊率的影響。取F值分別為0.05、0.1和0.2來分析重疊率。由圖17可以看出,F值越大,重疊率曲線下的面積越小,跟蹤效果越差,并在F值處于0.05時性能趨于平穩,跟蹤成功率最優。

圖17 不同F值跟蹤重疊率對比Fig.17 Comparison of different F values
本文提出一種基于組合特征的水下三維目標檢測跟蹤算法。該算法對三維聲吶獲取的圖像數據進行圖像預處理,并映射到二維得到強度圖和距離圖,從二維的維度上進行檢測和匹配跟蹤,并根據二維和三維的對應關系反演到三維實現點云的跟蹤,最后利用Hu不變矩、質心和距離等幾何特征,有效提高目標跟蹤成功率,進一步降低時間開銷,提高跟蹤效率。通過對湖試數據的分析,驗證了算法的有效性。另外,本文還對影響算法性能的參數進行了分析,發現質心偏差μ值越大跟蹤效果越差,組合幾何特征距離F值越大跟蹤效果越差,為實際場景的應用起到了參考意義。