胡文楠
(長春工業大學 應用技術學院,吉林 長春 130012)
機器人障礙物檢測[1]需要多個傳感器協作完成,在該過程中,如何充分運用軟件計算的優勢,表征障礙物的特征,減少復雜硬件的需求是一個熱門研究方向。機器視覺是一個可行的解決途徑,如基于內容的圖像檢索[2](content based image retrieval,CBIR)。為開發出有效的CBIR系統,必須提取數據庫圖像的重要特征以表示該類圖像,然后通過相似度測量,檢索出與目標圖像相關的圖像,以便后續的信息處理與挖掘。
目前關于機器人障礙物檢測的研究,在軟件和硬件方面均有一定發展。如Tang等[3]提出一種基于主動式全景視覺的移動機器人障礙物檢測,該系統對硬件資源的需求較大。Chen[4]提出一種單目視覺處理方法進行障礙物識別。Wang等[5]提出一種基于過分割方法和機器人正運動學模型的障礙物識別方法。Ding等[6]提出一種機器人自主定位與障礙物檢測方法,將檢測的障礙物信息插入到環境稀疏特征地圖中,達到自主定位和檢測的效果。Xiao等[7]通過Kinect攝像機和二維激光雷達,提出了一種低成本的移動機器人障礙物檢測方法。Han等[8]提出了一種基于卡爾曼濾波和樸素貝葉斯網絡結合的檢測與分類方法,采用卡爾曼濾波算法檢測視頻中的障礙物,并通過樸素貝葉斯網絡對障礙物進行分類。
與以上方法不同,本文通過CBIR來檢測固體障礙物。在5種不同距離度量下,使用不同的特征提取法進行大量實驗。利用所提方法可以實時更新障礙物的信息,有利于機器人檢測識別障礙物,實驗結果驗證了所提方法的有效性。
本文提出一種基于圖像檢索的機器人障礙物檢測方法,主要目的是使機器人具備自主識別和分類障礙物的能力(類似于智能搬運機器人)。其應用范圍較廣,如利用機器人進行物品歸類與搬運等。
機器人上的CBIR系統主要依靠高清攝像設備、射頻識別(radio frequency identification,RFID)、地理信息系統(geographic information system,GIS)和分組無線服務技術(general packet radio service,GPRS)解決圖像數據的采集和傳輸處理。其基本框架如圖1所示。首先,系統通過RFID閱讀器與RFID標簽通信以獲得標簽序號,及相關固體障礙物的信息,并將這些信息發送到控制服務器以確保信息的收集與管理。當控制服務器收到序列號時,系統會收到第一幅圖像,并比較該幅圖像與數據庫中存儲的參考圖像,采用一定的相似性度量方法檢索出前幾幅最為相似的圖像。采集過程結束后,機器人的攝像機再拍攝第二幅圖像。依此類推,不停進行圖像捕捉與處理。因此所有的實時標簽序號、采集時間、信息狀態圖像、GPS數據通過具有GSM/GPSR的GSM調制解調器網絡進行閱讀、分析和存儲,并向用戶圖形界面展示。這樣機器人可以獲得實時位置、障礙物的實際信息,以及周圍區域的估計精度,可以為后續的其它處理做準備。

圖1 機器人障礙物檢測系統的基本框架
為檢測障礙物獲得相關障礙物信息,采集獲得的圖像需要與數據庫的圖像進行檢索匹配,并可以將該采集圖像編入數據庫中。圖2給出CBIR系統在數據庫中的索引并檢索圖像的架構。首先進入查詢接口模塊,分別對數據庫圖像和查詢圖像提取圖像特征;接著進入特征表示模塊,將查詢圖像特征與數據庫圖像進行相似度計算,將獲得的計算結果按從大到小排序,遴選出前N個檢索圖像作為輸出結果。為了討論距離度量的影響,本文將不同的相似性距離方法用于CBIR系統中。通常,一個完善的CBIR系統有兩個要點:①必須提取出數據庫中每一個圖像的重要特征,并有效地表征圖像;②可以從數據庫中檢索出相關圖像。

圖2 提出的CBIR架構
為識別固體障礙物的位置,必須獲得可靠的圖像數據,并確保這些圖像的數量和質量。為此,從不同位置拍攝多種不同的障礙物,利用拍攝的圖像構建一個穩健的圖像數據庫。通過檢索圖像與數據庫圖像進行對比,獲得相關的影像[9]。在GPRS網絡可用的情況下,通過GPRS調制解制器將固體障礙物的所有實時信息和GPS數據傳輸到服務器。在接收圖像方面,采用不同的圖像處理方法來預測障礙物的位置。與一般圖像數據庫不同,本文圖像數據庫采集都是機器人路徑途中的固體障礙物圖像,這些障礙物會被攝像機預先從多個角度拍攝,并對圖像進行編號,同一障礙物編號相同。為了處理方便,拍攝獲得的RGB彩色圖像均轉換為灰度圖像。
在CBIR系統中,距離度量(或稱相似性度量[10])通常是一個關鍵組成部分,一些實用的距離度量方法有:巴特查里亞[4]、余弦[4]、歐幾里德[9]、卡方[11]、陸地移動距離[11](earth mover’s distance,EMD)。在CBIR計算過程中,優良的距離度量方法可以顯著提升檢索過程的誤差。一般根據圖像間的最小距離度量將檢索結果進行排名,所獲的距離越小,則檢索圖像與數據庫圖像越相似。假設x,y分別是檢索圖像和數據庫圖像,則可按照表1中不同方法計算相似度的距離。

表1 用于測量相似度的距離度量
在對所接收圖像進行特征提取之前,需要去除不符合需要的和其它有干擾的特征。對接收圖像進行預處理是障礙物位置探測階段的重要步驟。分類處理結果較為依賴預處理的過程。噪音、光線都會一定程度影響對圖像的處理檢測。因此,本文預處理過程包含以下步驟:①在不同的光線條件下拍攝照片,以提升數據庫的整體質量;②在復雜的燈光環境下進行補光,以減少燈光對障礙物位置檢測的消極影響;③將RGB彩色圖像轉化為灰度格式進行處理,并稍微提高像素的亮度;④拍攝原始圖像時,將分辨率設定為640×480,并將它的大小裁剪為不高于300×300的尺寸,這樣可以減少預處理的復雜度,也便于圖像存儲。
本文的目的是研究圖像紋理特征在障礙物位置探測系統中的作用。紋理分類的一個主要問題是提取障礙物的紋理不變特征。在很多現有的紋理結構中,采用不同的方法來描繪紋理特征,其紋理特征提取至關重要。本節主要研究不同的特征提取法,即3種不同的障礙物特征提取方法,分別是Gabor小波、GLCM和BGLAM。
Gabor變換是短期傅里葉轉換與高斯窗口的結合[12]。在時域中的窗口大小是固定的,因此在空間域和頻域中需要固定的分辨率。所以,Gabor轉換可以用于分析數字信號,但是很多自然紋理中沒有數字信號。本文通過不斷轉換小波解決這個問題。轉換的方法為
(1)
式中:s(t)為信號;(a,b)分別是膨脹因子和轉化因子;h(t)為基本小波。小波轉換將信號s(t)分解成小波函數集。小波轉換可以根據因子(a,b)在時空域和頻域中得到可變分辨率。二維的Gabor基本函數定義為
(2)
式中:σ是高斯分布在x方向和y方向的變體;ω0是正弦曲線的頻率;θ是正弦曲線的方向。Gabor基本函數是一個二維的高斯,由頻率為ω0、 方向為θ的正弦曲線包圍并調制。垃圾箱位置檢測中所用的Gabor小波函數定義為
(3)

根據掩碼尺寸和正確的頻度確定Gabor濾波器的參數。掩碼尺寸的大小影響檢索精度。需要確定最適合的濾波器大小,并用正確的頻值確定垃圾箱位置。本文通過5個集的可分性和4種不同大小(7×7、11×11、17×17、21×21)的像素來測量掩碼尺寸和頻值對提取特征造成的影響。
Gabor小波的基本函數含有所選的特定濾波組件,其可用于構建空間域濾波器[13]。每一個濾波器都由一對元素組成,即復雜正弦曲線的實部和虛部。在一種頻級中,濾波器的輸出是對圖像中所有卷積像素的虛實濾波器掩碼的平均卷積輸出的調制。計算公式為
(4)
式中:Rave是用濾波器掩碼對圖像區域進行卷積的結果。Iave是用濾波器虛掩碼對圖像區域進行卷積的結果。
在GLCM中采用統計方法得到不同的紋理特征,其采用的灰度圖像的像素大小為300×300,目的是在固體障礙物位置檢測中減少處理的復雜性,便于存儲。概率密度函數通過用已輸出的數量除以可能輸出的總數,將GLCM規范化[14]。概率測量定義為
Pr(x)=Cij(d,θ)
(5)
式中:Cij是灰度i與j之間的共生概率;定義如下
(6)
式中:Pij表示i和j在給定d和θ內共生的數量;G是量化位置規定的數量。
文獻[15]中指出以GLCM表示的最合適的特征是能量、熵、對比度、方差、相關性和逆差矩。因此,本文采用10個紋理特征提取特征的精度。這些特征通過矩陣中行和列的平均值μ和標準偏差σ進行定義:
能量
對比
關聯
同質性
集群突出
熵
差異
動關聯
集群陰影
最大概率
maxPro=MAXijCij
設計GLCM時需要考慮很多參數因子,如量化料位G,置換值d,向值θ。本文只測試了G和d的作用,因為很多研究表明將θ設定為0°、45°、90°和135°可以得到精確的結果。表2給出了GLCM因子的細節和垃圾箱位置檢測中設定的值。

表2 固體障礙物位置檢測中GLCM的因子設定
灰度氛圍矩陣(GLAM)是用來形成有鄰域的有限矩形點陣圖像網格[16]。氛圍矩陣把A作為單獨的集進行處理,并計算A與B的鄰域。兩個子集的氛圍集用A,B?S,VB(A,N) 或者VB(A) 進行表示,其中,鄰域系統N中與B相關的A氛圍集是根據V的氛圍集進行推導的。
BGLAM是從單一站點開始計算的GLAM鄰域系統。圖3給出了在最近鄰系統中,灰度氛圍矩陣在二進制晶格中的例子。圖像的BGLAM可以測量出灰度鄰域中每一個灰度的數量。在圖3的案例中,共有8個方向(離中心像素最近的8個鄰域),這表明,最終的矩陣中包含8個小矩陣,每一個小矩陣代表一個方向。由于原始圖像被分為兩種灰度,所以小矩陣的大小為2×2。右側矩陣的特征通過計算出這些元素在給定方向中出現的次數計算而得到。因此,一旦所有的矩陣(每個方向一個)都被計算出,就把所有的值串聯起來,形成特征矢量。BGLAM一個主要的優點是不需要濾波器,特征參數可以直接從原始圖像中獲得。當且僅當兩個圖像的BGLAM相同時,這兩個圖像才相同。因此,BGLAM可以表示特定圖像。

圖3 BGLAM的示例

本文用表1中的5種相似度距離將所測試圖像和數據庫中其它固體障礙物圖像進行比較。用平均檢索率來評估檢索系統的性能。將N值設為1、3、5、8、10、15和20。該實驗在同一個數據庫中進行,比較不同距離所得出的結果,以獲得最佳檢索精準度。
在CBIR系統中一般使用5種距離:巴特查里亞[4]、余弦[4]、歐幾里德[9]、卡方[11]、EMD[11],并將這5個距離分為低、中、滿、淹沒和溢出。采用相同的數據庫,將不同距離的結果進行比較,以獲得最佳性能。
本文基于兩種定量評估標準。第一種是基于準確率-召回率(Precision-Recall)圖像的平均檢索率。平均檢索率是將平均檢索準確率與前N個匹配檢索圖中屬于同一圖像的數量作對比。N表示被檢索圖像的數量。本文使用F1(準確率和召回率的加權調和平均數)將其與被檢索的圖像數量作比較。召回率、準確率和F1測度的計算公式分別為
(7)
(8)
(9)
其中,Nretrieval表示檢索出相關圖像的數量;Nallrelevant表示數據庫中相關圖像的數量;NnumRetrieval表示檢索圖像的總數。
本文在250個固體障礙物圖像中比較Gabor法在不同距離下的檢索精準度。表3給出了幾種相似度距離的檢索率。在所有的匹配中,EMD的結果優于其它相似度距離。采用Gabor過濾器的EMD距離從第1張到第10張圖像的平均檢索率為100%,在第15張圖像時為90%。

表3 采用Gabor小波檢測固體障礙物的平均檢索率/%
EMD距離提升了CBIR系統的性能,且在不同位置下對所有固體障礙物圖像的處理結果都較好。
圖4和圖5分別給出了基于平均檢索率和F1測量的每個距離的性能。所選Gabor在EMD距離下檢索系統的參數明顯優于其它距離,前10個檢索圖像的平均檢索率達到100%,前20個檢索圖像的平均檢索率也有60%以上,明顯優于其它4種距離度量,次好的是歐幾里得度量在前10個圖像中,歐幾里德距離的平均檢索比率性能與EMD距離的性能相似,然而,歐幾里得距離度量前20個檢索圖像的平均檢索比率只有50%,甚至低于卡方和余弦距離度量。對于F1測量,EMD距離度量更快達到了峰值,且峰值保持的次數更多,也優于其它4種距離度量。因此,通過觀察基于F1測量的歐幾里德距離,可以看出EMD距離的優越性。

圖4 采用Gabor小波的平均檢索率

圖5 采用Gabor小波的F1測量
測試數據庫中的一個簡單圖像,并在EMD距離中將它用作檢索圖像。圖6給出了前20個匹配中檢索圖像的結果。從圖中可知,所提系統能夠檢索出正確的相似影像,而且相似度非常高,前9個是相同障礙物,后11個是相似障礙物,雖然隨著N逐漸增加,檢索的精準度就逐漸減少,但檢索的結果基本準確。

圖6 采用Gabor小波得出的前20個檢索圖像
將GLCM法與5種相似度距離一起使用,以測量并比較平均檢索率。表4比較了平均檢索率。從表4的結果中可以看出,所有距離在前5個檢索圖像中的平均檢索率均為100%(巴特查里亞距離除外)。當N>5時,采用EMD距離度量的平均檢索率也達87.5%。綜合來看,EMD距離有很明顯的優越性。這主要是由于EMD可以更好地描述直方圖的距離,因此,圖像特征的表征效果更佳,獲得更高的平均檢索率。

表4 采用GLCM固體障礙物的平均檢索率/%
圖7給出了采用GLCM的平均檢索率,圖8給出了采用GLCM的F1測量值。從圖中可知,在前10個檢索圖像中,EMD距離的平均檢索比率保持在70%以上,而其它距離度量的平均檢索率都在65%以下,其中,采用巴特查里亞距離,其平均檢索率下降的最快。采用卡方、余弦、EMD和歐幾里德距離平均檢索率下降比較平緩,而EMD表現最佳。對于F1測量,EMD距離更早達到峰值,且峰值更高,因此,EMD距離優于所有其它距離。兩方面表現最差的是巴特查里亞距離度量。圖9給出了前20個匹配中檢索圖像的結果。從圖中可知,所提系統能夠檢索出正確的相似影像。隨著N逐漸增加,系統的精準度就逐漸減少,但依然保持較高的精度。

圖7 采用GLCM的平均檢索率

圖8 采用GLCM的F1測量

圖9 采用GLCM得出的前20個檢索圖像
在BGLAM中采用相同的相似度距離方法,來比較CBIR中GLAM的性能。實驗中,選擇了與MLN和KNN分類器相同的BGLAM參數。使用的數據庫中每個類別的前20個圖像來評估CBIR。表5給出了采用5種相似度測量時從固體障礙物數據庫中獲得的平均檢索率。對于前10(N=10)個匹配圖像,余弦、卡方和EMD均達到了100%的檢索率,但當N增加時,EMD距離表現出的平均檢索率更高。根據數據庫的主觀測試得出:平均檢索率越高,與人類感知相符的距離度量越好。
在5種距離方法中,可以將BGLAM中的檢索圖像和目標圖像作為特征提取法,對這5種距離進行評估。在檢索效率方面,巴特查里亞和歐幾里德距離的結果精度明顯差于其它距離方法。巴特查里亞在前8個圖像中檢索出不相干的圖像,準確率為70%。圖10和圖11給出了基于不同距離方法的平均檢索率和這些距離的F1測量結果。從兩圖中可知,EMD距離的性能最佳,在前10個檢索圖像中,

表5 采用BGLAM固體障礙物的檢索率

圖10 采用BGLAM的平均檢索率

圖11 采用BGLAM的F1測量
平均檢索比率達到100%。前15個檢索圖像中,達70%的檢索比率,最低平均檢索比率達55%。在大多數檢索出的圖像中余弦距離的性能與EMD的相似。余弦距離和EMD距離明顯優于其它距離方法。由于歐幾里德距離沒有考慮特征屬性在語義類別中的變化,因此性能較差。基于上述觀點,EMD和余弦距離在CBIR系統使用BGLAM時優于其它相似度距離。
本文提出用于固體障礙物位置檢測的CBIR系統,該系統有兩個重點:①必須通過提取數據庫中每張圖像的重要特征有效地代表圖像;②檢索圖像和數據庫中圖像的相似度度量必須能夠檢索出相關圖像。CBIR系統依賴于障礙物圖像的紋理特征,能夠檢索出排名靠前的圖像,以及數據庫中已存儲的圖像特征。在障礙物位置探測系統中,EMD距離在所有的N值中的準確率都最高。將GLCM作為CBIR系統中的特征提取法,在較低的距離度量中結果較好,但是與其它特征提取法相比,在較高的度量中效率較低。另外,實驗結果表明,前10幅圖像可以由Gabor和BGLAM提取法檢索出,EMD距離非常有效,可以在機器人障礙物位置識別系統中使用。