楊 慧 胡良梅 張旭東 陳仲海 董文菁
(合肥工業大學計算機與信息學院 安徽 合肥 230009)
?
一種基于D-S證據理論的融合RGB特征和Depth特征的3D目標識別方法
楊慧胡良梅張旭東陳仲海董文菁
(合肥工業大學計算機與信息學院安徽 合肥 230009)
摘要針對利用單一特征進行3D目標識別導致識別率低的問題,結合RGB圖像和Depth圖像的優勢,提出一種結合支持向量機(SVM)和D-S證據理論的融合RGB特征和Depth特征的3D目標識別方法。該方法提取目標物體的RGB特征以及Depth特征,分別以這兩類單特征的SVM的概率輸出作為獨立的證據,構造出基于每個證據的基本概率分配函數(BPA),利用D-S證據融合規則進行證據融合,并根據決策準則得到最終的3D目標識別結果。在Kinect相機得到的RGB-D數據集上進行實驗驗證,結果表明,該方法能夠有效地實現對RGB特征和Depth特征的融合,提高了3D目標識別的識別準確性和可靠性。
關鍵詞3D目標識別支持向量機(SVM)D-S證據理論Kinect相機
0引言
3D目標識別是模式識別、機器視覺中的一項重要研究內容,在軍事、交通、生物醫學等諸多領域[1-3]中有著廣泛的應用。傳統的基于2D高分辨率RGB圖像的目標識別容易受到光照、物體形態變化等的影響,且由于圖像在投影過程中,丟失了實際場景的3D信息,因此難以得到準確的識別結果。Depth信息能夠反映物體表面的3D幾何特征,且不受光照等外界條件的影響,因此可以提供比二維RGB圖像更加可靠的識別信息,使得Depth信息為實現3D目標識別提供了一條新的線索。一些研究者直接從Depth圖中提取目標的3D特征來實現3D目標識別。Rusu[4,5]等人分別利用VFH(Viewphoint Feature Histogram)和NARF(Normal Aligned Radial Features)特征來表征目標物體;Shah[6]等人將3D向量場的散度作為目標局部表面特征描述子。該類算法都是先通過Depth圖像獲得目標的3D點云模型,再由3D點云模型提取目標的3D特征描述子來完成3D目標識別。但是由于Depth圖像本身分辨率低、目標邊緣噪聲大,因此,上述文獻中僅利用單一的Depth信息完成3D目標識別的識別方法得到的識別率并不高。
近年來,Depth信息獲取技術飛速發展。微軟公司2010年推出的Kinect相機價格適中,并且能夠同時獲取物體的RGB圖像和Depth圖像,使得利用Kinect相機獲取的Depth信息來解決3D目標識別問題成為一個新的研究熱點。針對利用單一Depth圖像特征進行3D目標識別識別率低的問題,一些研究者們開始研究利用Kinect相機獲取的高分辨率RGB圖像和低分辨率Depth圖像的融合特征來實現3D目標識別。Janoch[7]等人融合RGB圖像和Depth圖像的HOG特征,實現3D目標識別;Mirdanies[8]等人提出融合RGB圖像以及Depth圖像的具有仿射不變特性的SIFT特征和SURF特征進行3D目標識別。文獻[7]和文獻[8]中的方法仍沒有很好地實現Depth圖像特征提取以及兩類特征的融合,從而導致最終的3D目標識別率不是很高。Bo[9]等人利用核學習的思想,融合RGB圖像和Depth圖像中的梯度核特征描述子、深度核特征描述子實現3D目標識別。雖然該類特征描述子相比文獻[7,8]的特征提取方法,可以較好地提取出目標的Depth圖像特征,但是該方法在進行特征融合的時候是對兩類特征進行基于特征級的加權多特征融合,最終得到的3D目標識別率仍然不是很高。
為進一步提高3D目標識別的準確性和可靠性,本文利用SVM分類器在小樣本情況下具有良好的分類能力以及D-S證據理論能夠融合不完全信息、減小問題中的不確定性的優勢,針對利用單一特征進行3D目標識別率低的問題,提出一種基于D-S證據理論的融合RGB特征和Depth特征的3D目標識別方法。并在基于Kinect相機獲得的可用于3D目標識別的RGB-D數據集上與文獻[9]進行實驗對比。實驗結果表明,本文方法能夠有效地對多特征進行融合,提高了識別的準確性和可靠性。
1基于D-S證據理論的融合RGB特征和Depth特征的3D目標識別
圖1為本文提出的基于D-S證據理論的融合RGB特征和Depth特征的3D目標識別算法模型。按照該算法進行多特征融合的3D目標識別的主要分為以下幾個步驟:(1) 目標特征的提取;(2) 基于單特征的3D目標識別和證據BPA函數的構造;(3) 證據的融合和決策判決。

圖1 本文提出的3D目標識別算法框圖
1.1目標特征的提取
特征提取是目標分類、識別任務中很重要的一步,選擇不同類型的目標特征對最終的識別結果有不同的影響。因此,提取的特征應盡量滿足:(1) 可以很好地表征目標物體;(2) 對光照變化、物體形態等變化有很好的魯棒性。由于僅利用單一特征是很難精確地進行識別任務的,因此我們對RGB圖像和Depth圖像分別提取不同類型的目標特征,對兩種特征描述子的提取過程如下:
(1) RGB-SIFT特征
SIFT[10]描述子是一種具有仿射不變特性的局部特征描述子。通過在4×4的網格單元上計算8個方向的梯度方向直方圖,得到圖像中目標物體每個區域的一個128維的特征向量表示。最后,整合所有區域的特征向量得到目標物體的特征向量表示。
(2) Depth-HON3D特征
物體表面的3D幾何特征可以表示為法向量方向的一個局部分布。每一個像素點的3D坐標可以表示為P(x,y,z),其中z=d(x,y)為該點的深度值,那么像素點對應的法向量就可以表示為過該點切平面上兩個切向量的叉乘:
(1)

然而,很多情況下我們更多使用球面坐標(θ,φ,r)來表示法向量,因為球面坐標在描述曲線、表面以及物體視角方面比(x,y,z)坐標更有效。這里我們采用文獻[11]中的方法來建立法向量球面坐標關于天頂角θ和方位角φ組合(θ,φ)的方向梯度直方圖。首先,將圖像分成8×8的不重疊的像素cells。然后,將每個cell中每個像素點的θ值和φ值在(0°~360°)范圍的梯度值分布空間分成9份,那么天頂角θ和方位角φ就構成了一個具有9個bins的直方圖。這樣,每一個cell就可以用一個8×8×18=1152維的特征向量表示。最后,整合所有cells中得到的HON3D特征向量,獲得整個目標物體的特征向量表示,并用L2范數對圖像的HON3D特征進行歸一化,使得特征向量空間對光照等的變化更具有魯棒性。
1.2基于單特征的3D目標識別和證據BPA函數的構造
(1) 單特征的SVM識別
利用1.1節中提取的目標的RGB-SIFT特征和Depth-HON3D特征向量,將其分別輸入SVM分類器進行基于兩種特征的3D目標的初步識別。
(2) D-S證據理論基礎
D-S證據理論[12]是由Dempster提出,由他的學生Shafer進一步推廣完善的一種對不確定問題進行建模、推理的方法,并在目標檢測和分類、目標識別、信息融合等領域得到了廣泛的應用。其主要思想就是將所有相互獨立的證據劃分成幾個彼此互不相關的部分,并利用這些證據分別對鑒別框架進行判斷;最后通過D-S證據組合規則將各證據的信任函數進行融合,得到一個新的融合后的證據,將新的證據作為最終對目標所屬類別判斷決策的依據。
D-S證據理論原理如下:設Θ為一個識別框架,其中Θ是由一組相互獨立的命題組成,對Θ中的任意命題A均是冪集2Θ的一個子集,那么在2Θ上定義映射函數m:2Θ→[0,1]滿足下列條件:
(2)
則稱m為Θ上的概率分配函數。m(A)為命題A的基本概率分配(BPA),表示證據對命題A的信任程度,且證據對識別框架Θ中所有命題的信任度和為1。m(Θ)表示證據的不確定性。
D-S證據融合規則:假設e1,e2,…,en為識別框架Θ上n個相互獨立的證據,m1,m2,…,mn分別是各證據對應的基本概率分配(BPA)函數。正交和是證據推理的基本性操作,將不同證據融合的過程實際上就是對不同證據對應的所有BPA函數執行正交和m1⊕m2⊕…⊕mn運算:
(3)

(3) 證據基本概率分配(BPA)函數的構造
支持向量機(SVM)[13]是建立在Vapnik-Chervonenkis維理論和結構化風險最小化原理的基礎上,對于線性不可分的樣本,將輸入空間變換到一個高維空間。并在這個高維空間中構建一個超平面,利用超平面實現目標的分類,能有效克服“維數災難”,在解決小樣本的目標識別上有很大的優勢。這里我們選擇結合SVM以及D-S證據理論在解決識別問題中的優勢,來實現本文的3D目標識別。
我們將兩種特征作用下的SVM的輸出作為證據,進行概率建模。標準的SVM判決輸出f(x)屬于硬判決輸出,即用y∈{1,-1}來硬性地表征目標所屬類別,而在利用D-S證據理論解決不確定性問題時,需要用到SVM的軟判決輸出,即概率輸出。而Platt[14]提出了一種通過利用sigmoid函數作為橋梁,將SVM判決輸出f(x)映射到[0,1],以實現SVM概率輸出的方法。概率輸出形式可以表示為:
(4)
式中,f(x)為SVM中樣本x的標準判決輸出值;參數a和b用來控制Sigmoid函數的形態變化,求解a和b的值就可以轉化為一個求解函數的最大似然問題,如下式所示:
(5)

對一輸入兩類SVMi(i=1,2,表示第i類特征對應的分類器)的訓練樣本集,根據式(5)得到最優參數a和b,然后將其代入式(4)得到第i類特征關于學習樣本的后驗概率輸出pi。將測試樣本輸入已經訓練好的SVMi分類器中,得到第i類特征關于測試樣本的識別準確率qi。我們定義BPA函數如下:
mi(A)=qipi
(6)
(4) 證據的融合和決策判決
根據式(6)分別得到RGB-SIFT特征和Depth-HON3D特征兩種證據下對應的信度值后,利用式(3)進行證據的融合,得到證據聯合作用下的信度。然后我們使用如下決策準則:
設Cn(n=1,2,…,6)為目標的類型,Cobj是目標類別,且:
m(Cobj)=max{m(Cn)}Ci?Θ
(7)
若滿足以下條件:
msec-max(Cj)=max{m(Cn)}Cj?ΘCi≠Cj
(8)
(9)
式中,m(Cobj)表示識別框架中證據對目標具有最大支持度的類是目標類,msec-max(Cj)為識別框架中證據對目標具有第二大支持度的類的信度值,m(Θ)為目標所屬類的不確定度,λ1、λ2和λ3是設定的正閾值。從滿足的三個決策條件可以看出:(1) 證據對目標所屬類別的最大支持度和第二大支持度應該保持足夠大的差異;(2) 目標的不確定度的信度值不能太大;(3) 目標所屬類別的信任度值要大于目標不確定性的信任度值。若上述條件都滿足,則可以對目標所屬類別作出最終的判決。
2實驗結果與分析
2.1實驗設置
本文所有實驗中采用的訓練樣本圖像和測試樣本圖像都來自美國華盛頓計算機科學與工程系Lai等人及因特爾西雅圖實驗室的Ren等人通過Kinect相機獲取RGB圖像和Depth圖像并建立的可用于3D目標識別的RGB-D數據集[9]。此數據集包含了51類300多種不同角度、不同光照條件下的日常用品的RGB-D圖像。我們從中選取了6類物體(C1:apple, C2:orange, C3:tomato,C4:lemon, C5:soda_can , C6:water_bottle)進行實驗。圖2中給出了本文實驗采用的部分RGB-D數據集實驗樣本。

圖2 RGB-D數據集部分實驗樣本
實驗中,多類分類SVM采用的是“一對一”的分類方法,核函數采用的是RBF核,誤差懲罰參數c=38和核參數σ=2.48通過交叉驗證方法獲得。通過多次實驗統計得到決策規則中的判別閾值λ1=0.3、λ2=0.2、λ3=0.4。用于實驗的訓練樣本選擇每類30幅,共180幅,測試圖像選擇每類10幅,共60幅,且訓練樣本和測試樣本選擇不同的圖像。實驗中所有程序都在PC機上Window 7開發環境下,使用Matlab R2008a系統開發工具。其中SVM部分使用的是由臺灣大學林智仁開發的libsvm 2.86[15]軟件包。
2.2實驗結果與分析
本文為驗證提出的3D目標識別方法在提高目標識別率以及可靠性上的優勢,從以下三個方面進行了方法的實驗驗證和分析:
(1) 在對目標分別提取RGB-SIFT特征以及Depth-HON3D特征的情況下,對比分析了本文采用的D-S證據多特征融合方法和文獻[9]中的加權多特征融合方法的識別率,實驗結果如表1所示。

表1 不同融合方法下的目標識別率
分析表1數據可以看出:對RGB-SIFT特征以及Depth-HON3D特征的融合,利用D-S證據融合方法比利用文獻[9]中的特征加權融合方法得到的3D目標識別率高,說明了本文采用的D-S證據多特征融合方法比文獻[9]中的加權多特征融合方法在提高3D目標識別率上更有效。
(2) 本文方法以及文獻[9]中方法分別基于單特征以及多特征融合下的3D目標識別率對比,實驗結果如表2所示。

表2 單特征以及多特征融合下的識別率
分析表2數據可以看出:① 單獨基于RGB特征、Depth特征下的目標識別率,本文方法均高于文獻[9]方法,說明本文特征提取方法比文獻[9]中的特征提取方法在提高目標識別率上更有效;② 本文結合SVM和D-S證據理論的多特征決策級融合方法得到的3D識別率明顯高于文獻[9]中將特征進行基于特征級的特征加權融合方法得到的目標的識別率。主要原因是:本文采用的D-S證據理論利用SVM的后驗概率輸出以及目標分類精度構造證據對目標的信度值,根據DS證據融合規則對RGB特征和Depth特征進行融合,很好地實現多特征融合證據對目標的有效支持,大大減小了對目標的不確定度,提高了目標識別的準確性和可靠性。
進一步分析表1和表2中數據,可以看出在均采用文獻[9]中加權特征融合的前提下,本文方法得到的目標識別率要比利用文獻[9]中得到目標識別率高,驗證了本文提取的RGB-SIFT特征以及Depth-HON3D特征比文獻[9]中的特征在提高3D目標識別率上更有效。
(3) 從測試實驗樣本中隨機選擇6類目標的6幅測試樣本進行實驗,記錄實驗中單特征證據和多特征證據融合下的BPA值以及對目標所屬類別的識別結果(其中,5- apple表示測試樣本中編號為5的樣本apple(C1類))。具體實驗結果如表3所示。

表3 單特征證據以及多特征證據融合下的BPA值
分析表3數據可以看出:① 對于每個類別的待識別樣本,RGB和Depth兩種特征融合后對目標的所屬真實類別的信度值(BPA值)均比利用單特征進行識別的BPA值要高,很大程度上增加了對目標所屬類別的信任程度。同時大幅度降低了對目標所屬類別判斷的不確定度(例如,對5 apple,利用單特征進行識別得到的最高BPA值為0.420,融合兩種特征后達到了0.584,而對目標的不確定度也由0.110降到了0.037),增加了識別的可靠性;② 對于利用單特征無法識別出來的目標物體(如表中的樣本5、15、25、33、55),經過特征融合后能夠準確地對目標進行識別,進一步說明了基于D-S證據理論的多特征融合方法有效地提高了目標識別的精確性和可靠性。
3結語
本文提出一種基于D-S證據理論的融合RGB特征和Depth特征的3D目標識別方法。首先利用SVM對目標物體分別進行基于RGB特征和Depth特征的單特征目標識別,并以每個SVM的后驗概率輸出作為獨立證據構造對目標所屬類別的信度函數(BPA函數);然后利用D-S證據融合規則進行多特征融合;最后根據決策規則對目標所屬類別進行判決,完成3D目標識別。實驗結果表明,本文方法能夠實現RGB特征和Depth特征的有效融合,提高了3D目標識別的準確性和可靠性。
參考文獻
[1] 王凱,穆志純.基于溝回結構特征的三維人耳識別方法[J].儀器儀表學報,2014,35(2):313-319.
[2] 李欽奉,高楠楠,蔣玲慧.三維特征識別方法應用于一面兩孔的自動選取[J].計算機應用與軟件,2014,31(2):62-65.
[3] 李迎春,杜永紅,王帥.基于抗噪粗糙集的三維目標自動識別[J].裝備學院學報ISTIC,2014(2):71-75.
[4] Rusu R B,Bradski G,Thibaux R,et al.Fast 3d recognition and pose using the viewpoint feature histogram[C]//2010 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS),Taipei,Taiwan,2010:2155-2162.
[5] Steder B,Rusu R B,Konolige K,et al.Point feature extraction on 3D range scans taking into account object boundaries[C]//2011 ieee international conference on Robotics and automation (icra),Shanghai,China,2011:2601-2608.
[6] Shah S A A,Bennamoun M,Boussaid F,et al.A Novel Local Surface Description for Automatic 3D Object Recognition in Low Resolution Cluttered Scenes[C]//2013 IEEE International Conference on Computer Vision Workshops (ICCVW),Sydney,Australia,2013:638-643.
[7] Janoch A,Karayev S,Jia Y,et al.A category-level 3d object dataset: Putting the kinect to work[M]//Consumer Depth Cameras for Computer Vision.Springer London,2013:141-165.
[8] Mirdanies M,Prihatmanto A S,Rijanto E.Object Recognition System in Remote Controlled Weapon Station using SIFT and SURF Methods[J].Mechatronics,Electrical Power,and Vehicular Technology,2013,4(2):99-108.
[9] Bo L,Ren X,Fox D.Depth kernel descriptors for object recognition[C]//2011 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS),San Francisco,CA,USA,2011:821-826.
[10] Van De Sande K E A,Gevers T,Snoek C G M.Evaluating color descriptors for object and scene recognition[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2010,32(9):1582-1596.
[11] Tang S,Wang X,Lv X,et al.Histogram of oriented normal vectors for object recognition with a depth sensor[M].Springer Berlin Heidelberg:Computer Vision,2013.
[12] Yager R R.On the Dempster-Shafer framework and new combination rules[J].Information sciences,1987,41(2):93-137.
[13] Zhang X P.Introduction to statistical learning theory and support vector machines[J].Acta Automatica Sinica,2000,26(1):32-42.
[14] Platt J C.Probabilistic outputs for support vector machines and comparisons to regularizedlikelihood methods[J].Advances in large margin classifiers,2000(16):61-74.
[15] Chang C C,Lin C J.LIBSVM:a library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology (TIST),2011,2(3):27.
收稿日期:2015-02-07。國家自然科學基金項目(61273237);安徽省自然科學基金項目(11040606M149)。楊慧,碩士生,主研領域:智能信息處理。胡良梅,副教授。張旭東,教授。陳仲海,碩士生。董文菁,碩士生。
中圖分類號TP391.9
文獻標識碼A
DOI:10.3969/j.issn.1000-386x.2016.07.038
A 3D OBJECT RECOGNITION METHOD BASED ON D-S EVIDENCE THEORY AND FUSING RGB AND DEPTH CHARACTERS
Yang HuiHu LiangmeiZhang XudongChen ZhonghaiDong Wenjing
(SchoolofComputerandInformation,HefeiUniversityofTechnology,Hefei230009,Anhui,China)
AbstractAiming at the problem of low recognition rate when using single character for 3D object recognition, we combine the advantages of RGB image and Depth images and propose a 3D object recognition method which is based on support vector machines (SVM) and D-S evidence theory and fuses RGB and Depth characters. The method extracts RGB and Depth characters of the targeted object and uses SVM probability output of these two single characters as the independent evidence respectively, constructs the basic probability distribution function (BPA) which is based on every evidence, and carries out evidence fusion with D-S evidence fusion rules, and obtains final 3D object recognition results according to decision criteria. The experiment verification is based on RGB-D dataset derived from Kinect camera, results show that the method can effectively realise the fusion of RGB and Depth characters, and improves the accuracy and reliability of 3D object recognition.
Keywords3D object recognitionSupport vector machines (SVM)D-S evidence theoryKinect camera