




摘要:文章研究了一種基于機器人雙目視覺的機柜自動識別方法。文章詳細介紹了雙目立體視覺的基本原理,包括雙目立體視覺的成像原理和目標識別的流程,重點研究了基于輕量化MobileNet的機柜識別方法并結合支持向量機對目標進行分類。實驗結果表明,該方法有效地解決了背景與目標混疊的問題,能夠準確地識別機柜點云。該方法為智能機器人在復雜環境中的應用提供了新的技術支持和理論依據。
關鍵詞:雙目視覺;目標識別;MobileNet模型;支持向量機
中圖分類號:TH122
文獻標志碼:A
0 引言
在現代工業自動化和智能制造領域,機柜作為計算設備和通信設備的重要載體,其自動化管理顯得尤為重要。隨著機器人技術的飛速發展,如何利用機器人高效、精準地識別機柜也成了一個亟待解決的問題。因此,文章研究的基于機器人雙目立體視覺的機柜自動識別方法具有重要的理論研究和實際應用意義。
目前,雙目立體視覺作為一種模擬人類雙眼觀察物體的技術,已經在機器人領域得到了廣泛應用[1-2]。該技術通過采集左右兩幅視圖并計算其視差來重建場景的三維信息,為目標識別提供豐富的深度信息。為了提高機柜識別的準確性和效率,該研究引入了MobileNet[3-4]深度學習模型,該模型以其較小的模型參數和較快的計算速度,成了嵌入式設備和移動設備的理想選擇。
文章首先研究了面向機器人的雙目立體視覺方法的基本原理,詳細探討了雙目立體視覺的原理以及目標識別的流程;其次,聚焦于基于輕量化MobileNet和支持向量機(Support Vector Machine, SVM)[5-6]的機柜識別方法研究;最后,構建了系統并進行了實驗測試來驗證該方法的有效性和可行性。希望該成果能夠推動智能制造和工業自動化的發展并為相關領域的研究提供有益的參考。
1 面向機器人的雙目立體視覺方法
1.1 雙目立體視覺
雙目立體視覺系統采用2個相機來模擬人類雙眼的工作,其基本原理如圖1所示。左相機和右相機分別從不同的視角拍攝同一場景的圖像,然后通過計算左右相機對應像素點之間的視差(即2個圖像中同一物體點在水平位置上的偏移量)可以獲得場景中各點的深度信息。這種視差計算依賴于精確的相機校準和圖像匹配算法,常采用三角測量方法將視差轉換為實際的三維坐標,從而實現對場景深度的重建,為后續的目標識別提供基礎數據。
1.2 目標識別總體方法
為了實現基于雙目立體視覺的目標識別方法,該研究提出了一種如圖2所示的總體框架。
該系統通過左相機和右相機同時采集同一場景的圖像,為了確保雙目圖像的精確匹配需要進行相機內參數和外參的校準。在完成相機校準后,該方法須要進行圖像預處理以提高圖像質量和對比度,為后續的立體匹配打下良好的基礎。該方法通過立體匹配算法計算左右圖像之間的視差生成視差圖,再利用三角測量方法生成場景的深度圖。該方法在深度圖的基礎上進行特征提取,通過深度學習模型如MobileNet進行目標識別提取特征向量,然后使用預先訓練好的分類器對目標進行識別,分類器可以是SVM[7]、卷積神經網絡(Convolutional Neural Network, CNN)[8]等,最終輸出目標識別的結果。
2 引入輕量化MobileNet的機柜識別方法
2.1 深度圖的生成
在基于雙目立體視覺的研究和應用中,OpenCV是使用最廣泛的工具之一。該工具可以實現相機校準、圖像預處理、立體匹配和深度圖生成等一系列操作[9-10]。
在相機校準時,該方法利用棋盤格標定法通過采集不同角度的棋盤格圖像,使用OpenCV的calibrateCamera函數進行相機校準,得到精確的相機參數。在圖像預處理過程中,OpenCV同樣提供了豐富的函數。例如:GaussianBlur函數可以進行圖像去噪處理,equalizeHist函數能進行直方圖均衡化以增強圖像的對比度和細節。立體匹配是雙目立體視覺中的關鍵步驟之一,常用的算法有塊匹配(Block Matching)和半全局匹配(Semi-Global Matching,SGM)。OpenCV提供了StereoBM和StereoSGBM2個立體匹配算法。其中,StereoBM適用于實時性要求較高但精度要求相對較低的場景,而StereoSGBM則在保證較高匹配精度的同時,也具有較好的計算效率。通過立體匹配算法得到視差圖后,該方法可以利用視差值通過三角測量方法計算深度信息。
2.2 基于MobileNet的特征提取
設點云數據為={(xi,yi,zi)}Ni=1,其中(xi,yi,zi)表示點云中第i個點的三維坐標,N為點云中的點數。通過攝像機的投影模型,該方法可以將三維點云數據映射到二維圖像平面上得到深度圖={dij},其中dij表示圖像平面上像素(i,j)對應的深度值。
MobileNet是一種輕量化的卷積神經網絡,能夠有效地提取圖像的特征。該模型的核心是深度可分離卷積(Depthwise Separable Convolution),主要包括深度卷積(Depthwise Convolution)和逐點卷積(Pointwise Convolution)2個關鍵技術。
在深度卷積中,模型對每個輸入通道獨立地進行卷積操作。設輸入特征圖為Fin∈?H×W×C,其中,H為高度,W為寬度,C為通道數,深度卷積的濾波器為Kd∈?k×k×C,其中k為濾波器的大小,則深度卷積輸出特征圖Fd∈?H′×W′×C的計算方法為:
其中,*表示卷積操作,Fd(:,:,c)為輸出特征圖在第c個通道上的特征圖。
在逐點卷積中,使用1×1的卷積核將深度卷積的輸出進行通道混合。設逐點卷積的濾波器為Kp∈?1×1×C×C′,其中,C′為輸出通道數,則逐點卷積輸出特征圖Fp∈?H′×W′×C′為:
通過上述2步操作,MobileNet可以高效地提取輸入深度圖的局部特征,生成高維度的特征向量f∈?D,其中D為特征向量的維度。
2.3 基于SVM分類器的目標識別
在完成特征提取后,該方法使用SVM進行目標識別。設特征向量fi∈?D對應的標簽為yi∈{1,-1},則SVM的決策函數為:
其中,w∈?D為權重向量,b∈?為偏置向量,sign函數用于輸出分類結果,T表示轉置運算。
3 系統分析與探討
為了對文章方法進行測試,該實驗采用了OAK-D-S2型號的機器視覺套件。該套件共包含3個相機,兩側的2個相機為雙目立體視覺相機,中間的為RGB相機。該實驗采用兩側的相機進行了雙目立體視覺的實驗,采用了RGB相機拍攝了目標的二維圖片。
針對該機柜,實驗使用OpenCV構建了該區域的三維點云,在MATLAB平臺上實現基于MobileNet的特征提取和基于SVM的目標識別方法。具體而言,實驗首先使用Deep Learning Toolbox中的預訓練MobileNet模型提取特征;特征提取完成后,得到的高維度特征向量被用于訓練SVM分類器。實驗使用Statistics and Machine Learning Toolbox來構建SVM分類器。實驗首先通過-fitcsvm-函數訓練SVM模型,設置核函數參數為‘rbf’,利用-fitPosterior-函數進行后處理以提高分類器的概率輸出性能;通過-predict-函數對測試數據進行分類,輸出目標識別結果。
從實驗可以看出,基于MobileNet和SVM的目標識別方法在復雜背景下對機柜具有良好的效果。在初始點云中,由于背景與機柜混疊在一起,難以明顯區分目標。然而,在本方法處理之后,位于圖像中間區域的機柜的點云得到了清晰而準確的識別,背景則被去除。總體而言,該結果顯示出所提方法的有效性。
分析表明,這種改進的原因之一為MobileNet的深度可分離卷積結構。通過深度卷積,MobileNet能夠捕捉到圖像中不同尺度和空間位置的特征,而逐點卷積則進一步將這些特征進行有效融合,從而增強了模型對復雜場景中細微差異的識別能力。此外,SVM分類器在特征空間中構建了一個最優的分類超平面,通過合理的核函數選擇和參數優化,進一步提高了對機柜點云的分類精度。
4 結語
文章提出并驗證了一種基于雙目立體視覺和MobileNet深度學習模型的機柜自動識別方法。首先,雙目立體視覺技術通過生成深度圖,為三維場景的目標識別提供了豐富的信息,然后,該研究通過利用MobileNet和SVM相結合的方法進行了準確的目標識別。實驗結果顯示,該方法成功區分了機柜與背景點云,驗證了方法的有效性和實用性。該研究不僅豐富了雙目立體視覺的應用場景,也為機器人自動化識別技術的發展提供了重要參考。未來的工作將進一步優化算法,提高實時性和適用性,以滿足更廣泛的工業應用需求。
參考文獻
[1]呂強,張海濤,王輝,等.基于雙目視覺技術的復雜環境下機器人自動導航研究[J].機械設計與制造工程,2023(9):79-84.
[2]郭金升,金耀花.基于雙目視覺的變電站自動化巡檢機器人目標定位方法[J].精密制造與自動化,2023(3):35-37,64.
[3]黃裕凱,王青旺,沈韜,等.基于MobileNet的多尺度感受野特征融合算法[J].激光與光電子學進展,2023(4):280-288.
[4]蘇童.基于改進YOLO-MobileNet的近紅外圖像特征駕駛員人臉檢測[J].蘭州工業學院學報,2023(5):90-93,106.
[5]丁世飛,齊丙娟,譚紅艷.支持向量機理論與算法研究綜述[J].電子科技大學學報,2011(1):2-10.
[6]李召桐.支持向量機發展歷程及其應用[J].信息系統工程,2024(3):124-126.
[7]陳江.基于改進支持向量機的紙張缺陷圖像分類識別方法[J].造紙科學與技術,2023(5):39-43,78.
[8]毛玉龍.基于不同卷積神經網絡的目標檢測算法對比研究[J].測繪標準化,2023(4):39-43.
[9]張瑞鵬,尹燕芳.基于OpenCV的遙操作工程機器人雙目視覺定位技術[J].計算機測量與控制,2020(12):172-175,180.
[10]王連增.基于VS+OpenCV的雙目視覺定位測距系統[J].現代計算機,2020(14):58-62.
(編輯 王永超)
Automatic recognition method for cabinets based on robot binocular vision
QI Qiaoyun, LI Li
(Jinken College of Technology, Nanjing 211156, China)
Abstract:In this paper, a method of automatic cabinet recognition based on robot binocular vision is studied. Firstly, the basic principle of binocular stereo vision is introduced in detail, including the imaging principle of binocular stereo vision and the process of object recognition. Then, we focus on the cabinet recognition method based on the lightweight MobileNet, and combine it with the support vector machine for object classification. The experimental results show that this method effectively solves the problem of background and target aliasing and can accurately identify cabinet point clouds. This method provides a new technical support and theoretical basis for the application of intelligent robot in complex environment.
Key words:binocular vision; target recognition; MobileNet model; support vector machine