







摘" 要:該文設計一種基于卷積神經(jīng)網(wǎng)絡的攝像機姿態(tài)感知系統(tǒng),運用深度學習方法結合傳感器技術,獲取攝像機實時姿態(tài)數(shù)據(jù),特別是攝像機運動過程中的姿態(tài)數(shù)據(jù)。系統(tǒng)采用孿生卷積神經(jīng)網(wǎng)絡,通過攝像機采集的環(huán)境圖像對孿生卷積神經(jīng)網(wǎng)絡進行訓練獲得攝像機姿態(tài)感知模型,在使用時通過將攝像機采集的視頻圖像輸入攝像機姿態(tài)感知模型獲得攝像機的位姿數(shù)據(jù)。系統(tǒng)解決可轉動式攝像機的實時姿態(tài)感知問題,可在公共安全、工廠、交通和礦山等領域廣泛推廣應用。
關鍵詞:卷積神經(jīng)網(wǎng)絡;深度學習;攝像機;姿態(tài)感知;公共安全
中圖分類號:TP391.9" " " 文獻標志碼:A" " " " " 文章編號:2095-2945(2023)25-0119-04
Abstract: This paper designs a camera posture perception system based on convolution neural network. Using deep learning method and sensor technology, real-time camera posture data, especially during camera motion, is obtained. The system uses Siamese convolution neural network to train the twin convolution neural network through the environment image collected by the camera to get the camera posture perception model. When using the system, the camera posture data is obtained by inputting the video image collected by the camera into the camera posture perception model. The system solves the real-time posture perception problem of rotatable cameras and can be widely used in public safety, factories, transportation, mining and other fields.
Keywords: convolution neural network; deep learning; camera; posture perception; public safety
隨著監(jiān)控設備在日常生活中的不斷普及和應用,攝像機在公共安全、工廠、交通和礦山等領域發(fā)揮著重要作用。監(jiān)控攝像機包括固定式和可轉動式兩種形式,固定式攝像機的水平角度和俯仰角度鎖定,所以監(jiān)控范圍小,只能獲取固定視野范圍內(nèi)的圖像信息;帶有云臺的可轉動式攝像機(包括槍機、球機等)可以大大提高監(jiān)控范圍,然而由于云臺采用基于RS485總線或LAN網(wǎng)絡通信的單向開環(huán)控制方式,監(jiān)控中心可人工或通過系統(tǒng)自動控制云臺轉動,但無法獲得監(jiān)控攝像機的實時角度,即使采用特殊的具有閉環(huán)控制的云臺,當攝像機被現(xiàn)場工作人員強制手動轉動或受其他外力作用改變角度時,監(jiān)控中心同樣無法獲得監(jiān)控攝像機準確的實時角度,因此監(jiān)控中心就無法準確判定所采集圖像的監(jiān)控區(qū)域。現(xiàn)有公共交通道路監(jiān)控的圖像識別技術已經(jīng)成熟,包括違章車輛車牌識別和位置識別技術等,然而這些技術均是基于固定攝像機的應用,對于可轉動攝像機,由于無法確定攝像機的姿態(tài)及攝像機的拍攝區(qū)域,因此無法對監(jiān)控目標進行位置識別,限制了可轉動攝像機的功能擴展,嚴重制約著監(jiān)控技術的發(fā)展與應用。所以,急切需要研究開發(fā)可對轉動式攝像機實時姿態(tài)感知的方法與系統(tǒng)。
磁力傳感器可獲取靜態(tài)絕對方向數(shù)據(jù),將其安裝到攝像機上,可以獲取攝像機的靜態(tài)絕對位姿,但磁力傳感器數(shù)據(jù)更新較慢,在沒有其他輔助傳感器的支持下,無法準確獲取動態(tài)方向數(shù)據(jù)。為獲得攝像機動態(tài)的實時位姿數(shù)據(jù),本文作者研究了基于孿生卷積神經(jīng)網(wǎng)絡模型的識別方法,通過識別圖像變化可以獲得攝像機的動態(tài)相對姿態(tài)變化,但此方法仍存在累積誤差的缺點,如果長時間不進行校準,累積誤差將越來越大。為進一步解決這一問題,本文設計了一種基于深度學習的攝像機姿態(tài)感知系統(tǒng),采用磁力傳感器獲取攝像機的絕對方向與姿態(tài),通過孿生卷積神經(jīng)網(wǎng)絡模型獲取攝像機動態(tài)相對位姿變化,結合攝像機運動前的初始絕對姿態(tài)數(shù)據(jù),進而得到攝像機動態(tài)條件下的實時絕對姿態(tài)數(shù)據(jù)。當攝像機靜止時,及時根據(jù)磁力數(shù)據(jù)更新攝像機絕對姿態(tài)數(shù)據(jù),避免累積誤差。所述基于深度學習的攝像機姿態(tài)感知系統(tǒng),既發(fā)揮了磁力傳感器在獲取靜態(tài)絕對方向數(shù)據(jù)方面的優(yōu)點,又發(fā)揮了孿生卷積神經(jīng)網(wǎng)絡模型在圖像變化識別方面的優(yōu)勢,并克服和解決了累積誤差問題。該系統(tǒng)具有實時性強、數(shù)據(jù)準確、易于安裝實施的特點,系統(tǒng)的應用可將位置識別技術的應用范圍從單一的固定攝像機擴展到可轉動攝像機,極大地擴展了監(jiān)控區(qū)域,在動態(tài)目標跟蹤監(jiān)控和圖像定位領域有著廣泛的應用前景。
1" 總體設計
基于卷積神經(jīng)網(wǎng)絡的攝像機姿態(tài)感知系統(tǒng)主要包括:攝像機、云臺、磁力傳感器、數(shù)據(jù)處理單元、輔助電路和通信單元。
系統(tǒng)實施方案1總體功能結構如圖1所示。
磁力傳感器:用于獲取攝像機靜態(tài)磁力數(shù)據(jù),與攝像機主體剛性連接安裝,可采用GY-511 LSM303DLHC磁力傳感器模塊,通過I2C通信接口連接數(shù)據(jù)處理單元,將磁力數(shù)據(jù)傳輸發(fā)送給數(shù)據(jù)處理單元。
數(shù)據(jù)處理單元:負責磁力數(shù)據(jù)和視頻圖像數(shù)據(jù)接收與處理,通過數(shù)據(jù)處理獲得攝像機的實時位姿數(shù)據(jù),將實時位姿數(shù)據(jù)以字幕形式加入視頻圖像,并將經(jīng)處理后視頻圖像和實時位姿數(shù)據(jù)通過通信單元傳輸給監(jiān)控控制中心。數(shù)據(jù)處理單元通過I2C通信接口連接磁力傳感器,通過USB直接連接數(shù)字攝像機,嵌入孿生神經(jīng)網(wǎng)絡模型。可采用英偉達嵌入式GPU的 Jetson nano模塊,搭載四核ARM A57處理器,12核MAXWELL GPU,4 G LPDDR內(nèi)存,可滿足本系統(tǒng)應用所需的孿生卷積神經(jīng)網(wǎng)絡運行計算能力。
攝像機:負責采集環(huán)境視頻流格式的圖像,將采集的圖像通過通信接口發(fā)送給數(shù)據(jù)處理單元,在具體實施方式的示例中,采用USB通信接口與數(shù)據(jù)處理單元連接通信。如采用模擬攝像機,則需在攝像機視頻輸出端口與數(shù)據(jù)處理單元的USB接口之間添加視頻采集卡,視頻采集卡可采用天創(chuàng)恒達U100pro。
云臺:負責帶動攝像機進行轉動,使攝像機能夠采集更大的圖像范圍,轉動方向包括水平方向和垂直方向。標準云臺一般采用RS485總線接口接收控制指令,控制協(xié)議包括PELCO-D、PELCO-P等。在本實施示例中,云臺通過通信單元接收云臺控制數(shù)據(jù),通過內(nèi)置的LAN-RS485接口將通過網(wǎng)絡傳輸來的控制數(shù)據(jù)轉換成RS485數(shù)據(jù),進而實現(xiàn)云臺轉動控制。
通信單元:負責視頻圖像數(shù)據(jù)、攝像機姿態(tài)數(shù)據(jù)的發(fā)送,以及攝像機設置數(shù)據(jù)、云臺控制數(shù)據(jù)的接收。采用有線網(wǎng)絡通信接口,也可包括但不限于采用Wifi、藍牙、2G、3G、4G和5G移動通信等無線通信接口,以及工業(yè)現(xiàn)場總線等有線通信接口。通信單元的傳輸速率應滿足視頻傳輸要求。
輔助電路:負責為磁力傳感器、數(shù)據(jù)處理單元、攝像機、云臺和通信單元分別提供所需電源,如采用直流供電,可直接采用多個AMS1117系列穩(wěn)壓器芯片實現(xiàn)DC/DC轉換。如果采用交流供電,還需在DC/DC前端增加AC/DC轉換模塊,進行交/直流轉換。
系統(tǒng)實施方案2總體功能結構如圖2所示,實施方案2與實施方案1組成基本相同,區(qū)別在于用通用性更強的網(wǎng)絡攝像機(包括有線網(wǎng)絡或無線網(wǎng)絡)替換USB接口攝像頭,網(wǎng)絡攝像機通過網(wǎng)絡接口和通信單元將視頻圖像數(shù)據(jù)傳輸給數(shù)據(jù)處理單元。為實現(xiàn)系統(tǒng)功能,保證數(shù)據(jù)傳輸速率,實施方案2的通信單元僅限使用支持網(wǎng)絡通信的設備。
2" 工作流程設計
2.1" 系統(tǒng)初始化
系統(tǒng)在使用前需要進行初始化,具體步驟如圖3所示,包括以下內(nèi)容。
1)通過攝像機采集圖像M1。
2)通過磁力傳感器采集磁力數(shù)據(jù),處理磁力數(shù)據(jù)確定M1對應的絕對位姿數(shù)據(jù)α1、β1;α1、β1分別為用歐拉角表示的水平旋轉角度和垂直旋轉角度。
3)云臺帶動攝像機轉動,同步采集圖像Mi和磁力數(shù)據(jù),處理磁力數(shù)據(jù)得到Mi對應的絕對位姿數(shù)據(jù)αi、βi;αi、βi分別為用歐拉角表示的水平旋轉角度和垂直旋轉角度。
4)存儲M1、α1、β1、Mi、αi、βi。
5)將α1、β1、αi和βi處理為用四元數(shù)表示的絕對位姿數(shù)據(jù)q1、qi,其中qi=si+xia+yib+zic。a,b,c分別表示四元數(shù)的虛數(shù)部分,si表示四元數(shù)的實數(shù)部分系數(shù),xi、yi、zi表示四元數(shù)虛數(shù)部分系數(shù),其計算公式為
si=coscos,xi=sincos,yi=cossin,zi=-sinsin。
6)判斷是否采集了設定數(shù)量的帶有位姿標簽的數(shù)據(jù),如果是則執(zhí)行初始化過程步驟7),否則繼續(xù)執(zhí)行初始化過程步驟3)及其以下步驟。
7)數(shù)據(jù)預處理得到圖像對Mij和相對位姿數(shù)據(jù)qij。
8)存儲Mij和qij作為訓練集。
9)數(shù)據(jù)處理單元加載孿生神經(jīng)網(wǎng)絡。
10)數(shù)據(jù)處理單元用步驟8)得到的訓練集訓練孿生神經(jīng)網(wǎng)絡,獲得具有最優(yōu)網(wǎng)絡參數(shù)的孿生神經(jīng)網(wǎng)絡模型。
11)存儲孿生神經(jīng)網(wǎng)絡模型。
上述步驟7)為數(shù)據(jù)處理單元對攝像機所采集數(shù)據(jù)預處理,該預處理的具體流程如圖4所示,包括以下內(nèi)容。
1)采集圖像Mi,將Mi裁剪到設定的大小,裁剪方式為中心裁剪。
2)對Mi對應的用歐拉角表示的絕對位姿數(shù)據(jù)αi和βi轉換為用四元數(shù)表示的絕對位姿數(shù)據(jù)qi=si+xia+yib+zic,其中a,b,c分別表示四元數(shù)的虛數(shù)部分,si表示四元數(shù)的實數(shù)部分系數(shù),xi、yi、zi表示四元數(shù)虛數(shù)部分系數(shù)。
3)間隔幀數(shù)n采集圖像Mj,將Mj裁剪到設定的大小。
4)對Mj對應的用歐拉角表示的絕對位姿數(shù)據(jù)αj和βj轉換為用四元數(shù)表示的絕對位姿數(shù)據(jù)qj=sj+xja+yjb+zjc。
5)將Mi和Mj配對成圖像對Mij,并用四元數(shù)表示其相對位姿數(shù)據(jù)qij=qjqi-1,其中qi-1為Mi的絕對位姿數(shù)據(jù)qi的逆運算
2.2" 系統(tǒng)工作流程
系統(tǒng)工作流程如圖5所示,步驟如下。
1)云臺受控帶動攝像機進行轉動,攝像機同步采集圖像。
2)數(shù)據(jù)處理單元獲取實時攝像機位姿數(shù)據(jù)。
3)數(shù)據(jù)處理單元將實時攝像機位姿數(shù)據(jù)以字幕形式加入視頻圖像中。
4)數(shù)據(jù)處理單元通過通信單元輸出帶有實時攝像機位姿數(shù)據(jù)字幕的視頻圖像,以及所述位姿的原始數(shù)據(jù)。
5)判斷攝像機是否轉動完畢處于靜止狀態(tài),如果是則執(zhí)行步驟6),否則返回步驟1)。
6)根據(jù)磁力數(shù)據(jù)更新攝像機絕對位姿數(shù)據(jù)。
2.3" 攝像機姿態(tài)感知流程
圖6為數(shù)據(jù)處理單元獲取實時攝像機絕對位姿數(shù)據(jù)流程示意圖,步驟如下。
1)采集攝像機采集初始圖像Ma,并裁剪Ma到設定大小。
2)采集終止圖像Mb,并裁剪Mb到設定大小。
3)將Ma和Mb配對成圖像對Mab。
4)將圖像對Mab送入孿生神經(jīng)網(wǎng)絡模型。
5)得到該圖像對的四元數(shù)表示的攝像機相對位姿數(shù)據(jù)qab。
6)將得到的qab轉換為歐拉角形式的攝像機相對位姿數(shù)據(jù)αab、βab;αab為歐拉角形式相對水平旋轉角度, βab為歐拉角形式相對垂直旋轉角度,其中qab=sab+xaba+yabb+zabc,其計算公式為
αab=arctan ,
βab=arcsin[2(sabyab-xabzab)]。
7)將攝像機相對位姿數(shù)據(jù)轉換為實時攝像機絕對位姿數(shù)據(jù)。
3" 結束語
本文設計了一種基于卷積神經(jīng)網(wǎng)絡的攝像機姿態(tài)感知系統(tǒng),運用孿生卷積神經(jīng)網(wǎng)絡結合傳感器技術,既發(fā)揮了磁力傳感器在獲取靜態(tài)絕對方向數(shù)據(jù)方面的優(yōu)點,又發(fā)揮了孿生卷積神經(jīng)網(wǎng)絡模型在圖像變化識別方面的優(yōu)勢,克服和解決了長時間工作的位姿累積誤差問題,可獲取準確的攝像機實時姿態(tài)數(shù)據(jù),特別是攝像機運動過程中的姿態(tài)數(shù)據(jù),解決了可轉動式攝像機實時姿態(tài)感知問題,只需要視頻監(jiān)控中的圖像信息就可以獲取攝像機的實時姿態(tài)信息,為動態(tài)目標跟蹤監(jiān)控和圖像定位技術的發(fā)展與應用提供有力的技術支撐。該系統(tǒng)具有實時性強、數(shù)據(jù)準確、易于安裝實施的特點,可在公共安全、工廠、交通和礦山等監(jiān)控領域廣泛推廣應用。
參考文獻:
[1] 孫繼平.煤礦安全生產(chǎn)監(jiān)控與通信技術[J].煤炭學報,2010,35(11):1925-1929.
[2] 劉毅.基于三向加速度數(shù)據(jù)的井下移動通信設備定位[J].工礦自動化,2016,42(4):70-73.
[3] 孫志軍,薛磊,許陽明,等.深度學習研究綜述[J].計算機應用研究,2012,29(8):2806-2810.
[3] 許賀.基于3D模型和深度學習的井下視覺方位感知方法研究[D].北京:中國礦業(yè)大學(北京),2021.
[4] 高翔,張濤,等.視覺SLAM十四講:從理論到實踐[M].北京:電子工業(yè)出版社,2019.
[5] CHOPRA S,HADSELL R,LECUN Y. Learning a similarity metric discriminatively, with application to face verification[C]// 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05).IEEE,2005.
[6] LASKAR Z,MELEKHOV I,KALIA S,et al. Camera Relocalization by Computing Pairwise Relative Poses Using Convolutional Neural Network [C]// 2017 IEEE International Conference on Computer Vision Workshop (ICCVW). IEEE, 2017.
[7] 岡薩雷斯,伍茲.數(shù)字圖像處理(英文版)[M].北京:電子工業(yè)出版社,2010.