于樂


[摘? ? 要]在科技不斷創新和廣泛應用的新時代,計算機視覺技術是整個科技領域的熱點研究課題。在計算機視覺領域中,目標視覺檢測屬于重要任務之一,如今各種電子設備都在人們工作生活中得到實際應用,圖像數據的產生量也海量增加,由于圖像識別的精確性對多個方面都有重大影響,在這樣的情況下,如何進一步提升圖像中目標識別的精確性成為相關研究人員考慮的重要問題。文章主要探討傳統目標檢測技術和基于深度學習的目標檢測技術,并以實際應用案例為參考,分析深度學習在目標視覺檢測中的應用系統,以供參考。
[關鍵詞]深度學習;目標視覺檢測;技術應用
[中圖分類號]TP18 [文獻標志碼]A [文章編號]2095–6487(2022)04–0–03
Application of Deep Learning in Object Visual Detection
Yu Le
[Abstract]In the new era of continuous innovation and widely application, computer vision technology can be said to be the whole field of science and technology, computer vision technology can also be said to be cutting-edge technology, and computer vision, target vision detection is one of the important tasks, nowadays, all kinds of electronic devices are actually used in people's work life, image data production, because the mass of the accuracy of image recognition has a significant impact on many aspects, in this case, how to further improve the accuracy of target recognition in the image has become an important issue for relevant researchers.The following mainly discusses the traditional object detection technology and the object detection technology based on deep learning, and analyzes the practical application case for the application system of deep learning in object visual detection for reference.
[Keywords]deep learning; target visual detection; technology application
在這個信息技術突飛猛進的時代,人們已經被各類電子設備所包圍,從人人離不開的手機到商場車站的刷臉測溫設備,可以說電子設備已經成了人類社會必不可少的重要工具。其解放了人力,同時也能更加準確高效地完成人力難以完成的工作。而這其中發揮重要作用的就是目標視覺檢測技術,有了這項技術,攝像頭才能夠在基礎的記錄影像語音的功能上具備識別人像,并進一步分析的能力。目標視覺檢測技術應用廣泛,作為一項基礎技術,應用于航拍、衛星、監控等領域,具有廣闊的發展前景,也是業內人士重點研究的課題,許多專家學者都在探索深度學習對目標視覺檢測技術的革新發展,這也是本文的研究中心。
1 傳統目標檢測技術
以前在進行目標檢測時,往往會通過4個步驟執行:①做好圖像的預處理;②選擇圖像候選區域;③及時提取區域特征;④做分類器的分類管理工作。每一個步驟都要逐一進行,并且有很多注意事項。傳統目標檢測技術流程如圖1所示。
(1)圖像預處理。實際工作時,圖像的好壞往往會直接影響整個識別計算的精度,所以在傳統目標檢測中,圖像是非常重要的一部分內容。相關的工作人員需要及時提取相應的特征,從實際情況出發,做深入的處理工作,如常見的降噪處理、平滑操作等等。這些處理內容都是需要完成的工作,這樣才能更全面地去除與檢測無關的信息,讓圖像能夠有更多真實有用的信息。預處理工作可以簡化輸入數據,讓后續的處理能夠更高效、更有針對性。
(2)區域的選擇。要想讓任務更好地完成,就一定要事先劃分區域,讓圖像可以在對應的區域完成工作,做好分類和識別。以前目標檢測技術通常會通過滑動窗口選擇區域,而實際工作時,目標尺寸大小有非常明顯的差異性,往往無法明確目標大小,必須要從實際情況出發做出取舍。而且不同尺寸大小窗口的圖像內容,都要做圖像的滑動選擇,才能確定所需要的候選區域。實際工作時滑動窗口選區會增加后續計算量,導致計算冗余以及重復,并帶來一系列的后續問題,讓工作量大大增加。
(3)特征提取。作為目標檢測的幾個環節中最重要的一環,特征提取會直接影響分類結果。在展開工作時,相關單位要結合特征形狀、特征區域以及紋理特征等一系列內容,做好識別的調整,了解不同特征的特性,并把特征提取下來,在特定場合下識別使用相應特征信息,讓目標的形態、背景等內容可以識別出來。實際工作中,目標視覺檢測往往會面臨到很多復雜的場景,而這些場景往往意味著特征的多樣性和多元化,在提取時會更加復雜。而系統無法準確識別時就需要人工決定,所以某種程度上來說,特征識別提取還是依賴相關研究人員的人工操作,在通用性上受到了很大的限制。38A7110E-08E5-4A40-A371-471E19CF5E16
(4)分類器分類。以前傳統分類是需要把相應的特征歸入SVM以及Adaboost上。
2 目標檢測技術
在機器學習時,深度學習是非常重要的內容,也是人工神經網絡研究的深入方向。它需要能夠準確建立一些模型,模擬人的大腦,然后從實際情況出發,做好自主分析,根據神經網絡的情況進行研究。深度學習包含的內容有很多,如卷積神經網絡、深度信念網絡等,都是要涉及的神經網絡算法類型。應用時,不同的區域會用到不同的網絡模型,并達到需要的效果。圖像的檢測要依靠CNN進行特征提取,得到相應的圖像特征后,再做分類和定位。卷積神經網絡是整個目標學習的基礎,其應用是讓系統深度學習的基石。
2.1 卷積神經網絡
通常卷積神經網絡都會用在檢測中,并且檢測的效果比較好。實際應用時特征表達能力越強,相應的目標檢測任務就可以更好地達成。適當增加網絡深度,可以讓深層次語義信息更加豐富清晰,更多層次的表達目標的情況。深度神經網絡會因為這一系列的改動而有效提取到對應的特征信息,更順利地達成目標工作內容。與傳統的深度神經網絡相比,卷積神經網絡能更好地處理一系列參數,讓模型參數量得到更好的優化,也讓傳統深度神經網絡存在的模型管理問題進一步緩解。從實際設計應用中可以看出,卷積神經網絡包括卷積層、激勵層、全連接層以及池化層。它能夠做好局部連接,并且還可以共享權值。卷積層運行原理如圖2所示。
(1)局部連接。實際應用中,局部連接發揮著非常重要的作用。它是稀疏連接,也是局部感受野,能夠在一定區域內顯示特征,但是如果距離比較遠,可以得到的特征相關性就比較弱。人腦想獲得目標信息時,依靠的不是每一個視覺神經元,而是神經元的局部特定地區去感知。在進行計算統計時,很多神經元處理信息都涉及了局部特征信息。傳統的人工神經網絡的神經元感受圖像在一個特定的區域,而在優化之后,計算量會大減少,計算的復雜度也會相應減弱。
(2)權值共享。在進行設計計算時,相關的工作人員需要明確卷積神經網絡顯示的特點。它能夠在圖像上不斷滑動,服務對象不同時,可以通過相同數值的濾波器獲取準確的特征。從實際應用中可以看出權值共享包含了很多方面的內容,它們能夠減少計算量,降低程序的冗雜性,還可以根據圖像的不同特征進行調整。
2.2 目標檢測算法
2.2.1 RCNN
隨著時間的推移,越來越多網絡分類投入實際使用中。相關研究人員不斷深入研究,與人工提取特征相比,深度神經網絡更具備魯棒性,投入實際使用時,其穩定性更高,誤差更小。相關的研究人員開始不斷嘗試,將目標檢測任務與深度神經網絡結合在一起,進行目標特征提取。第一個使用卷積神經網絡提取特征的是RCNN,它通過4個步驟來完成相應的工作:選擇區域、通過卷積神經網絡提取特征、做好SVM分類,回歸候選框。
2.2.2 FastRCNN
實際使用時,RCNN比傳統方式有了很大的提升。它解決了傳統目標檢測存在的很多問題,做了更深入的優化。然而,RCNN也存在沒有解決的疑難,如在提取2 000個候選框后,要把相應的候選方送入CNN做更進一步的特征。但是2 000個候選區域存在著重疊,所以計算時也會重復計算。要想做候選區域的更進一步的處理,就一定要先統一尺寸,規范輸入神經網絡并提取特征,相對來說還是有些復雜。使用crop/Wrap處理圖片之后,一些區域存在著遺失的情況,于是圖像也就失真了。為了處理RCNN的這一系列問題,相關研究人員做了深入的探討。2015年,研究人員將RCNN網絡結構模型與sppnet結合在一起,做出了綜合的調整和改進,并給出了fastRCNN結構模型。它給出了roiPooling來進行工作,不同大小特征都可以在該工具的處理中確定下來。實際應用中,整機操作可以對上整張圖像,減少了重復計算,整體工作效率大大增加。
3 目標視覺檢測的案例分析
3.1 系統使用工具介紹
本文以車輛目標檢測的設計為例進行分析。該案例會使用的工具包括了Pycharm、Qt Designer、PYUIC、PyRcc。先通過Pyqt5工具包、pipinstallpyqt5命令、pipinstallpyqt5-tools等內容來進行安裝,然后配置QtDesigner、PyUIC、PyRcc,制作UI界面,通過Button、Label等控件實現可視化。用戶不用自行編寫程序,設計界面的方式更直接,程序開發也更加方便。在查看預覽圖時,可以直接使用Ctrl+R快捷鍵。QtDesigner可以把UI文件格式轉換為python。每一次對UI文件的改動,都需要將UI文件重新轉換成python文件。
3.2 系統功能組成
在實際使用時,案例中的系統有4個主要的功能模塊:視頻檢測結果展示模塊、模塊加載檢測模塊、圖片/視頻流加載模塊以及圖片檢測結果展示模塊。不同模塊都有不同的針對事項,在進行加載檢測時,要注意每個模塊的功能分區,結合模塊的功能要求進行優化和細化,在圖片視頻流加載模塊中,需要讓系統自主選擇,根據圖片或視頻文件的情況來確定好路徑選擇和展示功能,并做好相應的加載,讓模型加載檢測模塊可以接收到相應的文件和信息。而模型加載和檢測模塊則要在YOLOv3基礎上做更進一步修正,根據車輛檢測的側重點以及其算法的權重做深入的文件配置,并實現圖片以及視頻的一系列檢測功能,完成對應的車輛檢測任務。圖片檢測結果展示模塊則是把前面幾個模塊處理后得到的檢測結果顯示出來,方便使用者在系統界面上了解檢測到的信息可。以下拉框查看不同檢測內容的細節,根據車輛類別以及檢測目標位置的信息獲取相應的內容,讓工作人員更方便地分析檢測結果。視頻檢測信息顯示模塊則是實時展示在左上角的位置,顯現處理情況,方便實時查看。
3.3 系統主要功能
3.3.1 圖片車輛檢測
在進行汽車檢測時,圖片車輛檢測功能是非常重要的一部分內容,相關的工作人員需要從實際情況出發,做好工作的優化,根據現場的狀況進行調整,合理選擇相應的文件信息。調用圖片做識別,讓車輛檢測更加方便,可以對比不同類型車輛的情況,做預測框的標記,然后顯示相應的檢測信息。可以每檢測到一個目標就做一次對應的矩形框標記,再在下拉列表里找到顯示的具體情況和信息內容,做更進一步的探討。
3.3.2 視頻車輛檢測
工作人員在點擊了視頻車輛檢測按鈕后,就可以及時跳轉并打開相應的文件界面。在此過程中需要合理的調度視頻文件,根據視頻檢測模塊完成視頻車輛檢測功能,顯示檢測結果,展示檢測實時幀率,方便處理期間進行更深入的識別和優化。
4 結束語
相對于傳統的目標視覺檢測技術,深度學習具有更大的優勢,能夠精準高效地對圖像進行處理和選擇,不容易受到光線、背景等因素的干擾,是未來的主要發展方向,能夠使技術更好地為人類服務。但是目前關于深度學習的研究還不夠充分,沒有一個較為完善的理論體系的支撐,勢必會對技術的應用造成阻礙,因而應當不斷完善理論,充實數據,并且在應用實踐中發現問題進而改進,激發深度學習的優勢,促使目標視覺檢測技術更好地發展。
參考文獻
[1] 張慧,王坤峰,王飛躍.深度學習在目標視覺檢測中的應用進展與展望[J].自動化學報,2017,43(8):17.
[2] 杜光景,謝俊,張玉彬,等.用于穩態視覺誘發電位腦機接口目標識別的深度學習方法[J].西安交通大學學報,2019,53(11):7.
[3] 秦龍.基于深度學習的交通場景視覺顯著性區域目標檢測[D].成都:電子科技大學,2020.
[4] 劉桂雄,劉思洋,吳俊芳,等.基于深度學習的機器視覺目標檢測算法及在票據檢測中應用[J].中國測試,2019,45(5):9.38A7110E-08E5-4A40-A371-471E19CF5E16