柳 黎,許凱華,何伍斌,徐 秀
1(江蘇如是地球空間信息科技有限公司,宿遷 223800)
2(江蘇如是數學研究院有限公司,宿遷 223800)
目標識別、定位和報警是非?;钴S的研究方向,被認為是與生活緊密相關的前沿技術.近年來,目標定位研究取得了一些新的成果,包括各種模型和算法.總體而言,這些研究成果可以分為3 類:第1 類是建立空間幾何關系和測距算法[1-12];第2 類是建立位置數據庫和測距算法[13-20];第3 類是場景匹配和視覺定位[21-24].第1 類是通過固定錨點的空間幾何關系,再測量定位節點與錨點的距離來實現定位.這種方法的不足是無線信號在環境中存在著多徑效應、信號衰落、干擾等,計算接收信號的功率[1,11]、相位[5,12]、到達時間[9]往往是不準確的,而且定位節點是有源的,在實際應用中有難度.第2 類是通過事前在定位區域建立位置數據庫,定位時通過環境測量結果來匹配位置數據庫,從而實現定位.這種方法的不足是建立位置數據庫的工作量大,在定位時節點的任何形態變化都會影響匹配定位的精度,而且定位節點也是有源的.第3 類是通過視覺定位目標,并將視覺定位與實際場景匹配,從而實現定位.這種方法的不足是算法復雜度高,實時性要求嚴格,優點是定位目標是無源的.
為了實現對行人目標的無源定位與越界報警,結合上述3 類方法的特點,本文提出了結合視覺圖像的行人檢測與交疊率的定位報警算法.本方法要達到較好的效果,關鍵是基于紅外圖像的行人檢測準確率,交疊率算法和報警邏輯策略.目前,國內外有關學者對行人檢測進行了部分研究,提出了一些有意義的檢測方法.李盈盈等[25]通過提取HOG 特征和顏色自相似性進行行人檢測,并通過Adaboost算法進行分類;陳麗楓等[26]通過提取多尺度方向的HOG 特征進行行人檢測,并通過Adaboost算法進行分類;任克強等[27]通過提取LBP特征,并引入灰度的全局和局部自適應閾值進行行人檢測,最后通過支持向量機(SVM)進行分類;Susutti 等[28]通過構造多通道的行人特征,并對通道加權,組合出完整的行人特征來進行檢測;張匯等[29]基于Faster RCNN網絡,通過構建區域建議網絡(RPN)和目標檢測網絡進行判別和分類.這些行人檢測方法和模型是基于自然光環境的下檢測,紅外環境下并不適用.
目前,基于紅外圖像的行人檢測研究也取得了部分進展.譚康霞[30]基于YOLO 模型,改進輸入圖像分辨率,并用實際道路場景下的數據集進行訓練和檢測;Kim[31]通過提取人體紅外圖像溫度特征來提高行人檢測性能,取得了不小的突破;王姮[32]通過高斯混合模型進行圖像分割,再提取HOG 特征進行檢測,并用Adaboost算法進行分類;許茗[33]將紅外圖像的原圖和頻域特征圖結合,通過全卷積網絡進行行人檢測.這些檢測方法屬于增加樣本,調整參數,來提高檢測準確率,本文在設計實驗過程中也有借鑒.
鑒于基于紅外圖像的行人檢測和報警的重要意義,本文提出了一種權衡了行人檢測和報警準確率的系統設計,并提出了動態與靜態交疊率的理論與計算.本方法主要由3 部分組成:紅外圖像行人檢測算法、分類算法、交疊率算法與報警邏輯.紅外圖像行人檢測是通過改進的YOLOv3算法實現,然后提取目標候選框的方向梯度直方圖(HOG)特征并通過多層感知器(MLP)二分類來實現;報警算法與邏輯是計算行人目標的候選框與報警區域的交疊率,再進行邏輯判斷.實驗表明,本方法提高了紅外行人檢測的準確率,通過計算交疊率判斷入侵報警也較為準確,能夠滿足應用需求.
本文權衡了行人檢測準確率和報警準確率,提出一種改進的紅外圖像行人檢測和交疊率算法.首先,通過YOLOv3算法進行紅外圖像的行人檢測,優化背景平衡問題.然后,利用方向梯度直方圖(HOG)的幾何不變性,提取目標候選框的HOG 特征,并通過多層感知器(MLP)二分類來實現.由于MLP 網絡結構簡單,也有利于提高實時性.最后,根據實際應用場景設置圖像中需要監測的區域(報警區域),計算行人目標候選框與報警區域的交疊率,通過類似斯密特觸發器的雙門限來進行邏輯判斷.例如,當交疊率大于90%,表征行人進入了標記區;當交疊率小于10%,表征行人離開了標記區.實驗表明,本方法的報警準確率可達91%,在實際應用中能較好克服環境影響,具有較好的應用前景.目標檢測報警總體架構圖如圖1 所示.

圖1 目標檢測報警總體架構圖
本文中軟件主要包括行人檢測、目標分類、交疊率與報警邏輯3 部分.
YOLOv3 在原來YOLOv2 的基礎上參考了ResNet和SSD 網絡結構,兼顧網絡復雜度和檢測準確率.YOLOv3 的改進主要體現在3 個方面:1)將YOLOv2的Softmax 損失函數改成了Logistic 損失函數,類別預測中單標簽分類改進為多標簽分類;2)YOLOv2 用了5 個anchor,而YOLOv3 用了9 個,提高了交并比;3)采用了多個不同尺度的特征圖譜,detection 有由1 個增加到3 個,且特征圖譜維度也由13×13 增加至52×52,有利于小目標檢測和準確率.雖然YOLOv3 增加了anchor 和detection,但YOLOv3 的網絡結構是縱橫交叉的,很多通道的卷積層沒有依賴性,這個非常有利于并行計算.
本文對YOLOv3 在第一階段生成的預選框,針對紅外采集圖像前景和背景分類不平衡,加入focal loss 只對背景進行loss 調節[34],在訓練過程中逐漸減低“簡單樣本”的權重,而向“困難樣本”加權.如式1,α為權重因子,p 為交叉熵調節因子,γ為調節loss 相關性指數,計算中取α =0.25,p=0.4,γ=2.

同時,修改隨機參數,讓不同分辨率的紅外圖片進行訓練.用紅外數據集進行模型的預訓練,在神經網絡迭代過程中,隨機改變輸入圖像的分辨率進行多尺度訓練,從而提升網絡整體適應性.
通過YOLOv3 可以比較有效的檢測到行人目標,但誤檢仍然不可避免,所以對檢測目標的進一步分類是有必要的.目標分類需要提取目標區域的特征向量,并使用分類器來分類.考慮到行人目標的長寬比相對固定(幾何不變性),且運動過程中難免會有肢體動作,本文選擇方向梯度直方圖(HOG)來提取目標區域的HOG 特征,并通過多層感知器(MLP)二分類來實現,目標分類流程圖如圖2.

圖2 目標分類流程圖
2.2.1 特征提取
對于目標區域圖片,首先縮放至一個固定比例,然后對縮放后的區域進行灰度化處理,最后再提取特征和二分類.在HOG 計算時,通過梯度算子分別計算水平方向和垂直方向的梯度分量gradscaly,然后再計算每個像素點的梯度大小和方向.

H(x,y),Gx(x,y),Gy(x,y)分別代表像素點(x,y)的像素值、水平方向梯度、垂直方向梯度.G (x,y)和α(x,y)分別為像素點(x,y)處的梯度幅值和梯度方向.將檢測區域分成若干個cell,將每個cell 計算出的特征向量串聯系起來即可得到整個檢測區域的HOG 特征.
2.2.2 二分類
分類算法是目標檢測中非常重要的一個環節,分類算法的性能直接影響檢測性能.目前的分類算法有很多,Adaboost算法[25,26]和支持向量機(SVM)算法[27]都是性能優良、使用廣泛的分類算法.本文選擇性能較好的多層感知器(MLP)來實現二分類.
本文中的多層感知器選用了一個輸入層、兩個隱藏層、一個輸出層的網絡結構.在這個模型中,檢測區域的HOG 特征會連接到輸入層神經單元,輸入層會連接到臨近隱藏層各神經單元,最后一個隱藏層的神經元再連接到輸出層,每一層的連接都是全連接,MLP 神經元網絡圖如圖3.對于輸出的結果,用激活函數Sigmoid 即可實現分類.

圖3 MLP 神經元網絡圖
在目標檢測的評價體系中,交并比(IOU)是一個重要的評價尺度.IOU 是指檢測結果(detection result)與標記窗口(ground truth)的交集與并集的比值,交疊率示意圖如圖4,主要用來判斷檢測框的重合程度.

圖4 交疊率示意圖

對于沒有方向性要求和距離評價的檢測框而言,交并比無疑是非常合適.但在現實中,許多目標是動態的,我們希望能夠盡可能的反映目標變化,并且盡可能的設置合理門限值來過濾評價結果.對于檢測結果與標記窗口相等的情況,典型的就是比較視頻中連續幀同一目標的交并比,交并比的門限值是容易設定的,交并比的范圍也很明確,為[0,1].對于檢測結果與標記窗口不相等的情況,如一幀圖像中檢測目標是行人而標記窗口是廣場,交并比往往好計算而門限不好設置.為此,我們將兩種情況統一考慮,引入交并比的思想,提出計算交疊率.即計算同一目標連續幀的交疊率,同時計算當前圖像幀中檢測目標與標記窗口的交集與檢測目標本身的比率,計算公式如下.

Dpre,Dcur,G分別代表上一幀圖像檢測目標框,當前幀檢測目標框,標記框.I OUD是動態因子,反映了檢測目標自身的運動特性;IOUG是靜態因子,反映了檢測目標在標記范圍內的靜態特征.通過動態因子和靜態因子,即可以反映視頻場景中目標自身的運動信息和目標相對于標記范圍的運動信息.
在行人檢測的場景中,I OUD可表征行人是否丟失和行走的快慢,IOUG可表征行人是否進入標記范圍和進入的程度.
在實際應用場景中,需要對 I OUD設置門限,以判定前后兩幀的行人檢測結果是否為同一目標.將IOUD大于等于0.5 認定為是同一個行人,數值越大,行走越慢.當 IOUD小于0.5 時,認定為當前行人目標丟失,產生了新的行人目標.
在實際應用場景中,將 I OUG通過類似斯密特觸發器的雙門限來進行邏輯判斷是有必要的.例如,當IOUG逐漸增大到大于90%,表征行人進入了標記區;當I OUG逐漸減小到小于10%,表征行人離開了標記區.
作者在生活園區的主干路和臨近綠化帶支路共架設了4 臺紅外攝像機,用38 天時間采集了19:00~22:00間的行人數據,最后形成了有效行人數據集共11 854 張.隨機將數據集的70%抽取出來當作訓練集,共8298 張;將剩下的3556 張當作測試集.
在進行網絡訓練時,修改隨機參數,用訓練集進行模型的預訓練,在神經網絡迭代過程中,隨機改變輸入圖像的分辨率進行多尺度訓練.針對本文所述方法,在訓練過程中,通過在YOLOv3 中加入focal loss 對背景進行loss 調節,進行“困難樣本”的自適應加權學習.在用測試集測試時,對于檢測結果,利用方向梯度直方圖(HOG)和多層感知器(MLP)二分類來實現目標過濾.行人檢測性能對比如表1.

表1 行人檢測準確率對比表(單位:%)
計算行人目標的候選框與標記區域的交疊率.首先,對測試集中的3556 張圖片標記報警區域,為了提高測試集的利用效率,我們對每張照片均標記了3 次作成3 個樣本:標記區域與行人重疊度大于90%的作為正樣本;標記區域與行人重疊度小于10%作為負樣本;標記區域與行人重疊度在10%~90%之間的作為中間樣本.
然后,我們設置報警邏輯,與測試集打標時一致,設置類似斯密特觸發器的雙門限來進行邏輯判斷,當交疊率大于90%,表征行人進入了標記區;當交疊率小于10%,表征行人離開了標記區.交疊率報警性能對比如表2,交疊率報警效果如圖5.
實驗表明:結合表1 來看,行人檢測的識別率因樣本像素的增加而提高;改進YOLOv3 比YOLOv3 的準確率要高,這是由于改進YOLOv3 更加關注困難樣本的學習;而改進YOLOv3+HOG+MLP 檢測結果要優于改進YOLOv3,這是由于二分類能過濾一部分誤檢.

表2 改進YOLOv3+HOG+MLP 的交疊率報警準確率對比表(單位:%)

圖5 交疊率報警效果圖
在行人檢測之后,進行了交疊率計算和報警邏輯判斷.結合表1、表2 來看,對于改進YOLOv3+HOG+MLP算法,交疊率報警的準確率比行人檢測的準確率要低4%左右,這是由于行人候選框的精度存在誤差,導致候選框在計算交疊率時產生誤差;結合表2 來看,同一種像素條件下,正負樣本的準確率很接近,而中間樣本則普遍低了2%左右,這是由于測試數據集中在交疊率門限附近的樣本出現了“判斷困難”,實際上還是行人候選框的精度問題;同時,交疊率門限附近的“判斷困難”也證明,本文的斯密特雙門限邏輯設計的必要性.與此同時,我們也應該看到,中間樣本的實際報警準確率達到了91%.
本文提出了結合紅外圖像的行人檢測與交疊率的定位報警算法,包括改進YOLOv3 的行人檢測算法、分類算法、交疊率算法與報警邏輯.實驗比較了不同圖像分辨率、不同算法條件下的行人檢測準確率,進一步比較了不同圖像分辨率下的交疊率報警的準確率.實驗表明,本方法的報警準確率可達91%,具有實際應用價值.