李一白,王彥林,閆 禹,胡敏濤,劉 賓,陳 平
(1.中北大學信息與通信工程學院,山西 太原030051;2.港珠澳大橋管理局,廣東 珠海519060)
人類行為通常與場景關聯才能判斷其準確含義,識別關聯場景的行為對安防起到十分重要的作用[1]。在對安全要求較高的地方,與場景關聯的入侵行為是異常安全事件的重要警示信號,之后進一步對入侵目標進行跟蹤,能夠有效實現對行為的精準分析。
在低照度條件下,可見光圖像質量差無法準確識別動作,紅外攝像頭不受光照變化影響,可以全天候進行與動作有關的行為識別[2-4]。但紅外圖像缺乏場景細節信息,難以實現場景關聯的目標分析。入侵行為的判斷依據是目標在場景中的位置,需要融合紅外和可見光圖像,將紅外圖像的目標和可見光圖像的場景細節融合到一張圖像中。
近年來,國內外研究者提出了很多圖像融合方法[5]。紅外與可見光圖像融合時的重要準則是保留紅外圖像的目標信息,基于視覺顯著性的融合方法利用紅外圖像中熱源目標相對背景比較突出的特點,使用紅外顯著性圖指導圖像融合[6-7]。Piao等人提出利用卷積神經網絡自動生成表示每個像素顯著性的權值圖,根據權值圖加權融合[8]。這些融合方法是針對視角相同的共光軸圖像,視角存在差異的圖像融合要先進行配準,現有的配準方法主要是提取匹配特征點計算整個圖像的變換矩陣[9-11]。變換整個圖像的方法不適用于非平面場景配準,由于視差存在差異需要獨立分析和配準每個目標[12]。Nguyen提出一種非平面紅外與可見光視頻配準算法,使用基于輪廓點的稀疏對應方法對每個前景目標進行特征匹配、矯正和位置差異計算[13]。Sun提出采用多目標跟蹤方法,獨立地分析和配準每個前景目標[14]。Bilodeau將相機標定和立體匹配計算視差用于圖像配準,提取運動目標根據各自的視差配準[15]。上述融合方法在監控場景下存在局限性:紅外和可見光攝像頭從不同視角拍攝同一場景時,紅外和可見光圖像尺度不同,目標形態差異大,配準過程中復雜的特征點提取與匹配容易出現錯誤,并且效率較低,而場景關聯的異常行為識別需要快速準確定位目標在可見光場景的位置。
圍繞監控攝像頭位置固定的不同視角場景配準,以及目標行人腳不離開地面時的入侵行為識別問題,本文提出了一種不同視角下紅外與可見光圖像融合方法。預先設置標志物建立紅外和可見光圖像的視場轉換模型,避免了復雜的圖像配準過程。使用Mask R-CNN獲取紅外圖像中人的局部顯著性圖,根據位置點將每個人變換到可見光圖像中的對應位置,使用紅外局部顯著性圖指導圖像融合,獲得的融合圖像可以用于闖入行為識別。
監控場景會出現多個目標的情況,由于常見的顯著性檢測算法無法將互相遮擋的目標分開,導致無法獨立分析和融合每個目標。使用Mask R-CNN網絡進行實例分割,可以準確獲得每個目標的顯著性圖。
Mask R-CNN是一個多任務網絡,同時實現目標識別和像素級實例分割[16]。本文的方法是利用Mask R-CNN網絡獲取紅外圖像中每個人的顯著性權值圖,只需要網絡實例分割分支輸出的Mask。網絡結構原理如圖1所示,主干網絡使用ResNet-101產生特征圖,并與空間金字塔(FPN)結合,融合低層目標位置信息和高層特征語義信息。將特征圖輸入區域建議網絡(RPN),在特征圖上基于Anchor 機制產生大量大小不同的候選矩形框,采用非極大值抑制方式選出置信度靠前的矩形框,并確定框中是背景還是目標物體。之后將數據輸入到ROIAlign層,使用雙線性插值方法將所有矩形框變成相同大小并進一步分類和定位。網絡最后使用全卷積層對預測目標進行像素級分割生成Mask。Mask是一個二進制矩陣,目標部分元素值為True,背景部分元素值為False。圖像中每個實例分割目標都會輸出一個Mask,將二進制Mask中的元素True和False分別轉換成1和0,就可得到紅外顯著性圖。

圖1 Mask R-CNN網絡結構圖
紅外圖像與可見光圖像差異較大,由于地面材質的反射率高,會導致地面出現人的倒影[17],如圖2所示。直接使用可見光數據集的預訓練模型在紅外圖像上的檢測效果不好,地面倒影會干擾分割,并且預訓練模型檢測物體類別太多,不只檢測分割人,
還會檢測出其他類別的物體,使融合受到干擾,因此需要使用Labelme制作自己的紅外分割數據集在預訓練模型的基礎上進行數據增強。

圖2 紅外倒影
針對低照度下場景關聯的異常行為識別問題,紅外與可見光圖像融合的目的是定位紅外目標在可見光場景的位置,不同視角圖像融合前的配準不需要和傳統圖像配準一樣使兩張圖片完全重合。利用監控攝像頭固定不動的特點,預先設置標志物配準紅外和可見光圖像中的地面,建立視場轉換模型,只需配準一次,之后可直接使用視場轉換模型對每個目標進行變換,避免了紅外和可見光圖像特征點的檢測和匹配,可以提高視頻配準效率。本文提出的圖像融合整體框架如圖3所示,整個過程主要分為兩部分:①預先配準攝像頭計算視場轉換模型;②融合紅外圖像的人和可見光圖像的背景。

圖3 整體框架圖

(1)
式中,fx和fy分別為圖像x和y方向上的縮放比例。
一般情況下,圖像x和y方向上的縮放比例相同。計算圖像縮放矩陣需要紅外和可見光圖像中的兩對對應點,使用兩點在圖像中的坐標計算兩點之間的距離,根據兩張圖片中對應兩點的距離計算縮放比例。假設可見光圖像中兩個特征點的坐標分別為(x1,y1)和(x2,y2),對應在紅外圖像中的點的坐標是(x3,y3)和(x4,y4),紅外圖像的縮放比例由式(2)計算:
(2)
縮放后紅外圖像中每一點的像素值使用雙線性插值計算。

(3)
(4)
投影變換矩陣有k0~k7八個參數,至少需要紅外和可見光圖像中4對匹配的特征點計算。
圖像中不同人的形態有差別,因近大遠小的成像規律,同一個人在場景中的不同位置大小也有差別,人身上只有與地面相交的點可以確定人的位置,稱之為位置點。尋找縮放后紅外圖像中每個人的位置點,根據視場轉換模型和顯著性圖實現紅外和可見光圖像融合。
首先,使用Mask R-CNN獲取縮放后的紅外圖像顯著性圖,選取一個人的紅外顯著性圖S(x,y),獲取紅外顯著圖中的輪廓,設定輪廓面積閾值,去除誤檢測的小輪廓。
然后,根據得到的輪廓找到位置點,計算平移變換矩陣。選取第i個輪廓Ci,輪廓最下方一點PA=(xa,ya)T為人的位置點,將該點代入投影變換公式得到可見光圖像中對應的點PB=(xb,yb)T,用于計算平移變換矩陣。獲得輪廓外接矩形區域Ri,將顯著性圖和縮放后紅外圖像的矩形區域根據位置點整體平移到可見光圖像對應的位置,變換公式為式(5):
(5)
式中,dx=xb-xa,dy=yb-ya分別是水平和豎直方向的移動距離。
將縮放后的紅外圖像和紅外顯著性圖S(x,y)中每個輪廓外接矩形區域平移,形成新的紅外顯著性圖Snew(x,y)和紅外圖像Inew(x,y)。紅外顯著性圖中的背景區域像素為0,人體目標區域像素為1,使用紅外顯著性圖中的像素值作為融合時的權重,對紅外和可見光圖像進行加權融合:
F(x,y)=Snew(x,y)·Inew(x,y)+(1-Snew(x,y))·V(x,y)
(6)
紅外圖像中的每個人都對應一個顯著性圖,將每個人都按照上述過程融合,逐一使用顯著性圖指導人的局部融合。
實驗使用海康威視的可見光攝像頭和熱紅外攝像頭采集數據,實驗平臺在Linux系統上搭建,使用Tensorflow和Keras深度學習框架,訓練網絡使用NVIDIA Tesla K80顯卡。
在預訓練模型上使用自己制作的數據集訓練Mask R-CNN,數據集包括自己拍攝的紅外數據和InfAR紅外數據集[19]中的200張圖片,使用Labelme制作分割標簽,第i個人的標簽為personi,并使用鏡像,旋轉,縮放等數據增強方法增加數據集的數量。使用隨機梯度下降法對損失函數進行收斂,網絡的head 部分訓練10個epochs,初始學習率為0.001,然后用較小的學習率0.0001 微調整個網絡,訓練30個 epochs后得到一個模型。
使用本文訓練后的模型與FT顯著性檢測算法、預訓練模型作對比,如圖4所示,圖4(a)為紅外圖像,圖像中兩個人與攝像頭距離不同,距離攝像頭近的人對距離遠的人有遮擋,人在地面有明顯倒影。圖4(b)是FT顯著性算法得到的顯著性圖,兩個人是連在一起的。圖4(c)是使用預訓練模型分割的結果,分割結果非常不好。受到地面倒影的影響,將地面倒影與人分割為一個實例目標,不能將兩個人分割開,并且紅外圖像的背景部分會出現錯誤檢測的情況。圖4(d)是使用本文模型得到的分割結果,分割效果很好,可以將兩個人分割為兩個實例,分割出的兩個人輪廓準確,不會受地面倒影的影響。

圖4 分割對比
使用相機標定常用的棋盤格標定板做配準標志物時,為了使紅外攝像頭也能拍攝到棋盤格,需要使用高強度鹵素燈照射棋盤格[15]。但將棋盤格平放在地面上時與攝像頭之間的角度太大,不能準確檢測出棋盤格的角點。本文直接在地面上設置A,B,C,D四個點用于計算視場轉換模型,為了使紅外攝像頭也能拍到,使用裝有熱水的藍色小塑料瓶蓋作為一個點,如圖5中(a)、(b)所示,紅外圖像中點的亮度高,可見光圖像中點為D點,分別根據亮度和顏色特性提取紅外和可見光圖像中四個點的坐標。
四點在紅外圖像中的坐標分別為(108,188)、(177,184)、(84,239)、(166,234),在可見光圖像中的坐標分別為(1083,705)、(1274,698)、(1129,997)、(1375,981)。已知四對點坐標的情況下,可以直接使用Opencv中的findHomography函數計算投影變換矩陣。計算得到的縮放矩陣為:


圖5中(c)為縮放后的紅外圖像,(d)是配準后的紅外圖像與可見光圖像疊加的結果,可以看出四個點以及地面可以完全重合。

圖5 地面配準
實驗中的人站在地面上,同一時刻紅外和可見光攝像頭分別從兩個角度拍攝的場景圖片差異較大,同一個人的形態和兩個人的相對位置都有差別。判斷融合效果的好壞,可以通過紅外圖像中的人與可見光圖像中原有的人的重疊程度判斷。
監控場景中只有一個人時,融合結果如圖6所示,融合圖像中紅外圖像中的人基本與可見光圖像中的人重疊,與地面相交區域重疊較好,可以將紅外圖像中的人移動到可見光圖像中的對應位置。場景中有兩個人,且紅外圖像中兩個人有重疊時,如圖7所示,可以對每個人局部融合,融合后的圖像中兩個紅外人分別在可見光圖像相應的位置。

圖6 單人融合

圖7 多人融合
場景中設置一條白色警戒線,當光照不足時可見光攝像頭拍攝的圖像不清晰,紅外圖像只能看到人卻不能看到線,可以使用正常光線下可見光攝像頭拍攝的背景與紅外圖像融合,將紅外圖像中的人移動到可見光圖像對應的位置,再進行入侵行為識別。通過人與警戒線的相對位置可以判斷融合是否準確。圖8中(a)是正常光照下的可見光背景,(b)是紅外圖像,(c)是紅外圖像與可見光背景融合后的圖像,(d)是真實的可見光圖像。可以看出真實圖像中兩個人一個人在線前,另一個人在線后,融合后人與線的相對位置基本與實際相符。

圖8 融合用于入侵行為識別
針對監控系統中存在兩個固定攝像頭從不同角度拍攝場景,光照不足時需要結合紅外和可見光圖像的優點識別關聯場景的入侵行為,提出了一種基于顯著性檢測的不同視角下紅外與可見光圖像融合方法。實驗結果表明,本文提出的基于標志物的紅外與可見光圖像視場轉換模型,實現了不同視角圖像間目標位置的變換。使用紅外數據集訓練Mask R-CNN網絡,解決了地面倒影干擾和實例分割紅外圖像行人不準確的問題,可以得到每個行人各自的顯著性圖。將紅外圖像與清晰的可見光背景融合,通過融合圖像能定位人在場景中的準確位置,可以解決低照度條件下識別入侵行為的問題。在未來的工作中,可以研究提高算法性能,進一步將紅外和可見光圖像融合與行為識別結合,對全天候安防有重要意義。