何志超,范余華,秦 川,沈斌濤
(1. 中國鐵路上海局集團有限公司 南京鐵路樞紐工程建設指揮部,南京 210000;2. 上海理工大學 光電信息與計算機工程學院,上海 200020)
隨著鐵路改革的不斷推進,通過物聯網、云計算、全景視頻融合等技術提高鐵路系統智慧程度和動態感知能力,對鐵路客站的信息化發展具有重要意義。2021年,南京鐵路樞紐工程建設指揮部在連云港—鎮江高速鐵路(簡稱:連鎮高鐵)揚州東站對建設鐵路客站視頻融合智能監控系統展開研究,實現將建筑物“掀頂式”透明顯示,以便車站監管人員進行全局指揮及對突發事件快速處置。但在系統實際使用過程中,由于影像的獲取條件、拍攝條件及拍攝角度等存在很大的差異性[1],給影像拼接工作帶來很大困難。
深度學習算法尤其是卷積神經網絡(CNN,Convolutional Neural Network)已在圖像處理、目標檢測等方向取得了較大成果。研究表明,利用CNN深度學習能夠得到更好的特征描述能力[2],這給圖像匹配算法的優化帶來了新的思路。目前,圖像匹配的主流方法是設計特征確定算法來提取特定的局部特征[3],通過比較從2幅圖像提取的局部特征得到匹配結果。但這一方案選取的特征受算法參數影響大、抗干擾能力小,從而可能導致局部特征表述能力有限[4];另外,特征點的匹配通常采用線性距離作為相似性度量,難以適應匹配圖像間可能存在的復雜變換關系[5]。對此,王紅堯等人[6]提出改進特征描述子后進行圖像拼接的方法,獲得了較好的效果,但仍難以充分構建和利用特征與度量之間的關系。為解決以上問題,Zagoruyko等人[7]提出深度匹配方法,采用中心環繞雙流網絡和空間金字塔池化提升性能;Han等人[8]提出的匹配神經網絡,采用3個全連接層組成的度量網絡計算特征對的匹配分數,進一步提升了配對成功率;Balntas等人[9]提出PN-Net引入正負樣本對,具有更高效的描述子提取及匹配性能,能顯著減少訓練和執行時間。
在鐵路系統中,不同站點的攝像頭布置各不相同,且具有環境復雜、樣本量大等特點,本文深入研究了神經網絡的圖像呈現和比較方法,通過接收多臺攝像機實時反饋的視頻,對視頻拼接參數進行檢測,根據參數對多個視頻的每一幀圖像進行特征提取、特征匹配、投影變換、圖像融合等處理,形成全景式優質圖像,改進了基于神經網絡特征表述的圖像拼接技術,并將該技術應用于鐵路客站視頻融合智能監控系統,獲得了更好的拼接效果。
模型結構包括切片層、CNN特征提取層、連接層、相似性度量層和Softmax層,如圖1所示。

圖1 神經網絡結構
1.1.1 切片層
將神經網絡的輸入端設計為雙通道,每個通道輸入一張圖像。在該層將訓練樣本中的2個圖像塊作為一對樣本輸入,而數據庫中的樣本經過不同的仿射變換,自身帶有相似度標簽,便于后續進行分類。切片層圖片的格式為c·h·w,其中,c是圖像數據的通道數,h是圖像塊的高度,w是圖像塊的寬度。輸出特征圖的格式為n·h·w,其中,n是卷積層中濾波器的數量。
1.1.2 CNN特征提取層
該層由2個并行的CNN特征提取網絡組成,包括卷積層,池化層和非線性激勵層,用于分別提取由切片層輸出的不同圖像塊的特征。
(1)卷積層:對輸入數據進行特征提取,通過卷積核遍歷圖片上的每一個像素點,乘以對應點的權重后求和,加上偏置后得到輸出特征值。
例1 (2018年武漢中考第16題)如圖1,在△ABC中,∠ACB=60°,AC=1,D是邊AB的中點,E是邊BC上一點.若DE平分△ABC的周長,則DE的長是________.
(2)池化層:去除雜余信息,簡化計算復雜度,同時保證平移、旋轉、伸縮等特征不變。本文選用最大值池化操作,隨著濾波器滑動,窗口內的特征點只保留一個最大值。
(3)非線性激勵層:選用線性整流函數(ReLU,Rectified Linear Unit),該函數使得輸出為負數的神經元值轉換為0,增加了神經網絡各層之間的非線性關系,可緩解過擬合問題的產生。
1.1.3 連接層
用于連接2個CNN輸出的特征向量,將不同特征提取模塊輸出的特征向量連接為一個特征向量輸出,便于后續輸入全連接層進行相似度分析。
1.1.4 相似性度量層
該層接收上層傳來的特征向量,并投射為一個相似性度量值,由全連接層和非線性激勵層組成。
1.1.5 Softmax層

可得出訓練過程中使用的代價函數為

其中,N是所有輸入樣本的數量;ln是輸入樣本xn所屬類的標簽;K是類的數目,即ln=1,2,···,K。
本文選用 Brown數據庫[10],隨機選取30 000對圖像塊用于模型訓練,10 000對用于模型測試。其中,訓練集和測試集中均有60 %的相似對以及40 %的非相似對。同時,選用BP算法結合隨機梯度下降法進行模型的迭代更新[11],在隨機梯度下降過程中,學習率設置為0.01,動量設置為0.9,權重衰減指數為0.005。每次訓練進行30 000次循環迭代。
目前,圖像配準法中廣泛應用的是基于尺度不變特征變換(SIFT,Scale-Invariant Feature Transform)的傳統方法,即通過構建高斯金字塔查找特征點,直接匹配關鍵點進行拉伸、旋轉等操作完成配準。但SIFT算法無法很好地表示圖像的高維語義,易造成顏色信息缺乏等問題[12]。
本文在使用SIFT確定初步特征點的基礎上,對這些特征點周邊的圖像塊進行提取并輸入神經網絡進行分析。通過CNN神經元局部連接的結構實現了深層次堆疊,可用于描述SIFT算法無法得到的高維特征,從而改進特征點的描述子,有效減少匹配畸形等問題[13]。
用SIFT算法提取特征點的流程如圖2所示。將數據轉換為灰度圖像,通過高斯濾波平滑處理后降采樣,得到高斯金字塔;推導出高斯差分金字塔,在高斯差分金字塔上對每個點周圍的信息檢測出極值點;篩選剔除不符合條件的極值點[14]。利用 SIFT確定特征點后,通過CNN提取以特征點為中心的圖像塊的深度特征,以此作為特征向量。

圖2 SIFT特征點確定過程
對上文基于 CNN 表述的特征向量進行匹配,以獲得匹配點對,其流程如圖3所示。

圖3 整體匹配算法流程
(1) 提取待匹配圖像和參考圖像中的特征點,以特征點為中心裁剪 64×64 的圖像塊,輸入預訓練過的神經網絡模型,經過多個交替的卷積層與池化層后,在高層全連接層得到可表示該圖像特征的特征向量,作為CNN下該特征點得到的特征描述子[15];
(2) 根據得到的特征描述子對比待匹配圖像與參考圖像的特征點;
(3) 根據特征點匹配的結果完成變換模型和參數估計;
(4) 根據所得到的變換模型完成圖像的坐標變換和插值, 得到匹配結果。
本文使用隨機抽樣一致性算法(RANSAC,Random Sample Consensus)剔除錯配點[16],算法流程如圖4所示。

圖4 RANSAC算法流程
(1)將整體匹配算法中獲得的坐標點匹配點對記為matches;
(2)選取最小數目的初始匹配點對,記為samples,以此計算出變換矩陣M(CNN特征提取網絡已經學習了噪聲、模糊等不確定性對視頻圖像的影響,因此這里求解的變換矩陣用的是幾何變換模型M);
(3)使用此矩陣去判定剩余匹配點對是否滿足M,如果滿足,則判定為一致集的數據,記為inliers,計算出一致集在總的匹配點對中的比例;
(4)判斷一致集占比是否增大,并判斷誤差是否在閾值內,若滿足則將此矩陣確定為最終結果;若不滿足,則重新開始迭代。
虛影現象的去除是視頻融合的關鍵[17]。多視角攝像機的相機質量差異及擺放的角度不同是造成虛影問題的主要原因。在圖像拼接過程中,若視頻序列中出現運動的物體,更容易造成虛影現象,影響最終拼接質量。去除運動物體所產生的虛影現象的算法流程如圖5所示。

圖5 虛影去除算法流程
(1)輸入源圖像I(x,y)并對輸入圖像進行梯度域計算從而構建一個梯度向量場。
(2)標注所有待移除虛影的鄰域,并從源圖像和梯度向量場中移除虛影對象。
(3)虛影初步填充。通過梯度域的區域填充操作,使用圖像其他部分中能找到的最適合的部分來恢復這些區域。用這種方式獲得一個填充到合成梯度向量場的域以及對應的一個初步填充完成的拼接圖像If。

(5)用散度向量場作為指導向量來構造泊松方程。設待拼接圖像為I(x,y),拉普拉斯算子為 r2,構建的泊松方程公式為

(6)通過求解泊松方程得到結果圖像Ic。在處理這一線性偏微分方程的過程中,應用諾伊曼邊界條件指定邊界情況進行求解。使用圖像If作為帶入偏微分方程的初始值,這樣可以獲得更好的虛影去除效果[18]。新的拼接圖像恢復后,將這個結果作為最后的拼接圖像,解決全景圖像拼接過程中運動物體產生虛影現象的問題。
以連鎮高鐵揚州東站視頻融合智能監控系統使用過程中產生的圖像難以拼接以及融合結果畸變的問題為例,本節將傳統圖像拼接方法與本文提出的基于深度學習的圖像融合方法進行對比。選取同一站臺不同角度的2張像素分別為522×555和498×561的待匹配圖像,如圖6所示。2種方法所得到的拼接結果分別如圖7和圖8所示。可以看出,紅色方框內出現了明顯的圖片失真情況。

圖6 待匹配圖像

圖7 傳統方案拼接圖像

圖8 本文方案拼接圖像
本文通過計算特征點坐標的均方根誤差(RMSE,Root Mean Square Error)比較算法的準確性。假設共有n個待計算的特征點,其RMSE 公式為

其中,(xi,yi)和(x0i,y0i)分別為待匹配圖像與參考圖像對應的特征點的坐標[19]。從Liberty數據集中隨機抽取10 000張圖片進行測試,傳統方法下ERMSE=0.828,平均正確匹配特征點數為216,本文方法ERMSE=0.792,平均正確匹配特征點數為287。根據上述計算結果,本文的圖像融合方法能獲得更好的效果。
本文對基于SIFT的傳統圖像拼接方案進行了分析,針對實施過程中存在的高維特征缺乏等情況進行優化處理,提出了基于深度學習的圖像拼接算法。利用深度學習提高特征描述子的能力,并輔以剔除錯配點和去除虛影等算法優化操作。本文的改進算法解決了傳統SIFT算法中誤匹配對多、匹配結果仿射易失真的問題。經實驗證明,改進后的算法對圖像配準具有良好的效果。未來還將在平均運行速度和多場景適用性上對算法繼續改進。