高精度視頻配準算法中的靜態圖像配準算法

2020-06-16 04:00:56王蘋

液晶與顯示 2020年6期

關鍵詞：特征

王蘋

(1. 陽光學院人工智能學院，福建福州350015；2. 空間數據挖掘與應用福建省高校工程研究中心，福建福州350015)

1 引言

多視頻配準即應用多個相機在同一場景對同一個物體進行拍攝，從而得到多個在時間或者空間上存在某種對應關系的視頻，通過配準尋找到這種對應關系的變換參數[1]。現階段已經產生了多個視頻配準算法[2-3]。在發展歷程上，Caspi[4]等開展了基于特征和基于區域的視頻配準算法研究。Shakil[5]針對兩個拍攝同一物體時自由運動的相機提出了一個新的視頻配準算法。Sand[6]等人提出了一種新的可應用于多個視頻配準工作的算法。陳為龍[7]等提出了視頻配準算法中的靜態圖像配準算法，即通過視頻提取出一些圖像幀，通過對這些靜態的圖像幀進行匹配來配準視頻，將基于特征的圖像配準算法應用到視頻配準工作中，取得了有效的結果。深度學習的卷積神經網絡因具有模式識別[8]的優勢，已經在圖像識別[9]和分類[10-11]、目標檢測[12]等領域發揮了重大作用，且已應用于遙感圖像配準領域中。

本文應用深度學習的卷積神經網絡VGGNet，設計了高精度視頻配準算法中的圖像配準算法，研究了VGGNet在視頻中靜態圖像配準工作的可行性及其對配準性能的影響，探討了圖像縮放、亮度變換等對視頻中圖像配準的影響，比較了本配準算法與傳統基于方向梯度直方圖(HOG)[13]、局部二值模式(LBP)[14]特征提取配準算法的性能。

2 基于卷積神經網絡的靜態圖像配準算法

卷積神經網絡(CNN)在圖像識別和分類問題上能發揮出巨大的優勢，因此設計了基于卷積神經網絡的靜態圖像配準算法，研究網絡中不同層下圖像配準的精度，并闡述了實驗的數據源和環境配置。

2.1 多視頻配準算法中靜態圖像配準算法設計

本文的靜態圖像配準算法及流程如圖1所示。首先從視頻S1中獲取某一幀的圖像，并從視頻S2中獲取某一幀的待配準圖像。第二步，通過尺度不變特征變換(SIFT)方法對兩張圖像進行預處理，降低噪聲對圖像信息的干擾，獲取基本的特征圖像，大小為128×128。第三步，將特征圖像作為CNN模型VGGNet的輸入，經過卷積神經網絡后，輸出抽象化的特征信息。第四步，根據抽象化特征信息獲取兩幅圖像的同名點，從而計算出兩幅圖像的變換參數，通過圖像變換得到最終的配準結果圖。

圖1 靜態圖像配準算法Fig.1 Static image registration algorithm

近幾年來，深度學習得到了迅速發展。卷積神經網絡在圖形分類、目標識別等領域取得了良好成績。其中，VGGNet模型經過大型數據庫ImageNet訓練后，可以從圖像中提取出更高層次的抽象化特征。仿真實驗結果表明16層的VGGNet具有更優異的識別性能。

圖2 VGGNet模型Fig.2 VGGNet model

VGGNet網絡結構如圖2所示。它由13個卷積層、5個池化層和3個全連接層組成。在卷積層中，它應用了大小為3×3的卷積核，這在保證一定范圍感受野的條件下減少了網絡的參數規模，也引入了更復雜的非線性因素，有效增強了模型的特征表達。最大池化層的窗口大小為2×2，在降采樣特征量的同時保證關鍵特征信息不會丟失。通過反復堆疊小型卷積核和最大池化層，既增強了非線性特征表達能力，又將參數量控制在較低的范圍內，具有很好的應用價值。在全連接層中，模型應用多個神經元可有效擬合特征的分布，從而提升分類的準確率。

2.2 實驗環境配置

本文選取了官方訓練好的VGGNet模型。為了使得模型提取出的特征適用于靜態圖像的配準，本文從視頻中提取了12 000對靜態圖像數據對VGGNet模型進行了微調，如表1所示。其中，2 000對靜態參考圖像和待配準圖像來自于從多對待配準視頻中提取的靜態圖像，對它們做增強變換，旋轉90°、旋轉180°、旋轉270°、左右變換、上下變換后增大數據集為12 000對。隨機劃分10 000對參考圖像和待配準圖像為訓練數據集，剩余的2 000對參考圖像和待配準圖像為測試數據集。

表1 數據集Tab.1 Dataset

因此，本文將卷積和最大池化的堆疊操作作為一個網絡層，設置一個全連接層為一個網絡層，研究它們的輸出特征。則此時共有8個網絡層，命名為Conv1、Conv2、Conv3、Conv4、Conv5、FC1、FC2、FC3。原VGGNet的網絡層FC3被用于圖像的分類工作，不適用于靜態圖像配準工作，因此舍棄FC3。

在對VGGNet進行微小的訓練過程中，設置初始的學習率為0.003，運行平臺是Ubuntu14.04服務器，應用的深度學習框架是Tensorflow。

3 靜態圖像配準-均方根誤差分析

在本章節中，確定了通過卷積網絡提取的抽象化特征被用于配準的可行性，并應用均方根誤差分析法評估了不同網絡層特征的配準精度，最后與傳統圖像配準算法比較。

3.1 靜態圖像配準可行性分析

為了驗證卷積神經網絡提取的抽象化特征對靜態圖像配準工作的可行性，本文隨機選取了一對測試數據集中的參考圖像和待配準圖像進行實驗，結果如圖3所示。

視頻S1和視頻S2是在同一時間段、同一地點、不同角度拍攝的落日圖像，分別選取兩個視頻中的某幀圖像作為實驗對象。從配準結果圖中可知，兩幅圖像大部分相同，紋理區域均配準成功，因此卷積神經網絡可被應用于視頻配準中的靜態圖像配準工作中。

圖3 配準圖像Fig.3 Registration image

3.2 均方根誤差分析

采用均方根誤差方法來定量分析靜態圖像配準的精度。均方根誤差的計算公式如式(1)所示。

(1)

其中，N為參考圖像和待配準圖像的對應點對數量，(Xi′,Yi′)為參考圖像的點(X,Y)在待配準圖像的對應點坐標，(Xi″,Yi″)為對待配準圖像進行配準變換后的坐標。均方根誤差值越低越好。

對于圖3中的圖像，卷積神經網絡VGGNet的各層特征的均方根誤差分析值如表2所示。由表2數據分析可知，第一個網絡層輸出特征的配準誤差最大；第二個網絡層的配準誤差比第一個網絡層低約0.5%；第三、第四和第五個網絡層的特征配準誤差較為接近；FC1特征和第5個網絡層的輸出特征的配準誤差較為接近；經過FC2的特征變換后，輸出的特征值的配準誤差降低了約0.4%。

表2 特征的均方根誤差值Tab.2 Root mean square error for feature

對于VGGNet的各個網絡層特征，計算2 000對測試圖像的配準均方根誤差，并求取各層配準誤差均值，結果如表3所示。由表3可知，Conv5、FC1和FC2的輸出特征的均方根誤差均值較低，FC2最低為0.031 22。將包含FC2的完整VGGNet作為靜態圖像配準算法開展后續研究。

表3 特征的均方根誤差均值Tab.3 Mean root mean square error for feature

研究VGGNet圖像配準算法與基于HOG、LBP特征提取的圖像配準算法精度,結果如表4所示。

表4 多個算法的均方根誤差均值

Tab.4 Mean root mean square error of different algorithms

算法均方根誤差均值VGGNet圖像配準算法0.031 22基于HOG特征提取的圖像配準算法0.040 31基于LBP特征提取的圖像配準算法0.042 29

VGGNet圖像配準算法的均方根誤差均值為0.031 22，明顯低于基于HOG、LBP特征提取的圖像配準算法，具備較高的配準精度。

4 靜態圖像配準Nred分析

在本章節，應用Nred方法研究靜態圖像配準的正確率，探究了視頻縮放和亮度轉換對圖像配準的影響，最后與傳統圖像配準算法做比較。

4.1 Nred分析

Nred表示靜態圖像配準過程中正確同名點的數量，數值越高越好。

根據卷積神經網絡層的輸出特征，對2 000對測試數據集求得圖像配準的Nred值的平均數，結果如表5所示。可知第1～4個網絡層輸出特征的配準Nred均值范圍在60～70之內；Conv5、FC1和FC2的輸出特征的配準Nred均值分別為73,73,74，說明這3層的輸出特征的配準性能較好，在此基礎上開展進一步的視頻縮放和亮度轉換研究。

表5 特征的Nred均值Tab.5 Nred mean for feature

4.2 視頻縮放和亮度轉換研究

對視頻做縮放操作即對每幀的圖像進行了縮放操作。本文對2 000對測試數據集采取了不同倍數的縮放操作，并統計在Conv5、FC1和FC2下的圖像配準Nred均值，結果如圖4所示。

圖4 特征的Nred均值Fig.4 Nred mean values for feature

進行縮放后，圖像的配準Nred均值均不同程度地減小。當采取縮小操作時，配準Nred均值減小的幅度很大；而當采取放大操作時，配準Nred均值減小的幅度較小。3個網絡層的輸出特征值的配準Nred均值較為接近。

在相同的實驗環境下，對視頻做亮度變換操作，結果如圖5所示。

圖5 特征的Nred均值Fig.5 Nred mean values for feature

采取亮度變換操作后，圖像的配準Nred均值有所減小。減小亮度變換系數的配準Nred均值減小幅度比增加亮度變換系數大。FC2的配準Nred均值總體較高。將包含FC2的VGGNet作為本圖像配準算法開展后續研究。

4.3 圖像配準性能分析

統計當前配準算法與經典HOG、LBP配準算法的正確同名點數目，結果如表6所示。

表6 多個算法的Nred均值Tab.6 Nred mean values for feature

VGGNet圖像配準算法的Nred均值為74，遠高于基于HOG、LBP特征提取的圖像配準算法，具備較高的圖像配準正確率。

5 結論

本文研究了視頻配準工作中的靜態圖像配準算法，設計了一個由較小尺寸卷積核、非線性激活操作、池化操作組成的靜態圖像配準算法模型，期望捕獲一定范圍感受野、非線性的圖像語義信息。經仿真可知，算法模型的FC2輸出特征的配準精度為0.031 22，配準Nred為74，具備較好的配準可信度和配準性能，優于傳統的HOG、LBP圖像特征提取算法。算法模型對于圖像的縮放變換和亮度變換操作具備一定的抗干擾能力，FC2輸出特征的綜合配準性能較優。