譚翠媚,許廷發,馬 旭,張宇寒,王 茜,閆 歌
(北京理工大學 光電學院 光電成像技術與系統教育部重點實驗室,北京 海淀 100081)
隨著高光譜圖像光譜分辨率與空間分辨率的不斷提高,高光譜成像技術不斷發展,高光譜靜態成像已經不能滿足研究需求,如何獲得包括光譜維λ、空間維x、y、時間維t在內的四維高光譜視頻圖像成為該領域的研究熱點[1]。目前相關技術已在物體識別、物體跟蹤等領域[2-3]得到應用。現有針對高光譜視頻采集的研究諸多,包括基于編碼孔徑的高光譜視頻采集[4-5]、基于混合相機的高光譜視頻采集[6]等。本文主要針對基于液晶可調濾波片(Liquid Crystal Tunable Filter,LCTF)高光譜成像系統的高光譜視頻復原問題,研究如何從存在運動的高光譜圖像中恢復出完整的高光譜視頻圖像。
文獻[7]中利用基于LCTF的高光譜成像系統驗證假設高光譜視頻各幀中已知若干不同波段的圖像進行高光譜視頻圖像復原的效果。然而在實際情況中基于LCTF的高光譜成像系統對動態場景進行采集,任一時刻只能獲取一個波段的圖像。而且文獻[7]中利用光流法進行高光譜視頻圖像初步復原,由于采集到的動態場景圖像不符合光流法要求相鄰幀之間亮度保持不變的假設,因此針對實際情況的高光譜視頻圖像復原的效果不佳。
為了提升基于LCTF的高光譜成像系統的高光譜視頻圖像復原質量,本文提出一種基于空間維、光譜維相關性的壓縮感知高光譜視頻圖像復原算法。該方法在實現高光譜視頻圖像復原的同時,使前景目標高光譜圖像與背景高光譜圖像彼此分離。仿真實驗結果顯示:其在峰值信噪比和視覺效果上均優于現有算法,驗證了本文所提算法的有效性。
圖1為高光譜視頻的示意圖,高光譜視頻中的每一幀均為一幅高光譜圖像。因此,高光譜視頻圖像為包括光譜維λ、空間維x、y、時間維t在內的四維數據結構體。對前景目標運動的動態場景進行成像記錄,獲得的高光譜視頻圖像可認為是運動前景目標高光譜圖像與背景高光譜圖像的組合,不同時刻前景目標的高光譜圖像處于背景高光譜圖像的不同位置。由于LCTF每一時刻只能選擇一個可透過波長,因此對于動態場景的成像記錄,基于LCTF的高光譜成像系統采集到的圖像為存在運動的高光譜圖像,不同時刻采集的不同波段的圖像由于存在運動造成彼此場景內容有所不同。具體示意圖如圖2所示,本文主要研究如何從存在運動的高光譜圖像中恢復出完整的高光譜視頻圖像。

圖1 高光譜視頻的示意圖 Fig.1 An illustration of hyperspectral video

圖2 基于液晶可調濾波片高光譜成像系統采集的圖像示意圖 Fig.2 An illustration of images captured by hyperspectral imaging system based on liquid crystal tunable filter
高光譜視頻圖像復原的原理流程圖如圖3所示。首先,通過前景目標檢測獲得運動前景目標的高光譜圖像。同時,根據前景目標所在位置,將背景區域劃分為運動區域(被前景目標遮擋的區域)和靜止區域(未被前景目標遮擋的區域),算法的重點在于運動區域的恢復。

圖3 高光譜視頻復原流程圖 Fig.3 Flowchart of hyperspectral video restoration
由于高光譜圖像具有空間相關性與光譜相關性,利用二者提供的稀疏先驗信息進行運動區域的恢復。對靜止區域進行分塊字典學習,獲取圖像恢復所需的稀疏先驗信息。由于運動導致前景目標的位置變化相當于對背景區域的部分采樣,利用靜止區域分塊學習字典提供的稀疏先驗信息,通過分塊壓縮感知重構可以實現運動區域的高光譜圖像的復原,獲得完整的背景區域高光譜圖像。通過前景目標高光譜圖像與背景區域高光譜圖像的組合,即可得到完整的高光譜視頻圖像,實現基于LCTF高光譜成像系統的高光譜視頻圖像復原。
由于基于LCTF的高光譜成像系統采集的圖像幀數較少,且每幀圖像所在波段不同使得前后兩幀間相同位置處的像素灰度值有所變化,根據這一特點本文采用視覺背景提取算法(Visual Background extractor,ViBe)進行前景目標檢測。
對于某像素p,背景像素樣本值空間定義為:
M(p)={v1,v2,…,vN} , (1)
式中,vi表示像素p的背景像素樣本值空間中的第i個樣本值,N表示像素p的背景像素樣本值空間中包含的樣本個數。
隨機從像素p及其八鄰域的像素中選取N個像素值進行背景像素樣本值空間初始化,每個像素值被選擇的概率相同,初始化模型如式(2)所示:
M0(p)={v0[q|q∈NG(p)]} , (2)
式中,q表示像素p鄰域中隨機選取的一個像素,NG(p)表示像素p鄰域內的像素集合。
假設當前幀圖像中某像素p的像素值為v(p),SR(v(p))為以v(p)為中心,R為半徑的區域,區域SR(v(p))中所含像素p的背景像素樣本值個數為num={SR(v(p))∩{v1,v1,…,vN}},通過比較num與給定的閾值min,若所含的樣本數num大于或等于閾值min,則像素p為背景像素,否則為前景像素[8-10]。
利用Vibe算法對存在運動的高光譜圖像逐幀處理,得到運動前景目標的高光譜圖像。同時,根據前景目標所在位置,將背景區域劃分為運動區域(被前景目標遮擋的背景區域)和靜止區域(未被前景目標遮擋的背景區域)。只要恢復運動區域,得到完整的背景區域高光譜圖像,結合前景目標的高光譜圖像,即可獲得高光譜視頻圖像。
本文利用高光譜圖像的空間相關性與光譜相關性,通過壓縮感知進行運動區域恢復。壓縮感知(Compressive Sensing)理論充分利用了大部分信號具有的稀疏特性,通過隨機投影實現對壓縮數據的直接采集[11-12],廣泛應用于高光譜圖像處理領域[13-16]。傳統壓縮感知算法將整幅圖像轉換成一維信號,導致重構過程計算量龐大,恢復速度緩慢。對此Gan提出分塊壓縮感知[17],將原有圖像分成若干圖像塊,對每個圖像塊獨立進行測量,以降低觀測矩陣和重構算法的計算量。根據壓縮感知理論,
y=Φx=ΦΨθ, (3)
式中,x∈RN表示原始值,y∈RM表示觀測值,Φ∈RM×N表示觀測矩陣,且M (4) 式中,ω為平衡稀疏度與近似誤差的參數。 (5) 高光譜圖像空間相關性與光譜相關性提供的稀疏先驗信息由靜止區域學習的字典進行表征。由于高度冗余的過完備字典進行稀疏分解時具有潛在的不穩定性容易出現視覺偽影,本文采用主成分分析(Principal Component Analysis,PCA)進行PCA字典學習[18-19],將靜止區域分塊訓練得到的PCA字典作為運動區域壓縮感知重構的稀疏基Ψ。 將靜止區域分為n個大小為B×B×λ的不重疊圖像塊,λ為波段總數,第i個圖像塊的列向量表示為ci∈RB2·λ×1,i=1,2,…,n。字典訓練的目標函數用公式表示為 (6) 式中,C=[c1,c2,…,cn]表示用于訓練字典的圖像塊列向量的集合,Λ是C相對字典Ψ的表示系數矩陣。計算圖像塊列向量集合C的協方差矩陣Ω,由PCA獲得正交變換矩陣T。根據PCA理論可得 (7) 圖-譜結合的壓縮感知高光譜視頻圖像復原的具體實施過程如下: (1)將運動區域分為m個大小為B×B×λ的不重疊圖像塊,第i個圖像塊的列向量di∈RB2·λ×1。 (2)構造每個圖像塊的觀測值列向量y:對于第i個圖像塊,根據運動前景目標檢測結果,觀測值列向量yi由列向量di中剔除檢測出前景目標位置所在的像素值后余下的像素值構成,被剔除的像素值表示被前景目標遮擋的區域。設第i個圖像塊中未檢測出前景目標位置所在的像素個數為K,則觀測值列向量yi∈RK×1。 (3)構造每個圖像塊的觀測矩陣Φ:對于第i個圖像塊,Φi初始值是大小為B2λ×B2λ、對角為1的對角矩陣,對角線元素與列向量di的像素值一一對應。根據運動前景目標檢測結果,將檢測出前景目標的像素位置對應的對角線元素置0,表示被前景目標遮擋;未檢測出前景目標的像素位置對應的對角線元素維持1不變,表示未被前景目標遮擋。刪除Φi中的全零行,得到觀測矩陣Φi∈RK×B2·λ。 (4)將觀測值列向量y、觀測矩陣Φ、PCA字典Ψ代入式(4)、(5),采用文獻[20]的壓縮感知算法分別恢復運動區域的每個圖像塊。 (5)由靜止區域與恢復的運動區域得到完整的背景區域的高光譜圖像。前景目標的高光譜圖像與背景區域高光譜圖像結合,即可得到高光譜視頻圖像,實現壓縮感知高光譜視頻圖像復原。 本文采用文獻[7]提供的高光譜視頻圖像資源,選取其中10幀高光譜視頻圖像作為原始高光譜視頻圖像。每幀高光譜視頻圖像波段覆蓋范圍為610~700 nm、間隔為10 nm共10個波段的高光譜圖像,空間分辨率為752×480。利用基于LCTF的高光譜采集系統對動態場景進行成像記錄時,采集到的存在運動的高光譜圖像對應高光譜視頻圖像分別為:第1幀在610 nm處的圖像、第2幀在620 nm處的圖像、第3幀在630 nm處的圖像、……、第10幀在700 nm處的圖像共10個波段圖像。本文的算法主要研究如何從存在運動的高光譜圖像中恢復出完整的高光譜視頻圖像。為了降低算法復雜度,動態場景中只存在一個運動前景目標。所有仿真實驗均在相同的計算平臺(Intel i5-4590 CPU 3.30 GHz/8.00 GB內存)下完成。 本文算法采用ViBe算法對存在運動的高光譜圖像進行前景目標檢測。利用610 nm波段的圖像完成背景像素樣本值空間的初始化。由于610 nm波段的圖像內存在運動前景目標,建立的背景初始化模型中包含運動前景目標信息,因此利用ViBe算法處理610 nm波段與620 nm波段的圖像時,每幅圖像中檢測出兩個前景目標區域,分別為運動前景目標在610 nm波段與620 nm波段的圖像所處的位置。為確定每幅圖像中運動前景目標的真實位置,本文利用運動估計中常用的匹配準則:絕對差值和(Sum of Absolute Differences,SAD)進行判斷,SAD為原始圖像塊中的每個像素與用于比較圖像塊中相應像素的絕對差之和。分別計算610 nm波段圖像兩個前景目標區域與620 nm波段圖像兩個前景目標區域的SAD,SAD最小值對應的兩個前景目標區域即為運動前景目標的真實位置。前景目標檢測結果如圖4所示,圖4中(a)~(j)分別為在610~700 nm波段、間隔為10 nm所采集的運動前景目標的高光譜圖像。 圖4 前景目標檢測結果 Fig.4 Results of foreground object detection 圖5 背景區域的高光譜圖像 Fig.5 Hyperspectral images of the background area 根據前景目標所在位置,將背景區域劃分為運動區域(被前景目標遮擋的背景區域)和靜止區域(未被前景目標遮擋的背景區域)。只要恢復運動區域,得到完整的背景區域高光譜圖像,結合前景目標的高光譜圖像,即可獲得高光譜視頻圖像。 將靜止區域分為若干大小為B×B×λ的不重疊圖像塊,其中B=8,λ=10。利用所得圖像塊進行PCA字典學習,根據式(6)、(7)得到維度、原子個數均為640的PCA字典,用于后續的運動區域恢復。 將運動區域分為若干大小為B×B×λ不重疊圖像塊,其中B=8,λ=10。根據運動前景目標檢測結果構造每個圖像塊對應的觀測值與觀測矩陣,結合靜止區域學習的PCA字典,采用文獻[7]的壓縮感知算法進行運動區域的圖像塊恢復。由靜止區域與恢復的運動區域得到完整背景區域的高光譜圖像。圖5中(a)~(j)分別為610~700 nm波段、間隔為10 nm,所采集的完整背景區域的高光譜圖像。 前景目標的高光譜圖像與背景區域高光譜圖像結合,即可得到高光譜視頻圖像,實現壓縮感知高光譜視頻圖像復原。圖6所示為高光譜視頻圖像的部分圖像復原結果。本文使用峰值信噪比(Peak Signal to Noise Ratio,PSNR)來衡量圖像復原的效果。PSNR定義如下: 圖6 高光譜視頻的部分復原結果對比圖 Fig.6 Comparison of some results of hyperspectral video restoration (8) 式中,u、v表示高光譜圖像空間維的兩個維度;n表示高光譜圖像的光譜維維度;MAXI表示圖像像素能取的最大值,若每個像素用8位表示,MAXI=255。本文實驗中u=752,v=480,n=10,MAXI=255。復原高光譜視頻中的一幀高光譜圖像表示為Hr∈Ru×v×n,原始高光譜視頻中的一幀高光譜圖像表示為Hg∈Ru×v×n。本文方法與文獻[7]中的方法結果如表1所示。 表1 本文算法與文獻[7]中方法的PSNR值對比 綜合圖6本文方法與文獻[7]方法進行高光譜視頻圖像復原的視覺效果對比圖與表1中兩種方法的PSNR結果可知,本文方法的效果優于現有方法。 文獻[7]方法復原圖像中運動目標及其周圍場景存在偽影及扭曲現象,而本文方法相應區域復原效果較好。主要原因是本文方法是針對基于LCTF的高光譜成像系統在動態場景中的實際成像情況,研究如何從存在運動的高光譜圖像中進行高光譜視頻圖像恢復;而文獻[7]的方法主要是利用基于LCTF的高光譜成像系統驗證假設高光譜視頻各幀中已知若干不同波段的圖像進行高光譜視頻圖像復原的效果。在實際情況中基于LCTF的高光譜成像系統對動態場景進行采集,任一時刻只能獲取一個波段的圖像。此外,文獻[7]中利用光流法進行高光譜視頻圖像初步復原,由于采集到的存在運動的高光譜圖像不符合光流法要求相鄰幀之間亮度保持不變的假設,因此實際情況中基于LCTF的高光譜成像系統的高光譜視頻圖像的復原效果不佳。本文方法根據LCTF高光譜成像系統每次只能采集一個波段圖像的成像特點,基于高光譜圖像空間維與光譜維相關性進行高光譜視頻圖像復原,有效提升高光譜視頻圖像復原質量。 針對LCTF高光譜成像系統對動態場景的成像特點,本文提出一種新的高光譜視頻圖像復原方法。首先,通過前景目標檢測獲得運動前景目標的高光譜圖像,實現運動前景目標與背景區域分離。然后,基于高光譜圖像空間維、光譜維相關性通過壓縮感知理論與字典學習理論恢復被運動前景目標遮擋的背景區域,得到完整的背景區域的高光譜圖像。最后,通過前景目標高光譜圖像與背景區域高光譜圖像的組合,得到高光譜視頻圖像,實現基于LCTF高光譜成像系統的高光譜視頻圖像復原。實驗結果表明,本文提出的高光譜視頻圖像復原算法在主觀視覺效果和客觀評價指標上都優于現有方法,峰值信噪比平均提高5 dB以上,有效提升高光譜視頻圖像復原質量。
3.2 靜止區域的字典學習

3.3 壓縮感知高光譜視頻圖像復原
4 實驗結果與分析
4.1 前景目標檢測結果


4.2 靜止區域的字典學習
4.3 壓縮感知高光譜視頻圖像復原



5 結 論