姜繼興,錢 慧
(福州大學 物理與信息工程學院,福建 福州 350116)
隨著信息技術的進步,相機和其他成像設備的使用出現了爆炸式增長,越來越多的成像模塊被集成到手機、電腦和其他物聯網設備中。隨著相機的使用和集成的增加,同時結合神經網絡的發展,它們在我們生活中的作用也發生了顯著的變化。大多數相機不再僅僅用于拍照,而是作為傳感器,為生物識別、目標分類檢測、安防監控等應用提供數據支持[1-3]。
雖然現代相機模塊的厚度可以達到約5 mm,且成本低廉。但許多物聯網(Internet of Thing, IoT)新興應用對體積、重量和成本都有著十分嚴格的限制,這是當今基于鏡頭成像系統所無法滿足的。近些年來,隨著人們對新型成像技術的要求和計算成像技術的興起,無鏡頭成像取得了顯著進展[4-6]。通過使用特定光學器件代替傳統透鏡可以將相機的重量和體積減少一個數量級,同時成本也更低廉,比如FlatCam 無鏡頭相機的厚度僅有0.5 mm[7],可以更好適配于物聯網應用對成像設備的要求。本文分析了編碼掩膜無鏡頭成像的基本原理,并介紹了基于Tikhonov 正則化的重構方法。同時,聯合卷積神經網絡,提出了基于無鏡頭成像的目標檢測分類方法。
編碼掩膜無鏡頭成像技術早期在高能天文學中被廣泛研究,主要應用于非可見光波長的成像[8-9]。其主要思想是使用一個包含多個子孔徑的輕型光學器件來代替傳統相機中的透鏡,實現對空間中光線的調制。該光學器件上子孔徑的位置可以被編碼,因此也被稱為編碼掩膜。根據對光線調制作用的不同,編碼掩膜可以分為振幅調制器和相位調制器,本節主要研究振幅調制的編碼掩膜無鏡頭成像方法。
編碼掩膜無鏡頭成像的成像系統主要由數據捕獲和計算成像兩部分組成,其結構如圖1 所示。來自場景的光線通過編碼掩膜調制后,被圖像傳感器捕獲。與傳統相機不同的是,無鏡頭成像系統中傳感器的測量值并不是場景點強度的直接測量,而是多個光源通過編碼掩膜投影后的疊加。因此,需要在計算成像部分使用相應的重構算法,對傳感器測量值進行解碼操作,從而實現原始場景的重構。

圖1 編碼掩膜無鏡頭成像示意圖
考慮使用圖2 所示的幾何模型來表示編碼掩膜系統中傳感器測量值與場景中光源的相互作用。為了方便解釋,以一維情況為例,設定場景為一維光源陣列,傳感器也為一維平面。假設掩膜是無限薄的元件,其折射效應可以忽略。一維場景、傳感器與掩膜彼此平行。在這種情況下,光從光源到傳感器元件的路徑是一條直線。

圖2 編碼掩膜無鏡頭成像幾何光路圖
設傳感器與掩膜之間的距離為d,場景平面與傳感器之間的垂直距離為D。從位置s0的點光源到位置u處的傳感器像素的光線,根據幾何關系計算可知,該光線與掩膜平面的交點位置為u+(s0-u)·d/D。使用x(s)表示位于場景位置s處的點光源強度,T(s)表示位置s處的掩膜透射率函數,使得在該位置處與掩膜相交的光線會在振幅上有不同程度的衰減。忽略噪聲影響,對于位置u處的傳感器像素測量值y(u),有:
式中,積分范圍為所有能夠到達該位置傳感器像素的光線,由傳感器視場角決定。將該模型拓展到2D 模式,可得:
整體上可以將其看作一個線性變換。將傳感器測量值y和場景光源x進行離散化并加入噪聲,可將式(2)改寫成如下形式:
式中:x∈RN×1表示實際場景強度;y∈RM×1表示圖像傳感器測量值;e表示噪聲。Φ∈RM×N表示系統傳輸矩陣,傳輸矩陣的每一行表示場景各點光源對應點像素測量值的貢獻程度,傳輸矩陣的每一列表示對應位置處點光源的點擴散函數(Point Spread Function, PSF)。如果場景只包含單個光源,則會在傳感器上形成對應列所表示的圖案。式(3)表明,編碼掩膜無鏡頭成像系統中,單個測量值不再是場景中單個光源的一對一映射,而是來自場景中所有光源的多路復用光。
如果使用可分離掩膜[10],即使用可分離的2D 圖案作為掩膜,從而產生傳感器測量值與實際場景強度之間的可分離關系。此時,2D 掩膜圖案矩陣可以表示成兩個一維向量的外積。
式中:TR(i)、TL(j)分別表示左右分離一維向量。式(3)可以改寫成如下形式:
內部積分對場景的一行進行1D 的編碼掩膜成像,而外部積分則對場景中的一列進行1D 的編碼掩膜成像,形成可分離的場景變換。通過將上述積分離散化并加入噪聲,就可以將方程(3)表示成可分離編碼掩膜成像模型,即:
式中:ΦL、ΦR分別表示對應于沿場景的行和列的一維卷積矩陣,即Φ=ΦLΦR,其中, 表示克羅內克積;X是包含場景輻射的N×N矩陣;Y是包含傳感器測量值的M×M矩陣;E表示噪聲。對于大像素場景和百萬像素傳感器而言,ΦL和ΦR分別有106個元素,而Φ會有1012個元素,可以極大減少傳輸矩陣的數據量。
對于可分離掩膜模型,場景的重構就是公式(6)的逆過程,即從測量值Y中恢復出原始場景光強度分布X,這是逆線性問題的求解。對于這一求解過程,如果可以得到精確的左右變換矩陣ΦL和ΦR,則只需進行簡單的矩陣逆問題求解即可。然而可分離掩膜模型是一種近似模型,它可能偏離真實的物理系統。這是因為物理PSF 并不是嚴格意義上的掩膜圖案本身。例如,由于衍射效應和噪聲,光可能到達被完全不透明的元素阻擋的像素。因此,二維PSF 可能不完全是兩個一維PSF 的外積。此外,掩膜若未與傳感器完美對準,也會使得物理模型與可分離模型失配。因此,在使用可分離模型時,需要提前進行多次數據標定與校準,使得得到的左右分離矩陣盡可能近似于真實模型,文獻[7]中提供了校準過程的詳細說明。
通過校準測定獲得左右變換矩陣ΦL和ΦR的近似值后,可以通過求解最小二乘問題,從測量值中實現對原始光強度分布的求解,即:
因為測定的左右變換矩陣不一定是良態矩陣,為保證重構算法的可靠性,可以在式(6)中添加Tikhonov 正則化項來提高重構質量,即:
上述問題的封閉形式解[7]可以導出為如下形式:
式中:ΦL=ULΣLVLT和ΦR=URΣRVRT分別表示左右變換矩陣ΦL和ΦR的奇異值分解;σL和σR分別為包含ΣL2和ΣR2中對角線元素的向量;./表示按元素點除。將重構算法分別應用于彩色圖像的每個通道,就可以實現RGB 圖像的重建。
隨著計算機算力的飛速提升以及大數據的發展,神經網絡在機器視覺領域展現出巨大的潛力。神經網絡可以分為許多種類。其中,卷積神經網絡是最具代表性的一類,其在目標檢測分類、目標識別、圖像重構等任務中發揮了重要作用。
VGGNet[11]是牛津大學計算機視覺組提出的一種應用于圖像分類的經典網絡,其主要由卷積層、池化層和全連接層構成。根據卷積層數量的不同,還可以分為VGG16 和VGG19,本文將主要利用VGG19 對無鏡頭成像后的圖像進行檢測分類,以驗證基于無鏡頭成像的目標檢測分類方法可行性,其整體流程如圖3 所示。對于網絡的訓練與測試,本文所使用的數據集為經過無鏡頭方法處理后的ImageNet 數據集[12],其包含1 000 個不同種類的圖像及相對應無鏡頭傳感器測量值。使用公式(9)重構的圖像尺寸為256×256×3,將其經過裁剪之后使用224×224×3 的尺寸進行網絡訓練和測試。

圖3 基于無鏡頭成像的目標檢測分類流程
圖4 所示為使用無鏡頭相機處理后的ImageNet 數據集進行場景重構的仿真實驗結果。該數據集中的傳感器尺寸為1 920×1 200,經處理后重構的圖像尺寸為256×256×3。可以看出,實驗對原始場景進行了基本還原,但重構圖像還存在一定噪聲。同時,重構的圖像整體亮度較低,細節信息恢復較少。這是因為本文中的無鏡頭成像模型只考慮了深度平面的情況,即假設場景中所有點光源深度相同,并未考慮3D 場景成像情況。同時,未使用相關去噪算法對成像后的圖像進行處理和矯正。

圖4 無鏡頭圖像重構結果
本文使用VGG19 網絡進行了基于無鏡頭成像的目標檢測分類仿真實驗。實驗測試數據分為三組,分別包含100、500 和1 000 張不同類別的圖像。對比對象分別為使用原始圖像進行測試的VGG19 預訓練網絡,使用無鏡頭重構圖像進行測試的VGG19 預訓練網絡以及使用無鏡頭重構圖像進行測試的VGG19 再訓練網絡。只考慮網絡的Top1 準確率,實驗結果見表1 所列。可以看出,對于未經重新訓練的VGG19 網絡使用無鏡頭重構圖像的分類準確率較低,這是因為無鏡頭重構圖像丟失了較多細節信息,使得預訓練網絡的卷積層未能提取到有用的細節信息,導致分類失敗。而使用無鏡頭重構圖像進行重新訓練后的網絡,在分類準確率上已經接近VGG19 對正常圖像進行分類的準確率,這驗證了基于無鏡頭成像方法進行目標檢測分類的可行性。

表1 目標檢測分類Top1 準確率
本文介紹了一種基于無鏡頭成像的目標檢測分類方法,通過分析無鏡頭成像的基本原理,實現了基于Tikhonov 正則化的圖像重構。同時,將無鏡頭成像與傳統神經網絡進行聯合,實現了基于無鏡頭成像的目標檢測分類。通過使用VGG19 網絡進行實驗測試,發現其分類準確率接近原始預訓練網絡的準確率,證明使用無鏡頭成像數據進行目標檢測分類是可行的。