頓 雄,張 健,馮詩淇,羅 洪,王占山,程鑫彬
(同濟大學物理科學與工程學院精密光學工程技術研究所,先進微結構材料教育部重點實驗室,上海市數字光學前沿科學研究基地,上海市全光譜高性能光學薄膜器件與應用專業技術服務平臺,上海 200092)
光學成像系統作為人類視覺功能延伸擴展的工具,廣泛應用于軍事和民用領域。傳統成像系統是“所見即所得”的成像模式[1],受光學系統設計、強度成像機理、成像衍射極限等因素制約,在像差矯正、空間分辨、光譜分辨、信息維度與探測靈敏度等方面存在很大局限性。近年來,隨著光學、電子學、信息處理、計算方法和高性能計算機的發展,計算成像技術應運而生[2-4],它打破了傳統“所見即所得”的模式,采取了更加靈活的非直接成像模式,通過聯合光學系統和圖像處理來實現最終需要的成像功能。這種靈活的設計模式可以改變光學成像采集信息的模式,并平衡光學硬件空間和圖像處理算法軟件空間所依賴的資源,從而賦予其諸多傳統成像系統難以獲得的革命性優勢,如簡化系統(單鏡片成像[5-7]),獲得額外功能(光譜成像[8]),突破設備原有分辨率限制(超分辨成像[9])等。但目前的計算成像系統多采取順序設計模式,即光學系統和圖像處理算法依據經驗規則獨立設計,這種人為設定的經驗規則很多時候并非最優,特別是從計算成像自身的角度來說,人為制定的規則可能并不能與后續圖像處理算法相匹配,而且這種順序設計模式難以考慮到諸如加工誤差等不確定因素的影響。總的來說,基于順序設計方法的計算成像系統對整體優化空間探索不足,性能和魯棒性都有很大的提升空間。
因此,人們也一直在探索光學系統與圖像處理算法協同設計的方法,但由于傳統光學設計過程是不可自動微分的,傳統優化設計理念下難以建立起它們之間協同優化架構,進展有限。2018年,在深度學習優化模型的啟發下,我們建立了針對單個光學元件的光學系統與圖像處理算法協同優化框架[5],從而可以真正意義上開展光學系統與圖形處理算法的協同設計。一方面,端到端協同設計通過突破光學設計和圖像后處理之間的壁壘,全面探索整個解空間,找到光學和算法部分在硬件成本、加工可行性、體積重量、成像質量、算法復雜度以及特殊功能間的最佳折中,從而實現在設計要求下的最優方案,極大地提升成像系統的性能。另一方面,端到端協同設計使得研制基于特定任務的最優成像系統成為可能,有望實現成像系統的多樣性和多功能化。自端到端光學聯合設計(End-to-end Co-design)策略提出以來,迅速吸引了學界的廣泛關注,經過近幾年的發展已成為計算光學研究的熱點分支,在消 色 差 成 像[5-6,10]、大 景 深 成 像[5,11-14]、光 譜 成像[8,15-16]、單 相 機 三 維 成 像[17-19]、高 動 態 范 圍 成像[20-21]、超 分 辨 成 像[5,7,9]等 方 面 都 取 得 了 廣 泛應用。
本文主要介紹基于端到端協同設計技術的基本架構,包括可微分成像模型和計算降維方法。此外,介紹了我們基于這一框架在平面透鏡的寬譜成像、平面透鏡的大視場成像、大景深成像,超分辨成像和快照式光譜成像方面的研究進展,其中有部分內容是作者在沙特阿卜杜拉國王科技大學的工作。
光學系統與圖像處理端到端協同設計架構如圖1所示,其包括成像模塊、重建模塊以及誤差模塊。長期以來,端到端設計難以實現的根本原因在于缺乏可微分的成像模塊。2018年,我們基于波動光學推導針對單透鏡的可微分成像模塊[5],并于2021年又發展了基于可微分射線追蹤的成像模型[22]。在重建模塊和誤差模塊上我們也發展了眾多方法。
如圖1所示,光學成像模塊主要包括光學系統點擴散函數計算過程foptics,點擴散函數(Point Spread Function,PSF)與目標圖像卷積,以及探測器積分采樣過程fsensor三部分。PSF計算過程foptics采取波動光學理論推導得到,具體如下:
其 中:pλ為 單 透 鏡 光 學 系 統 的PSF,j為 虛 數 單位,z′表示待模擬目標場景距鏡頭的距離,n表示透鏡材料的折射率,?(x,y)表示透鏡的面型(含可能的加工誤差),z表示透鏡距探測器的距離,λ表示目標場景的波長,k表示波數。有了透鏡的點擴散函數后,完整的探測器輸出計算過程fsensor可以描述為:
其中:Rc表示探測器光譜響應,Iλ表示目標場景圖像,S[·]表示離散采樣以及探測器噪聲模擬操作。從公式(1)可以看出,點擴散函數的模擬過程為二維運算,其計算量隨著光學元件口徑以平方關系增加。比如設計一個8 mm口徑的單透鏡,采樣間隔為2μm,數據量高達16 000 000,這給端到端誤差方向傳播過程中梯度存儲造成了很大的內存需求挑戰。我們在2020年提出了基于同心圓環分解的點擴散函數計算降維方法[6],如圖2所示。考慮到光學系統一般都是旋轉對稱性結構,我們將原本的二維面型表述轉化成一系列同心圓孔的線性組合,并且利用圓孔的點擴散函數(已知的一階貝塞爾函數)成功地將原先二維PSF模擬轉化為一維線性組合,使得整個原始的內存需求降低了1個數量級,可以進一步設計更大口徑光學系統。
前述基于波動光學的可微分成像模塊只能夠用來設計單透鏡,雖然已經實現了很多功能,但單個元件的調控能力難免不足。2021年,我們發展了針對透鏡組的可微分光線追蹤成像模型[22],如圖3所示。可微分射線光線追蹤廣泛應用于圖形學中的動畫渲染領域,我們將其引入到鏡頭成像中。具體來說,我們采取了反向追蹤的方法,首先將探測器按照像素大小劃分成對應數量的網格,然后對每個網格發出一組光線逆向追蹤到目標場景空間,根據每根光線與目標場景的交點位置計算每個光線對應的強度,最后把它們相加作為所對應目標像素的圖像信號。為了減小每個像素點所需追蹤的光線數量,我們采取了多次蒙特卡洛追跡后平均的方法,這使得我們每次僅需追蹤64根光線,10次平均即可得到接近百萬根光線的效果。這種可微分光線追蹤成像模型沒有使用諸如徬軸近似的假設,理論上其可以用于任何復雜光學系統和圖像處理算法的端到端協同設計。
圖像重建模塊用于將探測器輸出的原始圖像進行重建,常用的重建方法包括基于物理模型的重建方法、基于深度學習的重建方法以及物理模型結合深度學習的重建方法。基于物理模型的重建方法最典型的就是修正維納濾波[5],與傳統維納濾波算法不同,為了更便于在設計初期讓深度學習框架給與光學部分更大的權重,我們對原始圖像額外進行了加權:
其中:γ為修正系數,屬于可優化的變量,隨著優化的進行,γ會逐漸減小;F(pc)為光學傳遞函數;*表示復共軛;Ic為探測器采集的圖像;F(·)和F-1(·)分別表示傅里葉變換和傅里葉逆變換。
基于深度學習的重建方法也稱為數據驅動的重建方法,典型的網絡包括Unet和Resnet,我們在2020年提出了一種Unet和Resnet的結合體——Res-Unet[6],見 圖4。它 既 保 留 了Unet對圖像在多個尺度上操作的特點,又可以像Resnet那樣通過不斷擴展網絡來增加重建網絡的性能,適合模糊程度一般的圖像。近年來人們也發展了物理模型結合深度學習的重建方法。如Monakhova等使用了一個循環的交替ADMM(Alternating Direction Method of Multipliers)網絡(Le-ADMM)[23],他們將ADMM循環中 的每一個超參數作為優化變量,通過網絡訓練學習;Ethan Tseng等在2021年提出了在深度學習特征空間進行維納濾波的重建方法[10],其分為3個過程,首先是一個多尺度的特征提取網絡,然后是維納濾波層,最后是特征重建網絡,非常適合中等模糊的圖像。Kyrollos Yanny等在2022年提出Multi-WienerNet網絡,采取了維納濾波和Unet級聯的方案[24],由于維納濾波在最前面,這種方式適合處理非常模糊的圖像。
誤差模塊用于計算重建圖像與目標圖像之間偏差,并反向傳播用來優化重建網絡和光學系統結構參數。一般多用圖像質量評價指標作為誤差函數。如重建圖像與目標圖像的L2范數(均方差MSE),或者L1范數。也可以直接使用結構相似性(Structural Similarity,SSIM)或者峰值估噪比(Peak Signal to Noise Ratio,PSNR)作為誤差函數。近年來,感知圖像評價指標(Perceptual Loss)也被用來作為誤差函數,其通常是取VGG網絡中某幾層輸出的特征來計算重建圖像與目標圖像的接近程度。對抗網絡也常用來評估重建圖像與目標圖像的偏差,例如我們在2021年在復雜鏡頭端到端設計中就使用了全局和局部對抗網絡[22],如圖5。通常選擇前述多個的加權組合做為誤差函數。
傳統成像鏡頭的景深與收集光的能力相互制約,計算成像可以打破這種制約,通過設計一個具備隨深度近似不變的PSF的光學系統,然后應用深度平移不變的反卷積重建全深度清晰的圖像。雖然研究者們對于這個PSF應該是什么樣的做了很多研究,但脫離了后端圖像處理算法的任何設計總是不盡如人意。2018年,我們使用端到端設計架構分別實現了基于單個自由曲面透鏡和衍射光學元件的大景深成像系統,在該方法下,不同深度的PSF到底要設計成什么樣可由圖像處理算法以不同深度的成像質量為優化目標直接優化得到。仿真性能表明使用端到端協同設計的光學系統與最經典的三次相位板的景深延拓方法提升了6 dB[5]。使用端到端協同設計,不僅成功避免了傳統反卷積離面極容易出現的振鈴現象,更顯著提升了噪聲魯棒性。2021年,我們使用新發展的基于可微分射線追蹤的成像模型框架,在3片透鏡的系統中也實現了類似的效果[22],如圖6。
通常成像系統的分辨率由探測器像元大小和光學系統焦距共同決定。為了提升分辨率,要么增加光學系統焦距,要么更換像素單元更小、像元規模更高的探測器,但兩種方法都會帶來巨大硬件成本。以當前超快光學里面用的單光子雪崩二極管(SPAD)相機為例,目前其像素規模只有數十萬量級,遠低于當前CMOS相機,迫切需要研究提升其分辨率的方式。而且SPAD相機通常填充率很低,這通常會帶來顯著的空間頻率混疊,從而使得該問題比傳統意義上的圖像超分辨更加復雜。2019年,我們采取了端到端設計理念,將光學系統、欠采樣探測器、超分辨算法作為一個整體進行考慮,通過設計一個光學相位板對圖像進行濾波,在抑制欠采樣探測器導致混頻的同時盡可能地為后續超分辨網絡提供更多的信息,成功地實現了4倍超分辨成像[9]。圖7為端到端設計的相位板實現SPAD相機4倍超分辨率成像仿真實驗表明,采用端到端設計的光學相位板提供的濾波器相比于之前通常用的高斯濾波器在空間分辨率上有顯著提升,見圖7(a)中的圖像。而實際成像實驗也驗證了基于端到端優化的相位板獲得了明顯的分辨率提升,見圖7(b)。
快照式光譜因為具備快速響應的優點,是當前光譜成像系統研究的熱點方向,但傳統的快照式光譜成像系統通常需要很多光學元件,如色散光學元件、光強編碼元件、中繼鏡頭和成像鏡頭,導致快照式光譜成像系統體積都很大。衍射光學元件等新型微結構器件可以實現光譜編碼與成像一體化,而且具備輕薄化的特點,可極大的縮減系統體積,但是如何在考慮衍射光學元件實際光譜調控能力的情況下設計光譜編碼是難點。我們基于端到端設計理念,協同設計衍射光學元件的光學編碼與后續深度學習圖像重建算法,實現了單片衍射光學元件的快照式光譜成像系統[8],如圖8。我們將衍射光學元件設計成可對光譜有各向異性響應,這樣可以使得在PSF的大小保持不變時,其形狀隨著波長的變化快速旋轉。由于沒有了色散元件和光學編碼元件,光譜重建的不確定度也顯著增加,通過使用基于模型的重建算法專門用于反卷積的光譜圖像重建,仿真和實驗均表明這種基于衍射元件的快照式光譜成像可以獲得與多數快照式光譜成像系統相當的光譜分辨率和空間分辨率。
基于人工微結構材料的微納光學器件因其平面化、可調能力強等優勢,有望顛覆傳統復雜光學系統,實現輕薄化、小型化成像系統,目前已成為現在學術界和產業界關注的熱點方向之一。但是微納光學元件,如衍射光學元件(Diffractive Optical Element,DOE)[26-28]、超 表 面[29-33]等 都 存在極強的內在色差,這嚴重制約了其在實際寬譜段如彩色成像中的應用。近年來,研究者發現可以通過逆向設計實現消色差微納光學元件,其原理是將微納結構的色差轉移到波長無關的殘留像差,然后再通過后續圖像處理算法對波長無關的殘留像差進行校正。長期以來,研究者們采取的也都是順序設計模式,如前面所述,這種模式從計算成像的角度并非最優。我們通過應用端到端設計框架來解決這一問題[6]。如圖9所示,采用端到端設計的方式,其圖像質量相比順序設計模式在峰值信噪比(Peak Signal-to-noise Ratio,PSNR)、結構相似性(Structural Similarity,SSIM)和光譜角制圖(Spectual Angular Mapper,SAM)分別比提升了1.3 dB、0.015和0.01,這表明端到端設計的消色差平面微納透鏡具有更好的寬譜段成像性能。而且通過端到端設計,我們研究發現,對于計算成像的消色差成像,其設計目標是使得所有波長在高頻處的光學傳遞函數(OTF)都盡可能一致且盡可能高。
對于一個成像系統,其核心指標包括F數、視場、焦距等,從目前的發展趨勢來看,成像系統的F數越來越小,視場越來越大。為了實現這一需求,勢必需要增加系統的復雜度和長度。但人們一直在思考是否有方法能夠打破這一限制。結合計算成像的成像系統設計為這一方案提供了可能,但受制于設計理念,以前單鏡片的成像視場通常只有10°到20°。我們針對大視場的需求,參考大景深成像采用的深度不變點擴散函數設計目標,設計了具有視場近似不變的點擴散函數,并針對性的設計了圖像重構網絡,最終實現了視場53°,F數1.8,焦距43 mm的單鏡片成像系統[7]。2021年,我們針對原始算法在暗區表現不佳的問題,又發展了場景相關的圖像恢復算法,使得全視場的成像質量又有所提升[34]。早期我們的端到端設計模型只用于徬軸近似條件,在2021年我們發展的基于可微分射線追蹤成像模型打破了徬軸近似的限制,結合端到端設計架構實現了2個鏡片的大視場成像。該系統與我們前期沒有采用端到端設計的鏡頭相比,獲得了更好的全視場成像質量,特別是在虛假目標抑制方面,大視場成像效果與對比見圖10[22]。
計算成像本質上是聯合光學硬件與圖像處理算法來協同實現新功能、高性能的成像技術。光學系統與圖像處理算法端到端協同設計為各環節深入協同提供了基礎,它打破了傳統的成像系統中光學、傳感器、圖像后處理算法以及顯示處理等環節之間的壁壘,降低每個環節對經驗的依賴,目標是為諸多場景提供傻瓜化的全新解決方案。目前光學成像系統的發展趨勢正朝著輕小型化和高成像質量方向發展,例如消費電子和消費光子學要求成像系統的F數小、視場大,又要求成像系統重量輕、體積小。光學系統與圖像處理算法端到端協同設計提高了這類光學系統設計的可能性,目前在平面透鏡的寬譜成像、平面透鏡的大視場成像、大景深成像,超分辨成像,快照式光譜成像方面取得了不錯的進展。我們正在推進該技術在紅外光電對抗領域的應用。
端到端設計架構在單鏡片以及復雜鏡片設計中都進行了有益的嘗試并取得了不錯的結果,如可微復合透鏡光學模型,不僅克服了單一光學表面和單一材料的限制,而且支持優化離軸區域。但這種基于可微分射線追蹤成像目前還是過于復雜,在優化復雜鏡頭時難以收斂,如何在保證精度的情況下對其進行降維是未來的研究方向之一,比如是否可以使用深度學習來進行透鏡PSF的模擬,即只要給定結構參數,可快速通過一個網絡計算出其所對應的各視場的點擴散函數。此外計算成像系統應用推進所面臨的的計算資源需求過大問題也亟需解決,如何將前端光學系統、探測器采樣、后端算法甚至后端算法可用硬件資源一起協同也是重要的研究方向。
另外,未來的光學成像系統要想真正實現輕薄化,不僅需要在設計方法上有突破,還需要在新材料上有突破,目前超表面這種小于波長的超薄人工結構是最有可能突破現有光學系統設計瓶頸的材料。雖然超表面有很大潛力,但其內在更大的自由度和自身固有的結構色散導致目前的成像質量和傳統折射型光學系統還存在一定的差距。美國普林斯頓大學Heide等人使用端到端架構設計超表面實現擁有全色覆蓋、寬視場成像的超表面相機[10]。在未來,端到端架構和超表面這種具有強大調控能力的人工材料相結合可能會碰撞出新的火花,實現更加強大的光學成像功能。