摘 要:雖然高質量高分辨率的深度圖能夠顯著地提高各種自然場景計算機視覺任務的性能,但是深度相機硬件的限制使得消費級深度相機拍攝到的深度圖存在分辨率低、質量差和無效空洞等問題。深度圖超分辨率重建(depth super-resolution reconstruction,DSR)是一種能有效提高深度圖分辨率和質量的技術,并且DSR已經成為計算機視覺領域的研究熱點。首先將介紹DSR的定義和近幾年國內外DSR算法的研究進展,然后對深度學習DSR重建算法進行重點闡述與分析。接下來,將介紹深度圖像質量評估準則。最后,對DSR的應用領域和未來所面對的挑戰和機遇進行展望。
關鍵詞: 超分辨率重建; 深度學習; 卷積神經網絡; 深度圖
中圖分類號: TP391.41 文獻標志碼: A 文章編號: 1001-3695(2023)06-003-1621-08
doi: 10.19734/j.issn.1001-3695.2022.10.0505
Review of depth map super-resolution reconstruction research
Zhao Lijun Wang Ke Zhang Jinjing Zhang Jialong Wang Anhong
(1.College of Electronic Information Engineering, Taiyuan University of Science amp; Technology, Taiyuan 030024, China; 2. College of Big Science amp; Technology, North University of China, Taiyuan 030051, China)
Abstract:Although high-quality and high-resolution depth maps can significantly improve the performance of computer vision tasks in various natural scenes, the limitations of depth camera hardware make the depth maps captured by consumer-level depth cameras have problems such as low resolution, poor quality, invalid holes, etc. Depth super-resolution reconstruction (DSR) is a kind of technology that can effectively improve the resolution and quality of depth maps, and DSR has become a research hot-spot in the field of computer vision. Firstly, this paper introduced the definition of DSR and the research progress of DSR algorithm at home and abroad in recent years, and then mainly stated and analyzed deep learning DSR reconstruction algorithms. Next, it introduced the depth image quality evaluation criteria. Finally, this paper prospected the application fields of DSR and the challenges as well as the opportunities in the future.
Key words:super-resolution reconstruction; deep learning; convolutional neural network; depth map
0 引言
人類能夠通過自身的各種感知器官獲取多種環境信息進而感知世界。特別是人類的視覺感知系統能夠幫助人類捕獲二維自然圖像所蘊涵的三維幾何結構信息。相比于人類的視覺感知系統,現有的計算機系統無法完全自主地完成感知環境和理解環境的任務。現有的計算機往往需要將場景的深度信息作為一種輔助信息來完成場景分析和理解的任務。由于高分辨率的深度圖像包含了更多的幾何結構信息和細節信息,所以人們對深度圖分辨率和質量的要求不斷提高,從而進一步提升這些計算機視覺任務的性能。但是,在很多復雜的真實場景下,現有技術所獲取的場景深度信息存在分辨率低和質量較差等問題,使得這些深度信息很難滿足現階段的計算機視覺任務,如自主駕駛[1]、三維重建[2]、人機交互[3]和目標識別[4]等。近年來,利用深度圖超分辨率重建技術對低分辨率、低質量深度圖進行超分辨率重建引起了研究者們的廣泛關注。值得注意的是,DSR技術能夠通過上采樣插值方法、自回歸模型、馬爾可夫隨機場模型和深度學習模型等很好地解決深度圖分辨率低和質量差的問題。由此可見,DSR技術是一項具有重大現實意義的科學研究。消費級深度相機是獲取自然場景深度信息最常用設備之一。然而,面對現實場景中成像環境的復雜性和深度相機自身硬件設備的限制,通常難以直接獲取計算機視覺任務所需的高質量和高分辨率深度圖,而低分辨率深度圖的精細結構信息損失嚴重,這將極大地影響DSR任務的性能。為了提高深度圖的分辨率和質量,早期的很多研究者們提出了各種DSR算法。例如,一些研究者利用傳統插值算法(如Bicubic)、稀疏表示(如ScSR)、圖像濾波(如GF)、正則化約束(如TGV)[5~10]和深度學習模型[11~13]來解決深度圖超分辨率重建問題。考慮到同一個低分辨率深度圖像可以與多個高分辨率深度圖像相對應,DSR本身是一個不適定的病態問題,使得DSR任務非常具有挑戰性。
在深度圖超分辨率重建研究中,一些傳統的深度圖超分辨率算法取得了顯著的效果。例如,基于正則化的深度圖超分辨率重建通常將DSR問題建模為一個具有特定先驗的優化問題,通常包括數據和正則化項來約束圖像重建[14,15]。然而,由于傳統的深度圖超分辨率算法需要很多先驗知識并且依賴于復雜度高的優化模型,這些模型往往耗費大量的運行時間,從而逐漸喪失其主導地位。隨著深度學習技術的逐步完善,越來越多研究者開始關注基于深度學習的深度圖超分辨率重建方法。例如,文獻[11]提出了一種淺層網絡結構(SRCNN),首次將深度學習技術應用到圖像超分辨率重建技術中,使用該網絡來實現低分辨率到高分辨率圖像之間端到端的映射。相比于傳統的超分辨率算法,該方法取得了顯著的效果。
本文將對深度圖超分辨率重建問題進行定義,分別對不同類型的深度圖超分辨率重建研究進展進行詳細綜述,并介紹了重建圖像質量評估準則,對各種深度圖超分辨率方法的性能進行客觀對比。
1 深度圖超分辨率重建問題的定義深度圖超分辨率重建是將低分辨率深度圖恢復成高分辨率深度圖的同時恢復低分辨率圖像中缺失的細節信息。通過硬件設備獲取低分辨率深度圖的過程通常被看做是通過某一種退化方式來降低自然場景高分辨率深度圖質量的過程。整個過程可以定義為
2 基于單任務學習的DSR研究進展
目前大多數DSR方法都采用單任務學習方式實現深度圖超分辨率任務。根據網絡輸入數據的不同,一般將DSR方法劃分為兩種類型:當輸入為單一的低分辨率深度圖時,這種類型的方法被稱為單一DSR方法;當輸入為高分辨率引導圖和低分辨率深度圖時,這類方法被稱為引導式DSR方法。表2將單任務方法劃分為四類,從算法的主要特點和優缺點幾個方面進行分析與比較。
2.1 單一深度圖超分辨率重建
單一深度圖超分辨率重建的目標是從單一的低分辨率深度圖中恢復出一幅高質量的高分辨率深度圖像?,F有的單一深度圖超分辨率方法可簡單分為傳統的深度圖超分辨率重建和基于深度學習的深度圖超分辨率重建方法兩類。很多研究者已經深入地研究了傳統的單一深度圖超分辨重建方法。
例如,Wang等人[22]首先通過深度圖的局部自相似性構造了高分辨率深度圖像塊和低分辨率深度邊緣塊,然后利用馬爾可夫模型得到深度圖的高分辨率邊界圖,最后使用聯合雙邊濾波來實現深度圖的高質量重建;Lu等人[23]采用局部多點濾波,將濾波過程表述為一個局部多點回歸問題。現有的大多數深度圖超分辨率重建方法忽略了深度圖邊緣的重要性,這些方法無法獲得擁有銳利邊緣的深度圖。為了解決該問題,Wang等人[24]提出了一種結合多方向字典稀疏表示和自回歸模型的復合深度圖超分辨率方法,該方法通過不同層次的表示來實現深度圖邊緣的精確重建??紤]到高分辨率圖像和其對應的低分辨率圖像同一位置有相似的邊緣結構信息,Li等人[25]提出了一種結合稀疏表示和局部紋理約束的超分辨率重建方法。為了應對深度圖超分辨率重建過程可能存在的偽影問題,Zhao等人[26]提出一種形狀自適應的加權中值濾波方法,該方法的特點是僅從一個外部圖像中學習多個殘差字典。
為了減少鋸齒狀偽影和紋理拷貝偽影同時保持銳利的邊節信息,Xie等人[27]利用馬爾可夫隨機場優化所得的高分辨率邊緣圖指導單一深度圖像超分辨率重建??紤]到單一低分辨率深度圖包含的可用信息太少,這些傳統的單一深度圖超分辨率方法只能利用深度圖自身的低質量信息,這使得這些方法恢復深度圖細節的能力有限,最終導致重建的深度圖像中容易出現邊緣平滑、模糊和偽影等現象。典型的單任務學習深度圖超分辨率重建算法對比如表2所示。
不同于傳統的單一深度圖超分辨率重建方法,基于深度學習的單一深度圖超分辨率重建方法采用端到端訓練的神經網絡來提高深度圖的質量。如圖2(a)所示,預上采樣結構采用傳統的雙三次插值方法將低分辨率深度圖上采樣為目標尺寸的低質高分辨率圖像,然后使得卷積神經網絡提取該圖像的特征,最后再將特征映射為一幅圖像來重建高質量的細節信息。由于這種方法使用經典的上采樣算子完成圖像分辨率的提升并且能夠較好地恢復圖像部分細節,其只需要神經網絡對上采樣圖像進行細化就能實現高質量重建,這樣就能降低卷積神經網絡學習的難度。然而,這種方法往往使得超分圖像引入噪聲和模糊現象。如圖2(b)所示,很多超分辨率重建方法將一個困難的任務分解成更簡單的漸進上采樣任務。例如,將8倍上采樣分解為連續三次2倍上采樣,這種方法可以大大降低卷積神經網絡學習的難度,從而獲得更好的性能。例如,Huang等人[16]提出了一種用于深度圖超分辨率的金字塔密集殘差網絡(將該方法標記為Pyramid),如圖3所示。該方法使用密集跳躍連接聚合不同級別的特征, 并使用殘差學習來迭代重建高分辨率深度圖。于淑俠等人[28]構建一種金字塔式雙通道深度圖超分辨率卷積神經網絡,結合局部特征和全局特征緩解了邊緣失真和偽影問題。Song等人[29]提出了一種基于迭代殘差學習的深度圖超分辨率重建框架,該框架采用從粗糙到精細的漸進學習方式來增強高頻分量,并通過TGV正則化和一致性損失來約束深度圖細化重建模塊的學習。Chen等人[30]使用卷積神經網絡學習從低分辨率深度圖到高質量深度邊緣圖的映射關系,并使用預測的高質量邊緣圖作為TV模型正則化項的權重,從而實現更好的深度圖重建。Wu等人[31]通過使用迭代上采樣和下采樣操作來強化深度圖邊界的特征表示。不同于以上這些方法,考慮到在深度圖中很多物體的表面擁有平滑特性,Ye等人[32]提出了一種深度可控切片網絡來實現深度圖的精確恢復。綜上所述,單一深度圖超分辨重建往往無法準確地恢復出高質量高分辨率的深度圖,這是由于單個低分辨率深度圖無法提供很多可靠的結構信息。特別是當上采樣因子非常大的情況下,重建的深度圖往往缺乏精細的邊緣和結構信息。
2.2 彩色圖引導的深度圖超分辨率重建
不同于單一深度圖超分辨率重建,彩色圖引導的深度圖超分辨率重建方法能夠利用每幅深度圖與其對應的彩色圖之間的結構相似信息來提升深度圖質量。學者們常常將該方法也稱為聯合彩色圖的深度圖超分辨率重建方法。這種方法的假設條件是深度圖與彩色圖的邊緣之間存在一致的邊界不連續關系。依據這種關系,將彩色圖的結構信息遷移到深度圖中,從而為深度圖重建提供高質量的結構信息。一般來說,彩色圖引導的深度圖超分辨率重建可以劃分為傳統方法和深度學習方法。根據深度圖輸入分辨率的不同,可以將深度學習方法再劃分為兩種類型,即基于低分辨率深度圖輸入的超分辨率重建和基于全分辨率深度圖輸入的超分辨率重建。
傳統的聯合深度圖超分辨率重建方法往往首先需要根據引導圖和輸入圖之間的結構相似性和差異性、深度圖本身分段線性平滑特性等先驗知識構建深度圖超分辨率重建優化模型,然后通過凸優化算法進行迭代求解[33]。例如,Ham等人[34]將彩色圖引導的深度圖濾波表述為一個非凸優化問題,該問題通過最大最小化算法來進行優化求解,他們提出了一種靜態動態濾波器方法,該方法聯合引導圖像和輸入圖像的結構信息進行超分辨率重建。Barron等人[35]將深度圖超分辨率重建問題構建為一個受數據保真度項和圖像雙邊平滑項約束的優化問題。Ferstl等人[8]將深度圖超分辨率重建表述為具有高階正則化的凸優化問題,使用從高分辨率強度圖像中計算出的各向異性擴散張量來指導深度圖上采樣。Yang等人[36]將立體視覺輔助模型用于深度圖超分辨率重建,使用局部和非局部先驗約束項充分地探索低分辨率深度圖和高分辨率彩色圖之間的互補性,并且還使用立體視差先驗約束進一步加強對精細深度細節的保護。楊樹媛等人[37]利用低分辨率深度圖和MRF模型構建一個邊緣圖像金字塔字典和高分辨率邊緣圖,用于重建深度圖的邊緣和平滑區域,有效降低了邊緣模糊現象。相比于傳統的單一深度圖超分辨率重建,雖然這些聯合彩色圖的傳統深度圖超分辨率重建方法能夠使用彩色圖的高質量結構信息作為指導信息,但是它們依賴于高復雜度的迭代優化算法,這使得算法往往需要耗費大量的計算時間來獲取經過優化的準確的超分辨率重建解,極大地限制了它們的廣泛應用和部署。
基于深度學習的聯合彩色圖的深度圖超分辨率重建方法取得了優異的性能[38,39]。根據模型上采樣方式的不同衍生了不同的類型,如圖4所示的上采樣方式分別為單次預上采樣、多尺度漸進上采樣和多階段迭代上下采樣三種類型。早期很多學者們常常采用單次上采樣預處理來實現深度圖分辨率的提升[40]。例如,Li等人[41]提出了一種基于卷積神經網絡的聯合濾波器,如圖5所示。該濾波器首先將低分辨率深度圖恢復到和彩色圖相同的分辨率,然后將結構細節從彩色引導圖像轉移到目標圖像,從而實現深度圖噪聲的抑制或空間分辨率的提高。相比于第一種類型,多尺度漸進上采樣方法能夠將復雜的大尺度上采樣問題分解為多次上采樣問題。例如,Hui等人[17]提出了一種多尺度引導融合的漸進上采樣模型(DMSG),如圖6所示,該模型逐步提取高分辨率彩色特征和低分辨率深度特征,并利用富含結構和紋理特征的高分辨率彩色信息來緩解低分辨率深度圖細節特征的模糊問題。類似地,Zuo等人[42]提出了一個多尺度引導的漸進式殘差網絡來實現深度圖的超分辨率重建,該網絡從粗糙到精細逐步融合高分辨率彩色圖的多尺度引導特征和相應的低分辨率深度圖特征。除此之外,Zuo等人[43]還提出了一種基于深度卷積神經網絡的數據驅動方法,該方法采用全局殘差學習和局部殘差學習來獲得多尺度的特征融合,從而實現深度圖精細結構的高質量恢復。
除了以上兩種類型,多階段迭代上下采樣是一種新穎的上采樣方式。例如,Ye等人[18]提出一種漸進式多分支聚合網絡,該網絡迭代地使用上采樣和下采樣殘差,多個階段應用注意力機制逐步突出深度圖邊界特征,如圖7所示。隨后,He等人[44]在經過迭代上下采樣之后,采用多個Octave卷積[45]將高分辨率彩色特征進行多階段分解來得到高頻特征和低頻特征,隨后將各階段的高頻彩色特征與不同層的深度特征分別進行聚合,最終逐步增強深度圖特征的細節信息。
3 基于多任務學習的DSR研究進展
當不同的任務之間存在著關聯性,不同任務之間就能相互提供額外的有用信息。如果能夠充分地利用這些信息,那么就能夠訓練出表現更好、更魯棒的模型。在大部分情況下,多任務學習都要比單任務學習的效果要更好。反之,如果多個任務之間的關系衡量不恰當,不僅不會引入額外的有用信息,反而會給任務本身引入噪聲干擾,最終使得模型的學習效果不升反降。值得注意的是,當面向單任務模型的訓練數據集樣本數不充足時,單任務學習模型往往不能夠學習得到足夠的有用信息,導致模型的性能表現較差。事實上,多任務學習已經在多個領域如自然語言、計算機視覺、模式識別、推薦系統等得到廣泛的應用。接下來,將對聯合深度圖估計任務的深度圖超分辨率模型進行闡述。聯合深度圖估計任務的深度圖超分辨率方法包含兩個并行的任務,兩個任務之間可以相互補充對方所缺失的信息。如圖8所示,Tang等人[19]提出了一個深度圖超分辨率重建和單目深度估計的聯合學習網絡,設計了一種高頻注意力橋,利用單目深度估計任務的高頻信息來指導深度圖超分辨率重建任務,同時設計了一種內容引導橋將從深度圖超分辨率重建任務學到的結構信息提供給單目深度估計任務。不同于文獻[19],Sun等人[20]考慮到在一些實際的測試環境中很難獲取成對的數據,同時考慮到在訓練階段彩色圖和深度圖信息都是可用的,他們提出了一種知識蒸餾方法,該方法利用單目深度估計來幫助深度圖超分辨率重建以更好地捕捉場景結構,如圖9所示。值得注意的是,在測試階段只存在單一深度圖超分辨重建任務。雖然多任務學習可以提高深度圖超分辨率重建任務的性能,但是多任務學習往往需要更高要求的硬件來訓練網絡,而且其復雜性比單任務學習要高得多。
不同于聯合深度圖估計任務的深度圖超分辨率方法,聯合深度圖超分辨率任務的目標檢測方法就是將目標檢測任務與深度圖超分辨率任務相結合,該方法使用由深度圖超分辨率任務獲取的清晰高分辨率深度信息來輔助目標檢測任務實現更好的性能。除了多任務深度圖超分辨率,自然圖像超分辨率也可以和計算機任務進行關聯。例如,針對視頻質量低導致人臉檢測準確率低的問題,李紅艷等人[46]對幀圖片中的人臉提取粗糙特征并在人臉檢測器后增加由殘差密集塊構成的人臉超分辨率重建網絡,剔除粗提取人臉中的偽影,更好地還原面部細節。相比于人臉視頻目標檢測,在復雜場景中人臉圖像檢測由于受到各種因素的影響,精準地定位小人臉、避免漏檢、誤檢是一件極具挑戰性的任務。為此,趙軍艷等人[47]將YOLOv3與圖像超分辨率重建技術結合構成兩級人臉檢測模型,融入SRGAN圖像超分辨率重建模塊對低分辨率的人臉進行數據增強,構建了一個檢測網絡來提高低分辨率小人臉檢測的性能。張坤等人[48]通過目標檢測網絡檢測出原圖像中需要超分辨率的區域,然后,第二階段將對應區域通過雙三次上采樣變換調整至指定分辨率,最后通過對抗生成網絡增強圖像細節信息。
4 深度圖的質量評估準則在圖像獲取、處理和傳輸的過程中,由于物體運動、低照度環境的噪聲干擾、網絡帶寬的限制等原因可能會導致圖像產生不同程度的降質失真??紤]到高質量的圖像包含的信息往往有助于提高計算機視覺任務的性能,必須首先定義高質量圖像的評價指標。彩色圖的像素值代表場景物體的光照、色彩和紋理信息,而深度圖的深度值代表的是物體的距離信息。不同于自然圖像質量的評估往往要求指標要和人類主觀評價結果要具有一致性,深度圖質量評價主要對深度圖的準確度/精度進行測量,要求盡可能地保留場景的幾何結構信息。為了評估深度圖超分辨率重建模型的性能,需要對重建深度圖的質量作出準確的評價。這里將深度圖像質量評價方法分類為傳統的客觀評價指標和深度圖精度的客觀評價指標兩種。
4.1 傳統的客觀評價指標圖像質量客觀評價的基本目標是設計能精確和自動感知圖像質量的計算模型獲得圖像質量量化值,采用量化值代替人類視覺系統認知圖像質量優劣?,F階段圖像質量客觀評價所采用的算法模型主要有四種:峰值信噪比(PSNR)、結構相似性(SSIM)、均方根誤差(RMSE)和平均絕對誤差(MAD)。表3對這些客觀評價指標的優點和缺點進行了分析和比較。
4.2 深度圖精度的客觀評價指標
5 最新的深度圖超分辨率方法的性能對比與分析
由于GF、JBU、FBS和Ham是基于圖像濾波的深度圖SR方法,只利用局部信息進行上采樣,所以這些方法的深度圖SR性能往往不高。在使用這些方法得到超分辨率深度圖中,往往可以發現會引入明顯的類似出血的偽影和模糊偽影。不同于這些濾波方法,MRF、TGV和Par是基于先驗正則化的深度圖SR方法,通常需要花費很長時間才能獲得最優的超分辨率重建結果。另外,由于深度圖SR重建通常對不一致的紋理細節很敏感,所以在深度圖SR重建過程中可能會出現一些惱人的紋理復制偽影。根據上述分析不難看出,基于深度學習的深度SR方法的性能明顯優于傳統的深度SR方法。這是因為傳統的深度圖SR方法往往依賴于高度復雜的優化模型,這極大地限制了它們的進一步應用和部署。
6 深度圖超分辨率重建的應用和挑戰
深度圖像超分辨率重建是近年來計算機視覺領域的研究熱點,不僅具有重要的理論意義,而且在實際應用中也有著迫切的需求。例如,三維重建、三維人體姿態估計、語義分割和目標識別等許多任務。在三維場景的重建方面,消費級深度相機能夠為三維重建技術提供深度數據。然而,由于現有的深度相機所獲得的深度信息分辨率較低,影響三維場景重建的性能,所以需要利用深度圖超分辨率重建技術提高深度數據的質量和分辨率,從而恢復出高精度的三維物體表面模型,促進三維重建在生物醫學、視頻監控、刑事案件分析和增強現實等領域的應用。三維人體姿態估計的目標是在三維空間中估計人體各關節點的空間位置,這就需要高質量的深度信息提供相應關節的空間位置信息實現三維重建。然而,當前三維人體姿態估計方法往往會遇到深度信息質量差的問題。因此,需要采用高性能的深度圖超分辨率重建技術對三維人體姿態估計所需的深度信息進行預處理。在RGB-D語義分割任務中,深度信息扮演著非常重要的角色,深度圖能夠提供三維幾何形狀,有助于更好地區分彩圖中的各種對象,從而提高了圖像的分割精度。然而,計算機視覺任務所需的深度數據目前主要由Kinect、AsusXtion和RealSense等消費級深度相機捕獲,但受限于深度相機的性能,所獲得的深度信息通常分辨率較低且噪聲較多,從而導致錯誤的分割。因此,不得不借助于深度圖超分辨率重建技術提升深度信息的質量,從而進一步提高圖像分割精度。
車輛自動駕駛和無人機飛控避障都需要獲取準確的深度信息來確定當前場景的人和車輛等的空間位置信息,從而依據位置信息準確識別前方障礙物的位置實現精確避讓。深度圖超分辨率重建能夠提升深度圖質量,從而更好地幫助自動駕駛車輛獲得更精確的三維幾何結構信息。然而,目前深度圖超分辨率研究仍然面臨很多挑戰。例如,面向任意縮放因子的深度圖超分辨率重建近來得到大眾的廣泛關注。以前的方法把不同的超分辨率縮放因子看做獨立的任務,即針對每個縮放因子分別訓練一個模型,并且只考慮了若干個整數縮放因子,從而導致網絡的計算效率低。盡管對于當前深度圖超分辨率重建方法適當放大輸入圖像也可實現超分辨率的非整數縮放,但是重復的計算以及放大的輸入使得這些方法非常耗時,難以投入實際應用。由此可見,一個解決任意縮放因子的單一模型是必需的。
彩色圖引導的深度圖超分辨率重建方法將彩色圖的結構信息傳遞到深度圖中,它能夠為深度圖重建提供高質量的結構信息,從而提升深度圖的重建質量。然而,在現實生活中所獲得彩色圖不一定是高質量高分辨率的。例如,低照度環境/雨天/雪天/霧天獲得彩色圖存在著一定的信息丟失,但相對于低分辨率深度圖存在著較為豐富的結構細節信息??紤]到現實生活中環境的多變性,惡劣環境下彩色圖引導的深度圖超分辨率重建是未來一個重要的研究方向。在實際應用場景下,由于各種各樣的不確定性因素會導致低分辨率圖像下采樣的尺度未知,甚至是含有多重降質(含有下采樣、模糊、噪聲等等)的情況。如果直接使用現有的理想的無干擾場景下深度圖超分辨率網絡解決實際問題,那么使得其性能與理想性能產生很大的誤差。盲深度圖超分辨率需預先估計模糊核。在模糊核不匹配時,深度圖超分辨率重建得到的圖像會過于模糊或產生振鈴效應,只有在模糊核匹配時,才會有較好的圖像超分辨率效果,因此估計退化模糊核是一個關鍵步驟。如何使網絡結構能夠處理多重降質的情況是一個重要的研究方向。
目前大多數深度圖超分辨率方法使用傳統的Bicubic插值方法來獲得低分辨率深度圖,從而構造了低分辨率和對應高分辨率圖像對作為訓練數據。這樣,深度圖超分辨率問題會變成預定義深度圖退化過程的逆過程,然而,真實自然圖像往往存在未知的模糊和噪聲,從而導致在真實場景中使用現有的算法無法達到很好的效果。若采用無監督學習的方法,無須使用大量樣本進行訓練,也可節約獲取大量數據集的時間,直接使用現實圖像進行訓練與測試,不依靠外部數據集,更能提高模型的泛化能力。在未來的研究中,在無法獲得成對的低分辨率和對應高分辨率深度圖的情況下,基于無監督學習和對抗生成網絡的深度圖盲超分辨率問題是一個有意義的研究方向。
隨著深度學習技術的發展,當前深度圖超分辨率重建算法性能得到了極大的提升,但是這些算法仍然面臨著很多的新挑戰。例如,現有的深度學習模型存在可解釋性差、對抗性弱等問題。特別是,目前大多的深度圖超分辨率重建網絡拓撲結構缺乏可解釋性,如何增加這些網絡的可解釋性仍然是未來一個非常重要的研究方向。
7 結束語
深度圖超分辨率重建在計算機視覺領域具有重要的研究意義和應用價值,本文首先介紹深度圖超分辨率重建問題的定義,然后,重點闡述單任務深度圖超分辨率重建研究進展和多任務深度圖超分辨率重建研究進展;其次介紹了深度圖的評估準則,最后,討論了深度圖超分辨率重建的應用和挑戰??傮w而言,目前深度圖超分辨率重建技術還有很大的上升空間,而且深度圖超分辨率重建技術具有很大的實用價值。由此可見,深度圖超分辨率重建依然是一個亟待繼續深入探索的重點研究方向。
參考文獻:
[1]Wan Liangtian,Sun Yuchen,Sun Lu,et al. Deep learning based autonomous vehicle super resolution DOA estimation for safety driving [J]. IEEE Trans on Intelligent Transportation Systems,2020,22(7): 4301-4315.
[2]李俊伯,秦品樂,曾建潮,等. 基于超分辨率網絡的CT三維重建算法 [J]. 計算機應用,2022,42(2): 584-591. (Li Junbo,Qin Pinle,Zeng Jianchao,et al. CT three-dimensional reconstruction algorithm based on super-resolution network [J]. Journal of Computer Applications,2022,42(2): 584-591.)
[3]惠心雨,汪輝,白俊強,等. 基于卷積神經網絡的光電導航圖像超分辨率方法 [J]. 現代導航,2020,11(6): 421-424. (Hui Xinyu,Wang Hui,Bai Junqiang,et al. Photoelectric navigation image super-resolution method based on convolutional neural network [J]. Mo-dern Navigation,2020,11(6): 421-424.)
[4]王玨,潘沛生. 基于超分辨率重建的低分辨率表情識別的研究 [J]. 計算機技術與發展,2021,31(7): 47-51. (Wang Jue,Pan Peisheng. Research on low-resolution facial expression recognition based on super-resolution reconstruction [J]. Computer Technology and Development,2021,31(7): 47-51.)
[5]Keys R. Cubic convolution interpolation for digital image processing [J]. IEEE Trans on Acoustics,Speech,and Signal Proces-sing,1981,29(6): 1153-1160.
[6]Yang Jianchao,Wright J,Huang T S,et al. Image super-resolution as sparse representation of raw image patches [C]// Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2008: 1-8.
[7]He Kaiming,Sun Jian,Tang Xiao’ou. Guided image filtering [J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2012,35(6): 1397-1409.
[8]Ferstl D,Reinbacher C,Ranftl R,et al. Image guided depth upsampling using anisotropic total generalized variation [C]// Proc of IEEE International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2013: 993-1000.
[9]Liu Xianming,Zhai Deming,Chen Rong,et al. Depth super-resolution via joint color-guided internal and external regularizations [J]. IEEE Trans on Image Processing,2018,28(4): 1636-1645.
[10]Liu M Y,Tuzel O,Taguchi Y. Joint geodesic upsampling of depth images [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2013: 169-176.
[11]Dong Chao,Loy C C,He Kaiming,et al. Learning a deep convolutio-nal network for image super-resolution [C]// Proc of European Con-ference on Computer Vision. Berlin: Springer,2014: 184-199.
[12]Dong Chao,Loy C C,Tang Xiao’ou. Accelerating the super-resolution convolutional neural network [C]// Proc of European Conference on Computer Vision. Cham: Springer,2016: 391-407.
[13]Shi Wenzhe,Caballero J,Huszár F,et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2016: 1874-1883.
[14]Jiang Zhongyu,Hou Yonghong,Yue Huanjing,et al. Depth super-reso-lution from RGB-D pairs with transform and spatial domain regularization [J]. IEEE Trans on Image Processing,2018,27(5): 2587-2602.
[15]Zhang Yongbing,Feng Yihui,Liu Xianming,et al. Color-guided depth image recovery with adaptive data fidelity and transferred graph Laplacian regularization [J]. IEEE Trans on Circuits and Systems for Video Technology,2020,30(2): 320-333.
[16]Huang Liqin,Zhang Jianjia,Zuo Yifan,et al. Pyramid-structured depth map super-resolution based on deep dense-residual network [J]. IEEE Signal Processing Letters,2019,26(12): 1723-1727.
[17]Hui T W,Loy C C,Tang Xiao’ou. Depth map super-resolution by deep multi-scale guidance [C]// Proc of European Conference on Computer Vision. Cham: Springer,2016: 353-369.
[18]Ye Xinchen,Sun Baoli,Wang Zhihui,et al. PMBANet: progressive multi-branch aggregation network for scene depth super-resolution [J]. IEEE Trans on Image Processing,2020,29: 7427-7442.
[19]Tang Qi,Cong Runmin,Sheng Ronghui,et al. BridgeNet: a joint learning network of depth map super-resolution and monocular depth estimation [C]// Proc of the 29th ACM International Conference on Multimedia. New York: ACM Press,2021: 2148-2157.
[20]Sun Baoli,Ye Xinchen,Li Baopu,et al. Learning scene structure guidance via cross-task knowledge transfer for single depth super-resolution [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2021: 7788-7797.
[21]Zhao Lijun,Bai Huihui,Liang Jie,et al. Simultaneous color-depth super-resolution with conditional generative adversarial networks [J]. Pattern Recognition,2019,88: 356-369.
[22]Wang Xiaochuan,Wang Kai,Liang Xiaohui. Single depth map super-resolution with local self-similarity [C]// Proc of the 2nd Internatio-nal Conference on Video and Image Processing. New York: ACM Press,2018: 198-202.
[23]Lu Jiangbo,Shi Keyang,Min Dongbo,et al. Cross-based local multipoint filtering [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2012:430-437.
[24]Wang Jin,Xu Wei,Cai J F,et al. Multi-direction dictionary learning based depth map super-resolution with autoregressive modeling [J]. IEEE Trans on Multimedia,2019,22(6): 1470-1484.
[25]Li Wei,Li Bo,Li Pengfei. Image super-resolution via sparse representation and local texture constraint [C]// Proc of the 12th IEEE Conference on Industrial Electronics and Applications. Piscataway,NJ: IEEE Press,2017: 1044-1049.
[26]Zhao Lijun,Bai Huihui,Liang Jie,et al. Single depth image super-resolution with multiple residual dictionary learning and refinement [C]// Proc of IEEE International Conference on Multimedia and Expo. Piscataway,NJ: IEEE Press,2017: 739-744.
[27]Xie Jun,Feris R S,Sun M T. Edge-guided single depth image super resolution [J]. IEEE Trans on Image Processing,2015,25(1): 428-438.
[28]于淑俠,胡良梅,張駿,等. 基于金字塔式雙通道卷積神經網絡的深度圖像超分辨率重建 [J]. 計算機應用研究,2020,37(8):2541-2546. (Yu Shuxia,Hu Liangmei,Zhang Jun,et al.Depth image super-resolution reconstruction with two-channel pyramid convolutional neural network [J]. Application Research of Computers,2020,37(8): 2541-2546.)
[29]Song Xibin,Dai Yuchao,Zhou Dingfu,et al. Channel attention based iterative residual learning for depth map super-resolution [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 5631-5640.
[30]Chen Baoliang,Jung C. Single depth image super-resolution using convolutional neural networks [C]// Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ: IEEE Press,2018: 1473-1477.
[31]Wu Guoliang,Wang Yanjie,Li Shi.Single depth map super-resolution via a deep feedback network[J].International Journal of Wavelets,Multi resolution and Information Processing,2021,19(2):2050072.
[32]Ye Xinchen,Sun Baoli,Wang Zhihui,et al. Depth super-resolution via deep controllable slicing network [C]// Proc of the 28th ACM International Conference on Multimedia. New York: ACM Press,2020: 1809-1818.
[33]Zhao Zixiang,Zhang Jiangshe,Xu Shuang,et al. Discrete cosine transform network for guided depth map super-resolution [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2022: 5687-5697.
[34]Ham B,Cho M,Ponce J. Robust guided image filtering using nonconvex potentials [J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2017,40(1): 192-207.
[35]Barron J T,Poole B. The fast bilateral solver [C]// Proc of European Conference on Computer Vision. Cham: Springer,2016: 617-632.
[36]Yang Yuxiang,Cai Junjie,Zha Zhengjun,et al. Depth map super-resolution using stereo-vision-assisted model [J]. Neurocomputing,2015,149(2): 1396-1406.
[37]楊樹媛,曹寧,郭斌,等. 基于雙模式聯合三邊濾波器的深度圖像超分辨率方法 [J]. 計算機應用研究,2021,38(11): 3472-3477. (Yang Shuyuan,Cao Ning,Guo Bin,et al. Depth map super resolution based on dual mode joint trilateral filter [J]. Application Research of Computers,2021,38(11): 3472-3477.)
[38]Zuo Yifan,Wang Hao,Fang Yuming,et al. MIG-net: multi-scale network alternatively guided by intensity and gradient features for depth map super-resolution [J]. IEEE Trans on Multimedia,2022,24: 3506-3519.
[39]張帥勇,劉美琴,姚超,等. 分級特征反饋融合的深度圖像超分辨率重建 [J]. 自動化學報,2022,48(4):992-1003. (Zhang Shuai-yong,Liu Meiqin,Yao Chao,et al. Hierarchical feature feedback network for depth super-resolution reconstruction [J]. Acta Automatica Sinica,2022,48(4): 992-1003.)
[40]Li Yijun,Huang Jiabin,Ahuja N,et al. Joint image filtering with deep convolutional networks [J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2019,41(8): 1909-1923.
[41]Li Yijun,Huang Jiabin,Ahuja N,et al. Deep joint image filtering [C]// Proc of European Conference on Computer Vision. Cham: Springer,2016: 154-169.
[42]Zuo Yifan,Fang Yuming,Yang Yong,et al. Depth map enhancement by revisiting multi-scale intensity guidance within coarse-to-fine stages [J]. IEEE Trans on Circuits and Systems for Video Technology,2019,30(12): 4676-4687.
[43]Zuo Yifan,Fang Yuming,Yang Yong,et al. Residual dense network for intensity-guided depth map enhancement [J]. Information Sciences,2019,495: 52-64.
[44]He Lingzhi,Zhu Hongguang,Li Feng,et al. Towards fast and accurate real-world depth super-resolution: benchmark dataset and baseline [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2021: 9229-9238.
[45]Chen Yunpeng,Fan Haoqi,Xu Bing,et al. Drop an octave: reducing spatial redundancy in convolutional neural networks with octave convolution [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2019: 3435-3444.
[46]李紅艷,曾浩,魏藝杉. 基于人臉超分的網絡視頻人臉檢測 [J]. 計算機工程與設計,2021,42(11): 3253-3260. (Li Hongyan,Zeng Hao,Wei Yishan. Network video face detection based on face super-resolution [J]. Computer Engineering and Design,2021,42(11): 3253-3260.)
[47]趙軍艷,降愛蓮,強彥. YOLOv3融合圖像超分辨率重建的魯棒人臉檢測 [J]. 計算機工程與應用,2022,58(19): 250-256. (Zhao Junyan,Jiang Ailian,Qiang Yan. Robust face detection using YOLOv3 fusion super resolution reconstruction [J]. Computer Engineering and Applications,2022,58(19): 250-256.)
[48]張坤,李天偉. 基于目標檢測的海上艦船圖像超分辨率研究 [J]. 圖像與信號處理,2019,8(3): 121-129. (Zhang Kun,Li Tianwei. Research on super-resolution of marine ship image based on target detection [J]. Journal of Image and Signal Processing,2019,8(3): 121-129.)
[49]Diebel J,Thrun S. An application of Markov random fields to range sensing [C]// Proc of the 18th International Conference on Neural Information Processing Systems. Cambridge,MA: MIT Press,2005:291-298.
[50]Kopf J,Cohen M F,Lischinski D,et al. Joint bilateral upsampling [J]. ACM Trans on Graphics,2007,26(3): 96.
[51]Park J,Kim H,Tai Y W,et al. High quality depth map upsampling for 3D-ToF cameras [C]// Proc of International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2011: 1623-1630.
[52]Kim B,Ponce J,Ham B. Deformable kernel networks for joint image filtering [J]. International Journal of Computer Vision,2021,129(2): 579-600.
[53]Cao Xiang,Luo Yihao,Zhu Xianyi,et al. DAEANet: dual auto-encoder attention network for depth map super-resolution [J]. Neurocomputing,2021,454: 350-360.