















摘 要:圖像拼接是計算機視覺和計算機圖形學中的一個重要分支,在三維成像等方面具有廣泛的應用。相較于傳統基于特征點檢測的圖像拼接框架,基于深度學習的圖像拼接框架具有更強的場景泛化表現。目前雖然關于基于深度學習的圖像拼接研究成果眾多,但仍缺少相應研究的全面分析和總結。為了便于該領域后續工作的開展,梳理了該領域近10年的代表性成果。在對傳統拼接方法與基于深度學習的圖像拼接方法對比的基礎上,從圖像拼接研究領域中的單應性估計、圖像拼接和圖像矩形化三個子問題出發,進行了學習策略及模型架構設計、經典模型回顧、數據集等方面的整理與分析。總結了基于深度學習的圖像拼接研究方法的一些特點和當前該領域的研究現狀,并對未來研究前景進行了展望。
關鍵詞:單應性估計; 圖像拼接; 圖像矩形化; 深度學習
中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2024)07-002-1930-10
doi:10.19734/j.issn.1001-3695.2023.10.0528
Survey on image stitching algorithm based on deep learning
Abstract:Image stitching is an important branch in computer vision and computer graphics, and has a wide range of applications in 3D imaging and other aspects. Compared with the traditional image stitching framework based on feature point detection, the image stitching framework based on deep learning has stronger scene generalization performance. Although there are many research results on image stitching based on deep learning, there is still a lack of comprehensive analysis and summary of the corresponding research. In order to facilitate the subsequent work in this field,this paper sorted out the representative results in this field in the past 10 years. Based on the comparison between traditional stitching methods and deep learning-based image stitching methods,it collated and analysed the learning strategy and model architecture design, classical model review, and dataset from the three sub-problems of homography estimation, image stitching, and image rectangling in the research field of image stitching. It summarized some features of deep learning-based image stitching research methods and summarized the current research status in the field,and prospected the future research prospects.
Key words:homography estimation; image stitching; image rectangling; deep learning
0 引言
圖像拼接是一項關鍵且具有挑戰性的計算機視覺任務,在過去的幾十年里已經得到了很好的研究,其目的是將從不同觀看位置捕獲的不同圖像構建成具有更寬視場(field-of-view,FOV)的全景。圖像拼接被廣泛應用于醫療[1]、監控視頻[2]、自動駕駛[3]、虛擬現實[4]等領域。
傳統的圖像拼接技術可以分為自適應扭曲和接縫切割[5]兩個步驟。傳統算法往往依賴于越來越復雜的幾何特征(點、線、邊緣等特征)來實現更好的內容對齊和形狀保存。在計算了扭曲之后,通常采用接縫切割去除視差偽影。為了探索不可見的接縫,使用邊[6]、顯著映射[7]等設計了各種能量函數。傳統方法要求場景特征在圖像中密集且均勻分布,魯棒性差。同時,隨著幾何結構增大,計算成本急劇飛躍,因此圖像拼接仍然具有挑戰性。
近年來,隨著深度學習技術的快速發展,基于深度學習的圖像拼接模型得到了積極的探索,并在各種復雜場景上取得了良好的性能。受到光流估計、雙目立體匹配等視覺研究的啟發,目前基于深度學習的圖像拼接研究主要圍繞借助相關深度學習方法,構建更高效的模型架構設計、特定拼接場景設計及模型訓練策略等方面展開。從早期的基于卷積神經網絡(convolutional neural networks,CNN)的方法(如SRCNN[8])到最近有前景的基于注意力機制的方法(如swin Transformer[9]),各種深度學習方法已經被應用于處理圖像拼接任務,解決了不少傳統圖像拼接方案難以解決的問題(如低紋理場景對齊、大視差拼接等)。目前,已經提出了各種基于深度學習(deep lear-ning,DL)圖像拼接的相關研究工作,包括有監督、無監督、CNN、Transformer、GNN、級聯式、非級聯式等方法。
之前的綜述研究,如文獻[10],雖然給出了圖像拼接算法的全面調查,但是主要針對傳統方法進行全面總結,而文獻[11~13]只關注圖像拼接中,特定任務方法。文獻[11]專注于對基于特征方法的技術研究;Lyu等人[12]提供了用傳統解決方案解決圖像/視頻拼接問題的詳細綜述,主要針對基于像素的方法與基于特征的方法進行總結;雖然Liao等人[13]討論了基于DL學習圖像配準方法,但只考慮了圖像校準中的各種技術,缺乏對整個圖像拼接過程的詳細概述。此外,由于基于DL學習的圖像拼接綜述數量很少,讀者很難了解圖像拼接的發展趨勢。為了便于后續的研究工作,在此本文從模型架構設計、學習策略設計、拼接方式設計等方面出發,針對圖像拼接的三個子任務,即單應性估計、圖像拼接和圖像矩形化,進行了分類整理及概述,并對當前的算法進行了對比及總結。不同于現有的圖像拼接相關綜述,本文主要圍繞DL方法在圖像拼接領域的研究方法、數據集等進行了歸納分析。就當前基于DL的圖像拼接研究存在的問題及未來研究前景進行了總結與展望。
本文主要貢獻有三個方面:
a)對比分析了傳統圖像拼接算法與基于深度學習的圖像拼接技術各自的優缺點,為該領域后續工作的開展提供了指導。
b)對基于DL的圖像拼接技術進行了全面的綜述,包括基準數據集、學習策略及模型設計出發點等多個角度,回顧了各個子領域的一些基于DL的經典模型,梳理了其模型亮點與不足,為后續相關工作的跟進指引了方向。
c)討論了基于DL的圖像拼接領域研究所面臨的問題與挑戰,整理了基于DL的圖像拼接領域研究的一些模型代碼和數據集,為同類研究工作的開展提供了有力的支撐。
1 傳統拼接與基于DL拼接技術對比
本章從不同的角度回顧了傳統圖像拼接與基于DL的圖像拼接技術,包括傳統的單應性估計方法和基于DL的單應性估計方法,傳統圖像拼接方法與基于DL圖像拼接,傳統矩形化與基于DL矩形化。
1.1 單應性估計方法對比
單應性是指3D平面里兩幅圖像或者圍繞相機投影中心旋轉拍攝的兩幅圖像之間的變換關系。單應是兩個空間之間的映射,通常用來表示同一場景的兩個圖像之間對應關系的3×3矩陣,包含8個自由度。換句話說,單應性是兩個圖像中的點之間的非奇異線性關系。
1.1.1 傳統的單應性估計
傳統的單應性估計是基于特征點匹配的方法,特征是要匹配的兩個輸入圖像中的元素,它們是在圖像塊的內部,圖像塊是圖像中的像素組,特征通常包括點、線、邊緣等。傳統方法為了給圖像對提供更好的特征匹配,通常采用角點匹配。角點是很好的匹配特性,在視點變化時,角點特征是穩定的;此外,角點的鄰域具有強度突變。角點檢測算法有Harris角點檢測算法、SIFT特征點檢測算法、FAST算法角點檢測算法等。
1.1.2 基于DL的單應性估計
基于DL的單應性估計方法通過深度單應性估計模型,利用圖像物體重疊部分的特征關系,通過圖論等方法,無須人工干預即可實現全自動單應性估計,雖然存在較強的場景泛化能力,但嚴重依賴數據集。針對此問題,為了便于該領域后續工作的開展,整理兩者的優缺點如表1所示。
1.2 圖像拼接方法對比
1.2.1 傳統的圖像拼接
傳統的圖像拼接方法可以分為基于像素的拼接與基于特征的拼接。基于像素的方法將圖像的所有像素強度相互比較,對于場景移動問題健壯性差,速度也相比于基于特征的方法更慢。基于特征的方法雖然自動發現無序圖像集之間的重疊關系,但是嚴重依賴于特征等信息,并且其特征檢測器的選擇取決于問題本身,不同的特征器在不同場景下存在的問題也不同,比如特征計算時間長、性能差等問題。
1.2.2 基于DL的方法
為了解決傳統方法中的不足,提出了基于DL的圖像拼接技術。相較于傳統算法,基于DL的圖像拼接算法可以為圖像處理提供更高效、精準的解決方案。如表2所示,整理了關于傳統圖像拼接與DL圖像拼接的優缺點,為后續研究提供了參考。
1.3 圖像矩形化方法對比
圖像拼接技術在獲得大視場的同時,也因為視角投影帶來了不規則的邊界問題。研究發現,藝術家與普通用戶通常更喜歡矩形邊界[14]。
1.3.1 傳統的矩形化方法
為了獲得矩形邊界,傳統矩形化通常采用裁剪與圖像補全的方法,但這種方法丟失了更多的原始內容信息。圖像補全[15,16]可以根據圖像中完整區域的信息對缺失區域進行填充,當缺失區域較小或紋理結構簡單時,這種方法的效果較好,但當缺失區域較大或紋理結構高度復雜時,得到的填充區域會存在嚴重的內容失真。此外,通過圖像補全技術獲得的矩形圖像可能會增加一些看似合理但不現實的信息,這在實際應用中非常危險。
1.3.2 基于DL的矩形化方法
與傳統方法不同,基于DL圖像矩形化技術不引入任何額外的虛假內容信息,只是在原始內容信息的基礎上通過網格畸變將拼接后的圖像扭曲成矩形圖像,并獲得了令人滿意的效果。表3整理了關于傳統圖像矩形化與DL圖像矩形化的優缺點,為了后續研究提供參考。
2 基于DL的單應性估計
單應是兩個空間之間的映射,通常用來表示同一場景的兩個圖像之間的對應關系,是兩個圖像中點之間的非奇異線性關系。DL為單應性估計帶來了新的靈感,無須人工干預即可實現全自動單應性估計。首先,在基于學習的圖像校準中總結了幾種廣泛使用的學習策略,即基于有監督的單應性估計和無監督的單應性估計;接著,回顧了一些最新使用的網絡架構以及經典模型。
2.1 學習策略
2.1.1 有監督
Detone等人[20]在2016年首次提出了一種有監督DL卷積神經網絡(HomographyNet)來估計一對圖像之間的相對單應性,輸入兩張圖,它直接產生兩幅圖像之間的同形關系。Le等人[21]填補了在動態場景下單應性研究的不足,提出了一個多尺度神經網絡。Nowruzi等人[22]提出了一個雙卷積回歸網絡的層次來估計一對圖像之間的單應性,通過簡單模型的分層排列,實現了更高性能。Wang等人[23]使用卷積神經網絡提高給定圖像對的單應性估計的準確性。通過采用受立體匹配工作啟發的空間金字塔池化模塊[24],利用圖像的上下文信息,提高卷積部分的特征提取性能力。Nie等人[25]提出了一個大基線DL單應性模型,用于估計不同特征尺度下參考圖像和目標圖像之間的精確投影變換,其中大基線[26]是中小基線的相對概念,但由于合成圖像中缺乏真實的場景視差,其泛化能力受到限制。最近的一些工作[27~31]使用真實世界的場景建立了訓練數據集,并用手動注釋標記捕獲的圖像,從而促進了這一研究領域的發展。
2.1.2 無監督
由于合成圖像中缺乏真實的場景視差,其泛化能力受到限制。為了解決這個問題,Nguyen等人[32]第一個提出了一種無監督解決方案,最大限度地減少了真實圖像對上的光度損失。該模型估計了沒有投影標簽的配對圖像的單應性矩陣,通過減少無須地面實況數據的逐像素強度誤差,使UDHN[32]優于以前的監督學習技術。所提無監督算法在保證精度和對光照波動的魯棒性的同時,還可以實現更快的推理。受這項工作的啟發,越來越多的方法利用無監督學習策略來估計單應性,如CA-UDHN[26]、RISNet[33]、BaseHomo[34]、HomoGAN[35]和文獻[36]。
2.2 網絡架構
2.2.1 基于CNN
大多數基于DL的單應性估計方法使用基于CNN的網絡架構作為主干網絡,從最早的基于DL的單應性估計[20],使用VGGNet[37]作為骨干,到最先進的方法[22,25,30],與傳統的基于特征的方法相比具有更強的魯棒性。在學習范式方面,無論使用有監督學習還是無監督學習,CNN強大的特征提取能力都是促進基于DL的單應性估計領域進步的原因。
2.2.2 基于CNN+Transformer
注意力是為了模仿人類感知的機制而建立的,主要集中在關注突出部分[28,29]。由于現有的單應性估計方法沒有明確考慮跨分辨率問題,忽略了輸入圖像與特征之間對應關系的顯式表述。為了解決此問題,Shao等人[38]提出了一種用于交叉分辨率單應性估計的監督Transformer。針對不同的任務,提出了一種具有局部注意力的Transformer。
2.2.3 基于GAN+Transformer
由于現有的單應性估計方法沒有明確考慮平面誘導視差的問題,這將使預測的單應性在多個平面上被破壞。為了解決此問題,Hong等人[35]提出了一種專注于主導平面的基于無監督學習的單應性估計模型。針對不同的任務,提出了一種具有局部注意力的Transformer。
表4整理了2016—2022年DL單應性估計方法,根據有無真實標簽可分為有監督和無監督兩類,根據網絡架構可分為基于CNN、基于Transformer與基于GAN的方法,還可根據網絡架構是否級聯與視圖場景視差大小進行分類。
從經典方法[20,22]到先進的方法[29,35],大多數單應性估計方法都傾向于使用監督學習策略來訓練其網絡,但是人工注釋很容易出錯,導致注釋質量不一致或包含受污染的數據,增加了構建數據集的復雜性和成本,而增加訓練數據集以提高性能可能具有挑戰性,并且合成圖像中缺乏真實的場景視差,其泛化能力也受到限制,因此無監督方法逐漸被重視。
從表4可知,大部分網絡都采用了基于CNN的方法在特征域上進行單應性估計,但是基于CNN的網絡結構對于處理復雜問題適應性不是很強,沒有明確考慮平面誘導視差問題,這將使預測的單應性在多個平面上受到影響。于是,逐漸引入了注意力機制與GAN來處理復雜問題。比如,HomoGAN提出了一種新的方法來引導無監督單應性估計集中在優勢面上,設計了一個多尺度Transformer網絡,以粗到精的方式從輸入圖像的特征金字塔中預測單應性。
2.3 經典單應性估計模型
2.3.1 首個有監督DL單應性網絡
圖1[20]是第一個有監督DL圖像單應性估計結構。
該網絡采用VGG作為主干網絡,以兩張堆疊的灰度圖像作為輸入,輸出4點偏移量用于單應性矩陣求解,可用于將像素從第一張圖像映射到第二張圖像。該方法存在以下優點:a)無須單獨的局部特征檢測和轉換估計RNNz2lO8Xror7iwsSFV/a+oU5Hqp4MlyxTJegSCtmsU=階段;b)采用端到端的方式,縮減了人工預處理和后續處理,使模型從原始輸入到最終輸出,給模型更多可以根據數據自動調節的空間,增加模型的整體契合度;c)設計并實現了回歸單應性網絡與分類單應性網絡。
該方法存在以下缺點:網絡通過多層的卷積的疊加,整體架構比較簡單,只能處理簡單的一個平面到一個平面的單應性估計問題,因此算法適應性不強。
2.3.2 首個大基線深度單應性網絡
如圖2[25]所示,為了以靈活的學習方式拼接任意視圖和輸入大小的圖像,Nie等人[25]提出了基于大基線DL單應性的邊緣保留圖像拼接學習方法,在一定程度上解決了固定視圖和輸入大小限制對單應性估計的影響。該方法存在以下優點:a)針對單應性估計算法適應性不強的問題,采用級聯式網絡,以更快的速度預測圖像的單應性,具有更為復雜的網絡結構,在復雜場景下具有更好的單應性估計效果;b)所提學習框架可以縫合任意視圖和輸入大小的圖像,從而有助于在其他真實圖像中表現出出色的泛化能力。該方法存在以下缺點:a)在圖像拼接任務上的性能可能受到輸入圖像的特征點密度和分布的影響;b)在圖像拼接的過程中,可能會出現邊緣不連續的問題,需要進一步優化方法以解決上述問題。
2.3.3 跨分辨率DL單應性估計網絡
單應性估計可以輸入包括不同分辨率的圖像,如圖3[38]所示。LocalTrans[38]在分辨率差距高達10倍的跨分辨率情況仍然下實現了卓越的性能。該方法將交叉分辨率單應性估計視為一個多模態問題,并提出了一個嵌入在多尺度結構中的局部變壓器網絡來顯式學習多模態輸入之間的對應關系。該方法存在以下優點:a)提了一種新穎的多尺度局部變換網絡,為解決差分分辨率問題在同分辨率圖像對齊中提供了有效的方法;b)通過將局部注意力核心(LAK)嵌入到多尺度結構中,從而能夠在長短距離范圍內捕捉對齊關系。該方法存在以下缺點:在真實場景的數據集上處理復雜場景時,其性能還待進一步探究。
3 基于DL的圖像拼接
單應性估計是一個完整拼接算法里面的第一步,通過單應性估計[26,35,40]扭曲后得到配準后的圖像,還需要將對齊后的圖像進行拼接。由于這些扭曲中的大多數使用單應性正則化將扭曲平滑地外推到非重疊區域,所以不可避免地受到投影失真的影響而出現重影。為了消除拼接圖像中的重影,已經提出了許多方法。根據是否進行接縫預測,將其分為非接縫縫合和接縫驅動縫合;根據學習策略可將其分為有監督方法與無監督方法。
3.1 拼接方式
3.1.1 非接縫縫合
融合重影是由單應矩陣不能完美地對齊兩幅圖像這一事實引起的,通過盡可能地將目標圖像與參考圖像對齊來消除重影。APAP[36]在圖像中放置一個網格,并為每個網格估計局部單應變換模型。由于其優異的性能,該技術已被廣泛應用于圖像對齊。為了實現更好的對齊,Robust ELA[41] 結合了基于網格的模型和直接變形策略。為在低紋理環境保持良好的效果,Li等人[42]開發了一種雙特征扭曲模型用于圖像對齊,同時使用稀疏特征匹配和線對應。以上這些方法將圖像劃分為不同的區域,并計算每個不同區域的單應性矩陣。通過在這些區域上施加空間變化的扭曲,重疊區域被很好地對齊,重影顯著減少。但是,非接縫拼接方法在小視差圖像中表現良好,卻很難處理大視差圖像,這種方法會導致拼接圖像不佳。
3.1.2 接縫縫合
接縫縫合通過研究縫合扭曲圖像的最佳接縫來隱藏偽影。通過優化與接縫相關的成本,可以沿著接縫將重疊劃分為兩個互補區域,然后根據兩個區域形成縫合圖像來改善重影問題。接縫預測是接縫驅動拼接方法的基礎,Cheng等人[43]提出了第一個基于DL的接縫預測方法,結合了接縫形狀約束和接縫質量約束的選擇性一致性損失來監督網絡學習,將接縫預測轉換為掩模預測。為了進一步保持寬視差條件下的圖像結構,LPC[44]提出了一種利用線點一致性度量的接縫匹配策略。Liao等人[45]提出了一種新的迭代接縫估計方法,使用混合質量評價方法來評價接縫沿線的像素,接縫與之前的接縫相比發生了可以忽略不計的變化時,迭代完成,但在大視差時可能會失敗。Gao等人[5]提出選擇具有最高感知質量的接縫來評估單應性逆變換。Zhang等人[46] 提出了一種處理視差的局部拼接方法,僅從大致對齊的圖像中估計合理的接縫。ACIS[47]提出了一種四元數秩1對齊(QR1A)模型,同時學習最優接縫線和局部對齊。Lin等人[48]提出了一種接縫引導的局部對齊方法,該方法根據與當前接縫的距離自適應特征加權迭代地改進扭曲。Nie等人[7]提出了基于DL的接縫拼接,通過無監督學習無縫合成拼接圖像,但是存在邊界不清晰、生成的掩碼不連續等問題。
3.2 學習策略
3.2.1 有監督
隨著DL的快速發展,以大數BXWNAfbmen2HnTuLPaRYfg==據驅動的有監督學習在眾多計算機視覺課題中得到了廣泛研究,然而,DL圖像拼接技術仍處于發展階段。Nie等人[30]提出了一種基于全局單應性的視角自由的圖像拼接網絡,其首次在完整的DL框架中成功拼接了任意視圖的圖像,能夠處理從任意視圖捕獲的圖像,并且它可以盡可能地消除重影效應,但存在輸入規模固定、泛化能力弱的局限性。
3.2.2 無監督
在實際場景中,每個圖像域都有可能包含多個不同的深度層次,這與單應性的平面場景假設相矛盾。由于單一的單應性不能解釋不同深度級別的所有對齊,所以在縫合結果中經常存在重影效應。為了解決此問題,Nie等人[7]首次提出了無監督DL圖像拼接,重建圖像拼接特征,并認為重建拼接特征比重建像素級拼接圖更容易,隨后拼接特征被用來重建出拼接圖。2023年Nie等人[6]在之前的研究基礎上提出了用于無監督視差DL拼接的薄板樣條線運動學習來無縫合成圖像,該算法通過對齊和失真的聯合優化,實現了重疊區域的精確對齊和非重疊區域的形狀保持。
考慮到現有基于DL的拼接算法研究較少,本文在表5中總結了2013—2023年一些經典的圖像拼接方法(包括傳統圖像拼接方法與基于DL的圖像拼接方法),根據有無真實標簽可分為有監督和無監督兩類,根據網絡架構可分為基于CNN、基于圖卷積網絡(GCN)與基于其他的方法 ,并根據拼接方式、與視圖場景視圖大小進行分類。由表5可知,流行的圖像拼接方法[6~7,30,43]主要在于解決圖像重影問題。這些方法的最終目的都是通過一系列變化,使圖像更好地對齊,以緩解重影問題。
3.3 經典圖像拼接模型
3.3.1 首個無監督像素級重建拼接網絡
Nie等人[7]發現,重建拼接特征比重建像素級拼接圖更容易,因此提出了一個無監督深度圖像拼接的方法,通過設計一個無監督圖像重建網絡,來消除從特征到像素的偽影,如圖4[7]所示。
方法存在以下優點:a)通過特征域融合的方式,一定程度上消除了由于單應性估計不完全對齊導致的拼接后的圖像存在的重影問題;b)使用無監督的方式,在首個真實場景下的圖像拼接數據集上進行單應性估計與圖像拼接任務,并取得了很好的效果。該方法存在以下缺點:a)在圖像拼接過程中,對于低分辨率變形分支中,使用的編碼器與解碼器過于簡單,如果使用更復雜的網絡結構或許能增強圖像拼接的效率與效果;b)對于高分辨率精細分支,網絡始終處理高分辨率圖像,嚴重影響了處理速度,為了提高性能,可以對模型進行改進,比如先卷積縮放后的圖片,或者更換效果更好的網絡;c)在極大偏斜的場景中,因為重建能力有限,重建網絡可能會失敗。
3.3.2 基于DL的無監督接縫拼接網絡
傳統的拼接算法通常使用基于網格的多單應性方案[36],但它不能有效地并行加速,這意味著它不能用于DL框架[11]。為了克服這個問題,如圖5[6]所示,Nie等人[6]利用TPS變換[53]來實現有效的局部變形。該算法通過對齊和失真的聯合優化,實現了重疊區域的精確對齊和非重疊區域的形狀保持。如圖5所示,該方法存在以下優點:a)通過無監督學習對接縫驅動的合成掩模進行無縫合成,完全消除了由于單應性估計不完全對齊導致的拼接后的圖像存在的重影問題;b)引入了TPS策略進行扭曲點控制,替代了傳統的效率低下的多重單應性扭曲方式,同時保證了全局線性變換與局部非線性變形,實現了圖像與視差對齊。
該方法存在以下缺點:a)在圖像拼接過程中,缺少基于DL接縫的評價指標及定義;b)只是采用了簡單的U-Net進行接縫掩碼生成,缺乏對更為精細化的網絡對結果影響的探討;c)缺乏對最優接縫定義的探討;d)缺乏對非二值掩碼接縫質量評價的探討。
3.3.3 多光譜圖像拼接網絡
如圖6[52]所示,該方法實現了多視圖場景的多譜圖像之間的拼接,提出了一種基于空間圖推理的多光譜圖像拼接方法,首次將圖卷積網絡引入多光譜交叉視圖對齊和集成的關系建模中。該方法存在以下優點:a)通過空間圖推理方法有效地整合多光譜圖像,生成寬視場圖像;b)通過探討多光譜關系并利用圖卷積網絡,提高了多視角對齊和整合的性能;c)通過引入長距離縱橫一致性來提高空間和通道維度上的上下文感知,有助于多視角場景的整合和多光譜圖像的融合。
該方法存在以下缺點:a)由于在圖像重構過程中考慮到多光譜圖像信息,生成的寬視場圖像可能會呈現較低的鮮艷度;b)與可見光圖像相比,紅外圖像的引入可能導致生成的結果中的噪聲降低。
4 基于DL的圖像矩形化
圖像矩形化是圖像拼接的后處理任務,圖像拼接后難以避免地會存在邊界不規則、邊界缺失等情況,圖像矩形化技術則是在不引入任何額外的虛假內容信息,只是在原始內容信息的基礎上通過網格畸變將拼接后的圖像扭曲成矩形圖像。在矩形化過程中,采用網格局部扭曲的方法,通過對網格形變實現矩形化效果。根據扭曲的方式不同,此過程可以分為一階段扭曲與兩階段扭曲。
4.1 扭曲方式
4.1.1 兩階段
He等人[19]提出兩階段優化保線網格變形。然而,所提出的能量函數只能保留線性結構。考慮到直線可能在全景圖(ERP格式)中彎曲,Li等人[18]將保線能量項改進為保測地線能量項,但是這種改進限制了它在全景圖中的應用,并且測地線不能直接從拼接圖像中檢測到。Zhang等人[17]在統一優化中橋接了圖像矩形化和圖像拼接,但為了減少最終矩形結果的失真,他們對矩形形狀作出了妥協,轉而采用分段矩形邊界約束。
4.1.2 一階段
Nie等人[14]提出了一個簡單但有效的一階段學習基線,通過DL的方法來解決圖像在非線性對象的肖像和風景上存在明顯的失真問題,相較于兩階段,性能明顯提升。Liao等人[54]提出了一種方法來約束矩形圖像的非線性和非剛性變換,在內容與邊界上實現了魚眼圖像矩形化,但其邊界存在模糊現象。圖9(a)展示了傳統的基于兩階段扭曲的圖像矩形化基線[19],圖9(b)展示了基于DL的一階段扭曲圖像矩形化基線[11]。
考慮到現有基于DL的圖像矩形化研究剛剛起步,因此在表6中總結了2013—2022年來一些經典的圖像矩形化方法(包括傳統方法圖像矩形化方法與基于DL的圖像矩形化方法),根據有無真實標簽可分為有監督和無監督兩類,并根據矩形化方式、扭曲階段進行分類。
4.2 經典圖像矩形化模型
4.2.1 首個有監督圖像矩形化網絡
目前的圖像矩形化研究均為有監督學習的,尚無基于無監督學習的圖像矩形化研究。圖7[11]所示為首個有監督DL矩形化體系結構,通過一階段多扭曲的方式對網格進行扭曲,從而保證內容的完整性以及邊界的規則化。此方法存在以下優點:a)該方法通過扭曲的方式進行矩形化,因此不會引入與圖片信息不符合的內容;b)提出了一種由邊界項、網格項和內容項組成的綜合目標函數,保證在非線性場景中也具有良好的性能。此方法存在以下缺點:使用殘差漸進回歸策略在一定程度上會增加模型學習的負擔。
4.2.2 魚眼矩形化網絡
圖8[54]展示了在廣角鏡頭下的矩形校正網絡(RecRecNet)架構,將拼接后的廣角不規則圖像通過一系列變形方式,扭曲為規則的矩形化圖片。該方法存在以下優點:a)通過使用基于8-DoF(8-自由度)的課程來學習逐漸變形規則,在最終的矩形任務上提供快速收斂;b)通過一個薄板樣條(TPS)模塊來制定矩形圖像的非線性和非剛性變換,在非線性場景下也實現了良好的效果,具有良好的場景泛化能力。該方法存在以下缺點:a)在訓練過程中,RecRecNet可能需要大量的數據來學習復雜的結構逼近任務;b)DoF-based(基于自由度)課程學習可能在其他領域的應用中需要對課程結構進行調整以適應新的任務需求;c)在某些情況下,RecRecNet 可能需要更多的訓練時間來學習更復雜的變形規則。
4.2.3 首個端到端矩形化集成網絡
RDISNet方法不同于以往的圖像矩形化方法,而是通過端到端的方式,在學習顏色一致性和保持內容真實性的同時,直接將兩幅圖像拼接成一個標準的矩形圖像,如圖9[55]所示。該方法存在以下優點:a)設計了一個擴大RDISNet接收場景的擴展的BN-RCU模塊,以維護拼接圖像中大物體的結構特征;b)RDISNet是首次將圖像拼接和矩形處理整合成一個端到端的過程,同時學習圖像對的顏色一致性。該方法存在以下缺點:a)可能無法完全涵蓋自然圖像中的豐富內容信息;b)由于該算法是在合成數據集上進行的實驗,所以在真實數據集上可能會出現一定程度的失真;c)在處理大偏斜角度的圖像時,可能無法完全保留圖像的內容和真實性;d)在處理具有不同光照條件的圖像時,可能會出現白邊,從而影響模型的性能。
5 數據集匯總
由于應用場景的不同,圖像拼接數據集的構建方式也各異。有的需要人工標注(如在有監督單應性估計訓練中標注配對圖像之間的相對位置關系),有的需要剔除不滿足要求的圖像(如在圖像矩形化中標簽的標注需要剔除嚴重形變圖像)。為了便于學者的研究,本文整理了近些年來在基于DL的圖像拼接領域研究中的相關數據集(單應性估計、圖像拼接、圖像矩形化常用的數據集),如表7所示。
6 結束語
1)研究總結
本文梳理了圖像拼接研究領域的三個重要分支(單應性估計、圖像拼接/融合、圖像矩形化)的相關研究進展。在對比分析各個分支研究中傳統算法與基于DL算法各自的優劣情況后,就基于DL的圖像拼接研究進行了進一步細化整理。探究了其在單應性估計、圖像拼接、圖像矩形化三個分支研究中的方法分類、經典網絡回顧以及當前所存在的問題。最后,本文還整理了相關的數據集,以便為該領域的研究提供指導。具體來說,本文的研究總結如下:
a)本文對比分析了圖像拼接中多個研究分支中傳統算法與基于DL的算法之間的各自優缺點,發現基于DL的算法在低紋理、低光照等場景具有更好的性能表現。此外,在運行速度等方面也具有一定的優勢,具有較好的研究前景。
b)本文整理分析了各個研究分支中的模型設計出發點(如是否使用監督學習、網絡架構設計、適用場景等)及一些經典網絡的優缺點,為圖像拼接領域后續研究工作的進一步開展提供了參考。
c)本文整理了各項算法的代碼開源情況,數據集使用情況等相關信息,為該領域的研究提供了指導方向。
d)單應性估計研究主要采用4點偏移量預測的方法進行網絡設計;單應性估計網絡主要以級聯網絡的方式進行設計,可以實現4點偏移量的逐步回歸,取得了較好的性能表現,但是存在響應效率問題;掩碼模塊的設計可解決含有運動物體的場景對齊;局部網格扭曲具有較好的對齊表現,但是存在一定的形變失真問題。
e)圖像拼接/融合研究主要可分為特征級融合重構和接縫掩碼拼接兩種方式。像素級融合可一定程度消除在單應性估計中帶來的重影錯位問題,但會造成一定的模糊現象且不能完全解決該問題;接縫掩碼拼接的方式取得了較好的視覺感知表現,但是最優接縫的度量仍有所缺陷。
f)圖像矩形化研究可解決圖像拼接帶來的邊界不規則問題。目前基于DL的研究剛剛起步,僅存在有監督學習方式的矩形化網絡,無監督網絡仍有待探索。此外,矩形化結果仍存在少許的局部斷線等問題有待被解決。
2)未來挑戰
作為計算機視覺的一項至關重要的任務,圖像拼接在過去的幾十年中得到了廣泛的研究。將DL技術引入圖像拼接領域,帶來了圖像拼接相關研究的再一次繁榮,但是同時它也帶來了一些新的挑戰。具體如下:
a)多模態圖像拼接以及在交叉任務上應用圖像拼接技術的研究剛剛興起,仍有待進一步更近,以便更好地挖掘圖像拼接的潛在價值。
b)在單應性估計過程中,級聯式網絡的設計具有逐步回歸的好處,但是當級聯層數達到一定閾值后,網絡性能將變得不穩定,其內在原理仍不明朗。
c)現有基于DL的圖像拼接技術主要采用了全局單應性和規則網格的局部單應性進行圖像配準工作,但是由于圖像存在景深的差異,在配準過程中往往難以實現重疊區域的全部像素對齊。此外,規則網絡并不能充分地在不同景深進行對齊。探索超像素分割的不同景深對齊方法仍有待開展。
d)當前的圖像拼接研究主要集中于成對圖像之間的拼接研究工作,對于多幅圖像之間的拼接仍主要采用逐步堆疊的方式,這不可避免會帶來累積誤差的問題。因此,探索多幅圖像之間的全局最佳對齊位置的配準研究仍有待跟進。
e)當前的圖像拼接研究主要側重于單一視覺任務,如大視差、運動圖像配準等研究,目前尚無統一框架的出現。探索圖像拼接的通用框架的研究仍有待開展。
f)一個實用拼接算法不僅應考慮其配準及拼接性能表現,還應從算法的可移植性、運行速率、資源占用量以及輕量化的移動端表現等方面進行綜合度量。因此,在后續研究中可從多個方面進行整體度量。
g)圖像矩形化任務主要以內容保真的形式拉伸圖像以得到規則的圖形邊界,可以解決扭曲失真并避免生成網絡所帶來的偽信息,其潛在價值及更多的應用場景仍有待進一步探究。
h)能夠一步實現圖像拼接三個子任務的端到端的網絡仍有待被進一步探究,以解決現有網絡參數量龐大、運行效率低等問題。
參考文獻:
[1]Li Desheng, He Qian, Liu Chunli, et al. Medical image stitching using parallel sift detection and transformation fitting by particle swarm optimization[J]. Journal of Medical Imaging and Health Informatics, 2017,7(6): 1139-1148.
[2]Li Jia, Zhao Yifan, Ye Weihua, et al. Attentive deep stitching and quality assessment for 360°omnidirectional images[J]. IEEE Journal of Selected Topics in Signal Processing, 2019,14(1): 209-221.
[3]Wang Lang, Yu Wen, Li Bao. Multi-scenes image stitching based on autonomous driving[C]//Proc of the 4th IEEE Information Technology, Networking, Electronic and Automation Control Conference. Piscataway, NJ: IEEE Press, 2020: 694-698.
[4]Anderson R, Gallup D, Barron J T, et al. Jump: virtual reality video[J]. ACM Trans on Graphics, 2016,35(6): 1-13.
[5]Gao Junhong, Li Yu, Chin T J, et al. Seam-driven image stitching[EB/OL]. (2013). https://api.semanticscholar.org/CorpusID:18578917.
[6]Nie Lang, Lin Chunyu, Liao Kang, et al. Parallax-tolerant unsupervised deep image stitching[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2023: 7365-7374.
[7]Nie Lang, Lin Chunyu, Liao Kang, et al. Unsupervised deep image stitching: reconstructing stitched features to images[J]. IEEE Trans on Image Processing, 2021,30: 6184-6197.
[8]Dong Chao, Loy C C, He Kaiming, et al. Learning a deep convolutional network for image super-resolution[C]//Proc of the 13th European Conference on Computer Vision. Cham: Springer, 2014: 184-199.
[9]Liu Ze, Lin Yutong, Cao Yue, et al. Swin Transformer: hierarchical vision Transformer using shifted windows[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 9992-10002.
[10]Szeliski R. Image alignment and stitching: a tutorial[J]. Foundations and Trends in Computer Graphics and Vision, 2007, 2(1):1-104
[11]Adel E, Elmogy M, Elbakry H. Image stitching based on feature extraction techniques: a survey[J].International Journal of Compu-ter Applications, 2014,99(6): 1-8.
[12]Lyu Wei, Zhou Zhong, Lang Chen, et al. A survey on image and video stitching[J].Virtual Reality & Intelligent Hardware, 2019,1(1): 55-83.
[13]Liao Kang, Nie Lang, Huang Shujuan, et al. Deep le1dfd02c7be1e12f2501b56f79281697905e57853cc110e7756d7b12d24aff934arning for ca-mera calibration and beyond: a survey[EB/OL]. (2023-03-19). https://arxiv.org/abs/2303.10559.
[14]Nie Lang, Lin Chunyu, Liao Kang, et al. Deep rectangling for image stitching: a learning baseline[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 5730-5738.
[15]Krishnan D, Teterwak P, Sarna A, et al. Boundless: generative adversarial networks for image extension[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2019: 10520-10529.
[16]Suvorov R, Logacheva E, Mashikhin A, et al. Resolution-robust large mask inpainting with Fourier convolutions[C]//Proc of IEEE/CVF Winter Conference on Applications of Computer Vision.Pisca-taway, NJ: IEEE Press, 2022:3172-3182.
[17]Zhang Yun, Lai Y K, Zhang F L. Content-preserving image stitching with piecewise rectangular boundary constraints[J].IEEE Trans on Visualization and Computer Graphics, 2020,27(7): 3198-3212.
[18]Li Dongping, He Kaiming, Sun Jian, et al. A geodesic-preserving method for image warping[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2015: 213-221.
[19]He Kaiming, Chang Huiwen, Sun J. Rectangling panoramic images via warping[J].ACM Trans on Graphics, 2013,4(32):1-10.
[20]Detone D, Malisiewicz T, Rabinovich A. Deep image homography estimation[EB/OL]. (2016-06-13). https://arxiv.org/abs/1606.03798.
[21]Le H, Liu Feng, Zhang Shu, et al. Deep homography estimation for dynamic scenes[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 7649-7658.
[22]Nowruzi F E, Laganiere R, Japkowicz N. Homography estimation from image pairs with hierarchical convolutional networks[C]//Proc of IEEE International Conference on Computer Vision Workshops. Piscataway, NJ: IEEE Press, 2017: 904-911.
[23]Wang Xiang, Wang Chen, Bai Xiao , et al. Deep homography estimation with pairwise invertibility constraint[C]//Proc of Joint IAPR International Workshop on Structural, Syntactic, and Statistical Pattern Recognition. Cham: Springer, 2018: 204-214.
[24]Chang Jiaren, Chen Yongsheng. Pyramid stereo matching network[C]//Proc of IEEE Conference on Computer Vision and Pattern Re-cognition. Piscataway, NJ: IEEE Press,2018: 5410-5418.
[25]Nie Lang, Lin Chunyu, Liao Kang, et al. Learning edge-preserved image stitching from large-baseline deep homography[EB/OL]. (2020-12-11). https://arxiv.org/abs/2012.06194.
[26]Zhang Jirong, Wang Chuan, Liu Shuaicheng, et al. Content-aware unsupervised deep homography estimation[EB/OL]. (2020-07-20). https://arxiv.org/abs/1909.05983.
[27]Nie Lang, Lin Chunyu, Liao Kang, et al. Depth-aware multi-grid deep homography estimation with contextual correlation[J]. IEEE Trans on Circuits and Systems for Video Technology, 2022, 32(7): 4460-4472.
[28]Jiang Hai, Li Haipeng, Lu Yuhang, et al. Semi-supervised deep large-baseline homography estimation with progressive equivalence constraint[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press, 2023: 1024-1032.
[29]Cao S Y, Hu Jianxin, Sheng Zehua, et al. Iterative deep homography estimation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 1869-1878.
[30]Nie Lang, Lin Chunyu, Liao Kang, et al. A view-free image stitching network based on global homography[J].Journal of Visual Communication and Image Representation, 2020,73: 102950.
[31]Zhao Yajie, Huang Zeng, Li Tianye, et al. Learning perspective undistortion of portraits[C]//Proc of IEEE/CVF International Confe-rence on Computer Vision. Piscataway, NJ: IEEE Press, 2019: 7848-7858.
[32]Nguyen T, Chen S W, Shivakumar S S, et al. Unsupervised deep homography: a fast and robust homography estimation model[J].IEEE Robotics and Automation Letters, 2018,3(3): 2346-2353.
[33]朱永, 付慧, 唐世華, 等. RISNet: 無監督真實場景圖像拼接網絡[J]. 計算機應用研究, 2023, 40(9): 2856-2862. (Zhu Yong, Fu Hui, Tang Shihua, et al. RISNet: unsupervised real scene image stitching network[J]. Application Research of Computer, 2023,40(9): 2856-2862.)
[34]Ye Nianjin, Wang Chuan, Fan Haoqiang, et al. Motion basis lear-ning for unsupervised deep homography estimation with subspace projection[C]//Proc of IEEE/CVF International Conference on Compu-ter Vision. Piscataway, NJ: IEEE Press, 2021: 13097-13105.
[35]Hong Mingbo, Lu Yuhang, Ye Nianjin, et al. Unsupervised homo-graphy estimation with coplanarity-aware GAN[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway, NJ: IEEE Press, 2022: 17642-17651.
[36]Zaragoza J, Chin T J, Tran Q H, et al. As-projective-as-possible image stitching with moving DLT[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2014,36(7): 1285-1298.
[37]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL]. (2015-04-10). https://arxiv.org/abs/1409.1556.
[38]Shao Ruizhi, Wu Gaochang, Zhou Yuemei, et al. LocalTrans: a multiscale local transformer network for cross-resolution homography estimation[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 14870-14879.
[39]Zhao Yiming, Huang Xinming, Zhang Ziming. Deep Lucas-Kanade homography for multimodal image alignment[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 15945-15954.
[40]Liu Shuaicheng, Ye Nianjin, Wang Chuan, et al. Content-aware unsupervised deep homography estimation and its extensions[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2022, 45(3): 2849-2863.
[41]Li Jing, Wang Zhengming, Lai Shiming, et al. Parallax-tolerant image stitching based on robust elastic warping[J]. IEEE Trans on Multimedia, 2018, 20(7): 1672-1687.
[42]Li Nan, Xu Yifang, Wang Chao. Quasi-homography warps in image stitching[J]. IEEE Trans on Multimedia, 2018, 20(6): 1365-1375.
[43]Cheng Senmao, Yang Fan, Chen Zhi, et al. Deep seam prediction for image stitching based on selection consistency loss[EB/OL]. (2023-06-26). https://arxiv.org/abs/2302.05027.
[44]Jia Qi, Li Zhengjun, Fan Xin, et al. Leveraging line-point consistence to preserve structures for wide parallax image stitching[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition. Piscataway, NJ: IEEE Press, 2021: 12181-12190.
[45]Liao Tianli, Chen Jing, Xu Yifang. Quality evaluation-based iterative seam estimation for image stitching[J].Signal, Image and Video Processing, 2019,13: 1199-1206.
[46]Zhang Fan, Liu Feng. Parallax-tolerant image stitching[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2014: 3262-3269.
[47]Li Jiaxue, Zhou Yicong. Automatic color image stitching using quaternion rank-1 alignment[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 19688-19697.
[48]Lin Kaimo, Jiang Nianjuan, Cheong L F,et al. SEAGULL:seam-guided local alignment for parallax-tolerant image stitching[C]//Proc of the 14th European Conference on Computer Vision. Cham:Springer, 2016: 370-385.
[49]Li Shiwei, Yuan Lu, Sun Jian, et al. Dual-feature warping-based motion model estimation[C]//Proc of IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2015: 4283-4291.
[50]Lin C C, Pankanti S U, Ramamurthy K N, et al. Adaptive as-natural as-possible image stitching[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2015: 1155-1163.
[51]Zhang Guofeng, He Yi, Chen Weifeng, et al. Multi-viewpoint panorama construction with wide-baseline images[J]. IEEE Trans on Image Processing, 2016, 25(7): 3099-3111.
[52]Jiang Zhiying, Zhang Zengxi, Liu Jinyuan, et al. Multi-spectral image stitching via spatial graph reasoning[C]//Proc of the 31st ACM International Conference on Multimedia. New York:ACM Press, 2023:472-480.
[53]Bookstein F L. Principal warps: thin-plate splines and the decomposition of deformations[J].IEEE Trans on Pattern Analysis and Machine Intelligence, 1989,11(6): 567-585.
[54]Liao Kang, Nie Lang, Lin Chunyu, et al. RecRecNet: rectangling rectified wide-angle images by thin-plate spline model and DoF-based curriculum learning[EB/OL]. (2023-09-05). https://arxiv.org/abs/2301.01661.
[55]Zhou Hongfei, Zhu Yuhe, Lyu Xiaoqian, et al. Rectangular-output image stitching[C]//Proc of IEEE International Conference on Image Processing. Piscataway, NJ: IEEE Press, 2023: 2800-2804.
[56]Xiao Jianxiong, Ehinger K A, Oliva A, et al. Recognizing scene viewpoint using panoramic place representation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2012: 2695-2702.
[57]Lin T Y, Maire M, Belongie S, et al. Microsoft COCO: common objects in context[C]//Proc of the 13th European Conference on Computer Vision. Cham :Springer, 2014: 740-755.
[58]Huang P H, Matzen K, Kopf J, et al. DeepMVS: learning multi-view stereopsis[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 2821-2830.
[59]Weyand T, Araujo A, Cao Bingyi, et al. Google landmarks dataset v2-a large-scale benchmark for instance-level recognition and retrieval[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 2572-2581.
[60]Caesar H, Bankiti V, Lang A H, et al. nuScenes: a multimodal dataset for autonomous driving[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 11618-11628.