999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

特征融合網絡:多通道信息融合的光場深度估計

2021-01-11 13:42:32張旭東
圖學學報 2020年6期
關鍵詞:深度特征融合

何 也,張旭東,吳 迪

特征融合網絡:多通道信息融合的光場深度估計

何 也,張旭東,吳 迪

(合肥工業大學計算機與信息學院,安徽 合肥 230009)

光場相機可以僅在一次拍攝中記錄場景的空間和角度信息,所生成的圖像與傳統二維圖像相比包含了更多的信息,在深度估計任務方面更具有優勢。為了利用光場圖像獲取高質量的場景深度,基于其多視角的表征方式,提出了一種具有多通道信息高效融合結構的特征融合網絡。在人為選擇特定視角的基礎上,使用不同尺寸卷積核來應對不同的基線變化;同時針對光場數據的多路輸入特點搭建了特征融合模塊,并利用雙通道的網絡結構整合神經網絡的前后層信息,提升網絡的學習效率并減少信息損失。在new HCI數據集上的實驗結果顯示,該網絡在訓練集上的收斂速度較快,可以在非朗伯場景中實現精確的深度估計,并且在MSE指標的平均值表現上要優于所對比的其他先進的方法。

光場;深度估計;卷積神經網絡;特征融合;注意力;多視角

在計算機視覺領域中,深度反映了場景的三維空間信息,是超分辨率重建、目標識別、語義分割、顯著性檢測等計算機視覺任務的基礎。因此,深度估計的研究對目前計算機視覺領域的發展具有重要的意義。傳統的手持相機成像方式是在一個固定的視點采集場景的信息,生成的圖片中不直接包含深度信息,依靠此類圖片估計出可靠的深度信息不僅困難,而且很難滿足對精確度的要求。與傳統的手持相機結構不同,光場相機[1]在主透鏡與傳感器之間放置了一個微透鏡陣列。得益于其特殊的光學結構,光場相機可以捕獲場景中多個角度的光線,使用者在后續不僅可以自由選擇焦點和視角生成圖像,還可以根據不同的信息整合規則生成不同性質的圖像,如多視角和EPI(epipolar plane image)圖像等,這些成像形式所包含的信息要比單目成像更加豐富,為進一步的處理提供了有效的數據基礎。

近年來光場的深度估計主要分為傳統方法和深度學習方法。常用的傳統方法主要有基于多視角匹配的方法和EPI方法。光場的多視角匹配的方法由單目圖像的立體匹配發展而來,其優勢在于光場可以使用多個視角的約束,且基線大小固定,無需人為標定[2]。WILLIEM等[3]針對場景的遮擋以及噪聲問題,設計了一種角度熵約束(constrained angular entropy cost)實現了對遮擋物的預測,提升了算法對噪聲的魯棒性,但是該方法在物體的邊界效果一般;STRECKE等[4]使用多視角焦堆棧構建匹配成本量,并針對多標簽深度優化深度值不連續問題設計正則化優化方法,提升深度值預測的平滑性,雖然可以提升曲面情況下深度估計的效果,但對某些深度不連續的場景效果較差;GUO等[5]使用多方向部分角相干性來實現精確的深度估計,從而顯式地處理場景遮擋,然而如果遮擋不在選取方向上,就無法得到正確預測。EPI方法則是主要使用EPI圖像或者借助EPI特性來估計深度信息,其圖像是一種適用于光場的特定表征形式,成像依據是利用光場的幾何特性,可以在一個2D的切片中同時包含角度和空間信息[6]。SHENG等[7]提取多視角中所有方向的EPI特性,以解決場景中的遮擋問題,該方法缺點是和單方向的EPI方法相比計算量巨大;SCHILLING等[8]基于EPI圖像使用了直接結合深度與遮擋的模型,并提出了一種局部優化方案,不僅提升對物體邊界預測準確度,也對平滑曲面的預測有效,但是局部優化在處理全局類型的特征時不能保證精確度。ZHANG等[9]在2D EPI中集成旋轉平行四邊形算子,通過最大化平行四邊形窗口的2個部分之間的分布距離來測量EPI斜率,以改善基于EPI的方法對強遮擋與噪聲不魯棒的特點,然而該方法的提升僅限于對比基于EPI的傳統方法,并不能克服EPI本身的幾何特性造成的限制。傳統方法的局限在于只在特定問題的處理上面效果優秀,推廣到其他情形上時則無法表現出優勢,并且傳統方法主要是依靠人的先驗知識進行模型設計,算法通常較復雜,需要時間較長。

與傳統方法不同,基于深度學習方法的光場深度估計并不解決場景的某一類特定問題,研究人員只要提供充足的訓練數據以及設計適當的網絡,就可以得到精確且魯棒的深度估計結果。因此要想提升算法的性能,除了使用資源豐富的數據集,還需要考慮更為有效的網絡結構。近年來大量文獻主要使用卷積神經網絡(convolutional neural networks, CNN)對場景進行像素級的預測。HEBER等[10]建立了一個U型編碼-解碼網絡結構來預測光場的幾何信息,在低計算量前提下獲得了精確的結果,但是對于數據的預處理不夠精確;JOHANNSEN等[11]則基于光場的EPI圖像,使用了一種特殊設計的稀疏分解來得到EPI中的深度-方向關系,該方法優勢在于對場景中的反射或透明表面的深度也可以有效預測,然而由于對數據的使用仍然只局限于水平和垂直方向的EPI圖像,導致網絡學習到的信息不夠充分。SHIN等[12]在光場的多視角陣列中按照EPI特性提取了4個順序的圖像,相比較于2個方向的選取,該預處理方式加強了視角保留的信息,從而在深度估計上取得優秀的效果。但是該網絡在融合輸入信息時僅僅做了堆疊處理,無法高效利用不同通道的信息,此外在主網絡只使用了簡單的CNN結構。

為了在現今有限的數據基礎上,實現魯棒且精確的深度估計,本文受EPINET[12]啟發,設計了一種實現多通道信息融合的特征融合網絡FANET (feature assigning network),首先基于EPI特性排列多視角數據作為網絡的輸入,并設計不同尺寸卷積核來應對不同視角的基線變化;之后基于注意力機制設計了輸入特征融合模塊(feature assigning block,FA_block),對網絡的輸入進行加權融合,使后續的網絡可以充分利用不同通道間的信息;最后使用前后層連接的結構設計卷積層主網絡DCNET (double-channel network),減少因多層卷積引起的紋理和細節信息的損失。對比以往的深度學習的方法,本文的方法優勢主要如下:

(1) 根據光場的EPI特性排列多視角序列,并根據相鄰視角的基線不同使用不同大小的卷積核提取特征,在保留有效信息的同時降低數據的冗余度;

(2) 基于注意力加權思想設計了特征融合模塊FA_block,使網絡在多通道融合時自適應調整學習的比重;

(3) 搭建前后特征層聯合的網絡DCNET,減少了因網絡層數加深帶來的信息損失。

本文在new HCI光場數據集上進行了對比實驗,并分析了網絡的各部分對整體性能的影響。通過對比實驗可以證明,本文方法可以有效提升最終深度估計的效果。

1 本文方法

本文的網絡整體流程圖如圖1所示。網絡整體分為3個部分,分別為輸入層的四通道輸入用于提取視角的EPI特性并降低數據冗余,融合層的FA_block融合模塊用于四通道特征融合,以及網絡主體部分的DCNET學習場景深度。其中輸入層依據EPI特點排列多視角對數據預處理并調整卷積核大小來適應不同視角的基線變化,在融合層針對不同的輸入特征進行注意力機制加權,最后在卷積層結合多層特征連接的結構學習場景的深度信息。網絡特點為:①在網絡的支路層上自主加權,增強網絡主體的信息利用率;②采用雙通道網絡結構連接前后特征,減少逐層連接方式下的信息損失。后續小節對每個模塊的細節分別進行討論。

1.1 基于EPI特性的四通道輸入

對光場數據輸入方式的選取相當于對信息的初步篩選,可以突出數據的某些關鍵信息使之更利于網絡的學習。因為光場圖像比普通的圖像包含了更加豐富的信息,如果不進行預處理會有2個問題:①龐大的數據量會加大學習的難度;②因為相鄰視角間的基線較窄,包含有大量的相同信息,給網絡增加了大量不必要的計算。因此,在去冗余的同時減少有效信息的丟失是選擇輸入方式的主要目標。文獻[12]依照EPI的單方向特性,在多視角陣列中按照同一排列的方向選取視角,一共選擇了4個方向的輸入,將原81個視角縮減到了33個(中心視角重復使用4次),大大減少了數據量,并且因為預先把同一方向的視角排列作為輸入,這就等于預先篩選出了視角間的EPI特性,降低了網絡的學習難度,使學習效率得到提升。但為了應對窄基線帶來的細微變化,該文獻使用了2×2的小卷積核,產生部分場景感受野不足的問題。為了解決該問題,本文在四通道的輸入基礎上,使用不同大小的卷積核。在水平和垂直方向的輸入,因為只有一個方向的變化,所以使用2×2的卷積核來提取特征;而在對角線方向上的相鄰視角間包含2個方向的變化,因此使用4×4的卷積核(圖2)。后續通過實驗驗證了此種方式的有效性,相關細節見2.4節。

圖1 算法整體流程圖

圖2 輸入視角選取方式和淺層特征提取的網絡結構

1.2 FA_block融合模塊

在經過卷積層提取特征之后,需要把4個通道的特征進行融合。目前最廣泛采用的方法就是直接連接特征。此種方式結構簡單,且無需引入額外參數。但缺點是沒有引入對特征層間關系的表述,僅僅交由后續的卷積層來學習,且每一層的權值都是一樣的,無法針對有效信息和冗余信息調整比重。HU等[13]于2017年提出了一種通道注意力機制模塊(squeeze and excitation block, SE_block),通過使網絡自主學習通道維度上面的權值在特征塊的通道維度上進行加權,該模塊不僅可以提升整體網絡的表現,并且可以與多種先進的網絡架構結合。WOO等[14]和LI等[15]把加權的思想擴展到了其他的維度(空間和卷積核)。本文基于該加權思想設計了一種適應于光場四通道輸入結構的融合模塊FA_block,對四通道輸入進行加權融合,提升后續網絡的效率(圖3)。

圖3 FA_block的網絡結構

FA_block基于加權的思想設計,通過對輸入的每一個支路加權融合,提高網絡的學習效率。模塊的特點是可以增大每一次學習到的權值的影響,提升學習效率,并且壓縮所需要學習的參數,減少計算量。該模塊主要包含5個部分:通道壓縮(Channel Squeeze)、空間壓縮(Spacial Squeeze)、門機制(Excitation)、擴展(Expand)和加權(Rescale)。設網絡模塊輸入輸出分別為

(1) 將輸入的特征在通道維度上壓縮,即

為了對每一個輸入所壓縮成的通道進行表達,需要對進行空間上的壓縮。使用平均池化,把每個通道的二維特征在空間維度上進一步壓縮,則每一個二維特征平面就被壓縮成1×1的單通道特征。相當于Squeeze操作,即

(2) 進行Excitation操作,通過簡單的門機制實現,使用sigmoid函數和relu,即

(3) 將擴展成4′大小的向量,即

其中,為擴張倍數,數值上等于壓縮操作前各支路的通道數,此處取=70,該步驟把中的每個通道復制70倍,再連接起來形成1×280的向量。

(4)再與模塊的輸入相乘加權,得到融合后的最終輸出,即

FA_block是為了針對光場數據的特殊處理方式而設計的結構,相比于SE_block,其有以下2個優勢:①SE_block需要在多個卷積層都添加模塊才能有較好的效果,而FA_block只需要設置在特征融合層就可以有效提升算法表現;②就單層對比而言,FA_block也僅僅只需要學習4個通道的權值,相比較于SE_block的全通道加權其學習成本也有所降低。單個的SE_block雖然在通道維度的權值學習具有較大的靈活性,但隨著層數疊加,單層上面的權值分配效果會被稀釋而無法對整體網絡產生明顯的效果。FA_block可以擴大網絡每一次學習到的權值的影響,降低網絡的學習成本。

1.3 DCNET網絡結構

在輸入的四通道特征融合之后,需要使用得到的特征塊進行視差估計。EPINET中使用“Conv- Relu-Conv-BN-Relu”結構的卷積塊堆疊7次,以獲得高質量的預測結果。HE等[16]和YE等[17]的工作證明在不同卷積層或不同網絡支路的信息互相補充可以有效緩解卷積操作帶來的信息丟失等問題,提升網絡的效果。而YU等[18]的工作指出,信息在網絡中傳遞時會有少量的丟失,而使高低層的特征間產生信息差異,具體表現為低層特征分辨率更高,主要包含了位置、細節等信息,但是語義性較低,噪聲更多;而高層特征分辨率較低,具有更強的語義信息,但細節、紋理信息較少,通過對不同層特征的整合可以帶來網絡性能的提升。受以上工作的啟發,本節設計了一種雙支路的網絡結構,把對應前后層的特征連接起來,加強前后卷積中的信息聯系,減少因卷積層數增加所帶來的信息損失。網絡的整體結構如圖4所示。

圖4 DCNET的網絡結構

DCNET共有2路網絡,其中支路的結構和EPINET相同,即“Conv-Relu-Conv-BN-Relu”結構的卷積塊堆疊7次。但該條支路并不作為網絡的最終輸出,本文在該支路每個卷積塊的后面單獨引出一個通道數壓縮減半的特征塊,分別與每個后層的特征塊直接連接起來,則主路的每一個卷積層都包含了支路中前、后兩部分信息,卷積核大小2×2,步長為1。后續實驗證明了該結構的優勢,具體細節見2.4節。

2 實驗結果及分析

為了驗證本文算法的效果,在new HCI光場數據集[19]的上面進行實驗,并對比了近三年光場深度估計方向的先進方法,分別定量與定性地分析了實驗結果。實驗PC主機配置為Core i7-3770k CPU 3.5 GHz×8 cores,NVIDIA GTX 1080 8 GB,系統是Ubuntu 16.04,使用的軟件為tensorflow-gpu 1.12.0,cudatoolkit 9.2和cudnn 7.3.1。

2.1 實驗數據集

實驗采用new HCI光場數據集。該數據集為目前最完善的光場圖像合成數據集,主要使用訓練和測試2個部分。其中訓練數據有16個場景,包含了各種不同的物體、紋理和材質。每一個場景下都有81個子視圖,相當于9×9的角度分辨率,每一個子視圖分辨率為512×512。同時為了消除反射和高光區域的影響,對其中非朗伯面場景做了標記處理。每一個場景都有對應深度圖(ground truth)用于監督學習。測試數據選取7個場景,如圖5所示??臻g和角度分辨率與訓練集相同,并也有相應的深度圖作為定量評判標準。

圖5 測試數據集的7個場景

2.2 數據增強與訓練細節

深度學習想取得較好的效果需要大量的數據支持,而new HCI數據集所包含的16個訓練場景對于學習的需求是不夠的,數據的不充足甚至可能會給網絡帶來過擬合問題。為了解決該問題,本文使用文獻[11]相似的方法對數據集進行了數據增強處理。包括EPI旋轉、縮放、翻轉、視角平移、色彩增強以及隨機顏色變換。

EPI旋轉與普通圖像的空間旋轉不同,光場的EPI圖像本身就包含了一維的角度信息,所以在子視圖進行旋轉的時候也要同時考慮方向的變化。本文第2節提到了EPI的使用是在多視角中選取一個方向的所有子視圖。因此,在二維旋轉的同時,還需要改變視角的通道變化(例如水平方向的通道輸入旋轉90°時,就變成了垂直方向的通道輸入),如圖6所示。

圖6 視角旋轉操作示意圖

除了旋轉增強外,本文還使用了尺度縮放(縮放系數=(1,2,3,4))和圖像翻轉,色彩增強(增強系數=(0.5,2)),隨機區域灰度變換[0,1]和伽馬值變換[0.8,1.2]。通過以上數據增強手段,可以在一定程度上彌補數據量不足的問題,提升網絡的學習效果。另外在對訓練數據進行增強時,對應的深度圖也要進行相應的變換才能保證訓練的正確。

2.3 實驗設置

訓練過程中將數據按照29×29大小的圖像塊分割后再進行批量訓練,每一批含有32個圖像塊,主網絡的卷積層濾波器大小為2×2,步長為1,在文獻[11]中已被驗證更適合處理光場相鄰視角間的窄基線問題。損失函數選擇MAE,該損失函數具有對異常值的魯棒性,可以在像素級預測中取得較好的效果。網絡的優化方法選擇Rmsprop,學習率設置為0.00001。

定量分析的評價指標選擇均方誤差MSE,計算公式為

其中,和分別為圖像的長和寬;d和分別為真實深度值和算法深度值。除了MSE,本文還觀察了各方法在閾值設定為0.07的條件下的壞像素分布圖,以對結果定性分析。

2.4 實驗分析

2.4.1 本文方法對比

本節以EPINET為基礎對網絡的各部分進行詳細的對比分析。首先對不同的輸入方式做了對比。實驗同時采用了全視角堆疊的輸入方式(Full views),半視角輸入(Half views,每2個視角中選取一個,相互間隔,視角數量減少到41個)與四通道輸入方式(4 Channels)做了對比,結果見表1,其中最好效果黑色加粗標注。

表1 不同輸入方式下的定量結果對比

由實驗結果可見,對于網絡的輸入信息并不是一味地越多越好,網絡的性能受所能學習的參數量、網絡各層之間的關系等因素制約。由半視角輸入和EPI輸入的對比中還可以發現,篩選視角的方式也很重要。EPI的輸入因為采用了一個方向上的視角固定排列,減少了角度變化的信息,所以提高學習效率。而半視角輸入降低了角度分辨率,同時加大了視角間的基線,因此效果比全視角輸入更差。這說明選擇合適的視角篩選方法的必要性。

表2的實驗是添加本文的各部分網絡之后與基準方法EPINET的對比4個場景下的結果,其中從上至下依次為:EPINET;EPI_2K (使用不同大小的卷積核,本文1.1節方法);EPI_2K+FAB (使用不同卷積核并添加FA_block,本文1.2節方法);EPI_2K+FAB+DC (使用不同卷積核、添加FA_block融合模塊以及DCNET,本文最終方法)。最后一列為4個場景下的平均值。最優結果黑色加粗標注,次優結果加下劃線。

表2 使用本文不同方法的定量結果對比

單獨考察各場景上的表現,在Cotton場景中,因為物體單一以及低紋理的特性,4種結構都取得了相近的結果,細微的數值差異可認為是在合理的誤差范圍內。而Dino和Sideboard物體稍多,其遮擋關系也較多一些,可以看出添加了FA_block的結構具有一定的提升,但是區分卷積核的方法以及使用DCNET仍然體現不出優勢。經過分析認為,區分卷積核是為了應對不同的基線變化,雙通道網絡則是為了降低淺層紋理特征的丟失,兩者都是應對細小特征的策略,所以在紋理復雜、遮擋細小且密集的場景中效果才會比較明顯。在擁有較復雜遮擋情況的Boxes和Backgammon中對比實驗結果,可以發現各部分網絡的效果都有所體現。此外觀察各場景上的平均值表現,可以進一步驗證本文方法的有效性。

2.4.2 與其他方法對比

本文的對比實驗基于new HCI數據集的7個測試集場景,分別定性與定量地分析壞像素分布圖和MSE指標。圖7和圖8分別為壞像素和MSE的定性結果(從上至下場景依次為:Cotton, Boxes, Dino, Sideboard, Stripes, Backgammon, Pyramids),其中圖7采用二值化顯示,BP>0.07顯示為紅色區域,否則為綠色;圖8中MSE的差值正負表現為從紅色向藍色區域逐漸過渡。對比方法中LF-PAC[5]和CAE[3]為基于多視角的深度估計方法,OFSY_330/DNR[4]使用的是焦堆棧來預測深度信息,SPO-MO[7],OBER-cross+ANP[8]是基于EPI的深度估計,以上方法均為傳統方法,FUSIONNET[20]是結合EPI特性與重聚焦線索的深度學習方法,EPINET[12]是basline方法,FANET為本文方法。表3為各方法在7個場景下的MSE定量指標結果,其中最后一列(Ave)為所有場景平均值。每列的最優值黑色加粗標注,次優值加下劃線。

圖7 與其他方法在壞像素分布圖上的對比

圖8 與其他方法在MSE分布圖上的對比

通過圖7的壞像素分布對比可以發現,在低紋理的場景Cotton,Dino,Pyramids和小深度變化場景Sideboard中,本文方法均可以取得較好的效果,壞像素較少;Boxes,Backgammon場景具有密集或細小的遮擋,Stripes前后景低對比度,三者的場景中可以發現,在大量遮擋存在的區域或者密集的物體邊界處,本文方法容易發生錯誤預測。在對比方法中,LF-PAC和CAE是基于多視角建立遮擋代價函數的方法,LF-PAC在遮擋較多且遮擋邊界主要是直線的場景Backgammon中效果最好,CAE則在邊界處的預測誤差較大,OFSY_330/DNR是基于焦堆棧的方法,在具有細小的深度變化場景(Boxes, Stripes)中效果一般。SPO-MO,OBER-cross+ANP則是基于EPI的深度估計,對含有深度沿連續的直線變化的低紋理場景Pyramids和Stripes效果較好,但是在Sideboard和Dino場景中無法得到優秀的結果?;趯W習的3種方法表現比較相似,因此通過定量指標MSE來對比結果的好壞。綜合圖8和表3的數據可以得出,本文方法在大部分場景下都可以取得優秀的結果,僅在處理細微的遮擋或密集的紋理區域時效果稍差。

表4是本文方法在數據集各場景上的平均運行時間對比。通過對比可以發現,EPINET和FANET因為是基于學習的方法,網絡參數已經訓練完畢,可以快速完成深度估計,對比傳統方法SPO-MO和OBER-cross+ANP在時間上具有明顯的優勢。

表3 與其他深度估計方法的定量對比

表4 各算法的平均運行時間對比(s)

最后為了考察FANET和EPINET在訓練數據集上的收斂表現,對訓練集上壞像素(bad pixel, BP)的平均值隨迭代次數(epoch)的變化情況進行了觀察,結果如圖9所示。

圖9 FANET和EPINET收斂曲線對比

通過曲線可以清晰發現,在迭代過程中,經過相同次數后本文網絡可以更加準確地學習到訓練數據的有效信息,表明相比較于EPINET,本文方法收斂速度更快,訓練效率更高。

3 總 結

基于光場圖像的深度估計效果目前受限于光場相機的結構特點,需要在有限的空間內對空間分辨率和角度分辨率中做出權衡。為了在現有的光場數據資源基礎上獲取高精度的深度圖,本文設計了一種特征融合網絡,在提取光場多視角的EPI特性分通道輸入網絡的基礎上根據視角變化基線的不同設置不同的卷積核,以應對不同視角排序間的基線變化,同時通過FA_block特征融合模塊對通道特征加權及融合,增強了網絡的學習效率,最后使用雙通道網絡DCNET學習場景的深度信息。實驗表明在相同的數據基礎下,本文方法在大部分場景均可以得到精確的深度圖。后續工作考慮在信息的融合模塊上整合不同尺度的特征,以提高對遮擋和邊界特征的預測效果。

[1] 張旭東, 李成云, 汪義志, 等. 遮擋場景的光場圖像深度估計方法[J]. 控制與決策, 2018, 33(12): 2122-2130.ZHANG X D, LI C Y, WANG Y Z,et al. Light field depth estimation for scene with occlusion[J]. Control and Decision, 2018, 33(12): 2122-2130 (in Chinese).

[2] WU G C, MASIA B, JARABO A, et al. Light field image processing: an overview[J]. IEEE Journal of Selected Topics in Signal Processing, 2017, 11(7): 926-954.

[3] WILLIEM, PARK I K, LEE K M. Robust light field depth estimation using occlusion-noise aware data costs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(10): 2484-2497.

[4] STRECKE M, ALPEROVICH A, GOLDLUECKE B. Accurate depth and normal maps from occlusion-aware focal stack symmetry[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 2814-2822.

[5] GUO Z H, WU J L, CHEN X F, et al. Accurate light field depth estimation using multi-orientation partial angular coherence[J]. IEEE Access, 2019, 7: 169123-169132.

[6] GORTLER S J, GRZESZCZUK R, SZELISKI R, et al. The lumigraph[C]//Proceedings of the 23rd Annual Conference on Computer Graphics and Interactive Techniques. New York: ACM Press, 1996: 43-54.

[7] SHENG H, ZHAO P, ZHANG S, et al. Occlusion-aware depth estimation for light field using multi-orientation EPIs[J]. Pattern Recognition, 2018, 74: 587-599.

[8] SCHILLING H, DIEBOLD M, ROTHER C, et al. Trust your model: light field depth estimation with inline occlusion handling[C]//Proceedings of 2018 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 4530-4538.

[9] ZHANG S , SHENG H , LI C , et al. Robust depth estimation for light field via spinning parallelogram operator[J]. Computer Vision and Image Understanding, 2016, 145: 148-159.

[10] HEBER S, YU W, POCK T. Neural EPI-volume networks for shape from light field[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. New York: IEEE Press, 2017: 2252-2260.

[11] JOHANNSEN O, SULC A, GOLDLUECKE B. What sparse light field coding reveals about scene structure[C]//Proceedings of 2016IEEE Conference on Computer Vision and Pattern Recognition.New York: IEEE Press, 2016: 3262-3270.

[12] SHIN C, JEON H G, YOON Y, et al. Epinet: a fully-convolutional neural network using epipolar geometry for depth from light field images[C]//Proceedings of 2018 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 4748-4757.

[13] HU J, SHEN L, ALBANIE S, et al. Squeeze-and-excitation networks[C]//Proceedings of 2108 IEEE Conference on Computer Vision and Pattern Recognition.New York: IEEE Press, 2018: 7132-7141.

[14] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]//Proceedings of 2018 European Conference on Computer Vision (ECCV). Heidelberg: Springer Nature, 2018: 3-19.

[15] LI X, WANG W H, HU X L, et al. Selective kernel networks[C]//Proceedings of 2019 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 510-519.

[16] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 770-778.

[17] YE J W, WANG X C, JI Y X, et al. Amalgamating filtered knowledge: learning task-customized student from multi-task teachers[EB/OL]. [2020-01-09]. https:// arxiv.org/abs/1905.11569v1.

[18] YU W, YANG K Y, YAO H X, et al. Exploiting the complementary strengths of multi-layer CNN features for image retrieval[J]. Neurocomputing, 2017, 237: 235-241.

[19] HONAUER K, JOHANNSEN O, KONDERMANN D, et al. A dataset and evaluation methodology for depth estimation on 4D light fields[C]//2016 Asian Conference on Computer Vision. Heidelberg: Springer, 2016: 19-34.

[20] ANONYMOUS. FusionNet[EB/OL]. [2020-04-06]. http://www.lightfield-analysis.net/.

FANET: light field depth estimation with multi-channel information fusion

HE Ye, ZHANG Xu-dong, WU Di

(School of Computer and Information, Hefei University of Technology, Hefei Anhui 230009, China)

Compared with the traditional two-dimensional images, the images, generated by the light field camera capturing the spatial and angular information of the scene in only one shot, contain more information and exhibit more advantages in the depth estimation task. In order to obtain high-quality scene depth using light field images, a feature assigning network, of which the structure can efficiently fuse the multi-channel information, was designed for depth estimation based on its multi-angle representation.On the basis of the artificial selection of specific views, convolution kernels of different sizes were utilized to cope with different baseline changes. Meanwhile, a feature fusion module was established based on the multi-input characteristics of light field data, and the double-channel network structure was used to integrate the front and back layer information, boosting the learning efficiency and performance of the network. Experimental results on the new HCI data set show that the network converges faster on the training set and can achieve accurate depth estimation in non-Lambertian scenes, and that the average performance on the MSE indicator is superior to other advanced methods.

light field; depth estimation; convolutional neural network; feature fusion; attention; multi-view

TP 391

10.11996/JG.j.2095-302X.2020060922

A

2095-302X(2020)06-0922-08

2020-05-20;

2020-06-16

20 May,2020;

16 June,2020

國家自然科學基金面上項目(61876057,61971177)

General Project of National Natural Science Foundation of China (61876057, 61971177)

何 也(1995-),男,安徽六安人,碩士研究生。主要研究方向為光場成像技術、計算機視覺。E-mail:18656417409@163.com

HE Ye (1995-), male, master student. His main research interests cover light field imaging technology and computer vision. E-mail:18656417409@163.com

猜你喜歡
深度特征融合
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
深度理解一元一次方程
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
深度觀察
主站蜘蛛池模板: 久久天天躁夜夜躁狠狠| 久久久久九九精品影院| 高清免费毛片| 韩国v欧美v亚洲v日本v| 五月婷婷综合在线视频| 久久99精品久久久久久不卡| 色成人亚洲| 中文字幕伦视频| 亚洲高清日韩heyzo| 国产精品香蕉| 亚洲一欧洲中文字幕在线| 一级全黄毛片| 色婷婷综合在线| 国内精品小视频福利网址| 一级毛片免费的| 国产精品嫩草影院视频| 成人综合在线观看| 免费亚洲成人| 精品视频免费在线| 久久精品娱乐亚洲领先| 99久久这里只精品麻豆| 亚洲动漫h| 国产一级毛片高清完整视频版| 亚洲中文字幕av无码区| 免费国产好深啊好涨好硬视频| 天堂在线视频精品| 丁香婷婷在线视频| 自慰网址在线观看| 2020国产精品视频| 日韩在线视频网站| 亚洲美女一级毛片| 99精品免费欧美成人小视频 | 乱人伦99久久| 亚洲人成电影在线播放| 婷婷99视频精品全部在线观看| 玩两个丰满老熟女久久网| 91国内在线视频| 欧美人人干| 亚洲swag精品自拍一区| 中文字幕66页| 色丁丁毛片在线观看| jizz在线观看| 国产欧美自拍视频| 1024你懂的国产精品| 毛片在线播放网址| 免费看美女自慰的网站| 99ri精品视频在线观看播放| 99热这里只有免费国产精品 | 亚洲动漫h| 五月综合色婷婷| 激情無極限的亚洲一区免费| 污污网站在线观看| 久久久久无码精品国产免费| 亚洲二区视频| 国产男女免费完整版视频| 99久久精彩视频| 亚洲欧美激情另类| 亚洲无码四虎黄色网站| 人妻夜夜爽天天爽| 国产丝袜91| 欧美精品v日韩精品v国产精品| 粉嫩国产白浆在线观看| 亚洲免费黄色网| 欧美三级视频网站| 色婷婷天天综合在线| 噜噜噜综合亚洲| 91精品久久久久久无码人妻| 伊人久热这里只有精品视频99| 97se亚洲综合在线韩国专区福利| 女人18一级毛片免费观看| 国产欧美日韩18| 男女男免费视频网站国产| 色天天综合| 网友自拍视频精品区| 一级高清毛片免费a级高清毛片| 久久人妻xunleige无码| 国产精品蜜臀| 精品视频一区在线观看| 亚洲国产成人综合精品2020 | 99人妻碰碰碰久久久久禁片| 99久久亚洲精品影院| 秋霞一区二区三区|