收稿日期:2021-10-17;修回日期:2021-12-10
基金項目:國家自然科學基金資助項目(61601337)
作者簡介:藺毓敏(1995-),男,內蒙古人,碩士,主要研究方向為分布式視頻編碼;周俊偉(1986-),男(通信作者),湖北人,副教授,碩導,博士,主要研究方向為計算機視覺、信息安全與分布式信源編碼等(junweizhou@msn.com).
摘 要:在分布式視頻編碼(DVC)中,如何在各種運動場景下生成高質量的邊信息并提升解碼性能是一個重點研究領域。提出一種基于深度學習的光流插幀邊信息生成算法(optical flow interpolation,OFI),編碼端采用區間重疊的分布式算術編碼(distributed arithmetic coding,DAC)對視頻進行編碼,解碼端生成邊信息時提取已解碼關鍵幀,輸入深度學習光流插幀網絡。網絡采用多層光流模塊產生光流,并結合光流向后彎曲關鍵幀產生初步的邊信息估計,再由融合過程消除遮擋產生更加細化的結果,最后邊信息輔助解碼樹完成解碼。實驗結果表明,與現有方法相比,該方法PSNR最大可提升2.25 dB,主要體現在線性運動場景下。同時在線性和非線性場景下SSIM指標可提升0.001 5~0.064 8,在解碼視頻率失真曲線上也體現出一致的結果,證明了該算法對線性運動邊信息估計有較好的提升,對非線性運動邊信息結構也有良好的恢復性。
關鍵詞:分布式視頻編碼; 邊信息; 分布式算術編碼; 深度學習; 光流插幀
中圖分類號:TN919.81"" 文獻標志碼:A
文章編號:1001-3695(2022)06-052-1901-04
doi:10.19734/j.issn.1001-3695.2021.10.0439
Side information generation algorithm based on deep learning OFI
Lin Yumin, Zhou Junwei
(School of Computer Science amp; Artificial Intelligence, Wuhan University of Technology, Wuhan 430070, China)
Abstract:In distributed video coding (DVC) , generating high-quality side information and improving decoding performance in various sports scenes is a crucial research area. This paper proposed a deep learning optical flow interpolation(OFI) side information generation algorithm. The encoder used interval overlapped distributed arithmetic codes(DAC) to encode the video. The decoder extracted the decoded key frames and inputted them into the optical flow interpolation network for side information generation. The network used a multi-layer optical flow module to generate optical flow, and used the optical flow to warp key frames to generate a preliminary side information estimation, and then underwent a fusion process to eliminate occlusion to produce more refined results. Finally, the side information assisted the decoding tree to complete the decoding. The experimental results show that comparing with the existing method, the PSNR of this method increases up to 2.25 dB, which happens mainly in the linear motion scenes. At the same time, the SSIM increases 0.001 5~0.064 8 in both linear and non-linear scenes. The decoded video rate-distortion curve shows consistent results. It proves that the algorithm can improve the estimation of linear motion side information, and it also has excellent robustness on the structure of non-linear motion side information.
Key words:distributed video coding; side information; distributed arithmetic coding; deep learning; optical flow interpolation
0 引言
分布式視頻編碼(distributed video coding,DVC)是一種新型的視頻編碼系統,因其編碼簡單、解碼復雜的特征,在無線傳感器網絡等硬件資源受限的設備上具有良好的應用前景。
DVC的理論基礎是Slepian-Wolf(SW)無損編碼定理[1]和Wyner-Ziv(WZ)有損編碼定理[2]。在上述定理中兩相關信源被獨立編碼且聯合解碼,并被證明與傳統聯合編碼且聯合解碼的方式能達到相同的效率。早期的DVC編碼方案是由Aaron等人[3]提出的基于變換域的編碼方案,隨后Berkley提出了PRISM方案[4]以圖像塊為單位進行編解碼。接著Xu等人[5]提出分級WZ視頻編碼,具有很好的抗誤碼性。現有的DVC系統中研究較多的是DISCOVER方案[6],該方案支持可變的圖像組(group of picture, GOP),而編解碼使用LDPC。在DISCOVER中,邊信息質量是影響DVC解碼性能的一個關鍵因素。邊信息與原始WZ幀越接近,解碼端正確解碼所需的比特位越少。因此,生成高質量的邊信息是提高DVC系統性能的一個關鍵點。現有的邊信息生成算法大多基于運動補償內插值(motion compensation interpolation,MCI)[7~9]設計。在當前待解碼WZ幀上,MCI算法利用WZ幀的前后兩個已解碼的關鍵幀來估計其中各圖像塊的運動矢量,基于線性運動假設通過幀內插值生成邊信息。然而,該算法對非線性運動的估計并不理想,同時容易產生塊效應和偽影。為了獲得更準確的邊信息,近年來研究者們主要采取了以下方案。Zhang等人[10]提出快慢動作圖像塊劃分的邊信息生成模式,在不增加復雜度的同時能得到良好的性能提升。Akinola等人[11]提出智能融合高階分段時間軌跡插值和自適應重疊塊運動補償的算法,能很好地提升邊信息質量。鄭伯偉等人[12]提出內推外插混合邊信息生成算法,以解決大GOP下邊信息質量低下的問題。王艷營等人[13]將二次函數和運動矢量相結合對曲線運動作估計,能顯著提升劇烈運動場景下的邊信息質量。Lee等人[14]提出具有時空輔助邊信息的方案,將時間和空間預測集成于一個框架來提升高運動視頻序列的壓縮性能。Shen等人[15]使用GPU并行計算,提出漸進式邊信息再生方案,能同時提升解碼性能和解碼速度。Dash等人分別提出基于鏡像基函數神經網絡[16]、基于多層感知器[17]和基于極限學習機[18]的邊信息生成方案,將神經網絡應用到邊信息中。Jun[19]提出自適應兩步邊信息生成算法,使用下采樣空間分辨率的已解碼WZ幀進行迭代解碼,在高運動情況下有更好的性能。Khursheed等人[20, 21]提出相位插值邊信息算法,對高分辨率和大GOP有顯著的速度提升效果并能保證邊信息質量。同時,對于DVC編碼系統的改進,Benierbah等人[22]提出對符號位置進行編碼的DVC系統,該方法使用二進制映射而不是基于位平面的邊信息,能夠減少解碼延遲并允許并行解碼。
同時,基于深度學習的光流插幀算法也取得了較大進展。Jiang等人[23]首次提出基于光流的視頻插幀算法,使用已有的光流網絡模塊估計近似中間流,并預測遮擋信息同時融合向后彎曲的輸入幀得到最終結果。Xu等人[24]利用四個連續幀得到中間幀,然后融合與上文相同的彎曲幀獲得結果。Bao等人[25]利用深度感知流投影層改進光流估計。林傳健等人[26]針對運動模糊影響插幀效果,設計了基于體素流的深度神經網絡,能顯著改善模糊插幀效果。Yang等人[27]提出基于級聯網絡的視頻插幀方案,能夠大幅提升插幀性能。Park等人[28]提出基于光流插幀、異常運動檢測和幀細化的新型視頻插幀算法。馬境遠等人[29]在光流網絡預測階段使用下采樣和注意力掩碼機制來提高插幀質量。鑒于深度學習在視頻插幀方面具有較好的性能,為了進一步提高邊信息質量,本文提出了基于深度學習的光流插幀邊信息生成算法。解碼端生成邊信息時提取已解碼關鍵幀,輸入深度學習網絡,由網絡的光流模塊產生光流,接著結合光流向后彎曲關鍵幀產生初步的邊信息估計,再經過融合過程以消除運動邊界的偽影產生更加細化的結果。
1 DVC視頻編碼系統
DVC不同于傳統視頻編碼體系,可以降低編碼端的計算復雜度,同時能保證較高的壓縮率[30]。如圖1所示,輸入的視頻序列被分為關鍵幀和WZ幀。關鍵幀使用傳統幀內編碼器進行編碼;而WZ幀按以下過程進行編碼:先執行基于塊的變換,接著提取相同位置的每個像素塊的系數,然后將這些系數組織在多個頻帶中,并對得到的變換系數進行量化。量化信息通過使用分布式算術編碼[31](distributed arithmetic coding,DAC)編碼器進行處理,通過重疊算術編碼區間實現壓縮,并用CRC碼輔助校驗。
在解碼端,關鍵幀由傳統的幀內解碼器直接解碼,并用于運動估計,從而獲得邊信息。然后利用相關噪聲模型對邊信息與原始數據之間的誤差進行校正。對于WZ幀,根據解碼器端生成的邊信息和從編碼器發送的二進制編碼序列及冗余校驗位,DAC解碼器構建一棵解碼二叉樹列出所有可能的解碼結果,選取與邊信息最為接近的解碼序列,以獲取最終解碼的WZ幀。由解碼過程可以看出,邊信息與原始WZ幀的相似程度決定了系統解碼的效率。因此,提高邊信息的準確性對于提高DVC系統的性能至關重要。
2 深度學習光流插幀邊信息生成算法
現有的MCI算法對WZ幀中的圖像塊選擇合適的初始運動向量,然后對其進行優化,最后以線性運動假設估計出邊信息。然而對于非線性運動情況,該算法的估計并不理想。此外,算法還可能形成偽影降低邊信息質量。光流插幀則首先通過光流估計算法來預測每個像素的運動,再利用向后彎曲將像素映射到插值幀中,實現視頻序列插幀。采用基于深度學習的光流插幀算法是將神經網絡用于獲得光流,使用多層分辨率的神經網絡在不同尺度下作特征提取,并逐層細化得到高質量的光流,下一步算法利用生成的光流彎曲輸入幀得到初步的插幀結果。但由于光流會因遮擋等問題造成質量不理想,結果造成插幀中產生偽影,為了消除遮擋帶來的影響,要對第一次獲得的結果進行可見性融合,產生相對理想的結果。
為了獲得更為精確的邊信息,本文提出基于深度學習的光流插幀邊信息生成算法,并使用基于DAC的分布式視頻編碼框架。編碼端采用重疊區間的分布式算術編碼對WZ幀進行編碼,解碼端生成邊信息時提取已解碼關鍵幀,輸入深度學習網絡,產生光流插幀邊信息,最后邊信息輔助解碼二叉樹輸出與其二進制距離最小的解碼路徑,完成解碼操作。深度學習光流插幀網絡為RIFE[32],其采用了上文描述的光流插幀算法框架,該網絡生成邊信息的算法流程如圖2所示。輸入為當前WZ幀Xi的相鄰關鍵幀矩陣Ki-1、Ki+1,輸出為WZ幀Xi的預測邊信息矩陣i。
算法具體步驟如下:
a)將關鍵幀輸入光流模塊生成光流。光流生成模塊的基本思想是利用深度學習方法學習輸入幀與光流之間的映射關系。RIFE的光流模塊采用了三層深度學習網絡級聯的組成方式,單層網絡結構如圖3所示。由一個卷積層、六個殘差塊和一個反卷積層組成。一個殘差塊內是由兩個卷積層間通過ReLU激活函數并跳躍連接,為的是在保持網絡深度的同時有更好的學習效果。光流模塊每一層以特定大小對輸入幀進行縮放,第一層只在較低分辨率下捕捉步幅較大的運動,后兩層逐步增加分辨率以得到更為細化的光流。該生成過程可以表示為
IFi=IFi-1+si(IFi-1,K-1,K+1)(1)
其中:IFi-1表示前一個網絡層生成的中間光流;si表示當前網絡層;K-1、K+1是輸入的關鍵幀,經過最后一層的輸出得到光流IF。
b)依據光流將輸入幀向后彎曲。得到光流就得到由輸入幀到中間幀的像素運動軌跡的映射,由此就可以得到中間幀的估計結果。將中間幀的像素映射到輸入幀可以從兩種方向進行,這里選擇從中間幀的像素尋找其在輸入幀中對應的位置,即向后彎曲。該過程可以表示為
Ki-1(y)=K′i-1(IF-1(x))(2)
其中:Ki-1(y)、K′i-1(x)是輸入幀和彎曲幀中對應位置的像素;IF-1是對步驟a)中得到的光流直接取反。向后彎曲過程中對于輸入幀中不存在的位置要利用雙線性插值方法填充,這樣可以避免像素變換中產生孔洞,即像素沒有被映射到的區域。
c)對光流、彎曲幀和原始輸入幀進行融合得到輸出幀。經過彎曲后就得到插值幀的初步結果,為了消除運動邊界的偽影,進一步提升插值幀的質量,下一步執行融合過程。融合過程用公式可以表示為
i=M⊙K′i-1+(1-M)⊙K′i+1+Δ(3)
其中:K′i-1、K′i+1為彎曲后的關鍵幀;⊙為以像素為單位的乘法;M為融合兩個彎曲幀的融合掩碼;Δ是細化圖像細節的殘差項,并且0≤M, Δ≤1。融合掩碼表示了插值中間幀i對輸入幀Ki-1、Ki+1在運動過程中的可見性,是基于一個像素在插幀時刻t可見,則極有可能在某一個輸入幀中也可見這一假設。
為了獲得M和Δ,首先使用由四個殘差塊構成的上下文提取網絡從原始輸入幀中提取金字塔上下文特征,再將金字塔特征和步驟b)產生的光流一起送入類似于U-Net[33]編碼器—解碼器架構的融合網絡中。融合網絡采用的U-Net結構可以最大限度地保持插值幀和輸入幀之間的語義一致性,得到理想的結果。
3 實驗結果
為了對本文提出的深度學習光流插幀(optical flow interpolation, OFI)算法性能進行分析,本文采用視頻序列coastguard、ice和soccer的全部150幀、120幀和150幀進行測試,視頻大小為QCIF,幀率為15 Hz,只使用亮度分量。設定GOP=2,關鍵幀使用H.264幀內編碼。在邊信息估計比較實驗時采用四組關鍵量化參數(quantization parameter,QP),并與文獻[31]中的MCI算法結果進行比較。在邊信息輔助解碼實驗中分別與MCI算法和文獻[23]的深度學習光流插幀SloMo算法作對比,使用8組量化參數,WZ幀的量化矩陣和DAC編碼在設置上與文獻[31]所給的設定相同。視頻序列ice采用與coastguard相同的DAC編碼設置,并使用峰值信噪比(peak signal-to-noise ratio,PSNR)和結構相似性指標(structural similarity,SSIM)作為評價標準。對于參考幀I(x)和解碼幀(x),其計算方法為
PSNR=10lgMAX2MSE(I(x),I~(x))(4)
其中:MAX是圖像顏色的最大值,取255;MSE表示圖像的均方誤差。PSNR取值越大,解碼圖像與原始圖像質量越接近。
SSIM=(2μIμI~+c1)(2σII~+c2)(μ2I+μ2I~+c1)(σ2I+σ2I~+c22)(5)
其中:μ表示圖像的期望;σ為圖像的標準差;c為常數。SSIM取值越接近1,則表示對圖像的結構恢復更好。
表1~3給出了在不同的關鍵幀QP下兩種算法的邊信息比較結果。可以看出,對于運動更為線性的coastguard與ice序列,OFI對比MCI算法的PSNR最大提升2.25 dB,而對于運動劇烈、非線性的soccer序列,OFI對比MCI算法的PSNR最大下降0.32 dB。兩種場景下的SSIM則均好于MCI,平均提升0.001 5~0.064 8。由此可知,OFI算法對于線性運動的邊信息估計具有較好的性能提升,得益于良好的光流估計和消除偽影的融合過程,但是對于非線性運動的估計效果仍有待提高。同時在SSIM指標上的提升,顯示出該算法在劇烈運動下對邊信息結構的良好恢復性。
圖4具體給出了在QP=25時,ice序列第14幀的邊信息質量的主觀對比結果。可以看到基于運動搜索的MCI算法由于匹配失誤,在白色上衣人物的下半身出現了白色像素塊,且其身旁的三角型路標產生了重影。這些位置在OFI算法中都得到了有效的估計。同時MCI在幀右側的人物邊緣處產生了偽影,在OFI算法中則得到了邊緣更為平滑準確的結果。主觀質量對比體現了OFI算法邊信息估計的優越性。
圖5給出了三個視頻序列在邊信息輔助解碼下的率失真曲線對比結果。對于coastguard序列,OFI和MCI兩種算法性能基本持平,OFI對比SloMo則保持平均1.34 dB的領先。ice序列中OFI一直保持性能領先,對MCI和SloMo分別平均提升0.46 dB和1.70 dB。而在soccer序列中OFI的解碼性能受邊信息估計的影響在低碼率下性能落后,而在高碼率下又回到同一水平。從實驗結果可以看出,OFI算法邊信息質量的提高或降低確實對解碼性能產生了一定影響,且邊信息質量變化越大影響就越明顯。同時,相比于現有的深度學習光流插幀算法,OFI也做到了性能提升。率失真性能對比實驗進一步驗證了該算法的有效性。
圖6為三個視頻序列結構形似性曲線進一步的對比結果。可以看到在所有測試序列下,OFI算法SSIM值都比MCI算法有所提升,而且對于運動劇烈的soccer結構性能提升更為明顯,幅度可以達到0.032 5~0.050 2。此外,OFI相比SloMo算法,所有序列下平均領先0.011 8~0.018 3。可以看到,OFI算法對于視頻幀結構的良好恢復性在解碼視頻中也得到了體現。在soccer序列中兩種光流算法均領先于MCI算法,也印證了OFI算法在劇烈運動下對邊信息結構的良好恢復性。
4 結束語
更準確的邊信息對DVC解碼質量的提高是至關重要的一步。本文主要提出了一種基于深度學習的光流插幀邊信息生成算法。實驗結果表明,OFI算法在線性運動的邊信息估計上可以有較好的提升,對非線性運動的邊信息結構也具有良好的恢復性。視頻解碼結果也驗證了該算法的有效性。同時其在非線性運動視頻下邊信息PSNR性能表現不佳和其對視頻解碼性能影響,仍舊有限說明OFI還有一定的提升空間,這將是下一步的主要研究內容。
參考文獻:
[1]Slepian D, Wolf J. Noiseless coding of correlated information sources[J].IEEE Trans on Information Theory,1973,19(4):471-480.
[2]Wyner A, Ziv J. The rate-distortion function for source coding with side information at the decoder[J].IEEE Trans on Information Theory,1976,22(1):1-10.
[3]Aaron A, Rane S D, Setton E, et al. Transform-domain Wyner-Ziv codec for video[J].Proceedings of Visual Communications and Image Processing,2004,5308:520-528.
[4]Puri R. PRISM: a ‘reversed’ multimedia coding paradigm[C]//Proc of International Conference on Image Processing.Piscataway,NJ:IEEE Press,2003:617-620.
[5]Xu Qian, Xiong Zixiang. Layered Wyner-Ziv video coding[J].IEEE Trans on Image Processing,2006,15(12):3791-3803.
[6]Artigas X, Ascenso J, Dalai M, et al. The DISCOVER codec: architecture, techniques and evaluation[C]//Proc of Picture Coding Symposium.Berlin:Springer,2007:513-516.
[7]Ascenso J, Brites C, Pereira F. Improving frame interpolation with spatial motion smoothing for pixel domain distributed video coding[C]//Proc of the 5th EURASIP Conference on Speech and Image Processing, Multimedia Communications and Services.Berlin:Sprin-ger,2005:1-6.
[8]Ascenso J, Brites C, Pereira F. Content adaptive Wyner-Ziv video co-ding driven by motion activity[C]//Proc of International Conference on Image Processing.Piscataway,NJ:IEEE Press,2006:605-608.
[9]Ascenso J, Pereira F. Advanced side information creation techniques and framework for Wyner-Ziv video coding[J].Journal of Visual Communication and Image Representation,2008,19(8):600-613.
[10]Zhang Dengyin, Wu Yuanyuan, Wan Mingxiang. Improved side information generation algorithm for Wyner-Ziv video coding[J].The Journal of China Universities of Posts and Telecommunications,2014,21(1):109-115.
[11]Akinola M, Dooley L, Wong K. Improving distributed video coding side information by intelligently combining macro-blocks from multiple algorithms[C]//Proc of the 2nd International Conference on Intelligent Signal Processing.Piscataway,NJ:IEEE Press,2015:1-6.
[12]鄭伯偉,楊春玲,劉璇.Wyner-Ziv視頻編碼中外推內插混合邊信息生成算法[J].計算機工程,2016,42(10):289-295.(Zheng Bowei, Yang Chunling, Liu Xuan. Extrapolation and interpolation hybrid side information generation algorithm for Wyner-Ziv video coding[J].Computer Engineering,2016,42(10):289-295.)
[13]王艷營,馮進玫,張洪全.基于混合運動模型的邊信息生成算法[J].計算機工程與設計,2016,37(10):2764-2768.(Wang Yan-ying, Feng Jingong, Zhang Hongquan. Algorithm of side information generation based on mixed motion model[J].Computer Engineering and Design,2016,37(10):2764-2768.)
[14]Lee Y, Kuo P, Lee C, et al. Distributed video codec with spatiotemporal side information[C]//Proc of International Symposium on Circuits and Systems.Piscataway,NJ:IEEE Press,2017:1-4.
[15]Shen Y, Cheng Hanping, Luo J, et al. Efficient real-time distributed video coding by parallel progressive side information regeneration[J].IEEE Sensors Journal,2017,17(6):1872-1883.
[16]Dash B, Rup S, Mohapatra A, et al. An effective side information generation scheme for Wyner-Ziv video coding[C]//Proc of the 8th International Conference on Advanced Computational Intelligence.Piscataway,NJ: IEEE Press,2016:296-301.
[17]Dash B, Rup S, Mohapatra A, et al. Decoder driven side information generation using ensemble of MLP networks for distributed video coding[J].Multimedia Tools and Applications,2018,77(12):15221-15250.
[18]Dash B, Rup S, Mohapatra A, et al. Multi-resolution extreme lear-ning machine-based side information estimation in distributed video coding[J].Multimedia Tools and Applications,2018,77(20):27301-27335.
[19]Jun D. Distributed video coding with adaptive two-step side information generation for smart and interactive media[J].Displays,2019,59:21-27.
[20]Khursheed S, Jeoti V, Badruddin N, et al. Low complexity phase-based interpolation for side information generation for Wyner-Ziv co-ding at DVC decoder[C]//Proc of the 12th International Symposium on Communication Systems, Networks and Digital Signal Processing.Piscataway,NJ:IEEE Press,2020:1-6.
[21]Khursheed S, Badruddin N, Jeoti V, et al. Fast side information gene-ration for high-resolution videos in distributed video coding applications[J].International Journal of Advanced Computer Science and Applications,2020,11(7):277-283.
[22]Benierbah S, Khamadja M. Symbol positions-based Slepian-Wolf co-ding with application to distributed video coding[J].IET Image Processing,2020,14(11):2301-2309.
[23]Jiang Huaizu, Sun Deqing, Jampani V, et al. Super SloMo: high quality estimation of multiple intermediate frames for video interpolation[C]//Proc of Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2018:9000-9008.
[24]Xu Xiangyu, Li Siyao, Sun Wenxiu, et al. Quadratic video interpolation[J].Advances in Neural Information Processing Systems,2019,32:1647-1656.
[25]Bao Wenbo, Lai Weisheng, Ma Chao, et al. Depth-aware video frame interpolation[C]//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:3703-3712.
[26]林傳健,鄧煒,童同,等.基于深度體素流的模糊視頻插幀方法[J].計算機應用,2020,40(3):819-824.(Lin Chuanjian, Deng Wei, Tong Tong, et al. Blurred video frame interpolation method based on deep voxel flow[J].Journal of Computer Applications,2020,40(3):819-824.)
[27]Yang Y, Oh B. Video frame interpolation using deep cascaded network structure[J].Signal Processing Image Communication,2020,89:115982.
[28]Park M, Kim H, Lee S, et al. Robust video frame interpolation with exceptional motion map[J].IEEE Trans on Circuits and Systems for Video Technology,2020,31(2):754-764.
[29]馬境遠,王川銘.一種多尺度光流預測與融合的實時視頻插幀方法[J].小型微型計算機系統,2021,42(12):2567-2571.(Ma Jingyuan, Wang Chuanming. Real-time video frame interpolation based on multi-scale optical prediction and fusion[J].Journal of Chinese Computer Systems,2021,42(12):2567-2571.)
[30]Girod B, Aaron A, Rane S, et al. Distributed video coding[J].Proceedings of the IEEE,2005,93(1):71-83.
[31]Zhou Junwei, Fu Yincheng, Yang Yanchao, et al. Distributed video coding using interval overlapped arithmetic coding[J].Signal Processing: Image Communication,2019,76:118-124.
[32]Huang Zhewei, Zhang Tianyuan, Heng Wen, et al. RIFE: real-time intermediate flow estimation for video frame interpolation[EB/OL].(2020)[2021-06-27].https://arxiv.org/pdf/2011.06294v2.pdf.
[33]Ronneberger O, Fischer P, Brox T. U-Net:convolutional networks for biomedical image segmentation[C]//Proc of International Conference on Medical Image Computing and Computer-Assisted Intervention.Berlin:Springer,2015:234-241.