999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的圖像壓縮算法研究綜述

2020-08-03 10:05:14梅紅巖許曉明賈慧萍
計算機工程與應用 2020年15期
關鍵詞:深度方法

于 恒,梅紅巖,許曉明,賈慧萍

遼寧工業大學 電子與信息工程學院,遼寧 錦州 121001

1 引言

圖像壓縮一直是圖形圖像處理領域的基礎課題,自1948年提出電視信號數字化設想后,圖像壓縮便登上了歷史的舞臺,其大概發展路程如圖1所示,從圖中可以看出,在有了BP算法[1]之后,就已經有研究人員將神經網絡引入圖像壓縮領域的先例,之后隨著深度學習地不斷深入研究,基于深度學習的圖像壓縮方法也隨之被提出。深度學習[2]對圖像特征提取、表達能力,以及高維數據的處理能力等都被認為對于圖像壓縮存在獨有的優勢,時至今日研究這一方向的人數日益增多,將深度學習應用于圖像壓縮逐漸成為當前的熱點研究問題之一。傳統的圖像編碼標準如:JPEG[3]、JPEG2000[4]和BPG已被廣泛使用,傳統的圖像壓縮多采用固定的變換方式和量化編碼框架,如離散余弦變換和離散小波變換,在結合量化和編碼器來減少圖像的空間冗余,但是并非所有類型的圖像都適用于這種方式,如以圖像塊的方式進行變換量化后會有塊效應。同時在大量傳輸圖像時由于網絡帶寬的限制,為了實現低比特位率編碼,會導致圖像的模糊[5]現象。深度學習技術可以根據自身特點優化上述問題:如在編碼器的性能上,深度學習技術可以對編碼器和解碼器進行聯合優化,不斷提升編碼器的性能;在圖像清晰度上,基于深度學習的圖像超分辨率[6]技術,以及生成對抗網絡都能使圖像重建更加清晰;在面對不同類型的圖像,針對不同類型的任務上,深度學習技術能夠根據任務的特點對圖像實現更智能、更針對的編解碼。本文將根據不同的深度學習方法對圖像壓縮處理取得的成果進行介紹。

圖1 圖像壓縮發展簡圖

2 傳統圖像編碼背景

圖像壓縮的目的是通過消除數字圖像像素間的冗余實現圖像壓縮處理。在靜態圖像中,空間冗余是存在的最多的冗余,物體與背景具有很強的聯系,這種聯系映射到像素一級上,就體現了很強的相關性,這種相關性在數字圖像中就被稱為數據冗余,通過壓縮的方式來消除數據冗余的原理主要分為三類:預測編碼、變換編碼和統計編碼。

預測編碼的基礎理論為現代統計學和控制論,其技術是建立在信號數據的相關性上。最經典的方式為DPCM法,利用當前圖像的一個像素的真實值,根據相鄰像素的相關性對當前像素進行預測,利用兩者具有預測性的殘差進行量化、編碼,通過降低碼流進而達到圖像壓縮的目的。變換編碼技術的圖像壓縮算法主要是對圖像進行函數變換,將空域信息變換到頻域,之后在對頻域信息進行處理,將高頻信號和低頻信號進行分離,按照信號的重要程度對比特位進行分配,減少信息冗余,達到壓縮目的。統計編碼也被稱為熵編碼是根據信息出現概率的分布特性進行編碼?;谏疃葘W習的圖像壓縮,并不是獨立于傳統的圖像壓縮方法的,更多的方法是建立在傳統的編碼方式之上,對傳統圖像壓縮的比特率和重建圖像的分辨率進行提升。

在使用變換編碼時,主要問題在于重建圖像時存在塊效應與偽影,這些問題其實并非只有深度學習能夠處理,很多方法[7-8]都可以對這些塊效應進行很好的處理,但是深度學習更有能力處理這類問題。在早期,一個普通的多層感知器已經被用來直接學習一個投影從一個有噪聲的圖像到一個無噪聲的圖像,在近期,利用卷積神經網絡、生成對抗網絡,對圖像進行超分辨率更是取得了階段性的成果。熵編碼是圖像壓縮框架中的一個重要組成部分。根據信息論[9]編碼信號所需的比特率受信息熵的限制,信息熵對應于表示信號的符號的概率分布。因此,在端到端學習圖像壓縮框架中嵌入熵編碼組件來估計潛在表示的概率分布,并對熵進行約束來降低比特率。熵編碼模型提供了對所有元素的可能性的估計,在熵模型中,大部分的工作都是利用算術編碼對元素的符號進行無損編碼。傳統的圖像壓縮采用變換方式在配合熵編碼進行圖像壓縮,而深度學習則是采用端到端的結構設計和不同種類的網絡經過訓練替代傳統的固定變換方式,進而提升圖像壓縮。同時近些年GPU的高速發展,為更多樣性網絡結構的設計提供了計算保障,也為性能的提升提供了硬件支持,使基于深度學習的圖像壓縮在其分辨率、比特率等各方面有了提高。

3 基于深度學習的圖像壓縮方法

圖像壓縮根據對編碼信息的恢復程度來進行分類,主要分為無損壓縮[10]和有損壓縮[11],基于深度學習的圖像壓縮方法多為有損圖像壓縮,依賴深度學習強大的建模能力,基于深度學習的圖像壓縮性能已經超過了JPEG和BPG,并且這種性能上的差距仍在逐步擴大。下面將分別對基于卷積神經網絡(Convolutional Neural Network,CNN)[12]、循環神經網絡(Recurrent Neural Network,RNN)[13]、生成對抗網絡(Generative Adversarial Network,GAN)[14]進行介紹。

圖2 CNN圖像壓縮框架圖

3.1 基于卷積神經網絡的圖像壓縮方法

CNN在圖像領域發展迅速,特別是在計算機視覺領域中表現出優異的性能。如目標檢測、圖像分類、語義分割等。CNN卷積運算中的稀疏連接和參數共享兩大特性使CNN在圖像壓縮中彰顯優勢。稀疏鏈接可以通過卷積核的大小來限制輸出參數的多少,在圖像中都存在空間組織結構,圖像中的一個像素點在空間上與周圍的像素點都有緊密的關系,稀疏連接借鑒這一關系只接受相互有關聯的區域作為像素點的輸入,之后將所有神經元接收到的局部信息在更深層的網絡進行綜合,就可以得到全局的信息,從而降低了參數,也降低計算的復雜程度。權值共享是指每個神經元的參數都是相同的,在同一個卷積核的圖像處理中參數都是共享的,卷積神經網絡采用這種方式也會顯著地降低參數的數量,并在一定程度上避免了過擬合的發生。卷積神經網絡的這兩大特性,更好地降低了計算的復雜程度,使訓練可以向更深、更優的網絡結構發展。同時這兩大特性也減少圖像壓縮的數據量。CNN的圖像壓縮多以端到端的方式進行圖像壓縮,通過CNN設計編碼端與解碼端,通過大量圖像數據以及優化網絡方式,獲得高性能的壓縮框架。

經典的圖像壓縮如JPEG、JPEG2000通常是將變化、量化、熵編碼三個部分分別手動優化,圖像碼率經過量化計算后為離散系數,而基于CNN端到端優化采用梯度下降時要求函數全局可微,為此Ballé等人[15]提出基于廣義分歧歸一化的卷積神經網絡圖像編碼框架,使線性卷積和非線性更靈活的轉換,這種方法將卷積層分為兩個部分,一部分負責分析圖像的緊湊表示,另一部分負責重建和逆過程,使用廣義分歧歸一化函數作為激活函數,這個方法取得了可以媲美JPEG2000的編碼性能。之后Ballé等人[16]又提出一種由非線性變換與統一量化的圖像壓縮方法,通過CNN實現非線性變換,并通過之前的廣義分歧歸一化實現了局部增益。這也是首次將CNN與圖像壓縮相結合,給之后基于CNN的端到端圖像壓縮的可行性奠定了基礎。之前圖像重建工作為了提高重建圖像質量,研究的關注點多在一些圖像先驗模型,這些模型即使提高了重建圖像的質量但多存在時效性低的問題,限制了其實際應用價值,并且忽略了圖像壓縮時的退化信息,為了提高重建圖像的質量,Jiang等人[17]提出基于CNN的圖像端到端壓縮框架,其結構如圖2所示,該方法從圖像的編碼器端和解碼器端同時使用兩個卷積神經網絡將編碼器與解碼器進行聯合,采用統一優化方法訓練了兩個CNN,使其相互配合在編碼器端使用一個CNN用于對圖像進行緊湊表示后,在通過編碼器進行編碼,在解碼器端使用一個CNN對解碼后的圖像進行高質量的復原,兩個網絡同時作用,通過卷積采樣代替傳統圖像壓縮以圖像塊為單位的變換計算,其塊效應與JPEG相比有明顯提升。

雖然Jiang等人端到端圖像壓縮同時優化兩個卷積神經網絡,但其在編解碼前后直接連接兩個卷積神經網絡的近似方法并不是最優的。Zhao等人[18]認為這個問題最優解的直觀想法是使用CNN來完美地替代傳統的梯度反向傳播編解碼器端到端的方式提高重構圖像的編碼質量,因此他們提出使用一個虛擬編碼器,在訓練時使用虛擬編碼器用于連接編碼端和解碼端,虛擬編碼器也為CNN,并通過虛擬編碼器使解碼端的CNN逼近最優解,這種方式將真實圖像的有效表示信息經過虛擬編碼器投影到用于重構圖像的解碼網絡。該方法不僅得到了高質量的重建圖像,也可以和端到端的網絡結構一樣可以兼容傳統編碼器,也可以推廣到其他基于CNN的端到端圖像壓縮結構中,但是整個框架存在三個CNN,經過一次訓練難度相對較大,因此在訓練上需要對三個網絡進行分解訓練,但實際應用只需要兩個網絡。

盡管CNN對于圖像壓縮具有優勢,但是采用基于CNN的圖像壓縮仍然具有一定的困難:首先是優化問題,CNN通常采用端到端的模式,在傳統編碼器的兩端加入CNN,這兩個CNN都是需要通過訓練來達到圖像壓縮和圖像重建的目的,但是深度學習的優化問題本身就是一個難點問題,同時讓兩端進行聯合優化,從而得到性能良好的框架也并非易事;二是傳統的圖像壓縮方法往往能夠定量地對圖像壓縮,如JPEG可以對圖像進行50∶1的壓縮,但是基于CNN的圖像壓縮很少能夠對圖像進行固定比率的圖像壓縮;在壓縮圖像分辨率問題上,由于CNN方法大多采用對圖像進行下采樣,卷積核的感受野是有限的,如在對1 024×1 024的圖像進行壓縮時,采用的128×128的訓練框架,往往得不到很好的效果,因而要實現全分辨率就要深化網絡模型,提高框架的能力,但同時會增加網絡結構的訓練難度。

圖3 RNN圖像壓縮框架圖

3.2 基于循環神經網絡的圖像壓縮方法

RNN出現于20世紀80年代,RNN最初因實現困難并沒有被廣泛使用,之后隨著RNN結構方面的進步和GPU性能的提升使得RNN逐漸流行起來,目前RNN在語音識別、機器翻譯等領域取得諸多成果。與CNN對比,RNN與CNN一樣都有參數共享的特性,不同的是CNN的參數共享是空間上的,而RNN則是時間上的,也就是序列上的,這使得RNN對于之前的序列信息有了“記憶”,同其訓練方式是通過梯度下降的方式迭代向前計算。這兩種方式一是可以提高數據的壓縮程度,二是可以通過迭代的方式來控制圖像的碼率,都可以提高圖像的壓縮性能。因此應用RNN的圖像壓縮在對全分辨率圖像壓縮和通過碼率來控制壓縮比都取得了較為不錯的成果,但值得注意的是在采用RNN時多數都需要引入LSTM[19]或者GRU[20]來解決長期依賴問題,因此在模型的訓練上也會更加的復雜。

Toderici等人[21]首次使用了卷積LSTM實現了可變比特率的端到端學習圖像壓縮,可以說該方法是利用RNN進行圖像壓縮具有代表性的方法,它驗證了任意的輸入圖像,在給定圖像質量的情況下都能得到比目前最優壓縮率更好的重建圖像質量效果,但是這一效果限制在32×32尺寸的圖像,這說明了該方法在捕捉圖像依賴關系的不足,為了解決這一問題。Toderici等人[22]設計一種基于殘差塊的剩余編碼器和一個熵編碼器,不僅能夠捕捉圖像中補丁之間的長期依賴關系并結合兩種可能的方法來提高給定質量的壓縮率,并且實現了全分辨率的圖像壓縮。該方法利用RNN梯度下降的訓練方式,提出了一種基于全分辨率的有損圖像壓縮方法。其結構如圖3所示。該方法包括三個主要部分,分別為:Encoder編碼、Binarizer二值化、Decoder解碼。首先對輸入圖像進行編碼,然后將其轉換成二進制代碼,可以存儲或傳輸到解碼器。編碼部分由一個CNN和三個RNN構成,Encoder解碼器網絡根據接收到的二進制代碼創建原始輸入圖像的估計值。Binarizer二值化部分主要通過一個RNN進行,Decoder解碼部分使用卷積-循環網絡的結構對信號進行迭代來恢復原圖像,在迭代的過程中權值共享,并且每次迭代都會產生一個二值化的比特數,同時在每次迭代中,網絡從當前的殘差中提取新的信息,并將其與存儲在循環層的隱藏狀態中的上下文相結合,通過這些信息實現圖像的重建。該方法利用RNN的成功是有目共睹的,使更多人的目光轉向了圖像壓縮。在此之后Johnston等人[23]為了提高框架的壓縮性能,修改了遞歸結構從而改善了空間擴散,使得網絡能夠更加高效地捕獲圖像信息;引入了一種空間自適應比特分配算法,它可以根據圖像的復雜性動態的調整每個圖像的比特率;采用了基于SSIM加權像素損失訓練[24-25],該方法可以更好地感知圖像。

基于深度學習的圖像壓縮框架多采用端到端的方式,并且大多數圖像壓縮系統對空間塊分別進行解碼,而不考慮與周圍塊的空間依賴性,因此Ororbia等人[26]沒有采用端到端的壓縮框架,而是關注了空間塊的相關性,引入了一種有效利用因果信息和非因果信息來改進低比特率重構結構,更專注于系統的解碼器,在算法的設計上采用了非線性估計作為編碼器,將空間上像素的關聯和非關聯的相關性引入了RNN中,利用RNN的局部記憶捕捉短期的因果環境,通過RNN的記憶對圖像斑塊進行逐步改善重建,將圖像壓縮中重建圖像的行為視為一個多步重建問題,建立一個模型使其在有限數量的通道上改進其對某些目標樣本的重建效果,以逐步改善圖像重建質量,達到在給定編碼位數的情況下提高編碼精度,并且根據不同的編碼器和量化方案,尋求最優的非線性解碼器,從而避開如近似、量化等問題,使其可以更好地利用開發編碼器和量化操作。值得一提的是該方法可以用于任意的傳統編碼器中。

3.3 基于生成對抗網絡的圖像壓縮方法

GAN最早由Goodfellow等人提出[14],目前在圖像生成、圖像風格遷移和視頻幀生成等領域獲得了很好的成績。近期在基于GAN的圖像超分辨率[27]也有了諸多成果。GAN的思想是對抗和博弈,在對抗中不斷發展,一個生成器通過輸入噪聲樣本進行生成數據,一個判別器用于接收生成器生成的數據和真實的數據樣本,并且對輸入的真實數據和生成數據做出正確的判斷,通過對生成器和判別器的不斷對抗,使網絡架構得到優化。GAN根據這一特性,通過生成器的生成圖像來不斷“愚弄”判別器,使得最后得到的輸出圖像有更加清晰的紋理,更好的視覺感官效果。

GAN初期的發展由于其生成圖像類型單一,模型訓練難度大,研究人員并沒有將目光投向這一算法,之后隨著GPU運算效率的不斷增加,Rippel等人[28]提出了一篇實時自適應圖像壓縮算法,這是首次將GAN引入到圖像壓縮中,并且該算法在低碼率條件下生成的文件要比傳統的JPEG小2.5倍,通過GPU進行框架部署提高了實時性,該算法在率失真目標函數加入了一個多尺度對抗訓練模型,使得重建圖像與真實圖像更加接近,即使在低比特率的情況下也能產生更清晰的圖片,可以說該算法為基于GAN的圖像壓縮創建了基石;之前的基于深度學習圖像壓縮算法關注點多在重建圖像分辨率或圖像編解碼結構的設計上,Santurkar等人研究的關注點與之前圖像壓縮算法不同,之前研究重建圖像分辨率通常是對于像素目標的優化,而Santurkar等人[29]提出了生成壓縮模型,將合成變換訓練成模型,替代圖像重建的優化,該方法不僅能通過GAN生成高質量的圖像,同時也與編碼器進行了很好的結合,在編碼器中加入GAN,通過不斷優化網絡結構得到更高質量的重建圖像。但是GAN生成圖像有著極大的不穩定性,在生成圖像時有可能生成的圖像具有清晰的紋理,很好的視覺效果,很高的分辨率和清晰度,但與原圖對比卻可能存在明顯差異,這也就形成一種欺詐性的清晰與高分辨率。

通過GAN得到高清正確的重建圖像并非易事,GAN的訓練較為困難,在訓練中要協調好生成器和判別器的訓練程度,若判別器訓練得過于優越那么會使生成器在訓練時發生梯度消失等問題,而判別器訓練的程度不夠時,又會導致生成器會無法生成理想的圖像。為了得到更高分辨率的生成圖像Agustsson等人[30]提出了從語義標簽映射中生成高分辨率重建圖像的算法,該算法不僅在全分辨率的前提下實現了超低碼率的極限壓縮,同時也實現了在低碼率時的高分辨率重建圖像,其訓練結構如圖4所示,其中E和q分別表示編碼器和量化,w?則代表一個壓縮表示,G和D分別為生成器與判別器,通過D來提升G的質量。他們分別采用了GAN、cGAN的生成圖像壓縮和具有選擇性的生成壓縮,生成壓縮用于保留圖像的整體結構,生成不同尺度的圖像結構,選擇性地生成壓縮用于從語義標簽映射中完全生成圖像的各個部分,同時保留用戶定義的具有高度細節的區域。在兩種方式的共同作用下,保證重建圖像的分辨率。

圖4 GAN壓縮網絡結構

目前GAN研究發展火熱,基于GAN的圖像壓縮也有很多優勢:一是GAN可以對全分辨率圖像進行壓縮,體現了該方法有較好的適用性;二是GAN能夠實現極限碼率的圖像壓縮;三是盡管GAN生成的圖像可能存在問題,但是其重建圖像的分辨率和清晰度這一優點是值得被人重視的,尤其是近幾年GAN的深入研究衍生了諸多基于GAN的模型,如:Denton等人[31]提出了Lap-GAN(Laplacian Generative Adversarial Networks)將GAN和cGAN[32]結合,并且通過圖像金字塔的方式能夠產生更高分辨率的圖像;Radford等人[33]將CNN與GAN結合到了一起,提出了DCGAN(Deep Convolutional GAN)的網絡結構。DCGAN能有效地學習物體的特征,且在訓練過程中表現更加穩定;Arjovsky等人[34]提出WGAN(Wasserstein GAN),引入了Earth Mover(EM)距離緩解了GAN在訓練時的不穩的問題。近期GAN的發展迅猛,這些衍生模型都可以嘗試性地應用于圖像壓縮領域。

3.4 對比分析

基于深度學習的圖像壓縮涵蓋了很多不同的算法,每種不同的算法都各有特點,CNN在提取特征方面要比傳統的圖像壓縮變換更好,并且應用RNN和GAN處理圖像壓縮時也經常采用CNN進行圖像特征提取;LSTM作為RNN的模型之一,LSTM模型可以很好地處理、合并空間信息,并且各種具有卷積運算的LSTM,這都使其可能更適用于圖像壓縮;GAN在對圖像的極限壓縮和提高重建圖像質量,以及對圖像數據實時性的壓縮等方面表現良好。由于不同算法目的和評估的側重性不同、使用數據集尺寸和類型也有所不同,文中所述所有算法多數都會給出其重建圖像與JPEG或BPG的RD對比曲線,因此本文根據其文獻中與JPEG或BPG圖像的主觀對比,以及壓縮數據后對比,將對較為經典的算法進行對比與分析,表1為基于深度學習的圖像壓縮方法比較。

4 數據集與評價標準

圖像數據集的種類與對圖像進行評價的標準有很多,這一部分主要是對已經在基于深度學習技術的圖像壓縮方法中應用到的圖像數據集和標準進行總結。

4.1 數據集介紹

使用深度學習的網絡架構完成圖像壓縮訓練時需要大量圖像數據支撐,選擇和采用正確圖像數據集對網絡結構訓練的作用是至關重要的。表2主要介紹在基于深度學習的圖像壓縮算法應用過的數據集。

表2介紹了9種數據集,在具體的使用中需要根據研究人員的實驗目的和實驗方法來選擇合理的數據集應用。具體來講:需要對實驗的可行性進行分析時,可選用Cifar-10或LSUN中的一個場景,這類數據集數據量小,包含內容適中,訓練速度快,可以滿足實驗設計的可行性;當實驗目的定位需求在較高的重建圖像分辨率時,可以采用DIV2K、Flickr這類數據集;當實驗設計網絡結構較深,需要大量且類型多樣化的數據集時,可以采用ImageNet、Open Images V4這類數據集;在實驗設計中需要一些條件特征來進行約束時,如在圖像壓縮使用cGAN時使用圖像的語義信息來對生成器進行約束,就可以選擇Cityscapes、COCO、LSUN這類帶有語義注釋的圖像數據集。

表1 基于深度學習的圖像壓縮方法比較

表2 數據集介紹

用于測試的重建圖像質量的數據集主要有以下Kodak PhotoCD[47]、CLIC、RAISE-1k、Tecnick[48]。這些數據集都有很高的分辨率,如:Kodak PhotoCD數據集的圖像分辨率為762×512,且其像素約達40萬;CLIC作為一個專門為圖像壓縮發起的挑戰賽,其提供的圖像照片的分辨率更高,手機圖片的分辨率為1 913×1 361,專業相機圖片的分辨率為1 803×1 175;Tecnick數據集的像素約達140萬。

4.2 測試標準

圖像壓縮模型大多數采用端到端的形式,將深度學習技術應用到圖像壓縮中,當然也有采用自己獨立的編碼方式,因此圖像評價上,多使用被壓縮后的重建圖像進行圖像壓縮性能的評估。

均方誤差(Mean Square Error,MSE)[49],是計算兩幅相同尺寸圖像像素之間的方差平方和,如式(1)所示。其中M和N分別表示圖像的長與寬,I(x ,y)和I′(x ,y)分別表示待評價圖像與原始圖像,I(x ,y)表示在(x ,y)位置的像素值。MSE是最簡單的圖像評價方式,但是這只能說明兩幅圖像的差異,它不會考慮到圖像高頻像素和低頻像素分量,而圖像壓縮就是需要能更大程度上保留和恢復低頻像素,因此該方法不為常用。

峰值信噪比(Peak Signal to Noise Ratio,PSNR)[50],是兩個圖像峰值誤差的度量,如公式(2)所示,R表示輸入圖像的最大值。PSNR是全參考圖像評價指標,是一種客觀的評價指標,通常來講PSNR大于40 dB說明圖像質量接近原圖,在30 dB與40 dB之間時圖像存在失真,20 dB到30 dB說明圖像質量不好,低于20 dB時說明圖像質量差。PSRN與MSE通常只針對圖像對應像素點間的誤差,并不會考慮到人的視覺特性,因此往往存在出現評價結果與人的主觀感受不一致的情況。

結構相似性(Structural Similarity Index,SSIM)[51],是用于判斷兩幅圖像相似性的指標,SSIM可用于測量經過圖像壓縮后的圖像質量下降,如公式(3)所示,x和y分別代表兩幅圖像,μx、μy代表兩幅圖像的平均像素值,σxy是圖像x和圖像 y的協方差,σ2x、σ2y分別代表圖像x和圖像y的方差。SSIM在進行評價時考慮到了圖像中的可見結構,可以很好地評估圖像壓縮前與圖像壓縮后的圖像質量。

多層結構相似性(Multi-Scale,MS-SSIM)[52],該方法在融合圖像分辨率和觀測條件變化方面比單尺度方法具有更大的靈活性,該方法通過迭代的方式對圖像的各個尺度上進行SSIM,如公式(4)所示,其中lM(X ,Y)表示在M尺度下亮度比較,j表示在第 j尺度下進行比較,cj(X ,Y )表示對比度比較、sj(X ,Y )表示結構比較,將不同尺度下的測量結構結合起來進行SSIM評價作為最后的評價結果。對于指數αM、βj和γj可以取經過實驗得出的經驗值即可,該評價標準已經被證明比SSIM更貼近人的主觀視覺。

MSE和PSNR是最簡單和最廣泛使用的全參考質量度量,其通過平均失真和參考圖像像素的平方強度差異以及峰值信噪比的相關數量來計算的。這些方法計算簡單,物理意義明確,但是其評價存在客觀性。SSIM和MS-SSIM都為主觀的評價方式,這種評價方式最大的優點就是更加貼近人的主觀視覺,因此在圖像壓縮的實驗中,研究人員多采用客觀評價和主觀評價結合來對重建圖像進行評估,即采用PSNR也會使用MS-SSIM或SSIM。除了在采取這兩種措施的同時,也有研究人會讓一部分人來觀察重建圖像,通過觀察人員給出的結論進行統計來對圖像進行評價。

5 深度學習在圖像壓縮領域的未來發展

進入信息時代后,人們對數字圖像的質量要求越發提高,數字圖像也向著更清晰、更高分辨率的方向發展[53]。隨著大數據時代的到來,圖像數據量的增長速度遠超存儲設備和傳輸技術的發展速度,只增加存儲容量和網絡帶寬并不是解決問題的根本方法,尋找更加合理的圖片壓縮算法是解決這一問題的有效辦法之一。深度學習能夠有效地提取圖像的特征信息,不僅能清晰地分辨出圖像的重要信息與冗余信息,同時也可以對特征信息進行很好地表達,還可以對圖像信息進行高分辨率地重建,使圖像在消除冗余信息的同時保持更清晰的分辨率和更好的視覺效果。因此深度學習技術將在圖像壓縮領域得到很好的發展。

圖像壓縮的目的不僅僅是追求更小單位的數據量,在圖像壓縮的同時也追求更好的壓縮比和更高的重建圖像清晰度。下面根據深度學習的特點和圖像壓縮領域的優勢對其未來發展趨勢進行總結與討論:

(1)深度學習對圖像處理任務本身就有著很強的能力,盡管目前有了諸多成果,但如何使用深度學習方法得到高層次緊湊表達;如何通過深度學習的預測能力、記憶能力對圖像上下文關系信息進行更為高效編碼;如何利用GAN等方式圖像的生成能力,生成具有更為真實圖像紋理信息的重建圖像;如何設計更好的網絡模型結構以及模型參數的調優方式來提高圖像壓縮的泛化性;圖像壓縮初期提取的高層次緊湊信息能否應用于機器視覺等其他應用,這些問題都是基于深度學習的圖像壓縮需要不斷深入研究的熱點問題。

(2)由于圖像類型的多樣化,不同的圖像有各自的特征,如海洋圖像大部分以藍色為基調、CT圖像需要對病理區域更加清晰、多光譜圖像數據量大等特征。傳統的圖像壓縮算法不會適用所有的圖像類型,深度學習技術可以根據不同圖像的特征和需求設計針對性圖像壓縮,如孔繁鏘等人[54]提出基于CNN的多光譜圖像壓縮方法,就在保證圖像信息的情況下進一步提升了壓縮性能。因此根據特殊圖像的需求,使用深度學習進行針對性圖像壓縮也是研究方向之一。

(3)圖像編碼技術需要實時性[55],如今基于深度學習的圖像壓縮框架多為深度神經網絡,盡管有著很好的重建圖像分辨率,但難免對實時性和高效有所保證,在面對海量流數據傳輸時也就失去實用性的意義,因此在研究中保障重建圖像質量和高壓縮比的同時,如何使用低復雜度的深度學習方法,提高算法實時性,尋求高性能、高時效性算法也將是該領域的熱點研究問題之一。

(4)基于深度學習的圖像壓縮對于重建圖像已經有了很高的還原度,但是目前的圖像壓縮評價指標多為PSNR和SSIM或MS-SSIM,但是這些指標并不能十分全面精準地衡量重建圖像質量,同時完全采用人的視覺來進行主觀評價將耗費很大的人力與時間,但在現實應用中,圖像更多是被人所觀看、應用,圖像質量往往由人來進行評估。因此建立一個更為精準的圖像評價指標也將是基于深度學習技術的圖像壓縮領域一個熱點研究。

6 結束語

圖像壓縮領域經過了幾十年的不斷發展,雖然已經有了十分成熟的算法與標準,但面對5G時代的海量數據難免捉襟見肘,隨著深度學習技術的突破,基于深度學習的圖像壓縮應用不斷出現,深度學習大概率成為圖像壓縮領域未來發展的助推器。本文通過對傳統圖像壓縮算法的簡述,分析了傳統方法目前存在的問題以及深度學習可以在傳統方法上所作的提升。根據不同的深度學習網絡結構,分別對近幾年有代表性文獻進行了介紹與對比,分析了不同深度學習方法應用于圖像壓縮領域的優點與不足,最后依據深度學習的算法特點、圖像壓縮的實時性需要、圖像壓縮的評價指標對基于深度學習的圖像壓縮研究內容進行了討論與展望。

猜你喜歡
深度方法
深度理解一元一次方程
學習方法
深度觀察
深度觀察
深度觀察
深度觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
提升深度報道量與質
新聞傳播(2015年10期)2015-07-18 11:05:40
主站蜘蛛池模板: 无码久看视频| 伊人久久久大香线蕉综合直播| 婷婷色婷婷| 91成人在线观看| 孕妇高潮太爽了在线观看免费| 四虎永久在线精品影院| 国产伦精品一区二区三区视频优播| 成人在线不卡视频| 色哟哟国产成人精品| 亚洲欧美日韩中文字幕在线| 国产激情无码一区二区APP| 久久伊人色| 日韩国产一区二区三区无码| 极品尤物av美乳在线观看| 日韩毛片免费观看| 欧美视频在线观看第一页| 久久久久亚洲精品成人网| 国产成人在线小视频| 草草线在成年免费视频2| 国产三级视频网站| 亚洲AV色香蕉一区二区| 国产黄色爱视频| 精品久久久久无码| 亚洲IV视频免费在线光看| 精品国产一区二区三区在线观看 | 国产精品人人做人人爽人人添| 国产免费自拍视频| 色网在线视频| 亚洲天堂网2014| 无码AV高清毛片中国一级毛片| 欧美精品二区| 亚洲国产中文精品va在线播放| 91久久偷偷做嫩草影院| 日韩欧美国产成人| 99久久国产自偷自偷免费一区| 2019国产在线| 国产精品浪潮Av| 久久午夜夜伦鲁鲁片无码免费| 国产精品视屏| 国产AV毛片| 亚洲五月激情网| 亚洲经典在线中文字幕| 国产流白浆视频| 99re在线免费视频| 伊人欧美在线| 国产精品播放| 日本www在线视频| 久久综合丝袜长腿丝袜| 久热这里只有精品6| 国内精品免费| 亚洲天堂久久久| 婷婷六月天激情| 一本无码在线观看| 在线a网站| 欧美日韩中文国产| 国产欧美日韩另类| 色婷婷亚洲综合五月| 亚洲三级影院| 成人在线观看一区| 91国内外精品自在线播放| 免费精品一区二区h| 自拍偷拍欧美日韩| 国产乱子伦手机在线| 永久天堂网Av| 亚洲成人精品| 2021最新国产精品网站| 黄色成年视频| 国产乱码精品一区二区三区中文| 亚洲成人精品久久| 天堂中文在线资源| 成人免费黄色小视频| 欲色天天综合网| 久久香蕉国产线看观看式| 国产在线观看91精品亚瑟| 亚洲中文字幕97久久精品少妇| 日韩精品专区免费无码aⅴ| 99精品伊人久久久大香线蕉| 在线观看国产精美视频| 国产精品太粉嫩高中在线观看| 亚洲色图欧美激情| 日本不卡在线播放| 日本高清在线看免费观看|