張振國/ZHANG Zhenguo,楊倩倩/YANG Qianqian,賀詩波/HE Shibo
( 浙江大學,中國 杭州 310058)
當前,中國正大力發展信息產業。無線通信技術的快速發展為智慧城市、高清視頻、自動駕駛、遠程醫療等帶來產業變革。基于物聯網的智能感知網絡迅速發展,在提供便利的同時也帶來了龐大的無線通信數據[1]。數據通信方式不再受限于人?人通信,而是轉變為以目標為導向的通信方式[2]。隨著人工智能的快速發展,基于深度學習的通信為克服傳統通信困難提供新思路。基于深度學習的架構在通信系統中取得了顯著成果,達到甚至超過傳統方案的性能。基于香農定理的1G 到5G 技術已經無法滿足當前的通信需求,基于深度學習的語義通信為下一代無線通信技術帶來更多可能[3-5]。深度學習已被用于優化基于分離模塊設計的傳統通信,如信源編解碼器、信道編解碼器和調制解調模塊[6-8]。文獻[9]建立端到端(E2E)的信源信道聯合編碼(JSCC)通信系統,該系統能夠有效應對傳統通信系統中的瓶頸問題。E2E通信系統的發射器和接收器由深度神經網絡(DNN)組成。編碼器學習輸入數據的特征向量,并通過無線信道將復數符號發送到解碼器進行目標重建。
與傳統通信相比,語義通信側重于傳遞信息的含義,而不是符號的精確傳輸。區別于傳統通信系統利用誤碼率(BER)或符號錯誤率(SER)評估通信結果,語義通信系統通過最小化輸入和重建信息之間的語義損失,來恢復接收器處的信源信息[9]。現有的語義通信系統聯合設計發射器和接收器,以實現更好的傳輸效率和魯棒性[10]。深度學習在語義通信模型中得到廣泛的應用,具有良好的特征提取和學習能力,能夠對信源包含的語義信息進行提取和傳輸[11]。相較于數字通信通信模型,基于深度學習的通信模型不會出現“懸崖效應”。當前,語義通信主要基于深度學習進行開發和探索,并且已經取得一定的效果[12]。基于深度學習的語義通信系統顯示出巨大的潛力,能夠有效傳輸不同類型的信息。隨著物聯網設備的大量部署,以目標為導向的通信方式[2](如人-機、機-機)不斷涌現,這給邊緣設備帶來巨大的通信壓力。語義通信只傳輸目標需要的信息,大大減少數據通信量,提高通信效率。語義通信將成為下一代物聯網無線通信技術的重要組成部分。
信道噪聲干擾是影響無線通信系統性能的主要因素之一,因此提高通信系統應對噪聲環境的魯棒性是傳統通信和語義通信的共同目標。數字通信方案通過增加信道編碼量來提高系統的抗噪能力,使通信量急劇增加。當前,基于深度學習的通信系統通過DNN 緩解噪聲對系統的干擾,同時平衡系統的通信量。文獻[13]提出了一種用于通用無線信道的基于深度學習的端到端通信系統,其中信源編碼、信道編碼、調制解調等傳統模塊被DNN 所取代。該端到端系統以數據驅動的方式成功地利用各種相關性,獲得較好的結果。文獻[14]提出了一種基于強化學習的方法,在不知道信道傳遞函數或信道狀態信息(CSI)的情況下優化發送端DNN。在實際系統中,由于存在信令和檢測方案的損傷、硬件缺陷、變化的信道條件等情況,經過訓練的網絡所得到的信道與用于訓練網絡的信道顯著不同。文獻[15]使用隨機擾動方法設計了一個無信道模型的端到端通信框架。該模型在真實信道中訓練基于深度學習的通信系統,不需要對信道模型進行任何假設。文獻[16]開發了一種基于條件對抗生成網絡(StyleGAN)的方法,用于構建端到端通信系統,其中StyleGAN 用于構建信道效應模型。該模型將與導頻數據相對應的接收信號作為調節信息的一部分,在接收機處獲得信道狀態信息,并將其用于信號檢測。
近年來,研究人員提出了多種基于深度學習的語義通信系統,旨在提高在噪聲信道上自然語言傳輸的性能。文獻[17]提出了一種用于自然語言的JSCC系統,通過最小化E2E失真,實現比傳統方法更好的通信性能。文獻[18]提出了兩種方案來處理有限的數據速率問題:自適應傳輸方案和廣義數據表示方案。其中,自適應傳輸方案可以在不同信道條件下以均方誤差(MSE)約束最大化數據速率;廣義數據表示方案取代了one-hot表示,以獲得更高的數據速率。文獻[19]則提出了一種新型語義通信系統,通過信道估計輔助訓練實現文本重建。與文本語義通信系統相比,語音信號難以提取和表示基本的語義特征。研究人員使用多種方法來開發用于語音信號傳輸的語義通信系統,文獻[20]提出了一種基于深度學習的語音通信系統。該系統通過聯合訓練語義和信道編解碼器,學習和提取語音特征,同時利用注意力機制減輕實際通信場景中的信道失真和衰減,使系統獲得更好的通信性能。文獻[21]采用波向量(wav2vec)來提取音頻語義特征,并通過強化學習(RL)提高特征提取的準確性。
針對圖像信息的壓縮和傳輸問題,基于深度學習的圖像壓縮技術已經成為研究熱點。一系列的圖像無線信號通信系統相繼產生。文獻[22]提出了一種基于深度學習的無線圖像傳輸系統,實現基于E2E 的JSCC,使用峰值信噪比(PSNR)和結構相似性指數(SSIM)測量重建圖像的質量。在JSCC 的基礎上,另一種具有信道反饋的圖像重建方案DeepJSCC-f,通過接收來自接收器的信道反饋,進一步提高圖像重建精度[23]。文獻[24]提出了基于正交頻分復用(OFDM)數據路徑的JSCC 方案,用于多路徑衰落信道的無線圖像傳輸。該通信方案通過整合專家知識實現了更好的性能。文獻[25]開展了物聯網(IoT)設備用于圖像傳輸的研究,通過將兩個DNN 的聯合傳輸識別方案部署在設備端,在識別精度上比傳統方案更好。文獻[26]提出了聯合特征壓縮和傳輸系統,以處理邊緣服務器上有限的計算資源。該方案不僅提高了E2E 的可靠性,而且降低了計算復雜度。此外,M. JANKOWSKI等提出了基于自編碼器嚴格約束的設備邊緣通信系統,在有限的計算能力下實現了更好的分類精度[27]。文獻[28]提出了一種新的航空圖像傳輸范式,在無人機端部署一個輕量級模型,用于感知圖像和信道條件的語義傳輸模塊,在接收端通過計算能力更強的基站對收到的信息進一步處理,提高分類精度。文獻[29]提出了基于深度學習的用于傳輸單模態和多模態數據的多用戶語義通信系統,通過在編碼器和解碼器層之間添加連接來融合多模態數據,實現圖像檢索和視覺問答等功能。然而,當前仍缺乏對于圖像語義的評估準則,導致語義通信系統的圖像恢復仍需要使用傳統的圖像重建準則來衡量系統性能。
語義通信作為下一代通信技術的重要組成部分,為新一代的通信變革提供新方法。目前,語義通信發展仍處于探索階段。作為下一代通信技術的重要組成部分,語義需要理論和技術的雙重發展。目前,語義通信在數學理論證明方面仍未得到普遍認可,在技術方面深度學習的機理和可解釋性仍然有待研究。本文是在技術層面對圖像語義通信的一次探索,通過簡單的通信環境假設,驗證通信系統的可行性;通過基于深度學習的圖像信息挖掘,探索信息內容的語義性對信息傳遞的影響。實驗結果表明,本文所提出的語義通信系統具有較好的魯棒性,特別是在有限帶寬條件下更具優勢。這表明高級語義信息在圖像傳輸中具有優勢。
圖像語義通信模型的一般框架如圖1所示。與傳統通信系統相同,語義通信系統包含發送端、無線信道和接收端3個部分。兩者的主要區別在于語義通信系統所采用的編解碼方式。語義通信系統將信源信道的編解碼作為一個整體。信道編解碼在應對噪聲的同時對信源編碼信息的重要程度進行衡量,為其中重要的信息分配更多的符號位以進行編碼。針對信源中的語義內容,語義編碼對有含義的信息進行編碼表達,其過程實際就是對信源中語義概念的高度抽象與壓縮。為提高圖像無線通信的高效性和準確性,本文提出一種面向語義的圖像通信系統,該系統通過聯合信源語義編解碼和信道編解碼的方式,提高系統的通信效率和魯棒性。

▲圖1 圖像語義通信系統
編碼器由兩部分構成:語義特征提取器和聯合語義信道編碼器。具體過程為:首先,編碼器的輸入圖像S由歸一化層預處理,使得每個元素都在[0,1]范圍內;其次,通過多個基于神經網絡的多級語義特征提取器提取輸入圖像的不同語義特征;最后,利用聯合語義信道編碼器將語義特征編碼為符號,通過物理通道傳輸到接收器,傳輸向量x:
其中,Tα(?)為多級語義特征提取網絡,網絡參數為α;Tβ(?)為聯合語義信道編碼器,網絡參數為β。
本文所提方案在一個廣泛使用的物理信道——加性白高斯噪聲(AWGN)信道上進行模型測試。則解碼器上接收到的信號y為:
其中,w 為圓對稱高斯分布的獨立同分布向量,w~CN(0,σ2I),σ2為信道的平均噪聲功率,I為單位矩陣。
解碼器也由兩部分組成:聯合語義信道解碼器和圖像重建模塊。聯合語義信道解碼器減輕信號在AWGN 信道的噪聲干擾,并恢復多級語義特征。圖像重建模塊融合不同層次的語義信息并重建目標圖像。反歸一化層將每個元素重新縮放為圖像像素值(0~255)。聯合語義信道解碼器和圖像重建模塊的參數為ξ和η,接收器重建圖像為:
其中,Rξ(?)和Rη(?)分別為聯合語義信道編碼器和圖像重建模塊,y為從信道接收到的信號。
本文提出一種基于深度學習的無線圖像傳輸語義通信系統,如圖2所示。其中,多級語義特征提取器用于提取不同級別的語義特征。高級語義信息包含圖像的抽象性和通用性指標,低級語義信息包含圖像的局部細節語義信息[30]。該系統通過基于深度學習的特征提取器提取信源特征,并通過與語義信道的聯合訓練給不同的信息賦予不同的權重。語義信道編碼器和解碼器聯合在接收器處成功恢復這些語義特征,并通過圖像重建模塊對多級語義信息進行融合并重構目標圖像。

▲圖2 圖像語義通信系統的整體架構
對于輸入圖像S ∈?b×h×w×3,首先通過歸一化層將像素值映射到[0,1]范圍,其中b、h和w分別為圖像的批數量、高和寬,3表示圖像對應的圖像通道數。一個批次的圖像數據會被送入多級語義特征提取器。該提取器包含3個模塊:語義特征模塊、分割特征模塊和低級特征模塊。不同模塊分別提取不同層級和不同形式的圖像語義信息。語義特征模塊包含一個預訓練的圖像字幕模型,該模型由ResNet-152 模型[31]和長短期記憶網絡(LSTM)[32]層組成,用于提取圖像文本形式的高級語義信息,其中t 為下采樣因子。文本形式語義特征是帶有圖像紋理信息的文本嵌入信息。為了方便理解,本文稱這些特征為“文本形式”。分割特征模塊通過預訓練的圖像分割[33]模型獲取圖像分割形式的高級語義信息a ∈?b×h×w×1。低級特征模塊由兩部分組成:聯合部分和直取部分。其中,聯合部分通過concatenate按通道維度將歸一化圖像和分割特征相結合,并輸出f ∈?b×h×w×1;直取部分為直接輸入歸一化后的圖像特征。低級特征模塊主要用于圖像細節特征的提取,為高級語義信息做細節補充,實現更豐富的信息重構。超參數l控制低級特征傳輸信息量,該參數決定通信量和目標信息的重建質量。
通過多級語義特征提取器可獲得4種類型的目標語義信息特征:文本形式特征p、圖像分割特征a、聯合特征f和圖像歸一化低級特征。語義特征p首先通過全連接層進行維度壓縮,進而通過整形層和編碼模塊輸出,其中×1表示維度信息。語義特征a和f分別輸入兩個獨立的編碼器模塊,并輸出不同的特征維度信息和。c3和cl除了最后一層的輸出通道數不同外,其他結構均相同。編碼器模型cl獲取圖像細節信息特征。聯合層將獲取的不同內容的特征c1,…,cl進行聯合和壓縮,并輸出進而通過功率歸一化層生成k 個數傳輸符號x,同時這些符號的發射功率低于給定值,其中信道帶寬壓縮比為,該值可根據信道環境自適應調整。高級語義信息是目標重建的增強信息。 當e = 1 時, 聯合語義信道編碼輸出為
接收端的重塑層將接收到的信號重組為qi,i = 1,…,l個語義特征,其尺寸為。當連接接收到的符號的實部和虛部時,最后一個維度加倍,如。同樣,qi使用第3i ?1 和3i + 1 元素的最后一個維度,。每個qi,i = 1,…,l 都輸入到解碼器模塊,其具有相同的卷積核尺寸(m=3),如圖3所示。每個解碼器的輸出語義特征為其中o為輸出通道數。卷積神經網絡的架構由m × m × o/st參數構成,其中m、o 和st 分別是卷積核尺寸、通道輸出數量和步長。每個卷積層之后為廣義的歸一化變換層(包括廣義除數歸一化(GDN)和逆GDN(IGDN))。

▲圖3 編碼器模塊、解碼器模塊結構示意圖
圖像重建模塊需要融合不同形式和內容的語義特征,完成不同語義內容之間的相互補充,通過注意力機制深度挖掘融合信息,進而將融合特征重建為目標圖像。首先借助雙特征融合模塊對兩種形式的高級語義特征進行融合,即雙特征融合模塊通過交叉結構和通道注意力機制(CA)學習輸入特征;然后通過像素上采樣模塊對特征信息升維,其中像素上采樣模塊由卷積層和像素上采樣層構成;最后將相同維度的高級語義信息和低級細節補充信息進行級聯操作,通過殘差網絡對融合后的信息進行提取并重建目標圖像。殘差網絡由反卷積層和PReLU 激活函數構成(最后一層為sigmoid 激活函數),其網絡結構如圖4 所示。在圖像重建模塊中,不同形式特征生成的粗糙圖像含有不同的成分,例如比較平滑的低頻信息和充滿邊緣、紋理的高頻信息。同時,卷積層的每個過濾器都包含一個局部感受野,其輸出無法利用局部信息之外的上下文信息。因此,通過通道注意力機制改變特征權重,能夠提高重要信息的權重占比。通道注意力機制的網絡結構如圖5所示。

▲圖4 圖像重建模塊結構示意圖

▲圖5 通道注意力機制網絡結構示意圖
根據設計模型特點,需要使用具有多類型標簽的數據集對模型進行訓練。本文使用MSCOCO[34]和ADE20K[35]數據集訓練和評估所提出的系統。MSCOCO 數據集包含123 287 張圖像(82 783 張用于訓練,40 504 張用于測試),每張圖像都包含5 個不同的字幕標題。ADE20K 數據集包含27 574 張圖像、150 個語義標簽,圖像高度和寬度至少為512 像素。訓練模型時,每個圖像都被裁剪為固定大小:h = 128,w =128。對于文本形式特征,本文使用帶有文本標簽的MSCOCO 數據集來訓練語義特征模塊CaptionNet[24-25],并使用帶有分割標簽的ADE20K數據集來訓練系統的其余部分(凍結語義特征模塊)。最后,本文在Kodak[36]圖像數據集上測試所提出的圖像無線通信系統。Kodak數據集總共包含24張固定尺寸768×512的圖像。
所提模型在Pytorch[37]中實現。并使用Adam算法[38]進行優化。學習率設置為0.000 1,批次大小設置為32,下采樣因子t = 8。本文采用現有的基于深度學習的方法(DeepJSCC 和Aided Deep-JSCC[39]),以及傳統的基于分離的數字傳輸方案(JPEG)作為基準進行比較,并使用PSNR 和SSIM 指標來評估性能。PSNR 表示信號最大可能功率和影響其表示精度的破壞性噪聲功率的比值,,其中d(x,y) 為均值誤差,MAX 表示圖像點顏色的最大數值。SSIM 使用3 個標準度量圖 像 : 亮 度 、 對 比 度 和 結 構 。 SSIM =,其中μ 為亮度,σ 為對比度,C1和C2為常數。Aided Deep-JSCC是一種用于無線傳感器網絡的分布式語義通信方案。其中,每個傳感器觀察并編碼一個公共圖像,并通過無線信道獨自將其發送給接收器。接收器融合來自不同傳感器的信息并重建原始圖像。該方案類似于本文所提方案,即從原始圖像中提取多個版本的語義信息,并將其發送給接收者以用于信源信息的重建。根據香農分離定理,傳輸速率必須降低信道容量,通過物理信道傳輸的信源信息需要滿足,其中R 為信源信息的傳輸速率,log2(1 + SNR)為信道容量,k 為信道維度,n為圖像維度。信源信息在物理信道上可靠傳輸的最大速率為Rmax。傳統的圖像壓縮方案具有最小壓縮碼率Rmin,這是接收端重建目標圖像的極限。如果Rmin> Rmax,則接收器無法重建輸入圖像。為信噪比,其中Ps為信號功率,Pn為噪聲功率。
圖6 對比了不同壓縮比下圖像重建PSNR 的性能表現。可以看出,本文所提算法優于其他深度學習方案和傳統方案。同時,基于深度學習的圖像通信系統不會因“懸崖效應”(信道條件低于某個閾值,接收器無法恢復傳輸的圖像)而遭受大幅的性能下降。數字傳輸方案在較差的信道環境中(SNR<10 dB)和低壓縮比(k/n < 1/10)條件下引發系統崩潰,而基于深度學習的系統仍然可以完成目標信息的重建。本文所提方案中的聯合語義信道編解碼方案能夠均衡分配信源信息編碼和抗噪編碼字符數,使得在信號壓縮和重建過程中能夠更好地表達語義信息。在低壓縮比信道情況較好的環境中,本文所提方案性能與DeepJSCC模型相近。這是由于:在低壓縮比下,發射端沒有足夠的帶寬來傳達更詳細的圖像細節信息,導致系統重建目標在細節信息的刻畫上不足。隨著壓縮比的增大,本文所提算法性能與其他方案之間的差距逐漸拉大。這進一步體現出所提模型在抗噪和信息恢復上的優勢。

▲圖6 AWGN信道上具有不同壓縮比的PSNR和SSIM性能比較
圖6 同時展示了不同方法在SSIM 評估標準下的性能比較。SSIM 從圖像結構方面反映了原始圖像和重建圖像之間的相似性。本文所提方案在低壓縮比及較差的信道條件下(例如,SNR=0)的性能顯著優于其他方案。Aided Deep-JSCC 系統將SSIM 和MSE 作為損失函數,在SSIM 指標上具有更好的性能。本文所提方法的圖像重建模塊對高級語義信息進行深度挖掘,并利用殘差網絡對融合后的多級信息進行學習,進而提高圖像重建質量;在低壓縮比信道環境較好的情況下,依然能夠達到與Aided Deep-JSCC 方案相同的性能(本文所提方案中并未使用SSIM 作為損失函數)。在高壓縮比情況下,Aided Deep-JSCC 的重建質量最差。這是由于:Aided Deep-JSCC 方案中的每個傳感器都獨立于圖像進行編碼,在不同編碼器之間引入了語義信息冗余,造成不必要的帶寬浪費。而本文所提出的方案以聯合的方式提取多級語義信息,強制不同編碼器獲得的語義信息不同,相對提高了不同壓縮比在較差物理信道情況下(SNR<10 dB)SSIM 的評分,進一步證明了所提方案在帶寬有限、信道條件惡劣情況下的優勢。
圖7比較了本文所提方案和基準方法在Kodak 數據集上的PSNR 性能表現。在AWGN 信道環境下壓縮比k/n 設置為1/16,數字通信方案信源編解碼采用JPEG,信道編解碼為低密度奇偶檢查碼(LDPC),使用4 符號正交幅度調制(QAM)數字調制方案。如圖7 所示,本文所提方案優于其他基于深度學習的方法,表現出多級語義信息在無線圖像傳輸上的優勢。同時,采用數字通信方案的圖像傳輸質量遠低于基于深度學習的方法。造成該現象的主要原因是傳統方案對信道變化引起的信道錯誤率比較敏感。由于可用于壓縮的位數是固定的,當信道環境達到一定閾值后,數字通信方案圖像重建質量不會再提高。在SNRtest< SNRtrain的情況下,本文所提系統不會受到數字傳輸方案中的“懸崖效應”的影響。相反,本文所提方案隨著信噪比值的降低,性能平滑地下降,其能夠平衡壓縮比和魯棒性之間的重要層度。如果模型以高SNR 值訓練,則系統的PSNR性能主要由帶寬壓縮比決定,反之亦然。本文所提方法的PSNR性能,比Deep JSCC高1.37~1.96 dB,比Aided Deep-JSCC高3.37~7.39 dB,比傳統方法高6.8~9.06 dB。相較于Aided Deep-JSCC的指標波動性,本文所提方法在面對不同信道環境時具有更平滑的性能表現。如圖8所示,相比于靜態信道環境,本文所提方案的圖像重建質量仍具有較好表現,這說明網絡具有估計信道狀態的能力。

▲圖7 不同圖像無線傳輸方案在Kodak數據集上PSNR的性能比較

▲圖8 在SNR=13 dB和壓縮比為1/16的情況下不同方法的可視化比較
本文提出了一種基于深度學習的無線圖像傳輸語義通信系統,與其他基于深度學習和基于分離的數字傳輸方案相比,性能表現優異。仿真結果表明,所提出的語義通信系統的有效性和魯棒性均優于其他方案。
隨著無線通信技術的快速發展,未來6G 高效、智能的通信方式,將給工業生產和大眾生活帶來顛覆性的變革。語義通信作為新一代通信方式,將助力6G 發展。然而,有關語義通信的關鍵技術和理論基礎仍需要進一步發展和完善。本文僅作為語義通信的一次嘗試和探索。語義通信技術的發展還需要更多的專家學者共同推進。