999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語音信源的語義編碼傳輸方法研究

2023-05-13 08:44:36牛凱NIUKai姚圣時YAOShengshi戴金晟DAIJincheng
中興通訊技術(shù) 2023年2期
關(guān)鍵詞:語義信號模型

牛凱/NIU Kai,姚圣時/YAO Shengshi,戴金晟/DAI Jincheng

( 北京郵電大學(xué)泛網(wǎng)無線通信教育部重點實驗室,中國 北京100876)

過去70年,通信技術(shù)取得了突飛猛進(jìn)的發(fā)展?;诮?jīng)典信息理論[1],先進(jìn)的編碼技術(shù)包括信源編碼、信道編碼,已經(jīng)逼近了信源熵/率失真函數(shù)以及信道容量。然而,經(jīng)典信息論只研究語法信息,致力于信息傳輸?shù)挠行院涂煽啃?。從認(rèn)識論觀點看,信息分為3個層次:語法、語義和語用[1]。C. E. SHANNON 和W. WEAVER[2]指出了通信的另一層面,即通信的語義問題以及有效性問題。得益于人工智能技術(shù)的發(fā)展,之前未能被解決的信息的語義及語用層次重新得到了研究人員的關(guān)注。北京郵電大學(xué)張平院士深入分析語義信息特征,提出語義基(Seb)模型[2],指出語義信息可以用Seb 進(jìn)行表征。張平院士提出“智簡(Intellicise)”理念[4],進(jìn)一步提出模型驅(qū)動的語義通信框架,實現(xiàn)通信系統(tǒng)由傳輸比特演進(jìn)為傳輸經(jīng)語義處理得到的新特征,例如Seb等。牛凱等深入研究了從經(jīng)典通信到語義通信的范式轉(zhuǎn)變,提出了語義通信系統(tǒng)的基本框架[5-7]。其他團隊也對語義通信開展了多項研究工作:石光明等提出了語義通信的基本框架[8],秦志金等針對語義通信系統(tǒng)探討了深度學(xué)習(xí)賦能的語義通信理論、框架和系統(tǒng)模型[9],北京交通大學(xué)、帝國理工大學(xué)團隊分析了信源信道聯(lián)合編碼在語義通信中的應(yīng)用[10]。本文總結(jié)并回顧已有的面向語音信源的語義編碼傳輸方法,并指出未來的研究方向。

語音編碼一直是移動通信中的基礎(chǔ)問題,其目的是獲得語音信號的緊湊表征,從而實現(xiàn)高效傳輸。波形編碼和參量編碼是傳統(tǒng)語音編碼的兩大主流方法。波形編碼旨在編碼端對波形信號進(jìn)行數(shù)字化,并在解碼端盡可能重構(gòu)波形,以脈沖編碼調(diào)制(PCM)、差分脈沖編碼調(diào)制(DPCM)和自適應(yīng)差分脈沖編碼調(diào)制(ADPCM)[11]為代表。通過傳輸聲學(xué)模型的系數(shù),參數(shù)編碼以低比特率成本提供了可比較的重建質(zhì)量。線性預(yù)測編碼(LPC)引入了信源-濾波器模型,它的參數(shù)通過線性來預(yù)測,并根據(jù)語音樣本來確定。碼激勵線性預(yù)測(CELP)[12]是一種結(jié)合波形編碼和LPC 模型的混合編碼方法,適用于窄頻帶和中頻帶語音編碼。Opus 是近幾年性能較好的開源音頻編碼器[13],支持動態(tài)可調(diào)速率以及從窄帶到全帶寬的音頻編碼。其中,語音編碼采用了基于LPC的SILK和能量約束重疊變換(CELT)編碼器。

現(xiàn)有的通信系統(tǒng)采用傳統(tǒng)的音頻編碼器級聯(lián)信道編碼的方法,但其編碼信息與語義無關(guān),且易出現(xiàn)差錯傳播的情況。從語義信息傳輸?shù)慕嵌葋碓O(shè)計傳輸方法,可以在語義空間內(nèi)糾正信道傳輸引起的偏差。這種方法的針對性更強,最終可以提升端到端的編碼傳輸效率?;谏窠?jīng)網(wǎng)絡(luò)的語音編碼方法已經(jīng)有了初步研究,引入線性預(yù)測和基于變分自編碼器的矢量量化(VQ-VAE)[14],可以將語音特征以低速率傳輸。這些方法對語音信號的語義編碼傳輸起到了指導(dǎo)作用。傳統(tǒng)語音評價指標(biāo)的不可微的性質(zhì)導(dǎo)致無法直接用于語義編碼模型優(yōu)化,因此尋找合適的語音信號的語義傳輸?shù)母兄獌?yōu)化函數(shù)至關(guān)重要。

1 語義通信系統(tǒng)簡介

語義通信系統(tǒng)的模型[5]如圖1 所示,參照C. E.SHANNON 和W. WEAVER 的思想[2],該模型分為Level A 技術(shù)級通信與Level B 語義級通信兩個層級,具體由信源、語義知識庫、語義發(fā)射機、信號發(fā)射機、信道、信號接收機、語義接收機、信宿8個部分組成。

其中,語義知識庫包括信道環(huán)境特征、信源及任務(wù)特征,可以對語義發(fā)射機/接收機、信號發(fā)射機/接收機起到指導(dǎo)作用。語義編碼傳輸問題即如何在語義知識庫的指導(dǎo)下進(jìn)行語義發(fā)射機/接收機和信號發(fā)射機/接收機的編譯碼設(shè)計問題。

▲圖1 語義通信的系統(tǒng)模型

語音信源的語義傳輸任務(wù)通常分為兩大類:1)面向聽覺的語音信號傳輸;2)傳遞內(nèi)涵文本信息的語音信號傳輸。兩類任務(wù)的語義編碼優(yōu)化設(shè)計準(zhǔn)則也不同:面向語音文本內(nèi)容的傳輸以誤詞率、文本重合度為語義傳輸性能的主要評價指標(biāo);面向人的聽覺的語義傳輸主要考慮的是人的主觀感受。針對如何提高人的主觀感受(或稱為感知編碼),研究者提出了客觀語音質(zhì)量評估(PESQ)[15]、ViSQOL[16]等語音感知質(zhì)量評價指標(biāo)。在語音質(zhì)量的主觀評價方面,除平均主觀意見分(MOS)外,常見的還有多激勵隱藏參考基準(zhǔn)測試(MUSHRA)[17]方法。

2 面向語音的語義編碼傳輸方法

語音信源的語義編碼傳輸一般包括兩類方法:基于波形的語義編碼傳輸和生成式的語義編碼傳輸。

2.1 基于波形的語義編碼傳輸

基于時域波形信號的語義編碼傳輸方法直接從語音波形信號中提取語義特征并映射為信道中的傳輸符號。此類方法屬于信源信道聯(lián)合編碼范疇。利用深度神經(jīng)網(wǎng)絡(luò)的信源信道聯(lián)合編碼,重建質(zhì)量隨信噪比的降低而柔和降低,不存在懸崖效應(yīng)。QIN Z. J.等針對語音信源,構(gòu)建了一種面向語音信源的深度語義通信網(wǎng)絡(luò)(DeepSC-S)[18],提高了語音信號的重建質(zhì)量。該方法主要利用卷積神經(jīng)網(wǎng)絡(luò)與“壓縮-激勵”模塊提取語音信源語義特征,實現(xiàn)從信源數(shù)據(jù)到信道中傳輸符號的映射。該編碼過程與信道條件有關(guān),達(dá)到信源信道聯(lián)合編碼的效果。

語音信源向量s ∈Rm經(jīng)過編碼神經(jīng)網(wǎng)絡(luò)fe映射,得到語義編碼向量x ∈Rk,滿足編碼約束x = fe(s; ?e)。其中,?f為DeepSC-S 編碼器模型參數(shù)。經(jīng)過加性高斯白噪聲(AWGN)信道后,解碼器輸入語義向量為y = x + n。其中,n ~N(0,Ik)是獨立同分布的高斯噪聲向量,是噪聲方差,Ik是單位陣。接收端譯碼器由卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成,經(jīng)過解碼,得到輸出向量x?= fd(y; ?d)。最后,整個模型聯(lián)合進(jìn)行端到端聯(lián)合訓(xùn)練,損失函數(shù)為:

DeepSC-S的PESQ-SNR曲線如圖2所示,在不同信道中的相同信噪比下,DeepSC-S(紅色)的性能優(yōu)于傳統(tǒng)分離式編碼PCM+Turbo碼的性能。

▲圖2 DeepSC-S的PESQ-SNR曲線[18]

然而,DeepSC-S 對不同幀語音信號的編碼速率是相同的,且提取的語義特征不明確,無法區(qū)分不同語音幀上的內(nèi)容差異、語義差異,即無法從細(xì)粒度上刻畫語義信息量的多少,因此難以獲得接近于熵編碼的壓縮增益。這導(dǎo)致傳輸帶寬較高,且編碼效率較低。

為了進(jìn)一步提高語音信號的語義傳輸效率,我們借鑒了非線性變換編碼的思想[19-21],設(shè)計了基于非線性變換的語音語義信源編碼方案[22]和語義編碼傳輸方案[23]。下面我們簡要介紹兩種方案的基本原理。

基于信源變換編碼的流程如圖3所示。首先,語音經(jīng)過分幀預(yù)加重等預(yù)處理后再經(jīng)波形分析變換就可得到語義特征向量y = ga,?g(x),其中?g為波形分析網(wǎng)絡(luò)的模型參數(shù)。其次,一對超先驗編譯碼器將語義特征向量y變分建模為簡單的高斯分布,從而使用算數(shù)編碼器根據(jù)概率值對語義向量y進(jìn)行熵編碼。在收端,波形綜合變換網(wǎng)絡(luò)將恢復(fù)的語義特征向量yˉ重構(gòu)為語音波形信號?= gs,ψg(),其中ψg為波形綜合網(wǎng)絡(luò)的模型參數(shù)。

▲圖3 基于非線性變換的語音信源語義編碼流程圖

在端到端優(yōu)化時,為解決量化不可導(dǎo)的問題,引入了取值范圍為的均勻噪聲,得到語義特征向量的近似量化形式。類似地,超先驗向量z 也可近似量化為?,從而得到了熵模型:

其中,z = ha,?h(y),?h為超先驗編碼器的參數(shù)集合,N(μ,σ2)表示均值為μ,方差為σ2的高斯分布,*表示卷積。

變換編碼的優(yōu)化問題是一個有損信源編碼問題。若語音語義傳輸是面向人主觀聽覺感知質(zhì)量的,那么優(yōu)化語音的主觀感知質(zhì)量比波形失真更加重要。總的來說,該問題可以轉(zhuǎn)變?yōu)樽钚』鎸嵉穆?lián)合后驗概率與實際概率密度分布的KL散度,即:

其中,等式后大括號內(nèi)第1、2 項刻畫了y 和z 的編碼速率,第3項刻畫了失真度量,第4項為求均值后為常數(shù)。

基于非線性變換的語義編碼的率失真性能曲線如圖4所示。我們可以發(fā)現(xiàn),在低速率時,相較于自適應(yīng)多速率寬帶語音編碼(AMR-WB)[23]以及基于變分自編碼器的矢量量化(VQ-VAE)神經(jīng)網(wǎng)絡(luò)編碼,基于非線性變換的語義編碼的感知質(zhì)量優(yōu)勢明顯;在高速率時,PESQ 也與Opus 性能相近。

▲圖4 基于非線性變換的語音語義編碼PESQ分?jǐn)?shù)(取值為1.0~4.5)

在非線性變換語義信源編碼的基礎(chǔ)上,語音信源的語義-信源信道聯(lián)合變換編碼不用對語義特征向量量化并熵編碼,而是將其映射為信道傳輸符號,其流程如圖5所示。一方面,語義特征向量y需要通過超先驗編解碼器將其變分建模為高斯分布。此步驟是為了用語義特征向量的概率分布及概率值來衡量該語音幀的內(nèi)容復(fù)雜度,從而決定編碼所需要的符號數(shù)。另一方面,利用Transformer[24]網(wǎng)絡(luò)構(gòu)成的信源信道聯(lián)合編碼器,可以將N 幀的語義特征向量y1,…,yN映射為信道中傳輸符號序列s = fe,?f(y1,…,yN)。其中,?f為信源信道聯(lián)合編碼器的參數(shù)集合。每個語義特征向量最終的編碼長度由熵模型給出。

▲圖5 基于非線性變換的語音語義信源信道聯(lián)合編碼系統(tǒng)結(jié)構(gòu)

對于傳輸問題,其優(yōu)化函數(shù)轉(zhuǎn)變?yōu)槎说蕉说穆适д鎯?yōu)化問題,速率此時定義為傳輸帶寬,訓(xùn)練的損失函數(shù)如公式(4):

圖5中基于Transformer網(wǎng)絡(luò)的信源信道聯(lián)合編/譯碼器包括4層8頭注意力層,維度為1 024。語音數(shù)據(jù)來自于TIMIT(英文語音數(shù)據(jù)集)[25],采樣率為16 kHz。圖6 給出了不同信道下基于非線性變換的語義編碼傳輸方法的仿真結(jié)果。圖6(a)為AWGN信道在傳輸帶寬為4 kHz的條件下,不同編碼傳輸方法在PESQ評估指標(biāo)下的端到端率失真曲線圖以及主觀得分箱線圖;圖6(b)為COST2100衰落信道[26]在傳輸帶寬10 kHz、平均信噪比為2 dB 的條件下,不同編碼方案的PESQ評估指標(biāo)下的端到端率失真曲線圖及MUSHRA主觀得分箱線圖。其中,紅色線為非線性變換語義編碼傳輸方法的曲線,藍(lán)色線和綠色線為傳統(tǒng)分離式編碼方法曲線。我們可以發(fā)現(xiàn),在相同主觀/客觀感知質(zhì)量指標(biāo)下,相較于傳統(tǒng)語音編碼的AMR-WB、Opus編碼器級聯(lián)5G LDPC信道編碼,以及DeepSC-S,基于變換編碼的語音語義傳輸所需帶寬更少,且在衰落信道中也表現(xiàn)出更加出色的魯棒性。

▲圖6 基于非線性變換的語音語義編碼傳輸重建語音質(zhì)量性能

2.2 生成式語音語義編碼傳輸

生成式語音語義編碼傳輸?shù)难芯抗ぷ髂壳斑€較少,HAN T. X.等研究了上述所說的兩種語音語義傳輸?shù)姆妒絒27]。在語音傳輸范式中,HAN T. X.等將卷積神經(jīng)網(wǎng)絡(luò)級聯(lián)雙向長短期記憶網(wǎng)絡(luò)(LSTM)作為語義編碼器,對語音幀的40 組頻率濾波器系數(shù)進(jìn)行語義特征提取。同時, 他們還借鑒了FastSpeech2[28]的做法,通過對齊模塊預(yù)測每幀對應(yīng)的子單詞,并計算每個音素的音高、功率等聲學(xué)特征。在接收側(cè),文本特征、聲學(xué)特征向量經(jīng)對齊級聯(lián),由文本-語音綜合器恢復(fù)語音頻譜,最后聲碼器根據(jù)頻譜重新生成語音波形,生成效果如圖7 所示。重建語音的MOS 在AWGN 信道中的各個信噪比下都優(yōu)于DeepSC-S。

▲圖7 生成式語音語義編碼傳輸效果[27]

生成式語音語義編碼傳輸?shù)膬?yōu)勢在于所需帶寬少,無須將語音波形信號的全部信息編碼,利用人的聽覺特性用少量的濾波器組在編碼前就可將高采樣率的波形信號轉(zhuǎn)化為低采樣率的聲學(xué)特征信號,這樣可以降低數(shù)據(jù)量。但根據(jù)數(shù)據(jù)處理定理,對語音信號的處理會導(dǎo)致部分信息的損失。如果接收側(cè)關(guān)注編碼語音特征以外的信息,則會導(dǎo)致語義傳輸?shù)男Ч儾?。另外,生成式的語義編碼傳輸方法通過生成模型來重建語音波形,生成過程的復(fù)雜度、編譯碼器模型的訓(xùn)練難度都將給生成式語義編碼傳輸方法的設(shè)計和實際應(yīng)用帶來挑戰(zhàn)。

近兩年,生成模型正在快速發(fā)展,人工智能生成內(nèi)容(AIGC)的質(zhì)量及自然度逼近人類??梢灶A(yù)見,基于生成式的語音編碼傳輸也將對語音信號的語義編碼設(shè)計帶來重要影響。

3 結(jié)束語

本文中,我們對語音信源的語義編碼傳輸方法進(jìn)行了整理與總結(jié):首先回顧了現(xiàn)有的傳統(tǒng)語音編碼技術(shù),分析了語音語義編碼傳輸?shù)膬?yōu)化目標(biāo),具體而言,在面向人的感知體驗的情境下,優(yōu)化目標(biāo)主要為提高人的感知質(zhì)量;而在面向文本任務(wù)的情境下,優(yōu)化目標(biāo)主要為提升文本識別正確率。其次,我們將現(xiàn)有的語音語義編碼傳輸方法分為兩大類:一類為直接對語音信號樣值序列進(jìn)行編碼,一類為對傳輸語音信號的聲學(xué)特征進(jìn)行編碼和傳輸,在接收側(cè)通過生成式聲碼器重建語音。最后,我們展望了未來生成模型應(yīng)用于語音語義編碼傳輸?shù)膬?yōu)勢及挑戰(zhàn)。

猜你喜歡
語義信號模型
一半模型
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
重要模型『一線三等角』
完形填空二則
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
語言與語義
基于FPGA的多功能信號發(fā)生器的設(shè)計
電子制作(2018年11期)2018-08-04 03:25:42
3D打印中的模型分割與打包
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
基于LabVIEW的力加載信號采集與PID控制
主站蜘蛛池模板: 福利一区三区| 亚洲欧美日韩成人在线| A级毛片无码久久精品免费| 国产在线一区二区视频| 无码aaa视频| 日韩免费成人| 2022国产无码在线| 99精品这里只有精品高清视频| 日本三级欧美三级| 亚洲国产成人麻豆精品| 午夜免费视频网站| 国产欧美成人不卡视频| 91福利一区二区三区| 日韩 欧美 国产 精品 综合| 国产综合亚洲欧洲区精品无码| 国内精品免费| 国产99热| 不卡午夜视频| 国产精品无码制服丝袜| 99中文字幕亚洲一区二区| 欧洲av毛片| 欧美色99| 自慰高潮喷白浆在线观看| 99在线观看精品视频| 亚洲日韩AV无码一区二区三区人| 午夜人性色福利无码视频在线观看| 久久久精品无码一区二区三区| 天堂成人在线视频| 国产欧美精品午夜在线播放| 国产精品女人呻吟在线观看| 成年女人18毛片毛片免费| 91精品在线视频观看| 国产噜噜噜视频在线观看| 国产成人三级| 亚洲全网成人资源在线观看| 伊在人亚洲香蕉精品播放 | 国产呦视频免费视频在线观看 | 国产精品无码一区二区桃花视频| 久久国产拍爱| 性欧美在线| 国产xx在线观看| 欧美性天天| 99久久精品国产自免费| 国产精品尤物在线| 99热这里只有精品在线观看| 青青久视频| 欧美日韩福利| 五月激激激综合网色播免费| 亚洲色图综合在线| a网站在线观看| 夜夜爽免费视频| 91九色视频网| 亚洲精品自拍区在线观看| 国产aaaaa一级毛片| 国产高清自拍视频| 亚洲AV无码不卡无码| 亚洲无码在线午夜电影| 97综合久久| 亚洲黄色高清| 67194亚洲无码| 日韩高清欧美| 成人精品午夜福利在线播放| 国产丰满大乳无码免费播放| 成人在线观看不卡| 国产精品.com| 女人18毛片久久| 色综合a怡红院怡红院首页| 内射人妻无码色AV天堂| 欧美亚洲欧美| av在线5g无码天天| 色久综合在线| 婷婷综合色| 天堂中文在线资源| 国产精品入口麻豆| 无遮挡一级毛片呦女视频| 亚洲免费福利视频| 亚洲高清无码精品| 成人一区在线| 国产精品网址在线观看你懂的| 手机在线免费不卡一区二| 美女内射视频WWW网站午夜| 国产精品太粉嫩高中在线观看|