999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向6G 的跨模態信號重建技術

2022-07-10 04:54:44李昂陳建新魏昕周亮
通信學報 2022年6期
關鍵詞:語義模態信號

李昂,陳建新,魏昕,周亮

(1.南京郵電大學通信與信息工程學院,江蘇 南京 210003;2.南京郵電大學寬帶無線通信與傳感網技術教育部重點實驗室,江蘇 南京 210003)

0 引言

當前,通信學術界、產業界以及各種標準化組織對6G 的愿景、需求和技術架構等方面展開了暢想與深入研究。中國信息通信研究院IMT-2030(6G)推進組發布的《6G 總體愿景與潛在關鍵技術白皮書》指出,6G 將提供完全沉浸式交互場景,支持精確的空間互動,滿足人類在多重感官,甚至情感和意識層面的聯通交互[1]。可以預見,服務驅動下的6G 技術將與人工智能技術、混合現實技術、物聯網技術、傳感器技術等進行深度融合,催生如元宇宙、數字孿生、全息服務等大量沉浸式多媒體應用。6G 時代下,傳統以視聽為核心的多媒體應用已逐漸不能滿足用戶的沉浸式體驗需求,因此,亟須在新型多媒體應用中引入新的感官交互,如觸覺等,為用戶帶來身臨其境的極致體驗。然而,新模態信號的引入勢必會對現有的多媒體系統提出巨大挑戰,《白皮書》[1]指出,若實時的交互達到完全沉浸水平,吞吐量需求約為3.8 Gbit/s,且在多維感官信息協同傳輸的要求下,網絡傳輸的最大吞吐量預計將成倍提升。因此,為了兼顧用戶體驗與通信質量,迫切需要一種跨模態信號重建方案來減少傳輸數據量,以支持6G 沉浸式多媒體應用。

有研究表明,多模態應用將觸覺信號與傳統音視頻信號結合起來,用戶可通過觸摸或交互行為獲得更多的沉浸式體驗[2]。針對6G 時代下的多模態應用,文獻[3]提出音頻、視頻、觸覺跨模態通信架構,旨在通過充分挖掘不同模態信號之間的關聯性來解決高效的觸覺信號編碼、異構碼流傳輸、模態信息重建三大關鍵科學問題。文獻[4]進一步提出人工智能加持下的跨模態通信框架,利用強化學習、遷移學習等技術解決跨模態通信中的技術挑戰。其中,信號在傳輸及接收過程中勢必會伴隨不同程度的丟失,因此,發掘音頻、視頻、觸覺信號間的內在關聯性,利用一種模態信號精準、實時地重建另一種模態信號,是6G 跨模態通信研究的重點之一,也被認為是可大幅提升用戶沉浸式體驗的關鍵技術[5]。在6G 的潛在沉浸式應用場景中,如沉浸式擴展現實(XR,extended reality)、全息通信、感官互聯,跨模態重建技術可利用現有的視頻、音頻信號恢復出同一物體的觸覺信號,新生成的觸覺信號又可對原始音視頻信號進行超分辨率重建,極大地滿足人與人、物、環境的溝通需求,同時6G 下的毫秒級時延將為用戶提供較好的連接體驗。6G 跨模態信號重建需求如圖1 所示。

圖1 6G 跨模態信號重建需求

對于實現跨模態重建的深度學習模型來說,其性能優劣依賴于數據集的質量與規模,理論上,數據量越大,標注質量越高,深度模型越能逼近甚至超越人類表現,例如,利用大規模ImageNet 圖像數據集訓練出的AlexNet[6]、VGG[7]、ResNet[8]等圖像模型已經與人類識別準確率相差無幾。當前,音視數據集種類繁多,因此現有工作主要集中于利用深度模型探索音頻、視頻之間的語義關系。為了滿足6G 沉浸式體驗需求,迫切需要一個大規模、高質量的音視觸數據集來助力深度學習完成跨模態編碼、傳輸、信號處理等任務。此外,當前大量的研究主要集中于音頻、視頻之間的恢復與重建[9-23],對利用音頻、視頻重建觸覺信號的研究還處于起步階段。與此同時,不同傳感器采集到的觸覺信號結構與內容各異,如何對不同形式的觸覺信號進行語義表征,以及如何設計普適的、穩健的跨模態信號重建框架,已經成為實現6G 跨模態應用的難點。

相較于傳統以音頻、視頻為核心的跨模態重建方法,本文探索針對音頻、視頻、觸覺3 種信號的通用型跨模態信號重建框架;為了研究模態間的關聯性及拓展深度學習技術在其中的應用,通過機器人自動采集的方式構建了大規模多模態數據集VisTouch;考慮到觸覺、視覺感受對于實現6G 沉浸式體驗具有重要影響,本文以視頻生成觸覺為例,在所提框架下,針對自研VisTouch 數據集的信號特性與實際需求,設計基于3D CNN 和生成對抗網絡(GAN,generative adversarial network)的視頻輔助的觸覺重建模型。具體來說,本文貢獻主要總結為以下三點。

1) 面向6G 跨模態應用場景,構建大規模音頻、視頻、觸覺多模態數據集VisTouch。為減少人為因素干擾,本文控制機器人觸摸47 種材質,采集該過程中產生的同步音頻、視頻、觸覺信號。相較于傳統音頻、視頻雙模態數據集,音頻、視頻、觸覺三模態VisTouch 數據集更適合探索6G中以觸覺為核心的沉浸式體驗方案。

2) 針對同一對象不同模態信號的語義一致性,基于深度學習技術提出一種內在語義關聯驅動下的跨模態信號重建架構。該架構包括特征提取模塊、重建模塊、評估模塊。通過三大模塊之間的相互配合,可準確、低噪地利用一種模態信號重建另一種模態信號。

3) 以視頻信號重建觸覺信號為例,利用3D CNN與GAN 設計一種視頻輔助的觸覺重建模型。該模型將上述跨模態信號重建架構具體化。為提升信號重建質量,觸覺重建模型利用對抗損失與均方誤差損失這兩類損失函數作為目標函數,并基于VisTouch 進行訓練,均方誤差結果驗證了該模型的重建準確性。

1 跨模態信號重建相關工作

1.1 多模態數據集

當前多模態數據集多集中于音頻、視頻2 種模態,主要用于探究視頻動作與聲音之間關聯性,就內容來說,描述音樂與演奏動作、音樂與舞蹈動作、人聲與嘴部動作的數據集占據多數。例如,C4S[9]由9 位不同單簧管演奏家的54 個視頻組成,每個視頻演奏兩遍3 個古典音樂作品。為了探究演奏者演奏其他樂器時的動作與音樂之間的關系,近年來,更多樂器如小提琴、手風琴等被包含在音視多模態數據集中,其中比較流行的數據集有URMP[10](14 種樂器)、MUSIC[11](12 種樂器)、Solos[12](13 種樂器)、HMMD[13](7 種樂器),雖然這些數據集包含數千個音頻-視頻對,但由于采集設備不同、去噪方法各異,導致其質量參差不齊,且僅僅關注樂器的音頻、視頻關系具有一定的局限性,難以大規模推廣。除了樂器演奏的大量數據集,其他場景如人臉對話數據集和舞蹈動作-音樂數據集也具有很強代表性。文獻[14]設計了AVA-ActiveSpeaker 數據集,包含視頻中標記的人臉軌跡,其中每個人臉實例都標記為說話或不說話,以及語音是否可聽見,該數據集包含約 365 萬幀、38.5 h 的面部軌跡以及相應的音頻。AIST[15]舞蹈視頻數據集包括10 種街舞流派、35 名舞者、9 個攝像機視點和60 首音樂作品,涵蓋12 種節奏。文獻[16]提出了一個新的3D 舞蹈動作和音樂的多模態數據集AIST++,該數據集包含10 種舞蹈流派、數百種編舞,運動持續時間從 7.4 s 到 48.0 s 不等,所有的舞蹈動作都有相應的音樂。文獻[17]編制了一個HIMV-200K 多模態數據集,包含200 段視頻、500 段音頻。

近年來,學術界開始關注觸覺在沉浸式體驗中的作用,并利用觸覺手套、觸覺傳感器等設備采集人類皮膚或機器接觸實物時所產生的各種觸覺信號。文獻[18]將GelSight[19]觸覺傳感器裝載在機械臂上,控制機械臂按壓195 種實物,采集二維觸覺圖和按壓視頻對,從而構建了一種大規模觸覺-視頻數據集VisGel。文獻[20]以低成本(大約10 美元)設計了一款包含548 個傳感陣列的觸覺手套,并通過抓取26 種實物,構建了包含135 000 幀的觸覺圖數據集。然而,當前觸覺研究還處于起步階段,現有觸覺數據集僅有VisGel可用于研究視頻與觸覺之間的關聯性,仍舊缺乏音頻、視頻、觸覺共存的三模態信號同步數據集。為此,本文開發出音頻、視頻、觸覺數據集,并通過深度學習模型的表現驗證該數據集的實用性。

1.2 跨模態信號重建方法

隨著大數據時代的到來,橫跨視覺、聽覺、觸覺模態的數據正在以前所未有的速度增長,由此產生大量充滿挑戰性的跨模態任務。常見的跨模態學習任務有跨模態分離與定位、跨模態對應學習、跨模態重建、跨模態表示等。其中跨模態重建由于其廣泛的應用場景正在成為一個新興熱點研究方向。在過去的幾十年里,音頻和視頻作為人們日常生活中最重要的2 種感知方式,跨模態視聽重建在學術界和工業界都得到了廣泛的發展。

文獻[21]提出了一種新穎的級聯注意力引導的殘差生成對抗網絡(CARGAN,cascade attention guided residue GAN),旨在根據相應的音頻信號重建場景。特別是,該研究提出了一個殘留模塊來逐步縮小不同模式之間的差距。此外,文獻[21]還設計了具有新穎分類損失函數的級聯注意力引導網絡來解決跨模態學習任務,保持了高級語義標簽域的一致性,并且能夠平衡2 種不同的模態。

文獻[22]提出了一種跨模態循環重建對抗網絡(CMCGAN,cross-modal cycle generative adversarial network)來處理跨模態的視頻-音頻相互重建。具體來說,CMCGAN 由4 種子網絡組成,分別為視頻生成音頻網絡、音頻生成視頻網絡、視頻生成視頻網絡、音頻生成音頻網絡,這4 種子網絡以循環結構進行組織。CMCGAN 有以下顯著優勢:首先,CMCGAN 通過一個聯合對應的對抗性損失,將視覺-音頻的相互重建統一為共同的框架;其次,通過引入一個具有高斯分布的潛在向量,CMCGAN可以有效地處理視覺和音頻模式上的維數和結構不對稱性;最后,CMCGAN 采用端到端的方式進行訓練,便于部署及應用。進一步地,利用CMCGAN 開發了一個動態多模態分類網絡來處理模態缺失問題。大量的實驗結果表明,所重建的模態與原始模態的效果相當。

跨模態的關聯學習對于穩健的多模態推理至關重要,尤其是在推理過程中模態可能缺失的情況下。文獻[23]在給定音頻合成視頻的背景下研究該問題。具體來說,該研究目標是重建未來的視頻幀,并根據音頻和過去的視頻幀重建它們的運動動力學。為了解決這個問題,該研究提出了Sound2Sight,這是一個深層的變分框架,以音頻和過去的視頻幀的聯合嵌入表示為輸入,訓練該框架學習每幀的隨機先驗知識。這種嵌入是通過一個基于多頭注意的視聽轉換器編碼器來學習的。然后,對所學習的先驗知識進行采樣,以進一步調節視頻預測模塊以重建未來幀。此外,為了提高重建幀的質量和內容的一致性,該研究提出了一種多模態鑒別器,用于區分合成的音視頻剪輯和真實的音視頻剪輯。實驗表明,Sound2Sight 在重建視頻質量方面顯著優于最新技術,同時還能重建多種類型的視頻內容。

盡管當前已有利用音頻、視頻進行相互重建的工作,但迄今為止,鮮有針對觸覺的恢復、重建工作,文獻[24]首次在跨模態通信框架中探討觸覺重建問題,通過特征提取、共享語義學習、觸覺生成等步驟構建虛擬觸覺,并搭建跨模態通信平臺以證明其方法的優越性。本文沿用其觸覺重建的主要思想,并考慮更多模態信號的語義特征,探索出一種涵蓋音頻、視頻、觸覺的語義關聯驅動的跨模態信號重建架構。

2 VisTouch 數據集

針對跨模態通信需求,本文構建了一個大規模音頻、視頻、觸覺數據集VisTouch。本節主要描述了VisTouch 的數據采集過程,介紹了音頻、視頻、觸覺采集設備以及材質類型。

2.1 數據采集方式

觸覺感知與所接觸物體的特性以及探索表面的方式有關,而摩擦在觸覺感知過程中扮演了重要角色。為此,在VisTouch 中,數據采集手段為腳本控制機械手滑動觸摸各種材質,并將滑動觸摸過程中指尖與材質摩擦產生的滑動摩擦力作為觸覺信號,同時利用高清攝像頭及掛載在機械手的單向拾音器采集音頻、視頻信號,并用時間戳進行同步。

觸覺信號的精準、低噪采集是VisTouch 構建的核心。滑動摩擦力的大小與施加在接觸面的法向壓力以及動摩擦系數有關,動摩擦系數反映材質特性,一般為常數值,故施以恒定的法向壓力是保證觸覺信號精準、低噪的關鍵。需要從兩方面入手:1) 將機械臂放置在桌面上,并給予掛載在機械臂末端的機械手以垂直于桌面向下的恒定驅動力;2) 采集材質選用片狀以保證驅動力對接觸面的法向性,從而減少材質形狀因素對采集信號的影響。

為了增強數據集的樣本多樣性及實用性,在數據采集過程中引入2 種數據增強策略:1) 滑動觸摸軌跡設置直線滑動、曲線滑動、折線滑動這3 種;2) 恒定法向驅動力大小設置3N、6N、9N 這3 種,并與滑動軌跡交叉組合,共可設置9 種滑動方式。

VisTouch 數據集所使用的采集設備具體參數如表1 所示。

表1 采集設備具體參數

2.2 數據樣本

信號的特征與材質本身息息相關,當控制機械手觸摸各種材質時,粗糙材質(如石頭)的觸覺信號曲線相對于光滑材質(如玻璃)波動更大,聲音信號更刺耳,因此,理論上數據集所包含的材質樣本越多,越有助于探索音頻、視頻、觸覺感知機理及表征模型。由于樣本形狀、材質等均對多模態信號的形式及內容產生影響,且樣本形狀的觸覺采集需要陣列式點陣傳感器,故在本文所提的VisTouch 1.0 版本中,僅針對片狀材質樣本(如石頭片、紙片、木片)利用單個力傳感器進行數據采集,采集到的觸覺信號以一維時間序列表示。在未來,隨著研究的深入,將考慮在VisTouch 2.0 版本中引入觸覺手套、GelSight 等新型傳感器抓來感知物體的形狀信息,形成二維觸覺圖,以此豐富數據集內容與提升實用價值。針對樣本類型,本文調研了當前生活中常見的、實用價值高的材質,總計47 種,并對其進行分類,如表2 所示,然后對這些材質樣本利用2.1 節中所設計的采集方式進行多模態數據采集,VisTouch 數據集示例如圖2 所示。

圖2 VisTouch 數據集示例

在樣本收集過程中,可觀察到同種材質由于染色、加工等原因,其顏色各異,例如,玻璃不僅在類別上有普通玻璃和石英玻璃之分,而且在色彩上可分為有色玻璃和透明玻璃,這對跨模態信息處理帶來了一定的挑戰。為此,本文針對同一類型的樣本,盡可能收集多種顏色,如合成紡織品,收集紅色、黃色、藍色、白色4 種顏色的樣本,針對玻璃,收集有色玻璃、透明玻璃、毛玻璃等樣本,以此減少顏色對研究工作的影響。

最后,本文將所提VisTouch 數據集與現有主流數據集在模態、類別、樣本數量方面進行比較,如表3所示,以展示所提數據集的優越性。其中,幀數量指所采集的圖像數據幀數,對于STAG 這種單模態觸覺數據,指觸覺圖幀數。數據集中大部分為音頻、視頻雙模態數據集,與觸覺相關的數據集主要有VisGel[18]與STAG[20]。與它們相比,VisTouch 數據集的不同主要體現在:1) 本文所提數據集進行了音頻、視頻、觸覺3 種信號的采集,VisGel 僅記錄視頻與觸覺信號,STAG 僅記錄觸覺信號;2) VisGel 與STAG 的觸覺信號本質為機械壓力,該壓力僅與物體形狀、施加力有關,不能準確反映材質特性,而VisTouch 數據集以滑動摩擦力作為觸覺信號,其動摩擦系數與材質本身相關,故能準確反映材質特性。

表3 VisTouch 與主流數據集的比較

3 跨模態信號重建框架

在6G 跨模態通信中,音頻、視頻、觸覺信號經過編碼傳輸后,信號需要在接收端進行解碼、重建。由于信號在傳輸過程中不可避免地被噪聲干擾而出現缺失、失真現象,因此需要在接收端設計高效、精準的跨模態信號重建框架來彌補信號的缺失。在信號重建中,需要考慮以下2 個技術難點:1) 如何建立多模態信號的語義空間以跨越不同模態的“壁壘”;2) 如何在技術上保證所重建信號的精準性。

考慮到不同模態信號具有深層次的語義關聯性,本節提出一種內在語義關聯驅動下的跨模態信號重建框架,如圖3 所示,包含特征提取模塊、重建模塊、評估模塊3 個部分。特征提取模塊將源模態信號映射為公共語義空間中的語義特征向量,重建模塊將此語義特征向量反變換為目標模態信號,2 種模塊的級聯結構是跨越模態“壁壘”的關鍵;評估模塊從語義維度、信號本身的時空維度對重建質量進行評估,并在框架訓練過程中反饋優化信息給特征提取模塊與重建模塊,形成閉環回路,通過不斷迭代實現精準信號重建。

圖3 跨模態信號重建框架

3.1 特征提取模塊

特征提取模塊用于從源模態信號中獲取上下文語義表征。相對于人工設計的特征提取算子(如SIFT),深度學習(如CNN、RNN 等)可通過多層卷積層、長短期記憶網絡的處理獲取更抽象、更深層次的語義特征,有助于表征原始信號中的關鍵信息。

針對音頻信號,由于聲音采集時容易引入噪聲,故首先對音頻信號進行降噪處理(如譜減法、LMS 自適應濾波器);然后利用時頻分析直觀、精確的優點,對降噪后的音頻信號計算梅爾頻譜(MS,Mel spectrogram)、梅爾頻率倒譜系數(MFCC,Mel-frequency cepstral coefficients)等;最后將MS或MFCC 輸入CNN 中進行音頻信號的語義表征。

針對視頻信號,首先將視頻幀送入CNN 中(如VGG、ResNet),得到不同視頻幀所對應的特征圖,然后對所有視頻幀的特征圖進行合并、池化處理,將視頻信息轉化為語義特征向量。近年來,3D CNN在行為識別、視頻理解等領域開始嶄露頭角。與傳統以2D卷積為基本操作的CNN不同的是,3D CNN采用3D 卷積,即在高度、寬度2 個維度之外增加了時間維度,使3D 卷積核提取到幀間相關特征,相對于傳統2D 卷積僅考慮單幀信息,3D CNN 更適合處理視頻信號。

針對觸覺信號,由于采集設備的不同,其信號質量、結構各異。對于GelSight、觸覺手套,其采集到的信號一般為類似圖像的2D 矩陣,因此,可使用CNN 方法進行處理;對于壓力傳感器,其采集到的信號一般為1D 時間序列信號,因此,可使用RNN 進行處理,以提取信號的時間語義特征,此外,近年來,RNN 系列方法發展迅速,演變出了如長短期記憶網絡、門循環單元(GRU,gate recurrent unit)、Transformer 等時間序列特征提取模型,并在自然語言處理、時間序列預測等任務下表現優秀。同樣,也可采用類似音頻信號的處理方法,對觸覺信號進行時頻分析,如對觸覺信號做短時傅里葉變換(STFT,short time Fourier transform)等,再將其送入CNN 進行觸覺信號的語義表征。

3.2 重建模塊

重建模塊對特征提取模塊輸出的一個模態的語義特征進行反變換,得到另一模態的重建信號。同樣,根據信號結構的不同,所采取的重建方法也不同。具體而言,若目標模態信號為圖像、頻譜圖,可采用反卷積或轉置卷積的方法對語義特征進行變換,通過逐層、多次處理,使語義信號的結構恢復到與目標信號相一致的狀態;若目標模態信號為時間序列信號,可使用基于RNN 的解碼器,某時刻的解碼器輸出為下一時刻的解碼器輸入,通過不斷迭代,最終生成與目標模態信號相同長度的重建信號。

3.3 評估模塊

評估模塊用于評價重建信號是否與真實信號相一致,同時在訓練過程中可將重建信號與真實信號的偏差進行梯度的反向傳播,調整特征提取模塊、重建模塊的訓練參數,直至重建信號質量滿足要求或偏差無法繼續優化,通過這種方式使整個框架挖掘多模態信號間的內在語義關聯性,最終生成準確、低噪的重建信號。

在實際應用中,通常使用損失函數與GAN 辨別網絡的組合進行評估,GAN 辨別網絡對所重建的信號進行判別,區分其真實性,輸出“真”或“假”2 種結果,當GAN 辨別網絡將重建信號多次判別為“真”時,即表明重建信號逼近真實信號。

4 視頻輔助的觸覺重建模型

為了驗證VisTouch 的實用性以及所提出的跨模態信號重建框架的可靠性,本節以視頻重建觸覺為例,將重建框架具體化,同時結合視頻信號與觸覺信號的特點設計3 個子網絡:基于3D CNN 的視頻特征提取網絡(對應特征提取模塊)、GAN 生成網絡(對應重建模塊)以及GAN 辨別網絡(對應評估模塊),視頻輔助的觸覺重建模型如圖4 所示,最后通過信號可視化、模型結果對比等展示重建效果。

圖4 視頻輔助的觸覺重建模型

4.1 基于3D CNN 的視頻特征提取

由于2D 卷積只能提取空間特征,且傳統特征設計復雜、不能很好地捕捉視頻中的語義信息,3D卷積應運而生。3D 卷積核在時間維度的擴展能夠使其捕捉到時間語義信息,故被廣泛用于基于視頻的人體行為識別、行為理解等任務。

本文首先將視頻輸入3D CNN 中提取視頻語義特征,考慮到遷移學習有助于加快模型收斂、保證模型初始性能,因此先使用ImageNet 預訓練好的3D ResNet50 網絡,再使用VisTouch 數據集進行微調。ResNet50 憑借其獨特的跳層連接技術降低了模型訓練的難度,使目標函數快速收斂、模型泛化能力提升,一經推出,便成為圖像分割、目標檢測等計算機視覺下游任務中常用的主干網絡。3D ResNet50 是ResNet50 的3D 卷積版本,實現了從傳統2D 空間特征提取到3D 時空特征提取的跨越。

在模型處理上,首先,假設輸入視頻為五維張量I∈RN×T×C×H×W,其中N為批處理量,T為視頻幀數,C為圖像通道數,對于RGB 圖像C=3,H和W分別為圖像的高度和寬度,這里對每個視頻幀圖像進行縮放、裁剪的預處理,使圖像大小統一為224 ×224,即H=W=224;其次,將I輸入3D ResNet50,經多層3D 卷積處理,輸出特征圖為F∈RN'×T'×C'×H'×W',對于3D ResNet50 而言,T'=2,C'=2 048,H'=W'=7,為了便于后續GAN 生成網絡的處理,本文對F進行形狀變換,得到四維張量FR∈RN'×T'C'×H'×W',表示視頻語義特征,其中T'C'=2 ×2 048=4 096。

4.2 GAN 生成網絡

GAN 生成網絡用于將視頻語義特征精準、低噪地重建為同一樣本所對應的觸覺信號。GAN 的框架包含一對互相對抗的模型:生成網絡與辨別網絡。生成網絡用于盡可能逼近真實數據的分布;辨別網絡用于正確區分真實數據與生成數據,從而最大化判別準確率。為了在博弈中勝出,兩者需要不斷提高各自的生成能力和辨別能力,直至達到兩者間的納什均衡[25]。

GAN 生成網絡的設計需要考慮目標模態信號的結構與形式,觸覺信號T一般為時間序列形式,在觸覺信號重建中,借鑒音頻信號預處理方法,使用STFT(采樣頻率1 000 Hz,窗寬50)對觸覺信號T進行頻譜變換,得到26 × 41的復數矩陣,分離實數部分與虛數部分,得到2 × 26 × 41的觸覺頻譜S(忽略批處理量N)。因此,GAN 生成網絡的作用在于利用上述視頻語義特征FR重構觸覺頻譜,通過優化使與真實頻譜S相接近,再經過頻譜反變換得到重建的觸覺時間信號,實現從視頻信號I到觸覺信號的跨模態映射。

在模型設計上,視頻語義特征FR主要通過反卷積層、批歸一化層、激活函數的處理實現到目標的轉換。對于反卷積層的設置如層數、卷積核尺寸、步長、補零數量等,有多種配置方案,這些參數與反卷積層輸入、輸出張量之間的關系為

其中,Hin、Win分別代表反卷積層輸入張量的高度、寬度,Hout、Wout分別代表反卷積層輸出張量的高度、寬度,s代表卷積核的滑動步長,kh、kw分別代表卷積核高度、寬度,ph、pw分別代表高度、寬度方向上的補零數量。

本文利用式(1)、式(2)設計5 層模塊,如表4所示,注意這只是一種配置方案,主要目的是驗證第3 節所提跨模態信號重建框架的可靠性。第1 層模塊(1.1)為輸入層,第2 層模塊(2.1、2.2、2.3)、第3 層模塊(3.1、3.2、3.3)、第4 層模塊(4.1、4.2、4.3)均為反卷積層Deconv、批歸一化(BN,batch normalization)層、ReLU 激活函數的組合,用于重構出頻譜圖的高度與寬度,第5 層模塊(5.1、5.2、5.3)為1 × 1卷積層、批歸一化層、Tanh 激活函數的組合,用于重構出頻譜圖的通道維度。此外,在表 4 中,使用k=(kh,kw)表示卷積核尺寸,p=(ph,pw)表示補零數量,Cout×Hout×Wout表示輸出張量尺寸,其中Cout表示張量通道數。

表4 GAN 生成網絡參數(忽略批處理量)

4.3 GAN 辨別網絡

GAN 辨別網絡用于對重建頻譜、真實頻譜進行特征提取與區分,當辨別網絡認為輸入頻譜是真實時輸出1,反之輸出0,通過損失函數將辨別結果反饋回3D CNN 與GAN 重建網絡,使其生成精度更高、噪聲更低的重建頻譜,直至辨別網絡無法區分數據來源。

在模型設計上,將真實觸覺頻譜S與GAN 生成網絡的重建觸覺頻譜S^作為GAN 辨別網絡輸入,經過2 個卷積組的處理,得到判別向量,其中,一個卷積組包含一個3 × 3卷積層、一個批歸一化層、一個ReLU 激活函數以及一個最大池化層Maxpooling;然后,將判別向量依次輸入全連接層及Sigmoid 激活函數進行二值真假判別。

4.4 損失函數

損失函數用于有監督地優化網絡參數。由于GAN 采用自我博弈的思想進行訓練,即通過生成網絡與辨別網絡之間的競爭,保證重建信號的精準性,GAN 的損失函數為

其中,E(?)表示期望函數,G(?)和D(?)分別表示GAN 生成網絡與GAN 辨別網絡,Pdata(?)表示數據分布。

GAN 是生成網絡、辨別網絡交替迭代訓練的,所以式(3)可以拆分為式(4)和式(5)這2 種形式。首先,固定生成網絡G(?)參數,對辨別網絡D(?)進行優化,即

辨別網絡的優化目標為盡可能準確地區分^S與S,由于辨別網絡輸出1 時代表真實,輸出0 時代表虛假,故在訓練過程中希望D(S)趨近于1,D(G())趨近于0,即使總體損失值遞增。

其次,固定辨別網絡D(?)參數,對生成網絡G(?)進行優化,即

此外,為了進一步提升重建質量,本文同時利用均方誤差損失函數對重建頻譜的內容進行約束,均方誤差損失函數表示為

其中,si與分別代表真實頻譜S與重建頻譜的第i個位置的元素,n代表頻譜中的元素數量。

生成對抗損失函數、均方誤差損失函數分別從真實性鑒別、內容2 個角度重建質量,將兩者組合成的復合函數用于網絡訓練,經過實驗證明,可以實現準確、低噪的跨模態信號重建。

4.5 實驗及分析

本文使用VisTouch 數據集進行視頻輔助的觸覺重建網絡訓練,網絡訓練使用隨機梯度下降(SGD,stochastic gradient descent)法進行優化,設置訓練輪次為70,初始學習率為0.001,并使用余弦退火(CA,cosine annealing)調整器不斷調整學習率,批處理量為 6,3D CNN 輸入尺寸為224 ×224,整個模型使用Pytorch 深度學習框架進行編程開發。在硬件配置上,使用單張RTX 2080Ti顯卡進行模型訓練。

網絡訓練過程中的生成對抗損失函數優化曲線如圖5 所示,其中,生成網絡損失值(對應式(5))不斷下降,說明重建的頻譜越來越逼真,辨別網絡損失值(對應式(4))不斷上升,說明辨別網絡對數據來源的鑒別能力越來越強。

圖5 生成對抗損失函數優化曲線

此外,網絡訓練過程中的均方誤差損失函數(對應式(6))優化曲線如圖6 所示,說明重建頻譜與真實頻譜在內容上越來越接近。

圖6 均方誤差損失函數優化曲線

為了進一步說明本文所提模型的重建性能,本節進行了模型對比實驗,由于本文利用VisTouch完成觸覺重建工作,暫無已公開的基準模型,為此,本節對所提視頻輔助的觸覺重建模型進行約簡,得到以下2 種模型作為比較基準。

模型1不改變模型結構,僅使用生成對抗損失函數(式(3))訓練本文模型。

模型2移除GAN 辨別網絡,僅使用均方誤差損失函數(式(6))訓練模型。

確定比較基準后,需要引入評估指標來測試輸出結果,本文使用2 種評估指標,即平均絕對誤差(MAE,mean absolute error)與準確度(ACC,accuracy)進行度量。

MAE。MAE 用于評估重建信號與真實信號的絕對偏差。由于觸覺信號的表征形式為時間序列,因此,從信號本身出發,假設真實觸覺時間信號為T,重建出的觸覺時間信號為,樣本容量為M,則MAE 計算式為

ACC。首先,利用真實信號預訓練一個樣本類別分類器,訓練完成后輸入重建信號,檢驗重建信號對樣本類別的判別結果是否與真實樣本類別一致,從而統計精確度ACC。在本文中,該分類器由多層感知機實現。

模型對比實驗統計結果如表5 所示,同時本文將某段觸覺信號的重建結果進行可視化,如圖7 所示。從表5 和圖7 中可以看出,模型1 盡管可使MAE 達到0.093 3,但實際樣本分類ACC 僅為0.57,且圖7 所示的重建信號與真實信號差異較大,甚至無法恢復其包絡;模型2 效果相較于模型1 有較大提升(MAE=0.058 6,ACC=0.65),可視化結果反映出其重建信號已基本重建出信號包絡及拐點,但仍有部分噪聲。本文綜合模型1 與模型2,既采用生成對抗網絡的基本架構,又使用復合損失函數進行約束,使MAE 與ACC 分別達到0.013 5 與0.78,圖7 也直觀地反映出本文模型大大提升了跨模態信號重建的準確性和低噪性。

圖7 重建信號與真實信號對比

表5 模型對比實驗統計結果

4.6 應用平臺

為了將本文所提跨模態信號重建框架落地到實際應用場景,本節搭建了一種如圖8 所示的遙操作平臺,用于工業場景下實現遠程抓取物體的任務。

圖8 遙操作平臺

在配置方面,該遙操作平臺主要分為硬件平臺及軟件平臺,其中,本文所提跨模態信號重建框架由軟件平臺中的深度學習嵌入式子平臺進行實現,并燒錄進跨模態編解碼器中,該編解碼器可使用NVIDIA Jetson 套件實現,用于對音頻、視頻、觸覺信號進行跨模態編碼及信號重建;基于混合現實的遙操作系統硬件上主要由Microsoft Hololens2混合現實眼鏡與力反饋設備Touch 筆組成,用于渲染實時交互場景,便于主端的用戶控制從端機械臂完成抓取物體的操作。

在平臺操作方面,首先主端的用戶佩戴Hololens2 眼鏡,手握Touch 筆,當控制Touch 筆移動時,移動控制命令即從主端發出,經6G 傳輸,抵達遠處從端機械臂,經過機器人逆向運動學運算,控制機器人完成抓取物體的操作。同時,在抓取過程中,利用表1 的設備進行同步的音頻、視頻、觸覺信號采集,經跨模態編碼后,再通過6G 傳輸鏈路反饋回主端,主端接收到信號后,經過本文所提跨模態信號重建技術處理,對傳輸過程中的缺失信號進行補全,從而解決傳輸過程中的丟包問題。最后,音頻、視頻信息呈現在Hololens2 眼鏡中,觸覺信息由Touch 筆進行力渲染,使在主端的用戶可同步感受到從端機械臂抓取物體的觸感,從而實現多模態信息帶來的臨場感。

由于6G 網絡還未落地,故該遙操作系統的通信鏈路基于現有商用5G 網絡,具體實現過程中,使用華為5G 隨身Wi-Fi E6878-870 及中國移動5G SIM 卡,理論峰值速度為1.65 Gbit/s,5G 頻段N41。在5G 基礎上測試不僅可保證重建模型的正常運行,還可發現當前5G 傳輸中存在的不足,從而對6G 的傳輸性能及功能提出需求。

對于本文所提重建模型,不僅有精度要求,同時為保證用戶的沉浸式體驗感,還需對發出控制信號與接收多模態反饋信號之間的時間差進行要求。為此,對于該遙操作平臺,本文分別使用MAE、發送與反饋總時延、重建模型時延、觸覺真實性滿意度、時延滿意度5 種指標對遙操作平臺進行評估。其中,觸覺真實性滿意度指渲染出的觸覺力信息是否與實際觸摸感覺一致,時延滿意度指對上述時延的接受程度。為了度量這2 種滿意度,本文采用了問卷調查的方式,首先,15 位感官正常的志愿者(8男7 女)使用該遙操作平臺在10 m 外控制從端機械臂抓取玻璃瓶,并從2 種滿意度角度進行打分,分數范圍為1~5,1 分代表不滿意,5 分代表完全滿意,統計15 人打分結果的均值和方差,最終結果如表6 所示。

表6 遙操作實驗評估結果

從表6 可知,本文所提跨模態重建算法在準確度方面滿意度較高,觸覺真實性滿意度均值處于4~5 分段,表示用戶對重建出的觸覺信號基本滿意,然而,發送與反饋總時延較大(127 ms),該總時延主要包含信號傳輸時延、重建模型時延等,其中,本文基于深度學習的重建模型在NVIDIA Jetson平臺上的耗時較大(約98 ms),對于用戶而言,時延滿意度均值為3.87,方差為1.07,說明用戶可感受到的反饋信號相對于近端操作信號的滯后偏差,另一方面,在該系統中,基于5G 的信號傳輸時延(約29 ms)在6G 各種新興技術的加持下有進一步的優化空間,即本文搭建的遙操作平臺需要6G 低時延技術來構造即時臨場感。

上述數據表明,盡管重建模型可有效解決信號的丟包、缺失問題,實現高可靠性,但隨之帶來的計算復雜度過高,顯著影響了用戶體驗,無法滿足低時延要求。因此,若運行重建模型的跨模態編解碼器應用于6G 通信系統中,亟須解決多模態信號在6G 傳輸、處理過程中的高時延問題,在AI 賦能6G 網絡的趨勢下,跨模態信號重建技術對6G 傳輸功能和性能的要求有以下兩點。

1) 高效輕量的機器學習技術。多層堆疊處理的深度學習模型參數量巨大,常用的卷積神經網絡如ResNet 具有上百層卷積、池化層以及百萬級參數,無法滿足低時延處理要求,為此,需要在6G 網絡中引入高效輕量的機器學習技術。在硬件方面,可采用專用集成電路如張量處理單元(TPU,tensor processing unit)代替圖形處理單元(GPU,graph processing unit)完成張量的高并行處理;在軟件方面,可采用知識蒸餾、剪枝、量化等技術縮小模型大小,使每秒浮點操作數(FLOPS,flooting-point operations per second)降到1×109次以下,滿足大多數實時處理要求。

2) 極低的端到端時延。6G 網絡下,不僅需要人與人的通信,而且需要人與物、物與物、物與環境之間的交互與通信,且基于多模態信號的沉浸式體驗需求加大,數據量劇增,因此,6G 需在5G 的基礎上,利用太赫茲通信、可見光通信、超大規模天線、量子通信與計算等技術,進一步提升移動寬帶和物聯網場景的低時延通信能力,使峰值速率達到100 Gbit/s~1 Tbit/s、通信時延達到50~100 μs,相比于5G 整體性能提升10~100 倍。

5 結束語

針對6G 跨模態通信中的信號恢復、重建問題,本文構造了包含音頻、視頻、觸覺的大規模數據集VisTouch,并在深度學習背景下,提出了一種跨模態信號重建框架,包含特征提取模塊、重建模塊、評估模塊,并以VisTouch 中具體實例出發,設計了基于3D CNN 與GAN 的觸覺重建模型,進一步驗證了所提框架的合理性,同時也充分證明了多模態信號間具有內在語義關聯性。未來將進一步擴展跨模態互補機理研究,發掘多模態信號在維度、結構、內容、邏輯、時間、空間的語義關聯性,構建六維語義空間,穩健、低噪、準確、快速地將信號原始域映射到目標域,從而在6G 跨模態通信中大幅縮減信號傳輸量,為用戶提供更流暢、高保真的沉浸式應用。

猜你喜歡
語義模態信號
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
完形填空二則
語言與語義
基于FPGA的多功能信號發生器的設計
電子制作(2018年11期)2018-08-04 03:25:42
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
基于LabVIEW的力加載信號采集與PID控制
國內多模態教學研究回顧與展望
基于HHT和Prony算法的電力系統低頻振蕩模態識別
認知范疇模糊與語義模糊
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
主站蜘蛛池模板: a国产精品| 国产主播喷水| 亚洲综合色在线| 久久国产毛片| 中文字幕永久视频| 99免费视频观看| 亚洲人网站| 综合久久五月天| 91小视频在线| 精品日韩亚洲欧美高清a| 青草免费在线观看| 欧美黑人欧美精品刺激| 四虎精品国产永久在线观看| 国产精品入口麻豆| 久久精品视频一| 激情五月婷婷综合网| 伊人久久大香线蕉成人综合网| 欧美国产日产一区二区| 日韩高清成人| 热re99久久精品国99热| 国产在线观看第二页| 爽爽影院十八禁在线观看| 成人噜噜噜视频在线观看| 3D动漫精品啪啪一区二区下载| 狠狠色狠狠综合久久| 中文字幕资源站| 在线观看国产黄色| 亚洲精品桃花岛av在线| 国产日韩精品一区在线不卡| 婷婷色狠狠干| 亚洲中文字幕精品| 国产精品私拍在线爆乳| 国产综合无码一区二区色蜜蜜| 国产www网站| 亚洲无卡视频| 成人福利在线视频免费观看| 精品久久国产综合精麻豆| 亚洲国产一成久久精品国产成人综合| 午夜啪啪网| 国产理论最新国产精品视频| 蝴蝶伊人久久中文娱乐网| 看你懂的巨臀中文字幕一区二区 | 噜噜噜综合亚洲| 国产成人综合网| 亚洲A∨无码精品午夜在线观看| 91精品国产福利| 国产精品露脸视频| 久久精品国产999大香线焦| 欧美综合在线观看| 国产一区二区色淫影院| 欧洲高清无码在线| 国产女人在线观看| 亚洲日本中文综合在线| 欧美成人一区午夜福利在线| 亚洲欧美另类久久久精品播放的| 99re在线观看视频| 国产理论一区| 2024av在线无码中文最新| 人人艹人人爽| 国产91久久久久久| 久久毛片免费基地| 色综合狠狠操| 无码'专区第一页| 国产老女人精品免费视频| 免费国产一级 片内射老| 人人爽人人爽人人片| 成人午夜在线播放| 久久毛片网| 在线观看网站国产| 中文字幕在线视频免费| 精品视频一区二区观看| 精品91视频| 精品国产免费人成在线观看| 美女被躁出白浆视频播放| 69av在线| 免费看一级毛片波多结衣| 91色爱欧美精品www| 18禁色诱爆乳网站| 国产精品亚洲va在线观看| 亚洲IV视频免费在线光看| 在线国产毛片手机小视频| 国产一级毛片高清完整视频版|