沈 宜,莊祖江,石 珺,賈 宇
(深圳市網(wǎng)聯(lián)安瑞網(wǎng)絡(luò)科技有限公司,廣東 深圳 518042)
如今,視頻會(huì)議的需求日益增加,對視頻會(huì)議的傳輸安全技術(shù)[1]提出了挑戰(zhàn)。在多人實(shí)時(shí)視頻會(huì)議中,采用傳統(tǒng)視頻傳輸協(xié)議對網(wǎng)絡(luò)帶寬的需求較高。在實(shí)時(shí)視頻傳輸場景中,為了減少傳輸數(shù)據(jù)的大小,都會(huì)首先對視頻流進(jìn)行編碼,其次通過網(wǎng)絡(luò)將視頻流傳輸?shù)浇邮斩诉M(jìn)行解碼。目前常用的視頻解碼方案有H264協(xié)議[2],該協(xié)議可以壓縮視頻的大小,但是在壓縮率和傳輸圖像質(zhì)量之間較難取得很好的平衡。
深度學(xué)習(xí)是最近幾年學(xué)術(shù)和工業(yè)領(lǐng)域研究的熱點(diǎn),圖像生成也是其中受人關(guān)注的一個(gè)研究方向。當(dāng)前,已有不少對人像視頻重建的研究,如NVIDIA公司在文獻(xiàn)[3]中采用了將提取的人臉關(guān)鍵點(diǎn)輸入生成網(wǎng)絡(luò)來進(jìn)行圖像生成的方案,但該方案的生成效果受到關(guān)鍵點(diǎn)檢測的影響,同時(shí)對于側(cè)臉的效果較差;文獻(xiàn)[4]基于3D模型的重建,通過3D信息來進(jìn)行視頻的生成,生成效果有所提高,但是由于受到3D模型生成的影響,因此生成速度較慢;文獻(xiàn)[5]采用了自監(jiān)督的2D關(guān)鍵點(diǎn)以及圖像直接光流信息生成視頻,生成效果可以較好地還原原始的動(dòng)作,但是對細(xì)節(jié)如唇部、眼睛的還原效果較差。
本文設(shè)計(jì)了一種基于視頻重建技術(shù)的單人像視頻會(huì)議圖像傳輸方案,將圖像生成技術(shù)中的人臉視頻重建技術(shù)引入到視頻會(huì)議圖像傳輸中。該方案先通過特征提取網(wǎng)絡(luò)提取發(fā)送圖像流中圖像的低維特征向量,然后在接收端通過生成網(wǎng)絡(luò)將低維特征向量重新還原為圖片,最后將網(wǎng)絡(luò)結(jié)構(gòu)解耦分別部署在發(fā)送端和接收端。……