朱映韜,陳 建,2*,萬 杰,黃 煒,杜天放
(1.福州大學(xué) 先進(jìn)制造學(xué)院,福建 泉州 362200;2.福州大學(xué) 物理與信息工程學(xué)院,福建 福州 350108)
近年來,三維傳感技術(shù)的普及和數(shù)據(jù)采集量的指數(shù)級增長導(dǎo)致點(diǎn)云數(shù)據(jù)量空前激增。點(diǎn)云數(shù)據(jù)在計(jì)算機(jī)輔助設(shè)計(jì)、自動駕駛汽車、虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)等眾多應(yīng)用中發(fā)揮著關(guān)鍵作用[1]。然而,對這些海量點(diǎn)云數(shù)據(jù)集進(jìn)行有效存儲和傳輸,仍是一個艱巨的挑戰(zhàn)。對此,急需開發(fā)高性能的編碼技術(shù)。
點(diǎn)云壓縮(Point Cloud Compression,PCC)是3D 數(shù)據(jù)處理領(lǐng)域的一個關(guān)鍵技術(shù),重點(diǎn)關(guān)注減少數(shù)據(jù)大小同時減少失真,以保留數(shù)據(jù)固有的幾何和語義信息,總體目標(biāo)是在壓縮率和重建保真度之間取得平衡,確保重建不影響視覺或分析質(zhì)量。
隨著深度學(xué)習(xí)的革命性進(jìn)展,基于學(xué)習(xí)的點(diǎn)云壓縮引起了人們的廣泛關(guān)注。其中的佼佼者甚至優(yōu)于動態(tài)圖像專家組(Motion Picture Expert Group,MPEG)提出的基于幾何的PCC(Geometry-based Point Cloud Compression,G-PCC)和基于視頻的PCC(Video-based Point Cloud Compression,V-PCC)。
QUACH M[2]等人率先提出了一種使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行幾何壓縮和均勻量化的靜態(tài)點(diǎn)云數(shù)據(jù)壓縮的新方法,通過在編碼端使用塊分區(qū)來緩解對體素做卷積所產(chǎn)生的時間和空間復(fù)雜性,經(jīng)過量化、熵編碼輸出重建點(diǎn)云。GUARDA A F R 等人[3]也提出了相似的方法,將單幀點(diǎn)云體素化并分割成同樣大小的3D 塊,二進(jìn)制碼流在解碼端通過固定閾值二分類進(jìn)行點(diǎn)云重構(gòu)。點(diǎn)云的稀疏性可能導(dǎo)致預(yù)測占用概率的分布與實(shí)際占用概率的不匹配。QUACH M 等人隨后提出GeoCNN[4]在解碼端使用自適應(yīng)閾值來糾正這個問題。
為了提升局部特征學(xué)習(xí)效果,WANG J 等人提出的PCGC[5]設(shè)計(jì)了一個多尺度端到端學(xué)習(xí)框架,通過通道熵建模來優(yōu)化變分自動編碼器網(wǎng)絡(luò)。該團(tuán)隊(duì)提出進(jìn)一步優(yōu)化稀疏卷積[6],僅對稀疏分布的最大概率占用體素執(zhí)行卷積,并利用同級之間的逐級相關(guān)性以多階段方式估計(jì)占用概率。LIU G 等人將transformer 用于體素壓縮[7],將k個最近鄰的信息聚合并緊湊地嵌入為一個點(diǎn)的潛在特征。上面的方法忽略了點(diǎn)云表面的幾何相似性,ZHU W 等人提出RegionPCGC[8]利用區(qū)域間的冗余進(jìn)行自適應(yīng)的編碼。然而,上述方法忽略了對不同分辨率的點(diǎn)云細(xì)節(jié)進(jìn)行差異化處理。
本文設(shè)計(jì)了一種逐分辨率優(yōu)化的自編碼框架,以適應(yīng)高精度的點(diǎn)云編碼,其中多尺度征提取塊改善了對細(xì)節(jié)的重建。
為了提升細(xì)節(jié)特征提取效果,本文提出了一種改進(jìn)的多尺度的端到端稀疏卷積方法,網(wǎng)絡(luò)結(jié)構(gòu)如圖1(a)所示。首先將原始點(diǎn)云X1送入預(yù)處理模塊對原點(diǎn)云進(jìn)行體素化和分割,其次進(jìn)行分析變換,對潛在表示進(jìn)行量化。卷積層(l,k,s)(l為通道數(shù),k為卷積核尺寸,s為步長)對處理后的點(diǎn)云進(jìn)行稀疏卷積,經(jīng)過卷積層提取特征后將結(jié)果輸入ReLU 函數(shù)。↓(↑)代表該層為下(上)采樣層,稀疏向量經(jīng)過該層時大小將發(fā)生變化。自適應(yīng)的多尺度特征提取模塊(Multi-scale Feature Extraction Module,MFEM)用于多尺度通道特征提取與融合,結(jié)構(gòu)如圖1(b)所示,具體細(xì)節(jié)將在2.2 節(jié)詳細(xì)介紹。C 代表對兩個大小相同的稀疏向量進(jìn)行級聯(lián)。降采樣后的稀疏向量會丟失一部分細(xì)節(jié)信息,因此通過稀疏卷積進(jìn)一步提取局部的特征和降采樣后的向量進(jìn)行級聯(lián),使其同時獲得細(xì)節(jié)信息和全局信息,輸入MFEM 進(jìn)行特征的融合。每經(jīng)過一次降采樣,X i的尺度下降一級,i為點(diǎn)云X的尺度,其大小下降約為原先的1/4。編解碼網(wǎng)絡(luò)中的同級別點(diǎn)云用于計(jì)算當(dāng)前級別的失真函數(shù)Di,細(xì)節(jié)將在2.3 節(jié)詳細(xì)介紹。

圖1 多尺度的稀疏卷積自編碼器網(wǎng)絡(luò)詳細(xì)結(jié)構(gòu)
經(jīng)過3 次降采樣后,編碼端網(wǎng)絡(luò)輸出的稀疏張量Y可分為三維空間坐標(biāo)CY和特征向量矩陣FY。其中,Y的三維空間矩陣CY由GPCC 編碼器編碼,Y的特征矩陣FY量化為FYQ后由算術(shù)編碼器編碼。超先驗(yàn)框架進(jìn)一步改進(jìn)了熵模型,將FYQ輸入熵編碼網(wǎng)絡(luò),利用上下文估計(jì)來預(yù)測高斯分布參數(shù)(μ,σ)。和作為其三維空間坐標(biāo)和特征向量矩陣的分量,表示解碼端網(wǎng)絡(luò)得到的稀疏張量。在解碼端的上采樣層進(jìn)行轉(zhuǎn)置卷積,對稀疏向量進(jìn)行升維。二分類層進(jìn)行二值分類操作,將預(yù)測概率高于閾值的體素識別為被占用的體素,將其他的判定為空體素。最后進(jìn)行多尺度的點(diǎn)云重建迭代,逐級重構(gòu)點(diǎn)云。
針對PCGC[7]網(wǎng)絡(luò)解碼端,使用連續(xù)多個傳統(tǒng)的殘差模塊從粗到細(xì)地提取多尺度特征,但是特征提取的模式單一,在局部特征層次上特征聚合能力有限,存在開銷大、不夠靈活、不能根據(jù)通道和分辨率來進(jìn)行調(diào)整導(dǎo)致計(jì)算量增大的情況。在特征提取工作中發(fā)現(xiàn),不同分辨率下特征進(jìn)行多尺度特征提取的需求不同,因此使用MFEM 替換該模塊。
如圖1(b)所示,該模塊先用1×1×1 卷積核提取全局特征,再把特征按通道數(shù)量C切分為C組通道數(shù)為1 的向量,對每組分別用不同的卷積核進(jìn)行卷積處理,以降低計(jì)算的復(fù)雜度,最后進(jìn)行殘差跳躍連接。本文在靠近初始點(diǎn)云的采樣層級i分配更多層的通道可分離卷積。這種設(shè)計(jì)加大對低通道數(shù)稀疏特征的處理強(qiáng)度,以分層的殘差進(jìn)行跳躍連接,加強(qiáng)不同尺度的特征表達(dá)與融合。以多尺度方式進(jìn)行全局和局部特征提取,通過拆分和級聯(lián)策略可以更有效地保留信息以增強(qiáng)處理功能。
本文方法采用壓縮的經(jīng)典算法率失真通過調(diào)整失真權(quán)重超參數(shù)λ優(yōu)化來權(quán)衡不同尺度間的失真(Distortion,Di)和比特率(Bit-rate,R)來進(jìn)行損失函數(shù)訓(xùn)練,從而優(yōu)化整體的率失真性能,即
式中:最大層級I=max{i}。
由于解碼端重構(gòu)點(diǎn)云的過程可以近似為二值分類任務(wù),二值分類任務(wù)表示重構(gòu)點(diǎn)云的預(yù)測體素是1 還是0,因此可以引入加權(quán)二值交叉熵(Weighted Binary Cross-Entropy,WBCE)來度量輸入點(diǎn)云和重構(gòu)點(diǎn)云之間的失真程度,即Di等于當(dāng)前層級的WBCE。
式中:N為當(dāng)前層級點(diǎn)云的體素?cái)?shù)量,為體素被占用的概率,m為已被占用的體素?cái)?shù)量,n為未被占用的體素?cái)?shù)量。對于體素化的點(diǎn)云數(shù)據(jù),超過95%的體素占用皆為空。因此,被占用體素和未被占用體素之間的巨大數(shù)量不平衡阻礙了神經(jīng)網(wǎng)絡(luò)訓(xùn)練。WBCE 采用參數(shù)α來調(diào)整權(quán)重,以平衡正、負(fù)樣本的不均勻分布。
為了驗(yàn)證所提出的多尺度點(diǎn)云壓縮網(wǎng)絡(luò)的有效性,本文從ShapeNet 隨機(jī)選擇10 000 個點(diǎn)云模型進(jìn)行訓(xùn)練。批處理大小設(shè)置為4,初始學(xué)習(xí)率設(shè)置成0.001,最低學(xué)習(xí)率設(shè)置為0.000 001,迭代次數(shù)設(shè)置為200,損失函數(shù)中的參數(shù)α設(shè)置為2,使用Adam 優(yōu)化器。測試環(huán)境統(tǒng)一為Intel Xeon Gold 6230 CPU 和NVIDIA GeForce RTX 3090 GPU。
挑選主流數(shù)據(jù)集8iVFB(8i Voxelized Full Bodies)和OWLII(Dynamic Human Mesh)進(jìn)行測試,以峰值信 噪 比(Bjontegaard Delta Peak Signal to Noise Ratio,BD-PSNR)和比特率(Bjontegaard Delta Bit Rate,BD-BR)作為客觀評價指標(biāo)。測試結(jié)果如表1 所示,本文提出的方法取得了顯著的效果,與經(jīng)典的G-PCC 和V-PCC 算法相比,所提算法BD-BR 增益為90.37%和20.74%,BD-PSNR 增益分別為9.67 dB和0.82 dB。與其他點(diǎn)云壓縮算法GeoCNNv2、Learned-PCGC、RegionPCGC 進(jìn)行比較,分別降低了58.29%、29.76%和28.66%以上的BD-BR,提高了2.67 dB、1.40 dB 和1.18 dB 的BD-PSNR。

表1 本文算法與其他算法的增益比較
為了直觀地展示本文所提算法的失真率性能,以“basketball_player”數(shù)據(jù)為例,繪制每種算法的測試結(jié)果,同時繪制了D1 和D2 相應(yīng)的率失真曲線,如圖2 所示。在參考算法中,G-PCC(octree)和G-PCC(trisoup)率失真性能表現(xiàn)最差,RegionPCGC 和VPCC 的性能較好。相比之下,本文提出的方法比以上方法具有更高的重建精度。

圖2 basketball_player 的率失真曲線比較
本文提出了一種多尺度自適應(yīng)優(yōu)化的編碼網(wǎng)絡(luò),有意在解碼網(wǎng)絡(luò)中減少對稱特征融合分支,以控制復(fù)雜度并防止過擬合,還設(shè)計(jì)了一種多尺度特征提取塊對不同分辨率級聯(lián)不同的通道分離卷積塊來替換固定架構(gòu),以實(shí)現(xiàn)多尺度融合,增強(qiáng)了樣本的適應(yīng)性和信息利用率,并通過使用殘差結(jié)構(gòu)來減少全局特征損失。最后通過訓(xùn)練結(jié)合了多層級的加權(quán)二進(jìn)制交叉熵率失真損失函數(shù),解決了正負(fù)樣本不平衡問題。