基于三維點(diǎn)云的PIP掩碼自編碼器

2024-12-31 00:00:00陳博袁鑫攀

現(xiàn)代信息科技 2024年8期

摘要：現(xiàn)有的三維點(diǎn)云MAE的算法存在位置信息泄露問題和模態(tài)單一問題。為了解決這些問題，文章提出了一種用于點(diǎn)云-圖像-點(diǎn)云MAE算法，稱為PIP-MAE，該算法通過豐富二維圖像知識(shí)來指導(dǎo)三維點(diǎn)云預(yù)訓(xùn)練模型，對(duì)輸入的三維點(diǎn)云及其投影的二維圖像進(jìn)行隨機(jī)掩模，然后重建兩種模態(tài)的遮掩信息。對(duì)下游任務(wù)進(jìn)行了實(shí)驗(yàn)，驗(yàn)證了PIP-MAE算法的有效性，提高了下游任務(wù)精度，能廣泛用于各類下游任務(wù)。

關(guān)鍵詞：深度學(xué)習(xí)；點(diǎn)云重建；點(diǎn)云分類；點(diǎn)云分割

中圖分類號(hào)：TP18 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：2096-4706（2024）08-0097-05

0 引言

學(xué)習(xí)未標(biāo)記數(shù)據(jù)中的潛在特征的表示稱為自監(jiān)督學(xué)習(xí)[1]。自監(jiān)督學(xué)習(xí)通過對(duì)大規(guī)模數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，該網(wǎng)絡(luò)對(duì)各種下游任務(wù)具有強(qiáng)大的表示能力和高泛化能力。MAE（Masked Autoencoders）是自主監(jiān)督學(xué)習(xí)的主要方案之一。它隨機(jī)遮掩一部分輸入數(shù)據(jù)，并采用Transformers [2]編碼器來提取未遮掩的特征。然后，利用輕量級(jí)Transformers解碼器對(duì)掩碼位置信息進(jìn)行重構(gòu)，在自然語言處理、計(jì)算機(jī)視覺和多模態(tài)學(xué)習(xí)方面取得了巨大成功。

最近，人工智能技術(shù)和三維傳感器的迅猛發(fā)展，三維點(diǎn)云由于其豐富的形狀信息，正受到機(jī)器人、逆向工程、自動(dòng)駕駛等領(lǐng)域的廣泛關(guān)注。MAE在三維點(diǎn)云上將三維點(diǎn)云劃分為多個(gè)點(diǎn)塊，并隨機(jī)遮掩部分點(diǎn)塊，自編碼器從未遮掩的點(diǎn)塊中學(xué)習(xí)用來重建坐標(biāo)空間中遮掩點(diǎn)塊。一旦自編碼器在自重建任務(wù)上訓(xùn)練得到足夠好的表示，這些表示可以用于其他下游任務(wù)，如分類、聚類或生成新的樣本上。然而，傳統(tǒng)的MAE方法只能獨(dú)立處理單個(gè)模態(tài)，而不能利用它們的隱含相關(guān)性。其次，在編碼過程中，重復(fù)連接多個(gè)三維點(diǎn)云，導(dǎo)致三維點(diǎn)云位置信息多次泄露。為此，本文提出了PIP-MAE算法，通過實(shí)驗(yàn)驗(yàn)證了該方法的有效性和高泛化能力。

1 相關(guān)工作

1.1 三維點(diǎn)云預(yù)訓(xùn)練

近些年，隨著在MEA在文字和圖像（如圖1所示）上的處理成功。促使人們開始研究三維點(diǎn)云自監(jiān)督學(xué)習(xí)的框架。在這些方法中，對(duì)比法已被廣泛研究，PointContrast [3]利用來自不同視圖的相同點(diǎn)的特征之間的對(duì)比學(xué)習(xí)，來學(xué)習(xí)有區(qū)別的三維表示，以獲取豐富的自監(jiān)督信號(hào)。另一種思路則是集成跨模態(tài)信息，利用語言或圖像模型轉(zhuǎn)移的知識(shí)用于三維點(diǎn)云學(xué)習(xí)。PCT [4]采用交叉模態(tài)自動(dòng)編碼器作為訓(xùn)練模型，以從其他模態(tài)獲取知識(shí)。

因此自監(jiān)督學(xué)習(xí)顯著增強(qiáng)了三維遷移學(xué)習(xí)。受圖像中的MAE [5]的啟發(fā)，Point-BERT [6]提出從隨機(jī)重新排列的部分重建點(diǎn)云。具體來說，給定一個(gè)高比率掩蔽的輸入點(diǎn)云，學(xué)習(xí)編碼器-解碼器模型，以從未掩蔽的點(diǎn)重建掩碼點(diǎn)。通過這種方式，編碼器可以學(xué)習(xí)語義特征表示，這可以很容易地應(yīng)用于下游任務(wù)。其中，Point-MAE [7]直接對(duì)三維點(diǎn)云進(jìn)行掩碼編碼。我們的PIP-MAE的不同之處在于采用了傳統(tǒng)的Transformer框架，我們的解碼器只輸入可見的點(diǎn)并輸出重建了遮掩點(diǎn)，以減少解碼過程中的位置泄漏。然后，我們將掩蔽點(diǎn)投影到二維圖像中，并利用二維和三維模式之間的隱式相關(guān)性，來構(gòu)建更強(qiáng)大的三維自監(jiān)督學(xué)習(xí)模型。

1.2 Transformer

Transformers通過自注意機(jī)制對(duì)輸入的全局依賴性進(jìn)行建模，并且在自然語言處理時(shí)中占主導(dǎo)地位。自ViT [8]以來，Transformers在計(jì)算機(jī)視覺中一直很流行。然而，作為掩碼自編碼器的主干，用于點(diǎn)云表示學(xué)習(xí)的Transformers架構(gòu)較少。最近的工作Point-BERT引入了一個(gè)標(biāo)準(zhǔn)的Transformer架構(gòu)，但需要DGCNN [9]來輔助預(yù)訓(xùn)練。本文的提出的MAE架構(gòu)，完全基于標(biāo)準(zhǔn)的Transformer。

1.3 Point-Image-Point（點(diǎn)云-圖像-點(diǎn)云）學(xué)習(xí)

從不同模態(tài)上學(xué)習(xí)，往往會(huì)得到多個(gè)模態(tài)的學(xué)習(xí)信息，從中可以很容易地處理給定上下文的語義信息。在三維點(diǎn)云MAE風(fēng)格中，大部分文章都展示了多模態(tài)預(yù)訓(xùn)練的強(qiáng)大能力。CrossPoint [10]提出了一種圖像點(diǎn)對(duì)比學(xué)習(xí)網(wǎng)絡(luò)，CLIP [11]通過最大化圖像和文本模態(tài)之間的余弦相似性來學(xué)習(xí)多模態(tài)嵌入空間，I2P-MAE [12]通過圖像到點(diǎn)學(xué)習(xí)方案，以二維預(yù)訓(xùn)練模型為指導(dǎo)。與這些方法不同，我們的PIP-MAE在遮掩階段引入了PIP引導(dǎo)的和二維圖像的局部幾何信息。在重建階段，我們的PIP-MAE直接重建了三維點(diǎn)云的遮掩點(diǎn)，而且還將重建的點(diǎn)沿X、Y、Z投影到二維幾何局部圖像中，用于二維圖像重建。

2 PIP-MAE

本文的目標(biāo)是為三維點(diǎn)云設(shè)計(jì)一個(gè)整潔高效的掩碼自編碼器方案。圖2為本文的總體方案。本章節(jié)首先介紹了三維點(diǎn)云遮掩和嵌入自編碼器預(yù)訓(xùn)練，其中包括重要的PIP引導(dǎo)過程和嵌入。接下來，我們介紹一下我們的編碼器和解碼器設(shè)計(jì)，值得注意的是，在解碼器中我們只輸出遮擋重構(gòu)的點(diǎn)。最后，介紹了交叉重建損失。

2.1 三維點(diǎn)云遮掩和嵌入

與計(jì)算機(jī)視覺中可以劃分為規(guī)則塊的圖像不同，三維點(diǎn)云由三維空間中的無序點(diǎn)組成。根據(jù)點(diǎn)云的性質(zhì)，可以對(duì)輸入點(diǎn)云進(jìn)行了兩個(gè)階段的處理：點(diǎn)云塊生成、二維深度投影和嵌入。

2.1.1 點(diǎn)云塊生成

通過最遠(yuǎn)的點(diǎn)采樣（FPS）和K近鄰（KNN）算法將輸入點(diǎn)云劃分為不規(guī)則的點(diǎn)塊。形式上，給定具有p個(gè)點(diǎn)X ∈ ?M×3的輸入點(diǎn)云，F(xiàn)PS被應(yīng)用于采樣點(diǎn)片中的CT中心的N個(gè)點(diǎn)。基于中心點(diǎn)，KNN從輸入中選擇k個(gè)最近點(diǎn)用于對(duì)應(yīng)的點(diǎn)塊P。

（1）

（2）

2.1.2 二維深度投影和嵌入

為了多個(gè)模態(tài)對(duì)齊，需要在三維點(diǎn)云中建立RGB圖像像素建立連接，通從三個(gè)正交視圖中沿著X、Y、Z軸投影輸入點(diǎn)云X ∈ ?M×3。對(duì)于具有M個(gè)點(diǎn)的輸入點(diǎn)云，只需省略每個(gè)點(diǎn)的第三個(gè)坐標(biāo)，并將其他兩個(gè)坐標(biāo)取整，可獲得相應(yīng)地圖上的二維位置。然后，在三次重復(fù)之后，模擬三通道RGB來反映點(diǎn)的相對(duì)深度關(guān)系。公式化為：

（3）

2.2 PIP（點(diǎn)云-圖像-點(diǎn)云）遮掩

在現(xiàn)有的MAE算法中，一般使用了兩種策略：隨機(jī)遮掩或快遮掩，它們具有很高的不穩(wěn)定性，且會(huì)忽略局部幾何信息。PIP-MAE算法將局部幾何形狀顯式地反向投影到三維空間中，以指導(dǎo)P面片的遮罩。具體來說，取上一個(gè)沿X、Y、Z投影的二維圖像I ∈ ?H×W×3，并使用經(jīng)過訓(xùn)練的ResNet [13]網(wǎng)絡(luò)提取RGB多通道視圖特征，表示為F。最后，在反投影到三維空間后，使用Softmax函數(shù)進(jìn)行歸一化，得到S ∈ ?N×1，并將每個(gè)元素的大小視為對(duì)應(yīng)點(diǎn)斑塊的可見概率。通過歸一化，我們能夠更好地關(guān)注局部信息，并且更關(guān)鍵的三維點(diǎn)塊更有可能被保留：

（4）

2.3 自編碼器預(yù)訓(xùn)練

我們用標(biāo)準(zhǔn)的Transformer塊構(gòu)建了自動(dòng)編碼器，并采用非對(duì)稱的編碼器-解碼器設(shè)計(jì)。并通過三維-二維預(yù)測(cè)頭重建三維點(diǎn)-二維目標(biāo)。

2.3.1 編碼器

只有可見標(biāo)記Tvis ∈ ?（1-m） N×C被編碼，而被屏蔽的補(bǔ)丁不暴露于編碼器。這不僅在計(jì)算上高效，而且避免了掩碼補(bǔ)丁位置信息的早期泄漏。編碼標(biāo)記表示為Te ∈ ?（1-m） N×C。標(biāo)準(zhǔn)的Transformer塊編碼器公式化為：

（5）

2.3.2 解碼器

與編碼器類似，也使用標(biāo)準(zhǔn)Transformer構(gòu)建解碼器。解碼器將編碼的可見標(biāo)記Te ∈ ?（1-m） N×C可學(xué)習(xí)掩碼標(biāo)記Tm ∈ ?mN×C及其PE作為輸入，經(jīng)過處理后，解碼器僅輸出解碼的掩碼標(biāo)記Td ∈ ?mN×C，解碼器公式為：

（6）

2.4 三維——二維重建

使用簡(jiǎn)單線性層（FC）作三維點(diǎn)云的重建頭，預(yù)測(cè)頭旨在重建坐標(biāo)空間中的遮掩點(diǎn)云點(diǎn)塊Ppre ∈ ?mN×k×3，遮掩點(diǎn)的地面實(shí)況三維坐標(biāo)Pgt ∈ ?mN×k×3。預(yù)測(cè)頭的公式為：

（7）

然后，我們通過倒角距離（CD [14]）計(jì)算損失，其公式化為：

（8）

2.4.1 二維語義重構(gòu)

我們以預(yù)測(cè)點(diǎn)斑塊Ppre ∈ ?mN×k×3坐標(biāo)為索引，沿X、Y、Z軸重建二維局部語義特征，通過通道聚合Td ∈ ?mN×C對(duì)應(yīng)的二維特征，公式為：

（9）

然后，沿遮擋中心CTmask的X、Y、Z軸重構(gòu)二維局部語義特征，其中CTmask表示遮蔽面片的中心，CT = CTmask + CTvis，并使用均方誤差（MSE）計(jì)算L2D損失為：

2.4.2 總損失

三維-二維交叉重建損失可以更好地對(duì)重建點(diǎn)云的空間結(jié)構(gòu)進(jìn)行自我監(jiān)督，可以更好地關(guān)注三維點(diǎn)云的局部信息。PIP-MAE預(yù)訓(xùn)練的總損失公式化為：

（11）

3 相關(guān)實(shí)驗(yàn)

實(shí)驗(yàn)首先介紹PIP-MAE預(yù)訓(xùn)練，然后在一系列下游任務(wù)中評(píng)估了預(yù)訓(xùn)練模型的有效性。整體效果圖如圖3所示。

3.1 PIP-MAE 預(yù)訓(xùn)練

在數(shù)據(jù)集ShapeNet [15]上預(yù)訓(xùn)練PIP-MAE，ShapeNet由51 300個(gè)干凈的三維點(diǎn)云組成，涵蓋55個(gè)常見對(duì)象類別。對(duì)于每個(gè)實(shí)例，通過FPS采樣1 024個(gè)點(diǎn)作為輸入點(diǎn)云，深度圖大小H×W設(shè)置為224×224特征信道（C），32個(gè)鄰接點(diǎn)（k），512個(gè)下采樣數(shù)（M），以及60%的遮掩比例。將數(shù)據(jù)集拆分為一個(gè)訓(xùn)練集和驗(yàn)證集，僅對(duì)訓(xùn)練集進(jìn)行預(yù)訓(xùn)練。使用AdamW [16]優(yōu)化器和余弦速率衰減[17]。學(xué)習(xí)率設(shè)置為10-3，權(quán)重衰減為5×10-2。預(yù)訓(xùn)練為300個(gè)批次，批量大小為128。對(duì)于現(xiàn)成的二維模型，使用CLIP預(yù)先訓(xùn)練的ResNet作為默認(rèn)值，凍結(jié)在三維點(diǎn)云預(yù)訓(xùn)練期間的權(quán)重。

3.2 下游任務(wù)

在預(yù)訓(xùn)練后，本文在多個(gè)三維下游任務(wù)上微調(diào)PIP-MAE的三維點(diǎn)云分支，既形狀分類、少樣本分類和部件分割。在每個(gè)任務(wù)中，使用解碼器（去掉二維分支），并由編碼器使用特定的分類頭進(jìn)行下游任務(wù)。

3.2.1 形狀分類

本文在ScanObjectNN [15]數(shù)據(jù)集上進(jìn)行三維形狀分類實(shí)驗(yàn)，ScanObjectNN是從背景雜亂的真實(shí)室內(nèi)場(chǎng)景數(shù)據(jù)中掃描的，因此包括帶有噪聲的背景，含11 416個(gè)訓(xùn)練樣本和2 882測(cè)試樣本。實(shí)驗(yàn)在三種不同的設(shè)置下進(jìn)行，OBJ-BG、OBJ-ONLY和PB-T50-RS。結(jié)果如表1所示，與傳統(tǒng)的方法Point-MAE相比，我們的PIP-MAE分別提高了1.0%、0.3%和0.4%。

3.2.2 少樣本學(xué)習(xí)

為了評(píng)估PIP-MAE在有限的約束下的表現(xiàn)，本文還在ModelNet40 [20]上進(jìn)一步進(jìn)行了少樣本分類任務(wù)。少樣本分類實(shí)驗(yàn)由四個(gè)不同的測(cè)試組成，即使用方法和射擊設(shè)置。具體地說，w ∈ {5，10}表示隨機(jī)選擇的類的數(shù)量，s ∈ {10，20}表示每個(gè)選擇的類隨機(jī)采樣的對(duì)象的數(shù)量。每個(gè)測(cè)試包含10個(gè)獨(dú)立屬性。結(jié)果如表2所示，PIP-MAE顯著提高了四種設(shè)置的水平0.3%～0.8%。證明了的PIP-MAE可以在有限的約束下表現(xiàn)良好。

3.3 對(duì)比實(shí)驗(yàn)

在本節(jié)中，將探討PIP-MAE中不同遮掩實(shí)驗(yàn)得出的精度結(jié)果。同時(shí)將探討令牌在解碼器和編碼器中的對(duì)精度的影響。

3.3.1 遮掩策略

遵循之前的Point-MAE，在ModelNet40數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，我們比較了3種類型的遮掩：PIP引導(dǎo)遮掩型、塊遮掩型、隨機(jī)遮掩類型以及不同的遮掩比例。遮掩策略決定了下游任務(wù)的難度，影響重建質(zhì)量和下游任務(wù)精度。如表3所示，當(dāng)遮掩比較高時(shí)，塊遮掩型和隨機(jī)遮掩型的性能較差，這意味著使用中等遮掩比（即60%～80%）可以獲得良好的性能。而我們的PIP引導(dǎo)遮掩實(shí)現(xiàn)了94.2%的精度，這能使編碼器能夠“看到”重要的空間特征和信號(hào)結(jié)構(gòu)。

3.3.2 令牌在解碼器和編碼器中的影響

我們的PIP-MAE將掩碼令牌從編碼器的輸入轉(zhuǎn)移到輕量級(jí)解碼器。為了證明這種設(shè)計(jì)的有效性，我們進(jìn)行了一個(gè)實(shí)驗(yàn)，其中掩碼令牌是從編碼器的輸入中處理的。為了公平比較，自編碼器的主干網(wǎng)采用與Point-MAE相同的編碼器和預(yù)測(cè)頭，但沒有解碼器，從而在預(yù)訓(xùn)練任務(wù)上產(chǎn)生完全相同的模型。我們?cè)谶@個(gè)實(shí)驗(yàn)中使用PIP引導(dǎo)的遮掩。預(yù)訓(xùn)練后，與PIP-MAE（2.60）相比，觀察到較小的重建損失（2.51）。在ModelNet40上微調(diào)性能，準(zhǔn)確率達(dá)到92.14%，遠(yuǎn)低于PIP-MAE（93.19%）。這個(gè)結(jié)果并不意外。在編碼器的輸入端，所有標(biāo)記（包括掩碼標(biāo)記）都必須通過位置嵌入提供位置信息。這會(huì)導(dǎo)致位置信息的早期泄漏，因?yàn)檠诖a令牌被處理用于重建坐標(biāo)空間中的點(diǎn)補(bǔ)丁。位置信息的泄露使得重建任務(wù)的挑戰(zhàn)性降低，模型無法很好地學(xué)習(xí)潛在特征，導(dǎo)致微調(diào)性能較差。

4 結(jié) 論

本文提出了一種低位置泄漏點(diǎn)云-圖像-點(diǎn)云MAE多模態(tài)自監(jiān)督學(xué)習(xí)方案PIP-MAE。PIP-MAE解決了預(yù)訓(xùn)練編碼過程中位置信息泄漏問題和單一模態(tài)問題。該方法在目標(biāo)分類、小樣本學(xué)習(xí)、零件分割等多種任務(wù)中驗(yàn)證了該方法的有效性和高泛化能力。希望PIP-MAE能夠啟發(fā)更多作品在探索三維點(diǎn)云MAE自監(jiān)督學(xué)習(xí)解決方案時(shí)關(guān)注位置泄漏問題。對(duì)于后面的工作，保持著低位置泄漏同時(shí)，將研究是否可以將其他模態(tài)信息（例如文本標(biāo)簽）合并到的PIP-MAE中。

參考文獻(xiàn)：

[1] VASWANI A，SHAZEER N，PARMAR N，et al. Attention Is All You Need [C]//NIPS'17：Proceedings of the 31st International Conference on Neural Information Processing Systems.Red Hook：Curran Associates Inc，2017：6000-6010.

[2] UY M A，PHAM Q H，HUA B S，et al. Revisiting Point Cloud Classification： A New Benchmark Dataset and Classification Model on Real-World Data [C]//Proceedings of the IEEE/CVF international conference on computer vision.Seoul： IEEE，2019：1588-1597.

[3] XIE S，GU J，GUO D，et al. PointContrast： Unsupervised Pre-training for 3D Point Cloud Understanding [C]//Computer Vision-ECCV 2020， 16th European Conference.Glasgow：Springer International Publishing，2020：574-591.

[4] GUO M H，CAI J X，LIU Z N，et al. PCT： Point Cloud Transformer [J].Computational Visual Media，2021，7：187-199.

[5] HE K M，CHEN X L，XIE S N，et al. Masked Autoencoders Are Scalable Vision Learners [C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition.New Orleans： IEEE，2022：16000-16009.

[6] YU X，TANG L，RAO Y，et al. Point-BERT： Pre-training 3D Point Cloud Transformers with Masked Point Modeling [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans： IEEE，2022：19313-19322.

[7] PANG Y，WANG W，TAY F E H，et al. Masked Autoencoders for 3D Point Cloud Self-supervised Learning [C]//European conference on computer vision. Cham：Springer Nature Switzerland，2022：604-621.

[8] DOSOVITSKIY A，BEYER L，KOLESNIKOV A，et al. An Image is Worth 16x16 Words： Transformers for Image Recognition at Scale [J/OL].arXiv：2010.11929 [cs.CV].（2020-10-22）.https：//arxiv.org/abs/2010.11929v1.

[9] WANG Y，SUN Y，LIU Z，et al. Dynamic Graph CNN for Learning on Point Clouds [J].ACM Transactions on Graphics （tog），2019，38（5）：1-12.

[10] AFHAM M，DISSANAYAKE I，DISSANAYAKE D，et al. CrossPoint： Self-Supervised Cross-Modal Contrastive Learning for 3D Point Cloud Understanding [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.IEEE，2022：9902-9912.

[11] RADFORD A，KIM J W，HALLACY C，et al. Learning Transferable Visual Models From Natural Language Supervision [C]//International conference on machine learning. PMLR，2021：8748-8763.

[12] ZHANG R，WANG L，QIAO Y，et al. Learning 3D Representations from 2D Pre-trained Models via Image-to-Point Masked Autoencoders [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.IEEE，2023：21769-21780.

[13] HE K，ZHANG X，REN S，et al. Deep Residual Learning for Image Recognition [C]//Proceedings of the IEEE conference on computer vision and pattern recognition.IEEE，2016：770-778.

[14] UY M A，PHAM Q H，HUA B S，et al. Revisiting Point Cloud Classification： A New Benchmark Dataset and Classification Model on Real-World Data [C]//Proceedings of the IEEE/CVF international conference on computer vision.IEEE，2019：1588-1597.

[15] CHANG A X，F(xiàn)UNKHOUSER T，GUIBAS L，et al. ShapeNet： An Information-Rich 3D Model Repository [J/OL].arXiv：1512.03012 [cs.GR].（2015-12-09）.https：//arxiv.org/abs/1512.03012.

[16] LOSHCHILOV I，HUTTER F. Decoupled Weight Decay Regularization [J/OL].arXiv：1711.05101 [cs.LG].（2019-01-04）.https：//arxiv.org/abs/1711.05101.

[17] LOSHCHILOV I，HUTTER F. SGDR： Stochastic Gradient Descent with Warm Restarts [J/OL].arXiv：1608.03983 [cs.LG].（2016-08-13）.https：//arxiv.org/abs/1608.03983.

[18] QI C R，SU H，MO K，et al. PointNet： Deep Learning on Point Sets for 3D Classification and Segmentation [C]//Proceedings of the IEEE conference on computer vision and pattern recognition.IEEE，2017：652-660.

[19] HAN K，XIAO A，WU E，et al. Transformer in Transformer [J]. Advances in Neural Information Processing Systems，2021，34：15908-15919.

[20] WU Z，SONG S，KHOSLA A，et al. 3D ShapeNets： A Deep Representation for Volumetric Shapes [C]//Proceedings of the IEEE conference on computer vision and pattern recognition.IEEE，2015：1912-1920.

[21] ZHANG R，GUO Z，GAO P，et al. Point-M2AE： Multi-scale Masked Autoencoders for Hierarchical Point Cloud Pre-training [J].Advances in neural information processing systems，2022，35：27061-27074.

作者簡(jiǎn)介：陳博（1995—），男，漢族，湖南湘鄉(xiāng)人，碩士研究生，研究方向：深度學(xué)習(xí)、3D點(diǎn)云重建、3D點(diǎn)云分類、模式識(shí)別；袁鑫攀（1982—），男，漢族，湖南株洲人，副教授，博士，研究方向：信息檢索、自然語言處理、局部敏感哈希。

收稿日期：2024-02-26

基金項(xiàng)目：湖南省自然科學(xué)基金項(xiàng)目（2022JJ30231）

DOI：10.19850/j.cnki.2096-4706.2024.08.022

PIP Masked Autoencoders Based on 3D Point Cloud

CHEN Bo， YUAN Xinpan

（Hunan University of Technology， Zhuzhou 412007， China）

Abstract： Existing algorithms for 3D point cloud MAE suffer from issues such as position information leakage and lack of diversity in modes. To address these problems， this paper proposes a PIP-MAE algorithm for point cloud-image-point cloud MAE. The algorithm guides the 3D point cloud pre-training model by enriching 2D image knowledge， randomly masks the input 3D point cloud and its projected 2D image， and then reconstructs the masked information for both modes. The experiments on downstream tasks validate the effectiveness of the PIP-MAE algorithm， and it improves accuracy of these downstream tasks， which can be widely used in various types of downstream tasks.

Keywords： Deep Learning; point cloud reconstruction; point cloud classification; point cloud segmentation