宋泠澳 劉濤 姜東 李華東 趙冬梅 謝建鞍



摘要:針對火焰面三維重建時存在背景噪點的問題,提出了一種基于MVSNet多視圖三維重構(gòu)網(wǎng)絡(luò)的 IM - MVSNet網(wǎng)絡(luò)用于重構(gòu)層流火焰的火焰面。該網(wǎng)絡(luò)通過對輸入采樣圖像的參考幀以及鄰域幀進行圖像分割,去除采樣時的背景噪聲,得到高質(zhì)量分割圖像,然后將多視圖圖像進行三維重建,構(gòu)建層流火焰面三維點云,進而得到重構(gòu)的層流火焰面。通過不同重構(gòu)模型火焰面重構(gòu)效果對比,本文提出的三維重構(gòu)網(wǎng)絡(luò)能夠有效減少重構(gòu)火焰面的點云噪點,提高火焰面重構(gòu)精度,為燃燒研究提供了一種新的方法。
關(guān)鍵詞:多視圖三維重構(gòu)網(wǎng)絡(luò)深度學(xué)習(xí)點云背景噪聲
中圖分類號:TP183? 文獻標(biāo)志碼:A? 文章編號:1671-8755(2024)01-0102-09
Multi-view 3D Reconstruction of the Flame SurfaceBased on Deep Learning
SONG Ling ao1 , LIU Tao1 , JIANG Dong2 , LI Huadong2 , ZHAO Dongmei1 , XIE Jian an1
(1. School ofComputer Science and Technology , Southwest University ofScience and Technology , Mianyang 621010 , Sichuan , China;2. AECC Sichuan GasTurbine Establishment , Mianyang 621703 , Sichuan , China )
Abstract: To address the background noise in the 3D reconstruction of the flame surface , an IM - MVSNet network based on the MVSNet multi-view 3D reconstruction network was proposed for reconstructing the flame surface of laminar flow flames . The network obtained high-quality segmented images by image segmentation of the reference frames and neighboring frames of the input sampled images to remove the background noise during sampling , and then reconstructed the multi-view images in 3D to build a 3D point cloud of the laminar flame surface , and then obtained the reconstructed laminar flame surface . The reconstruction results of the flame surface of different reconstruction models show that the 3D reconstruc-tion network proposed in this paper can effectively reduce the point cloud noise of the reconstructed flame surface , improve the reconstruction accuracy of the flame surface , and provide a new technical means for combustion research .
Keywords : Multi-view;3D reconstruction network; Deep learning; Point cloud; Background noise
燃燒是人類社會賴以生存的重要現(xiàn)象,一直伴隨著人類社會的發(fā)展。在進入近現(xiàn)代社會后,更是人類獲取能量、動力的重要手段之一,從居家使用的熱水器與燃氣灶到內(nèi)燃機,再到航空航天發(fā)動機,其本質(zhì)都是通過燃燒將燃料中蘊含的化學(xué)能轉(zhuǎn)化為動能、熱能等不同形式的能量并加以利用。燃燒過程是一個極為復(fù)雜的多因素耦合作用過程,其中包括了化學(xué)反應(yīng)、傳熱與傳質(zhì)、輻射、湍流、動量和能量輸運等復(fù)雜且相互作用的因素。因此,燃燒過程的研究受到廣泛關(guān)注。
得益于計算機視覺以及人工智能技術(shù)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)可以識別到圖像中的特征信息[1-2] ,使得三維重建技術(shù)取得了進步,文獻[3]首次將深度學(xué)習(xí)應(yīng)用到三維重建領(lǐng)域,提出了基于單目估計深度的方法,該方法基于體素形式用單張圖像使用神經(jīng)網(wǎng)絡(luò)直接恢復(fù)深度圖,將網(wǎng)絡(luò)分為全局粗估計和局部精估計,并用一個尺度不變的損失函數(shù)進行回歸。文獻[4]基于體素形式提出的3D - R2N2模型使用 Encoder -3DLSTM - Decoder 的網(wǎng)絡(luò)結(jié)構(gòu)建立2D 圖形到3D 體素模型的映射,完成了基于體素的單視圖/多視圖三維重建(多視圖的輸入會被當(dāng)作一個序列輸入到 LSTM 中,并輸出多個結(jié)果)。 Yao 等[5]在傳統(tǒng)多視圖立體匹配( Multi-view stereo , MVS)的基礎(chǔ)上提出MVSNet網(wǎng)絡(luò),利用卷積神經(jīng)網(wǎng)絡(luò)進行特征提取,通過可微單應(yīng)性變換2D 到3D 的轉(zhuǎn)換方法以及 U - Net 網(wǎng)絡(luò)產(chǎn)生的概率體生成深度圖。盡管基于深度學(xué)習(xí)的三維重建技術(shù)在一定程度上簡化了三維重建難度[6-8] , 且有了一定的研究成果,然而對于火焰的三維重建主要還是使用了火焰電學(xué)重建技術(shù)、火焰激光重建技術(shù)以及火焰化學(xué)發(fā)光重建技術(shù)等,基于計算機視覺技術(shù)的火焰三維重建一直停留在使用傳統(tǒng)三維重建技術(shù)上,罕有使用深度學(xué)習(xí)技術(shù)進行火焰面三維重建的研究。
火焰并非剛體,具有高亮、邊緣變化速度快、表面積不規(guī)整等特性,會導(dǎo)致常規(guī)三維重建算法產(chǎn)生較大誤差[9]。到目前為止,對于火焰進行三維反演的主流是進行三維溫度場重建,由于實際的燃燒過程中存在輻射、對流等現(xiàn)象,僅依靠溫度場進行三維重構(gòu),實際上重構(gòu)得到的輪廓邊界并不完全等同于火焰外輪廓。本文討論的火焰面是指火焰的外輪廓,即化學(xué)反應(yīng)發(fā)生最激烈的區(qū)域,具有亮度高、溫度高、溫度梯度大、某些特征組分(如 OH)濃度梯度大等特點,對其重構(gòu),可以快速獲取火焰當(dāng)前的外輪廓,評估火焰發(fā)展的態(tài)勢、對環(huán)境氣體的卷積量以及與環(huán)境氣體之間動能、動量交互的基本趨勢,從而初步評估火焰燃燒的質(zhì)量。本文針對層流火焰面三維重建問題提出了一種基于深度學(xué)習(xí)的多視圖立體匹配網(wǎng)絡(luò)。一方面,期望解決在受限空間內(nèi)通過諸如內(nèi)窺鏡、光學(xué)窗等拍攝的光學(xué)圖像去重構(gòu)該空間內(nèi)火焰面發(fā)展態(tài)勢,用于航空發(fā)動機試驗等內(nèi)部流道中火焰燃燒質(zhì)量的快速評價;另一方面,嘗試解決火災(zāi)現(xiàn)場通過紅外或光學(xué)相機遠距離拍攝的圖像去重構(gòu)火焰面,以預(yù)估火焰發(fā)展趨勢,用于火災(zāi)現(xiàn)場火焰態(tài)勢評估。另外,本文提出的方法可為后續(xù)研究湍流火焰及重構(gòu)湍流火焰以評估湍流火焰發(fā)展機制提供參考方案。
1 相關(guān)工作
1.1 層流火焰
本文中重構(gòu)的是層流火焰面,層流火焰是指將靜止氣體或者層流流動氣體( Re =2300)引燃后得到的火焰,其特點是火焰鋒面光滑,不會產(chǎn)生褶皺,火焰?zhèn)?/p>
2.1 可微單應(yīng)變換
因為 I1 和{I1} N 的視角不一致,模型的目的是估計參考視圖的深度圖,需要將經(jīng)過可微分的單應(yīng)變換變形到對應(yīng)的相機坐標(biāo)系內(nèi)。
設(shè)i為對應(yīng)于特征圖的相機內(nèi)參矩陣、旋轉(zhuǎn)矩陣以及平移矩陣。
將視圖的特征彎曲到參考視圖 I1 的 d 深度,設(shè) p 為對應(yīng)視圖的像素坐標(biāo)點,K 為對應(yīng)視圖的內(nèi)參矩陣,Pc 為對應(yīng)視圖的相機坐標(biāo)系坐標(biāo),Pw 為世界坐標(biāo)系坐標(biāo),R 為對應(yīng)視圖的旋轉(zhuǎn)矩陣,C 為對應(yīng)視圖的平移矩陣,n T 為參考視圖 z 方向的向量。
對于視圖 I1可以用式(5)表示:
對于視圖i可以用式(6)表示:
聯(lián)立式(5)、式(6)得式(7):
投影幾何信息如式(8)所示:
將式(8)帶入式(7)可得式(9):
由于 pi 與 p 1 為齊次坐標(biāo),消去常數(shù) d/Zci得式(10):
式(10)可寫為式(11)形式:
式(11)中可微單應(yīng)變換 H(d)如式(12)所示:
2.2 深度估計與優(yōu)化
合并多個特征量{ Vi 價映射關(guān)系如式(13)所示:
式(13)中 R V ×R V …R V 的數(shù)量為 N , 用 W, H , D , F 表示寬、高、視覺圖的數(shù)目以及通道數(shù),V = WHDF/4 , 因此,代價體 C 如式(14)所示:
式(14)中 V(—)t 為所有特征體中的平均特征體。
得到的代價體經(jīng)過一個4級的3D U - N et 結(jié)構(gòu)來生成一個概率體,這個概率體表示為在每個深度下每個像素的可能性大小。數(shù)學(xué)期望方式如式(15)所示:
式(15)中 P(d)是所有像素點在深度生成 d 上的概率估算。
由概率體得到的初步深度圖使用分割后的參考幀信息進行細化,將深度圖與分割后的參考幀串連成一個4通道的輸入,經(jīng)過神經(jīng)網(wǎng)絡(luò)得到深度殘差,然后加到之前的深度圖上從而得到最終的深度圖。
2.3 損失函數(shù)
為了更好地指導(dǎo)深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練,本文設(shè)置損失函數(shù)指導(dǎo)網(wǎng)絡(luò)進行訓(xùn)練,其損失函數(shù)如式(16)所示:
式中:loss1為圖像分割網(wǎng)絡(luò)的損失函數(shù),采用的是交叉熵損失函數(shù);loss2 損失函數(shù)由初始深度圖與 GT(Ground truth)深度圖之間的絕對平方差和細化深度圖與 GT 深度圖之間的絕對平方差組成。
式中:q 為火焰的真實像素;q(^)為分割后的火焰圖像。
式中:S1 = ?d(p)- di (p)?1 為初始深度圖與 GT 深度圖之間的絕對平方差;S2 =?d(p)- dr (p)為細化深度圖與 GT 深度圖之間的絕對平方差。 d(p)是 GT 深度圖的值,di (p)是初始深度圖的值,dr (p)是細化深度圖的值。
3 實驗結(jié)果與分析
本文中三維重構(gòu)計算平臺為:Ubuntu16.04操作系統(tǒng),CPU 為 AMD Ryzen Threadripper 3990X 64- C ore Processor , GPU 為 NVIDIA TITAN RTX , 使用深度學(xué)習(xí)算法框架 Pytorch1.4.0。
3.1 數(shù)據(jù)采集
火焰不是剛體,火焰面會隨著時間以及各種作用因素發(fā)生變形,但是由于層流火焰的傳播速度較慢,在采集火焰面圖像過程中使用較高的快門速度所得到的火焰面圖像可以近似作為剛體處理。本文數(shù)據(jù)采集目標(biāo)使用型號為 X190的9300幀超高速相機將火焰近似看為剛體進行數(shù)據(jù)獲取,共采集960組5 760張合格火焰圖像,每1 s 可以獲取9300幀火焰圖像,即相當(dāng)于每相鄰兩幀圖像之間火焰面移動的平均位移為3.763×10-5 m , 可以作為近似剛體處理。
為完整采集火焰四周數(shù)據(jù),相機的布置環(huán)繞所采集的火焰目標(biāo),其機位布置如圖5所示。每一組圖像包括6個視角下的圖像,在后續(xù)進行訓(xùn)練與測試時,以組為單位進行訓(xùn)練與測試。
所采集火焰為異丁烷、正丁烷、丙烷混合燃氣,質(zhì)量比為13∶1∶4。噴嘴尺寸為9 cm ×2 cm ×7 cm , 材質(zhì)為黃銅,凈重為131 g。
通過不同視角的相機所采集到的層流火焰圖片如圖6所示。
在前期工作中,采用傳統(tǒng)多視圖立體匹配算法對不同視角所采集的圖片進行立體匹配計算,得到的火焰深度圖如圖7所示。
在后續(xù)的訓(xùn)練與測試工作中,使用的數(shù)據(jù)集為圖6所示的采集的層流火焰和圖7所示的生成的火焰深度圖,火焰深度圖為所采集的層流火焰的標(biāo)簽。
3.2 實驗結(jié)果
3.2.1 訓(xùn)練、測試與驗證
所采集的數(shù)據(jù)采用立體匹配技術(shù)[14] , 利用三角測量法將兩兩圖像之間的視差信息轉(zhuǎn)化為深度信息,用于深度學(xué)習(xí)。其中720組共4320張圖像進行訓(xùn)練,144組共864張圖像用于驗證,剩余圖像用于測試。圖像尺寸為640×512像素,特征提取得到的特征圖大小為160×128像素,為確保能夠均勻覆蓋深度范圍,首次迭代每個像素的深度值隨機,訓(xùn)練50次,前10次的學(xué)習(xí)率為0.001 , 在第10 , 20 , 25次訓(xùn)練時學(xué)習(xí)率除以2使得模型更好收斂,50次的損失函數(shù)變化如圖8所示。
隨著訓(xùn)練的不斷迭代,模型的損失值不斷降低,前15次的訓(xùn)練損失值下降梯度最大,降低最為明顯,15次到50次模型的訓(xùn)練損失值下降速度趨于平緩。測試損失值在15次前與訓(xùn)練損失值下降趨勢相同,在15次到40次之間測試損失值仍有波動,40次后測試損失值低于訓(xùn)練損失值且沒有明顯波動,說明訓(xùn)練效果達到合理階段。
本文所提模型可以有效去除采集火焰信息時造成的背景噪點。其生成的火焰表面三維點云可以直觀反映火焰形狀,噪點較少,圖9為原始火焰圖片與其生成的點云對比。
3.2.2 相機數(shù)量分析實驗
數(shù)據(jù)采集時,采用的數(shù)據(jù)采集機位如圖5所示。當(dāng)相機數(shù)量不足以圍繞火焰進行數(shù)據(jù)采集時,所得到的數(shù)據(jù)并不足以支撐生成完整的火焰面三維點云數(shù)據(jù),得到的火焰面如圖10所示。
圖10展示了相機對火焰面進行數(shù)據(jù)采集時分別缺失相機1 , 6 , 相機2 , 3 , 4以及相機1 , 6 , 5時所生成的火焰面三維點云數(shù)據(jù)情況,與圖9由6個相機所采集數(shù)據(jù)生成的火焰面三維點云數(shù)據(jù)相比,完整的火焰面點云數(shù)據(jù)更能直觀表現(xiàn)火焰形狀以及表面紋理。
3.2.3 驗證實驗
本文設(shè)定倒角距離(Chamfer distance , CD)[15]、交并比( Intersection - over - Union , IoU)、準(zhǔn)確度(Accuracy , Acc .)、r 分?jǐn)?shù)( r - score )與搬土距離(Earth mover s distance , EMD)作為火焰面三維重建評價指標(biāo)。
為了驗證本文所提基于深度學(xué)習(xí)的火焰面三維重建算法的性能,對比了三維重建方法 Pixel2Mesh ,3D - R2N2 , JDACS - MS , MVSNet與PatchmatchNet使用本文所制作的數(shù)據(jù)集進行火焰面重構(gòu)的效果,評價結(jié)果如表1所示。
表1中 Pixel2Mesh 模型為三維網(wǎng)格模型,與本文模型相比,其精度明顯低于 IM - MVSNet且 Pix-el2Mesh 生成的三維模型表面過于平滑,不能反映火焰表面紋理。與3D - R2N2模型相比,在數(shù)據(jù)量較少的情況下3D - R2N2能夠比 IM - MVSNet更好進行重建,但3D - R2N2重建出的火焰表面與真實火焰相差過大,在數(shù)據(jù)量充足的情況下,IM - MVSNet的 CD 值與IoU值都優(yōu)于3D - R2N2。與 JDACS -MS 相比,本文模型優(yōu)勢為監(jiān)督學(xué)習(xí),模型對火焰三維重建精度高于 JDACS - MS 。與MVSNet以及PatchmatchNet相比(結(jié)合表1與圖10) , 本文模型生成的深度圖背景噪聲較少,由于剔除了背景噪點,點云數(shù)據(jù)中點云點數(shù)值在背景噪聲方面明顯少于MVSNet與PatchmatchNet。
由此可見,本文所提基于深度學(xué)習(xí)的火焰面三維重建算法在火焰面三維重建工作上有較好性能,該三維重構(gòu)網(wǎng)絡(luò)能夠有效減少重構(gòu)火焰面的點云噪點,生成的火焰面形狀清晰,能有效反映火焰形態(tài),有助于進行火焰體積計算、火焰態(tài)勢評估以及火災(zāi)防治等研究。
3.2.4 重構(gòu)時間比較
網(wǎng)絡(luò)模型的火焰面重建速度,可以直觀表現(xiàn)模型的時間復(fù)雜性。基于本文實驗環(huán)境,使用火焰面三維重建數(shù)據(jù)集對本文所提方法、MVSNet以及傳統(tǒng)三維重建方法的開源程序進行火焰面重建時間測試,比較在相同環(huán)境下對單組6張火焰面圖像進行重建所消耗的時間,結(jié)果如表2所示。由表2可以得出,上述算法中由于MVSNet沒有在重建前對火焰背景進行去噪,所以運算速度最快,本文次之。但由3.2.3小節(jié)可知,本文算法精度優(yōu)于MVSNet。與效果最好的傳統(tǒng)方法Colmap進行比較,本文方法的運行時間是其運行時間的39.04%。因此,本文方法重建精度高且運行時間較短。
3.2.5 消融實驗
為了驗證 IM - MVSNet網(wǎng)絡(luò)中圖像分割模塊的有效性,本文使用 IM - MVSNet與MVSNet進行對比,結(jié)果如圖11所示。
圖11( a )為 IM - MVSNet生成的深度圖,圖11( c )為MVSNet生成的深度圖,可以看出MVSNet不能有效去除背景噪聲。圖11(b)為 IM - MVSNet生成的點云,圖11( d)為MVSNet生成的點云,圖片顯示圖11(d)中火焰面點云摻雜噪點較多,會對火焰面積計算、火焰態(tài)勢分析等應(yīng)用造成干擾。
為了更為直觀地驗證 IM - MVSNet網(wǎng)絡(luò)中的圖像分割模塊的有效性,進行了消融實驗,結(jié)果如表3所示。
結(jié)合表3與圖11可以得出,在保留有圖像分割模塊的情況下所得到的火焰面三維重建結(jié)果精度高于沒有圖像分割模塊模型的結(jié)果精度。因此,圖像分割模塊對于模型精度有一定的提升作用。
4 結(jié)論
本文提出了一種基于深度學(xué)習(xí)的多視圖立體匹配網(wǎng)絡(luò),通過對所采集的原始火焰圖片進行實例分割,得到分割后的無背景噪聲高質(zhì)量火焰圖片,分割后的圖片通過卷積神經(jīng)網(wǎng)絡(luò)、可微單應(yīng)性變換、3D U - Net 結(jié)構(gòu)來生成深度圖,最終生成火焰面點云。本文所提出的三維重構(gòu)網(wǎng)絡(luò)能夠有效減少重構(gòu)火焰面的點云噪點,生成的火焰面形狀清晰,能有效反映火焰形態(tài)。下一步將對得到的火焰面點云數(shù)據(jù)進行處理,進一步計算火焰體積、表面積,并對火焰態(tài)勢做進一步研究。
參考文獻
[1] 張冀,鄭傳哲.基于多尺度 CNN - RNN 的單圖三維重建網(wǎng)絡(luò)[J].計算機應(yīng)用研究,2020 , 37(11):3487-3491.
[2] 張豪,張強,邵思羽,等.深度學(xué)習(xí)在單圖像三維模型重建的應(yīng)用[J].計算機應(yīng)用,2020 , 40(8):2351-2357.
[3] SILVER D , SCHRITTWIESER J , SIMONYAN K , et al.Mastering the game of Go without human knowledge [ J].Nature , 2017 , 550(7676):354-359.
[4] CHOY C B , XU D F , GWAK J , et al.3D - R2N2: a u- nified approach for single and multi-view 3D object recon- struction [C]∥European C onference on C omputer Vision. Cham : Springer , 2016:628-644.
[5] YAO Y , LUO Z X , LI S W , et al. MVSNet : depth infer- ence for unstructured multi-view stereo [ C]∥EuropeanConference on C omputer Vision. Cham : Springer , 2018:785-801.
[6] BAYATI H , NAJAFI A , VAHIDI J , et al.3D reconstruc- tion of uneven-aged forest in single tree scale using digitalcamera and SFM - MVS technique [ J ]. Scandinavian Journal of Forest Research , 2021 , 36(2/3):210-220.
[7] ZHANG J , LUO B , SU X , et al. A convenient 3D recon- struction model based on parallel-axis structured light sys- tem [J]. Optics and Lasers in Engineering , 2021 , 138:106366.
[8] SUO P , XU L J , SUN J T , et al. 3D reconstruction in planar array electrical capacitance tomography based on depth estimation and sparse representation [ C ]∥2021IEEE International Instrumentation and MeasurementTechnology Conference (I2MTC). IEEE , 2021:1 -5.
[9] ZIELI SKI P , MARKOWSKA - KACZMAR U . 3D ro-botic navigation using a vision-based deep reinforcement learning model[J]. Applied Soft Computing , 2021 , 110:107602.
[10] ZHANG Q T , LUO S , WANG L , et al. CNLPA - MVS: C oarse-hypotheses guided non-local PAtchMatch multi-view stereo [J]. Journal of Computer Science & Technol-ogy , 2021 , 36(3):572-587.
[11] REN S Q , HE K M , GIRSHICK R , et al. Faster R - CNN: towards real-time object detection with region pro-posal networks [J]. IEEE Transactions on Pattern Analysisand Machine Intelligence , 2017 , 39(6):1137-1149.
[12] HE K M , GKIOXARI G , DOLL?R P , et al. Mask R -CNN[C]∥2017 IEEE International C onference on C om- puter Vision (ICCV). IEEE , 2017:2980-2988.
[13] DELIGHT D T , VELSWAMY K. Deep learning based object detection using mask RCNN[ C]∥20216th Inter- national C onference on C ommunication and Electronics Systems (ICCES). IEEE , 2021:1684-1690.
[14] LIU J Y , YANG S , FANG Y M , et al. Structure-guided im-age inpainting using homography transformation [J]. IEEE Transactions on Multimedia , 2018 , 20(12):3252-3265.
[15] YUNIARTI A , ARIFIN A Z , SUCIATI N . A 3D tem- plate-based point generation network for 3D reconstruction from single images [ J]. Applied Soft C omputing , 2021 , 111:107749.
[16] WANG N Y , ZHANG Y D , LI Z W , et al. Pixel2Mesh:3D mesh model generation via image guided deformation [ J]. IEEE Transactions on Pattern Analysis and Machine Intelli- gence , 2021 , 43(10):3600-3613.
[17] XU H B , ZHOU Z P , QIAO Y , et al. Self-supervisedmulti-view stereo via effective co-segmentation and data- augmentation [C]∥Proceedings of the AAAI Conference on Artificial Intelligence , 2021 , 35(4):3030-3038.
[18] WANG F , GALLIANI S , VOGEL C , et al. Patchmatch- Net : learned multi-view patchmatch stereo [ C]∥2021 IEEE/CVF C onference on C omputer Vision and Pattern Recognition (CVPR). IEEE , 2021.
[19] MOULO P , MONASSE P , MARLET R , et al. Global fusion of relative motions for robust , accurate and scalable structure from motion [ C]∥IEEE International C onfer- ence on C omputer Vision. IEEE , 2013.
[20] SCH?NBERGER J L , ZHENG E , FRAHM J - M , et al. Pixelwise view selection for unstructured multi-view stereo [C]∥Proceedings of the Computer Vision - ECCV 2016:14th European Conference. Springer , 2016:501-518.
[21] SNAVELY N , SEITZ S M , SZELISKI R. Photo tourism :exploring photo collections in 3D [J]. ACM Transactions on Graphics , 2006 , 25(3):835-846.