胡晉瑋,奚崢皓,徐國忠,李忠峰,劉 翔
(1.上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院,上海 201620;2.遼寧科技大學(xué) 化工學(xué)院,遼寧 鞍山 114051;3.營口理工學(xué)院 電氣工程學(xué)院,遼寧 營口 115000)
煤炭作為主要化石燃料之一,在滿足日益增長的能源需求方面發(fā)揮著不可或缺的作用,在可預(yù)見的未來仍將是全球能源體系的支柱[1]。煤巖顯微組分組的差異表明其物理化學(xué)組成的差異,這些差異影響煤的性質(zhì)(如功能和反應(yīng)性)[2]。因此,煤的顯微組分及其含量對煤的化學(xué)工藝性質(zhì)有著重要影響[3],在顯微鏡下,煤巖顯微組分組可以通過顏色、反射率、突起和形態(tài)來區(qū)分。近年來,煤巖學(xué)快速發(fā)展,并形成了一系列煤巖學(xué)國家標(biāo)準(zhǔn),而基于圖像處理的煤巖組分自動(dòng)化識別技術(shù)是今后煤巖學(xué)研究的重點(diǎn)目標(biāo)[4]。
長期以來,很多方法可以識別煤巖顯微組分組。傳統(tǒng)的人工分析取決于操作人員的經(jīng)驗(yàn),且耗時(shí)耗力。近年來,機(jī)器學(xué)習(xí)在煤巖顯微組分分析領(lǐng)域取得了顯著進(jìn)展[5]。P.K.Singh 等[6]通過主成分分析選擇了10 個(gè)紋理特征,基于多層感知器識別惰質(zhì)組。宋孝忠等運(yùn)用K 均值聚類的方法識別煤巖圖像[7],此外,并通過剔除假邊界的方法[8]提高了煤巖顯微圖像識別的準(zhǔn)確率。Wang Hongdong 等[9]使用聚類方法自動(dòng)將整個(gè)顯微照片分割成離散的區(qū)域,使每個(gè)區(qū)域只包含一類顯微組分組,再使用隨機(jī)森林方法識別,其像素準(zhǔn)確率為90.44%。
但上述機(jī)器學(xué)習(xí)的方法存在兩個(gè)顯著弊端。第一,現(xiàn)有分類器依賴手工特征,這些特征是專家為一般圖形分類設(shè)計(jì)的,而非為識別煤巖顯微圖像設(shè)計(jì)的。第二,由于煤巖顯微圖像復(fù)雜,且顯微組分組內(nèi)存在過渡組分,類內(nèi)差異較大。因此,現(xiàn)有機(jī)器學(xué)習(xí)方法在識別復(fù)雜的煤巖顯微圖像時(shí)性能較差。
基于深度學(xué)習(xí)的語義分割方法對煤巖顯微組分組進(jìn)行識別則避免了上述問題[10]。DeeplabV3+[11]是一種常見的語義分割模型,用于各種語義分割任務(wù)均取得了較好的結(jié)果[12],但是其特征提取網(wǎng)絡(luò)(Deep Convolution Neural Network,DCNN)模塊全局特征提取能力較弱,并且其空洞空間卷積池化金字塔模塊(Atrous Spatial Pyramid Pooling,ASPP)處理各尺度特征的能力很弱。較DCNN,Swin Transformer[13]的全局信息交互能力有助于特征提取器快速建立全局感受野[14-15],提高場景理解準(zhǔn)確性[16],更全面地提取上下文位置信息,避免全卷積神經(jīng)網(wǎng)絡(luò)下采樣時(shí)丟失過多語義細(xì)節(jié)特征。較基于窗口注意力機(jī)制的Vision Transformer[17],Swin Transformer 的自注意力感受視野不局限于固定范圍,且計(jì)算量較低。而SkNet 處理多重特征信息能力較強(qiáng)[18],可以在多重特征上篩除冗余特征并加強(qiáng)重要特征。因此,筆者提出一種使用Swin Transformer網(wǎng)絡(luò)和SkNet 對DeeplabV3+改進(jìn)的語義分割模型。
利用圖像處理技術(shù)進(jìn)行煤巖顯微組分組分割時(shí),因顯微組分組特征的較高復(fù)雜性和煤巖煤粒尺度的較大差異性,使得一般分割模型的分割準(zhǔn)確率并不理想[6]。并且煤巖顯微組分組的分割過程亦可視為對不同組分組特征表征的語義進(jìn)行分割過程。
由此,本文提出了一種改進(jìn)DeeplabV3+的語義分割模型,以改善通過計(jì)算機(jī)對煤巖顯微組分組分割時(shí)準(zhǔn)確率不高的問題。該模型將SwinTransformer[13]骨干特征提取網(wǎng)絡(luò)替換DeeplabV3+[11]網(wǎng)絡(luò)的主干特征提取網(wǎng)絡(luò),使模型具有移動(dòng)窗口自注意力性,以提升煤巖顯微組分組特征的信息交互能力。并且在DeeplabV3+的空洞空間卷積池化金字塔模塊(Atrous Spatial Pyramid Pooling,ASPP)中加入選擇核單元網(wǎng)絡(luò)(Selective Kernel Networks,SkNet)[18],使所提模型可用3 個(gè)不同擴(kuò)張率的空洞卷積提取出最重要的特征,且抑制不重要的特征信息。改進(jìn)的DeeplabV3+網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。

圖1 改進(jìn)的DeeplabV3+網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Improved DeeplabV3+network architecture
DeeplabV3+語義分割模型主要由編碼器和解碼器兩部分構(gòu)成,編碼器包括深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolution Neural Network,DCNN)模塊和ASPP 模塊。ASPP 模塊的加入,使單依賴DCNN 工作的編碼器在深層特征圖中具有更大感受野[11]。ASPP 模塊主要使用不同膨脹率的空洞卷積,從而獲得不同大小的感受野;其大尺度感受野有助于全局特征的獲取,而小尺度感受野則可以防止小目標(biāo)信息的丟失;使得所提取的深層特征圖包含的特征信息更加全面,從而更有利于提取具有尺度差異的煤巖顯微組分組的特征。在ASPP 模塊,可由Pooling、1×1 卷積核和3 個(gè)擴(kuò)張率(rate=6、12、18)空洞卷積分別提取5 個(gè)特征圖像。將其并聯(lián),再經(jīng)1×1 卷積核壓縮特征通道數(shù)后,輸入至解碼器。在解碼器中,完成對輸入特征圖的2 次上采樣,獲得與原輸入圖像一致的語義分割圖像。
但是在DeeplabV3+模型中的DCNN 僅通過全卷積操作無法同時(shí)提取局部和全局的特征信息,更無法直接處理跨尺度信息;在ASPP 模塊中提取的圖像特征存在大量冗余,含有大量冗余的特征圖通過一個(gè)卷積層后直接進(jìn)入解碼器,這會導(dǎo)致大量有效特征的丟失。
由于煤巖顯微圖像中各組分組交織雜糅,圖像結(jié)構(gòu)復(fù)雜,特征提取困難,而Swin Transformer 具有提取復(fù)雜細(xì)節(jié)特征的能力[13]。因此,本文采用Swin Transformer 替代DCNN 作為骨干特征提取網(wǎng)絡(luò),利用Swin Transformer 網(wǎng)絡(luò)改進(jìn)的DeeplabV3+結(jié)構(gòu)如圖2 所示。

圖2 基于Swin Transformer 網(wǎng)絡(luò)改進(jìn)的DeeplabV3+編碼器Fig.2 Improved DeeplabV3+encoder based on the Swin Transformer network
SwinTransformer 骨干網(wǎng)絡(luò)共有4 種系列結(jié)構(gòu)Swin-Tiny,Swin-Small,Swin-Base 和Swin-Large,經(jīng)實(shí)驗(yàn)驗(yàn)證,當(dāng)煤巖數(shù)據(jù)量較少時(shí),使用過大的網(wǎng)絡(luò)會導(dǎo)致過擬合,因此,本文使用Swin-Tiny,其網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。

圖3 Swin Transformer 的Swin-Tiny 網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Swin-Tiny architecture of Swin Transformer
記高H和寬W的輸入圖像為I(H×W×3)。本文Swin Transformer 網(wǎng)絡(luò)操作流程如下。
(1) 將I(H×W×3)經(jīng)RGB 三通道輸入Patch Partition 模塊,可得48 個(gè)大小為H/4×W/4 的圖像塊。在通道維度上重新拼接48 個(gè)圖像塊,即拼接后的圖像為I1(H/4×W/4×48)。
(2) 將I1(H/4×W/4×48)在Stage1 中沿通道維度展開,經(jīng)線性嵌入層(Linear Embedding)得到C個(gè)大小為H/4×W/4 的特征圖。在Swin-Tiny 結(jié)構(gòu)中C=96。再將特征圖放入移動(dòng)窗口注意力模塊(Swin Transformer Block)。
(3) Stage 2 到Stage 4 中,為提取不同尺度特征,用塊合并層(Patch Merging)替換Linear Embedding 層。設(shè)每層輸入特征圖為I2(H/n×W/n×C×n/4),n分別為8、16、32。在Patch Merging 中將I2分為4 個(gè)塊,再在通道維度上進(jìn)行拼接為I3(H/2n×W/2n×C×n)。I3經(jīng)1×1卷積后得到I4(H/2n×W/2n×C×n/2)。過程中每次進(jìn)入Swin Transformer Block 后都不改變特征圖的大小和通道數(shù),故從Stage 1 到Stage 4 任一階段輸出的特征圖與其輸入時(shí)相比大小均減半且通道數(shù)翻倍。
Swin Transformer Block 主要由窗口多頭自注意力[9](Windows Multi-head Self Attention,W-MSA)模塊和移動(dòng)窗口多頭自注意力(Shifted Windows Multi-head Self Attention,SW-MSA)模塊構(gòu)成,如圖4 所示。

圖4 Swin Transformer Block 結(jié)構(gòu)Fig.4 Structure of the Swin Transformer Block
其中,LayerNormal 負(fù)責(zé)層內(nèi)歸一化,多層感知機(jī)(Multi LayerPerceptron,MLP)以Gule 為激活函數(shù)。Swin Transformer Block 的這種結(jié)構(gòu)特點(diǎn)可使其在固定窗口內(nèi)通過自注意力構(gòu)建上下文語義信息的同時(shí),實(shí)現(xiàn)不同移動(dòng)窗口內(nèi)語義信息交互,如圖5 所示。

圖5 基于移動(dòng)窗口的自注意力計(jì)算流程Fig.5 Self-attention calculation process based on shifted windows
由于煤巖顯微圖像組成復(fù)雜,煤顆粒尺度差異大,導(dǎo)致煤巖顯微組分組特征提取較為困難。將骨干網(wǎng)絡(luò)提取的特征圖輸入ASPP 模塊獲得不同尺度的特征可解決此類問題。但是,ASPP 模塊所提取不同尺度的特征圖會保留大量冗余特征。而SkNet 不但處理多重特征信息能力較強(qiáng),而且可以從輸入的特征圖中篩選出重要的特征,自適應(yīng)地學(xué)習(xí)特征,從而提高網(wǎng)絡(luò)模型的自適應(yīng)能力。因此,本文提出了利用SkNet 改進(jìn)ASPP 模塊的方法,將不重要的特征篩除,突出有效特征。經(jīng)SkNet 改進(jìn)的DeeplabV3+模型如圖6 所示。

圖6 基于SkNet 改進(jìn)的DeeplabV3+Fig.6 Improved DeeplabV3+based on the SkNet
使用SkNet 改進(jìn)的ASPP 模塊如圖7 所示。將1.2 節(jié)的輸出特征圖X 作為SkNet[18]輸入,分別經(jīng)rate 為6、12、18 的空洞卷積,得到U1、U2和U3。令U=U1+U2+U3,通過全局平均池化層Fgp,將U壓縮為長度為L的向量s。利用全連接層FFC將s的長度縮放為L/r,得到向量z,r為控制參數(shù)。

圖7 SkNet 網(wǎng)絡(luò)改進(jìn)的ASPP 模塊Fig.7 Improved ASPP module based on the SkNet
為強(qiáng)化重要特征且抑制冗余特征,利用下式所示的softmax 回歸得到長度為L的空洞卷積特征圖權(quán)重a1、a2和a3。
式中:AL,BL,CL∈R為z的參數(shù)矩陣。將式(1)代入式(2)可得經(jīng)空洞卷積處理后的特征圖VL。
實(shí)驗(yàn)所用數(shù)據(jù)樣本為合作單位采集,包含60 個(gè)不同變質(zhì)程度的單種煤樣本,制樣和數(shù)據(jù)獲取過程遵循GB/T 8899—2013[19]《煤的顯微組分組和礦物測定方法》,鏡質(zhì)體最大反射率為0.61%~1.70%。樣本圖像由光學(xué)顯微鏡蔡司Axioskop 40 放大500 倍獲得,其分辨率為2 048×1 536,且均為在黃色濾鏡下采集的RGB 格式。根據(jù)我國煤巖顯微組分組分類標(biāo)準(zhǔn)[20],煤巖顯微組分為鏡質(zhì)組、惰質(zhì)組、殼質(zhì)組和礦物質(zhì)。研究中,邀請3 位煤巖專家對本文所用79 張樣本數(shù)據(jù)進(jìn)行像素級一致標(biāo)注,標(biāo)注中黃、藍(lán)、粉、綠、紅分別代表鏡質(zhì)組、惰質(zhì)組、殼質(zhì)組、礦物質(zhì)以及環(huán)氧樹脂,煤巖顯微 圖像和標(biāo)注結(jié)果示例如圖8 所示。

圖8 煤巖顯微圖像原圖(左)和標(biāo)注結(jié)果示例(右)Fig.8 Original microscopic coal images (left) and the example of manual annotation results (right)
深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練需要固定圖像樣本尺寸,但樣本數(shù)據(jù)較少時(shí),訓(xùn)練結(jié)果泛化性不強(qiáng),易造成模型過擬合。為此,本文對每張圖像樣本進(jìn)行隨機(jī)裁剪、按比例縮放、隨機(jī)翻轉(zhuǎn)和亮度調(diào)節(jié)處理。在原單個(gè)圖像樣本中任意裁剪大小為512×512 像素子圖,將子圖按照0.8~1.2 倍比例進(jìn)行縮放,若縮放后子圖較512×512 像素小則使用鏡像補(bǔ)全至512×512 像素,若縮放后子圖較512×512 像素大則再次裁剪至512×512 像素。對縮放后的子圖隨機(jī)進(jìn)行翻轉(zhuǎn)操作后,依據(jù)原圖像樣本的亮度對翻轉(zhuǎn)圖像進(jìn)行0.8~1.2 倍處理。過程中,每步操作均生成多張過渡圖像以及對應(yīng)的標(biāo)注,將其補(bǔ)充進(jìn)數(shù)據(jù)集,可獲得圖像樣本共7 900 張。
實(shí)驗(yàn)結(jié)果均為五折交叉驗(yàn)證得出,即所有數(shù)據(jù)被均勻分為5 份,其中4 份用于訓(xùn)練,一份用于評價(jià)模型性能。模型訓(xùn)練和評價(jià)指標(biāo)均為5 次求和平均。
實(shí)驗(yàn)在OpenMMLab 框架下完成。硬件采用Inteli7-10700KCPU+NVIDIA GeForce GTX3080GPU。軟件采用Ubuntu16.04 系統(tǒng),搭載Cuda11.6+PyTorch1.9.0+Python3.8。模型均訓(xùn)練200 個(gè)epoch,批量大小為8,使用Adam 優(yōu)化器,初始學(xué)習(xí)率為10-3。模型使用的損失函數(shù)均為交叉熵?fù)p失函數(shù)。改進(jìn)的DeepLabV3+模型和DeepLabV3+模型的訓(xùn)練集和測試集的準(zhǔn)確率曲線、損失曲線如圖9 所示。損失曲線在迭代開始時(shí)迅速下降,并逐漸收斂。2 個(gè)網(wǎng)絡(luò)模型的訓(xùn)練集和測試集的損失曲線趨勢一致,訓(xùn)練集和測試集的準(zhǔn)確率曲線在開始迭代后迅速上升,隨后保持在一個(gè)較高的準(zhǔn)確率,最終趨于穩(wěn)定。

圖9 2 種模型下?lián)p失曲線和模型像素準(zhǔn)確率(PA)曲線對比Fig.9 Comparison of the loss curves and PA curves for improved DeeplabV3+and DeeplabV3+
本文采用常用的3 個(gè)語義分割指標(biāo)對模型性能進(jìn)行評價(jià)[8],如下面3 個(gè)關(guān)系式。分別為像素準(zhǔn)確率(Pixel Accuracy,PA)、平均像素準(zhǔn)確率(Mean Pixel Accuracy,MPA)、平均交集與并集比(Mean Intersection over Union,MIoU)。
式中:N為煤巖圖像劃分類別的總數(shù);Pmij為第m個(gè)樣本中被預(yù)測為第j類而實(shí)際屬于第i類的像素個(gè)數(shù);Pmii為第m個(gè)樣本中預(yù)測為第i類實(shí)際也屬于第i類的像素個(gè)數(shù);M為煤巖顯微圖像樣本總數(shù)。
不同煤巖顯微組分組分割模型的預(yù)測結(jié)果如圖10所示,其中Swin-Deeplab 由DeeplabV3+模型的深度卷積神經(jīng)網(wǎng)絡(luò)替換為Swin Transformer 獲得。由圖10可知,改進(jìn)的DeeplabV3+模型預(yù)測結(jié)果細(xì)節(jié)更豐富,對細(xì)小煤粒預(yù)測錯(cuò)誤率更低,在各煤巖顯微組分組間的交錯(cuò)邊緣處細(xì)粒度更強(qiáng),預(yù)測更加準(zhǔn)確。

圖10 不同煤巖顯微組分識別模型預(yù)測結(jié)果Fig.10 Prediction results of different identification models for coal maceral groups
3.3.1改進(jìn)的DeeplabV3+模型性能評價(jià)
將改進(jìn)的DeeplabV3+模型與隨機(jī)森林[9]、FCN-16s[21]、U-Net[22]、DeeplabV3[23]、DeeplabV3+模型進(jìn)行性能指標(biāo)比較,實(shí)驗(yàn)結(jié)果見表1。

表1 不同煤巖顯微組分組識別模型預(yù)測結(jié)果Table 1 Pediction results of different identification models for coal maceral groups 單位:%
由表1 可見,改進(jìn)的DeeplabV3+模型在PA、MPA和MIoU 這3 個(gè)指標(biāo)均顯著高于其他模型,其中,改進(jìn)的DeeplabV3+模型在煤巖顯微圖像測試集上的像素準(zhǔn)確率為92.06%,比隨機(jī)森林方法提高9.48%,比UNet 語義分割模型提高6.90%,比DeeplabV3+語義分割模型像素準(zhǔn)確率提高了3.40%。分析其原因,改進(jìn)的DeeplabV3+模型可以更好地提取和利用煤巖顯微圖像特征,從而得到更好的分割結(jié)果。
3.3.2改進(jìn)的DeeplabV3+模型消融實(shí)驗(yàn)
為驗(yàn)證改進(jìn)的DeeplabV3+模型各模塊有效性,將本文所提方法與Swin-Deeplab 和DeeplabV3+進(jìn)行性能比較,結(jié)果見表2。

表2 改進(jìn)的DeeplabV3+模型消融實(shí)驗(yàn)Table 2 Ablation experiment results of the improved DeeplabV3+model 單位:%
由表2 可見,改進(jìn)的DeeplabV3+模型在PA、MPA和MIoU 這3 個(gè)指標(biāo)上都取得了最好的分割效果。與DeeplabV3+相比,Swin-Deeplab 因Swin Transformer的引入,提高了模型特征提取能力,且更加注重特征間關(guān)聯(lián)。改進(jìn)的DeeplabV3+模型在Swin-Deeplab 中補(bǔ)充了SkNet 網(wǎng)絡(luò),提升了模型針對不同特征的選擇性能,突出了重要特征。
3.3.3Swin-Transformer 系列骨干網(wǎng)絡(luò)選擇
在1.2 節(jié)中,在選擇Swin-Transformer 系列骨干網(wǎng)絡(luò)中選擇使用Swin-Tiny,而非Swin-Small、Swin-Baes 和Swin-Large,以避免模型過大而導(dǎo)致過擬合。本文選用Swin-Small 骨干網(wǎng)絡(luò)加入模型訓(xùn)練,其預(yù)測圖像如圖11 所示,其訓(xùn)練損失曲線和像素準(zhǔn)確率如圖12 所示。由圖12 可見,在迭代輪次小于500 時(shí)Swin-Small 分割模型的訓(xùn)練集和測試集損失曲線一同降低,但在500 個(gè)迭代輪次之后,隨著模型迭代輪次的增加,訓(xùn)練損失逐漸減小,但測試的損失卻逐漸增大;且模型的測試集像素準(zhǔn)確率在提升到70%附近不再增加,但是模型的訓(xùn)練集像素準(zhǔn)確率卻一直在增加;模型明顯過擬合。如果使用參數(shù)量相對Swin-Baes 和Swin-Large 較少的Swin-Small 時(shí)已經(jīng)出現(xiàn)過擬合現(xiàn)象,若使用Swin-Baes 和Swin-Large 也必然會出現(xiàn)過擬合。

圖11 使用Swin-Tiny 和Swin-Small 的分割模型預(yù)測結(jié)果Fig.11 Prediction results of Swin-Tiny and Swin-Small segmentation models

圖12 使用Swin-Small 分割模型的損失曲線和模型像素準(zhǔn)確率曲線Fig.12 Loss curves and PA curves of the Swin-Small segmentation model
本文使用混淆矩陣來評估每類煤巖顯微組分組分割的準(zhǔn)確率,結(jié)果見表3-表5。改進(jìn)的DeeplabV3+模型對所有組分組的分割正確率均高于對比模型,其中殼質(zhì)組分割正確率相較于DeeplabV3+模型提升了10%,殼質(zhì)組分割正確率顯著提升。

表3 改進(jìn)的DeeplabV3+模型識別煤巖顯微圖像混淆矩陣Table 3 Confusion matrix of the improved DeeplabV3+model for identification of microscopic coal images

表4 Swin-Deeplab 模型識別煤巖顯微圖像混淆矩陣Table 4 Confusion matrix of the Swin-Deeplab model for identification of microscopic coal images

表5 DeeplabV3+模型識別煤巖顯微圖像混淆矩陣Table 5 Confusion matrix of the DeeplabV3+model for identification of microscopic coal images
顯微組分組的定量分析在煤巖應(yīng)用領(lǐng)域有重要作用。為了驗(yàn)證本文方法的有效性,對比了改進(jìn)的DeeplabV3+方法和人工點(diǎn)測方法對顯微組分組的測試的結(jié)果。改進(jìn)的DeeplabV3+方法對煤巖顯微圖像的每個(gè)像素都會測定出所屬顯微組分組類別。每張圖片每個(gè)顯微組分組的占比計(jì)算方式如下:
式中:Pb為圖像中第b類顯微組分組所占比例;J為本圖像中所有的像素?cái)?shù)量;hb為b類顯微組分組的像素?cái)?shù)量;h0為圖像中制片黏結(jié)劑像素?cái)?shù)量。
如圖13 所示,改進(jìn)的DeeplabV3+方法對79 張煤巖顯微圖像各顯微組分組的預(yù)測結(jié)果與人工方法測定的結(jié)果相近。

圖13 各顯微組分組的比例Fig.13 Proportions of various maceral groups
為了定量對比改進(jìn)的DeeplabV3+方法與人工點(diǎn)測方法測試結(jié)果之間的差異,使用平均絕對誤差EMA(Mean Absolute Error,MAE),計(jì)算方法如下:
式中:Pbm與分別為人工點(diǎn)測方法和本文方法測定的第b張圖像的第m類顯微組分組的比例;M取79。
本文計(jì)算了的4 個(gè)顯微組分組的EMA值,鏡質(zhì)組、惰質(zhì)組、殼質(zhì)組和礦物質(zhì)的EMA分別為5.05%、4.23%、5.19%和2.09%。
a.針對煤巖顯微圖像組成復(fù)雜,特征提取困難的問題,將Swin Transformer 網(wǎng)絡(luò)引入DeeplabV3+語義分割模型作為特征提取網(wǎng)絡(luò),增強(qiáng)了模型對煤巖顯微圖像特征的提取能力;其次,針對ASPP 模塊所提取的特征中存在大量冗余特征的問題,在ASPP 模塊中融入SkNet,使模型擁有了強(qiáng)化有效特征,抑制非重要特征的能力。
b.將改進(jìn)的DeeplabV3+語義分割模型在煤巖顯微組分組識別任務(wù)上與先進(jìn)的深度學(xué)習(xí)語義分割模型進(jìn)行性能對比實(shí)驗(yàn);結(jié)果表明改進(jìn)的DeeplabV3+語義分割模型的PA、MPA 和MIoU 指標(biāo)分別為92.06%、74.66%和63.51%,顯著高于對比模型。分別使用改進(jìn)的DeeplabV3+方法和人工點(diǎn)測方法對79 張煤巖顯微圖像進(jìn)行測試;2 種方法測定的鏡質(zhì)組、惰質(zhì)組、殼質(zhì)組和礦物質(zhì)的平均絕對值分別為5.05%、4.23%、5.19%和2.09%。結(jié)果表明改進(jìn)的DeeplabV3+方法與人工點(diǎn)測方法測試結(jié)果相近。
c.改進(jìn)的DeeplabV3+方法在煤巖顯微組分組自動(dòng)識別任務(wù)上展現(xiàn)出較強(qiáng)的潛力,可作為一種強(qiáng)大的計(jì)算機(jī)輔助人工識別煤巖顯微組分組的手段,具有一定的實(shí)用價(jià)值,為煤巖顯微組分組自動(dòng)化識別提供了新的研究思路。