基于混合專家模型的巖石薄片圖像分類

2024-01-01 00:00:00周程陽劉偉吳天潤李驁韓霄松

吉林大學(xué)學(xué)報(理學(xué)版) 2024年4期

摘要：以常見的5種巖石薄片作為研究對象構(gòu)建數(shù)據(jù)集，提出一種新的基于混合專家模型的巖石薄片圖像分類模型. 該模型從薄片圖像中學(xué)習(xí)到每種巖石圖像的特征，并對其進(jìn)行分類. 首先，使用多個基于卷積神經(jīng)網(wǎng)絡(luò)（CNN）和Transformer的圖像分類模型（ResNet50，MobileNetV3，InceptionV3，DeiT等）對數(shù)據(jù)進(jìn)行訓(xùn)練; 其次，選取效果較好的模型，通過構(gòu)建混合專家模型，得到最終的預(yù)測結(jié)果，其巖性識別準(zhǔn)確率（ACC）和AUC在驗(yàn)證集上達(dá)到85.33%和96.69%，在測試集上達(dá)到87.16%和96.75%; 最后，通過混合專家模型結(jié)合多個模型，綜合各模型的優(yōu)勢，平衡各模型間的貢獻(xiàn)，提高分類結(jié)果的準(zhǔn)確性和魯棒性，使得到的分類結(jié)果更可靠、穩(wěn)定.

關(guān)鍵詞：巖石薄片分類；混合專家模型；圖像分類

中圖分類號： TP391" 文獻(xiàn)標(biāo)志碼： A" 文章編號： 1671-5489（2024）04-0905-10

Classification of Rock Thin Section ImagesBased on Mixture of Expert Model

ZHOU Chengyang1， LIU Wei2， WU Tianrun1， LI Ao1， HAN Xiaosong1

（1. College of Software， Jilin University， Changchun 130012， China；2. CNPC Engineering Technology Ramp;D Company Limited， Beijing 102206， China）

Abstract： We proposed a new classification of rock thin section images based on mixture of expert model by using" five common" rock thin sections as the research object to construct a dataset. The model learned the characteristics of each rock image from the thin section images and classified them. Firstly， multiple image classification models based on convolutional neural network（CNN） and Transformer （such as ResNet50， MobileNetV3， InceptionV3， DeiT， etc.） were used to train the data. Secondly， models with better performance were selected，" a mixture of experts model was built to obtain the final prediction result. The" ACC and AUC of lithology recognition reached 85.33% and 96.69% on the validation set and 87.16% and 96.75% on the test set. Finally， by combining a mixture of experts model with" multiple models， combining" advantage of each model，" balancing their contributions between each model， we improved the accuracy and robustness of classification results， making the obtained classification results "more reliable and stable.

Keywords： classification of rock thin section; mixture of expert model; image classification

巖石是地殼的主要組成部分，是由礦物和天然玻璃組成的具有固定外形的穩(wěn)定集合體. 目前，自然界中已發(fā)現(xiàn)超過3 000種巖石，如砂巖、灰?guī)r、板巖、花崗巖等. 巖性識別是地質(zhì)學(xué)和資源勘探開發(fā)任務(wù)中的一項(xiàng)基礎(chǔ)而重要的工作，它涉及對巖石的類型、成分、結(jié)構(gòu)和成因特征進(jìn)行判斷和分類. 巖石薄片圖像是巖性識別過程中的重要數(shù)據(jù)來源.

傳統(tǒng)巖性識別過程依賴人工觀察確定巖石的類別等信息，該過程耗時耗力且依賴于領(lǐng)域知識，受個人主觀因素影響較大，識別準(zhǔn)確率較低.

隨著計算機(jī)科學(xué)技術(shù)的不斷發(fā)展，巖石薄片的圖像識別領(lǐng)域中引入了深度學(xué)習(xí)的方法.

目前，對巖石薄片分類的研究已有許多成果. 袁穎等［1］用主成分分析（PCA）方法提取評價指標(biāo)的主成分，并通過遺傳算法優(yōu)化支持向量機(jī)（SVM），對火成巖進(jìn)行了分類訓(xùn)練；馬隴飛等［2］用基于GBDT（gradient boosting decision tree）算法的識別模型識別多種泥巖和砂巖，準(zhǔn)確率達(dá)92%; 賀金鑫等［3］結(jié)合巖石光譜特征和4種機(jī)器學(xué)習(xí)分類模型進(jìn)行投票，對遼寧省興城地區(qū)的經(jīng)典巖石樣本進(jìn)行分類，準(zhǔn)確率達(dá)99.17%; Marmo等［4］通過圖像處理技術(shù)和人工神經(jīng)網(wǎng)絡(luò)（ANN）對碳酸鹽巖薄片進(jìn)行識別，識別準(zhǔn)確率為93.5%； Singh等［5］采用與文獻(xiàn)［4］相同的方法，提取27維數(shù)值作為神經(jīng)網(wǎng)絡(luò)的輸入，對玄武巖薄片圖像的分類精度達(dá)92.22%; Chatterjee［6］提出了一種基于SVM的算法，從原始的189個特征中選擇40個特征作為模型輸入，對6種石灰?guī)r類型進(jìn)行識別，識別準(zhǔn)確率達(dá)96.2%； Khorram等［7］提出了一個石灰?guī)r分類模型，將SVM和Bayes技術(shù)用于分類，實(shí)現(xiàn)了在不同采礦階段對巖性進(jìn)行分類; Mlynarczuk等［8］利用偏振顯微鏡獲取了9種巖石樣本的薄片數(shù)字圖像，使用4種模式識別方法自動識別巖石樣本.

上述方法大部分將機(jī)器學(xué)習(xí)方法用在巖石類型分類中，顯示出一定優(yōu)勢. 但這些方法嚴(yán)重依賴于研究人員提取的數(shù)字特征質(zhì)量，直接決定了模型的最終性能. 近年來，隨著深度學(xué)習(xí)算法的發(fā)展，許多研究人員將其應(yīng)用于巖石薄片識別并取得了重大突破. 譚永健等［9］改進(jìn)了InceptionV3網(wǎng)絡(luò)中卷積操作，引入殘差連接和遷移學(xué)習(xí)的思想，對10類巖石樣本進(jìn)行分類，準(zhǔn)確率達(dá)86%；許振浩等［10］結(jié)合監(jiān)督目標(biāo)檢測網(wǎng)絡(luò)以及ResNet-101網(wǎng)絡(luò)對巖石圖像進(jìn)行遷移學(xué)習(xí)，準(zhǔn)確率達(dá)90.21%；程國建等［11］利用輕量卷積神經(jīng)網(wǎng)絡(luò)SqueezeNet訓(xùn)練巖石薄片圖像分類，在驗(yàn)證集上的準(zhǔn)確率達(dá)90.88%；張野等［12］對InceptionV3模型進(jìn)行遷移學(xué)習(xí)，在巖石巖性分類識別上準(zhǔn)確率超過90%; Li等［13］使用改進(jìn)的TradaBoost算法對不同區(qū)域采集的微觀砂巖圖像進(jìn)行識別; Polat等［14］利用兩個神經(jīng)網(wǎng)絡(luò)對6種類型的火山巖進(jìn)行自動分類，并對4種不同優(yōu)化器的分類效果進(jìn)行了評價; Dos Anjos等［15］提出了4種卷積神經(jīng)網(wǎng)絡(luò)（CNN）模型，利用微觀Thin數(shù)學(xué)剖面圖像識別了3種巴西鹽下湖相碳酸鹽巖.

目前，關(guān)于巖石薄片識別的研究已取得了很多成果. 混合專家（mixture of experts， MoE）通過將多個專家模型組合形成一個整體模型，以利用每個專家模型的優(yōu)勢. 每個專家模型可以專注于解決特定的子問題，而整體模型則能在復(fù)雜任務(wù)中獲得更好的性能. 本文通過搭建多個基于CNN和Transformer的分類模型，如ResNet50，MobileNetV3，InceptionV3，DeiT，使用這些模型在較大數(shù)據(jù)集上的預(yù)訓(xùn)練參數(shù)，再對每個巖石薄片圖像進(jìn)行特征學(xué)習(xí)，并用于分類任務(wù). 在單模型分類的基礎(chǔ)上，引入MoE的方法將各模型視為不同專家，動態(tài)決定哪個專家模型應(yīng)該被激活以生成最佳預(yù)測，進(jìn)一步提高巖石薄片圖像分類模型的性能.

1 深度學(xué)習(xí)方法

1.1 ResNet-50

ResNet-50是一種深度殘差神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)［16］，在圖像處理任務(wù)中常用于特征提取，旨在解決傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中隨網(wǎng)絡(luò)層數(shù)增加，由于梯度消失或梯度爆炸導(dǎo)致的網(wǎng)絡(luò)性能飽和或退化問題. 通過引入殘差模塊的概念，可有效解決上述問題. 在殘差模塊中，每個輸入有兩個主要路徑：主路徑和殘差路徑. 主路徑通過若干卷積層學(xué)習(xí)特征，而殘差路徑則直接連接主路徑的輸入和輸出，完成跳躍連接，將輸入直接添加到主路徑的輸出中，使信息可直接傳到更深層，促進(jìn)信號在向前和向后路徑的傳播. 圖1（A）為一個殘差模塊，其中主路徑由兩個卷積層組成；圖1（B）為Resnet-50的網(wǎng)絡(luò)結(jié)構(gòu)，其中有50個卷積層.

1.2 MobileNetV3

MobileNet［17］是一種專為移動設(shè)備和嵌入式設(shè)備設(shè)計的輕量級卷積神經(jīng)網(wǎng)絡(luò)模型，其目標(biāo)是在保持較高準(zhǔn)確率的同時，顯著減少網(wǎng)絡(luò)參數(shù)量和計算量.

MobileNet在設(shè)計中提出了一種深度可分離卷積代替?zhèn)鹘y(tǒng)卷積的方案［18］，如圖2所示.

深度卷積階段在每個輸入通道上分別應(yīng)用一個小型的卷積核，可極大減少計算量. 逐點(diǎn)卷積階段使用1×1的卷積核對深度卷積的結(jié)果進(jìn)行線性組合，從而實(shí)現(xiàn)通道間的交互和特征融合. 這種深度可分離卷積的設(shè)計使MobileNet在減少參數(shù)量的同時，仍能保持較高的感受野和表達(dá)能力.

MobileNetV3是對MobileNet的改進(jìn)版本，網(wǎng)絡(luò)結(jié)構(gòu)列于表1，參數(shù)量為5.4 M，其中引入了幾個關(guān)鍵的改進(jìn)： h-swish激活函數(shù)、 SE通道注意力機(jī)制和網(wǎng)絡(luò)架構(gòu)搜索.

h-swish是一種針對MobileNetV3特別設(shè)計的激活函數(shù)，它結(jié)合了線性和非線性特性，具有高計算效率和模型可訓(xùn)練性. h-swish通過引入剪切的ReLU函數(shù)，提供了良好的非線性變換和梯度傳播，增強(qiáng)了網(wǎng)絡(luò)的表達(dá)能力和訓(xùn)練效果. SE通道注意力機(jī)制先通過全局平均池化層得到一個通道數(shù)較小的特征向量，再用全連接層和激活函數(shù)得到一個注意力向量，最后將注意力向量和原始特征圖相乘，得到一個經(jīng)過注意力調(diào)整的特征圖. 網(wǎng)絡(luò)架構(gòu)搜索利用強(qiáng)化學(xué)習(xí)和進(jìn)化算法等技術(shù)，搜索算法可以在給定的計算約束下，自動搜索最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu)和超參數(shù)，其提供了一種高效的方式設(shè)計出性能更好的模型.

1.3 InceptionV3

Inception［19］是一種深度卷積神經(jīng)網(wǎng)絡(luò)，又稱GoogLeNet，其主要特點(diǎn)是引入了Inception模塊. Inception模塊包含了1×1，3×3和5×5的卷積層以及3×3的最大池化層. 這些操作并行進(jìn)行，并在最后通過連接進(jìn)行組合，如圖3所示. 為減少計算量， Inception在3×3和5×5的卷積操作前使用1×1的卷積作為瓶頸層進(jìn)行降維，有效減少了網(wǎng)絡(luò)的參數(shù)數(shù)量和計算復(fù)雜度. Inception模塊的這種設(shè)計使網(wǎng)絡(luò)在每個層級都能自動學(xué)習(xí)并適應(yīng)不同尺寸的特征. InceptionV3［20］對于Inception模塊設(shè)計上更復(fù)雜，引入了更多的卷積和池化操作，在更小的卷積操作中引入了非線性激活，以增加模型的表達(dá)能力；并將大卷積核拆分成多個小卷積核，如將5×5的卷積核拆解成3×3的卷積核，在保持相同感受野的同時縮小模型數(shù)量，如圖3（B）所示. 同時， InceptionV3使用了平滑標(biāo)簽技術(shù).

DeiT（data-efficient image transformer）［21］是一種基于Transformer的視覺圖像分類模型， DeiT給出了一種新的訓(xùn)練方式，稱為知識蒸餾（knowledge distillation），使模型在數(shù)據(jù)較少的情況下也有很好的性能. 知識蒸餾是一種模型訓(xùn)練技術(shù)，旨在通過傳遞一個大型教師模型的知識訓(xùn)練一個小型學(xué)生模型.

該方法的目標(biāo)是使學(xué)生模型能獲得與教師模型相似的性能，同時減少學(xué)生模型的復(fù)雜性和計算成本，通過傳遞教師模型的知識，可以在小型模型上實(shí)現(xiàn)接近教師模型性能的效果. DeiT不僅要使學(xué)生模型在分類任務(wù)上的輸出接近教師模型的輸出，而且還要使學(xué)生模型在注意力分布上接近教師模型. 通過模仿教師模型的注意力分布，學(xué)生模型可學(xué)習(xí)到如何聚焦于圖像中的重要部分. DeiT模型結(jié)構(gòu)如圖4所示.

DeiT還引入了一種新的位置編碼方式，稱為2D相對位置編碼. 這種位置編碼方式考慮了每個patch與其他所有patches在2D空間中的相對位置，使模型能更好地理解圖像的空間結(jié)構(gòu). 此外，為進(jìn)一步提高模型的性能， DeiT還引入了token mixing策略. 在訓(xùn)練過程中， DeiT會隨機(jī)選擇一些圖像區(qū)域，并對它們進(jìn)行局部調(diào)整，從而使模型更好地處理輸入中的局部變化. 這種隨機(jī)性的引入可增加模型的魯棒性和泛化能力.

2 巖石薄片圖像分類模型

巖石薄片圖像分類旨在從眾多的巖石薄片圖像中學(xué)習(xí)到每種巖石圖像的特征，并對其進(jìn)行分類. 本文引入混合專家模型的思想，首先使用多個基于CNN和Transformer的圖像分類模型對數(shù)據(jù)進(jìn)行訓(xùn)練，通過將效果較好的多個單模型進(jìn)行組合，綜合各模型的預(yù)測結(jié)果，從而得到更準(zhǔn)確和具有魯棒性的分類結(jié)果，模型結(jié)構(gòu)如圖5所示.

圖5中藍(lán)線框內(nèi)使用多個基于CNN和Transformer的圖像分類模型對數(shù)據(jù)進(jìn)行訓(xùn)練，用這些模型在較大數(shù)據(jù)集上的預(yù)訓(xùn)練參數(shù)，再對每個巖石薄片圖像進(jìn)行特征學(xué)習(xí)，并用于分類任務(wù). 在驗(yàn)證集上評估各單模型的性能，通過對結(jié)果預(yù)測的準(zhǔn)確性比較各模型，選取性能優(yōu)秀的模型后續(xù)使用. 紅線框內(nèi)選擇性能最佳的模型，先用每個模型對圖像樣本進(jìn)行分類預(yù)測，再通過Softmax輸出各類別的概率結(jié)果. 然后通過混合專家模型為選中的每個專家模型分配一個權(quán)重，通過模型在驗(yàn)證集上的預(yù)測結(jié)果得到各專家模型在分類任務(wù)中的貢獻(xiàn)進(jìn)行結(jié)果融合，尋找混合專家模型中各專家模型的最優(yōu)權(quán)重集合，最終進(jìn)行結(jié)果預(yù)測.

2.1 巖石薄片圖像收集與處理

本文巖石薄片圖像數(shù)據(jù)來自中國實(shí)物地質(zhì)資料信息網(wǎng)的實(shí)物地質(zhì)資料圖像數(shù)據(jù)庫（https：//www.cgsi.cn/）. 首先對巖石薄片圖像進(jìn)行分類和統(tǒng)計. 在數(shù)據(jù)庫中選擇3個較大的巖石薄片圖像產(chǎn)地，共得到1 539組巖石薄片圖像樣本，其中包含11 370張巖石薄片圖像. 對這些圖像按巖石的名稱進(jìn)行分類，統(tǒng)計每個類別中的圖像數(shù)量，并按數(shù)量進(jìn)行排序，結(jié)果列于表2. 巖石薄片圖像如圖6所示.

得到圖像后對圖像進(jìn)行尺寸調(diào)整，使其大小一致，并進(jìn)行顏色標(biāo)準(zhǔn)化操作，消除由于不同圖像采集設(shè)備、光照條件和色彩校準(zhǔn)等因素導(dǎo)致的顏色偏差，以提高模型對圖像特征的識別能力.

為評估分類模型的性能，將數(shù)據(jù)集按14∶3∶3的比例劃分為訓(xùn)練集、驗(yàn)證集和測試集. 為增加模型的泛化能力，對訓(xùn)練集和驗(yàn)證集中的每張圖片進(jìn)行隨機(jī)裁剪、旋轉(zhuǎn)、翻轉(zhuǎn)及顏色抖動等處理，以生成更多樣的訓(xùn)練樣本，擴(kuò)展數(shù)據(jù)集的多樣性，并使模型對圖像的變化有更好的適應(yīng)能力.

2.2 單模型巖石薄片圖像分類

搭建多個基于CNN和Transformer的分類模型，如ResNet50，MobileNetV3，InceptionV3，DeiT. 使用這些模型在較大數(shù)據(jù)集上的預(yù)訓(xùn)練參數(shù)，再對每個巖石薄片圖像進(jìn)行特征學(xué)習(xí)，并用于分類任務(wù). 對每個模型，采用端到端的訓(xùn)練策略. 首先，將巖石薄片圖像樣本輸入到模型中，對圖像進(jìn)行特征提取和表示學(xué)習(xí); 其次，通過反向傳播算法和優(yōu)化方法，對模型的參數(shù)進(jìn)行調(diào)整和更新，使模型能更準(zhǔn)確地預(yù)測巖石薄片圖像的類別; 最后，采用多個模型，并對不同模型采用不同的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)設(shè)置，以考察不同模型的特征表示能力和學(xué)習(xí)能力.

為評估模型性能，使用交叉熵作為損失函數(shù). 在多類別分類任務(wù)中，交叉熵?fù)p失可衡量模型的預(yù)測結(jié)果與真實(shí)標(biāo)簽之間的差異程度. 通過最小化損失函數(shù)，模型逐漸調(diào)整參數(shù)，提高對巖石薄片圖像的分類準(zhǔn)確性. 交叉熵?fù)p失函數(shù)的計算公式為

Lt=∑Ni=1ytilog（pti），（1）

其中y表示圖像的真實(shí)標(biāo)簽， N表示圖像的總數(shù)量， L為損失函數(shù)的值.

通過訓(xùn)練多個單模型，并計算每個模型對圖像樣本的預(yù)測結(jié)果，最終獲得多個獨(dú)立的分類模型. 這些模型具有不同的架構(gòu)和參數(shù)設(shè)置，能對巖石薄片圖像的不同特征進(jìn)行學(xué)習(xí)和表示.

2.3 混合專家模型巖石薄片圖像分類

在單模型分類的基礎(chǔ)上，引入混合專家模型進(jìn)一步提高巖石薄片圖像分類的性能. 通過將效果較好的多個單模型進(jìn)行組合，綜合各模型的預(yù)測結(jié)果，從而得到更準(zhǔn)確和具有魯棒性的分類結(jié)果. 混合專家模型的過程主要由一組專家模型和一個門控模型組成. 基本理念是將輸入數(shù)據(jù)根據(jù)任務(wù)類型分割成多個區(qū)域，并將每個區(qū)域的數(shù)據(jù)分配一個或多個專家模型. 每個專家模型可專注于處理輸入這部分?jǐn)?shù)據(jù)，從而提高模型的整體性能.

門控模型主要由稀疏門網(wǎng)絡(luò)組成，它接收單個數(shù)據(jù)元素作為輸入，然后輸出一個權(quán)重，這些權(quán)重用于表示不同專家模型在處理輸入數(shù)據(jù)時做出的貢獻(xiàn)，一般采用Softmax門控函數(shù)通過專家對概率分布進(jìn)行建模. 例如，如果模型有3個專家，輸出的概率可能為0.6，0.3，0.1，則表示第一個專家對處理此數(shù)據(jù)的貢獻(xiàn)為60%，第二個專家為30%，第三個專家為10%.

混合專家模型還包含一組專家模型，在訓(xùn)練過程中，門控模型將輸入的數(shù)據(jù)分配到不同的專家模型中進(jìn)行處理，不同的專家被分配到處理不同種類的輸入數(shù)據(jù)；在推理過程中，被門控選擇的專家會針對輸入的數(shù)據(jù)產(chǎn)生相應(yīng)的輸出. 這些輸出最后會與每個專家模型處理該特征的能力分配的權(quán)重進(jìn)行加權(quán)組合，形成最終的預(yù)測結(jié)果. 混合專家模型在訓(xùn)練過程中通過“因材施教”的思想構(gòu)建門控模型，進(jìn)而在推理過程中實(shí)現(xiàn)各專家模型的優(yōu)勢. 在混合專家模型中，處理輸入數(shù)據(jù)時只有少數(shù)專家模型被激活或使用，而大部分專家模型處于未被激活狀態(tài)，這種狀態(tài)即為稀疏. 稀疏性是混合專家模型的主要優(yōu)點(diǎn)，也是提升模型訓(xùn)練和推理過程效率的關(guān)鍵.

圖7為混合專家模型的原理，一個門控模型用于分配每個專家模型的輸出權(quán)重. 對一個輸入樣本c，第i個專家模型的輸出為oic，真實(shí)數(shù)據(jù)為dc，則其損失函數(shù)可表示為

Ec=∑ipci（dc-oci）2，（2）

其中pci表示門控模型分配給每個專家模型的權(quán)重，將pci放于括號外部使每個專家模型都能單獨(dú)計算損失函數(shù)，鼓勵不同的專家模型進(jìn)行競爭.

每個專家模型都會對圖像樣本進(jìn)行分類預(yù)測，并輸出各類別的概率結(jié)果. 通過為每個專家模型分配的權(quán)重表示該模型對最終分類結(jié)果的重要性. 通過驗(yàn)證集將門控網(wǎng)絡(luò)計算的權(quán)重進(jìn)行加權(quán)聚合，每個專家模型的輸出乘以相應(yīng)的權(quán)重，并將這些加權(quán)的輸出求和，從而得到最終模型輸出的預(yù)測結(jié)果. 混合專家模型得到的結(jié)果為=1N∑Nt=1ptyt，" ∑Nt=1pt=1，（3）

其中p表示每個專家模型對應(yīng)的權(quán)重， y表示每個模型預(yù)測各類別概率的結(jié)果，表示多個結(jié)果的加權(quán)和， N表示進(jìn)行加權(quán)的模型數(shù)量.

要求所有模型的權(quán)重之和等于1，并使最終概率和仍等于1.

在混合專家模型學(xué)習(xí)的過程中，通過合理設(shè)置權(quán)重平衡各模型之間的貢獻(xiàn). 性能更好的模型會被分配更高的權(quán)重，而性能較差的模型則會被分配較低的權(quán)重. 通過調(diào)整權(quán)重，可有效結(jié)合各模型的優(yōu)勢，提高模型整體的分類性能和魯棒性. 通過引入混合專家模型，可充分利用多個單模型的優(yōu)勢，其加權(quán)組合機(jī)制使模型能在不同的輸入下自適應(yīng)地選擇哪個專家模型能更有利于當(dāng)前輸入，從而彌補(bǔ)單個模型的不足，提高巖石薄片圖像分類的準(zhǔn)確性和可靠性.

3 實(shí)驗(yàn)與結(jié)果分析

3.1 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)計

實(shí)驗(yàn)以Python3.8.10作為編程語言，以PyTorch作為學(xué)習(xí)框架，版本為1.11.0， GPU選擇RTX 3090，顯存為24 GB， CPU是Intel Xeon Gold 6330，內(nèi)存為25 GB. 采用分批次訓(xùn)練方法，批次大小為64，所有訓(xùn)練圖像在模型中完成一次計算即為一次迭代. 網(wǎng)絡(luò)初始學(xué)習(xí)率為0.001，衰減步長為10，衰減因子為0.9.

3.2 評價指標(biāo)

實(shí)驗(yàn)采用準(zhǔn)確率（ACC）和AUC作為評價指標(biāo). ACC是衡量模型在所有預(yù)測中正確分類的比例，假設(shè)TP，TN，F(xiàn)P，F(xiàn)N分別為真正例、真反例、假正例、假反例的數(shù)量，則ACC的計算公式為

ACC=TPTP+FP.（4）

AUC是基于ROC曲線（receiver operating characteristic curve）計算得出的一個指標(biāo)，用于評估模型在不同閾值下的分類性能. 二分類的AUC的計算方式是通過以假正例率（FPR）為橫坐標(biāo)、真正例率（TPR）為縱坐標(biāo)繪制出的ROC曲線下的面積得出. 其中， FPR和TPR的計算公式分別為FPR=FPFP+TN，（5）TPR=TPTP+FN.（6）

多分類的AUC通過計算多個種類的二分類AUC的值平均得出，計算公式為

AUC=mean（AUC1，AUC2，…，AUCn）.（7）

3.3 單模型收斂性實(shí)驗(yàn)

選擇ResNet50，MobileNetV3，InceptionV3，DeiT 4個模型進(jìn)行訓(xùn)練， 4個模型在200次迭代中的損失值、 ACC值、 AUC值變化曲線如圖8所示. 由圖8可見， DeiT的效果最好，在隨機(jī)變換后驗(yàn)證集上的準(zhǔn)確率達(dá)80%以上， ResNet-50效果最差.

3.4 混合專家模型權(quán)重實(shí)驗(yàn)

構(gòu)建混合專家模型，觀察使用該方法后模型對巖石薄片的分類預(yù)測準(zhǔn)確率對比單模型是否有提升. 由上述實(shí)驗(yàn)結(jié)果可知， ResNet50模型的效果比其他模型相差較多，并且與其他模型結(jié)構(gòu)的重復(fù)度較高，故選擇剩余的MobileNetV3，InceptionV3和DeiT作為專家模型構(gòu)建混合專家模型.

由于樣本分布不均勻，最大類別與最小類別數(shù)據(jù)量約相差6倍，故選擇AUC最大值作為專家模型的選取，選擇專家模型后，分別對經(jīng)過Softmax的結(jié)果進(jìn)行加權(quán)求和，在驗(yàn)證集采用網(wǎng)格搜索的方式尋找混合專家模型中各專家模型最佳的權(quán)重集合，其中Softmax加權(quán)網(wǎng)格搜索的效果如圖9所示.

由圖9可見，當(dāng)DeiT，InceptionV3，MobileNetV3的權(quán)重分別為0.67，0.27，0.06時模型效果最好. 對3個專家模型，構(gòu)建混合專家模型在驗(yàn)證集上的最佳模型，混合專家模型和單模型在驗(yàn)證集和測試集上的測試效果列于表3.

由表3可見，通過最佳權(quán)重集合構(gòu)建的混合專家模型在測試集和驗(yàn)證集上的性能均較好，對比最優(yōu)秀的單一分類模型DeiT，在驗(yàn)證集和測試集上的準(zhǔn)確率分別高出0.006 2和0.005 1.

實(shí)驗(yàn)結(jié)果表明，在驗(yàn)證集上得到的模型在測試集上性能也較好，可有效增加模型預(yù)測的準(zhǔn)確率. 對最終的混合專家模型，其對測試集的圖像預(yù)測熱力圖如圖10所示，其中從左到右的類別分別為板巖、灰?guī)r、砂巖、礫巖、花崗巖. 由圖10可見，模型對各巖石類別的預(yù)測效果相對較好，但也存在一些問題. 當(dāng)預(yù)測標(biāo)簽為砂巖一列時，模型可能會將其他類別的圖像錯誤地預(yù)測為砂巖，這可能是因?yàn)樯皫r類別在巖石分類中屬于一個廣泛的類別，包含了多種不同的樣本，即使部分巖石的名稱被定義為其他巖石，可能最終類別仍在砂巖類中，導(dǎo)致模型產(chǎn)生混淆.

綜上所述，本文基于多個CNN和Transformer的單模型分類器，通過端到端訓(xùn)練對巖石薄片圖像進(jìn)行特征提取和學(xué)習(xí)，以預(yù)測巖石的類別. 通過引入構(gòu)建混合專家模型的思想合理設(shè)置權(quán)重，平衡各模型之間的貢獻(xiàn)，提高了模型整體的分類性能和魯棒性. 使用中國實(shí)物地質(zhì)資料信息網(wǎng)的巖石薄片圖像數(shù)據(jù)庫構(gòu)建數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)的結(jié)果表明，在單個模型的預(yù)測準(zhǔn)確率達(dá)86.65%，在MoE模型中達(dá)87.16%.

參考文獻(xiàn)

［1］袁穎，李紹康，周愛紅. 基于PCA-GA-SVM的火成巖分類方法研究［J］. 數(shù)學(xué)的實(shí)踐與認(rèn)識， 2017， 47（12）： 121-128. （YUAN Y， LI S K， ZHOU A H. Research on Igneous Rock Classification Method Based on PCA-GA-SVM ［J］. Mathematics Practice and Understanding， 2017， 47（12）： 121-128.）

［2］馬隴飛，蕭漢敏，陶敬偉，等. 基于梯度提升決策樹算法的巖性智能分類方法［J］. 油氣地質(zhì)與采收率， 2022， 29（1）： 21-29. （MA L F， XIAO H M， TAO J W， et al. Lithology Intelligent Classification Method Based on Gradient Boosting Decision Tree Algorithm ［J］. Oil and Gas Geology and Recovery Factors， 2022， 29（1）： 21-29.）

［3］賀金鑫，任小玉，陳圣波，等. 融合學(xué)習(xí)模型的巖石光譜特征自動分類［J］. 光譜學(xué)與光譜分析， 2021， 41（1）： 141-144. （HE J X， REN X Y， CHEN S B， et al. Automatic Classification of Rock Spectral Features Based on" Fusion Learning Model" ［J］. Spectroscopy and Spectral Analysis， 2021， 41（1）： 141-144.）

［4］ MARMO R， AMODIO S， TAGLIAFERRI R， et al. Textural Identification of Carbonate Rocks by Image Processing and Neural Network： Methodology Proposal and Examples ［J］. Computers amp; Geosciences， 2005， 31（5）： 649-659.

［5］ SINGH N， SINGH T N， TIWARY A， et al. Textural Identification of Basaltic Rock Mass Using Image Processing and Neural Network ［J］. Computational Geosciences， 2010， 14（2）： 301-310.

［6］ CHATTERJEE S. Vision-Based Rock-Type Classification of Limestone Using Multi-class Support Vector Machine ［J］. Applied Intelligence， 2013， 39（1）： 14-27.

［7］ KHORRAM F， MORSHEDY A H， MEMARIAN H， et al. Lithological Classification and Chemical Component Estimation Based on the Visual Features of Crushed Rock Samples ［J］. Arabian Journal of Geosciences， 2017， 10（15）： 324-1-324-9.

［8］ MLYNARCZUK M， GRSZCZYK A， S＇LIPEK B. The Application of Pattern Recognition in the Automatic Classification of Microscopic Rock Images ［J］. Computers amp; Geosciences， 2013， 60： 126-133.

［9］譚永健，田苗，徐德馨，等. 基于Xception網(wǎng)絡(luò)的巖石圖像分類識別研究［J］. 地理與地理信息科學(xué)， 2022， 38（3）： 17-22. （TAN Y J， TIAN M， XU D X， et al. Research on Rock Image Classification and Recognition Based on Xception Network ［J］. Geography and Geo＼|Information Science， 2022， 38（3）： 17-22.）

［10］許振浩，馬文，林鵬，等. 基于巖石圖像遷移學(xué)習(xí)的巖性智能識別［J］. 應(yīng)用基礎(chǔ)與工程科學(xué)學(xué)報， 2021， 29（5）： 1075-1092. （XU Z H， MA W， LIN P， et al. Intelligent Identification of Lithology Based on Rock Image Transfer Learning ［J］. Journal of Applied Basic and Engineering Sciences， 2021， 29（5）： 1075-1092.）

［11］程國建，李碧，萬曉龍，等. 基于SqueezeNet卷積神經(jīng)網(wǎng)絡(luò)的巖石薄片圖像分類研究［J］. 礦物巖石， 2021， 41（4）： 94-101. （CHENG G J， LI B， WAN X L， et al. Research on Rock Thin Section Image Classification Based on SqueezeNet Convolutional Neural Network ［J］. Minerals and Rocks， 2021， 41（4）： 94-101.）

［12］張野，李明超，韓帥. 基于巖石圖像深度學(xué)習(xí)的巖性自動識別與分類方法［J］. 巖石學(xué)報， 2018， 34（2）： 333-342. （ZHANG Y， LI M C， HAN S. Automatic Identification and Classification Method of Lithology Based on Deep Learning of Rock Images ［J］. Acta Petrologica Sinica， 2018， 34（2）： 333-342.）

［13］ LI N， HAO H Z， GU Q， et al. A Transfer Learning Method for Automatic Identification of Sandstone Microscopic Images ［J］. Computers amp; Geosciences， 2017， 103： 111-121.

［14］ POLAT O， POLAT A， EKICI T. Automatic Classification of Volcanic Rocks from Thin Section Images Using Transfer Learning Networks ［J］. Neural Computing and Applications， 2021， 33（18）： 11531-11540.

［15］ DOS ANJOS C E M， AVILA M R V， VASCONCELOS A G P， et al. Deep Learning for Lithological Classification of Carbonate Rock Micro-CT Images ［J］. Computational Geosciences， 2021， 25（3）： 971-983.

［16］ HE K M， ZHANG X Y， REN S Q， et al. Deep Residual Learning for Image Recognition ［C］//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE， 2016： 770-778.

［17］ HOWARD A G， ZHU M L， CHEN B， et al. MobileNets： Efficient Convolutional Neural Networks for Mobile Vision Applications ［EB/OL］. （2017-04-17）［2023-01-10］. https：//arxiv.org/abs/1704.04861.

［18］ HOWARD A， SANDLER M， CHU G， et al. Searching for Mobilenetv3 ［C］//Proceedings of the IEEE/CVF International Conference on Computer Vision. Piscataway， NJ： IEEE， 2019： 1314-1324.

［19］ SZEGEDY C， LIU W， JIA Y Q， et al. Going Deeper with Convolutions ［C］//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE， 2015： 1-9.

［20］ SZEGEDY C， VANHOUCKE V， IOFFE S， et al. Rethinking the Inception Architecture for Computer Vision ［C］//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE， 2016： 2818-2826.

［21］ TOUVRON H， CORD M， DOUZE M， et al. Training Data-Efficient Image Transformers amp; Distillation through Attention ［C］//International Conference on Machine Learning. ［S.l.］： PMLR， 2021： 10347-10357.

（責(zé)任編輯：韓嘯）

吉林大學(xué)學(xué)報(理學(xué)版)2024年4期

吉林大學(xué)學(xué)報(理學(xué)版)的其它文章: 地下水土著微生物菌群吸收維生素強(qiáng)化微生物降解烷烴效率分析; 二苯氨基脲摻雜g|C3N4的制備及其光催化性能; 新型陰離子金屬有機(jī)骨架化合物的合成及其對染料的吸附性能; Ag摻雜In2O3薄膜的制備及其光電性能; 基于Fourier變換紅外光譜分析咖啡豆成分; 耦合Rulkov神經(jīng)元的復(fù)雜動力學(xué)行為