馬明剛,潘月梁,彭澤豹,王龍寶
(1.浙江寧海抽水蓄能有限公司,浙江 寧海 315600;2.河海大學計算機與信息學院,江蘇 南京 211100)
巖性識別作為地質勘探、施工質量監控等工作中的重要環節,在水利、電力、礦業等領域被廣泛研究。常規的巖性識別方法包括肉眼觀察[1]、薄片鑒定和試驗分析[2],但識別周期長,識別成本高以及主觀性強。自動化巖性識別手段包括傳統圖像處理技術和機器學習方法,傳統圖像處理手段包括提取和量化巖石圖像信息、利用濾波技術進行巖石色彩和紋理分析等[3-5]。然而,受限于試驗數據類別和顏色通道數量,在分析中存在計算量大、復雜度高、周期長等問題。機器學習模型手段包括多層感知機分類巖石薄片[5],支持向量機提取巖石顏色、紋理特征,進行巖石薄片巖性分類[6],主成分分析法構建巖性單元的特征向量比值,增強巖性的可識別性[7],AlexNet神經網絡構建巖石新鮮剖面的巖性分類模型[8],以及結合遷移學習建立深度學習模型進行巖性識別[9-10]等。以上對于巖石圖像巖性分類的研究,多集中在提取巖石圖像中的特征信息,無法在少量樣本下進行訓練至參數收斂。
然而,由于行業的特殊性,巖石圖像存在種類多、數量少的特點,部分類別樣本數量匱乏,造成數據樣本分布非常不均勻,如按常規深度學習方法進行訓練,會造成網絡的過擬合,無法取得令人滿意的結果。同時,研究對象多為巖石薄片圖像而非光學圖像,不符合野外實時分類的要求。為此,本文提出基于一種融合注意力自適應元學習的巖性分類方法,以巖石光學圖像為輸入對象,能在少樣本場景和有限的計算資源下,根據積累先驗知識快速學習新的識別任務,在巖石圖像特征分布不均衡的條件下,實現少樣本場景下的巖石分類問題。
在經典的元學習算法基礎上融合注意力機制,提出融合注意力的自適應元學習巖性分類方法,解決巖石圖像數據集特征提取不充分以及權值更新缺乏自適應情況,致使巖性分類的準確率較低的問題。
元學習被稱為“學習如何學習”[11],元學習的提出是針對傳統深度學習模型,在少樣本場景下存在的泛化性能有所欠缺、不能快速適應新任務的問題,其目標在于設計一種有著與人類相似的學習能力深度的學習模型,利用先前的學習中提取的先驗知識,僅僅使用少量的數據獲得相關經驗進行快速學習[12-13]。
基于優化方法的元學習基本思路為:將元學習視為一個雙層循環優化的問題,分別是基礎學習器層面和元學習器層面,包括LSTM元學習器、MAML、iMAML,此外,以MAML算法作為基本框架,衍生出了一系列優秀的元學習算法,包括LLAMA、BMAML、PLATIPUS等,應用概率論的理論在MAML的基礎上進行擴展,提供多個方案來解決任務。
在圖像分類任務中,基于優化的方法重點在于學習圖像之間最容易作為分類依據的關鍵特征,即學習如何快速適應新任務的能力。但MAML算法由于其梯度下降學習機制,內層循環存在訓練瓶頸,學習率的設置嚴重影響內層循環的梯度下降效率,且需要人工干預。
巖性分類的目標是識別輸入巖石圖像的巖石類別。提出的融合注意力的自適應元學習巖性分類方法(Adaptive Meta-Learning with Fused Attention,FA-AML)包括融合注意力的特征提取網絡和自適應元網絡。
FA-AML由基礎學習器以及自適應元網絡組成。其中,基礎學習器包含融合注意力的殘差注意網絡和分類層;自適應元網絡則根據每個步驟的當前權重和梯度值生成學習率與正則項系數超參數。FA-AML可以在少樣本場景下充分提取巖石圖像特征,獲得最具區分性的特征信息,解決巖石圖像特征分布不均衡的問題。同時,在元學習訓練過程中每個內部循環迭代能夠適應給定的任務,解決權值更新適應性問題。整體框架見圖1。

圖1 FA-AML整體框架
1.2.1 融合注意力的特征提取網絡
在少樣本的巖性分類場景中,由于缺乏足夠的巖石圖像數據,沒有足夠的數據使得網絡微調至擬合,因此深層網絡架構往往在少樣本條件下是沒有用的。注意力機制的提出使得深度學習模型更有效和更有目的性,利用注意力機制巧妙地提取巖石圖像中的重要信息而忽略無關信息,提高網絡的表征能力。
為充分地嵌入巖石圖像特征,設計巖石圖像特征提取網絡MLA-ResNet-12,將改進的卷積注意力模塊嵌入至殘差網絡ResNet-12,更有效地提取巖石圖像特征,緩解特征分布不均衡的問題,自適應引導分類。改進后的卷積注意力模塊見圖2。該注意力模塊包含2個分支:空間注意力與通道注意力(見圖3),提取這2個主要維度中有意義的巖石圖像特征。

圖2 注意力模塊

圖3 注意力模塊2個分支
在乘法過程中,空間注意力和通道注意力并行計算,能夠在有限的樣本數據中獲得足夠的特征信息。空間注意力模塊給出了在網絡學習過程中關注的位置的描述,而通道注意力模塊給出了在學習過程中的內容。同時,采用擠壓激勵網絡策略,通過額外的全局最大池化操作,在單層中提取更多的通道信息,并在通道注意力模塊中嘗試通過2個分支的組合獲得更好的特征。
1.2.2 超參數自適應元網絡
超參數自適應元網絡(HAML)在MAML的基礎上引入一個小型的元網絡,自動更新超參數(學習率與正則項系數),使訓練在任務條件下的內環更新更有效,其自適應規則與基于梯度下降的優化算法有相似之處。其中,每個權值的學習率可以由過去梯度的累積矩來調節,這些超參數是由一個元網絡生成的,該元網絡經過明確的訓練,以實現對看不見的例子的泛化。該方法具有自適應學習速率和正則化超參數的能力,可控制權值更新的方向和幅度。
綜合基礎學習器以及自適應元網絡解決巖石圖像樣本數量少、樣本分布不均衡的問題,達到一個良好的巖性分類效果。
巖石圖像數據集Rock-ImageNet是通過巖石數據庫、網絡搜索、某大壩現場無人機拍攝等不同手段采集所得。對樣本數據集進行逐一人工篩選,剔除模糊、對焦不清晰的巖石圖像,根據巖性將樣本進行分類整理、常規幾何變換,制作成2 437張20類常見巖石圖像。巖石數據集圖像示例見圖4。

圖4 巖石數據集圖像示例
在元數據集制作中,首先對上述數據集進行小樣本任務劃分,從數據集的類別中隨機抽取若干類別的圖像,再在剩余的類別中再抽取若干類別的圖像作為試驗驗證集圖像,最后剩余類別的樣本作為測試集圖像。具體分類情況為:9類元訓練集、5類元驗證集、6類元測試集。
2.2.1 超參數設置
融合注意力的特征提取網絡由4個融合注意力的殘差單元構成,每個殘差塊包含3個卷積層、64個濾波器(3×3)、批量歸一化層、ReLU函數。此外,將注意力模塊中的空間注意力調節器參數T設置為1倍epochs捕捉巖石圖像中的細節信息,以便更好地進行巖性分類。同時,對于所引入的超參數生成網絡,采用了1個層間ReLU激活的3層MLP。超參數生成網絡在每一個內環更新步驟時都是基于基礎學習器網絡的梯度和權值的分層均值。
對于巖石圖像數據集的N-way K-shot分類問題,采用經典的5-way 1-shot和5-way 5-shot的epoch小樣本任務設定。網絡訓練損失函數選擇交叉熵函數E,即
(1)
式中,pi(j)和qi(j)分別為在第i個類別中的第j個樣本的真實值與預測值。
損失函數的E值越小,預測值與真實值越接近。因此,模型訓練的最終目標是希望損失函數的值達到最小。試驗過程中,批處理(batch size)設置為16,超參數生成網絡的初始學習率為1×10-4,訓練次數取值(epoch)為100,每次訓練元任務數設置為1×102,初始權重衰減為1×10-6。
2.2.2 評價指標
評價指標使用測試階段的測試準確率來評價所提模型的分類性能,其中測試準確率簡稱為準確率。訓練階段,每個epoch訓練結束,對網絡模型進行評估驗證并統計驗證結果,每個epoch的驗證準確率為驗證結果的平均值。測試階段,在元測試集上隨機構建1×102個測試任務,用于測試模型性能,測試結果平均值作為測試準確率。其中,每次任務置信區間為95%。
為了驗證所提出的元學習方法的性能,在自建巖石圖像數據集Rock-ImageNet上進行性能對比試驗,將FA-AML和以下方法進行比較:
(1)匹配網絡。基于注意力和記憶力機制,利用余弦距離作為網絡的度量函數,計算網絡根據對支持樣本和查詢樣本進行編碼后結果的相似度確定查詢樣本的類別屬性。
(2)原型網絡。通過平均每個類支持示例的提取特征計算類代表或原型,預測最接近的類原型為輸出類。
(3)關系網絡。該網絡包含嵌入模塊和關系模塊。其中,嵌入模塊用于提取數據樣本特征;關系模塊由卷積網絡構成,利用樣本間的特征相似度進行計算從而完成分類。
(4)MAML(4-CONV)。以4層的卷積網絡(4-CONV)作為特征提取網絡,MAML創造一種獨特的模型訓練結構,雙層循環結構的訓練過程能夠有效地使模型不再傾向于數據本身,而是針對新的不同任務適應層面,即盡可能學習一種快速適應新的任務的能力。
(5)MAML(ResNet-12)。與MAML(4-CONV)唯一不同的是利用殘差網絡ResNet-12作為特征提取網絡。
不同元學習方法圖像分類對比試驗結果見表1。從表1可知,FA-AML在自建巖石數據集的試驗效果均優于其他基線方法,達到了良好的分類性能。對于5-way 1-shot任務,所提出的FA-AML比匹配網絡、原型網絡、關系網絡、MAML(4-CONV)以及MAML(ResNet-12)分別提高了5.84%、1.83%、0.93%、4.02%和1.79%。在5-way 5-shot中,FA-AML比匹配網絡、原型網絡、關系網絡、MAML(4-CONV)以及MAML(ResNet-12)分別提高了6.81%、4.05%、1.52%、3.96%和2.54%。所提出的FA-AML方法在5-way 1-shot、5-way 5-shot設置下的平均增益比其他5種方法分別高出2.88%和3.58%。另外,在5-way 5-shot設置下,FA-AML算法的分類準確率達到了75.28%,初步達到了少樣本情境下巖石圖像分類效果的要求。

表1 不同元學習方法圖像分類對比試驗結果 %
從性能對比發現,融合注意力機制的自適應元學習FA-AML效果高于傳統的元學習分類算法,相比于采用ResNet12作為特征提取網絡的MAML算法也有較大提升。原因是因為在引入注意力機制對特征提取網絡進行了優化,并且增加了超參數自適應環節,提升了分類的準確性。
匹配網絡作為元學習中的度量學習的經典模型分類效果一般。原型網絡提出原型點的概念,將同類嵌入向量的均值作為該類的原型點,通過聚類思想進行分類,相較于匹配網絡分類效果有所提升。而同樣屬于度量學習的關系網絡,利用關系網絡抽取樣本特征并進行比對,使用可學習的度量函數,提升度量學習方法的精度和通用性,分類效果明顯優于匹配網絡以及原型網絡。MAML作為元學習中的經典算法,選取不同的特征提取骨干網絡時,分類效果有明顯差異,使用ResNet-12作為特征提取網絡的MAML算法比使用4CONV作為特征提取網絡的MAML算法分類準確率在巖石數據集上分別提升了1.93%和4.12%,可能是因為ResNet-12的網絡結構比4CONV的網絡結構更復雜,提取特征更具充分。
融合注意力的自適應元學習FA-AML整體分類效果最佳,其分類準確率有顯著提升的原因是:
(1)針對特征提取網絡的不足,融合注意力機制使得特征提取網絡在少樣本情景下充分提取巖石圖像最具區分性特征,緩解巖石圖像數據集存在的特征分布不均衡的問題,從而提高了網絡的表征能力。
(2)針對元學習的訓練數據維度差異問題,引入1個超參數自適應網絡動態生成學習率與正則項系數的超參數,使得每個內環迭代都能快速適應給定的巖石圖像分類任務。
設置消融試驗驗證融合注意力的特征提取網絡模塊和自適應元網絡的有效性。
以融合注意力的ResNet-12網絡與不添加注意力機制的ResNet-12網絡作為對照組,超參數更新均采用自適應元網絡控制,在Rock-ImageNet上進行試驗。試驗設置5-way 1-shot及5-way 5-shot這2種場景。試驗結果見表2。從表2可知,同樣選擇ResNet-12網絡作為基準網絡,融合注意力的MLA-ResNet-12特征提取網絡表型更好,在Rock-ImageNet上分別提升了1.34%和2.21%,說明融合注意力的特征提取網絡可以有效提取最具區分性的圖像特征,緩解樣本分布導致的特征分布不均衡問題,從而幫助模型學習到更好的特征表示,提升模型的分類性能。

表2 特征提取網絡模塊有效性試驗結果 %
為驗證超參數自適應元網絡在面向巖石圖像分類任務上的有效性,將超參數自適應元網絡應用于MAML、MAML以及自適應元網絡應用與隨機初始化作為對照組,以MLA-ResNet-12作為特征提取網絡,分別在2個數據集上進行試驗,結果見表3。從表3可知,在Rock-ImageNet數據集上,自適應元網絡FA-AML應用于MAML時可以取得最好的分類性能,比只使用MAML框架時分別提升1.05%和1.84%,即使應用于參數隨機初始化時,也有顯著的性能提升,說明超參數自適應元網絡通過使學習率和正則化系數適應基礎學習器的當前學習狀態,能夠有效提升少樣本場景下巖石圖像的分類性能。

表3 自適應元網絡有效性試驗結果 %
本文針對巖石圖像樣本少、種類多以及樣本分布不均衡的問題,提出融合注意力的自適應元學習巖性分類方法FA-AML,從特征提取、超參數更新2個方面進行研究。通過混合通道注意力與空間注意力的卷積注意力模塊,嵌入包含4個殘差塊的殘差網絡ResNet-12,構建殘差注意力網絡MLA-ResNet-12,用于提取巖石圖像最具區分性特征,解決特征分布不均衡的問題。對于網絡的超參數更新,引入一個小型的元網絡,對學習率和正則化系數進行自適應更新,提高模型在不同種類巖石分類的泛化性能。結果表明,本文提出的融合注意力的自適應元學習能夠充分提取圖像特征,提高權值自適應能力,同時具有良好的巖石圖像分類效果。