李維剛 諶竟成 謝 璐 趙云濤
(武漢科技大學冶金自動化與檢測技術教育部工程研究中心 武漢 430081)
鋼的微觀組織決定其使用性能,對微觀組織的定性和定量研究一直都是鋼鐵材料領域的重要工作[1-3]。將采用適當方法(如拋光、腐蝕)處理后的實驗鋼試樣置于光學顯微鏡(Optical Microscope,OM)或電子顯微鏡(Electron Microscope, EM)下,可觀察到鋼的顯微組織形貌圖像,即金相圖[4,5]。傳統上,金相圖的辨識由人工完成,對人的專業經驗依賴性較大,即使是經驗豐富的專家也會因為肉眼看不到的圖像細節而分析失誤。而現代鋼材種類越來越多,其內部顯微組織越來越復雜,人工辨識面臨巨大挑戰[6,7]。
隨著計算機視覺的深入發展,國內外研究者已開始將深度學習用于金相圖的自動辨識問題。Pauly等人[8]使用數據挖掘方法對金相圖分類,但由于不同類別間提取到的特征差異性不夠,在測試集上僅獲得48%的精度。Chowdhury等人[9]組合不同的特征提取和特征選擇方法作用于金相圖,并選擇不同分類器,比較了不同組合間模型性能的差異。Azimi等人[10]采用全卷積神經網絡對金相圖進行分類,在所收集的數據集上能夠獲取90%以上的精度。文獻[11]融合多種圖像增強方法,并改進AlexNet, VGGNet, ResNet, GoogleNet適用于金相圖,在所收集的數據集上能夠獲取95%以上的精度。上述研究所使用的一般均是小規模數據集,且由于人工標注困難、效率低問題,用于模型訓練的已標記圖像數量較少,模型泛化能力弱、實際應用困難。
圖[12-14]G=(V,E)能表達非歐空間復雜數據關系[15],圖卷積(Graph Convolutional Network,GCN)可用于超維關聯數據的挖掘和分析[16-18]。基于已有拓撲學習模型[19],本文提出一種基于自組織增量-圖卷積神經網絡的半監督學習方法。在原自組織增量神經網絡(Self-Organizing Incremental Neural Network, SOINN)中引入連接權重概念來表示兩節點相似性,得到引入連接權重策略的自組織增量神經網絡(Weighted SOINN, WSOINN),并引入節點勝利次數以挑選少量節點進行人工標注;進而,搭建GCN學習拓撲圖中高階特征來預測節點的類別信息,達到用較少的圖像標注量獲取較高模型分類準確率的目的。本文用WSOINN獲取拓撲圖結構描述圖像數據的空間分布,用GCN將WSOINN拓展至半監督學習,實現鋼鐵材料金相圖的自動分類。針對收集到的貝氏體、低碳板條馬氏體、高碳片狀馬氏體、鐵素體、下貝氏體、珠光體6種類型的金相圖進行實驗,結果表明,本方法具有較高的準確性和適應性。
本節首先給出WSOINN-GCN的整體框架;然后,分小節介紹各個模塊:2.1節介紹圖像數據特征提取;2.2節給出WSOINN算法步驟;2.3節結合金相圖特征設計GCN;2.4節給出WSOINN-GCN的算法步驟。
WSOINN-GCN模型框架如圖1所示,它由3部分組成:第1部分基于遷移學習獲得圖像數據的特征向量集合;第2部分采用引入連接權重策略的自組織增量神經網絡(WSOINN)提取特征數據的拓撲圖結構,并按照節點勝利次數選擇少量節點進行人工標注;第3部分搭建圖卷積網絡(GCN),采用交叉熵損失函數、Adam算法優化網絡參數,自動標注剩余節點,最后基于歐氏距離來分類所有圖像數據。

圖1 WSOINN-GCN模型框架
圖2展示了收集自某國家重點實驗室場發射掃描電子顯微鏡所拍攝的不同鋼鐵材料的微觀組織圖片,依次為鐵素體、珠光體、貝氏體、下貝氏體、板條馬氏體、片狀馬氏體,共2342張,圖片像素大小均為221×221。

圖2 金相圖樣本
如圖3,本文采用在ImageNet數據集上已訓練好的VGG16卷積模塊提取每張金相圖的特征,并對從每張金相圖獲得的512張特征圖作全局均值池化,每張圖輸出一個512維的特征向量,從而得到所有金相圖特征提取后的數據特征集合。

圖3 利用VGG16卷積模塊提取金相圖的特征
SOINN可獲取特征數據的空間拓撲圖結構,而GCN可用于挖掘巨量、稀疏、超維關聯圖數據的關系。為融合SOINN與GCN,本文提出引入連接權重數的自組織增量神經網絡(WSOINN),并引入節點勝利次數以挑選少量節點進行人工標注。WSOINN的算法步驟如下:

針對金相圖的半監督學習分類問題,搭建具有3層圖卷積網絡的GCN模型,如圖4所示。N表示圖結構中節點數量,每層圖卷積后均接ReLU激活函數,其中第1、第2層用于特征整合與降維,輸出維度分別為N×512, N×256,參數量分別為512×512,512×256,第3層結合Softmax層用于分類,第3層輸出維度為N×6,參數量為256×6。


圖4 3層圖卷積網絡結構


結合圖1中給出的模型框架,本文提出的WSOINN-GCN對圖像數據自動標注及分類的算法步驟如下:

由上述算法步驟可知,WSOINN在原SOINN上引入了邊連接權重表示兩節點相似性,從而使得圖卷積神經網絡GCN能夠挖掘金相圖之間的關系,通過引入節點勝利次數ti來選擇少許具有代表性的重要節點進行人工標注,避免隨機選擇造成的模型不穩定,從而有機地將WSOINN與GCN結合起來,在減少人工標注的同時,實現了圖像數據的高效分類。
本節先給出WSOINN-GCN模型參數的優選方法,再比較在不同節點標注率下模型的節點標注精度及金相圖分類精度,最后給出其他常見方法的對比實驗結果。
本實驗硬件支持有CPU為i5-7500,4核4線程,主頻3.41 GHz,內存12 GB, GPU為NVIDIA GeFore GTX 1060,顯存6 GB,操作系統為win10,編程環境為spyder,Python3.7,框架平臺為tensorflow。對于圖卷積網絡結構,采用Adam算法優化參數,初始學習率為0.01, dropout神經元失活的概率為0.5, Glorot_normal初始化參數,采用Early Stopping提前終止。統計精確率與召回率2個指標。
WSOINN在每輸入樣本的百分比例p后,會刪除孤立節點,會影響最終節點輸出數量。節點數過多可能含有噪聲節點,節點數過少不能全面反映所有樣本分布,從而間接影響自動標注精度。圖5表示為列舉了不同p,Wmax值下,WSOINN獲取拓撲圖節點的數量情況,顏色越深代表產生的節點數越少,節點數最大值為865,最小值256。圖6代表連接矩陣的稀疏程度(非0元素所占比例),顏色越深表示連接矩陣越稀疏,由圖5、圖6可知,隨著p,Wmax增大,節點數隨之增大,連接矩陣越稠密。

圖5 不同p , Wmax下節點數

圖6 不同p , Wmax下連接矩陣稀疏程度
實驗收集到的金相圖總樣本數有2432張,用n,a分別代表WSOINN輸出圖的節點數和連接矩陣中非0元素個數,為保證精度同時加快運算,選擇節點數為原數據量的1/10~1/6的WSOINN進一步分析。
表1列舉了節點標注率為0.3、不同p,Wmax值時模型對剩余節點的自動標注精度,其中Acc_w是按照勝利次數選擇標注的結果,Acc_r是隨機選擇節點標注的結果。可見:
(1)與按照節點勝利次數選擇節點標注相比,隨機選擇節點標注導致剩余節點自動標注精度時高時低,且自動標注精度未超過前者,按照節點勝利次數選擇節點標注具有穩定的優勢。
(2)無論哪種標注方式,隨著節點數增多,剩余節點標注精度呈下降趨勢,且在同等規模節點下,連接矩陣越稀疏(即越小),節點標注精度越高。
根據表1,選取適合金相圖分類的網絡參數p=10%,Wmax=2, 此時節點數為n=294,a=324。按照節點勝利次數選擇節點標注繼續完成后續實驗。

表1 標注率為0.3時,不同p, Wmax值下剩余節點標注精度
為便于比較,搭建與WSOINN-GCN具有相同參數量的自組織增量-全連接神經網絡(WSOINNMLP),其將WSOINN-GCN中GCN模塊替換成多層感知機 (MultiLayer Perceptron, MLP),相應的圖結構輸入變為單節點輸入,神經元激活函數采用ReLU,其中MLP結構如圖7所示。

圖7 MLP
表2列出了WSOINN-GCN,WSOINN-MLP在不同節點標注率、有無Dropout策略下,模型對拓撲圖中剩余無標注節點的自動標注精度。可見:

表2 不同節點標注率情況下剩余節點自動標注精度(%)
(1)隨著節點標注率增加,兩類模型的精度都會增加。WSOINN-GCN性能要優于WSOINNMLP,當節點標注率為0.3時,前者精度可達93%,而后者僅為86%。這是因為GCN會考慮單節點的1階鄰域信息,有更強的泛化能力,而MLP訓練過程一直是單節點前向傳播,其無法考慮節點之間的連接性。
(2)對于WSOINN-GCN而言,當節點標注率較低時(≤0.4),含有Dropout比未含有Dropout有更好的性能表現;當節點標注率較高時,Dropout會降低GCN自動標注精度。這是因為節點標注率低時,雖標注的節點代表性強,但圖中高階信息未完全挖掘,GCN易對已標注的節點過擬合,此時使用Dropout會增加模型的泛化能力,而當節點標注率增加時,已標注的節點有足夠的全局代表性,加之GCN會獲取節點1階鄰域信息,此時使用Dropout正則化方法往往會矯枉過正,降低模型性能。
(3)對于WSOINN- MLP而言,無論節點標注率多少,使用Dropout策略能一直提高其精度。因為MLP不能考慮節點間的關聯信息,易出現過擬合現象,Dropout在一定程度上能彌補這一缺陷。
表3列舉不同節點標注率下所有金相圖自動分類精度;表4列舉了節點標注率為0.3時,不同類別的金相圖的準確率和召回率。由表4可見:(1)節點標注率越高,金相圖自動分類準確率呈上升趨勢,但是對于當節點標注率達到0.6時,WSOINNGCN和WSOINN-MLP的性能均無法再提高;(2)高碳片狀馬氏體召回率雖高,精確率卻低至74%,貝氏體精度雖高,但召回率低,存在交叉誤判,原因可能是VGG16卷積層雖能暴力提取特征,但是對這種平均像素強度相近的灰度金相圖,VGG16無法進一步獲取到深度區分特征。

表3 不同節點標注率情況下所有金相圖分類精度(%)

表4 節點標注率為0.3時,不同類別金相圖的精確率與召回率(%)
表5列舉了選擇30%比例標注,不同方法的所有圖片分類精度、在相同環境下所需的訓練時間及人工所需標注圖像數量。針對金相圖數據集,參照文獻[11],搭建了深度卷積網絡VGG-ICAM,標注30%的圖像數據樣本用于訓練,預測所有樣本;SOINN先用VGG16卷積模塊提取特征,同VGGICAM標注30%樣本用于拓撲學習,最后基于歐氏距離判斷所有圖像數據;MLP先用VGG16提取特征,然后搭建如圖7所示的分類器,標注30%樣本用于訓練,預測所有樣本;WSOINN-GCN,WSOINN-MLP用WSOINN學習所有樣本后,按照勝利次數選擇30%節點標注,用GCN, MLP自動標注剩余所有節點,最后基于歐氏距離分類所有圖像數據。

表5 選擇30%標注,不同方法的所有圖片自動分類效果
由表5可見:按照選擇30%標注,WSOINNGCN, WSOINN-MLP所需的人工標注量僅為其他方案的12%;在訓練時間上,相較于VGG-ICAM減少了99%,相較于SOINN, MLP雖稍微增加了訓練時間,但精度大幅度提升,具有明顯的優勢。
表6列舉了所有圖片分類精度達到90%以上,VGG-ICAM, SOINN, MLP, WSOINN-GCN,WSOINN-MLP所需的人工標注數量及訓練時間。可見,WSOINN-GCN所需的人工標注量僅為VGG-ICAM的5.6%, SOINN, MLP的5.2%,且訓練時間相較于VGG-ICAM大幅縮減。

表6 分類精度達到90%,不同方法所需的標注量及訓練時間
(1)針對深度學習中圖像數據標注困難的問題,融合拓撲學習與圖卷積理論,本文提出一種新的基于自組織增量-圖卷積神經網絡(WSOINNGCN)的半監督學習方法。通過引入連接權重來改進自組織增量神經網絡(WSOINN),從而提取數據圖結構,并按照節點重要性指標節點勝利次數選擇部分節點進行標注,進而搭建圖卷積網絡(GCN)挖掘圖中節點的潛在聯系,融合Dropout正則化手段與Adam算法對GCN進行網絡參數尋優,自動標注剩余節點信息,并基于歐氏距離來自動分類金相圖,結果表明該模型具有可行性。
(2)針對從某國家重點實驗室掃描電子顯微鏡拍攝到的鋼鐵材料微觀組織圖片樣本,比較了不同節點標注率、有無Dropout 對模型的影響,結果表明:隨著節點標注率增加,WSOINN-GCN與WSOINN-MLP模型的精度都會增加,且前者性能要優于后者,當節點標注率為0.3時,前者精度可達93%,而后者僅為86%;對于WSOINN-GCN而言,當節點標注率較低時(≤0.4),含有Dropout比未含有Dropout有更好的性能表現;對于WSOINNMLP而言,無論節點標注率多少,使用Dropout策略能一直提高其精度。
(3)與現有的人工標注或其他監督學習算法相比,本文所提出的WSOINN-GCN模型有效解決了實際應用時金相圖片訓練集數據人工標注困難的問題,為金相圖片數據標注、分類等提供了新的解決思路。在金相圖片標注量僅為VGG等傳統深度學習網絡的12%時,新模型比傳統模型精度高,分類準確度高達91%;在達到相同的分類精度90%時,人工標注量僅為傳統模型的5.6%,同時保證了效率優勢。WSOINN-GCN具有自動提取數據圖結構、實施半監督學習、動態調整網絡結構等特性,在圖片數據標注、分類等領域有理論研究價值和廣闊的應用前景。