武星胡明濤丁鵬
(1.上海大學計算機工程與科學學院,上海200444;2.之江實驗室,浙江杭州311100;3.上海大學材料基因組工程研究院材料信息與數據科學中心,上海200444;4.上海大學理學院,上海200444)
陶瓷涂層是由陶瓷材料發展而來的一種新型復合材料[1-2].陶瓷材料具有耐高溫、耐腐蝕、耐磨損等優良特性,但其抗彎強度較低且韌性較差,本質上屬于一種脆性材料.利用熱噴涂技術將陶瓷涂層噴涂至金屬基層上,可以形成一種陶瓷復合材料.該復合材料將陶瓷材料的特性與金屬基層的特性結合在一起,既保留了傳統陶瓷材料的優點,又保持了金屬基體材料的強韌性.
陶瓷涂層往往被用于極端環境,需要承受高溫及苛刻的化學環境,因此對其性能指標[3]的測量至關重要.熱膨脹系數[4]和熱導率[5]是陶瓷涂層兩個重要的性能指標,與其耐高溫的特性息息相關.熱膨脹系數是指材料在熱脹冷縮效應作用下,幾何特性隨著溫度的變化而發生變化的規律性系數.熱導率是定義材料導熱能力的度量指標.準確地評估陶瓷涂層的熱膨脹系數和熱導率,能夠直接或間接影響其使用性能.在國防工業、石油化工、國防軍工、航天航空等領域,許多構件的表面都需要噴涂陶瓷熱障涂層或耐磨耐腐涂層,以實現耐高溫、抗腐蝕、抗氧化的效果.由于陶瓷涂層與基體層材料的熱膨脹系數和熱導率存在差異,且陶瓷涂層大都為脆性涂層,厚度較薄且難以從基體上直接剝離,因此很難將陶瓷涂層作為單獨的塊體材料測試其熱膨脹系數和熱導率.正是由于陶瓷涂層的性能測試環境較為苛刻且其難以從基體上剝離,因此尋找一種既能降低陶瓷涂層性能測試成本,又能保證測試準確度的方法是非常必要的.
模態是指事物存在的形式,例如視頻、音頻或者文本.模態的表征學習是指將信息表示為計算機可以處理的數值向量,或進一步抽象為更高層的特征向量.生活中的信息往往不是只有一種存在形式,多種模態構成了人類生活的世界.因此,如何協調多種模態之間的信息交互,從而完成實際任務是當前的一個研究熱點.Baltruˇsaitis等[6]根據輸出的表征是否在一個統一的表征空間內,將多模態表征分為統一表征和協同表征.統一表征融合多個單模態信息,并將它們映射到一個統一的表征空間.協同表征分別處理每一個模態的信息,但在不同模態之間增加相似性的約束.多模態表征學習[7]通過利用多模態之間的互補性,剔除模態間的冗余性,從而學習到更好的特征表示.將各個模態的特征融合在一起構成多模態的融合特征,最終能夠利用多模態表征進行各項任務.特征融合包括早期融合、晚期融合和混合融合3種方法,其結構如圖1所示.早期融合首先從每個模態中分別提取特征;然后將提取到的特征直接拼接在一起形成融合特征;最后將融合特征輸入模型中,輸出預測結果.晚期融合首先用不同模型對不同模態數據進行訓練,然后再融合多個模型的輸出結果.晚期融合采用最大值結合、平均值結合、貝葉斯規則結合等結合方式來確定不同模型輸出結果的結合策略.混合融合在綜合了早期融合和晚期融合二者優點的同時,也增加了模型結構的復雜度和訓練難度.

圖1 特征融合方法結構圖Fig.1 Structure diagram of the feature fusion method
隨著機器學習技術的發展,許多研究者將多模態表征應用到機器學習方法中.宋云峰等[8]利用跨模態注意力機制實現了模態間的兩兩特征融合,并結合多任務學習獲得了情感和情緒的分類結果.實驗結果表明,情感和情緒分類的準確度都有所提升.田彥濤等[9]設計了一種車輛深度交互編碼并結合基于注意力機制的解碼器模型.該模型同時輸出車輛的多模態行為預測結果和未來軌跡預測分布.薛景瑜[10]基于阿爾茲海默癥的多模態影像數據建立了預測模型,對病人各階段的診斷結果進行預測.Maimaitijiang等[11]使用多光譜、熱傳感器等多模態數據,基于深度神經網絡框架估計了大豆谷物產量.實驗結果表明,模型對谷物產量預測的準確度較高.Pakdamanian等[12]提出了DeepTake,使用來自車輛數據、駕駛員生物特征和主觀測量的特征,預測了自動駕駛車輛中駕駛員的意圖和接管質量.Liu等[13]使用多模態數據建立了Hybrid DL模型,預測了人類乳腺癌分子亞型.模型在10次10折交叉驗證中的預測準確率達到88.07%.McClenny等[14]使用深度多模態遷移學習回歸器(deep multimodal transfer-learned regressor,DMTL-R),在深度回歸架構中對圖像和特征數據進行了多模態學習,有效預測了數據貧乏域中的目標參數.
上述研究表明,基于多模態數據表征構建的模型能夠整合不同模態之間的信息,使得模型的預測準確度更高、誤差更小.本工作基于陶瓷涂層多模態數據表征構建了模型,對不同工藝參數情況下陶瓷涂層的性能進行了預測,主要內容包括:①基于高斯混合模型虛擬樣本生成(Gaussian mixture model virtual sample generation,GMMVSG)算法[15],生成符合真實陶瓷涂層數據分布的樣本;②采用K最近鄰(K-nearest neighbor,KNN)[16]、支持向量機回歸(support vector regression,SVR)[17]和多層感知機[18](multi-layer perceptron,MLP)3種回歸算法,基于單模態陶瓷涂層結構化數據,建立了回歸模型預測陶瓷涂層的熱膨脹系數和熱導率;③利用在ImageNet[19]大型圖像數據集上預訓練的卷積神經網絡VGG16[20],對陶瓷涂層的顯微結構圖像數據進行特征提取;然后使用主成分分析(principal components analysis,PCA)技術對圖像特征進行降維.利用TabNet[21]對結構化數據進行特征提取.采用早期融合方法將提取到的圖像數據特征與結構化數據特征拼接在一起,形成多模態的特征融合數據.根據多模態數據表征,預測陶瓷涂層的熱膨脹系數和熱導率.
實驗結果表明,基于GMMVSG算法生成的樣本結合真實數據能夠實現較好的性能預測效果.相比于單模態數據表征學習模型,多模態數據表征學習模型對陶瓷涂層性能指標預測的準確度更高、誤差更小.這是因為多模態數據的各個模態之間可能存在互補信息[22],對于同一任務應用多個模態的數據,可以得到更具有魯棒性的預測結果.
本工作使用的陶瓷涂層數據集屬于小樣本數據集.小樣本數據集的數據分布具有離散性和稀疏性,模型難以捕獲數據樣本之間的潛在信息,直接采用此數據集進行預測,效果較差.基于GMMVSG算法可以根據真實樣本生成有效的虛擬樣本.虛擬樣本可以彌補原始樣本空間中真實樣本數據不足造成的信息缺口,擴大樣本數量,從而提高模型的預測能力.
高斯混合模型是一種概率建模方法,由多個高斯分布函數線性疊加,通過調節它們的均值和協方差來擬合成任意連續的概率密度函數.假設z∈Rd是一個具有d個特征的陶瓷涂層樣本,如果樣本z來自混合高斯模型,則其概率密度函數可表示為

式中:K表示高斯混合模型中高斯分量的數量;ωk表示第k個高斯分量的概率權重.假設X是具有K個分量的高斯混合模型中的參數集,其中包括高斯混合模型參數θk以及概率權重ωk(1≤k≤K).給定N個陶瓷涂層訓練樣本Z=[z1,z2,···,zN],似然函數和對數似然函數分別為

本工作基于GMMVSG算法生成的虛擬樣本和真實樣本的分布如圖2所示,其中黃色圓點代表真實樣本,藍色圓點是基于真實樣本生成的虛擬樣本.可以看出,通過GMMVSG算法能夠在真實樣本的間隙中嵌入虛擬樣本,縮小樣本之間的信息間隙.

圖2 基于GMMVSG算法的虛擬樣本和真實樣本分布圖Fig.2 Distribution map of virtual and real samples based on the GMMVSG algorithm
KNN算法通過計算陶瓷涂層樣本集中,每個樣本到數據集中其他樣本的距離,按照距離的大小進行排序,選擇與當前樣本最近的K個樣本作為該樣本的鄰居,并將這K個樣本輸出值的均值作為新樣本的輸出.距離的計算公式一般采用歐式距離.設P和Q是陶瓷涂層數據集中的2個樣本,其中P={p1,p2,···,pn},Q={q1,q2,···,qn},那么P和Q之間的距離d可表示為

式中:p1~pn是樣本P的所有特征信息;q1~qn是樣本Q的所有特征信息.
SVR算法的基本思想是通過一個非線性映射Φ,將陶瓷涂層樣本集中的樣本映射到高維特征空間F,并在這個空間進行線性回歸.假設陶瓷涂層的訓練樣本為D={(x1,y1),(x2,y2),···(xn,yn)},yi∈R,其中xi和yi分別是陶瓷涂層的顯微結構參數和性能目標參數.在高維空間F中構造最優的線性函數為

式中:ω代表權重;b代表偏置項.這樣在高維空間中的線性回歸就對應于陶瓷涂層樣本集低維空間的非線性回歸.
SVR算法在高維空間F中通過最小化一個以ε為參數的不敏感損失函數來完成線性回歸,同時通過最小化‖ω‖2來減少模型的復雜度.最終SVR算法優化的目標函數為

式中:μ和μ′是非負的松弛變量;C是正則化參數,用于控制對超出誤差的陶瓷涂層樣本的懲罰程度.
MLP包括輸入層、隱藏層和輸出層.假設陶瓷涂層樣本是一個n維向量X={x1,x2,···,xn},將其輸入MLP.在輸入層不進行任何計算,僅將向量X傳遞至隱藏層.隱藏層的輸出是f(ω1X+b1),其中ω1是權重,b1是偏置,函數f是sigmoid函數.經過隱藏層后到達輸出層,輸出層的輸出是softmax(ω2X1+b2),其中X1是隱藏層的輸出f(ω1X+b1).

式中,i=1,2,···,n.MLP算法的總體公式為

其網絡架構如圖3所示.

圖3 MLP網絡架構Fig.3 Network architecture of MLP
本工作利用VGG16對88張陶瓷涂層顯微結構圖像數據進行了特征提取.每張圖像提取的特征是1×4 096的行向量.圖像特征的數量較多會提高計算成本,且當圖像特征的數量遠遠超過圖像樣本的數量時,容易導致模型過擬合.因此本工作使用了PCA技術對圖像特征進行降維.PCA技術利用正交變換把一系列可能線性相關的變量轉換為一組線性不相關的變量.這些線性不相關的變量也稱為主成分.主成分是原有變量的線性組合,其數目不多于原始變量,但組合之后相當于獲得了一批新的觀測數據.這些數據的含義不同于原有數據,但包含了原有數據的大部分特征,并且有著較低的維度,便于進一步的分析.
假設陶瓷涂層圖像特征數據有N個樣本點,用Y表示,每個樣本點是M維的.現在使用PCA技術進行降維,降成D維,用X表示.X中還是含有N個樣本點,只是每個樣本的維度變成了D維,用矩陣乘法可表示為

也就是說,PCA技術進行降維的本質是找到一個M×D維的矩陣W,需要對W=(w1,w2,···,wd)進行一些約束,使得‖wi‖=1,且wTi×wj=0(j!=i),W滿足X=Y×W.
基于陶瓷涂層結構化數據構建單模態數據表征學習模型的流程如圖4所示,具體步驟如下.

圖4 單模態數據表征學習模型構建流程Fig.4 Flow chart of the single-modal data representation learning model construction
(1)數據擴充.基于22條真實陶瓷涂層結構化數據,以GMMVSG算法生成110條數據.生成的數據中可能存在陶瓷涂層性能目標參數值為負數的情況,需要刪除這些不符合真實分布的數據.
(2)數據集劃分.將GMMVSG算法生成的數據與真實數據混合在一起,以8∶2的比例隨機劃分為訓練集G和測試集W.
(3)模型訓練.分別建立KNN、SVR、MLP算法模型,在訓練集G上使用3種算法模型進行訓練.
(4)模型應用.利用訓練后的多個算法模型在測試集W上進行預測.
(5)模型效果評估.根據測試結果計算平均絕對誤差(mean absolute error,MAE)、均方誤差(mean square error,MSE)、R2決定系數等評價指標,對模型預測效果進行評估.
基于陶瓷涂層結構化數據和圖像數據構建多模態數據表征學習模型的流程如圖5所示,具體步驟如下.

圖5 多模態數據表征學習模型構建流程圖Fig.5 Flow chart of the multi-modal data representation learning model construction
(1)特征提取.利用在ImageNet上預訓練的VGG16對88張陶瓷涂層圖像數據進行特征提取,每張圖像的特征向量是1×4 096的行向量.利用TabNet對22條結構化數據進行特征提取,每條結構化數據的特征向量是1×4的行向量.將所有結構化數據特征向量縱向拼接在一起,形成22×4的特征向量矩陣.
(2)圖像特征處理.將每條陶瓷涂層結構化數據對應的4張不同狀態的顯微結構圖像特征向量求取平均值,得到平均的特征向量.最終可以得到22個求均值的圖像特征向量.將這些圖像特征向量縱向拼接在一起形成22×4 096的特征向量矩陣.最后利用PCA技術將圖像特征向量降維成22×10的特征向量矩陣.
(3)特征融合.采用早期融合方法將求均值的圖像特征向量與對應結構化數據的特征向量橫向拼接在一起,構成22條具有14個特征的多模態特征融合數據.
(4)特征擴充.基于22條真實的多模態特征融合數據,在特征空間中利用GMMVSG算法生成110條多模態特征融合數據.生成的多模態特征融合數據中可能存在陶瓷涂層性能目標參數值為負數的情況,需要去除這些不符合真實分布的多模態特征融合數據.
(5)特征集劃分.將GMMVSG算法生成的多模態特征融合數據和真實的多模態特征融合數據混合在一起,以8∶2的比例隨機劃分為特征訓練集M和特征測試集S.
(6)模型訓練.分別建立KNN、SVR、MLP算法模型,在特征訓練集M上使用3種算法模型進行訓練.
(7)模型應用.利用訓練后的多個算法模型在特征測試集S上進行預測.
(8)模型效果評估.根據測試結果計算MAE、MSE、R2決定系數等評價指標,對模型預測效果進行評估.
本工作以平均絕對誤差(mean absolute error,MAE)、均方誤差(mean squared error,MSE)和決定系數R2作為模型的評估指標,


基于陶瓷涂層的22條結構化數據和88張顯微結構圖像數據,本工作分別以單模態數據和多模態數據為基礎建立模型,對陶瓷涂層的熱膨脹系數和熱導率進行預測.使用GMMVSG算法生成110條數據,刪除其中不符合真實分布的3條數據.將22條真實數據與107條通過GMMVSG算法生成的數據混合在一起,組成新的樣本集.隨機選取129條新樣本集中的103條作為訓練集,剩余的26條作為測試集.分別使用KNN、SVR、MLP算法建立回歸模型,在原始樣本集和新樣本集的訓練集上進行訓練,并在相應的測試集上進行測試,結果如表1~3所示.

表1 基于KNN算法的模型預測結果比較Table 1 Comparisons of the model prediction results based on KNN algorithm
從結果可以看出,僅使用原始的22條數據建立模型對性能指標進行預測,無論是基于單模態還是多模態數據表征建模,模型的R2決定系數都較低且存在為負數的情況,模型的解釋性很差.這是因為原始數據集只含有22條數據,樣本之間的信息差距過大,模型難以捕獲數據樣本之間的潛在信息.當使用GMMVSG算法將樣本集擴充至129條數據后,基于單模態和多模態數據表征訓練的模型預測效果都得到了明顯提升.這表明通過GMMVSG算法生成的樣本能夠彌補原始樣本空間中由于真實樣本數據不足所造成的信息缺口,提高了模型的預測能力.經過數據擴充后,多模態數據表征學習模型的預測效果優于單模態.這表明多模態數據表征學習模型充分利用了陶瓷涂層結構化數據和非結構化數據的潛在共享信息,有利于提升模型的預測準確度.
從表2還可以看出,基于SVR算法構建的多模態數據表征學習模型預測效果的提升最為明顯.相比于單模態數據表征學習模型,其對熱膨脹系數預測的R2決定系數由0.586 1提升至0.988 3,提升了0.402 2;對熱導率預測的R2決定系數由0.563 4提升至0.973 1,提升了0.409 7.這一方面是由于多個模態的數據為模型提供了更好的特征表示,另一方面SVR算法本身的計算復雜度較低,對非線性回歸問題的處理具有很大優勢.

表2 基于SVR算法的模型預測結果比較Table 2 Comparisons of the model prediction results based on SVR algorithm
從表3還可以看出,基于MLP算法構建的多模態數據表征學習模型對陶瓷涂層性能預測誤差最小,對熱膨脹系數預測的MAE和MSE分別為0.026 6和0.001 7,對熱導率預測的MAE和MSE分別為0.017 9和0.000 7.這是因為MLP算法內部由許多相同的處理單元并聯組合而成,具有高度的并發性,對信息的處理能力非常強,能夠顯著提升模型的預測效果.

表3 基于MLP算法的模型預測結果比較Table 3 Comparisons of the model prediction results based on MLP algorithm
為了更直觀地展示多個算法模型對陶瓷涂層熱膨脹系數和熱導率的預測效果,圖6和7展示了基于KNN、SVR和MLP算法的多模態數據表征學習模型,在測試集上預測陶瓷涂層性能指標的預測值和真實值情況.可以看出,SVR算法和MLP算法預測值與真實值的擬合程度要好于KNN算法.

圖6 熱膨脹系數真實值與預測值對比Fig.6 Comparisons of the real and prediction values of thermal expansion coefficients
上述實驗結果表明:不同算法模型對于小樣本陶瓷涂層數據的預測效果都不好;基于GMMVSG算法擴充原樣本集后,預測效果有較大提升;多模態數據表征學習模型的預測效果要好于單模態數據表征學習模型;不同算法模型對不同性能指標的預測效果并不一樣,其中基于MLP算法訓練的多模態數據表征學習模型對陶瓷涂層的性能指標預測效果最好.

圖7 熱導率真實值與預測值對比Fig.7 Comparisons of the real and prediction values of thermal conductivity
本工作利用GMMVSG算法對陶瓷涂層材料數據進行了擴充,分別建立了基于KNN、SVR和MLP算法的單模態數據表征學習模型和多模態數據表征學習模型,用于預測陶瓷涂層的性能指標,且都取得了較好地預測效果.相比于單模態數據表征學習模型,多模態數據表征學習模型由于引入了更多的陶瓷涂層材料信息,其預測結果更加準確.特別地,基于MLP算法訓練的多模態數據表征學習模型對性能指標的預測效果最好,在擴充的數據集上對陶瓷涂層熱膨脹系數和熱導率的預測結果R2決定系數分別達到了0.996 9和0.987 2.本工作提出的陶瓷涂層材料多模態數據表征學習的性能預測方法,結合了陶瓷涂層的結構化數據和圖像數據對陶瓷涂層的性能指標進行了預測,預測準確度較高,實驗成本較低,為陶瓷涂層性能指標的測量提供了有效的技術支持.