胡瑞劉慶張光捷李俊杰陳曉玉魏曉戴東波
(1.上海大學計算工程與科學學院,上海200444;2.上海大學材料基因組工程研究院材料信息與數(shù)據(jù)科學中心,上海200444;3.之江實驗室,浙江杭州311100)
由于高熵合金顆粒增強的鋁基復合材料具有較好的強度、韌性、耐腐蝕性、抗疲勞性和熱穩(wěn)定性等性能,故針對高熵合金增強顆粒的研究具有相當重要意義[1].Liu等[2]通過等離子放電燒結加入5%、具有穩(wěn)定面心立方(face centered cubic,FCC)-體心立方(body centered cubic,BCC)雙相的AlCoCrFeNi高熵合金顆粒,獲得了屈服強度增加42%的新型鋁基復合材料;Zhu等[3]使用FCC單相Al0.25Cu0.75FeNiCo高熵合金作為增強相提高鋁基復合材料的強度和韌性.由于相的穩(wěn)定性對高熵合金相的形成有較大的影響[4],因此準確預測高熵合金生成相對高熵合金在鋁基復合材料上的應用至關重要.
高熵合金中不同元素的特性及元素間的相互作用決定了相的種類和組成,最終影響到高熵合金的總體性能[4-5].Yang等[6]提出,高熵合金的相形成是由一組熱力學參數(shù)決定的,如原子尺寸差、混合熵和混合焓;Wang等[7]將第一原理方法應用于難熔高熵合金,以預測其在溫度-組合空間中的相形成行為;Yeh等[8]應用了高熵合金的相圖計算方法(computer coupling of phase diagram and thermochemistry,CALPHAD),并研究了相形成行為,建立了商業(yè)熱力學數(shù)據(jù)庫.CALPHAD通過直接計算在給定溫度和壓強下多組分系統(tǒng)的吉布斯自由能的最小值得到了平衡相[9].密度泛函理論(density functional theory,DFT)計算和從頭算分子動力學(ab initio molecular dynamics,AIMD)模擬[10]也經(jīng)常被用來進行高熵合金的設計.然而,這些技術都存在高成本、耗費大量計算時間的缺點[11],因此了解高熵合金相形成的潛在機理仍然是一種挑戰(zhàn)[12].
近年來,機器學習在預測高熵合金的相[11]、研究材料和分子的關系[13]、預測耐磨材料的質量[14]、研究影響二元合金固溶度的因素[15]等方面有了一定進展.采用以數(shù)據(jù)驅動的機器學習方法,從數(shù)據(jù)集中學習潛在規(guī)則并構建模型,能夠加快對目標性能的預測[16].利用特征工程從原始特征中選擇合適的特征可以提高機器學習模型預測的準確性[17].本工作提出了一種基于結合了特征工程和機器學習的方法來預測高熵合金的相穩(wěn)定性.首先,依賴數(shù)據(jù)集對多個模型進行評估,依據(jù)評估結果選擇預測模型;然后,基于選擇的模型使用特征工程抽取和分析了影響高熵合金相穩(wěn)定性的經(jīng)驗熱力學參數(shù);最后,通過選擇的特征和模型建立了高熵合金在室溫下的相穩(wěn)定性預測模型,最終達到了提高預測精度的目的.
根據(jù)獲得的數(shù)據(jù)集和預測變量,基于機器學習的高熵合金相穩(wěn)定性預測模型的構建流程如圖1所示.首先,本模型的數(shù)據(jù)選取自參考文獻[18],數(shù)據(jù)集一共包含407個高熵合金樣本,數(shù)據(jù)集按5∶5隨機分為訓練集和測試集;然后,進行模型訓練與評估,基于10折交叉檢驗,建立4種回歸模型,對相穩(wěn)定性預測模型進行訓練和評估;其次,評估模型時使用了平均絕對誤差(mean absolute deviation,MAE)、均方誤差(mean-square error,MSE)、擬合系數(shù)R2等評價指標,根據(jù)評估結果選擇性能最好的模型;最后,將基于確定的模型利用特征工程篩選出的影響高熵合金相穩(wěn)定性的重要因素作為新的輸入,建立起新的高熵合金相穩(wěn)定性預測模型并做預測分析,基于測試集進行獨立預測,并進行評估分析.

圖1 機器學習的性能預測模型工作流程圖Fig.1 Workflow flowchart of machine learning performance prediction model
在訓練模型之前通常要對算法進行參數(shù)尋優(yōu).由于整體的樣本集數(shù)量不大,故對其他3種回歸算法設置默認的參數(shù).而對于隨機森林(random forest,RF)算法,其默認的內(nèi)部決策樹(decision tree,DT)數(shù)量為500,由于在面對高熵合金小數(shù)據(jù)集的場景下會導致模型過擬合,因此設定通過迭代選擇最佳決策樹的個數(shù)為40.
高熵合金數(shù)據(jù)集分為FCC、BCC、密排六方(hexagonal close-packed structure,HCP)、多相(multi-phase,MP)和非晶態(tài)(amorphous phase,AM)這5類相,并包含混合焓ΔHmix、混合熵ΔSmix、原子尺寸差δ、價電子濃度(valence electron concentration,VEC)等14個經(jīng)驗熱物理參數(shù)特征.在恒定的溫度和壓力下,根據(jù)式(1)得到每個樣本的ΔGmix數(shù)據(jù).最終獲得的數(shù)據(jù)集中包含407個高熵合金樣本、12個特征,以及目標屬性ΔGmix:

詳細的特征數(shù)據(jù)示例如表1所示(以2個合金樣本為例).

表1 高熵合金數(shù)據(jù)集的特征參數(shù)Table 1 Characteristic parameters of high-entropy alloy data set
針對特定材料屬性選擇合適的算法訓練模型非常重要,數(shù)據(jù)可以在某種程度上確定機器學習的局限性[19].圖2中顯示了13個描述符之間的Pearson相關系數(shù)的可視化,顏色的深淺對應了特征之間線性相關性的強弱.從圖2中可以看出,這些特征之間存在較高的線性相關性,意味著這些特征之間是相互影響的.對于具有高度線性相關性的2個特征而言,在某種程度上這2個特征是可以相互替代的.

圖2 特征之間的皮爾森相關性系數(shù)可視化展示Fig.2 Visualization display of Pearson correlation coefficients between features
機器學習模型的性能依賴于使用的特征,而特征的選擇又非常依賴于特定的預測任務.就收集的這批數(shù)據(jù)集而言,影響高熵合金相穩(wěn)定性的特征多達13個.顯然,要選擇重要的相關特征作為模型的輸入是相當困難的.因此,本工作利用特征工程來進行特征選擇,最大程度地從原始數(shù)據(jù)中提取特征以供算法和模型使用[20].對于任何針對預測材料屬性的機器學習模型,其性能通常取決于特征的最優(yōu)數(shù)量及特征的意義.盡管可能有許多因素影響材料的目標特性,但是特征的數(shù)量必須合理,否則會造成算法的過擬合或欠擬合.可見,特征的選擇可以避免算法的欠擬合,提高預測的準確率和效率.通常來說,根據(jù)特征選擇的形式又可以將特征選擇方法分為3種:過濾法(filter)、包裝法(wrapper)和嵌入法(embedded)[21].本工作使用嵌入法進行特征選擇,即選用的隨機森林模型對特征進行擬合訓練,得到各個特征的權值系數(shù)(特征重要性分數(shù)),并根據(jù)系數(shù)從大到小選擇特征.
關于高熵合金相穩(wěn)定性預測這一問題需要構建一個回歸模型,用于發(fā)現(xiàn)熱力學參數(shù)和相穩(wěn)定性之間的相關性.通常,不同的機器學習模型適合不同的預測任務.本工作使用多種機器學習模型對該預測任務進行建模,通過對比各個模型在該任務上的表現(xiàn),最終根據(jù)評估指標確定高熵合金相穩(wěn)定性預測模型.本工作選取了常用的4個模型來進行建模:決策樹算法、隨機森林、線性回歸(linear regression,LR)和貝葉斯嶺回歸(Bayesian ridge regression,BRR).
1.4.1 決策樹
決策樹是一種非常基礎又常見的機器學習模型.決策樹的每個非葉子節(jié)點對應一個特征,該節(jié)點的每個分支代表這個特征的一個取值,而每個葉節(jié)點存放一個類別或一個回歸函數(shù)[22].使用決策樹進行決策的過程就是從根節(jié)點開始,提取出待分類項中相應的特征,按照其值選擇輸出分支,依次向下,直至葉子節(jié)點,將葉子節(jié)點存放的類別或者回歸函數(shù)的運算結果作為輸出(決策)結果.決策樹的決策過程非常直觀,易被理解,且運算量相對較小.
基于決策樹的構建,可以清楚地獲得訓練后的決策樹預測模型每個特征節(jié)點的選擇和劃分依據(jù).因此,可以直觀地看到影響高熵合金相穩(wěn)定性的參數(shù)排序,通常靠近頂層的特征節(jié)點對預測目標的影響最大.
1.4.2 隨機森林
隨機森林回歸是使用隨機的方式建立一個森林(forest),森林由多個決策樹組成,隨機森林的每一棵決策樹之間是沒有關聯(lián)的.當有新樣本進入的時候,森林中的每一棵決策樹分別進行判斷.隨機(random)是指在訓練時隨機選取特征作為決策節(jié)點,并對產(chǎn)生的多個決策結果進行匯總輸出,該方法主要應用于回歸和分類[23].當將隨機森林作為預測模型時,模型的結果是多棵不相關決策樹結果的集成.因此,隨機森林可以獲得更小的誤差,并且也可以為特征進行重要性評估,這對于分析高熵合金相的穩(wěn)定性及其影響因素的相關性提供定量的參考.
1.4.3 線性回歸
線性回歸假設目標值與特征之間線性相關,即滿足一個多元一次方程.通過構建損失函數(shù)來求解損失函數(shù)最小時的參數(shù)w和b[24]:

1.4.4 貝葉斯嶺回歸
貝葉斯嶺回歸是利用概率模型估算回歸問題.貝葉斯嶺回歸能估計出一個求解回歸問題的概率模型,根據(jù)已有的數(shù)據(jù)進行改變,在估計過程中引入正則項參數(shù).這里,正則項參數(shù)并不是嚴格意義上的定義,而是根據(jù)數(shù)據(jù)進行調整[25].從圖2可以看出,有超過一半的參數(shù)與預測目標有高度相關性,這使得在訓練模型時往往會產(chǎn)生模型過擬合現(xiàn)象.因此,使用極大似然估計加上正則項的貝葉斯嶺回歸能夠抑制模型的復雜度,避免產(chǎn)生過擬合.
在本實驗中,通過構建4種不同的回歸模型(DT、RF、LR和BRR)來預測ΔGmix.表2列出了這4種算法模型的10折交叉驗證結果,圖3將表2給出的結果結合帶誤差棒的柱狀圖進行統(tǒng)計繪制.在交叉驗證的10次測試中,表2粗體標記的值為每個模型在10次測試中的最好結果,可以看出RF算法在測試集上的準確率最高.從圖3也能看出,模型交叉驗證的平均性能還是RF最好,并且RF結果的相對穩(wěn)定性也最好;DT的穩(wěn)定性不如RF模型,且2個回歸模型預測準確性不夠高.顯然,在訓練樣本量不大的情況下,RF決策樹集成算法在應對高熵合金數(shù)據(jù)集時擬合的準確度最高且穩(wěn)定性最好.

圖3 4個模型的10折交叉驗證準確度Fig.3 10-fold cross-validation accuracy of four models

表2 高熵合金相穩(wěn)定性預測的交叉驗證結果Table 2 Cross validation results of phase stability prediction of high entropy alloys
為了找出合金體系影響吉布斯自由能的熱力學參數(shù),需要基于RF模型進行特征選擇.圖4展示了基于隨機森林回歸模型的特征重要性排序.從圖4中可以看出,φ和的特征重要性遠大于其他特征,表明這2個特征對高熵合金相穩(wěn)定性有很大的影響.由Ye等[26-27]提出的無量綱參數(shù)φ可以看作是一種熵,衡量合金原子大小差異以及化學鍵是否匹配,且作為一個重要的因素影響到高熵合金能否形成穩(wěn)定的單相.Zhang等[28]和Tan等[29]的研究結果表明,是通過計算得到的熱物理參數(shù)對原子尺寸的差值和化學鍵匹配度的關系,適合用來設計具有單相固溶體的高熵合金.上述學者們的研究也再一次印證了本實驗結果.

圖4 基于RF算法的特征選擇重要性排序Fig.4 Prioritization of feature selection based on RF algorithm
為了查看特征數(shù)量對預測效果的影響,本工作根據(jù)特征重要性序列對4種算法進行了再一次的訓練,按照重要性評分依次輸入對應的特征,評價指標為模型的R2值.模型表現(xiàn)的效果如圖5所示.從圖5可以看到,開始加入2個特征時模型的預測準確性得到了較大的提升.然后隨著特征的不斷增加,模型的表現(xiàn)效果逐漸趨于穩(wěn)定.從實驗整個表現(xiàn)的效果來看,RF相對于其他3種算法,模型的預測準確度最高,整體波動最小也最穩(wěn)定.因此,對于需要選擇的特征數(shù)據(jù)和預測屬性而言,RF是最合適的選擇.

圖5 隨著特征增加模型測試集的結果比較Fig.5 Comparison of model test set results with increased feature
為了驗證本工作找到的影響ΔGmix的關鍵因素,本工作只用前2個特征來預測ΔGmix(見圖6).從圖6中可以看到,雖然本實驗只用了2個特征,但是預測效果也較好,模型在測試集上的R2達到了0.994,且MAE、MSE的值幾乎接近于0,表明本模型的預測結果與計算值的誤差很小,同時也說明本模型具有一定的可靠性.為了進一步評估模型的可靠性,對于所得到的2個重要特征需要結合領域知識進一步討論[30].在合金系統(tǒng)中,原子的大小以及化學鍵的組合會使合金系統(tǒng)的微觀結構種類發(fā)生變化.合金體系的熵與微觀結構種類的數(shù)量呈正相關,故微觀結構的數(shù)量越多,混合熵越大,體系的混亂程度越大,那么合金體系的吉布斯自由能會逐漸趨近最小值,從而達到一個穩(wěn)定的狀態(tài).在和表2中13個特征的預測效果對比時可以發(fā)現(xiàn),2個特征的預測表現(xiàn)和多個特征的預測表現(xiàn)相差很小,甚至更好.以上也反映了在高熵合金材料的穩(wěn)定性預測上,模型的表現(xiàn)取決于重要特征,而并不在于所用特征的數(shù)量,同時也說明本工作找到了影響ΔGmix的關鍵特征.本實驗結果對于研究機器學習的方法在高熵合金材料的相穩(wěn)定性以及設計穩(wěn)定相的高熵合金有一定的參考價值和實用意義.

圖6 只有2個特征的模型測試集結果Fig.6 Model test set results with only two features
本工作從高熵合金基本的特征性能參數(shù)出發(fā),分別采用RF、DT、LR和BRR這4種機器學習模型對高熵合金的相穩(wěn)定性進行了預測,并結合交叉檢驗的方法找到了最優(yōu)的回歸方法RF.經(jīng)過實驗驗證,RF方法可以對高熵合金的相穩(wěn)定性進行有效的預測.本工作還使用基于模型的特征工程方法對特征進行重要性排序后進行特征選擇,找到了影響合金相穩(wěn)定性的關鍵因素.實驗結果表明,由于不同的機器學習算法對數(shù)據(jù)樣本分布的敏感程度不同,進行機器學習預測需要選擇合適的方法才能達到理想的效果.另外,有區(qū)別地篩選對預測屬性影響大的特征,有助于降低過擬合的風險,提升機器學習的精度和效率.本實驗結果對研究機器學習方法在預測高熵合金材料性能及發(fā)現(xiàn)新型鋁基復合材料方面具有一定的參考價值和意義.