張逸凡 任衛? 王偉麗 丁書劍 李楠 常亮 周倩
1) (西安郵電大學理學院,西安 710121)
2) (西北工業大學物理科學與技術學院,西安 710072)
第一性原理、熱力學模擬等傳統的材料計算方法在高熵合金的設計中多用于合金相的預測,同時會耗費巨大的計算資源.本文以性能為導向,選用機器學習的算法建立了一個高熵合金硬度預測模型,并將機器學習與固溶體強化的物理模型相結合,使用遺傳算法篩選出最具有代表性的3 個特征參數,利用這3 個特征構建的隨機森林模型,其R2 達到了0.9416,對高熵合金的硬度取得了較好的預測效果.本文選用的機器學習算法和3 個材料特征在固溶體強化性質方面也有一定的預測效果.針對隨機森林可解釋性較差的問題,本文還利用SHAP 可解釋機器學習方法挖掘了機器學習模型的內在推理邏輯.
高熵合金(HEA)是由4 種或4 種以上金屬元素按照等原子百分比或近似等原子百分比合成的合金材料[1].高熵合金的各主元金屬元素間發生復雜的相互作用而產生著名的四大效應[2](高熵效應、晶格畸變、遲滯擴散效應和“雞尾酒”效應),從而可能會使材料表現出極其優異的性能(例如耐腐蝕性、高溫熱穩定性、力學性能、磁性等)[3-5].然而,由于高熵合金含有多種主元金屬,其成分的組合空間包含了1078種組合方式[6],這就導致精確快速地篩選出具有優異目標性能的高熵合金成分是非常困難的.
第一性原理、熱力學仿真等[7-9]傳統的材料設計方法雖然能夠加速新材料的發現,但這些方法很難靈活地根據目標性能構建模型,而且這些方法占用了很大的計算資源,計算成本很高,然而預測精度一般.隨著人工智能的快速發展,機器學習(ML)逐漸開始應用到材料科學中[10-13].與傳統材料計算方法相比,機器學習通過大量的數據訓練,建立輸入特征與目標性質之間的映射關系.由于材料學科在漫長的發展進程中積累了大量的研究數據,機器學習可以從這些數據中挖掘數據所蘊含的信息,從而快速、精準地預測出材料的性質.Khakurel 等[14]選取了梯度提升算法來評估特征重要性,有效地預測了難熔高熵合金的楊氏模量.Chang 等[15]使用成分加權和密度等材料特征建立了三層人工神經網絡(ANN)來預測AlCoCrFeMnNi 體系高熵合金的硬度.Bakr 等[16]利用ANN 預測了高熵合金的硬度,最終模型的決定系數達到了0.88.上述研究使用的模型雖然都具有一定的預測能力,卻難以兼顧模型的可解釋性和預測精度的問題.Li 和Guo[17]采用前向和后向特征選擇得到的材料特征建立了一個支持向量機模型(SVM)用于預測高熵合金的合金相,準確率超過了90%.Xiong 等[18]利用前向特征選擇法篩選的特征預測了合金相及相關力學性能.Lee 等[19]使用皮爾遜相關系數法(PCC)篩選特征并將神經網絡算法集成獲得了一個合金相分類器.Sun 等[13]利用XGBoost 算法擬合相圖計算輔助構建的Ti-Zr-Nb-Ta 高熵合金硬度數據集,通過特征重要性排名等特征選擇方法,揭示了預測該體系合金硬度的兩個最重要的特征為Ta 含量和熔點,同時模型獲得了87.6%的預測準確率.Wen等[20]在模型構建的特征選擇時利用皮爾遜相關系數法去除冗余特征,隨后通過將特征窮舉完成特征選擇,并使得支持向量機構建的硬度預測模型的精度有所提高.最后聯合支持向量機和效用函數成功搜索到了候選的高硬度HEA.Li 等[21]將Stacking集成學習算法用于硬度預測,成功降低了HEA 硬度預測模型的預測誤差.然而,上述研究使用的特征選擇方法多為與模型無關的方法或貪心算法,這些方法只覆蓋了很少部分的特征組合,甚至忽略了模型與特征間的關系,這導致了建模時所使用特征組的質量相對較低.此外,在特征選擇時上述研究大多針對單一特征集進行篩選,在實際的特征選擇過程中會忽略大量特征集之外的特征,造成篩選出的特征僅有部分代表性.而且由于高熵合金復雜的多主元結構及其形成機理,構建一個完全包含所有影響硬度因素的特征集很困難.而且上述研究篩選的特征都只針對某種單一HEA 體系的性質進行預測是有效的,而難以對其他HEA 體系或HEA 性質的性質進行預測.此時,構建一個科學合理的特征選擇框架是至關重要的.這將有利于構建一個適用于預測多種相關HEA 性質的建模特征集,進而可以從機理上反映出HEA 不同性能之間的關系.因而,在使用機器學習預測HEA 性質的領域(尤其是對HEA 硬度的預測),特征集的構建和特征選擇的方法仍然具有改進空間.此外,由于機器學習多為黑盒模型,所以預測模型的可解釋性也至關重要,這決定了是否可以進一步挖掘HEA 形成的內部機制和預測模型的進一步優化.
本文首先建立了一個包含19 個特征的高熵合金硬度數據集,并利用該數據集選取建立模型的機器學習算法.經過測試多種特征選擇算法,發現由遺傳算法篩選出的候選特征質量較好.同時,為了克服候選特征遷移性差的問題,結合傳統固溶體強化(SSS)物理模型,對候選特征進行進一步篩選和優化.最后,采用了SHAP 可解釋機器學習方法[22]挖掘了輸入特征對高熵合金硬度的影響機理.
本文選用文獻[20,21]使用的高熵合金材料硬度數據集,該數據集包含了Al,Co,Cr,Cu,Fe 和Ni 六元高熵合金硬度樣本,計205 條數據.由于鑄態條件下形成的相是穩定的,所以合金的硬度數據均在鑄態條件下測量[23].數據集包含了一些數值異常的數據.分析認為,這些異常數據并不是因為測量誤差導致的,它們可能是由HEA 固有的性質引起的數據差異,應予以保留.
為了盡可能將與硬度相關的候選特征納入特征集,我們考察了曾廣泛用于HEA 性能預測的多個材料特征參數.其中原子尺寸錯配和模量錯配對HEA 的硬度有巨大的貢獻[20].基于此,首先將原子半徑誤配(δr)、原子堆疊失配因子 (γ)、楊氏模量(E)、剪切模量(G)、剪切模量誤配(δG)、晶格畸變能(μ)、Peierls-Nabarro 因子(F)、強化模型中的能量項(A)等與原子尺寸和模量相關的特征參數加入特征集中.其次,高熵合金的相與其硬度有著很強的關聯性.Wang 等[24]發現功函數的六次方(w6)與合金的屈服強度呈線性關系.Guo[25]回顧了根據經典Hume Rothery 規則選取的γ,Ω,Λ等經驗參數區分各類相的研究,討論了混合焓(△Hmix)、混合熵(△Smix)、吉布斯自由能(△Gmix)、平均熔點(Tm)、電負差(△χ)和價電子濃度(VEC)等參數對高熵合金相形成的影響.這些參數也很重要,需要被加入特征集.此外,巡回電子濃度(e/a)和內聚能(Ec)等與電子鍵合強度和電學性質有關的相穩定性參數也被加入特征集中.由于HEA 的硬度對組織變化很敏感,還選取了一些與HEA 力學性能相關的描述因子.這樣就得到了一個含有19 個材料特征的HEA 材料候選特征數據集.相關參數及計算公式如表1 所列,其中rmin ,rmax 代表HEA 中最小和最大原子半徑;ci代表各元素摩爾比;r表示原子平均半徑;R為氣體常數表示第i和第j個元素之間的混合焓.

表1 與高熵合金硬度相關的 19 個經驗特征參數及其計算公式Table 1. 19 empirical feature parameters related to the hardness of high entropy alloys and their calculation formulae.
由于選擇恰當的ML 算法對于精準高效擬合HEA 硬度數據具有重要的作用,我們對適用于不同數據類型的ML 算法及其特點進行了必要篩查.
集成學習算法是一種重要的ML 算法.早期,因為其缺少可解釋性而僅獲有限的應用[20,21,26].隨著可解釋ML 的發展,使用集成學習結合可解釋ML 的分析預測方法可以克服傳統ML 算法泛化性不足,還可以兼顧模型的可解釋性,因而能挖掘大量有用信息.SVM 和ANN 分別由于其核函數、支持向量機制和反向傳播、激活函數機制使其具有強大的非線性映射能力,因而廣泛地應用在各類研究場景中.此外,基于線性回歸的ML 算法由于其強大的可解釋性,也被廣泛用于建模中.Grinsztajn等[27]發現基于樹的模型(包括隨機森林(RF)和XGBoost 等算法) 在利用表格數據進行預測方面超過了深度殘差網絡等其他深度學習模型.由于本文使用的HEA 硬度數據集樣本規模小,數據不均勻,基于樹的模型可能更適合該數據集.雖然上述模型都可以確立特征與目標值之間的隱式關系,不同的ML 模型對數據采用不同的處理手段,所獲得的模型可解釋性是不同的,在建模中要根據不同的目標值選取合適的ML 模型.本文在建模中使用了Python 的sklearn,pandas,numpy 等常用數據分析庫.
最后,在利用HEA 數據集構建ML 模型之前,還要考慮如何降低模型過擬合或欠擬合所帶來的風險.傳統的按固定比例劃分數據集來評價模型精度的方法會因為數據不平衡而導致模型泛化性差.所以本文在建立ML 模型過程中始終將交叉驗證的方法應用于ML 模型選擇、ML 參數調優、ML預測結果評估等各個階段,從而保證了建模結果的科學性和可信性.各階段使用的評價依據為均方誤差
為選出最合適的基準算法,本文使用了具有優異外推能力的線性算法(Ridge 和Lasso),SVM,具有單隱藏層的ANN,性能優異但外推能力較差的集成學習算法(如基于Bagging 的代表算法RF和基于Boosting[28]的代表算法XGBoost).首先,將前述19 個候選材料特征作為輸入參數,將HEA硬度值作為輸出值,依次對上述ML 算法進行訓練.為確保發揮出各個ML 算法的特點和優勢,在對ML 算法進行訓練時,將網格搜索法和十折交叉驗證法(10-fold)相結合搜索使模型RMSE 最小的超參數.經過尋優搜索和交叉驗證,在SVM 的3 種核函數中選擇了非線性映射能力最好的高斯核函數(SVM-rbf).ANN 在使用Adam 作為反向傳播優化器和線性修正函數作為激活函數時取得了最優的結果.機器學習模型搜索的超參數結果如表2所列,所有超參數的相關解釋詳見sklearn.此外,為了增強模型的物理可解釋性,并沒有對特征集進行數據標準化或數據降維等數據預處理操作[29,30].

表2 不同機器學習模型搜索的超參數結果Table 2. Hyperparametric search results for different machine learning models.
將搜索的超參數應用到ML 算法上,通過10-fold 驗證的方法評估了前述ML 算法的RMSE 和R2,結果如圖1 所示.

圖1 6 種機器學習算法對數據集的擬合結果Fig.1.Fitting results of six machine learning algorithms to the dataset.
從圖1 可以看出,RF 不僅取得了最高的R2,并且有著最小的RMSE,這表明了RF 在該數據集上具有最佳擬合效果.所以將RF 作為接下來進行特征選擇和模型建立的基準算法.
從候選特征集篩選出優化的特征組合,經過模型訓練,能夠使數據擬合的誤差達到最小.由于不同數據集的樣本分布不同,所以在對該數據集先驗知識不足的情況下,需要利用多種與ML 算法相關的特征選擇方法主動選擇適合該ML 算法的特征組合,從而更好地解釋目標屬性.本文分別使用了包裹法和嵌入法進行特征篩選.包裹法通過使用特征搜索策略修改特征組合,以此來選擇出優化特征子集.該方法主要包括遺傳算法(GA)、序列前向選擇(SFS)、序列后向選擇(SBS)、遞歸特征消除(RFE)等方法.嵌入法利用前述RF 算法學習器對特征重要性進行評估,依次從特征集中剔除不重要特征,以此篩選出表現最好的特征組.其中,GA 是一種通過模擬自然選擇、遺傳和變異等生物進化過程來尋找最優解的最優化算法.GA 通過初始化種群、評估適應度、選擇、交叉和變異等步驟來尋找最優化問題的最優解.具體地,將GA 運用到特征選擇時,本文將隨機森林模型在十折交叉驗證法下的RMSE 作為適應度用于評估每個特征集合的優良程度;初始化種群即為所有可能的特征集合的集合;在執行選擇操作時將優秀的特征集合復制到下一代來保留優秀的基因,同時引入新的變異來增加種群的多樣性;在執行交叉操作時,將兩個特征集合的某些部分進行交換,以產生新的特征集合.交叉操作可以促進基因的流動和交換,從而增加種群的多樣性;在執行變異操作時,通過添加或刪除某些特征來增加特征集合的隨機性,以增加種群的多樣性.在執行GA 時使用了python 中的genetic_selection 庫,將最小化隨機森林模型在十折交叉驗證法下的RMSE 為目標,利用GA 對特征集進行全局特征搜索,最后通過執行上述優化步驟篩選出最優的特征組.對于RFE,SFS,SBS 以及基于RF的包裹法,利用python 中的sklearn 庫,測試了在各個特征選擇方法下保留不同特征數量時的特征選擇結果.如圖2 所示,對除全局優化算法的GA之外的其他4 種特征選擇方法進行測試.在使用不同特征選擇算法時,設定保留的特征數量分別為1 到19,選擇出不同特征選擇算法在保留不同特征數量下的特征集.隨后,通過對比各個特征選擇算法在保留不同特征數量下的RMSE,選出各個特征選擇算法下的最優特征集.如表3 所列,RFE和RF 分別篩選出了含有13 個特征的優化特征組,雖然它們使用了較多的材料特征而對HEA 硬度預測的表現則較差.SBS 和SFS 算法篩選出了含有7 個特征的優化特征組,其RMSE 約為67,預測表現略高于RFE 和RF.而GA 篩選出了含有8 個特征的優化特征組,其RMSE 僅為64.09.預測表現明顯優于其他特征選擇算法.這可能是因為GA 是一個全局搜索算法,其遍歷的特征組合更加全面.因而本文使用GA 進行特征選擇.

圖2 SBS,SFS,RF,RFE 算法在不同特征數下選擇的最佳特征的RMSE,曲線中的星號代表了當前特征選擇方法選擇的最優特征組所包含的特征數Fig.2.Different number of features selected by SBS,SFS,RF,RFE algorithm vs.their RMSE performances under 10 fold.The asterisks in the curves represent the number of features contained in the optimal feature group selected by the current feature selection method.

表3 不同特征選擇方法篩選的優化特征組及RMSE 值Table 3. Optimized feature sets screened by different feature selection algorithms and their RMSE values.
為了克服集成學習可解釋性差的問題,采用Lundberg 和Lee[31]提出的沙普利加和解釋(SHAP)方法.SHAP 是一種解釋ML 模型輸出的博弈論方法,通過計算各個特征對預測結果的邊際貢獻,完成對黑盒模型局部或全局的分析.如圖3 所示,利用SHAP 方法解釋GA 選擇的優化特征組特征對HEA 硬度的影響.根據文獻[25],VEC ,?χ等材料特征參數能影響HEA 形成FCC 相和BCC 相的穩定性: 當 VEC<6.87 時HEA 傾向于生成BCC相,當 VEC>8 時傾向于生成FCC 相,當6.87

圖3 遺傳算法所選優化特征組8 種特征的SHAP 分析,8 種特征由上到下重要性依次降低,各個散點根據SHAP值的正負反映了該特征的大小對當前樣本點硬度的促進或削弱作用Fig.3.SHAP analysis of the eight features of the optimized feature set selected by the genetic algorithm.The eight features decrease in importance from top to bottom.Each scatter reflects the promoting or weakening effect of the size of the feature on the hardness of the current sample point according to the positive or negative SHAP value.
為分析GA 所選擇的8 個特征間是否存在冗余特征,明確是否需要進一步優化特征集,計算了各個特征以及HEA 硬度之間的PCC.圖4(a)的子圖是使用基準算法RF 評估的各個特征的重要性排序,其中 VEC ,F,δG,?χ等參數與PCC 得到的特征和硬度間的相關性基本一致.將|PCC|>0.8 的特征視為高相關特征.如圖4(a)所示,[γ,F],[?χ,F],[ VEC,e/a,δG] 這些特征組合相關性相對較高.對于這些特征組合,不能簡單通過評估特征重要性來刪除不重要特征,因為這樣做可能忽略了各個特征對HEA 硬度的協同促進作用.此外,PCC 是基于變量之間的線性相關性來衡量它們之間的關聯程度.然而,如果特征之間存在非線性關系,PCC 可能無法準確反映它們之間的相關性.HEA 復雜的形成機制蘊含著復雜的非線性關系.利用PCC 篩選特征,可能會忽略這些關系,從而漏選重要特征.其次,PCC 僅考慮特征之間的兩兩關系,并不能全面捕捉多個特征之間的復雜關系.在復雜的HEA 材料數據中,多個特征之間可能存在更高階的相互作用或非線性關系,這些關系無法通過皮爾遜相關系數來準確表示.最后,PCC 只考慮了特征之間的相關性,而忽略了特征與目標變量之間的關聯性,這可能會刪除一些對于目標值預測比較重要的特征.圖4(b)對該特征組進行主成分分析,發現在8 個特征中,只需提取3 個主成分即可保留特征集所有的信息.這為我們選取更加優化的輸入特征提供了一個思路.同時,這也意味著特征集仍具有改進的空間.為了提升模型精度,令模型更具可解釋性,需要依據當前特征選擇的結果,進一步擴充特征集,選擇更加具有代表性的特征,進而優化建模特征組.

圖4 (a)遺傳算法所選特征的PCC 熱圖,子圖為遺傳算法所選特征的RF 重要性評估排序;(b)主成分分析法計算優化特征組 [γ,?χ,VEC,F,?,e/a,E,δG] 不同主成分數的累計方差貢獻率;(c)新構建的特征集進行GA 特征選擇的迭代過程,子圖為GA 選擇特征的SHAP 重要性排序Fig.4.(a) PCC heat map of the features selected by the genetic algorithm,with subplots for the RF importance assessment ranking of the features selected by the genetic algorithm;(b) the cumulative variance contribution of different principal component scores of the optimized feature set[γ,?χ,VEC,F,?,e/a,E,δG]calculated by principal component analysis;(c) iterative process of GA feature selection for the newly constructed feature set,and the subplot is the SHAP importance ranking of the GA selected features.
HEAs 的強化機制主要由SSS 導致,其中屈服強度和維氏硬度正相關,且屈服強度約為維氏硬度的9.81/3 倍,所以SSS 對HEA 維氏硬度的提升很重要.
一般認為,HEAs 的SSS 主要由溶質原子引起的晶格畸變和滑動位錯引起,其中金屬元素的尺寸錯配和模量錯配引起的晶格畸變在合金強化中占據重要地位.經典的Labusch 模型[37]體現了尺寸誤配和模量誤配對SSS 的影響.傳統的SSS 數學模型,大多是基于Labusch 模型進行改進.Thirathipviwat 等[38]發現高晶格畸變引起顯微硬度的變化與 δr正相關;Ma 和Wu[39]也發現 δr有利于導致位錯線形成波浪形構型,這為HEA 提供了顯著的SSS效果.Toda-Caraballo 和Rivera-Díaz-del-Castillo[40]利用Gypen 模型將Labusch 模型從二元合金推廣到稀釋的多組分合金,通過計算原子間距變化,量化各組分引起的晶格畸變對SSS 的貢獻來估計合金的SSS 程度.所以原子尺寸失配與模量失配對SSS 有著重要影響.Toda Caraballo 提出的SSS模型等式可表示為[34]
其中ξ為SSS 模型的結構因子,BCC 相為4,FCC相為1;δ為模型的SSS 強化因子,與原子尺寸誤配相關; ?σSSS為量化固溶強化程度的參數;Z為固溶強化因子.
基于上述理論,我們發現在GA 所選的8 個特征中,HEA 的硬度與模量,原子半徑和電負差的誤配有關.這也暗示了此類特征與HEA 硬度增強有關.以此為基礎,將3.2 節中篩選出的E,G以及體積模量(K)作為原始數據,通過(2)–(6) 式計算5 個與誤配相關的特征:
其中d分別代表楊氏模量、剪切模量、體積模量、原子半徑和電負性等參數,ci代表HEA 各元素的摩爾比,di代表HEA 各元素的參數αi值.由于γ參數與金屬原子尺寸誤配相關,所以將原子半徑同樣利用(2)–(6)式的方法擴充尺寸誤配特征.將重新計算的特征與3.2 節中篩選的特征組[γ,?χ,VEC,F,?,e/a,E,δG]整合到一起,組成了含有35 個特征參數的擴充特征集,然后通過GA 重新進行特征選擇.
如圖4(c)所示,GA 在迭代到第30 代時,收斂到最優解,此時搜尋到的簡版優化特征組為[VEC,G,M.E].相對于GA 最初篩選的包含8 個特征的優化特征組,簡版優化特征組僅用3 個參數來構建ML 模型,并且由于使用G和M.E 這兩個特征取代其他大量的特征,極大減少了冗余特征,降低了模型復雜度.
在對ML 模型進行評估的時候,不僅要評估模型泛化性,還要評估模型的外推能力.10-fold 是將數據集平均分為10 份,評估ML 算法在其中9 份數據集上的訓練結果是否可以遷移到剩余的1 份數據集上.該方法可以用來評估ML 模型的泛化能力.由于采用的材料硬度數據具有稀疏性,可能由于數據集劃分不當,導致模型訓練信息遺漏,使模型在不同測試集上的表現差距較大,導致模型缺乏外推能力.因而可以采用留一交叉驗證(LOOCV)評價模型的外推能力.具體作法是分別將簡版優化特征組和優化特征組作為RF 的輸入,利用貝葉斯優化方法優化RF 超參數提高模型預測性能.如圖5 所示,雖然簡版優化特征組去除了多數輸入特征參數,但是模型在10-fold 和LOOCV 情況下的RMSE 和R2相較于優化特征組仍然有一定程度的進步.為了進一步分析2.1 節所述異常值對本文建模的影響,使用了孤立森林算法對數據集進行異常值檢測.孤立森林算法是一種無監督的離群點檢測算法.該算法的優點包括能夠快速準確地識別異常值點,并且內存使用率低.此外,由于該算法建立在基于樹的結構上,因此實現簡單,是異常檢測的有效工具.如圖6(c)所示,使用孤立森林對數據集的樣本進行評分,得分小于零則視為離群點,最后發現了11 個離群點.將這11 個離群點從數據集剔除后,分別使用LOOCV 和10-fold 評估模型的R2和RMSE.如圖6(a)和圖6(b)以及圖5(c)和圖5(d)所示,去除異常值后的R2和RMSE 相較于去除前,精度有所下降.這可能是由于我們在所使用的數據集均來源于真實世界,并且通過科學合理的方法測量,所以異常值點是由測量誤差導致的概率比較低.異常值點在真實世界是客觀存在的,所以一些異常點的情況必須被考慮到其中,這可以建立模型和真實世界的聯系.同時,如果在預測新樣本時,該樣本恰好與以前剔除的異常值點類型相同,此時預測偏差可能會急劇上升.所以在本文中將會保留異常值.另一方面,由于LOOCV 對異常值點的存在非常敏感,所以LOOCV 的評估結果對于模型離群點的實際影響可以作為參考.如圖6(b)和圖5(d)所示,在LOOCV 的測試下,并沒有出現很明顯的離群點.這也證明了少量的異常值點對建模的影響并不大.

圖5 (a),(c) 在十折交叉驗證下的模型擬合結果以及(b),(d)在LOCOCV 下的模型擬合結果,其中(a),(b) 優化特征組[γ,?χ,VEC,F,?,e/a,E,δG] 作為RF 輸入特征;(c),(d)簡版優化特征組 [VEC,G,M.E] 作為RF 輸入特征Fig.5.(a),(c) Model fit results under 10-fold cross-validation and (b),(d) model fit results under LOCOCV: (a),(b) Optimized feature set [γ,?χ,VEC,F,?,e/a,E,δG] as RF input features;(c),(d) the short version of the optimized feature set[VEC,G,M.E]as RF input features.

圖6 數據集去除異常值后的擬合圖 (a)使用了10-fold評估;(b) 使用了LOOCV 評估;(c) 主圖為異常值得分結果,Scores <0 視為離群點;利用孤立森林對205 個高熵合金樣本進行異常值檢測,子圖為利用主成分分析法降維后的異常值檢測可視化結果Fig.6.Fitted plots of the dataset after removing outliers:(a) 10-fold is used;(b) LOOCV is used;(c) the outlier score histogram (the orange points being outlier points when scores <0).The outlier detection is carried out for 205 high-entropy alloy samples by using isolated forest.The inset 3D figure shows the visualization results of the outlier detection after the dimensionality reduction by using principal component analysis.
為了進一步探索特征集[VEC,G,M.E]在SSS的應用,對SSS 物理模型進行改進.首先經驗參數VEC 與ξ的作用類似,都能區分具有FCC 和BCC結構固溶體相的HEA.但ξ參數劃分不同相的邊界更加清晰.Wen 等[34]使用ξ代替VEC 訓練ML模型,獲得了更好的SSS 預測結果.針對Toda-Caraballo 和Rivera-Díaz-del-Castillo[40]提出的SSS 物理模型,將特征集[VEC,G,M.E]中的VEC 替換為ξ,得到了該SSS 模型的另外一種表現形式:
為了驗證(7)式的準確性,采用文獻[34]收集的162 條鑄態HEA 的SSS 貢獻( ?σSSC)數據集,該數據集中所包含的金屬元素不僅有3d 過渡金屬元素(Co,Cr,Cu,Fe,Ni,Mn,Ti,V),還包含Zr,Hf,Mo,Nb,Ta,W,Al 等難熔金屬元素.為了更好地估計SSS 對HEA 硬度的貢獻,該數據集中只保留了BCC 和FCC 的單相固溶體數據,這樣處理可以削弱除SSS 外的其他強化效果的干擾.如圖7所示,將[ξ,G,M.E ]作為RF 算法輸入,?σSSC作為輸出,經過貝葉斯優化方法對RF 進行超參數優化,最終在10-fold 的情況下RMSE 和R2分別為542.3691 和0.8811.

圖7 以[ ξ,G,M.E ]作為RF 輸入特征,?σSSC 作為目標值,在十折交叉驗證下的評估結果Fig.7.Evaluation results with [ ξ,G,M.E ] as the RF input features and ?σSSC as the target values under 10-fold cross-validation.
本文首先使用集成學習算法對一個包含19 個候選特征的高熵合金硬度數據集進行訓練、測試和評估: 從多種特征選擇算法中篩選出遺傳算法對19 個候選特征進行篩選,獲得包含8 個特征的優化特征組;然后結合兩階段的特征選擇方法,利用傳統固溶強化模型優化建模特征,最終篩選出包含3 個材料特征的簡版最優特征組合 [VEC,G,M.E] ;利用這3 個特征建立的RF 模型使得模型在十折交叉驗證法下的R2達到了0.9416,RMSE 達到了52.4594.基于該特征組合建立的模型對于固溶強化的預測也具有一定適應性,在預測固溶體強化的貢獻時R2達到了0.8811,這表明該模型對高熵合金力學性質的預測可能也有好的遷移效果.最后,本文使用可解釋機器學習挖掘HEA 硬度數據的隱含信息,初步揭示了一些重要材料特征對HEA 硬度的影響機理.