王海偉,葉 波,馮 晶,種曉宇
(1. 昆明理工大學信息工程與自動化學院,云南 昆明 650500) (2. 昆明理工大學 云南省人工智能重點實驗室,云南 昆明 650500) (3. 昆明理工大學材料科學與工程學院,云南 昆明 650093) (4. 昆明理工大學 材料基因工程重點實驗室,云南 昆明 650093)
鋼鐵是人類文明中最重要的材料之一,20世紀末鋼鐵成為現代世界位于核心地位的金屬材料[1]。隨著時代的不斷發(fā)展,鋼鐵材料應用于各種領域,例如鐵路、石油、建筑、汽車、船舶、航空航天等,不同的應用領域對鋼鐵性能的需求不同[2],鋼的性能主要取決于其化學成分和工藝參數。鋼的主要化學成分是鐵(Fe)、碳(C)和10余種合金元素[3]。此外,鋼材的生產工藝極其復雜,例如,鋼材的生產涉及到高溫冶煉過程,包括爐料的加熱、熔化、脫氧等多個階段。而每個階段都需要控制溫度、壓力、保護氣氛等參數,從而確保所制造的鋼材符合特定的質量標準[4]。生產鋼材最常用的加熱工藝是退火、回火、淬火和正火[5]。為了獲得符合服役性能需求的鋼材,需要研究化學成分、熱處理工藝參數和其他工藝參數對鋼材性能的影響。因此,具有不同元素組合和工藝參數的候選組合種類多達百萬,目前通過傳統(tǒng)實驗試錯法幾乎不可能研究所有組合。
近年來,機器學習技術已廣泛應用于各種材料的研究與設計中,成為材料研究的新興方法和熱門領域[6,7]。牛程程等[8]綜述了機器學習技術在材料信息學方面的應用,總結了機器學習方法在多種材料性能預測中的研究現狀,介紹了最常用的材料數據庫資源和多種應用于材料領域的機器學習算法,并對國內外機器學習在材料中應用的研究進展進行了對比和總結。Arroyave等[9]綜述了數據科學、機器學習和人工智能在金屬和合金中的應用研究,總結了應用于解決材料科學和工程中的正向與反向問題的研究框架。Liu等[10]綜述了材料基因組計劃中的機器學習技術,介紹了材料科學中使用的機器學習算法以及機器學習在材料結構確定、性能預測、描述符構建和新材料的發(fā)現中的應用,指出了機器學習在材料設計領域未來的研究方向。
機器學習已成為材料科學領域中揭示和開發(fā)材料成分-組織/結構-性能-服役行為關系的有力工具。Reddy等[11]利用人工神經網絡和遺傳算法構建預測模型,通過成分和熱處理參數預測鋼的性能,并設計出具有所需力學性能的中碳鋼。Xie等[12]基于11 101個數據樣本,以合金成分、加熱爐工藝參數、軋制數據和冷卻數據為輸入,預測了熱軋鋼板的4種力學性能,并依據預測模型探究C元素在鋼種中的作用,預測模型的解釋結果與實驗測量的結果吻合較好。
本文主要綜述機器學習技術在鋼鐵材料設計與開發(fā)中的應用。首先介紹在材料領域中常用的機器學習算法和模型,然后介紹鋼鐵材料在構建機器學習模型中特征選擇的重要性,綜述機器學習技術在鋼鐵材料成分-工藝-性能預測、服役行為預測以及逆向設計中的研究進展。最后,分析機器學習在鋼鐵材料領域面臨的問題并展望其發(fā)展前景。
機器學習是一門多學科交叉專業(yè),涵蓋計算機科學、概率論、統(tǒng)計學、近似理論和復雜算法等知識,本質是基于大量的數據和一定的算法規(guī)則,使計算機可以自主模擬人類的學習過程,并能夠通過不斷的數據“學習”提高性能并做出智能決策的行為[13]。機器學習模擬人類學習主要過程可以分為數據收集、特征選擇、算法/模型選擇、模型訓練和評估、模型預測和應用。機器學習的學習流程如圖1所示。
數據是機器學習過程的核心,機器學習算法通過收集的數據進行訓練,揭示數據中存在的隱藏規(guī)律。通常會對收集的數據進行預處理,例如歸一化處理。用于機器學習的數據可以為數值或者圖像,將初始數據進行轉換為更適合所選擇的機器學習算法的輸入數據的過程稱為特征選擇。所選特征越合適,輸出結果的精度就越高。
機器學習需要選擇合適的算法,模型中的結構與參數的選擇也會影響模型的精確度,為了使所選模型達到最優(yōu),通常有兩種方式對模型進行優(yōu)化,第一種是采用優(yōu)化算法,例如粒子群算法、遺傳算法等[14];第二種是增加訓練集的數據容量,使模型參數不斷迭代更新直至達到最優(yōu)值。模型訓練結果通過選取的評價指標進行評價,回歸問題中常用的評價指標有均方根誤差、決定系數等。
模型預測是利用訓練及優(yōu)化好的模型對新的數據進行預測,預測精度取決于模型的精度。通過評價指標對模型的精度評估后,進一步通過改變模型輸入實現新型材料的預測并完成模型輸出規(guī)律的探究。
根據學習風格不同,機器學習算法可以分為監(jiān)督學習、無監(jiān)督學習和強化學習[15]。監(jiān)督學習是指通過帶有屬性標簽的樣本進行訓練,每組樣本都由輸入和輸出數據構成。無監(jiān)督學習是指樣本的類別是未知的,不帶有屬性標簽,可以將未分類的樣本進行分類。表1列舉了材料信息學中常用的機器學習算法模型以及它們的特點和應用。強化學習是一種通過智能系統(tǒng)與環(huán)境互動學習如何做出一系列決策以最大化累積獎勵的機器學習方法,其核心思想是在試錯過程中通過學習來找到最優(yōu)策略,而不需要顯式的監(jiān)督標簽。

表1 常用的機器學習模型Table 1 Common machine learning models
鋼鐵材料的機器學習預測模型是對合金成分及其加工處理工藝數據訓練,然后對材料的性能做出預測。機器學習預測模型需要揭示被表征的鋼鐵數據及其性能之間的隱式關系,材料被表征后的數據被稱為材料特征或材料描述符,鋼鐵材料特征的構建需要盡可能多地保留鋼鐵的特性。針對鋼鐵進行性能預測時,材料特征通常選取鋼鐵的合金成分或者其熱處理工藝。Reddy等[28]利用人工神經網絡預測低合金鋼的力學性能,預測模型輸入特征包括合金成分和2種熱處理參數,并根據預測模型探究了各種合金成分及2種處理工藝對該低合金鋼性能的影響。
機器學習模型的材料描述符需要根據模型輸出進行合理設計與選擇,合理的材料描述符往往需要在考慮材料描述符與目標輸出之間關聯性的基礎上,根據相關專業(yè)知識來進行設計。在鋼鐵材料的成分及性能預測中,如果反將鋼鐵材料的合金成分以及處理工藝作為輸入來建立機器學習模型,會存在特征冗余的問題。因此,應進行特征選擇,將高維數據進行降維,保留重要的材料信息。利用特征篩選后的強相關特征進行模型建立,可以提高模型的預測精度以及計算速度。Xiong等[29]在進行鋼鐵材料性能預測時,利用隨機森林和符號回歸分別對影響疲勞強度、抗拉強度、斷裂韌性和硬度的特征進行特征選擇,成功地在16個特征中篩選出與4個性能強相關的特征,特征選擇結果如圖2所示,隨機森林篩選的特征為Mo和Cr的含量以及均勻化溫度和回火溫度,符號回歸選擇的特征為C,Mo和Cr含量以及回火溫度,最后將上述2種算法選擇出的特征分別構建預測模型,得出利用符號回歸模型選擇特征構建的預測模型具有更高的預測精度(決定系數R>0.9550,均方根誤差RRMSE<3.25%),預測結果如圖3所示。

圖2 疲勞強度、抗拉強度、斷裂強度和硬度的16個特征的歸一化[29]:(a)隨機森林特征重要性,(b)符號回歸特征重要性Fig.2 Normalized random forest importance (a)and symbolic regression importance (b)of the 16 features for fatigue strength,tensile strength,fracture strength and hardness[29]
目前機器學習算法在鋼鐵材料領域最廣泛的應用是建立鋼鐵成分-工藝-性能之間的隱式關系,以輔助鋼鐵材料的設計與開發(fā)。鋼鐵材料元素成分的多樣性和加工工藝的復雜性都會對鋼鐵的抗拉強度、屈服強度和延伸率等力學性能產生重大影響。因此將鋼鐵材料的元素成分和工藝參數作為預測模型的輸入,以力學性能作為輸出建立預測模型,可以輔助鋼鐵材料的設計和工藝參數優(yōu)化,從而加快新型鋼鐵的設計與研發(fā)。
魏清華等[30]使用日本國立材料研究所數據庫中的360條鋼材數據,以元素成分、制備工藝和夾雜物參數為輸入,利用正則化線性回歸、隨機森林和正則化人工神經網絡3種算法構建預測模型,成功預測了鋼材的4種力學性能。謝少捷等[31]基于冶金機理選取影響熱鍍鋅鋼卷生產的基本特征,利用梯度提升樹算法對其他化學元素特征進行篩選,并構建鋼卷屈服強度的預測模型,最后利用預測模型分析了各種特征對鋼卷屈服強度的影響。Guo等[32]利用人工神經網絡模型模擬合金成分、加工參數和馬氏體時效鋼性能之間的相關性,輸入參數為13種元素的含量、時效前冷變形程度、時效溫度和老化時間,輸出參數為8個力學特性和馬氏體起始溫度,模型預測結果與實驗數據非常吻合。Capdevila等[33]等利用貝葉斯神經網絡探究了鋼的元素成分和馬氏體起始溫度之間的關系,并根據預測模型進一步研究了合金中C濃度對馬氏體起始溫度的影響,發(fā)現隨著合金中C濃度的增加,馬氏體起始溫度的下降速率降低。Guo等[34]基于6萬多個鋼鐵的工業(yè)數據樣本,以工藝參數和化學成分共27個特征為輸入,構建普通最小二乘法、支持向量機、回歸樹和隨機森林4種預測模型,對鋼鐵的屈服強度、抗拉強度和延伸率進行性能預測,借助預測模型,計算了不同合金含量下3種性能的可能邊界,并設計出了滿足性能要求的新鋼種。Qiao等[35]提出了一種改進的成分-結構-性能的預測模型,將物理特征加入到機器學習的模型中,并利用果蠅優(yōu)化算法和粒子群優(yōu)化算法分別對廣義回歸神經網絡的參數進行尋優(yōu),根據預測模型證明了物理特征對珠光體鋼的層間距和力學性能有較大的影響,并用制備的樣品證明所提出的果蠅優(yōu)化算法-廣義回歸神經網絡模型預測結果與實驗結果非常吻合,該模型可以用于開發(fā)具有目標特性的新型鋼鐵,所提出的方法流程如圖4所示。
鋼鐵材料服役條件各不相同,服役性能主要包括腐蝕速率、蠕變壽命和疲勞強度等,鋼鐵結構和部件的疲勞斷裂是鋼材在實際服役過程中主要的失效形式之一,因此對鋼鐵材料的服役行為進行預測越來越受到學者們的關注。利用機器學習算法,構建服役環(huán)境因素與服役性能之間的預測模型,可以對鋼鐵的服役行為進行預測。
Aghaaminiha等[36]基于26 855個低碳鋼在CO2水溶液中的腐蝕數據樣本,以緩蝕劑濃度、時間和溫度等12個環(huán)境和操作因素為輸入,采用隨機森林構建機器學習模型,預測緩蝕劑對低碳鋼的腐蝕速率的影響,經過訓練的隨機森林模型可以很好地預測低碳鋼腐蝕速率隨時間的變化趨勢。Verma等[37]采用各種機器學習方法,包括線性回歸、套索回歸和t分布隨機鄰域嵌入,建立9%~12%Cr(質量分數)鋼的加工/微觀結構和蠕變特性之間的統(tǒng)計關系,為650 ℃、100 MPa和蠕變壽命≥105h的新型馬氏體鋼的設計提供了參考。Wang等[38]建立了具有高蠕變壽命的低合金鋼設計框架,如圖5所示,首先比較各種機器學習策略,得到預測蠕變壽命的最佳機器學習模型,然后利用帶有過濾器的遺傳算法在特定蠕變條件下獲得具有最佳成分和加工參數的新合金。He等[39]利用人工神經網絡、支持向量回歸和隨機森林方法預測含有缺陷/夾雜物的焊接馬氏體不銹鋼(13Cr-5Ni)和KSFA90鋼(為曲軸制造)的疲勞壽命,在3種機器學習的預測結果中,隨機森林的預測結果精度最高,因此在預測材料的疲勞壽命時,使用多種算法要優(yōu)于單一算法。

圖5 蠕變壽命預測模型和高通量設計模型的基本流程[37]Fig.5 Basic flow of the creep life prediction module and high-throughput design module[37]
鋼鐵材料的正向設計[40]是指以鋼鐵成分或工藝為輸入、性能為輸出,通過改變輸入來達到優(yōu)化鋼鐵材料性能的目的。但由于鋼鐵材料成分的多樣性以及工藝的復雜性,通過正向設計需要對大量數據進行篩選,并且難以保證所獲取的材料性能為最優(yōu)性能。因此,需要在已知材料性能的前提下,設計材料的成分和工藝,即逆向設計[41]。鋼鐵材料的逆向設計能夠快速準確地設計開發(fā)滿足性能需求的新鋼鐵材料。
Lee等[42]開發(fā)了一個包含16種算法的集成機器學習平臺,如圖6所示,基于收集到的5473組熱機械控制工藝鋼合金數據建立屈服強度與極限抗拉強度比值(YS/UTS)的預測模型,利用經過充分訓練的7種非線性機器學習算法構建基于精英策略的非支配排序遺傳算法的逆向預測模型,使用全息搜索策略技術在16維決策變量空間中將預測結果進行圖形可視化,從而可以系統(tǒng)地了解數據狀態(tài),并且在輸入特征空間引入可視化解決方案,從而實現了真正意義上的機器學習預測。在合金逆向設計中,Wang等[43]提出了以性能為導向的銅合金機器學習設計系統(tǒng),如圖7所示,用反向傳播神經網絡構建了成分預測性能(C2P)和性能預測成分(P2C)這2種模型,初始合金成分預測由P2C模型得出,將得到的結果輸入到預測精度更高的C2P模型中,將預測屬性與目標進行比較并得到誤差,如果預測值和目標值之間的所有誤差都超過預設閾值,則將重新訓練P2C模型,直到篩選出合理的合金成分設計方案,實驗證明,機器學習設計系統(tǒng)在解決目標特性的成分設計問題上具有更高的效率和可靠性。

圖6 集成機器學習平臺的總體框圖,包括3組機器學習算法、NSGA-II驅動的逆預測和高維數據可視化方法[42]Fig.6 The overall graphical description for the integrated machine learning platform,three groups of machine learning algorithms,the NSGA-II-driven inverse prediction,and the high-dimensional data visualization method are given[42]

圖7 用于快速準確成分設計的機器學習設計系統(tǒng)流程圖[43]Fig.7 Flow chart of the machine learning design system for rapid and accurate compositional design[43]
近年來,機器學習已廣泛應用于材料研究中,本文針對機器學習在鋼鐵材料研究中的應用進行了綜述,由于鋼鐵材料成分的多樣性以及工藝參數的復雜性,采用傳統(tǒng)實驗進行鋼鐵設計與開發(fā)的成本過于昂貴且效率較低,相比傳統(tǒng)實驗,機器學習在揭示和開發(fā)鋼鐵材料成分-組織/結構-性能-服役行為關系方面具有巨大的潛力。
目前,鋼鐵材料領域可以用于機器學習的數據規(guī)模還比較小,基于小規(guī)模數據集構建的預測模型預測的結果往往只能接近真實數據集,不能用于真正的實驗指導。鋼鐵材料領域針對特定鋼鐵材料的研究已經發(fā)表了很多文獻,但由于缺少成熟的方法,難以從大量文獻中收集數據作為機器學習的訓練集。擴充鋼鐵材料的數據集可以通過數據挖掘技術從文獻中提取有效數據,并建立可以用于機器學習的鋼鐵材料數據庫,基于鋼鐵材料大數據驅動的機器學習將會快速推動鋼鐵材料的研發(fā)。