邢易 李樹枝








摘要:點蝕是不銹鋼點焊接頭最常見的失效形式之一。點蝕電位作為衡量點蝕行為的特征量,與焊接電流、焊接時間、電極壓力等參數(shù)有著復雜的非線性關系。針對文獻中不銹鋼接頭點蝕行為數(shù)據(jù),建立隨機森林模型,優(yōu)化的決策樹數(shù)目為1 000,通過“五折交叉驗證”確定節(jié)點備選變量個數(shù)為2。預測結果表明:除29號樣本預測相對誤差較高外(-14.81%),剩余樣本的預測結果均優(yōu)于神經網絡和支持向量機,相對誤差的絕對值在10%以下。
關鍵詞:點蝕電位;隨機森林;交叉驗證;非線性
中圖分類號:TP181文獻標志碼:A文章編號:1001-2303(2020)05-0045-05
DOI:10.7512/j.issn.1001-2303.2020.05.09
0 前言
電阻點焊以其高效、低應力、小變形以及良好的自動化適應性等優(yōu)勢,廣泛應用于汽車、鐵路、航空、電子等工業(yè)領域中,可實現(xiàn)低碳鋼、不銹鋼、鋁合金、高溫合金的焊接。
不銹鋼具有優(yōu)良的機械性能和耐蝕性能,但在點焊過程中其接頭性能受到較大影響,尤其是耐蝕性。點蝕是一種局部腐蝕現(xiàn)象,點蝕電位作為點焊接頭點蝕行為的評價依據(jù),可通過焊接時間、焊接電流等[1-3]焊接參數(shù)實現(xiàn)預測和評價。
隨機森林是Breiman L.[4]在2001年提出的機器學習算法。該算法以決策樹作為基學習器,采用并行化思想,實現(xiàn)模型的訓練和預測。隨機森林算法優(yōu)點眾多,非常適用于處理復雜、非線性問題,而且?guī)缀醪粫霈F(xiàn)過擬合,預測效果好,在農業(yè)、林業(yè)、生物醫(yī)藥、信息通訊等[5-9]眾多領域中有著重要應用。李欣海[5]利用隨機森林對昆蟲種類進行判別;陳華舟[6]將隨機森林回歸與基尼系數(shù)優(yōu)選變量方法結合,實現(xiàn)魚粉蛋白的定量分析預測;Milad Malekipi-rbazari[9]利用隨機森林模型進行社交借貸風險評估。而目前隨機森林算法在材料學科中的應用研究還非常少見。
文中借助于R語言平臺,利用randomForest[10](隨機森林)軟件包對不銹鋼的點蝕行為數(shù)據(jù)進行隨機森林建模,通過模型參數(shù)選擇、優(yōu)化,實現(xiàn)模型訓練、預測和評價過程。
1 隨機森林模型
點蝕電位屬于連續(xù)型變量,探究、預測其與焊接過程參數(shù)的關系屬于典型的回歸問題,可采用構造以決策樹為基學習器的隨機森林回歸模型來分析和解決此問題。
1.1 隨機森林訓練
隨機森林是一種集成學習算法,其采用自助抽樣法,構造多棵決策樹組合{h(x,βk),k=1,2...r},x是輸入向量,βk是獨立同分布的隨機變量,r是決策樹的數(shù)量。隨機森林訓練過程包括以下步驟:
(1)采用隨機抽樣從原始數(shù)據(jù)中獲得訓練數(shù)據(jù)樣本,并采用自助抽樣法(bootstrap)從訓練集樣本中有放回抽樣得到r個不同的集合,分別作為r個決策樹的根節(jié)點樣本集合,每次抽樣剩余的數(shù)據(jù)作為袋外數(shù)據(jù),用于模型誤差的評估。
(2)對于任意一棵決策樹,每次進行節(jié)點裂時從所有的特征中隨機選取幾個特征進行最優(yōu)變量分割,并讓決策樹最大限度地生長。
(3)重復步驟(2),當所有決策樹生長完畢,隨機森林訓練也隨之完成。
1.2 隨機森林預測
隨機森林預測如圖1所示。
(1)對一棵訓練完成的決策樹,當有樣本輸入時,相應變量根據(jù)節(jié)點劃分從根節(jié)點沿著滿足條件的劃分路徑走到末節(jié)點,末節(jié)點預測變量均值即為該決策樹的預測結果。
(2)對所有的決策樹重復上文中步驟(2),每棵決策樹都會給出變量的預測結果,將這些結果進行等權重平均即可獲得最終的預測值。
2 數(shù)據(jù)建模及評價方法
文獻[10]中不銹鋼焊接參數(shù)如表1所示。自變量為焊接時間(wt)、焊接電流平方(wc2)和電極壓力(ef),E為點蝕電位。焊接過程是一個典型的非線性動力學過程,不同的參數(shù)組合產生不同的熱循環(huán),導致接頭組織也不盡相同,進而影響接頭的點蝕行為。隨機森林適宜處理這類非線性作用過程的問題,在不顯著提高計算量的前提下,獲得比較理想的預測結果。
基于以上分析,建立以焊接時間、焊接電流平方和電極壓力為輸入變量,以點蝕電位作為輸出變量的隨機森林模型。隨機抽取5/6的原始樣本數(shù)據(jù)作為訓練集,剩余樣本數(shù)據(jù)作為測試集,實現(xiàn)模型參數(shù)的選擇、模型分析和評價。
2.1 模型參數(shù)選擇
根據(jù)隨機森林算法估計過程可知,隨機森林的主要參數(shù)有兩個:決策樹數(shù)目和節(jié)點備選變量個數(shù)。一般來說,決策樹數(shù)目不應太少,否則會導致選取分割變量時,部分變量被選中次數(shù)過少,該因素對預測結果的貢獻不能充分體現(xiàn),導致預測結果發(fā)生較大偏差。節(jié)點備選變量個數(shù)則不應超過自變量個數(shù)。兩個參數(shù)的確定方法如下:
(1)根據(jù)訓練集樣本進行模型訓練,獲得不同基學習器數(shù)目下訓練集的均方誤差,均方誤差表征相對誤差波動程度大小,計算方法如式(1)所示,根據(jù)其結果選擇合適的決策樹數(shù)目。
(2)針對訓練集數(shù)據(jù),進行“五折交叉驗證”獲得最佳的節(jié)點備選變量個數(shù)。即將數(shù)據(jù)隨機均勻地分為5份,每次利用任意4份作為訓練子集樣本,剩余1份作為測試子集樣本。變化節(jié)點備選變量個數(shù),對模型進行訓練和預測,得到模型訓練子集和測試子集的平均均方誤差大小,綜合分析訓練子集和測試子集誤差結果,確定模型的節(jié)點備選變量個數(shù)。
2.2 變量重要性評價
使用精確度的平均減少(節(jié)點不純度)來定量評價變量的重要性。評價方法包括:
(1)對訓練好的隨機森林模型,獲得袋外數(shù)據(jù)預測結果的誤差大小error。
(2)針對某一決策樹的訓練數(shù)據(jù),為訓練數(shù)據(jù)中某一變量i的變量值增加隨機擾動,得到新的預測結果誤差為error1,這棵決策樹的變量i的精確度平均減少大小為error1-error。
(3)重復步驟(2),獲得所有決策樹的變量i的精確度平均減少值,取其平均值作為該變量在隨機森林模型中的精確度平均減少值。
(4)重復步驟(2)、(3),獲得所有變量的精確度平均減少值大小。
精確度平均減少數(shù)值越大,說明該變量添加隨機擾動時,其對預測結果影響越大,即該變量的重要性越高;反之,變量的重要性較低。
2.3 模型結果評價
在上述選取的參數(shù)條件下,對測試集數(shù)據(jù)進行預測,獲得預測值與實際值的相對誤差大小,將結果與神經網絡和支持向量機的預測結果進行對比、分析和評價。
3 結果分析及討論
3.1 決策樹數(shù)目選擇
決策樹數(shù)目在1~2 000范圍內變化,獲得訓練模型的均方誤差大小,結果如圖2所示。決策樹個數(shù)小于250時,誤差在局部范圍內出現(xiàn)幾次較大波動,而后隨決策樹數(shù)目的增多,波動幅度逐漸減小。這主要是由于待分割的節(jié)點變量和訓練樣本是隨機選取的,決策樹數(shù)目很少時,這兩方面的隨機性導致誤差出現(xiàn)較大波動;而隨著決策樹數(shù)目的增多,從總體來看分割變量的選擇是均勻的,各個變量對預測變量的影響能得到全面的體現(xiàn),波動幅度逐步降低。決策樹數(shù)目大于250時,模型均方誤差逐步減小,模型效果也越來越好,當決策樹數(shù)目增大至1 000左右時,模型均方誤差趨于最小;繼續(xù)增大決策樹數(shù)目,模型均方誤差未得到更好的改善。因此,將決策樹數(shù)目確定為1 000即可。
3.2 節(jié)點備選變量個數(shù)優(yōu)化
利用訓練集樣本對模型進行訓練,使用五折交叉驗證法得到訓練子集和測試子集的平均均方誤差值,結果如圖3所示。訓練子集和測試子集的平均均方誤差值均在5e-4以內。說明真值與預測值間誤差的波動程度小,擬合優(yōu)度和推廣優(yōu)度均比較優(yōu)異。在相同條件下,訓練子集的平均均方誤差均小于測試子集的平均均方誤差,擬合優(yōu)度結果優(yōu)于推廣優(yōu)度。分析均方誤差的變化規(guī)律可知:隨著節(jié)點備選變量個數(shù)增多,訓練子集的平均均方誤差逐漸減小,變量個數(shù)為3時,平均均方誤差達到最小值;而測試子集的平均均方誤差先減小后增大,備選變量個數(shù)為2時誤差達到最小,這兩種條件下訓練子集的平均均方誤差相差不大,應優(yōu)先選擇測試子集均方誤差較小者,即確定節(jié)點備選變量個數(shù)為2。
3.3 變量重要性分析
各個變量精確度的平均減少結果如圖4所示,對點蝕電位影響最大的變量是焊接電流的平方值,其次是焊接時間,最小的是電極壓力。焊接電流變化時,通過焊接電流平方被放大,接頭熱輸入存在較大差異,造成接頭組織差異明顯,對點蝕行為產生較大影響,其重要性最高。同時,根據(jù)焦耳定律,焊接熱輸入變化對焊接電流的敏感度大于對焊接時間的敏感度,焊接時間對接頭點蝕行為的影響小于焊接電流平方的影響。電極壓力通過改變接觸電阻間接影響熱輸入量及接頭點蝕行為,但電極壓力僅有兩個獨立的取值,變量的隨機干擾對預測結果的影響小于前兩個因素帶來的影響,其精確度的平均減少最小,意味著該變量的重要性最低。
3.4 模型預測結果及評價
在備選節(jié)點變量個數(shù)為2、決策樹數(shù)目為1 000條件下,利用模型對測試集樣本數(shù)據(jù)進行預測,點蝕電位預測結果(pre)和相對誤差大小(rel_error)如表2所示。可以看出,29號樣本的預測相對誤差為-14.81%,略微偏高。除29號樣本外,預測值與真實值的相對誤差的絕對值均在10%以內,絕大多數(shù)點的預測誤差絕對值在5%以內。分析訓練數(shù)據(jù)的點蝕電位可知,訓練集自變量和預測變量的數(shù)據(jù)變化均比較均勻,預測變量的點蝕電位值在0.381 87~0.485 47 V范圍內波動,訓練集數(shù)據(jù)經模型訓練后,對真實結果位于該范圍內的樣本預測效果會比較優(yōu)良,而對于變量值偏離該范圍較大的樣本而言,相當于“離群點”,隨機森林預測結果的相對誤差會有一定程度的提高。對多數(shù)預測樣本點而言,自變量與預測變量間的非線性特性關系已通過訓練集獲得,且變量數(shù)值均處于變量均勻變化的范圍內,預測效果通常較好。而29號樣本點的點蝕電位數(shù)值為0.512 40 V,偏離訓練集中的最大點蝕電位值0.485 47 V,兩值之間偏差較大,該預測樣本點可看成是“離群點”,預測效果不太理想。
對比隨機森林、BP神經網絡及支持向量機預測結果誤差的絕對值,如圖5所示。3種方法對29號樣本的預測結果均不理想,是所有預測樣本結果中最差的。而對于其余樣本點,隨機森林的預測結果幾乎都優(yōu)于另外兩種方法。事實上,絕大多數(shù)方法均對“離群點”比較敏感。當樣本中出現(xiàn)“離群點”時,首先應從試驗過程中考慮該結果是否有效,試驗材料是否存在加工、組織缺陷,或是否有隨機因素對試驗結果產生影響等等。當試驗結果準確無誤時,需要探索更優(yōu)化的算法,以提高預測的準確度。
4 結論
采用隨機森林模型,對不銹鋼點焊接頭的點蝕行為數(shù)據(jù)進行建模,并選擇、分析及評價模型參數(shù),主要結論如下:
(1)通過“五折交叉驗證”獲得訓練子集和測試子集的平均均方誤差的變化規(guī)律,得到最佳節(jié)點備選變量個數(shù)為2。
(2)利用精確度平均減少分析變量重要性,電流平方對點蝕電位的影響最大,其次是焊接時間,電極壓力影響最小。
(3)對比隨機森林與神經網絡、支持向量機算法預測結果,29號“離群點”樣本預測結果都不理想;對剩余樣本而言,隨機森林的預測效果幾乎均優(yōu)于另外兩種方法,預測相對誤差絕對值均在10%以內,絕大多數(shù)樣本點預測誤差絕對值小于5%。
參考文獻:
[1] Wei P S,Wu T H. Electrical contact resistance effect on resistance spot welding[J]. International Journal of Heat andMass Transfer, 2012(55): 3320-3323.
[2] Florea R S,Bammann D J,Yeldell A,et al. Welding parameters influence on fatigue life and microstructure in resistance spot welding of 6061-T6 aluminum alloy[J]. Materials & Design,2013,(45):460-462.
[3] Aslanlar S,Ogur A,Ozsarac U,et al. Welding time effect on mechanical properties of automotive sheets in electrical resistance spot welding[J]. Materials & Design,2008,29(7):1430.
[4] Breiman L. Random Forests[J].Machine Learning,2001,45(1):5-32.
[5] 李欣海. 隨機森林模型在分類與回歸分析中的應用[J].應用昆蟲學報, 2013,50 (4):1195.
[6] 陳華舟,陳福,石凱,等. 基于隨機森林的魚粉蛋白近紅外分析[J]. 農業(yè)機械學報,2015,46(5):233-238.
[7] 趙小歡,夏靖波,李明輝. 基于隨機森林算法的網絡流量分類方法[J]. 中國電子科學研究院學報,2013,8(2):185-189.
[8] 張華偉,王明文,甘麗新. 基于隨機森林的文本分類模型研究[J]. 山東大學學報(理學版),2006,41(3):139-143.
[9] Malekipirbazari M,Aksakalli V. Risk assessment in social lending via random forests[J]. Expert Systems with Applications, 2015(42):4624-4628.
[10] Martín ó,Tiedra P D,López M. Artifical neural networks for pitting potential prediction of resistance spot welding joints of AISI 304 austenitic stainless steel[J]. Corrosion Science,2010,(52):2400-2401.
[11] 吳喜之. 復雜數(shù)據(jù)統(tǒng)計方法-基于R的應用(第二版)[M]. 北京:中國人民出版社,2013:37-40.
[12] 曹正鳳. 隨機森林算法優(yōu)化研究[D]. ?北京:首都經濟貿易大學,2014:67-71.