雷華歡,徐家倬,陳 平,劉麗蘭
抗拉強度是金屬由均勻塑性變形向局部集中塑性變形過度的臨界值,也是金屬在靜拉伸條件下的最大承載能力??估瓘姸仁墙饘佼a品是否合格的重要指標之一。某鋼廠為了提高連退產品帶鋼的生產合格率,特別對帶鋼抗拉強度的影響因素進行了分析。該企業在長期的生產過程中積累了豐富的產品性能數據,為了充分利用這些數據來提高產品的性能,進行新產品新工藝的設計,從而提高企業的經濟效益和增強企業競爭力,企業的技術人員應用數據挖掘這一技術對這些數據進行挖掘分析來得到具體影響帶鋼抗拉強度的因素及其之間的關系。
數據挖掘[1]是從大量的數據中提取隱含在其中的、實現不知道的、但又是潛在有用的信息和知識的過程。它是一個萃取和展現新知識的流程。通過分析具體數據,發現確定有效的、新穎的、有潛在使用價值的信息,為企業的運營和決策部門做出重要決策提供幫助。其中,決策樹以其出色的數據分析效率、直觀易懂等特點,倍受青睞。基于信息論的決策樹分類算法應用較為廣泛,該方法屬于從特例推導到一般規則的歸納學習方法,基本原理是用決策樹表示分類的規則。
本文基于某鋼廠的2010年帶鋼產品數據集,以馬克威分析系統4.0為平臺,采用決策樹算法挖掘數據集中的知識、規則和模式,為找到影響帶鋼抗拉強度的主要因素提供決策依據。
決策樹[2]是一種以實例(訓練集)為基礎的歸納學習方法。它著眼于從一組無秩序、無規則的實例中推理出決策樹表示形式的分類規則。采用自頂向下的遞歸方式,在內部節點進行屬性值的比較,并根據不同的屬性值判斷從該節點向下的分支,在葉節點得到結論。
決策樹中,有兩種節點:決策節點和狀態節點。由決策節點引出若干樹枝,每個樹枝代表一個決策方案,每個方案樹枝連接到一個新的節點。這個新的節點即可能仍是一個新的決策節點,也可能是一個狀態節點。每個狀態節點表示一個具體的最終狀態。在決策樹中,與狀態節點相對應的是葉節點。決策樹用于解決分類問題時,決策節點表示待分類對象的屬性,每個樹枝表示它的一個可能取值,而狀態節點則表示分類結果。
決策樹中最上面的節點稱為根節點,是整個決策樹的開始。決策樹的每個節點子節點的個數與決策樹在用的算法有關。圖1給出了決策樹一般形式。
Node1,Node21,Node22為內結點,各代表一個屬性;L1,L2,L3為葉子結點,分別代表一個類別;r1,r2,r3.,r4,r5分別代表屬性上的一個測試值。使用決策樹表達知識直觀簡潔。從決策樹中可以直接觀察出屬性之間的相對重要性。從決策樹的根節點開始,沿著每一條路徑向下,屬于對于分類的重要性逐漸下降。

圖1 決策樹一般表示形式
盡管所有的決策樹算法處理數據的方式都很相似,但在決定如何根據重要性對不同變量進行分組和排序時,它們采用不同的數學算法。常見的決策樹分類基本算法有ID3算法,以及其后續版本C4.5算法。本文使用的是C4.5算法。下面是對此次算法的具體介紹。
C4.5決策樹算法[3]的核心思想是利用信息熵原理,選擇信息增益率最大的屬性作為分類屬性,遞歸地構造決策樹的分枝,完成決策樹的構造。
假設向量空間中的正例集PE和反例集NE的大小分別為p和n,ID3算法基于兩個假設:1)在向量空間H上的一棵正確決策樹對任意例子的分類概率同H中的正反例的概率一致;2)一棵決策樹能對一例子做出正確類別判斷所需的信息量為

如果以屬性A作為決策樹的根,A具有V個值(v1,v2,…,vv),它將H分為v個子集(H1, H2,…, Hv),假設Hi含有Pi個正例和Ni個反例,子集Hi信息熵 E(Hi)

以屬性A為根分類的信息熵為E(A):

因此,以A為根的信息增益是G(A):

信息增益率等于信息增益對分割信息量的比值。對樣本集T,假設A有s個不同取值的離散屬性,劃分為s1, s2, …, sn共n個子集,用A分割樣本所得的信息增益的算法與ID3相同,分割信息量由以下公式給出:

信息增益率由下式給出

C4.5算法選擇G-R (A)最大的屬性A作為分支屬性,較好的解決了ID3算法的多值屬性偏向問題。
抗拉強度指材料在拉斷前承受最大應力值。當鋼材屈服到一定程度后,由于內部晶粒重新排列,其抵抗變形能力又重新提高,此時變形雖然發展很快,但卻只能隨著應力的提高而提高,直至應力達最大值。此后,鋼材抵抗變形的能力明顯降低,并在最薄弱處發生較大的塑性變形,此處試件截面迅速縮小,出現頸縮現象,直至斷裂破壞。鋼材受拉斷裂前的最大應力值稱為強度極限或抗拉強度。抗拉強度作為帶鋼是否合格的重要指標,是連續退火爐生產帶鋼工藝過程中的重要加工目標之一。
以數據挖掘CRISP-DM(Cross-Industry Standard Process for Data Mining)為標準,建立帶鋼抗拉強度影響因素分析流程,如圖2所示。

圖2 帶鋼抗拉強度影響因素分析流程圖
在進行數據挖掘之前首先要了解帶鋼在連續退火爐中的加工過程,這樣才能正確的了解帶鋼抗拉強度的影響因素。
連續退火爐為立式鋼結構,共分為7個爐段,它們包括預熱爐(JPF)、加熱爐(RTF)、均熱爐(SF)、緩冷爐(SCS)、快冷爐(FC)、過時效爐(OA)、終冷爐(FCS)及水淬冷卻槽(WQ)。
帶鋼在退火過程中經歷了晶粒恢復、再結晶、晶粒長大三個階段。預熱段主要是預熱鋼板,凈化帶鋼表面、除氧和晶?;謴蜏蕚涞倪^程;加熱段和均熱段是實現帶鋼再結晶的過程,該工藝段可以控制加熱模型,是保證帶鋼抗拉強度的關鍵工藝;然后是晶粒長大的過程,其中,將加熱到退火溫度的帶鋼冷卻到常溫的速度會直接影響帶鋼的力學性能和沖壓性能。
a-Fe中固溶的炭量隨溫度變化,320℃附近快速冷卻固溶炭不能完全析出,會產生時效硬化,所以在320℃附近必須經過緩冷,迫使固溶炭析出,需要進行過時效處理;鋼種不同,過時效的溫度和保溫時間也有差異,一般范圍在350~450℃,保溫20~300s左右,以獲得晶粒均勻的產品。
由于本文主要是研究帶鋼在連退爐加熱段時影響其抗拉強度的各種因素,所以本文的數據挖掘主要立足于預熱爐、加熱爐和均熱爐中的再結晶過程。
在成分一定的情況下,鋼鐵材料的性能主要取決于組織特征,細化的晶粒組織可以在不降低材料韌性的前提下提高材料強度。鋼鐵材料在不同的加熱溫度下會形成不同的鋼鐵組織,比如珠光體、馬氏體和奧氏體等等。它們的晶粒大小、形狀、結構及成分均勻性等都不同,而這些都會影響到材料的各種性能,抗拉強度便是其中的一項。
數據預處理是數據挖掘的前期準備工作,其質量好壞直接影響到挖掘結果的優劣。一般來講,作為數據挖掘對象的數據集有兩個顯著特征:數據比較臟(有噪聲)、樣本容量大(觀測個數多)。為了提高分類的準確性、有效性和可伸縮性,需要對數據進行以下的預處理[4]。
1)數據清理
數據清理的目的是消除或減少噪聲數據以及處理空缺值。可采用平滑技術消除或減少噪聲數據,對于空缺值,可用該屬性最常出現的值,或者根據統計,用最可能的值代替。盡管大部分的分類算法都有處理噪聲和空缺值的機制,但經過清理的數據將更加有助于減少學習時的混亂。
在資產證券化過程中,涉及的主體多,過程復雜,在這個過程中需要法律的約束。但我國資產證券化進程才剛剛起步,法律基礎設施建設仍不夠完善(葉方方 、賈媛,2017)。由于情況的不確定性,會有出現法律風險的情況,造成涉及證券化的多方利益不能夠得到保障。因此,完善法律法規可以有效規避風險,維護證券化過程中的多方利益。
2)相關性分析
數據中的許多屬性可能與分類任務不相關。例如:帶鋼入口卷號、出口卷號與其抗拉強度影響因素不相關。此外,還可能一些屬性是冗余的,如果包含這些屬性將減慢或可能誤導學習步驟。因此,需預先對數據作相關分析,刪除學習過程中不相關的或冗余的屬性。在機器學習中,這一過程稱為特征選擇。
3)數據變換
數據可以概括到較高層次的概念。例如對于連續值的屬性,“抗拉強度”的數學值可以概括到離散的區間。由于概括壓縮了原來的訓練數據集,則學習的時間將會減少。數據也可以按照某種規則進行規范化處理等。這些數據變換對分類有時是必要的。
建立模型是一個反復的過程,要在不同的模型中選擇對解決問題最有用的模型。在尋找好的模型的過程中學到的東西有可能會修改原有數據,甚至改變最初對問題的定義。一旦決定了預測的類型之后(分類或回歸),就需要為這個預測選擇模型的類型??赡苁且豢脹Q策樹、神經網絡、甚至傳統的數學統計。本文應用的是分類問題,采用決策樹算法即可。
在決策樹的學習算法中,除去分類的正確性應當放在第一位給予考慮之外,決策樹的復雜程度是另外一個需要考慮的重要因素。如果決策樹構造的過于復雜,那么對于用戶來說這個決策樹是難以理解的,將在很大程度上使用分類樹的構造沒有意義。簡化決策樹的方法有很多,剪枝是最常用的方法,它主要通過訓練過程中明確地控制樹的大小來簡化決策樹。當決策樹創建時,由于訓練數據集中的噪聲和孤立點的影響,許多分枝反映的是訓練數據中的異常。
在建立決策樹時,要選擇樹剪枝的方法,有不剪枝、預剪枝和后剪枝。本文分析首先要對如圖3所示的各種屬性及參數進行選擇。這是一種訓練的過程,在不斷的試驗的基礎上才能得到最滿意的結果。

圖3 決策樹屬性與參數選擇
原數據集中包含了16個參數,數據量較大,存在許多無用數據。以下是對數據進行預處理的步驟:
1)數據清理,某鋼廠提供的數據是各加工段信息采集器采集到的數據,類中繁多且數據量大。這么多的數據存在著空值或不符合實際的值,這些對分類的準確度都會有影響,所以要先對這些數據進行清理。
2)相關性分析,通過對帶鋼各項參數的研究,決定選取其中某幾項參數作為影響帶鋼抗拉強度的數據挖掘。部分數據如表1所示。

表1 部分數據表
3)數據變換,本文數據挖掘的目的是對影響抗拉強度因素的確定,由于源數據中抗拉強度的值各不相同,沒有明顯顯示出哪些是合格與不合格的抗拉強度值。根據工廠加工的不合格率1%的要求,得出抗拉強度低于277MPa的為不合格1,高于277MPa的為合格2。賦予數據源中小于277MPa的抗拉強度值1,大于277MPa的抗拉強度值2。
以上工作完成后即可運行決策樹模型得到挖掘結果。
在馬克威分析系統平臺上運行決策樹挖掘,以抗拉強度為目標變量,中央段速率、JPF爐溫和SF爐溫為輸入變量,得到的影響帶鋼抗拉強度的決策樹(圖4)和規則集,共4層,8個規則。從圖中可以看出,通過決策樹數據挖掘模型對帶鋼參數數據集進行了有效分類,此模型對在生產實踐中帶鋼抗拉強度的提高具有重要的參考價值。
決策樹模型具體挖掘過程參數如下:所處理記錄個數:1000;丟棄的記錄個數:0;決策樹爭取率:73.3%;分裂時一個分支的最小樣本數大于2,連續值分叉結點的最大分叉數5,生成樹方法為信息熵,樹剪枝的方法:深度剪枝,最大深度為5。
決策樹變量分類重要性如表2所示。

表2 決策樹變量分類重要性
規則表示如下:
規則1 如果:SF爐溫 屬于 [425,837] 那么:抗拉強度 ===> 2(可信度99.18%)

圖4 決策樹
規則 2 如果:SF 爐溫 屬于 >=838 并且:中央段速度 屬于 [37, 141] 并且:JPF爐溫 屬于 [232.99,307.36] 那么: 抗拉強度 ===> 2(可信度 68.42%)。
規則3 如果:SF爐溫 屬于 >=838 并且:中央段速度 屬于 [37, 141] 并且: JPF爐溫 屬于 [307.36,318.80] 那么:抗拉強度 ===> 2(可信度73.33%)。
規則4 如果:SF爐溫 屬于 >=838 并且:中央段速度 屬于 [37, 141] 并且:JPF爐溫 屬于 [318.80,335.96]那么:抗拉強度 ===> 2(可信度71.43%)。
規則5 如果:SF爐溫 屬于 >=838 并且:中央段速度 屬于 [37, 141] 并且:JPF爐溫 屬于 [335.96,364.56] 那么:抗拉強度 ===> 2(可信度60.00%)。
規則6 如果:SF爐溫 屬于 >=838 并且:中央段速度 屬于 [37, 141] 并且:JPF 爐溫 屬于 >=364.56那么:抗拉強度 ===> 1(可信度66.67%)。
規則 7 如果:SF 爐溫 屬于 >=838 并且:中央段速度 屬于 [141, 181] 那么:抗拉強度 ===> 2(可信度90.71%)。
規則 8 如果:SF 爐溫 屬于 >=838 并且:中央段速度 屬于 >=182 那么:抗拉強度 ===> 2(可信度81.97%)。
通過以上的結果,可以看出SF爐溫對帶鋼的抗拉強度的影響最大,重要性高達100%,中央段速率和JPF爐溫同樣對帶鋼的抗拉強度影響甚大。在規則6中可以看出爐溫溫度高,中央段速度低時會導致帶鋼抗拉強度過低,產品不合格。這一結果為提高帶鋼產品的合格率提供了很好的決策,技術人員在操作過程中應重點注意SF爐溫與中央段速率的值的控制。
通過利用馬克威分析系統提供的決策樹方法,對帶鋼產品的多個參數的數據集進行知識發現,探索影響帶鋼抗拉強度因素的分類關系,建立了以帶鋼抗拉強度為目標輸入的決策樹模型,得到了理想的決策支持。
[1] 康曉東. 基于數據倉庫的數據挖掘技術[M]. 機械工業出版社, 2005.
[2] 邵峰晶, 于忠清.數據挖掘原理與算法[M]. 中國水利水電出版社, 2003.
[3] 黃愛輝. 決策樹C4.5算法的改進及應用[J]. 科學技術與工程, 2009.
[4] 盧東標. 基于決策樹的數據挖掘算法研究與應用. 武漢理工大學. 2008.
[5] 王恩貴. 數據倉庫和數據挖掘在鋼鐵企業中的應用. 華東師范大學. 2005
[6] Efrem G.Mallach, Decision Support and Data WareHouse Systems,McGraw-Hill, Companies, Inc, 2000.
[7] W.H. Inmon. The operational data store. PRISM Tech Topic, 1993, 1(17).