張 挺,李寒旭,張 曄,陳和荊
(安徽理工大學化學工程學院,安徽 淮南 232001)
我國是世界上最大的煤炭產出消費國[1],煤炭是我國重要的能源和化工原料[2]。神府東勝礦區作為世界七大礦區之一,煤質精良,具有“三低一高”的特點[3],即低灰、低硫、低磷、高發熱量,在氣化領域表現出較大的競爭力[4]。神東礦區的煤灰熔點大部分偏低,黏溫特性波動性大且易于結渣[5],使得神東煤在氣化過程中會產生很多問題。對于煤氣化技術來說,煤灰熔融性是決定煤炭氣化排渣方式的一個重要因素,所以擴大煤種適用范圍具有重要意義。氣化爐操作溫度亦受限于煤灰熔融溫度及黏溫特性,因此,通過預測煤灰熔融溫度來指導企業生產有重大意義[6]。
通常認為,煤灰熔融溫度與灰成分中SiO2、Al2O3、Fe2O3、TiO2、CaO、MgO、Na2O、K2O等組分含量密切相關,傳統公式的預測誤差相對來說較大,預測精準度不高。并且,混煤灰熔融溫度不符合各煤種灰熔融溫度的簡單線性加權疊加[7]。關于預測煤灰熔融性,國內外學者已經在這方面做了很多研究,研究至今并未發現一個被大眾認可且計算能力強的預測方法來預測煤的灰熔點和灰成分之間的關系。楊伏生等[8]基于GA-BP算法對氣化配煤灰熔點進行預測,結果表明經過GA算法優化后的BP網絡預測算法的預測精度高于BP網絡算法,GA-BP預測值的MSE為308.098,MAPE為0.9948。王陸順[9]在基于神經網絡的混煤灰熔點研究中通過BP神經網絡與經驗公式對測試集進行預測結果進行對比發現,BP神經網絡得到的最大絕對誤差僅為69 ℃遠小于經驗公式得出的最大絕對誤差 603 ℃。王春林等[10]在基于支持向量機與遺傳算法的灰熔點預測的實驗中發現,優化后的支持向量機模型實現了對單煤和混煤灰熔點較精確的預測,對于摻混2種煤灰熔點Tst<1500 ℃和摻混2種煤灰熔點Tst>1500 ℃的最大預測誤差為3.39%,平均預測誤差為1.49%。
然而,前人眾多研究預測的煤樣種類繁雜沒有針對性,本文提出針對神東礦區煤,以神東礦區煤的主要氧化物成分為輸入量,建立基于Bagging集成CHAID決策樹算法的神東礦區煤灰熔融溫度預測模型,以便為神東礦區煤的利用提供指導。
CHAID(Chi-Square Automatic Interaction Detector)決策樹算法又稱卡方自動交互檢測算法,主要特點是利用卡方檢測判斷屬性優先級[11]。CHAID決策樹多應用于一個因變量多個自變量的分類問題,對于一些變量較多,且分類較復雜的情形,CHAID決策樹更加有效。CHAID決策樹多運用于一個單因變量或多自變量的時長分析問題,但針對與一些變數較多,而且市場分析比較繁瑣的情況,CHAID決策樹比較合理。由于CHAID算法擁有受解析變量的限制而影響范圍極小、不受解析變量之間的多重共線性影響以及分析結論清晰直接等優勢,因此往往被市場調查企業作為市場的細分研究工具[12],本文將CHAID算法應用于煤灰熔融溫度的預測中是一次創新的舉動。
CHAID決策樹的主要思想為根據數據確定因變量和自變量,以卡方值等統計量為分支準則,在與設定的合并水平相比較的過程中通過不斷合并、拆分因變量和自變量進行煤灰預測,直到滿足樹停止生長的條件。卡方值的計算公式如表1和式(1)、式(2)所示。

表1 卡方值計算公式所用的獨立性檢驗事件關系Table 1 The independence test event relationship used in the cardinality formula
(1)
n=a+b+c+d
(2)
CHAID決策樹的求解步驟如下:
(1)初始化。輸入訓練集數據S,訓練集數據屬性集合F,設CHAID決策樹函數為DT(S,F)。
(2)if(樣本S全部屬于同一個類別C)
創建一個葉節點,并標記類標號為C;
return;
else
計算屬性集F中目標屬性與其他每一個屬性的卡方值,取卡方值最大的屬性;
創建結點,取屬性A為該結點的決策屬性;
for(結點屬性A的每個可能的取值V)
為該結點添加一個新的分支,假設Sv為屬性A取值為V的樣本子集;
if(樣本Sv全部屬于同一個類別C)
為該分支添加一個葉結點,并標記類標號為C;
else
遞歸調用DT(Sv,F-{A}),為該分支創建子樹;
end if
end for
end if
(3)輸出CHAID決策樹。
決策樹屬于不穩定分類器[13],為了優化CHAID決策樹的預測結果,本文采用了集成學習算法進行優化,集成學習是通過某種方法整合數個基學習器提高整體模型的學習性能以完成任務,在機器學習分類任務中,常見的集成學習方法主要有串行和并行,普遍在用的集成方法有Boosting、Bagging等[14],由于在測試過程中Boosting集成算法中的模型容易過擬合,為了使數據泛化更穩定,本文采用的是一種裝袋法(Bagging),即將CHAID決策樹作為集成學習的分類器,采用投票機制,把分類器評估的概率在全部基分類器上求出其平均值以得出概率最高的預測溫度,聚合不同的分類器進行灰熔融溫度預測。常用的集成方式是訓練一組單個的決策樹分類器并通過投票機制得到最終預測結果[15]。集成學習模型可以集成同類基學習器和不同類基學習器,本文設計的集成方法為采取煤樣的灰成分數據為訓練集,在每輪學習的過程中有放回抽樣從訓練集中選取煤樣灰成分數據,分別對基分類器進行訓練,且采用并行的集成方法實現最終的灰熔融溫度預測,并行的集成結構見圖1所示。

圖1 Bagging集成基本結構Fig.1 Basic structure of Bagging integration
Bagging算法的偽代碼[16]可表述如下:
input:TS D={(a1,b1),(a2,b2),(a3,b3), …,(an,bn)};
basic learning classifier C;
number of training M.
process:
for m=1 to M; //迭代次數M
Dm=Bootstrap(D);
//使用訓練集TS進行m次采樣
Gm=C(Dm);
//采樣集Dm訓練第m個分類器
end for
//TS結果
研究目的在于根據神東礦區煤灰的成分預測灰熔點,即建立以灰成分SiO2、Al2O3、Fe2O3、MgO、CaO、Na2O、K2O、TiO2為輸入量,灰的軟化溫度(ST)和流動溫度(FT)為輸出量的集成CHAID算法預測模型。因此,需分析煤灰成分中各組分的含量以及各組分與煤灰熔融溫度之間的相關性,對算法預測模型進行訓練和檢驗。
煤種數據來源于安徽理工大學灰化學實驗室測定的神東礦區煤種數據以及前人的研究數據。
采用灰錐法測定灰熔點,按照GB 474-2008制備煤樣,將煤樣放置在馬弗爐中按照GB 212-77在815 ℃下制成煤灰樣。根據國標GB/T 219-2008規定的煤灰熔融性測定方法,將煤灰制成三角錐體,把灰錐放置在灰錐托板上,再將托板固定在剛玉舟上,放置進湖南開元儀器公司生產的5E-AF3000智能灰熔融性測試儀中測定灰熔融溫度[7]。測定的神東礦區部分煤的灰成分和灰熔點如表2所示。

表2 神東礦區部分煤灰成分、ST和FTTable 2 Ash composition, ST and FT of partial coal at Shengdong mining area
神東礦區煤灰成分含量中鋁含量比較低,這也導致了神東礦區的煤灰熔融溫度偏低,酸堿比在0.17~1.10之間波動,通過酸堿比與煤灰熔融溫度之間的關系來看,酸堿比小的煤灰熔融溫度相對偏高。
本文采集了來自于神東礦區的100個煤灰灰成分數據,在訓練集成CHAID決策樹模型之前,對這100個煤灰灰成分數據進行數據相關性的分析,其實現方法為皮爾遜相關系數法,得到的煤灰灰成分與ST、FT的相關性見圖2,圖3所示。

圖2 神東礦區煤灰成分與ST之間的相關性指數圖Fig.2 Correlation index between coal ash composition and ST at Shendong mining area

圖3 神東礦區煤灰成分與FT之間的相關性指數圖Fig.3 Correlation index between coal ash composition and FT at Shendong mining area
由圖2,圖3可知,神東礦區煤灰組分中Al2O3與ST和FT之間的相關性指數均為0.62,呈現強相關,TiO2與ST和FT之間的相關性指數分別為0.51和0.55,均呈現中等強度相關;而Fe2O3與FT之間的相關性指數達到-0.63,呈現強相關,Fe2O3與ST之間的相關性指數僅為-0.52,呈現中等強度相關[17]。
集成CHAID決策樹模型輸入量為神東礦區煤灰的8種成分,輸出量為煤灰的2個特征溫度,即煤灰的軟化溫度和流動溫度。為了避免原始數據對模型訓練精準度的干擾[18],將100個神東礦區煤灰成分及特征溫度數據隨機劃分為60%測試集和40%驗證集,使用Bagging集成10棵CHAID決策樹,每棵CHAID決策樹的最大樹深度設置為默認值5,模型收斂的最大迭代次數設為100次,目標中止規則使用百分比約束,當父分支中的最小記錄數為2,子分支中的最小記錄數為1時,模型停止訓練。集成CHAID決策樹模型的訓練和檢驗通過SPSS分析軟件實現。
為評估Bagging集成CHAID決策樹模型的可靠性和預測精度,利用訓練好的模型對訓練樣本和檢驗樣本的特征溫度進行預測,并采用平均絕對誤差(MAE),標準差(SD),線性相關系數R對模型的預測結果進行分析,分別定義如下:
(3)
(4)

根據前面CHAID決策樹最大樹深度確定方法進行實驗,考察CHAID決策樹最大樹深度對模型預測性能的影響。對不同最大樹深度的模型均進行10次重復實驗,實驗目標誤差設為0.0001,實驗結果如圖4所示。

圖4 不同最大樹深度層數的模型對ST和FT的預測性能Fig.4 Performance of models with different maximum tree depth levels for ST and FT
從圖4可知:隨CHAID決策樹最大樹深度增加,模型預測結果的R值不斷增大,并最終趨于定值,收斂速率逐漸變慢,當CHAID決策樹最大樹深度為5時,預測ST的R值達到最大值,為0.958,預測FT的R值同樣達到最大值,為0.976,此時收斂速率最慢。這表明訓練的時候生成的樹層數越多,預測精度越高。但是達到一個臨界值后可能會略有下降,這可能是因為過多的樹深度會生成更多的樹節點,導致分類的準確度下降的原因。因此,最大樹深度的取值也不是越大越好[19],綜合模型預測精度和收斂速率,最佳的最大樹深度為5。所以,集成CHAID決策樹預測模型的最大樹深度設置為5。
通過對CHAID決策樹最大樹深度對模型的影響分析后,進而考察CHAID決策樹的個數對模型預測性能的影響,對不同決策樹個數的模型進行10次重復實驗,實驗目標誤差設為0.0001,實驗結果如圖5所示。

圖5 不同決策樹個數的模型對ST和FT的預測性能Fig.5 Performance of models with different numbers of decision trees for ST and FT
從圖5可知:隨CHAID決策樹的個數增加,模型預測結果的R值不斷增大,模型預測精度逐漸提高并最終趨于穩定,當CHAID決策樹個數為10時,R達到了最大值,為0.976。這表明訓練的時候生成的決策樹個數越多,預測精度越高。但是因為數據集個數的限制,導致決策樹的個數增加到一定量時,對預測精度的提升沒有很大變化[20]。因此,對于CHAID決策樹個數的取值也不是越大越好,綜合模型預測精度和效果,對于本文的數據集來說,最佳的CHAID決策樹個數為10。所以,使用Bagging集成10棵CHAID決策樹進行模型的搭建。
為了驗證集成CHAID決策樹模型的預測性能,利用40個檢驗樣本對其進行檢驗,效果如圖6,圖7所示。

圖6 ST預測線性回歸分析結果Fig.6 Linear regression analysis results of ST prediction
圖6和圖7表示實際測量的ST和FT與模型預測ST和FT的相關程度,回歸線為樣本的實際測量溫度,樣本點為模型的預測溫度,圖6為模型預測ST的線性回歸分析結果,線性回歸相關系數為0.958,表明8個變量與ST有較好的線性相關性,圖7為模型預測FT的線性回歸分析結果,線性回歸相關系數為0.976,表明8個變量與FT有極好的線性相關性,模型對FT的預測效果略好于對ST的預測。

圖7 FT預測線性回歸分析結果Fig.7 Linear regression analysis results of FT prediction

表3 模型對ST與FT預測結果的平均絕對誤差與標準差的比較分析Table 3 Comparative analysis of mean absolute error and standard deviation of ST and FT prediction results by model
如上表所示,模型對于ST的預測誤差范圍在-43.879~63.867 ℃且對于FT的預測誤差范圍在-51.987~41.903 ℃,符合國家標準的-80~80 ℃的條件,說明本模型的預測效果較好,驗證了其實用性能;模型對于預測ST的平均絕對誤差為14.928,預測FT的平均絕對誤差為12.238,說明預測結果與真實數據集的接近程度很小,模型的擬合效果較好;模型對于預測ST的標準差為19.406,預測FT的標準差為16.308,說明模型的誤差波動較低,模型的穩定性較高,總體來看,模型對于FT的預測效果略好于預測ST。

圖8 灰流動溫度與液相線溫度之間的關系[21]Fig.8 Relationship of FT and LT

圖8為FactSage軟件建立的液相線溫度與FT之間的相關性程度,從圖8中回歸線與樣本點之間的離散程度與圖7中的回歸線與樣本點之間的離散程度相比,Bagging集成CHAID決策樹模型對于FT的預測效果更好,樣本預測值更接近于實測值,預測精度高,泛化能力更強。
本研究以神東礦區煤灰成分中8種成分為自變量,ST和FT為因變量,建立了基于集成CHAID決策樹算法的神東礦區煤灰熔融溫度預測模型,很好的實現了灰熔融溫度的預測,通過分析總結出以下結果:
(1)Bagging集成決策樹的最大樹深度以及決策樹個數對模型的預測精度有較大影響,對本文數據集來說,集成CHAID決策樹預測模型的最大樹深度設置為5,且決策樹個數設置為10時,對樣本的預測效果最好。
(2)因本文模型訓練樣本數量為小樣本,對于小樣本數據集來說,Bagging集成CHAID決策樹模型對ST與FT的預測精度都很高,對于ST的線性擬合的擬合度達到了0.958,對于FT的線性擬合的擬合度達到了0.976,說明模型對于FT的計算效率相比對于ST的計算效率更高,預測精度和泛化能力更強,適合對小樣本FT預測。
(3)與多元線性擬合回歸公式和FactSage軟件建立公式相比,本文中的Bagging集成CHAID決策樹模型對于ST與FT的預測相關性指數分別達到了0.958和0.976,比多元線性擬合回歸公式的0.934和FactSage軟件建立公式的0.924的相關性數值都要高,說明本文建立的模型預測精度要優于多元線性擬合回歸公式和FactSage軟件建立公式。
(4)利用Bagging集成決策樹預測模型,可以為煤氣化企業的氣化爐運行等提供較精確的灰熔融溫度預測,從而減輕并且抑制氣化爐結渣,對氣化爐的安全穩定運行提供重要指導。