趙先枝, 陳軍林
(1. 內蒙古煤炭地質勘查(集團)一五三有限公司,內蒙古 呼和浩特 010010;2. 中國地質大學(北京) 地球科學與資源學院,北京 100083))
煤炭發熱量是評價煤質的關鍵指標,對于煤炭利用、煤炭價值評估等非常重要[1]。精確的煤炭發熱量數據需要通過實驗測試得到,但煤炭發熱量的實驗測定在當前技術條件下較繁瑣、耗時且昂貴[2]。在對煤炭發熱量精度要求不高的情況下,通常通過建立數學模型,利用測試相對廉價且容易獲取的指標來預測煤炭發熱量。在煤炭發熱量預測方面,前人提出了線性回歸[3-4]、BP神經網絡[5]、支持向量回歸[6-7]等方法。其中實際應用最廣泛的是線性回歸,該方法模型簡單、計算快速,但存在以下問題:對于非線性數據擬合能力欠佳,難以表達較為復雜的自變量和因變量關系;需要數據服從特定的分布假設;對異常值敏感。
分位數回歸是Roger Koenker和Gilbert Bassett于1978年提出的一種回歸分析方法[8],經過不斷發展形成了線性分位數回歸、神經網絡分位數回歸、分位數回歸森林等方法。分位數回歸具有如下優點:不需要對數據做任何的分布假定;具有對異常點不敏感的特征;模型比較穩健;能夠給出比傳統回歸分析更豐富的預測結果;可用來研究自變量與因變量之間的關系。目前關于分位數回歸在煤炭發熱量預測方面的應用研究較少。本文采用線性分位數回歸和分位數回歸森林2種分位數回歸分析方法對煤炭發熱量進行預測,分析各預測變量對結果變量的影響,并與傳統線性回歸方法進行對比,分析不同回歸分析方法在煤炭發熱量預測中的效果。
為建立可靠的數學模型,需要充足的數據來進行回歸模型訓練和測試。美國地質調查局的COALQUAL(https://ncrdspublic.er.usgs.gov/coalqual/)煤炭質量數據庫[9]包含了美國25個州的煤質樣品測試數據,數據量大且煤質分析指標較全面,可以公開使用。本文從該數據庫中選取煤質工業分析數據和元素分析數據組成數據集,考慮到實際應用中更多地使用工業分析數據進行發熱量計算,選取煤炭的全水分Mt、灰分Asd、揮發分Vad3個工業分析指標來進行回歸分析,計算低位發熱量Qnet,ad。
數據集中一些數據存在空值、異常值等問題,因此在回歸分析之前,需要進行數據預處理,剔除包含空值的數據,刪除明顯在正常煤質指標范圍之外的異常數據。經過數據預處理得到4 540個煤質樣品測試數據,其中80%的數據用來訓練回歸模型,其余數據用來測試回歸模型。
線性回歸方程為

式中:yi為第i(i=1,2,…,n,n為樣本個數)個樣本的因變量; β0為常數項; βj為第j(j=1,2,…,p,p為自變量個數)個自變量的回歸系數;xij為第i個樣本的第j個自變量。
通過已知的自變量和因變量求解式(1)中的常數項和回歸系數,得到自變量和因變量之間的函數關系,利用該函數關系可對新的樣本進行預測。
線性分位數回歸是線性回歸的擴展,其方程與線性回歸方程相似:

式中:τ為分位點,取值范圍為0~1;Qτ(yi)為因變量yi的τ分位數估計值; β0(τ)為 常數項; βj(τ)為第j個自變量的τ分位數回歸系數。
通過使中值絕對偏差達到最小來找到最佳的分位數回歸線。

式中:M為中值絕對偏差; ρτ為檢查函數。
檢查函數根據誤差的分位數和符號(正或負)為誤差賦予不對稱權重。

式中μ為單個數據點的誤差。
傳統線性回歸分析預測的結果是因變量的條件期望,分位數回歸的預測結果則是因變量的條件分位數,不同分位點對應不同的條件分位數估計值[10],多個條件分位數估計值構成了因變量的條件概率分布[11]。
由線性回歸擴展得到的線性分位數回歸能處理的問題有限,預測結果往往精度不高。近年來有許多學者將分位數回歸思想應用到機器學習算法中[12-14],如將分位數回歸與隨機森林[15]結合,形成了分位數回歸森林方法。該方法繼承了隨機森林算法抗過擬合能力強、穩定性高、無需復雜調參、可處理非線性回歸問題等優點。其計算過程如下:
(1) 生成多棵決策樹,存儲每棵決策樹每個葉節點的所有觀測值。
(2) 給定觀測變量x,遍歷所有決策樹,計算每棵決策樹觀測值的權重wi(x)。
(3) 對于所有y∈R,利用權重wi(x)計算分布函數的估計:

式中:X為自變量矩陣;I(·)為示性函數;Y為決策樹節點上的因變量觀測值。
(4) 計算條件分位數的估計值:

式中inf{·}為取下限函數。
回歸模型需要先確定輸入變量集,以確保所使用的自變量能夠反映因變量的變化,同時自變量之間能夠排除多重共線性。不同自變量之間及其與發熱量之間的關系可用相關系數(表1)來表示。從表1可看出,Mt與Qnet,ad之間的相關性很高,且呈負相關,說明該指標是回歸分析預測發熱量的主要指標。而Vad,Asd與Qnet,ad的相關系數均較小,說明這2個指標對于發熱量預測的重要性遠低于Mt。Mt,Vad,Asd3個預測變量之間的相關性也較小,則可同時使用Mt,Vad,Asd來構建回歸模型。因此,發熱量預測模型以Mt,Vad,Asd為預測變量,以Qnet,ad為結果變量。

表1 煤質參數相關系數Table 1 Correlation coefficients of coal quality parameters
利用訓練數據訓練線性回歸模型,得到回歸方程:Qnet,ad=37.736-0.087Vad-0.647Mt-0.387Asd。對線性回歸方程進行檢驗,得到方差膨脹因子小于10,表明自變量之間不存在多重共線性,且回歸方程F檢驗顯示回歸效果顯著。
用測試數據對訓練好的線性回歸模型進行驗證。選取9個分位點(τ=0.1~0.9),利用R語言軟件包quantreg,quantregForest分別執行線性分位數回歸、分位數回歸森林,采用均方誤差、平均絕對誤差、均方根誤差和決定系數4個指標來評價回歸分析結果,得到不同回歸模型評價結果,見表2。

表2 不同回歸模型評價結果Table 2 Evaluation results of different regression models
從表2可看出,不同回歸分析方法得到的結果有一定差別,但決定系數均在0.96以上(τ= 0.5時),說明用Mt,Vad,Asd3個指標來預測煤炭低位發熱量是可行的,能夠得到較為可信的發熱量預測值。分位數回歸森林方法的預測誤差隨分位點增大呈先減小后增大趨勢,在τ= 0.5處預測誤差最小,且決定系數最大達0.984,預測效果優于線性回歸和線性分位數回歸方法。
不同回歸分析方法下回歸擬合線如圖1所示。可看出線性回歸擬合線為1條,且穿過數據點分布范圍的中心,反映的是數據點的平均趨勢,但僅1條線無法限定數據點的分布范圍;分位數回歸擬合線為多條,大部分數據點分布在τ= 0.1和τ= 0.9對應的2條擬合線之間的范圍內(未包括在該范圍內的數據點為異常點)。由此可知,線性回歸給出的預測值是1個均值,而通過分位數回歸能夠給出預測值的范圍,在評估煤質時更具有實際意義。

圖1 不同回歸分析方法下回歸擬合線Fig. 1 Regression fitting lines under different regression analysis methods
通過線性分位數回歸可計算出不同分位點對應的回歸系數,見表3。
為研究不同預測變量對結果變量的影響,根據表3可得線性分位數回歸系數隨分位點變化曲線,如圖2所示。可看出Mt回歸系數隨分位點增大呈增大趨勢,其絕對值則越來越小,說明Mt對低發熱量煤炭的發熱量預測影響大,對高發熱量煤炭的發熱量預測影響小。Vad和Asd的回歸系數隨分位點增大呈先減小后略增大趨勢,其絕對值則先增大后稍有減小,說明Vad和Asd對低發熱量煤炭的發熱量預測影響小,對高發熱量煤炭的發熱量預測影響大。

表3 不同分位點下線性分位數回歸系數Table 3 Linear quantile regression coefficients under different quantiles

圖2 線性分位數回歸系數隨分位點變化曲線Fig. 2 Variation curves of linear quantile regression coefficients with quantiles
(1) 應用線性回歸、線性分位數回歸、分位數回歸森林3種回歸分析方法進行了煤炭發熱量預測,其中分位數回歸森林的預測誤差最小。
(2) 分位數回歸方法能夠預測煤炭發熱量的條件分位數,而不僅僅是條件均值,從而為煤炭發熱量預測提供了更豐富的信息。
(3) 根據煤質參數相關系數評估全水分、灰分、揮發分對于煤炭發熱量預測的重要程度,結果表明全水分對于煤炭發熱量預測的重要程度遠大于灰分和揮發分。
(4) 利用線性分位數回歸分析了全水分、灰分、揮發分對煤炭發熱量預測的影響,結果表明:全水分對低發熱量煤炭的發熱量預測影響大,對高發熱量煤炭的發熱量預測影響小;揮發分和灰分對低發熱量煤炭的發熱量預測影響小,對高發熱量煤炭的發熱量預測影響大。