張 瑞 李雅梅
(遼寧工程技術大學電氣與控制工程學院 遼寧 葫蘆島 125105)
瓦斯是引發煤礦安全事故的主要因素之一。瓦斯涌出量的精確預測,是預防煤礦瓦斯事故的重要前提。針對此項工作,已有眾多學者提出了較為有效的預測方法,如:礦山統計法、瓦斯地質數學模型法、分源預測法等線性瓦斯預測方法,以及卡爾曼濾波法、神經網絡預測法、灰色系統法、主成分回歸分析法、聚類分析法等非線性瓦斯預測方法。但上述預測模型也存在著一定的缺陷,如:神經網絡模型需要選擇模型及參數,存在著收斂速度慢等缺點[1];灰色理論預測當原始數據序列波動大并且信息過于分散時,預測精度將會降低[2];聚類分析法中隸屬度的確定受人為因素影響較大[3]。且上述各種方法都不能很好地解決實際工作中普遍存在的變量之間多重共線性問題[4]。
針對以上現狀,提出基于主成分分析PCA與雙層狼群算法LWCA優化最小二乘支持向量機LS-SVM相耦合的預測模型。該模型首先引入PCA對數據進行降維處理,保留絕大部分信息的同時,降低了數據的維度。然后利用LS-SVM求解速度快、泛化能力強的特點[5]對瓦斯涌出量進行預測。為了進一步提升預測模型的性能,借鑒文獻[6]利用LWCA優化Elman神經網絡ENN(Elman Neural Network)參數的思想,采用LWCA來優化LS-SVM的參數,改善了傳統的群體智能算法收斂速度慢,易陷入局部最優解等問題[7],在簡化了模型求解過程的同時提高了模型的預測精度。同時由于利用LS-SVM進行瓦斯涌出量的預測,改善了神經網絡需要大量訓練樣本及訓練時間長的缺點。
在瓦斯涌出量預測過程中,多個影響因素之間常具有多重共線性,此將會對模型的建立及其預測性能造成不利影響。利用PCA算法對其進行處理,可改善此問題。同時由于主成分貢獻率較小的特征向量往往與噪聲有關,因此也可起到一定的去噪效果[8]。采用PCA處理后的數據,既保留了原數據的大部分信息,又能夠降低數據的維度,從而降低問題的復雜性。
PCA降維步驟如下:
將含有k個樣本,且每個樣本具有n個特征x1,x2,…,xn的數據集表示為矩陣形式:
(1)
Step1對式(1)進行標準化處理:
(2)

Step2計算樣本相關系數矩陣:
(3)

Step3計算R的特征值(λ1,λ2,…,λn),特征向量αi=(αi1,αi2,…,αin),i=1,2,…,n。
Step4利用步驟3中獲取的特征向量αi=(αi1,αi2,…,αin),求得主成分:
Fi=αi1X1+αi2X2+…+αinXni=1,2,…,n
(4)
Step5利用主成分累計貢獻率確定需要采用的主成分個數:
(5)
由此便可利用以上步驟所獲得的主成分代替原始數據進行后續的處理。
LS-SVM從損失函數著手,在其優化問題的目標函數中使用二范數,并用等式約束替換不等式約束。從而縮短了SVM的學習時間,具有求解速度快,泛化能力強[9]的優勢。優化目標為:
(6)
s.t.yi=ωTφ(xi)+b+ζi
式中:c為正則化參數,它可以在模型的復雜程度和訓練誤差之間做一個折衷選擇,便于使所求的模型擁有較好的泛化能力。ζi為松弛變量。通過引入拉格朗日函數及KKT最優條件,得出LS-SVM的回歸模型:
(7)
式中:k(x,xi)為核函數,本文選取學習能力較強的高斯核函數[10]:
(8)
式中:σ為核寬度。
當通過交叉驗證CV(Cross Validation)的方式來取得LS-SVM參數c與σ的值時,不能保證所獲取的參數為全局最優,從而不能充分發揮模型的性能。因此本文利用LWCA的全局尋優能力及收斂速度快等優點來獲取LS-SVM回歸模型的最優參數。
LWCA是模擬狼群捕食過程而提出的一種算法,由于其采用勝者為王和強者生存的法則,使其具有良好的全局尋優能力及快速的收斂速度[11],其規則如下:
1) 初始化狼群。
首先建立由N匹狼組成的狼群,令狼群中的個體隨機分布在搜索空間內。
Xi=(xi1,xi2,…,xid) 1≤i≤N,1≤d≤D
xid=xmin+rand×(xmax-xmin)
(9)
式中:rand為均勻分布在[0,1]中的隨機數,xmax、xmin為搜索空間的上下界。
2) 首狼的選取。
首先在狼群中選出適應值最優的q匹競選狼,競選狼在h個方向中的第j個點第d維的位置更新為:
yjd=xxid+rand×stepa
(10)
式中:rand為均勻分布在[-1,1]內的隨機數;stepa為搜索步長;xxid為競選狼,1≤j≤h。
3) 向首狼移動。
由于首狼最為接近獵物,所以參照首狼位置,其他狼向首狼移動,其他狼的位置更新公式為:
zid=xid+rand×stepb×(xld-xid)
(11)
式中:rand為均勻分布于[-1,1]的隨機數,stepb為移動步長,xld為首狼位置,xid為其他狼當前的位置。
4) 種群包圍。
首狼找到獵物后,通知其他狼對獵物進行包圍:
(12)

5) 越界處理。
(13)
在搜索的初期,為盡快尋找到全局最優的鄰域,狼群采用較大的包圍步長,在到達最優鄰域的附近后,個體減小包圍步長,以進行局部的搜索。步長計算公式如下:

(14)
式中:maxt為最大迭代次數,ramax為最大的包圍步長,ramin為最小包圍步長。
狼群按照以上規則搜索獵物,每輪迭代完成后,采用淘汰適應值最差的m個個體,再以隨機的方式生成m個個體的方式對狼群進行更新。此算法可以精確、快速地搜尋到全局最優解。
首先利用PCA對數據進行降維處理。而后通過LWCA對LS-SVM回歸模型的參數進行全局尋優以提升其性能。
以下式作為衡量狼群個體適應度的標準:
J(xi)=-RMSE
(15)
式中:RMSE為模型的訓練均方根誤差,其定義如下誤差越小,狼群個體的適應度越好。
(16)

在建立預測模型的過程中,以狼群的個體代表LS-SVM的正則化參數c與核參數σ,根據式(15)確定的適應值來衡量狼群位置的優劣。
模型的建立步驟如下:
Step1對狼群進行初始化,令其規模為N,最大迭代次數為maxt,競選狼個數q,搜索方向h,競選狼的最大搜索次數maxdh,搜索步長stepa,移動步長stepb,最大最小包圍步長ramax、ramin及最差狼群個數m,通過式(9)初始化狼群的位置分布。
Step2初始化LS-SVM的正則化參數c與核參數σ,并將其映射至狼群個體。
Step3輸入經過PCA降維的訓練樣本。
Step4利用式(15)計算狼群個體的適應值,狼群根據適應值進行迭代尋優。
Step5當模型達到要求的精度或達到最大迭代次數時停止訓練。通過適應度最優的狼群的位置,獲取LS-SVM的參數,從而獲得預測模型。
選取煤層深度、煤層厚度、煤層傾角、開采層原始瓦斯含量、煤層間距、采高、臨近層瓦斯含量、臨近層厚度、層間巖性、工作面長度、推進速度、采出率、日產量,共13個對瓦斯涌出量影響較大的因素作為模型的輸入變量。
采用沈陽某煤礦2015年間瓦斯涌出量的檢測數據來驗證本文提出的模型的性能。共選取30組數據作為樣本集,其中前20組數據作為本文模型的訓練樣本集,其余10組作為測試樣本。
利用spss軟件對現場獲取的數據進行PCA降維處理,將所得數據列于表1、表2。

表1 特征值累積貢獻率

表2 成分矩陣
由于前三個主成分的累積貢獻率為86.187%,大于85%,根據主成分選取原則[12],選取前三個主成分。

表3 降維后樣本集
將測試樣本應用于PCA-LWCA-LS-SVM 預測模型中。初始化狼群,經多次實驗,最終狼群算法的參數的設置如表4所示。

表4 狼群算法參數設置
利用MATLAB軟件對本文提出的模型進行仿真實驗,表3中測試樣本的{F1,F2,F3}對應模型的輸入,將所獲得預測結果列于表5。

表5 PCA-LWCA-LS-SVM預測結果
為進一步檢驗文中所提模型性能,將其與LS-SVM預測模型、PCA與遺傳算法優化的LS-SVM相耦合的預測模型進行對比。各模型獲得的預測結果相對誤差見圖1。

圖1 預測結果相對誤差
取三種模型預測的最大相對誤差、最小相對誤差、平均相對誤差,列于表6。

表6 預測結果比較
以上結果表明,PCA-LWCA-LS-SVM 預測模型預測精度高、泛化能力強,可以有效地預測回采工作面瓦斯涌出量。
本文提出的基于PCA-LWCA-LS-SVM的瓦斯預測模型,利用主成分分析法對高維的原始數據進行降維處理,提取出數據的主要信息,同時緩解了瓦斯涌出量影響因素間的多重共線性對模型帶來的不利影響。然后利用LWCA對LS-SVM的參數進行全局尋優。該方法在簡化模型求解過程的同時,又提高了模型的性能。采用實際工程中獲取的數據對該模型進行驗證,結果顯示該模型具有良好的泛化能力及較高的預測精度,可有效地對瓦斯涌出量進行預測。