(1.廣東商學院 數學與計算科學學院 廣州 510320; 2.中山大學 數學與計算科學學院 廣州 510275)
摘 要:提出一種新的模糊隸屬度函數對標準模糊支持向量機進行改進,然后運用自適應遺傳算法對改進后的模糊支持向量機進行參數優選,得到一種新的AGAIFSVM模型,并且將提出的模型應用于煤與瓦斯突出預測。實驗結果表明,所提出的模型比BP神經網絡、標準支持向量機和模糊聚類有更高預測精度和更強的穩定性,具有較大的實用價值。
關鍵詞:模糊支持向量機; 自適應遺傳算法; 煤與瓦斯突出; 預測
中圖分類號:TP18; TP39文獻標志碼:A
文章編號:1001-3695(2009)05-1656-03
Forecasting coal and gas outburst based on improved
adaptive support vector machine
DAI Hongliang1,2
(1.School of Mathematics Computational Science Guangdong University of Business Studies Guangzhou 510320 China; 2. School of Mathematics Computational Science Sun Yatsen University Guangzhou 510275 China)
Abstract:This paper proposed a new fuzzy function to improve on standard FSVM also proposed a novel AGAIFSVM model.The model based on adaptive genetic algorithm to optimize the parameters of FSVM. In addition applied the model to forecast coal and gas outburst. Experimental results show that AGAIFSVM model performs better than BP neural networks,standard SVM and fuzzy clustering method implying that AGAIFSVM is very practical.
Key words:fuzzy support vector machine; adaptive genetic algorithm; coal and gas outburst; forecasting
0 引言
煤與瓦斯突出是發生在煤礦井下的一種復雜的地質災害。影響煤與瓦斯突出的因素很多,并且突出是一個復雜的動力學過程,它受到瓦斯、地應力和煤物理力學性質三個因素的綜合作用,可能至今還存在未被認識到的因素的影響。因此,影響煤與瓦斯突出的主要因素是不確定的,煤與瓦斯的突出危險性預測可視為一個多因素決定的模糊事件[1~3]。目前,國內外有關煤與瓦斯突出預測方法很多,大體上可以歸為三類:a)基于經驗知識的預測方法[4],這種方法主要取決于人類專家的理論知識和實踐經驗之可靠程度;b)基于黑箱理論的預測方法[5~7],這種方法強調在現有輸入條件下輸出結果的正確性,但容易導致過擬合;c)基于數學模型的預測方法[8~10],這種方法依賴數學模型的完備性和建模指標的選擇等,主觀因素影響較大。
本文根據煤與瓦斯突出的不確定性、非線性和模糊性等特性,提出一種新的機器學習方法來進行煤與瓦斯突出預測研究。該方法是通過自適應遺傳算法(adaptive genetic algorithms,AGA)進行參數優選的改進模糊支持向量機(improved on fuzzy support vector machine,IFSVM)算法。眾所周知,支持向量機(support vector machine,SVM)是Vapnik等人提出的一類新型機器學習方法,由于其出色的學習性能,該技術已成為機器學習界的研究熱點,并且在很多領域得到了成功的應用[11],但是其參數調節問題仍然沒有很好地解決。模糊支持向量機通過引入模糊隸屬度函數,不僅解決了標準支持向量機的不可分問題,而且通過對每個樣本引入隸屬度來確定模糊性,使分類更加精確[12]。本文根據煤與瓦斯的復雜特性引進一個新的時間域指數隸屬度分布函數對標準模糊支持向量機進行改進;然后采用自適應遺傳算法對改進的模糊支持向量機進行參數優選,得到一種新的模型——AGAIFSVM模型;最后把新的模型應用于煤與瓦斯突出的預測。實驗結果表明,本文所提出的模型與標準支持向量機、BP神經網絡和模糊聚類方法相比較,其結果分類準確率高、預測結果真實可靠,是一種有效的方法。
本文簡要介紹了基于模糊支持向量機煤與瓦斯突出預測原理和自適應遺傳算法,建立了AGAIFSVM模型,并且應用于煤與瓦斯突出預測。
1 基于模糊支持向量機的煤與瓦斯突出預測原理
1.1 模糊支持向量機算法
設訓練集為S={(x1,y1,s1),…,(xl,yl,sl)}。其中:xi∈Rn;yi∈{-1,1};σ≤si≤1,σ≥0,si(i=1,…,l)為模糊隸屬度。模糊支持向量機的原始問題為
minω,b,ξ 1/2‖ω‖2+C ∑lj=1 siξi
s.t. yj((ω#8226;xi)+b)+ξi≥1ξi≥0,j=1,…,l(1)
其中:C>0是懲罰參數;si是訓練點(xi,yi,si)隸屬于某一類的程度。
由拉格朗日乘數法可求得二次規劃式(1)的對偶規劃為
minα 1/2 ∑li=1 ∑lj=1 yiyjαiαj(xi#8226;xj)-∑li=1αi
s.t. ∑li=1yiαi=0;0≤αi≤siC,i=1,…,l(2)
解得對偶規劃式(2)的最優解α=(a1,…,αl)T。
對于非線性問題,引入核函數K(xi,xj),可以得到如式(3)的結果:
f(x)=sgn∑li=1αiyiK(xi,xj)+b,x∈Rn
(3)
其中:b=yi-∑li=1yiαiK(xi,xj),i∈{0<αi<siC}。
1.2 煤與瓦斯突出模糊隸屬度函數
煤與瓦斯數據具備爆發性、多時間標度等特點,其測量往往是多點測量,所得到的數據往往存在時間、空間上的關聯,并且對于煤與瓦斯樣本序列,一般來說各歷史數據的重要程度及對未來數據的影響是由遠到近逐漸增大的。因此,為了體現重近輕遠的預測原則,可以對歷史樣本數據進行模糊化,根據歷史樣本在時間域的位置賦予不同的隸屬度,即近期樣本數據隸屬度較大,遠期樣本隸屬度小,這樣便能強化近期過程樣本的作用,弱化遠期歷史數據的影響。針對煤與瓦斯突出問題,本文采用時間域的指數隸屬分布,可以由式(4)確定。
si=a(1-a)l-i(4)
其中:a為指數系數,且滿足0<a<1,i=1,2,…,l。
1.3 核函數
在機器學習理論中,流行核函數,如高斯核函數已被證明能夠提供好的泛化能力[13]。因此,本文采用高斯核函數K(xi,xj)=exp (-(‖xi-xj‖2)/(2σ2))作為FSVM的核函數。
1.4 基于IFSVM的煤與瓦斯突出預測原理
影響煤與瓦斯突出的因素很多,取m個因素進行研究,可以把這m個因素作為FSVM數據樣本的主要特征。根據《防治煤與瓦斯突出細則》規定及相關資料[14],本文將煤與瓦斯突出危險性分為安全、突出危險和突出威脅三個等級。因此,煤與瓦斯突出預測屬于多類分類問題。IFSVM多類分類算法主要有一對一(one against one,OAO)和一對多(one against all,OAA)兩種。兩種方法各有特點,OAO運算精度高,但是計算復雜,OAA計算較為簡單,同時也可以保證運算精度[12]。本文選取OAA算法作為本文的分類算法。
2 自適應遺傳算法
自適應遺傳算法可以解決傳統的遺傳算法所帶來的早熟問題和進化緩慢問題,采用交叉概率和變異概率根據適應度值進行自動調整的自適應遺傳算法,具有很強的搜索能力,能夠尋找全局最優解[15]。IFSVM共有C、σ、a三個參數。運用自適應遺傳算法對上述三個參數進行優選,使得分類精度最高。
2.1 適應度函數
本文的適應度函數定義為訓練數據上的5fold交叉驗證后的平均正確率值,即
f=CRcross validation(5)
CRcross validation=p/l×100%(6)
其中:CR表示分類精度;l是訓練數據樣本的數目;p是正確分類的數目。
2.2 編碼方式
由于FSVM參數的尋優過程是一個復雜的連續參數優化問題,算法采用浮點數編碼方式。
2.3 選擇操作
本文采用基于排序的適應度分派原則。首先按照適應度值對種群內的個體進行排序,然后按式(7)確定i個個體被選擇的概率:
Pi=c(1-c)i-1(7)
其中:i為個體排序序號;c為排序第一的個體選擇概率。
2.4 交叉和變異操作
對于浮點數編碼的交叉操作采用線性組合的方式。例如以某一概率α對某兩個染色體Xa、Xb進行交叉操作時,可以采用如下方式:
Xa=αXa+(1-α)Xb(8)
Xb=αXb+(1-α)Xa(9)
變異操作通過改變染色體的步長來實現:
X=X+Pm(Xmax-Xmin)(10)
其中:Xmax和Xmin分別為待優化參數搜索空間的最大值和最小值。
交叉概率Pc和變異概率Pm由下面自適應度遺傳算法來進行選擇:
Pc=Pc1-(Pc1-Pc2)(f′-favg)/(fmax-favg) f′≥favg
Pc1f′<favg(11)
Pm=Pm1-(Pm1-Pm2)(fmax-f)/(fmax-favg) f′≥favg
Pm1f′<favg(12)
其中:Pc1=0,9,Pc2=0.6,Pm1=0.1,Pm2=0.001; fmax為群體中最大的適應度值; favg為每代群體的平均適應度值; f′為交叉的兩個個體中較大的適應度值; f為變異個體的適應度值。
進化代數按下式自適應變化:
Ptc=Pc1#8226;1-(t/tmax)2 Ptc>Pc2Pc2Ptc≤Pc2(13)
Ptm=Pm1#8226;exp(-λ#8226;t/tmax) Ptm>Pm2
Pm2Ptm≤Pm2(14)
其中:t為遺傳代數;tmax為最大遺傳代數;λ為常數,這里取為10。
當種群各個體適應度趨于一致或者局部最優時,使Pc和Pm增加;而當群體適應度比較分散時,使Pc和Pm減少。同時,對于適應度值高于群體平均適應度值的個體,對應于較低的Pc和Pm,使此解能夠被保護進入下一代;而低于平均適應度值的個體,對應于較高的Pc和Pm,此解被淘汰。因此,自適應的Pc和Pm能夠提供相對某個解的最佳Pc和Pm。自適應遺傳算法在保持群體多樣性的同時,保證遺傳算法的收斂性。
AGAIFSVM模型流程如圖1所示。
3 數據實驗
3.1 實驗1
3.1.1 數據收集
淮南礦業集團潘一礦131槽屬高度危險突出煤層[7]。該區域礦井瓦斯地質條件具有代表性,以該區域為例開展煤與瓦斯突出預測研究,研究成果具有推廣價值。選取測井視電阻率、測井咖嗎咖嗎值、測井咖嗎值、測井曲線識別的物理分層數、瓦斯含量、埋藏深度、煤層厚度、煤層傾角、頂板巖性、底板巖性10個特征作為煤與瓦斯突出的主要特征。樣本包括突出樣本和非突出樣本。根據實際發生了煤與瓦斯突出或有動力異常地點作為突出樣本;非突出樣本是根據采掘生產工作無動力現象和生產中實際預測指標較小而確定的。共確定26個突出樣本和34個非突出樣本作為訓練樣本和測試樣本。隨機抽取6個突出樣本和12個非突出樣本作為測試樣本,其他樣本作為訓練樣本。
3.1.2 數據標準化處理
對數據進行歸一化處理,也就是將全部數據線性映射到區間[0,1]。
3.1.3 實驗結果
本文采用MATLAB 7.2編程。按照圖1的流程運行。運行AGAIFSVM模型得到參數C=549,σ=0.05,a=0.21。標準SVM采用5fold交叉驗證得到參數C=100,σ=0.01。分類精度和標準誤差如表1所示。
3.2 實驗2
本實驗數據來自文獻[3],共選取22個樣本,取12個樣本作為訓練樣本,10個作為測試樣本。將瓦斯壓力、放散速度、地質構造、堅固系數、垂深五個指標作為數據的主要特征。對數據采用標準化處理,然后按照圖1的流程運行,運行AGAIFSVM模型得到參數C=837,σ=0.03,a=0.58。分類精度和標準誤差如表2所示。
3.3 實驗3
本實驗數據來自文獻[1],共選取38個樣本,取15個樣本作為訓練樣本,13個樣本作為測試樣本。對數據采用標準化處理,然后按照圖1的流程運行,運行AGAIFSVM模型得到參數C=485,σ=0.37,a=0.46。分類精度和標準誤差如表3所示。
從上面實驗結果可以看出,模糊聚類法相對比較保守;標準SVM和BP神經網絡都有較好的分類能力,可以在一定程度上彌補其缺陷。本文所提出的AGAIFSVM模型相對其他傳統方法而言,識別精度較高,具有較強的穩定性,是進行煤與瓦斯突出預測的一種有效方法。
4 結束語
基于AGAIFSVM的煤與瓦斯突出預測方法可將突出危險等級劃分為突出危險、突出威脅和安全三個等級,便于礦井生產的管理。而且模型預測結果精度較高、穩定性強,是一種有效的預測方法,可用于實時突出預報。
IFSVM能夠解決線性和非線性問題,不僅具備標準支持向量機的所有優點,而且通過對訓練數據增加模糊性,解決了標準支持向量機不可分問題,提高了分類精度。
運用自適應遺傳算法優選IFSVM參數,相對經驗選擇而言,速度快、效率高,是進行IFSVM參數優選的一種有效方法。
參考文獻:
[1]張子戌,劉高峰,呂閏生,等. 基于模糊模式識別的煤與瓦斯突出區域預測[J]. 煤炭學報,2007,32(6):592-595.
[2]張子戌,劉高峰,呂閏生,等. 基于模糊聚類分析和模糊模式識別的煤與瓦斯突出預測[J]. 煤田地質與勘探 2007,35(3):22-25.
[3]田云麗,周利華. 基于BP神經網絡的煤與瓦斯突出預測方法的研究[J]. 系統工程理論與實踐 2005,25(12):102-106.
[4]李勝,張宏偉. 煤與瓦斯突出區域預測信息系統開發[J]. 遼寧工程技術大學學報 2006,25(增):37-39.
[5]郝吉生. BP算法及其在煤與瓦斯突出預測中的應用[J]. 遼寧工程技術大學學報 2004,23(1):9-11.
[6]高雷阜. 煤與瓦斯突出災害的預測[J]. 遼寧工程技術大學學報 2002,21(4):408-410.
[7]臧大進,王耀才. 煤與瓦斯突出預測研究[J]. 計算機工程與設計 2007,28(12):2983-2987.
[8]南存全 ,馮夏庭. 基于SVM的煤與瓦斯突出區域預測研究[J]. 巖石力學與工程學報 2005,24(2):263-267.
[9]李中才,馮述虎. 集對分析法在煤與瓦斯突出綜合預測中的應用[J].西安科技大學學報 2007,27(1):134-137.
[10]梁新元. 因果圖在重大安全事故分析中的應用[J].計算機工程 2005,31(13):174-177.
[11]CRISTIANINI N SHAWETAYLOR J. An introduction to support vector machines and other kernelbased learning methods[M].Beijing:China Machine Press 2005.
[12]楊志民,劉廣利. 不確定性支持向量機原理及應用[M]. 北京:科學出版社,2007.
[13]CAMPBELL C. Kernel methods: a survey of current techniques[J]. Neurocomputing,2002,48(1/4): 63-84.
[14]梁運培,于不凡. 煤與瓦斯突出礦井分級技術[J].重慶大學學報:自然科學版,2001,24(5):70-74.
[15]HWANG G H KIM D W LEE J H,et al.An design of fuzzy power system stabilizer using adaptive evolutionary algorithm[J]. Engineering Applications of Artificial Intelligence,2008,21(1):86-96.