姜 偉,武 杰,任 鴿
(1.山西晉煤集團技術研究院有限責任公司,山西晉城048006;2.山西藍焰煤層氣集團有限責任公司,山西晉城048006)
·地質與礦業工程·
基于主成分分析和支持向量機的深部煤層含氣量預測
姜 偉*1,2,武 杰1,2,任 鴿1,2
(1.山西晉煤集團技術研究院有限責任公司,山西晉城048006;2.山西藍焰煤層氣集團有限責任公司,山西晉城048006)
為了探討深部煤層含氣量的有效預測方法,以晉城礦區3號煤層為對象,將支持向量機方法用于建立煤層含氣量預測模型。選取煤厚、鏡質組反射率,儲層溫度、儲層壓力、灰分含量、直接頂板厚度、埋深7個主要影響因素,用主成分分析法提取的影響因素的4個主成分因子以淺部數據為基礎,建立深部含氣量預測模型,并用檢驗樣本對預測模型進行檢驗。檢驗樣本的預測值與實測值相對誤差分別為0.46%、0.47%、0.44%、0.44%,說明主成分分析法與支持向量機方法結合的預測方法適合小樣本、多因素、非線性數據建模,為深部含氣量精確預測提供了新思路。
煤層氣;深部含氣量;預測;主成分分析;支持向量機
無論計算煤層氣資源量、資源豐度,還是進行有利區評價、制定勘探開發方案,煤層含氣量都是一個至關重要的的參數[1]。埋深大于800m的煤層地應力高,壓裂效果差,前期開發多以800m以淺區塊為主。隨著技術進步和后備區塊不足,800m以深區塊越來越受到重視,但由于取樣和測試費用高,樣品分析數量有限,且煤層含氣量分布不均衡,導致難以掌握深部煤層含氣量的分布特征,很多情況下只能對其進行預測。
目前含氣量預測的方法較多,但各有利弊。常規統計方法對樣本數量要求比較高,而在實際應用中樣本數目通常都是有限的。人工神經網絡存在需要事先定義網絡結構、容易陷入局部極小值、過度擬合等缺點。支持向量機(SVM)是結構風險最小化準則的一種近似方法,理論基礎是Vapnik創建的統計學習理論,主要針對有限樣本情況下的統計規律和學習方法[2],在小樣本、多因素、非線性數據建模方面應用廣泛[3-4]。建立煤層含氣量預測模型時,往往需要考慮許多影響因素[5],但不是輸入變量越豐富預測越準確。變量過多不僅會增加計算的復雜性,而且輸入變量所含信息有所重疊,會對預測精度和準確性產生影響[6]。主成分分析通過矩陣變換,能把多指標轉化為幾個主成分因子,減少信息重疊,是降低變量復雜程度的有效工具。因此,筆者嘗試建立基于主成分分析和支持向量機的組合預測模型,對煤層含氣量進行準確預測。基本思路:首先,構造含氣量影響因素的主成分因子,選取累計方差90%以上的幾個主成分因子為輸入變量,煤層含氣量為目標變量;然后,選取合適的支持向量機參數進行模型訓練,建立深部含氣量預測模型;最后,用檢驗樣本對預測模型進行檢驗。
主成分分析法是一種降維的數學方法,借助正交變換,將隨機向量轉化成一組相互無關的綜合變量,稱為主成分因子,每個主成分因子都是原有變量的線性組合。根據主成分因子方差大小進行排序,方差越大說明相應主成分因子包含的原始信息越多,使用時根據實際需要從中選取方差較大的主成分因子,累積方差達到90%時,就說明所選主成分因子包含了原始數據90%的信息。SVM算法做非線性回歸的基本思想是把輸入空間的數據x映射到一個高維特征空間中去,然后在這一高維空間做線性回歸。給定一數據點集G={( xi,yi)}ni=1,其中xi∈Rd是輸入變量,yi∈R是目標變量。通過訓練學習尋求模式 f(x),使其不但對于訓練樣本集滿足 yi=f(xi),而且對于預測數據集{xn+1,xn+2,…,xn+m}同樣能得到滿意的對應預測值,f(x)=[w?Φ(x)]+b,式中Φ(x)是從輸入空間到高維特征空間的非線性映射,w為權重向量,b為偏置項系數。b可根據Karush-Kuhn-Tucker條件計算,w可以通過引入ε不敏感損失函數,采用對偶理論、拉格朗日乘子法和核函數方法進行求解,通過選擇合適的核函數k(x,y)=Φ(x)·Φ(y),即可得出 f(x)的解析表達式[7]。
晉城礦區位于沁水復向斜南端,地層走向為NNENEE,傾向北西,伴生寬緩褶曲,煤層傾角2°~8°。區內斷層不發育,含煤地層為太原組和山西組,3號煤、15號煤為主要可采煤層[8]。3號煤層為晉城礦區目前的主要開采層位,煤厚5.7~6.4m,含氣量15.3~27.2m3/t。由于3號煤層孔隙度、等溫吸附試驗實驗數據少,水文地質條件、構造條件量化困難,給含氣量預測帶來了一定的困難。為了避開這些限制條件,本文選取3號煤層淺部煤厚、鏡質組最大反射率,儲層溫度、儲層壓力、灰分含量、直接頂板厚度、埋深7個影響因素,建立深部含氣量預測模型,以4個深部實測樣本數據對模型預測值進行檢驗。
首先,采用SPSS軟件主成分分析模塊,對表1的數據進行降維處理,具體操作方法參照[9]。篩選出4個主成分因子,方差貢獻率分別為49.20%、32.14%、7.65%、4.54%,累計方差貢獻率93.53%。在保留原始數據93.53%信息的前提下,達到了縮減變量、減少信息重疊的目的。然后,選取15個訓練樣本,以4個主成分因子為SVM模型的輸入項,應用Matlab軟件SVM工具箱進行預測模型訓練,選用徑向基核函數,結合模型中參數選取,對預測精度進行控制[10]。經過多次參數尋優運算,確認不靈敏參數ε、核函數參數γ、懲罰參數C分別為0.1、1、1000。最后,應用4個檢驗樣本對預測模型進行了檢驗,預測值相對誤差分別為0.46%、0.47%、0.44%、0.44%,能夠滿足生產實踐的精度要求。預測結果與神經網絡和線性回歸相比,精度高了一個數量級,SVM組合模型、神經網絡模型、線性回歸模型的預測精度依次降低。由于主成分因子的降維作用,7個變量變為4個綜合變量,復雜程度大大降低,模型建立速度提高了3倍以上。根據軟件擬合特點,當輸入樣本和變量個數增大時,這種速度優勢將更為明顯。體現出主成分分析與支持向量機相結合的預測方法對小樣本、多因素、非線性數據建模的適用性。

表1 晉城礦區3號煤層參數統計表
(1)含氣量的不同影響因素之間存在一定相關性,這種相關性對預測模型的建立、預測結果的準確性是不利的。利用主成分分析法提取線性無關主成分因子后再進行建模,變量復雜程度降低,建模速度更快,精度更高。而且支持向量機擁有嚴格的理論和數學基礎,采用結構風險最小化準則,不過分依賴樣本的數量和質量,對于小樣本、非線性數據建模預測更準確。
(2)選取15個各包含7個影響因素的樣本數據,運用主成分分析和SVM法建立組合模型,并用4個樣本對模型進行檢驗,預測值相對誤差分別為0.46%、0.47%、0.44%、0.44%,能夠滿足生產實踐需要,組合模型建模精度優于神經網絡模型和線性回歸模型。
(3)煤層含氣量影響因素眾多,相互關聯,是一個復雜的系統。本文僅選取了7個影響因素,沒有涉及水文地質、褶皺、斷裂、這些難于量化的因素以及孔隙率、孔隙結構等實驗室參數,是因為考慮到這7個參數容易獲得,方便計算。預測精度能夠滿足生產需要,說明這種方法可行。
[1]連承波,趙永軍,漢林,等.煤層含氣量的主控因素及定量預測[J].煤炭學報,2005,0(6):726-729.
[2] Vapnik V.The Nature of Statistical Learning Theory[M].New York:Springer,1995:10-45.
[3]耿艷,韓學山,韓力.基于最小二乘支持向量機的短期負荷預測[J].電網技術,2008,32(18):72-76.
[4]賈存良,吳海山,鞏敦衛.煤炭需求量預測的支持向量機模型[J].中國礦業大學學報,2007,36(1):108-110.
[5]孟召平,田永東,雷旸.煤層含氣量預測的BP神經網絡模型與應用[J].中國礦業大學學報,2008,37(4):456-461.
[6]林樹寬,張冬巖,李文賢,等.基于聚類和主成分分析的神經網絡預測模型[J].小型微型計算機系統,2005(12):2160-2163.
[7]方瑞明.支持向量機理論及其應用分析[M].北京:中國電力出版社,2007:28-29.
[8]李貴紅,張泓,張培河,等.晉城煤層氣分布和主導因素的再認識[J].煤炭學報,2010,35(10):1680-1685.
[9] 李成武,許延超.煤與瓦斯突出主要影響因素主成分分析[J].煤礦安全,2007,38(7):14-18.
[10]蘇高利,鄧芳萍.關于支持向量回歸機的模型選擇[J].科技通報,2006(3):154-158.
Prediction Model of Deep Coal Bed Gas Content Based on Principal ComponentAnalysis and Support Vector Machine
JIANG Wei1,2,WU Jie1,2,REN Ge1,2
(1.Shanxi Jinmei Group Technology Research Institute Co,Ltd, Jincheng Shanxi 048006,China;2.Shanxi Lanyan CBM Group Co. Ltd,Jincheng Shanxi 048006,China)
In order to predict deep coal seam gas content quantitatively,the support vector machine regression model was built. Based on the primary mineable coal bed in Jincheng mining area, we selected seven main controlling factors,including the thickness of coal seam,the vitirnite reflectance,the reservoir temperature and pressure,ash content,the direct carrying slab thickness,the buried depth.Four principal component factors were constructed using the principal component analysis method.With the four principal component factors,the deep content prediction model was established and tested.Three testing samples were used to check the model,the relative errors of predictive values samples were 0.46%,0.47%,0.44%,0.44%respectively.The result shows that the forecasting method is suitable for small sample,multivariate, nonlinear data modeling,and it is a new approach of exploration deep coal bed gas content.
coal bed gas;deep gas content;prediction;principal component analysis;support vector machine
TP391
A
1004-5716(2015)10-0059-04
2015-03-26
山西省煤層氣聯合研究基金資助項目(2012012004)。
姜偉(1986-),男(漢族),黑龍江哈爾濱人,助理工程師,現從事煤層氣地質、瓦斯地質等方面的研究工作。