柳成志,滕立惠
(東北石油大學,黑龍江 大慶 163318)
利用支持向量機識別松遼盆地火山巖巖性
柳成志,滕立惠
(東北石油大學,黑龍江 大慶 163318)
利用支持向量機(SVM)方法,選取個性特征元素,建立火山巖巖性成分的識別方法,來區分玄武質、安山質、粗面質、英安質、流紋質火山巖巖性.通過對松遼盆地內部的火山巖樣本進行學習和預測,火山巖大類平均識別率達到95%以上,表明支持向量機在火山巖巖性成分識別方面取得了良好效果.
松遼盆地;火山巖巖性;支持向量機;核函數
近年來隨著深層天然氣及外圍盆地勘探的深入,勘探的目的層主要變為以火山巖巖性為主的地層.以往對火山巖巖性識別主要依靠肉眼觀察、薄片鑒定等手段,但由于肉眼觀察描述需要深厚的巖石礦物學專業知識和豐富的實踐經驗,在錄井現場工作人員的實踐經驗還不豐富,無法達到精確判斷的需求.而薄片鑒定、化學分析等鑒定手段由于周期長、成本高,不能及時地對現場每個點、層進行識別和描述.所以需要通過開展能夠滿足各類火山巖個性特征元素分析測定的分析儀器樣機研制,對代表性樣品元素進行分析.
因此,深入開展火山巖元素識別巖性方法研究,選取不同巖石的個性特征元素,利用支持向量機來建立不同巖石的巖性識別方法,對建立正確的地層巖性剖面,認識火山巖的復雜地質特征具有積極的影響和重要的意義.
支持向量機(Support Vector Machine,SVM)是Cortes和Vapnik于1995年正式提出的[1],以最小化錯誤率理論界限為思想,以統計學習理論為基礎,能較好地解決小樣本學習問題的一種新的機器學習方法[2].對于支持向量機的通俗表述,就是在已知樣本和部分函數值的情況下,努力尋求某一映射,對未知的函數值進行估計判斷[3].與傳統的人工神經網絡相比,SVM不僅具有堅實的理論基礎,而且結構簡單,各種技術性能尤其是泛化能力明顯提高,因此被廣泛應用于模式分類、函數估計及回歸分析等領域[4].
1.1 支持向量機原理
支持向量機算法的主要思想是尋找一個能將兩類樣本正確劃分,并且使分類間隔最大的平面,即最優分類面.例如給定一組由兩類點組成的訓練樣本(xi,yi),i=1,2, ,n,xi∈Rd,yi∈{+1,-1},其中n為訓練集數,d為空間維數,當xi屬于第一類,則標記為yi=+1,如果屬于第二類,則標記為yi=-1.

圖1 最優分類面Fig.1Optimal hyperplane
圖1中,N+和N-代表兩類樣本,P是分類面,P1和P2分別為過各類中離分類線最近的樣本且平行于分類線的直線,兩者之間的距離叫做分類間隔.
假設存在一個超平面,能將這組訓練樣本完全分開,使得:

其中<,>代表向量點積.可以把上述不等式合并,寫成:

由于參數(w,b)不是唯一確定的,可以相差一個常數因子yi,此時的分類間隔等于2/(‖‖w),間隔最大等價于使‖w‖2最小,滿足式(3)且使最小的分類面就是最優分類面.
根據以上分析,求解最優分類超平面可以歸結為如下二次優化問題:

這是一個嚴格的凸規劃問題,有唯一的極值點,而函數的極值點就是Lagrange函數的鞍點[5],所以求下列Lagrange函數的鞍點:

其中αi為每個樣本所對應的Lagrange乘子,yi為第i個樣本的標簽,xi為樣本點向量.在鞍點處,參數w,b的梯度都為零:

將(6)(7)式代入(5)式中,消去w,b可得原優化問題的Wolfe對偶問題,即在約束條件下,對αi求解下列函數W(α)的最大值:


利用任一支持向量和KKT條件,依據在鞍點處,對偶變量與約束的乘積為0,即:

這樣就可以得到所求的最優分類判別函數:

1.2 核函數
對于一些非線性問題,只要選擇適當的核函數,支持向量機就可以先將低維空間的非線性轉換為高維空間的線性問題,再將高維空間的點積運算轉換為低維空間的核函數運算,從而回到原始的低維空間[3].采用的核函數不同能夠導致不同的支持向量機的算法[6-7].目前,支持向量機多使用以下3種核函數:

2.1 巖性分類流程
松遼盆地深層火山巖地層提供了154個有準確巖心薄片定名資料的數據點,即支持向量機的樣本數目為154個,選取其中88個樣本作為訓練樣本,66個樣本作為測試樣本.
通過對不同巖性火山巖的研究,最終選取Na、Mg、Si、K、Ti、Sr、Ag、In、Ba、Ca 10個元素屬性作為樣本的輸入維數,并且按照SVM的格式輸入數據(見表1).將地質上按照巖石常量元素化學成分劃分的火山巖類別作為支持向量機的預測結果,即下述5大類:玄武質火山巖類、安山質火山巖類、粗面質火山巖類、英安質火山巖類、流紋質火山巖類.這樣樣本空間便是10維5類.
選定RBF函數后,確定該模型的參數g以及懲罰參數c.主要采用了Matlab LibSVM分類法確定模型參數(圖2):
對于給定的151個數據點的10個元素屬性數據,首先選定一組c和g的范圍,c=2-6,2-3, 215和g=2-15,2-12, 215,逐漸調小步長,再確定一組參數c=2-5, 20, 215和g=22,23, 2-14,將得到的準確率最高,可知當c=2,g=4時,針對66個樣本點的回判分類,共有3個點分類錯誤,回判正確率為95.5%(圖3).

表1 SVM部分輸入數據Table 1Input data for SVM

圖2 火山巖巖性分類程序Fig.2Classification program of volcanic rocks

圖3 火山巖巖性分類的準確率等值線Fig.3Accuracy contour of volcanic rock classification
2.2 結果及討論
使用Matlab 2010b編寫處理數據,利用已經學習后的SVM模型進行火山巖巖性成分識別,結果見表2.由表2可知,采用SVM識別松遼盆地深層火山巖的巖性與實際取心資料進行對比,其中英安質、粗面質火山巖符合率達到100%,說明在小樣本的情況下,利用支持向量機能夠準確識別火山巖巖性,提高劃分精度.
(1)利用支持向量機方法來識別火山巖巖性,在小樣本、高維和非線性情況下能獲得較高的準確率.

表2 支持向量機分析巖性準確率Table 2Accuracy of SVM analysis
(2)在對火山巖巖性成分識別的過程中,支持向量機能夠充分發現巖性與個性特征元素之間的映射關系,保證良好的學習效果.

丹東五龍山(五龍山風景區管理委員會提供)
[1]Cortes C,Vapnik V.Support vector networks[J].Machine Learning, 1995,20:273—295.
[2]李艷芳,程建遠,王成.基于支持向量機的地震屬性優選及煤層氣預測[J].煤田地質與勘探,2012,40(6):75—78.
[3]朱永才.基于支持向量機的儲層參數預測方法研究[D].成都:西南石油大學,2012:12—13.
[4]王奇安.基于廣泛內核的CVM算法研究及參數C的選擇[D].南京:南京航空航天大學,2009:1—2.
[5]席少霖.非線性最優化方法[M].北京:高等教育出版社,1992.
[6]Osuna E,Freund R,Girosi F.An improved training algorithm for support vectormachines[A]//NeuralnetworksforsignalprocessingVII.Proceedings of IEEE 1997 workshop.New York.
[7]Vapnik V N.Estimation of dependences based on empirical data[M]. Spring-Verlag,1982.
RECOGNITION OF THE LITHOLOGY OF VOLCANIC ROCKS IN SONGLIAO BASIN BY SUPPORT VECTOR MACHINE
LIU Cheng-zhi,TENG Li-hui
(Northeast Petroleum University,Daqing 163318,Heilongjiang Province,China)
Using the method of support vector machine(SVM),with selection of characteristic elements,an identification method for the lithology of volcanic rocks is established to distinguish the basaltic,andesitic,trachytic,dacitic and rhyolitic volcanic rocks.By learning and prediction of the volcanic rock samples from the Songliao Basin,the average recognition rate for volcanic rocks reaches to 95%and more,showing that the SVM obtain a good result in the identification of volcanic rock component.
SongliaoBasin;lithologyofvolcanicrocks;supportvectormachine;kernelfunction
1671-1947(2014)03-0288-04
P631
A
2013-06-21;
2013-07-30.編輯:張哲.
柳成志(1962—),男,博士,教授,從事層序地層學、成巖作用、油氣儲層地質學、沉積學、火山巖油氣藏研究,通信地址黑龍江省大慶市高新技術開發區發展路199號,E-mail//chzhdq@vip.sina.com