熊玖琦, 劉星
(安徽理工大學地球與環境學院, 淮南 232001)
為發展智能化煤礦建設進程,必須解決地質條件的透明化問題,以確保采掘過程的可視、可控和可預[1]。三維地質建模是實現地質數據可視化、地質空間分析以及透明地質的關鍵技術[2-3]。由于地質構造錯綜復雜及地下空間可見性低,目前主要采用鉆探、地震勘探、電法探測等方法獲取地下空間構造數據。根據建模過程是否以數學模型為核心過程,主要將建模方法分為顯式建模和隱式建模[4]。針對隱式三維地質建模,郭甲騰等[5]使用徑向基函數對礦體進行隱式自動三維建模方法,Zhong等[6]融合地質規則約束對復雜礦體進行隱式建模,王博等[7]使用自動化提取與量化地層特征參數實現地質體隱式建模。近些年來,將傳統地學與移動互聯網、大數據、人工智能技術相融合也正在推進地質調查工作的發展,并且將人工智能核心的機器學習與地質工作結合也成為近期研究的熱點[8]。杜炳毅等[9]建立了基于機器學習應用地震數據識別復雜儲層微小斷裂系統,向杰等[10]應用機器學習算法準確的預測出成礦產量,李昊陽[11]將機器學習與地質統計學相結合,使得建模結果與地質資料更加符合。現將機器學習與地質建模工作相結合,先構建地質體SGrid柵格模型,將建模問題轉換為柵格單元的屬性分類問題,通過機器學習算法根據已知地質數據預測柵格單元的地層類別得到地層界線清晰的三維模型,并將該建模方法應用于顧北煤礦北一礦區的三維模型構建,為礦區的災害防治、區域治理等工作提供參考依據。
顧北煤礦隸屬于安徽省淮南市,位于淮南煤田中部,潘集背斜西部與陳橋背斜東翼的銜接帶,總體呈南北走向、向東傾斜的單斜構造形態,地質比較平緩,5°~15°傾角。據鉆孔揭露,地層由新到老依次為第四系(Q)、二疊系(P)、石炭系(C)、奧陶系(O)及寒武系,由于研究區范圍廣,數據量龐大,選取顧北煤礦北一礦區進行隱式三維地質建模,該礦區主要涉及四條勘探線、共有23個鉆孔勘探點,總面積10.08 km2,不含斷層、褶皺等復雜地質構造,研究區鉆孔二維分布如圖1所示及三維顯示如圖2所示,從二維分布圖可以看出鉆孔在礦區內呈分散分布,提取的鉆孔數據對該礦區地層劃分具有一定代表性,從三維顯示圖可以看出鉆孔揭露地層分層良好,地層層序能夠清楚劃分。

圖1 研究區鉆孔二維分布圖Fig.1 Two-dimensional distribution map of boreholes of study area

圖2 研究區鉆孔三維顯示圖Fig.2 Three-dimensional display of boreholes of study area
支持向量機[12](support vector machine,SVM)是一種基于統計學的機器學習算法,將輸入向量通過預先提供的非線性關系映射到更高維的空間,并尋找一個最優超平面進行分類,使得不同類別之間的分類間隔最大。考慮一個線性分類器y=sign(wT+b),簡稱(w,b),訓練樣本集D={(x1,y1),(x2,y2),…,(xm,ym)},yi∈{-1,+1}。為了評估分類與數據的適合度,可以使用鉸鏈損耗,即

(1)
從xi到超平面wTxi+b歐氏距離為

(2)
式中:w為超平面的法向量;b為超平面的截距。


(3)
s.t.yi(wTxi+b)≥1-ξi, ?i=1,2,…,m)
ξi≥0, ?i=1,2,…,m
式(3)中:C為一個參數;ξi為松弛變量。
本文中三維地質建模方法,規避地質數據有限的客觀因素和傳統建模方法專家經驗的主觀因素,基于少量數據判斷出地質構造及地層信息,基于機器學習的三維地質建模流程如圖3所示。
2.2.1 數據標準化
原始的地質數據包括勘探點的三維地理坐標(X,Y,Z)、地層類別(A、B、C、D)、各地層起止深度以及各地層厚度,而計算機無法根據各地層起止深度認識到地層起止點之間為同一類別地層的地學意義,并且原始數據特征空間過于稀疏,訓練結果不理想,所以需要對原始鉆孔數據進行預處理。根據各地層類別起止埋深,以1 m為單位對其進行加密處理,把地質數據變成一系列具有三維坐標和地層屬性類別的點,數據預處理示意圖如圖4所示,并且對數據進行標準化處理以消除不同坐標量級之間的影響。

圖3 三維地質建模流程圖Fig.3 Flow chart of 3D geological modeling

圖4 數據預處理示意圖Fig.4 Data preprocessing diagram
2.2.2 分類器選擇及參數尋優
每個分類器的算法不同也導致預測結果不同,因此分類器的選擇會從根本上影響建模的效果,選擇一種合適且高效的分類器也是本文工作的重要內容。同時為避免數據出現過擬合現象以及使用相同的驗證方案比較會話中的所有模型,在訓練分類器之前,對樣本數據進行折數為5的交叉驗證。利用各類分類器對預處理過的鉆孔數據逐一訓練,并在訓練過程中對分類器進行優化以及搜索最佳超參數,目前常見的有貝葉斯優化、網格搜索和隨機搜索等優化方法進行超參數尋優,由于數據量比較大,網格搜索和隨機搜索需要耗費大量時間,而貝葉斯優化通過迭代的形式對超參數進行觀察,收集預期具有良好分類結果的超參數,拋棄結果不確定的超參數,此方法減少了儲存空間并且計算速度快,從最小分類誤差圖(以支持向量機為例)如圖5所示中也可以看出,此優化器可以很好地將最小誤差點作為最佳超參數,所以本文選用貝葉斯優化器進行超參數尋優。研究區不同分類器分類結果如表1所示,可以看出,支持向量機和決策樹的分類效果較好,以支持向量機分類算法進行預測結果分析以及三維地質建模。

圖5 最小分類誤差圖Fig.5 Minimum classification error map

表1 分類器分類結果
支持向量機算法中影響分類效果最顯著的超參數是核函數,核函數是為避免高維空間中“維數災難”問題而引入的,常用的核函數有高斯(徑向基,RBF)核函數、線性核函數以及多項式核函數[13]。對幾種核函數使用默認參數在該樣本數據上的分類結果進行對比,核函數分類結果如表2所示,其中高斯(徑向基)核函數分類準確度最高,因為其能夠將原始特征映射到無窮維的特征空間,對處理非線性問題非常有效,這正符合鉆孔數據三維地質建模的高度非線性特征,所以選擇高斯核函數作為支持向量機的最優核函數。
2.2.3 建立地質體柵格單元
由于地質構造發育紛繁復雜,地質勘察中獲取的鉆孔數據離散且不完備,為了提高分類結果準確度,根據所建地質體邊界點坐標,以一定步長建立大小相等、分布均勻的柵格單元,構建規則的地質體三維空間數據場。研究區總面積10.08 km2,模型取900 m深度,建立大小為30 m×20 m×10 m的柵格單元,共計約150萬個。

表2 核函數分類結果
2.3.1 分類器性能
該研究區地層共分為4個類別,為了解SVM分類器在每個類別中的執行情況,是否有分類性能不佳的區域,繪制混淆矩陣如圖6所示和ROC(receiver operating characteristic curve)曲線如圖7所示,真正類率(ture positive rate, TPR)表示每個真實類正確分類的觀察值比例,假正類率(false positive rate, FNR)表示每個真實類中錯誤分類的觀察值比例。從圖6中可以看出第1類TPR達到99.2%,第2、第4類在90%左右,ROC曲線呈直角走向且曲線下面積AUC=0.99,說明SVM分類器性能很好,分類結果可信。

圖6 混淆矩陣圖Fig.6 Confusion matrix

圖7 ROC曲線圖Fig.7 ROC curve graph
2.3.2 模型構建
一系列三維建模軟件的涌現,如GOCAD、Surpac、3DMINE、Earth Vision以及三維可視化技術的發展,為地質數據的可視化提供了便捷條件,大大提高了地質建模的精度[14]。選用GOCAD軟件對預測數據進行三維模型構建,COCAD軟件具有強大的地質解譯、可視化、三維建模和分析的功能,在礦業開發、地質工程、水利工程等領域受到廣泛應用,并且該軟件主要采用離散光滑插值(discrete smooth interpolation, DSI)算法[15],該算法思想是將地質界面看作離散化的不連續界面,然后根據地質點、剖面線數據等約束條件求解目標函數(全局粗糙度函數),將相同屬性的節點拼接起來獲取最優地質界面,正符合本文根據地質體柵格單元分類屬性進行隱式建模的思想。為使所建模型在訓練集和測試集上都能取得良好的預測結果,因此,在機器學習之前,將預處理后的鉆孔數據進行數據分割,分為訓練數據和測試數據,并且確保數據的均勻性和隨機性。然后選取合適的分類器進行訓練,并用最佳的訓練分類器對柵格單元進行分類預測。
將已知類別的地質體柵格單元數據導入GOCAD軟件中,建模結果如圖8、圖9所示。同時,對該模型進行開挖顯示,可以看出模型內部并未出現地層穿插現象,并且地層分界處光滑自然,建模結果符合實際。為檢驗所建模型的準確性,將根據實際鉆孔數據建立的剖面圖與預測模型進行對比,以五勘探線為例如圖10所示,可以看出地層走向、各地層厚度基本一致,說明預測模型結果可靠。

圖8 研究區三維地質模型圖Fig.8 3D geological model map of the study area

圖9 模型刪狀圖Fig.9 Model deletion diagram

圖10 原始地質剖面與預測模型剖面對比Fig.10 Comparison between original geological section and prediction model section
(1)基于機器學習的三維地質建模方法,將地質建模問題轉換為地質柵格單元的屬性分類問題,不需復雜處理和專家經驗,通過少量稀疏地質數據就可以準確構建區域三維地質模型。
(2)通過對機器學習的各種分類器及其超參數的比較分析,針對此研究區,支持向量機和決策樹分類器較其他分類器分類準確度較高,并且采用RBF核函數的支持向量機分類器分類結果較好。同時對預測模型進行開挖顯示并與實際剖面對比驗證,建模結果可靠,符合實際,并且對于地層尖滅位置,無需進行復雜處理,可以直接準確構建。
(3)該方法成功應用于顧北煤礦北一礦區的三維地質模型構建,有效直觀地表達了該礦區地層走向及各地層分布特征,為礦區的災害防治、區域治理等工作提供參考依據。