劉建坡 徐孝男 武 峰 李烽田 王永昕
(深部金屬礦山安全開采教育部重點實驗室,遼寧 沈陽 110819)
隨著經濟持續高速發展,我國地下工程(礦山、地下隧道工程、水電工程等)建設速度居于世界前列,其工程類型眾多且建設深度和規模不斷增大。在這種背景下,地下工程水文地質特征愈加復雜,透水事故頻發,例如,2019 年5 月17 日黑河翠宏山鐵多金屬礦發生特大突水事故,采空區塌陷引起地表濱河水庫大量水攜泥沙潰入井下,致使43 人被困8 人失蹤;2019 年12 月14 日四川宜賓杉木樹煤礦發生重大透水事故,越界開采導致相鄰煤礦老空區積水瞬間沖破邊界煤柱涌入礦井,5 名作業人員當場死亡;2021 年7 月15 日珠海石景山隧道右洞施工工程中發生特大突水事故,瞬時最大涌水量達到7 200 m3/h,水流帶出淤泥堆積數米,造成14 人死亡。各類透水災害造成了嚴重的人員傷亡和重大經濟損失,嚴重制約地下工程的安全建設作業。開展透水災害發生風險定量評估研究,對于透水災害救災決策制定具有重要意義。
針對地下工程透水事故的致災因素及風險預測評估,國內外專家學者展開了大量研究。Bukowski[1]考慮了水壓、涌水懸浮物含量、圍巖和礦柱穩定性以及井筒歷史突水情況幾個因素,提出了一種突水災害發生風險評估系統。李利平等[2]開發了包含不良地質、超前地質監測信息等8 個風險評價因素的軟件系統用于突水災害發生風險實時評價。李術才等[3]通過收集巖溶隧道典型突水突泥事故案例,分析相關致災因素,建立了突水突泥風險評價指標體系并對齊岳山隧道突水突泥風險進行了評估工作。陳歌等[4]引入微震監測技術開展礦井水害防治和預測預報研究并系統分析了突水災害煤巖體微震活動性前兆規律。李文平等[5]針對煤礦底板奧灰水害問題,收集了大量突水案例數據,建立了地下突水災害風險評估方法,并將突水風險分為安全、中等安全、潛在風險和高風險4 個等級。殷穎等[6]統計收集了160 個隧道突水突泥災害案例,總結工程地質、自然環境和人為誘發因素對突水突泥災害發生頻率的影響程度,分析并總結各因素對突水突泥的影響規律。邱梅等[7]對梁莊煤礦13 號煤層下伏奧灰含水層的突水風險性進行了預測評估。王迎超等[8]以雞公嶺隧道和峽口隧道2 個典型深埋巖溶隧道為背景,選取了地形地貌、層間裂隙等7 個指標用于突水風險預測評估。在以上研究中,采取的評估方法主要有基于風險指標判據的綜合評價方法和基于機器學習的綜合評價方法兩類。其中,基于風險指標判據的綜合評價方法包括模糊綜合評價[8-9]、云模型[10-11]、屬性數學理論[12-13]、層次分析法[14-15]、D-S 證據理論[16]等;基于機器學習的綜合評價方法主要包括貝葉斯網絡[17]、神經網絡[18-19]、隨機森林[20]、支持向量機[21]、萬有引力法[22]等。決策樹是一種基于“信息增益”的方式對樣本進行分類的機器學習方法,因其模型簡單直觀且可解釋性較好,得到了廣泛應用。
以上研究中多以瞬時最大涌水量等指標定義災害風險等級,而累計涌水量對于救災決策也具有重要指導作用。因此,在透水災害風險等級確定時,綜合考慮瞬時最大涌水量和累計涌水量,可為救災決策提供更為全面的指導。本文通過系統分析國內外107組典型地下工程透水事故案例,建立了透水事故發生風險評估數據庫,基于瞬時最大涌水量和事故累計涌水量2 個指標,采用k均值聚類算法劃分了案例庫樣本的災害等級。在此基礎上,選取水文條件、地層巖性和過程監測信息3 個方面共6 個指標,基于決策樹方法建立了透水事故發生風險評估模型,為地下工程透水事故救災決策提供理論和技術支撐。
建立透水風險評估模型,首先需要進行統一標準的災害等級劃分。本文采用k均值聚類算法確定透水事故的災害等級,并以此為基礎,基于決策樹方法建立透水事故發生風險評估模型。
k均值聚類是常用的基于樣本劃分的聚類算法,其基本思想是事先指定類別數k,采用迭代的方式不斷更新聚類中心和劃分并通過損失函數的最小化選取最優的劃分。本文在應用該方法過程中,對于透水災害案例數據集X的n個樣本數據,每個樣本由m個屬性(例如:人員傷亡與經濟損失、透水過程監測信息等)的特征向量組成,即X={x1,x2,…,xn}。
當透水災害等級為k級時,可以將n個樣本劃分為k個子集C,C={C1,C2,…,Ck},采用k均值聚類方法的計算步驟如下:
(4)迭代優化。k均值算法使用誤差平方和準則函數來評價聚類性能,最終聚類結果的誤差平方和E的計算公式如下:
為求最小化平方誤差,通常采用迭代的方法:重復步驟(2)和步驟(3),迭代t輪后若數據集X中各個樣本所對應的災害等級與第(t-1)輪迭代結果相同,則停止迭代,令:
式中,C(t)為第t次迭代得到的聚類結果。
決策樹廣泛應用于各種分類與回歸問題。一般情況下,一棵決策樹包含一個根結點、若干個內部結點和若干個葉結點,其中:根結點包含樣本全集,葉結點對應于決策結果,其他每個結點則對應于一個屬性測試,每個結點包含的樣本集合根據屬性測試的結果被劃分到子結點中,根結點到葉結點的最長路徑的長度稱為樹的深度。因此,該方法核心思想即通過逐層選擇最優劃分屬性,將不同樣本劃分到相應類別中,最終生成一棵穩定性好、泛化能力強的決策樹。
假設給定包含n個樣本、共有k個災害等級類別的透水災害案例數據集S,每個樣本由u個屬性的特征向量組成,即S={(x1,y1),(x2,y2),…,(xn,yn)}。其中,X=(x1,x2,…,xn)為輸入實例樣本,yi∈{1,2,…,k}為災害等級類別標記(i=1,2,…,n)。
決策樹模型生成的計算步驟如下:
(1)計算數據集的信息熵。假定災害數據集S中第i類災害等級樣本所占的比例為pi(i=1,2,…,k),則S的信息熵定義為
式中,Entropy(S)代表災害數據集S的信息熵,單位為bit。
(2)計算每個屬性對數據集的信息條件熵。對于S中某一屬性A(例如水壓、離子濃度等),屬性A對S的信息條件熵計算式如下:
式中,Entropy(S|A)代表屬性A對數據集S的信息條件熵,表示在A給定的條件下對S進行分類的不確定性;Sj代表某一特定災害等級的樣本集合;分別代表集合Sj和集合S的樣本個數;Entropy(Sj)代表數據集Sj的信息熵,j=1,2,…,k。
(3)計算信息增益。
式中,Gain(S,A)代表屬性A對數據集S的信息增益,表示屬性A對數據集S進行分類的不確定性減少的程度。通常,采用最大信息增益的屬性作為最優劃分屬性。
本文統計了國內外91 個地下工程共107 起透水事故案例,通過分析災害發生原因、類型及致災因素,建立起了透水災害案例樣本數據庫,其中金屬礦、隧道工程、煤礦透水案例數量分別為16、39 和52,占比分別為15%、36.4%和48.5%。
本研究選取瞬時最大涌水量和累計涌水量2 個指標,依據傳統透水災害等級劃分標準(特大型、大型、中型和小型4 級[14])確定聚類數目k=4,根據式(1)~式(4),得到4 個包含不同樣本數的樣本集合(類別1、類別2、類別3 和類別4)。為了更直觀地看出每個類別實際代表的等級,以實際災害等級為依據,對聚類結果進行了統計分析(圖1、表1)。從圖中可以看出,類別1、類別2、類別3 和類別4 分別包含18、25、38 和26 個樣本數據,分別占比16.8%、23.4%、35.5%和24.3%。其中,類別1 包含14 個小型(占比77.8%)、3 個中型和1 個大型透水樣本;類別2 中包含18 個中型(占比72.0%)、4 個小型和3個大型透水樣本;類別3 中包含31 個大型(占比81.6%)、5 個特大型和2 個中型透水樣本;類別4 中包含22 個特大型(占比84.6%)、3 個大型和1 個中型透水樣本。根據聚類結果的4 個樣本集合所含不同災害等級樣本的數目情況可以判斷,類別1、類別2、類別3 和類別4 分別與小型、中型、大型和特大型災害等級相對應。

表1 樣本聚類結果與實際災害等級對比Table 1 Comparison between sample clustering results and actual water inrush level

圖1 聚類結果統計描述Fig.1 Statistical description of clustering results
綜合考慮透水樣本指標數據的完整性以及指標與透水災害等級相關性2 個條件,最終選取水文地質條件、巖性因素和透水過程指標三方面指標。其中水文地質條件包括水文條件加權值、地下水位高程差和工程埋深3 個指標;巖性因素為圍巖飽和單軸抗壓強度;透水過程指標包括涌水量平均增長速率和累積涌水量2 個指標,具體如下:
(1)水文條件加權值x1是主要含水層富水性(按鉆孔單位涌水量)、水源補給能力(按負地形面積占比)、地下水連通性三者的加權值,可以綜合反映該研究區域的水文情況,其中區域富水性分級標準見規程[23],文獻[24]給出了水源補給能力和地下水連通性的分級評分標準。
(2)地下水位高程差x2表示地下水位面與基準面(巷道或隧道底板)的高程,是影響瞬時突水強度的重要因素之一[15]。
(3)隨著工程埋深x3增大,地下水逕流活動、含水層水力聯系等顯現出逐漸增強的趨勢[25],在這種情況下發生透水事故往往更容易造成較嚴重的后果。
(4)圍巖巖石飽和單軸抗壓強度x4可以在一定程度上反映巷(隧)道圍巖的力學性質,是影響透水是否發生的一個重要因素[26]。
(5)典型突水災害的涌水量時程曲線可分為兩種類型(圖2):第一種突水發生過程常伴隨著涌水點數目增多、涌水通道擴張等現象,存在較為明顯的災變期,例如底板灰巖含水層承壓突水、頂板砂巖裂隙突水等;第二種突水發生過程通常無顯著前兆,往往是采掘過程不慎導通儲水構造(老空區、巖溶溶腔等)造成的瞬時突水,若無其他層位的地下水補給,則表現為靜儲量疏干型。本研究中將兩類突水災害涌水量時程曲線劃分為災前穩定階段、災變階段和成災階段3 個階段,其中第二種突水類型沒有進行災變階段的劃分。圖2 中,Qn、Qan、Qs和Qm分別代表穩定涌水量、異常涌水量、突增涌水量和初次最大涌水量,t1、t2和t3表示達到相應涌水量所對應的時間,涌水量平均增長速率x5可以通過圖中公式求得,累積涌水量x6為相應時間區間下的面積S1和S2。

圖2 兩類突水災害典型涌水量時程曲線示意Fig.2 Schematic of typical water inflow time-history curves of two types of water inrush hazard
指標的可靠性是影響透水事故發生風險評估準確性的重要因素。因此,在透水風險評估指標確定的基礎上,統計不同災害等級下樣本各指標的平均值,并進行了歸一化處理(圖3)。從圖3 可以看出,水文條件加權值、水位高程差、埋深、涌水量平均增長速率和累積涌水量5 個指標與災害等級呈正相關,而巖石飽和單軸抗壓強度與災害等級呈負相關關系,這表明本研究中選取的指標均與透水災害等級存在較強的相關性,可用于透水事故發生風險評估模型的建立。

圖3 指標歸一化均值與災害等級的關系Fig.3 The relationship between the normalized mean of the indicators and the water inrush level
本研究將107 組透水事故樣本按照樣本數比7 ∶1 ∶2 劃分為訓練集、驗證集和測試集(表2),即:75個樣本作訓練集建立決策樹模型,11 個樣本作驗證集對生成的決策樹進行剪枝優化,21 個樣本作測試集對最終生成的剪枝決策樹進行模型評估。表2 中,x1~x6代表各指標屬性,y為災害等級,其數值0、1、2、3 分別對應小型、中型、大型和特大型透水災害等級。

表2 透水災害樣本數據集的劃分Table 2 The division of the water inrush sample data set
透水事故發生風險評估決策樹模型的建立過程如下:首先,根據式(5)~式(7),可以獲得訓練集(視為樹深度為0 的根結點)的信息熵值1.979,并依據信息熵值計算得到最優劃分屬性x1和劃分結點值6.28;之后,以最優劃分屬性x1的值與劃分結點值6.28 的相對大小為依據將訓練集樣本劃分為2 個子集,共同構成樹深度為2 的內部結點;再后,重復以上過程,計算2 個子集的最優劃分屬性和劃分結點值,進而進一步分裂這2 個子集,直至決策樹模型建立完成。在本研究中,訓練集的決策樹模型樹深度為6(表3)。隨著樹深度的增加,內部結點的數目成倍遞增,每個內部結點所含樣本數逐層遞減,樣本劃分越精細。若某一內部結點所含樣本均為同一災害等級,即該內部結點為葉結點,則停止繼續劃分,可直接給出該路徑下的風險等級。

表3 決策樹劃分依據Table 3 Decision tree division basis
在上述決策樹模型建立基礎上,采用驗證集樣本進行了驗證,準確率僅為63.6%,表明該模型泛化能力較差,不能滿足透水事故發生風險評估的需要。造成該問題的主要原因是在模型建立過程中出現過擬合,圖4 中訓練集樣本擬合精度隨著最大葉結點數目的增多而增加(當最大葉結點為17 時,評估準確率達100%),但是驗證集樣本的評估準確率卻在最大葉結點超過9 之后出現顯著降低的現象。為解決該問題,本研究中采用剪枝方式對決策樹模型進行了處理,避免出現過擬合現象。在決策樹方法中,剪枝是防止生成的樹過擬合、提高模型評估準確率的主要手段,其基本策略有“預剪枝”和“后剪枝”2 種:前者是在決策樹生成過程中對結點屬性進行劃分時作判斷,后者是生成決策樹后自下而上地對非葉結點進行判斷。后剪枝決策樹往往比預剪枝決策樹保留更多分支,避免過擬合的同時降低欠擬合風險。因此,本研究采用后剪枝策略,并以模型泛化性能是否提升作為剪枝標準,對模型進行了優化處理。以圖5 中樹深度為5 的結點n28為例,該結點包含8 個透水樣本(6 個大型和2 個中型),嘗試對其剪枝(替換為葉結點)并標記為“大型”災害等級之后的驗證集樣本預測準確率并未提升(仍為63.6%),故仍保留此內部結點(保留n29和n30)。對于包含15 個透水樣本(12 個大型和3 個特大型)的結點n11,嘗試對其剪枝(替換為葉結點)并標記為“大型”災害等級之后的驗證集樣本預測準確率顯著提升(從63.6%提升至81.8%),故對其進行剪枝處理(剪掉n19,n20,n25和n26)。基于以上剪枝策略,建立了透水發生風險評估剪枝決策樹模型。通過針對驗證集樣本進行評估,準確率提高至90.9%。

圖4 最大葉結點數檢驗曲線Fig.4 Test curve for maximum number of leaf nodes

圖5 決策樹模型的剪枝處理過程Fig.5 The pruning process of decision tree
為了檢驗透水發生風險評估模型的評估性能,采用測試集樣本對初始決策樹模型和剪枝決策樹模型進行檢驗評估,檢驗結果如表4 所示。

表4 測試集樣本數據透水事故發生風險等級檢驗結果Table 4 Assessment results of water inrush risk level of test set sample data

續表4
從表4 可以看出,初始決策樹模型評估準確率為90.5%,剪枝決策樹模型避免了原模型產生的2 個樣本評估偏差,表明剪枝可以有效防止模型過擬合,進而提升評估準確率(從90.5%提升至100%)。在此基礎上,進一步采用剪枝決策樹模型對107 組透水樣本進行了評估(表5),準確率達95.3%,表明剪枝決策樹模型具有較強的適用性。

表5 透水事故發生風險評估決策樹模型混淆矩陣Table 5 Confusion matrix of decision tree for risk assessment of water inrush hazard
本研究以國內外透水事故案例為基礎,基于k均值聚類算法確定了事故災害等級,采用決策樹方法建立了透水事故發生風險評估模型,結論如下:
(1)以瞬時最大涌水量和累計涌水量指標,基于k均值聚類算法所劃分的107 個透水事故樣本災害等級與其實際災害等級匹配度較好。
(2)透水事故發生風險評估指標與事故等級具有較好的相關性,其中水文條件加權值、地下水位高程差、埋深、涌水量平均增長速率和累積涌水量與災害等級呈正相關,巖石飽和單軸抗壓強度與災害等級呈負相關。
(3)剪枝能夠有效提高透水事故發生風險評估決策樹模型的泛化性能。相對于初始決策樹模型,剪枝決策模型對于驗證集和測試集樣本的評估準確率分別從63.6%和90.5%提高到90.9%和100%,全部樣本的綜合評估準確率為95.3%,表明該模型具有較好的適用性,能為地下工程透水災害的救災決策提供較好的理論和技術支撐。