趙喻文(中國石油西南油氣田公司生產運行處,四川 成都 610051)
在西南地區,地質災害一直是影響山區油氣管道安全運營的最大問題。截至2017年,中石油西南地區在役油氣管道里程已長達1.33萬千米[1]。山區長輸管道通常穿越山地、丘陵、河溝谷等多種復雜地貌單元,沿線地質形貌復雜,地質災害難以避免,輕則造成管道埋深不足或局部出露,重則造成管道長距離懸空、變形、扭曲、斷裂等,經濟損失不可估量[2]。地質災害易發性評價是預防及緩解各類地質災害的有效手段之一,更是危險性評價乃至風險評價的基礎。因此,開展油氣管道沿線典型地質災害的易發性評價,不僅為風險管理奠定基礎,而且為其監測、防治提供理論依據。
美國于20世紀70年代開展長輸油氣管道的安全評價研究工作,并應用于工程實踐。1985 年,美國Battle Columbus研究院首次引入了專家評分法,對油氣管道地質災害易發性進行了判斷和評價。2006年,加拿大BGC 公司開發了管道地質災害風險管理系統(GRM),首次采用半定量評價方法對滑坡、崩塌、水毀、地面塌陷等進行了風險評價與排序[3]。2009年,中國石油管道科技研究中心研發的管道地質災害風險管理系統(PGR MS)采用了指標評分的半定量評價方法[4]。近些年,隨著3S技術的快速發展,區域地質災害易發性評價模型的評價精度大大提高,從過去直接地貌制圖、基于專家經驗的定性分析發展到統計模型和更高級的機器自主學習模型的定量分析[5-6]。其中統計模型在地質災害易發性評價研究中運用最廣[7-8],該方法是以地質環境條件為基礎,通過對過去發生地質災害的數據統計分析來建立評價模型,然后預測同類地區以及周邊地區以后可能發生地質災害的概率,然后得出易發程度分區。
本次研究以四川省東南部的20余條管線穿越區域為研究對象,以野外實際調查數據為基礎,基于地質災害的發生機理,收集了9個地質災害易發性條件因子。所有因子相關性檢驗后采用廣泛使用的機器學習方法:邏輯回歸模型對研究區地質災害的易發性進行建模計算,并評估了研究區的地質災害易發性,以期為該區及周邊地區油氣管道建設的風險管理提供依據。
研究區位于四川盆地東南部,管線穿越處以丘陵、侵蝕構造低山地貌為主。區內屬亞熱帶濕潤季風氣候,具有氣候溫和、降雨量豐富、冬暖夏熱等特點,多年平均氣溫16.7~18.1 ℃。區域年平均降雨量約1 000 mm,降雨量多集中在5月—10月,約占全年雨量的79%。降雨多以暴雨形式發生,日最大降雨量257.9 mm,小時最大降雨量122.0 mm。管線經過地區新構造運動較強烈,地震烈度為Ⅵ~Ⅶ度。區內廣泛出露侏羅系的砂巖、泥巖以三疊系的灰巖,第四系以粘土、粉土及砂卵石層為主。巖土體結構較為疏松,主要賦存第四系松散巖類孔隙潛水以及基巖裂隙水。研究區內人類工程經濟活動復雜,主要有公路、房屋、基礎設施建及礦區井田建設等。
2.1.1 數據來源
研究區管線穿越地區的基礎數據來源于近4年的野外調查結果。以管線評估區段(0.2~2.0 km)的斜坡為評價單元,共統計地質災害點94處(正樣本數據),其中滑坡20處,崩塌13處,水毀61處。考慮到機器學習需要保持正負樣本的平衡性,我們還選取了94處非地災點作為負樣本數據。
2.1.2 評價因子的選擇和分級
根據文獻查閱及現場調查數據的可用性,本文綜合考慮了影響管線地質災害形成的地形地貌、地層巖性、氣象水文、人類工程活動以及已有災害發育情況等因素,初步選擇了如表1所示的9個評價因子構建數據庫,并參照現有規范進行了分級[9]。
表1 管線地質災害易發性條件因子選擇及等級劃分
選擇合適的地災易發性條件因子對地災易發性建模至關重要,因為冗余信息可能在建模過程中產生噪聲并降低模型的預測能力。因此,本文采用隨機森林(RF)以及Pearson相關系數(PCC)方法來篩選地災易發性條件因子。
邏輯回歸(LR)模型是一種二項分類變量的回歸分析模型,因為它考慮簡單的線性關系,計算速度快,模型具有顯示性等特點,使其廣泛應用于地質災害的易發性評價中。該方法在評價過程中,選取自變量為條件因子(xi),以某類地質災害發生與否為因變量(設置1為發生災害,0為不發生災害)。設置地質災害的發生概率為P,Y=1-P為地質災害不發生的概率。將P/Y取對數為ln(P/Y),則以P為因變量、條件因子集[x1,x2,…,xn]為自變量,建立邏輯回歸方程:
式中:P為0到1之間的數字;β為回歸常數;C1,C2,…,Cn為回歸系數,X1,X2,…,Xn為影響災害發生的自變量,于是可得邏輯回歸方程:
本文基于Python3.9.5環境中的scikit-learn庫,用于地質災害易發性的邏輯回歸建模。首先將研究區收集的樣本數據集劃分為訓練和驗證數據集,二者之比為7∶3。然后通過隨機訓練100次,得到地質災害發生概率的最優LR預測模型。最后利用驗證數據集和受試者工作特征(ROC)曲線下面積AUC對LR模型的預測性能進行評估。評價指標AUC通常用來衡量地災易發性預測模型的評估性能,該值越大預測能力越好。
結果表明,9個地災易發性條件因子的皮爾遜相關系數均小于0.5,因此9個條件因子之間沒有多重共線性關系。圖1顯示了基于RF方法的各影響因素的相對權重,其中已有災害發育(0.216)是影響火后泥石流預測的最重要因子,其次是斜坡坡度(0.208 7)、日降雨量(0.184 4)、斜坡高差(0.089 4)、斜坡坡形(0.068 5)、斜坡結構(0.054 5)、地層巖性(0.052 4)、人類工程活動(0.049 3)、地下水活動(0.038 1)。因此已有災害發育,斜坡坡度,日降雨量,斜坡高差為影響管線地質災害形成的控制性因子,而人類工程活動、地下水活動則影響較小。
圖1 基于RF方法的地質災害易發性條件因子的相對權重大小分析結果
本文基于Python3.9.5環境中的scikit-learn庫,用于地質災害易發性的邏輯回歸建模。通過隨機訓練100次,得到地質災害發生概率的最優LR預測模型如式(4)所示。根據預測模型計算所得地質災害發生概率值(P),使用自然斷點法將概率P分為4個區間:0~0.185、0.185~0.475、0.475~0.825、0.825~1.000,分別對應4個易發性等級:極低易發、低易發、中等易發、高易發。其中極低易發區占比為39.39%,低易發區為17.42%,中易發區為12.12%,高易發區31.06%,且高易發性區域主要集中在川南地區的管線穿越區段。
式中:P為地災發生概率;X1為已有災害發育情況;X2為斜坡坡度;X3為日降雨量;X4為斜坡高差;X5為斜坡坡形;X6為斜坡結構;X7為地層巖性;X8為人類工程活動;X9為地下水活動。
式(4)中所有評價因子均已量化,量化標準參考表1,其中極低易發、低易發、中等易發、高易發分別量化為1、2、3、4。
利用驗證數據集和受試者工作特征(ROC)曲線對LR模型預測性能的驗證結果如圖2所示。結果表明,LR模型具有良好的預測能力,其AUC達94.9%。
圖2 ROC曲線及LR模型預測準確率
(1)基于RF算法的各條件因子的重要性分析結果表明,已有災害發育情況、斜坡坡度、日降雨量、斜坡高差為影響管線地質災害形成的控制性因子,而人類工程活動、地下水活動則影響較小。
(2)本研究提出的LR模型具有良好的預測能力,其AUC達94.9%。
(3)易發性評價結果表明,研究區極低、低、中及高易發性管線區段各自所占比例分別為39.39%、17.42%、12.12%和31.06%。其中,中、高易發區段主要集中于川南地區的管線穿越區段,評價結果與研究區實際情況相近,因此采用邏輯回歸模型能夠較為客觀準確地評價四川省東南地區管線地質災害易發性。