孫鈞青 ,王 皓 ,楊 建 ,尚宏波 ,王甜甜 ,喬 偉
(1.煤炭科學研究總院,北京 100013;2.中煤科工西安研究院(集團)有限公司,陜西 西安 710077;3.陜西省煤礦水害防治技術重點實驗室,陜西 西安 710077)
我國西部地區煤炭資源十分豐富,在國家的能源供保中發揮著重要作用[1],但由于水文地質條件的復雜性,西部煤炭的開采長期面臨著頂板水害事故的發生[2]。而對涌水水源的判別是水害防治工作的基礎[3],因此,煤層頂板涌水水源的準確判別對西部煤炭安全開采具有重要意義[4-5]。
傳統用來進行水源判別的指標為水中主要離子、pH 和總溶解固體(TDS)等無機指標。實際上,不同含水層中總有機碳(TOC)、紫外吸光度(UV254)和溶解性有機質(DOM)也存在較大差異的[6],熒光指紋技術直觀地反映了樣本的特征與差異[7];楊建等[8]通過觀察熒光指紋圖,從理論上證明了有機-無機聯合判別的可靠性;楊勇[9]在建立判別模型時使用尋峰法對熒光圖譜進行了分析。平行因子法(PARAFAC)作為1 種多路數據分析技術,能夠從數學角度解釋DOM 的熒光組分[10-11],楊毅等[12]、張溪彧等[13],YU[14]等均利用PARAFAC 對水體DOM 的光譜特征和主要來源進行了分析。隨著數學理論和計算機的發展,多元統計法[15]和機器學習算法在水源判別中得到了廣泛應用,秋興國等[16]、紀卓辰等[17]使用主成分分析法(PCA)對水化學數據進行了降維處理;董東林等[18]、馮冬梅等[19]分別使用改進的極限學習機(ELM)和支持向量機(SVM)對礦井水源進行了判別;黃敏等[20]、胡友彪等[21]分別使用群體優化算法對隨機森林(RF)算法進行了優化;郝謙等[22]將RF 與SVM、ELM 進行了比較,證明了RF 算法更高的預測精度和魯棒性。
但是地下水成因復雜,對于一些成分相近的水源,無機水化學指標較難做出準確判斷。而PARAFAC 可以對水樣的熒光組分進行量化,克服人為經驗和尋峰法中重復峰的干擾。有機指標的加入增加了判別指標的維度,而RF 算法能夠有效處理高維數據和特征之間的復雜關系,擁有較高的準確性和魯棒性。為此,以榆橫礦區某井田為研究區,將TOC、UV254與DOM 作為有機指標融入水源判別中,使用PARAFAC 對水樣的熒光組分進行量化,在對數據集進行降維后,利用RF 算法分別構建無機指標判別模型和無機-有機綜合指標判別模型,為提升煤層頂板涌水水源判別準確率提供新的思路。
研究區位于陜北黃土高原北端,毛烏素沙漠東南緣,地表絕大部分被第四系松散沉積物所覆蓋,以風蝕風積沙漠丘陵地貌為主。研究區水系不發育,區內大部地表無完整水系分布且受大氣降水影響較大。研究區地層綜合柱狀圖如圖1。
圖1 研究區地層綜合柱狀圖Fig.1 Comprehensive histogram of strata in study area
由圖1 可知,研究區含煤地層延安組,其主要含(隔)水層自上而下包括:第四系松散孔隙含水層、白堊系孔隙-裂隙含水層、安定組相對隔水層、直羅組和延安組砂巖裂隙含水層。第四系孔隙發育與大氣降水的聯系密切,富水性強;白堊系與第四系無穩定隔水層,易于接受其補給,富水性較好;直羅組與白堊系之間有相對隔水層安定組,其裂隙不發育,富水性較弱;延安組裂隙不發育且隨著埋深增加,滲透性逐漸變差。
本次研究共采集研究區地下水水樣73 組,分別用于水質全分析和有機物分析,使用2.5 L 塑料桶采集水樣,嚴格執行裝水、密封、貼標等采樣步驟,采集后及時進行分析檢驗。
參考GB/T 14848—2017 地下水質量標準[23]對水樣的20 項常規指標進行檢測,選取K++Na+、Ca2+、Mg2+、Cl-、SO42-、HCO3-和TDS 共7 項無機指標進行后續分析。
需要測定的有機指標為TOC、UV254和DOM三維熒光數據(EEMs)。使用multi N/C 2100 專家型總有機碳/總氮分析儀進行TOC 的檢測;使用Evolution 60 紫外可見光度計檢測254 nm 處的紫外吸收值。使用熒光分光光度計(HITACHI F-7000)進行DOM 熒光數據的提取,設置儀器掃描速度為1 200 nm/min;激發波(EX)波長為200~420 nm,間隔為5 nm;發射波(EM)波長為240~600 nm,間隔為2 nm。為去除環境噪聲,使用超純水作為空白校正水的拉曼散射。
測得各項水化學指標原始數據見表1。
表1 73 組水樣水化學特征Table 1 Hydrochemical characteristics of 73 groups of water samples
對水樣檢測結果進行分析可知:隨著含水層埋深的增加,K++Na+、SO42-和TDS 濃度不斷增加。第四系陽離子以Ca2+為主,其次為Mg2+和Na+;陰離子以HCO3-為主,其次為SO42-和Cl-;經過分析,主要表現為HCO3-Ca 型水,說明大氣降水能夠很好地對這個含水層進行補給;但是個別水樣的Na+含量較高,這表明區域內第四系水的補給和運移條件存在較強的不均一性。白堊系水中Na+濃度有所升高,以HCO3-Ca·Na 和HCO3-Na·Ca 型水為主,這與沉積巖風化水解、交代作用和陽離子交替作用有關;直羅組和延安組陽離子開始以Na+為主,其次為Ca2+;陰離開始以SO42-為主,其次為HCO3-;水質類型為SO4-Na·(Ca)型水,說明直羅組含水層中地下水循環時間較上部含水層增加,逐漸形成深部滯留型地下水。
綜上所述,可以根據無機水化學指標對這4個含水層的水樣進行初步辨別,但是第四系和白堊系、直羅組和延安組兩兩之間不易區分,特別是直羅組和延安組的水樣,水化學類型相似,且各指標濃度差異不大。因此使用UV254、TOC 和DOM 這3 種有機指標,對水樣來源進行進一步區分。
根據表1 的測試結果,繪制的各水樣TOC 和UV254濃度如圖2。
圖2 各水樣TOC 和UV254 濃度Fig.2 TOC and UV254 concentration histogram of each water sample
由圖2 可知:第四系水樣的有機質含量高于直羅組和延安組,主要是由于第四系直接接受地表水補給,容易受到含有機物的沉積物和工農業污染的雙重影響;白堊系和直羅組水樣中溶解性有機質含量相對較低,表明這2 個含水層水幾乎未受到人類生產生活的影響。理論上,隨著含水層埋深的增加,DOM 有機質與溶解氧、硫酸根等電子受體發生反應,含量會不斷降低[24];但延安組一些水樣中UV245和TOC 的濃度卻明顯高于直羅組,這主要是受含煤地層的影響;當地下水流經含煤地層時,部分有機物會從煤層溶解到地下水中。
雖然不同類型水樣的TOC 和UV254含量存在差異,但總體含量較低,且水中部分有機物在紫外光下無明顯吸收峰[13],因此需要利用熒光指紋技術對水樣中的DOM 進行更加深入的分析。根據得到熒光數據繪制出每個水樣的三維熒光圖譜,部分水樣的DOM 熒光圖譜如圖3,其中橫坐標為激發波波長λEX,縱坐標為發射波波長λEM。
圖3 部分水樣的DOM 熒光圖譜Fig.3 DOM fluorescence spectra of some water samples
經過分析與對比,研究區水樣的DOM 三維熒光光譜圖中出現了文獻[25]中所列出的5 類天然有機質。第四系水樣中主要出現了2 個熒光峰:Ⅰ區—酪氨酸,Ⅲ區—疏水性有機酸。其中Ⅰ區的熒光峰強度較強。白堊系位于第四系下部,水循環時間更長,與第四系有所差異,主要出現了Ⅱ區—色氨酸和Ⅴ區—海洋性腐植酸的熒光峰。總體來說,白堊系水中溶解性有機質濃度小于第四系,標志性熒光峰位置出現在Ⅴ區。直羅組和延安組的水樣中主要出現的是Ⅱ區、Ⅳ區—含色氨酸的類蛋白質和Ⅴ區的熒光峰。但是延安組水樣的熒光強度相對較高且個別水樣中還出現了Ⅰ區的熒光峰,這表明深部含水層存在其他來源的腐殖質類DOM。
判別模型基本框架如圖4。
圖4 判別模型基本框架Fig.4 Basic framework of discriminant model
由圖4 可知:測定的無機指標組成數據集data1,使用PARAFAC 對EEMs 進行處理后得到主要組分(C1、C2、C3)的熒光強度,與TOC、UV254、無機指標共同組成數據集data2;使用主成分分析法(PCA)對數據進行預處理,該過程分為數據標準化和主成分提取2 步;data1 和data2 經PCA 處理后分別進入RF 模型中進行訓練。
雖然可以從熒光圖譜通過熒光峰觀察出水樣DOM 的差異,但在樣本量大的情況下操作不便且容易帶來人為誤差。PARAFAC 提供了數據的定量和定性模型,因此采用PARAFAC 對水樣DOM熒光數據的主要組分進行量化和提取,該過程使用Matlab 中的DOMFluor 工具箱進行實現。
為保證結果的可靠性,使用拆半檢驗對各分量模型進行驗證,根據代碼運行結果,2 組分模型和3 組分模型均是有效的。為最大限度地反映數據信息,使用誤差平方和對不同組分數量下的模型進行對比,繪制出的DOM 組分數目與殘差關系圖如圖5。
圖5 組分數目與殘差關系圖Fig.5 Relationship between DOM fraction and residual error in mine water
由圖5 可知:當組分數由2 增加到3 時,激發波(EX)和發射波(EM)的殘差已大幅減小,當組分數由3 增加到4 時,殘差變化不大,因此考慮選取3 組分模型。
PARAFAC 的計算結果中包含了每個樣品各組分的熒光強度,根據導出數據繪制出各組分熒光圖譜及對應的熒光載荷圖,并且列出了4 類水各組分熒光強度的平均值。各組分熒光強度平均值見表2,DOM 各組分三維熒光圖譜及熒光載荷如圖6。
表2 各組分熒光強度平均值Table 2 Average fluorescence intensity of each component
圖6 DOM 各組分三維熒光圖譜及熒光載荷Fig.6 Three-dimensional fluorescence spectrum and fluorescence load of DOM components
PARAFAC 共鑒別出3 種組分:組分1(C1)具有1 個激發峰(250 nm)和1 個發射峰(425 nm),包含了疏水性有機酸和類腐植酸的成分并以后者居 多;組 分2(C2)具 有3 個 激 發 峰(225 nm/280 nm/305 nm)和1 個發射峰(340 nm),包含了類色氨酸和含色氨酸的類蛋白質;組分3(C3)具有2 個激發峰(245 nm/285 nm)和1 個發射峰(310 nm),主要為酪氨酸和含色氨酸的類蛋白質。
通過PARAFAC,用提取出來的3 種組分熒光強度代替原樣本中出現的5 種熒光區域,達到數學量化和組分降維的目的,為后續判別提供了數據基礎。
利用主成分分析法(PCA)對數據進行降維分析,該過程在SPSS 軟件實現。
分 別 記K++Na+、Ca2+、Mg2+、Cl-、SO42-、HCO3-、TDS 為X1、X2、X3、X4、X5、X6和X7,組成的數據集記為data1。對data1 進行PCA 分析,得到各指標的總方差解釋。無機指標總方差解釋見表3。
表3 無機指標總方差解釋Table 3 Inorganic index total variance interpretation
由表3 可知:前3 個主成分F1~ F3的方差累計貢獻率已達到了96.422%。因此選取主成分個數為3,根據成分得分矩陣得到前3 個主成分的數學表達式如式(1)。
式中:Fi為 第i個主成分。
在data1 的基礎上,加入UV254、TOC 和熒光組分C1,C2,C3,分別記K++Na+、Ca2+、Mg2+、Cl-、SO42-、HCO3-、TDS、TOC、UV254、C1、C2、C3 為X1、X2、X3、X4、X5、X6、X7、X8、X9、X10、X11和X12,組成的數據集記為data2,利用SPSS得到各指標總方差解釋。無機-有機指標總方差解釋見表4。
表4 無機-有機指標總方差解釋Table 4 Inorganic-organic index total variance interpretation
由表4 可知:前6 個主成分F1~ F6的方差累計貢獻率達到了94.811%。因此,這里選取主成分個數為6。同理,根據成分得分矩陣可以得到前6個主成分的表達式,這里不做展示。
記第四系水、白堊系水、直羅組水、延安組水分別為Ⅰ、Ⅱ、Ⅲ、Ⅳ類水,分別使用data1、data2 進行無機判別模型和無機-有機綜合指標判別模型的訓練。采用K折交叉驗證來進行模型評估,因此無需人為劃分訓練集與測試集,這種方法可以有效避免欠擬合或過擬合狀態的發生;在小樣本中能得到具有說服力的結果,這里在K值取2~7 時進行尋優。在RF 算法中,對樣本集進行有放回地抽樣來構建樹,這里設置決策樹的個數為100,對每顆決策樹的深度不做限制。用平均精度、平均查準率、平均召回率和f1 score(f1 調和指數)衡量模型的性能。整個過程在pycharm2021環境中使用python 語言實現。
通過不同指標體系性能對比可知:綜合判別模型的平均精度、平均查準率、平均召回率和f1 score 分別達到了93.14%、94.79%、95.08%、93.73%,較無機模型分別提高了9.71%、11.84%、12.25%、11.5%。
通過回代判別結果可知:無機判別模型出現了5 個誤判,回代準確率為93.15%,綜合判別模型僅出現了1 個誤判,回代準確率為98.63%。
利用8 個分別屬于Ⅰ、Ⅱ、Ⅲ、Ⅳ類水的待測樣本對判別模型的效果進行檢驗,待測樣本水化學特征見表5,待測樣本判別結果見表6。
表5 待測樣本水化學特征Table 5 Hydrochemical characteristics of samples to be tested
表6 待測樣本判別結果Table 6 Discrimination results of water samples to be tested
由表6 可知:在無機指標訓練的模型下,8 個樣本中出現了2 個誤判,分別將樣本3(Ⅱ類水)和樣本7(Ⅳ類水)誤判為Ⅰ類水和Ⅲ類水,總體判別準確率只有75%。而在無機-有機綜合指標訓練的模型下,對8 個待測樣本的類型都進行了正確的判別,這進一步證明了無機-有機綜合指標能夠顯著提高判別準確率,可以為煤層頂板涌水水源判別提供新思路。
1)分析了不同來源水樣的無機水化學指標及TOC、UV254和熒光光譜等有機指標,初步確定出了第四系含水層、白堊系含水層、直羅組含水層及延安組含水層水化學特征之間的差異,但仍無法準確區分出各水樣的來源。
2)利用PARAFAC 從熒光圖譜中提取并量化了3 種組分,使用PCA 分別將data1 和data2 的判別指標維度降至4 和6,結合RF 算法分別構建了無機判別模型和無機-有機綜合指標判別模型,后者的平均精度達到了93.74%,較前者提高了9.71%。
3)利用無機-有機綜合指標判別模型對訓練樣本進行回判,回代準確率達到了98.63%,該模型對8 個來自不同含水層的待測樣本也進行了正確的判別,這充分說明無機-有機綜合指標可以顯著提高煤層頂板涌水水源判別的準確率,未來可以考慮擴大樣本集和尋找優化算法來提高模型的性能。