李婷 李艷軍 呂英英 楊娟娟 白巖立



摘要:在進行礦井地下水污染風險預測過程中,由于選擇的特征與污染風險相關性較低,導致預測精度較差,對此,提出基于改進集成學習的礦井地下水污染風險預測研究,首先利用主成分分析法對礦井地下水污染數據特征進行提取,然后利用SOM網絡進行礦井地下水數據聚類處理,最后采用ENN模型進行礦井地下水污染風險預測。實驗結果表明,所提方法的污染物濃度預測RMSE和MAPE分別為22mg.L-1與9.26%,礦井地下水污染風險指數與實際值擬合度高,且R2值較大,說明所提方法的風險預測能力較好,具有實用性。
關鍵詞:改進集成學習;污染風險預測;SOM網絡;Elman神經網絡
中圖分類號:X820.4 文獻標志碼:B
前言
中國地域遼闊,煤炭資源儲量豐富,然而長期的礦產開采對生態環境造成了嚴重影響。特別是煤礦開采中產生的礦井水問題,給地下水系統帶來了巨大的污染風險。隨著煤礦開采活動的進行,地下礦井水會被泵出,其中包含了大量的懸浮顆粒物、溶解的無機物質和有機物質。如果未經有效處理直接排放,這些礦井水就會污染地表水和地下水,在一定程度上導致水質惡化,甚至影響人類用水和農業灌溉。在礦井地下水污染風險預測的過程中,需要考慮多種因素,如礦井的地質條件、開采方式、水文地質特征、水力參數等,以評估可能的污染擴散路徑和影響范圍。及早預測和識別礦井地下水污染的風險至關重要。相關學者對該方面進行研究,如:
楊海東等人基于有限差分法和貝葉斯推理建立風險預測模型,利用Metropolis-Hasting抽樣法優化模型參數,實現風險預測。趙春蘭等人采用模糊C均值聚類為地下水數據建立隸屬度序列,利用時間序列預測不同子隸屬度序列,通過去模糊化實現風險預測。以上方法沒有在預測風險前降維數據,導致污染物濃度預測RMSE和MAPE高、風險預測能力不理想的問題。為了解決上述方法中存在的問題,提出基于改進集成學習的礦井地下水污染風險預測研究。
1 礦井地下水數據特征提取
在預測礦井地下水污染風險前需要對礦井地下水數據進行特征提取,采用主成分分析法提取到對污染影響較高的特征。
用X表示礦井地下水數據矩陣,具有m個監測點。將原始礦井地下水數據矩陣由n維空間降低到d維空間,主要特征提取步驟如下所示:
(1)對礦井地下水數據標準化和歸一化變換處理,采用xj和σj表示數據第j個變量平均值和標準差。
(2)將標準化變換處理后新矩陣正交變換.獲取矩陣X的協方差矩陣,記作C=(Cij)n×n,C為一個實對陣矩陣,cij表示矩陣中元素,采用特征值λ和特征向量A構建正交矩陣A=(aij)n×n,aij表示矩陣中元素。
(3)計算C的特征值和特征向量,可得到CA=λA,將礦井地下水數據矩陣X分別與等式兩邊相乘并令AX=Y,則有CAX=λAX→CY=λY,由此可得到由矩陣X=(x1,x2,…,xn)組合后的新矩陣Y=(y1,y2,…,yn),且Y同樣為與λ對應的特征向量,具體形式如式(3):
累積貢獻率Ed選取的前d個主成分作為提取出來的特征,有效降低后續計算復雜度。
2 礦井地下水污染風險預測
2.1 SOM聚類處理
將提取到的特征數據作為SOM的訓練集進行聚類處理,SOM聚類數據主要步驟如下所示:
(1)初始化SOM學習速率初始值η(0)、連接權值初始值wij(0)、各神經元j的鄰域半徑初始值rj(0)和總迭代次數K;
(2)計算輸入層樣本向量與競爭層每個神經元之間歐氏距離dj和最小距離dj,確定最優神經元,dj和dj的計算方式如式(6)、式(7)所示:
式(6)-式(7)中,n表示神經元總數,xj表示被選中向量,wij(k)表示第k次迭代中輸入層神經元i與競爭層神經元j的連接權值,j為得到的最優神經元。
(3)在鄰域半徑內更新最優神經元權值,更新規則如式(8)所示:
式(8)中,η(k)表示第k次迭代中學習速率,D表示可變化系數,p表示競爭層神經元,q表示最優神經元,rq(k)表示第k次迭代中最優神經元鄰域半徑。
(4)依據下式更新學習速率η(k)和鄰域半徑rj(k):
式(9)-式(10)中,INT[]表示取整運算。
(5)當k=K時,訓練結束,反之令k=k+1,返回步驟(2)重復執行。
假設預處理后共得到M個礦井地下水數據,經過SOM后M個數據被劃分為Ⅳ個類別,基于此完成數據的聚類處理。
2.2 ENN風險預測
將通過SOM聚類處理后的礦井地下水污染數據作為ENN訓練集,通過ENN預測礦井地下水污染風險的主要步驟如下所示:
(1)初始化ENN結構,確定ENN每層的神經元數量,輸入層神經元數量為d,輸出層神經元為m,隱含層神經元數量h則由兩者共同決定,即h=rand(1,根號下(d+m)+α)。
(2)在每次迭代中,ENN由輸入礦井地下水數據至輸出污染物濃度預測結果共經歷以下三個階段:
①輸入層至隱含層階段:用xm(k)表示第k次迭代中d個隱含層向量,f1表示隱含層傳遞函數,w1表示承接層與隱含層連接權值,xc(k)表示第k次迭代中承接層反饋向量,w2表示輸入層至隱含層連接權值,x(k-1)表示第k-1次迭代中輸入至輸入層的礦井水污染樣本向量.則輸入層至隱含層階段可表示為式(11):
xm(k)=f1rj(k){ω1xc(k)+ω2[x(k-1)]} 式(11)
②承接層反饋階段:承接層反饋階段可表示為如下形式:
xc(k)=xm(k-1)x-(k) 式(12)
③隱含層至輸出層階段:用y(k)表示第k次迭代輸出層向量,f2表示輸出層傳遞函數,ω3表示隱含層至輸出層連接權值,則隱含層至輸出層階段可表示為如下形式:
y(k)=f2[ω3xc(k)] 式(13)
經過對ENN的反復訓練可確定其最優結構。
(3)在Matlab神經網絡工具箱中通過sim( )函數運行最優結構ENN,將預處理后礦井地下水污染數據輸入改進的集成學習模型,輸出污染物濃度值預測結果。
(4)建立礦井地下水污染風險評估體系,所提方法將評估體系劃分為健康和生態兩個方面,并以地下水中可揮發性有機物VOCs為例加以闡述,如下所示:
①健康風險評估體系:分別選取非致癌風險指數NCR和終生致癌風險指數ILCR作為健康風險的評估指標,NCR和ILCR如式(14)、式(15)所示:
式(14)-式(15)中,ci表示污染物i濃度,V表示人類日飲水量,TF表示煮沸后VOCs殘留比,ED表示暴露延時,EF表示暴露頻率,AT表示人類預期壽命,BW表示人類體重均值,RfDi表示污染物i參考劑量,SFi表示飲水途徑下污染物i致癌斜率因子。
②生態風險評估體系:生態風險評估體系用于評估礦井地下水中一種或多種污染物質可能或正在發生的不良影響可能性,選取風險商RQ模型作為生態風險評估模型,用MEC表示環境中VOCs濃度,PNEC表示對水生生物不產生影響的VOCs濃度,ChV表示慢性值,AF表示評價因子,則RQ如式(16)所示:
綜合健康風險評估體系和生態風險評估體系構建礦井地下水污染風險預測模型R,如式(17)所示:
R=ω1NCR+ω2ILCR+ω3RQ 式(17)
式(17)中,ω3、ω2和ω1表示各指標權重。
依據污染物濃度值預測結果和風險預測模型,即可實現對礦井地下水污染風險的預測。
3 實驗與結果
為了驗證基于改進集成學習的礦井地下水污染風險預測研究整體有效性。選擇某地的礦井作為實驗對象,確定監測點的數量和布局。將礦井地下水污染范圍劃分成4個區域,每個區域設置2個監測點,進行礦井地下水污染數據的獲取。
分別采用所提方法、文獻[3]方法和文獻[4]方法對某礦井地下水VOCs濃度加以預測,相比于重金屬,VOCs可以通過空氣和土壤風化等途徑釋放到環境中,并在地下水系統中遷移,增加對地下水質量的潛在威脅。因此,對VOCs濃度進行預測可以更全面地評估地下水的污染風險。VOCs各成分實際濃度和三種方法預測結果見圖1。
由圖1可以看出,所提方法的預測濃度平均值更接近于實際值,即所提方法的預測更加準確,因為所提方法在預測礦井地下水污染物濃度前對數據降維處理,減少數據中對整體結果影響較小的因素,提升預測準確度。
將RMSE和MAPE作為實驗指標,三種方法的RMSE和MAPE結果見表1。
由表1可以看出,所提方法的RMSE和MAPE分別為22mg·L-1與9.26%,均小于對比方法,表明所提方法對污染物濃度預測更準確。
通過式(14)對風險指數加以計算,并與實際值擬合比較,預測結果越接近于實際值且R2值越大,則對應方法的風險預測性能越強,檢測結果見圖2。
由圖2可以看出,采用所提方法得到的礦井地下水污染風險指數與實際值擬合度更高,更接近實際結果,且R2值較大,因為在污染物濃度預測中.所提方法表現出更為優異的性能,進而能夠在風險預測中取得更好的效果。
4 結束語
礦井地下水污染風險源點多面廣,且污染隱蔽性較強,在污染發生后,修復程度和治理難度都會大幅度上升,因此在污染發生前對風險準確預測至關重要。為了解決目前存在的污染物濃度預測RMSE和MAPE高、風險預測能力不理想問題,提出基于改進集成學習的礦井地下水污染風險預測研究,通過主成分分析法提取礦井地下水數據特征,然后使用SOM網絡對這些特征進行聚類處理。最后,采用ENN模型進行礦井地下水污染風險預測,幫助預測可能出現的水質問題。實驗結果表明:該方法能夠有效降低污染物濃度預測的RMSE和MAPE,礦井地下水污染風險指數與實際值擬合度高,能夠獲得更理想的風險預測結果,為礦井地下水污染控制和治理提供依據。
基金項目:陜西省科協青年人才托舉計劃項目(20220403)