薛亞婷 吳升偉 王江濤
(1.中煤航測遙感集團有限公司,陜西 西安 710199;2.中煤地西安地圖制印有限公司,陜西 西安 710199)
隨著社會的發展,水環境污染日益加重,水體污染帶來的危害也日益凸顯。因此找到一種合適的方法對小流域水環境質量進行評估,并對變化趨勢進行預測,提前采取行動緩解污染速度,改善水質是非常必要的。機器學習算法提供了一種可靠、有效、先進的水質預測方法,它建立的水質預測模型屬于非機理型模型,不依賴于水質變化的化學原理,而是依據數據本身的規律和特點進行預測[1]。
當前,各國開始將神經網絡、回歸分析、灰色系統理論等融入水質預測中,提高了預測的廣泛性及準確度[2-5],如肖金球等[6]提出了一種改進型的 GA-BP神經網絡,采用雙隱含層和7個隱含層節點進行仿真訓練;Amir et al.[7]探討了不同的核函數對水質預測結果的影響;周志青等[8]提出了一種將ARIMA和RBF-NN耦合的模型;馬晉等[9]基于地下水水質指標,通過邏輯分析將地下水分為4個等級。本文在現有研究的基礎上,為提高預測精度,避免模型單一造成的區域水質預測結果偏差,分別利用神經網絡模型、支持向量機模型和邏輯回歸模型對赤水河流域的水質進行預測,并分析比較3種模型的預測結果。將一部分水質、環境、氣象數據作為訓練集,利用3種機器學習方法對數據進行訓練建模,對之后一段時間的水質等級進行預測,對赤水河流域水質治理提供思路。
赤水河為簡陽市管河流絳溪河的支流,自成都市龍泉驛區開始,從北向南,途中經過石盤水庫、赤水鋪等地區,最終匯入絳溪河,流域面積約60km2,平均流量0.68m3/s,流域內存在15個采樣點。流域近年來存在嚴重的污染問題,一是居民在河邊丟棄大量建筑廢料;二是流域內養殖業管理不嚴,加之一些農家樂整改不到位,使該流域的水質問題一直受到環保部門的關注。
實驗數據包括2019年流域內15個采樣點的日實測水質數據、研究區氣象數據、研究區環境數據。
a.水質數據:利用水質監測設備,采集了2019年流域內15個采樣點的總氮、總磷、COD、氮磷日數據。
AntConc統計結果表明,在52篇中方報道中出現906處介入資源的表達形式,其中“對話性擴展”737處(81.35%),“對話性壓縮”169處(18.65%),具體分布見表1:
b.氣象數據:數據由中國氣象數據網下載,選擇離流域最近的龍泉驛區氣象站點數據。氣象數據包含累計降水量、風速、風向、氣溫、濕度、氣壓6項指標。
c.環境數據:數據包含PM2.5、PM10、SO2、NO2、AQI、CO、O37項指標。
Python是近些年來非常流行的一種深度學習語言,相對于Matlab、SPSS這些常規的水質預測研究平臺來說,它能夠對算法進行修改,將成果制作成程序,既可以用于研究學習,也可以用于產品開發。研究中主要使用了Python中的statsmodels模塊,以確定計算自相關、偏相關系數,完成ADF單位根檢驗等數據統計功能;使用了matplotlib模塊,以實現繪制自相關圖和偏相關圖功能;使用了sklearn模塊,以實現對訓練集和算法的封裝等功能。
在建模之前需要對數據進行預處理,確定參數之后再建立模型,具體流程見圖1。

圖1 3種模型的預測流程
1.4.1 數據歸一化
BP神經網絡由輸入層、隱含層、輸出層構成[13]。輸入層神經元即輸入的水質指標,包括2019年每日的總磷、總氮、溫度等17個指標。隱含層層數及每層神經元個數需要根據實際情況確定,由于輸入神經元個數過多,為避免神經元過載,故采用4層隱含層,每層神經元個數分別為8、16、16、8。輸出層即為水質預測等級,由《地表水環境質量標準》(GB 3838—2002)將水質分為Ⅰ、Ⅱ、Ⅲ、Ⅳ、Ⅴ5個等級,將其分別對應數字1、2、3、4、5,并以輸出等級作為輸出層。
采用雙盲法閱片,與1位病理醫師一起獨立觀察每張切片中隨機5個不重疊的視野。評分及陽性判斷標準[7,8]:①按著色強度:無染色為0分,淺黃色為1分,棕黃色為2分,深褐色為3分;②按陽性細胞比例:<5%為 0分,5%~25%為 1分,26%~50%為2分,51%~75%為3分,>75%為4分;兩項相乘,0~1分為陰性,2~4分為弱陽性,5~8分為中度陽性,9分以上為強陽性。
y=(x-xmin)/(xmax-xmin)
(1)
邏輯回歸建模主要過程為:收集各項相關數據,確定正則化項及其參數,以及優化方法,進行模型訓練和精度檢驗。本研究選用2019年前255天的17項水質影響因子作為訓練樣本,將2019年后110天的水質預測結果作為驗證集,設置最大循環次數為100次,參數C為1,選用L2正則化項,運行模型得到預測結果。
1.4.2 劃分訓練集與測試集
本研究以2019年日采樣數據作為實驗數據,共有365組實驗數據,將數據以7∶3的比例劃分為訓練樣本和測試樣本,具體來說,前255組數據為訓練樣本,后110組數據為測試樣本。
本文選取總氮、總磷、化學需氧量(COD)3個指標作為評價因子。采用《地表水環境質量標準》(GB 3838—2002)作為評價標準,其中總磷、總氮、COD 3項因子具體分類標準見表1。

表1 水質等級分類標準
本研究根據每個采樣點的水質等級,利用空間插值的方法實現水質等級的空間可視化,從而對水質污染空間分布和時間分布進行分析。
國網德陽供電公司所轄10 kV風孟線線路以110 kV風光變電站10 kV母線為電源點,線路主要信息如下:
a.根據《地表水環境質量標準》(GB 3838—2002)劃分等級。
b.利用反距離權重插值表達空間分布。對區域內15個采樣點進行空間插值,得到了整個河流的等級分布[11],結果見圖2。
臨床常用糖皮質激素助減劑還包括羥氯喹、甲氨蝶呤、環孢素A等。羥氯喹通過對白細胞的抑制作用起到抗炎效果,同時可阻止免疫反應,對治療DM有一定的效果,與激素同服能顯著改善皮疹癥狀,患者耐受性好,且不良反應相對其他免疫抑制劑小,但也需注意神經、肌肉、眼部視網膜的損害。甲氨蝶呤長期以來被用于治療IIM 及IIM合并ILD,但此藥可能導致的肺毒性常難以與漸進的IIM合并ILD相區分,因而目前應用很少[32]。環孢素A聯合激素能更好地改善患者的生存率[33-34],但須監測其血藥濃度及不良反應。本研究1例患者治療ARDS后,應用環孢素A效果良好,激素劑量減半。

圖2 2019年每月平均水質等級空間分布
根據評價標準進行綜合評價后,最終將赤水河流域水質劃分為5級,各采樣點的水質等級占比見表2。

表2 各采樣點水質等級占比
從圖2來看,流域上游水質污染相對較輕,基本為Ⅱ類水或Ⅲ類水;而流域中游及下游污染較重,大多數河段為Ⅲ類水或Ⅳ類水。水質在不同的季節出現了不同的污染情況:當天氣逐漸變得炎熱多雨時,水質開始從Ⅱ類、Ⅲ類水逐漸過渡到Ⅳ類、Ⅴ類水;而在降溫、降水減少之后,水質開始好轉。7—9月全河段污染最為嚴重,而其他月份污染相對較輕。主要是因為從7月初開始赤水河流域進入雨季,一直到9月中旬降雨強度都較大,化肥農藥、生活污水、牲畜排泄物等隨著地表徑流進入河道,加重了水中的氮、磷等污染。隨著溫度的升高,水中的氮、磷等元素為藻類的生長提供了條件,水體持續惡化。大約10月左右,由于雨水的減少及溫度的下降,水質開始好轉。
神經網絡建模主要過程為:收集各項相關數據,確定模型參數和模型框架,進行模型訓練和精度檢驗。本研究選用2019年前255天的17項水質影響因子作為訓練樣本,將2019年后110天的水質預測結果作為驗證集,最大循環次數200次,選用L2正則化項,設置最初學習速度0.001。
BP神經網絡模型訓練過程分為信號正向、反向傳播兩部分,每一相鄰神經元之間具有一定初始權值。水質影響因子作為輸入神經元由輸入層進入模型,經過隱含層以及激活函數計算處理后,將輸出的結果與預計的結果進行對比,如果相差過大,則向反方向傳輸信號,從而根據誤差反饋結果重新調節各層之間的權值。不斷重復上述過程,經過反復的權值修正,最后誤差信號被控制在一定范圍內,樣本訓練結果也更加接近預期要求[12](見圖3)。

圖3 神經網絡原理示意圖
3.2.1 確定網絡結構
在進行樣本訓練前需要進行歸一化操作,以保證各項因子數量級在一個層面,避免某些因子過大導致占比較大,或某些因子過小導致占比較小,從而導致一些因子沒有發揮作用[10]。歸一化公式為
3)開關量接點豐富,繼電保護測試儀7路接點輸入和2對空接點輸出,輸入接點為空接點和0~250V接點兼容;同時其自我保護結構設計具備一定散熱性,本身具有可靠完善的多種保護措施和電源軟啟動,因此,微機繼電保護裝置整體性價比較高。
對方似乎是在對第一句“飛翔的種子”進行解釋,但這種解釋,反而令他更加覺得云山霧罩。鴻鵠、月酌、朱雀、鳶楚……這些東西,他隱約覺得有些耳熟,似乎是以前從哪里聽說過,但直到對方最后說出了“青鸞”,他才終于想起,這些東西都是什么了。
網格搜索法(GridSearchCV)是確定最佳參數C和γ的一個普遍方法,顧名思義其主要思想就是通過搜索網格節點來確定參數[14]。設置C可取數值為0.1、1、10、100、1000,γ可取數值為0.001、0.01、0.1、1、10,在網格交點處便可形成兩個參數的任意組合,共有20種組合方式,通過自動調參容器對這20種組合進行遍歷,便可得到精度最佳的一組參數。經過實驗,得到最佳參數C為100,γ為1。
石城地區含礦偉晶巖一般分帶狀構造不明顯,僅在部分礦體內見到一、二帶或部分礦體局部地方見到較好的帶狀構造,經綜合研究分析,石城地區含礦偉晶巖原生帶狀構造和交代的帶狀構造在水平和垂直空間上的變化規律如下:
選擇L2正則化項。正則化項其實是對原函數的一種約束,它可以避免出現過度擬合的情況。常見的正則化項有L1、L2,其中,L2正則化適應性強,能夠有效地抗干擾,它傾向于建立一個參數較小的模型,具有較廣的應用性。
3.2.3 確定激活函數
選擇relu作為激活函數。relu是一種非線性激活函數,對于深層網絡具有意義,能夠利用各層的復雜組合及運算,模擬各種函數,被廣泛應用于神經網絡之中,效率高且精度高,沒有經過預訓練也能達到很好的效果,被廣泛應用于深度學習。
支持向量機建模主要過程為:收集各項相關數據,確定核函數、參數C和γ,進行模型訓練和精度檢驗。本研究選用2019年前255天的17項水質影響因子作為訓練樣本,將2019年后110天的水質預測結果作為驗證集,設置初始參數C為1,γ為10,并利用網格搜索法確定最佳參數,最后運行模型得到預測結果。
利用支持向量機進行回歸預測,其實質就是找到一個分割面來對不同類別進行分類,這個平面稱為超平面。一般來說樣本都是非線性的,只能找到一個曲面來劃分類別,不可能通過一個平面來實現,由此引入核函數的概念,通過升高維數來解決這個問題。
式(2)代表了超平面,其中ω為權值向量,xi為樣本向量,a為分類界值。
ωxi+a=0
(2)


(3)
4.2.1 確定核函數
榜樣是在學習過程中表現突出的一個典范,他能帶動其他人一起奮進,影響其他人的學習進程。教師在教學活動中充當著學生的榜樣,教師的一言一行都在無形中影響學生的學習態度、學習效果。在小學生的心里,教師的語言和行為就是自身語言和行為的指標,他們遵循這個指標來規范自己的言行,從而完善自身。教師要注意自己的言行舉止,為學生打下良好的榜樣,促進學生的發展。教師還可以將優秀的學生樹立為班級的榜樣,以優秀生帶普通生,實現全班的進步。在教學過程中,教師要讓優秀生充分發揮榜樣的作用,讓學生跟隨他們的腳步,共同發展,共同進步。
車輛在運行過程中,隨著線路曲線的變化,車端跨接線纜被動地進行伸展和收縮運動,因此跨接線纜的復雜受力運動情況成為影響跨接線纜使用壽命的重要因素[2]。
(4)
式中:xc為核函數中心;σ為函數寬度。
4.2.2 確定相關參數
模型參數的選擇決定了模型的優劣,當參數過小時,可能出現訓練不夠、精度不高的情況,反之,可能出現過度學習浪費系統資源的情況。懲罰系數C決定了對實驗誤差的忍受度,C的值越高,表示越不能容忍;γ為徑向基函數參數,決定了數據的學習程度。
語言的豐富意蘊體現在它所塑造的人物形象身上。從小說的語言描寫中,可以發現蘇比是一個可憐而又讓人鄙視的人。說其可憐,那是因為文中的蘇比生活在一個貧窮的環境里。他在寒冷的冬天因沒有自己的住所而露宿街頭,只好躺在那里因為寒冷而輾轉反側。說其讓人鄙視,那是因為他憑借自己健壯的身體足以改變自己的命運,但他卻把監獄當作自己的最高追求。于是他想盡辦法來實現自己的這一偉大的構想:
3.2.2 確定正則化項
(1)深一含粉細砂壓縮層(B5):處于該層組頂部,由細砂及粉細砂層組成,底板埋深80~100 m,厚度10~20 m,一般呈中密~密實狀態。
選擇徑向基核函數。徑向基核函數運用廣泛,與其他核函數相比其參數較少,可以通過升維實現樣本線性可分。其定義為
式中:y為歸一化后的數值;x為處理前的數值;xmin、xmax分別為處理前數據的最小值和最大值。
邏輯回歸模型可以通過分類實現水質的等級劃分,常規的模型只能實現二分類,為實現5個等級的劃分,引入累計回歸模型,其表達式為