王 渲,田文翀
(同濟大學 環境科學與工程學院,上海200092)
城市降雨徑流污染是指降雨徑流水體對累積在城市路面、屋頂、綠地等不同下墊面的污染物質(如SS、原油、氮、磷、重金屬、有機物質等)形成淋溶、沖刷作用,并將其裹挾的污染物通過排水系統直接排入受納水體而造成的水體面源污染現象[1]。城市的發展極大地增加了建筑物和硬化道路的比例,改變了天然狀態下雨水的產匯流規律,使得降雨時形成了更多地表徑流。其結果會導致城市水體水質和生態系統受到破壞,產生包括富營養化、水環境惡化、水體黑臭等眾多問題,影響城市水環境健康與水生態安全。
借助于降雨徑流模型對徑流污染進行預測,是控制城市降雨徑流污染的主要途徑之一。由于水質問題受多因素影響及其復雜性,許多生物、化學過程的反應機理尚未能通過模型進行描述。同時,水質機理模型在應用過程中通常需要大量的水文、水質參數,而這些參數既多又難于測量,這些都限制了確定性水質數學模型的適用性和準確性[2-3],機器學習直接從實測數據出發挖掘水質模型的內在規律為國內外學者提供了另一種研究思路。
在城市水質研究中:MJ Rodriguez[4]提出人工神經網絡模型,從另一個角度研究了余氯在配水系統中的衰減,并與傳統的一級模型進行了對比。模型是通過算法和使用一個時間延遲輸入拓撲結構實現的,對兩個供水系統進行的模擬表明在水溫較低時一級模型顯示了較好的效果,而在水溫較高時模型則顯示了較好的預測。楊航等[5]基于神經網絡建立了復雜管網余氯水質預測模型,該方法避開復雜的管網水力計算,以實際測定參數進行訓練和驗證,具有較好精度。李蕓[6]等針對當前非點源污染中雨水徑流水質監測數據匱乏而難以評估其污染負荷的弊端,將BP神經網絡模型引入評估雨水徑流污染負荷問題。在湖泊水質研究中:徐紅敏[7]通過建立支持向量機水質參數評價模型來預測太湖高錳酸鹽月平均濃度取得了良好的效果。Recknagel[8]等系統地研究了ANN模型在水質預測中的應用,建立了三個淡水湖泊預測藻類暴發的ANN模型和一個河流預測藻類暴發的ANN模型,預測結果表明,模型可以預測不同環境條件下淡水水體中像藻類暴發這樣復雜的和非線性的水環境現象。胡明星[9]等提出了基于多準則學習的模糊神經網絡湖泊水質營養化評價模型。在河道水質研究中:HR.Maier[10]和GC.Dandy對澳大利亞南部Murray河上某段的水質參數礦化度進行了預測,取得了一定成效。王里奧[11]等利用因子分析法找出影響南渡河水質的主要污染指標,建立了基于BP神經網絡的主要污染指標預測模型對近幾年的主要污染因子進行了預測。HM Nagy等[12]建立了神經網絡模型預測河流沉積負荷的濃度。但是,將機器學習方法應用于降雨徑流水質污染的研究鮮有:田歡[6]基于BP神經網絡構建了雨水徑流污染物總量評估模型,并應用Schueler公式對評估結果進行驗證。
本文考慮到降雨徑流污染的非線性、多影響因素特點,通過對文獻中獲得的不同地域的大量實測數據進行挖掘,建立支持向量機(SVM)的城市降雨徑流預測模型,對場次降雨平均濃度EMC及初期沖刷指數FF30進行預測。研究方法及預測結果能夠為降雨徑流污染的有效控制提供參考及數據支撐。
城市降雨徑流污染物濃度規律可由瞬時濃度及平均濃度EMC共同表征。其中,瞬時濃度反映污染物濃度的動態變化情況,是進一步獲得場次降雨污染物濃度的極大值、極小值、平均值及其變化規律的重要指標,同時也為初期沖刷效應的判別和的計算提供基礎數據,需要通過連續測量獲得。
然而,由于降雨特征的隨機性,路面沉積物的非均質性以及雨期污染源排放污染物的隨機性,在場次降雨徑流過程中污染物瞬時濃度在較大范圍內變化。因此,USEPA結合NURP計劃研究成果,建議以參數EMC(Event Mean Concentration)來表征徑流污染強度,因為從暴雨徑流對受納水體的影響方面來看,水體對排入的地表徑流的污染響應速度相對徑流過程中污染物瞬時濃度變化而言要慢得多。此后,國內外研究均釆用該指標表征場次徑流污染物的濃度。EMC可由式(1)計算:
(1)
式中:
M(T)——場次降雨累積污染物總量,mg;
V(T)——場次降雨累積徑流總量,L;
Ct——瞬時徑流污染濃度,mg/L;
Qt——瞬時徑流量,L/min;
T——降雨徑流事件總時間,min。
初期沖刷效應是指在初期降雨徑流過程中污染物濃度明顯高于后期徑流沖刷的污染物濃度[13]。由于初期沖刷效應受到城市污染物累積過程、降雨徑流過程以及兩者相互作用影響,在不同匯水區域,或者同一匯水區域的不同場次降雨的初期沖刷程度均不相同。降雨特征、匯水區域特征等是影響初期沖刷效應程度的主要因素。由于不同地區的氣候、降雨特征等存在差異,影響道路徑流污染物的因素也不相同,因此需要根據當地特點具體分析。
通常采用無量綱累積分析M(V)曲線圖評價初期沖刷效應存在與否[14]。降雨徑流過程中的累積污染負荷比例M與累積徑流量比例V計算方法如式(2)和式(3)所示。
(2)
(3)
式中:
M(t)——t時刻累積污染物總量,mg;
Fig. 5 shows that the zinc sulfide films deposited at 100 and 200 W have the same critical angle αc= 0.28°. From Eq.(8) we can directly calculate the density electronic N(Z+
M(T)——場次降雨累積污染物總量,mg;
V(T)——場次降雨累積徑流總量,L;
尤其對男孩子來講,他們是不能同時處理多個信息的,否則就會大腦直接NG,即使你說了再多的話,他們的大腦也不會做任何信息加工,這時溝通無異于對牛彈琴。如果你發火了,說出更多的氣話,他們就會閉緊嘴巴,不做任何反應。所以,第一,我們不能同時給男孩布置很多項任務;第二,我們不能用很快的語速和男孩說很多話。
Ct——瞬時徑流污染濃度,mg/L;
V(t)——t時刻累積徑流量,L;
Qt——瞬時徑流量,L/min;
Δt——連續測定時間間隔,min;
T——降雨徑流事件總時間,min。
本研究中為了量化初期沖刷效應,并為后續預測模型的建立定義預測變量,引入了初期沖刷指數的概念,定義場次降雨累積徑流量比例為30%時所對應的累積污染負荷比例為FF30,即M(V)曲線上V=0.3所對應的M的值。
支持向量機(SVM)由Vapnik及Cortes等人在1995年率先提出[15],通過尋求結構風險最小化來實現置信范圍及經驗風險最小化目標,這使其能夠在樣本量較少的情況下獲得良好的統計規律,并在處理非線性及高維模式識別問題時具有特有的優勢。
支持向量機算法由對線性可分數據集進行分類的最優超平面概念發展而來,簡單地說,就是運用機器學習尋找對線性或非線性數據進行分類的最優分類面,而最優分類面的確定是由少數樣本點決定,即支持向量(Support Vector,SV)。在運算時,與分類超平面無關的樣本點被剔除,只保留作為支持向量的樣本點,從而大幅提高運算效率(圖1)。
目前多數地方高校現狀是班級學生數量眾多,師資隊伍相對缺乏,所開設的課程門類較少,高校教師疲于應付科研、職稱等各種壓力,導致教學上所采用的教學方法與考核方式根本無法滿足當代大學生的實際需求。而一些名校的MOOC課程資源與本地高校現設課程的課程目標、教學對象、課程難度等方面都難以匹配。高校教師希望通過各種實踐去嘗試更加靈活而又富有挑戰性的教學模式,而不是周而復始地進行課程的重復性講授與教學。

(4)
式中:
2.2.2 數據標準化
2.2.1 非數值影響因子
b——偏移量;
C——正常數,用于平衡f的平滑性和所被允許的超過ε的誤差之和的作用。
機器統計學習需要一定規模的樣本量。為了獲得具有代表性、質量較高的足量樣本集,本研究廣泛檢索研究城市降雨徑流污染的國內外學位論文,從實驗方法、研究區域、研究結論等多方面綜合分析,獲取滿足SVM模型訓練要求的樣本數據。由于國內外對于城市降雨徑流污染的實驗研究多以道路作為研究對象,因此本研究預測模型亦針對道路徑流建立。表1所示為本章預測模型研究數據來源。

表1 道路徑流污染模型數據來源
注:a.在同一場次降雨下對兩處不同道路路面進行徑流污染測試計作2次。
結合國內外對于降雨徑流污染影響因素的研究成果,道路降雨徑流污染主要受降雨特征、大氣污染情況、交通流量及其他城市功能區等因素的影響。概括得出模型影響因子(輸入值)見列表2。
預測模型的決策變量(輸出量)應當能夠綜合反映場次降雨徑流污染特征,包括徑流污染程度及初期沖刷效應等特性,此外,由于COD是評價降雨徑流污染程度及控制情況的重要指標,因此選取指標COD的場次降雨徑流污染平均濃度EMC及初期沖刷指數FF30值作為評估模型的決策變量(輸出量)。

表2 影響因子

續表
確定模型所需數據樣本的輸入量(影響因子)及輸出量(決策變量)之后,通過從文獻直接獲取、檢索及調研等方式,補齊所選取數據集的影響因子。由于SVM模型在預測新樣本時不允許缺失值存在,因此對于無法補齊缺失信息的數據采取剔除處理。經過數據清洗得到的數據集樣本量見表3。

表3 數據集樣本量
w——n維權向量;
支持向量機(SVM)要求被處理的數據均為實數。表2中所示10項影響因子中,平均雨強、峰值雨強、降雨歷時、雨前干期、大氣降塵量、PM10、車流量等均為數值型變量,可直接進行標準化處理之后進入模型運算;而對于非數值屬性雨型、路面材料及功能區,參考文獻資料,作如下進一步轉換。
(1)雨型:定義為類別型變量,并將其劃分為峰值靠前、居中及靠后三類,分別對應編碼{1,0,-1}。
平均偏差MBE反映模型預測值與實測值之間的平均誤差,具有一定的參考意義。
(3)城市功能區:本研究按照數據集各研究區域人口密度、道路清掃頻次及空氣污染等要素進行賦權重值打分,要素權重見表4,分值范圍均為0~100。打分標準為:人口密度越大、清掃頻次越低、空氣污染程度越差,則分值越高;其他項考慮不同實測點導致徑流污染加重的相關因素。各項得分加權平均即得到“功能區”影響因素的數值。
如果患者“四部27點規律”查體后,不符合“兩部2點或兩部2點以上”,則不需要拍X光、CT、MRI。這樣先行壓痛點檢查既可避免漏診,又可免除拍X光、CT、MRI的檢查,從而最大限度的避免醫療資源的浪費,這也是本診斷方法的特別優勢。

表4 功能區評價要素權重
(xi,yi),i=1,2,…,n,x∈Rd——訓練樣本集;
表2所示影響因子及決策變量具有不同的量綱及量綱單位,其數值大小會使得模型運算時產生不同的權重影響,導致模型收斂速度降低、數據分析結果失真。在支持向量機模型中,徑向基核函數RBF采用樣本數據的歐式距離計算,能夠避免數值較大的變量控制數值較小的變量,但是較大的數值差距會影響模型計算,降低模型收斂速度。因此,為了消除變量間的量綱影響,對數據進行Z-score標準化(Z-score Normalization)處理,使得不同變量之間具有可比性:
(5)
式中:
μ——樣本均值,
為了在將來實驗中更好的識別和研究第五主族原子(N、P、Sb、Bi)替位摻雜對砷烯幾何結構和電子性質的影響,模擬計算了掃描隧道顯微鏡(STM)圖像,如圖5所示. 在1 V的正偏壓條件下,其STM圖像較容易識別,并與其晶體結構相對應. 從圖5可見,4種不同的摻雜晶格的STM圖像存在明顯的差異,因此為實驗時辨別砷烯材料中的這些雜質提供了參考.
用SAS 9.2軟件進行統計分析。定量數據的組間比較采用t檢驗或Wilcoxon秩和檢驗,并描述其例數、均值、標準差等。定性數據的組間比較采用χ2檢驗、Fisher精確概率法;若考慮到中心或其他因素的影響,采用CHMχ2檢驗。時序資料的組間比較采用Log‐rank檢驗。組間整體比較檢驗水準為0.05。
σ——樣本標準差。
2.3.1 核函數選擇
直流輸入電壓udc=55 V時,對比其中一相相電壓在空間矢量調制下濾波前后波形可知壓空間矢量調制波形為馬鞍形,相電壓頻率為50 Hz,波形圖如圖7所示。由于相電壓的三次諧波在合成線電壓時會相互抵消所以線電壓波形為只存在50 Hz基波的正弦波,如圖8所示。通過FFT分析,其主要成分只有50 Hz基波。線電壓峰值為54 V,直流電壓利用率為98.1%,與SPWM調制相比提高了15.3%,其值和理論分析值接近。可見,SVPWM調制下直流母線電壓的利用率較高。
在支持向量機預測建模的過程中核函數尤為重要,直接關系到最后預測數據的準確性。本文通過多次實驗確定以徑向基函數RBF作為核函數,預測模型的性能最好。
2.3.2 模型參數選擇
SVM確定采用徑向基核函數后,參數的選擇目標為尋找一組能使預測模型準確率最高的懲罰因子c和核參數g。其中,懲罰因子c決定了模型重視離群點引入的損失程度;而核參數g決定模型的泛化能力。本文支持向量機參數的選擇采用網格搜索法,使用Python工具包gridgression提供的k折交叉驗證法對徑向基核函數的c、g參數進行尋優,搜索范圍和搜索步長分別為[-10,10]及1。對于EMC和FF30模型尋得的最優參數見表5所示。
武成龍和鬼算盤打得異常激烈。回龍劍如銀蛇飛舞,不斷攻擊著鬼算盤的全身,然而鬼算盤那二尺一寸長的、近尺寬的、怪異的、烏黑發亮的鐵算盤好像一面盾牌一樣有效扼制了長劍的攻勢。長劍的輕靈飄逸與鐵算盤的沉重而笨拙相映成趣,不時響起“叮!叮!叮!”輕脆悅耳的碰撞聲,如果沒有斗場中刺耳的剔肉刮骨聲摻雜其間,會讓人感到那不是一場生死搏殺,而是一場陶醉人心的表演。

表5 徑向基核函數最優參數
2.4.1 校驗參數
基于下述4類參數對SVM回歸模型結果進行校驗:
新工科背景下,利用網絡教學平臺進行混合模式教學,在很大程度上克服了傳統教學存在的弊端,提高了學生的自主學習能力,體現了課程考核的多樣化和公正性。只有將傳統學習與網絡化學習結合起來,使二者優勢互補,才能獲得最佳的學習效果。
(1)均方根誤差(The root mean square error,RMSE):
④措施和計劃予以制定。制定系列規章管理辦法,營造宣傳氛圍。對媒體予以尊重,并合理利用,建立良好的媒體溝通機制。健全輿論危機應對措施,做到防患于未然。管理和教育需強化,醫務人員的媒體介素需進一步提升。與時俱進,傳統媒體和自媒體并重,加強媒體覆蓋面。
式中:
YSVM——EMC及FF30的SVM模型預測值;
Y——數據集EMC及FF30實驗值。
均方根誤差RMSE反映模型預測值及實測值之間的標準偏差,其值越小表明模型預測精度越高。
式中:
(7)
(2)路面材料:將道路路面材料歸納為瀝青及水泥混凝土兩類,分別對應編碼{1,0}。
(3)效率系數(Coefficient Efficiency,CE):
(8)
式中:
效率系數CE廣泛應用于校驗水文水力模型的模擬性能,反映模型預測值與實測值之間的方差與實測值均方差的比值,其值越接近于1表明模型預測精度越高。
(4)相關系數(Correlation coefficient,CC):
每年為政府提供一份區域非物質文化遺產保護和開發的研究報告。同時加強和地方文化、旅游、民族部門的聯系,開展橫向課題合作。與百色市及下屬各縣等合作建設系列非物質文化遺產研究基地,為區內外研究人員的田野調查和研究提供場所和方便,幫助各縣區開展非物質文化遺產的申報和保護、研發等工作。
(9)
(2)平均偏差(The mean bias error,MBE):
表示層用來完成地圖數據和業務數據的展示以及人機交互的相關邏輯,接收用戶的輸入并將用戶的意圖轉換為對業務層相關邏輯的調用。地圖展示和地圖操作通過調用ArcGIS API for JavaScript接口快速實現。
相關系數反映模型預測值與實測值之間的相關性,其值越接近于1,表明模型預測精度越高。
2.4.2 校驗結果
使用libsvm工具包提供的Java接口分別對兩組數據集進行訓練,運用驗證樣本對模型進行驗證。圖2及圖3所示分別為徑流污染COD指標的EMC及FF30模型預測值與實測值對比,由圖可知基于兩組數據集訓練得到的SVM模型均具有較好的預測能力。

表6 EMC-SVM模型校驗參數

表7 FF30-SVM模型校驗參數
表6及7所示分別為EMC及FF30支持向量機模型的校驗參數,從對驗證樣本的預測結果看:EMC-SVM模型均方根誤差(RMSE)、平均偏差(MBE)分別為57.928及-1.231,遠小于數據集EMC均值(189.59 mg/L),其效率系數(CE)及相關系數(CC)分別達到0.815及0.933,表明該模型具有較高的預測精度;FF30-SVM模型均方根誤差(RMSE)、平均偏差(MBE)分別為0.038及0.004,遠小于數據集FF30均值(0.457),其效率系數(CE)及相關系數(CC)分別為0.866及0.932,表明FF30-SVM模型同樣具有較高的預測精度。
論文以前人文獻中的實測數據作為樣本,結合國內外研究成果及論文實驗部分研究結論,選取合適的影響因子及決策變量作為模型輸入量及輸出量,基于支持向量機(SVM)構建了道路徑流污染預測模型。主要結論如下:
(1)選取雨型、平均雨強、峰值雨強、降雨歷時、雨前干期、大氣降塵量、PM10、車流量、路面材料及城市功能區等10項影響因子作為模型輸入量,分別選取徑流污染指標COD的場次降雨EMC及FF30值作為模型輸出量。對非數值屬性雨型、路面材料按類別編碼進行轉換,對城市功能區采用按要素權重打分的轉換方法。
(2)選用徑向基函數(RBF)作為核函數,使用k折交叉驗證法對模型參數進行尋優,對于EMC-SVM及FF30-SVM模型尋得的最優參數(c,g)分別為(64.0,0.001 953 125)、(2.0,0.062 5)。
在目前大部分的高職公共英語教學中,教師還是傾向于使用單一的教學方法,一本教材,一支粉筆,一堂課。同時,大部分公共課程進行大班授課,課堂活動組織困難,這就更加重了教師授課“滿堂灌”的傾向。除此,公共英語的教學內容雖然與學生日常生活有聯系,但是相當一部分內容對于學生而言已經過時或者很熟悉了,難以引起學生的興趣。
(3)校驗結果表明論文構建的EMC-SVM及FF30-SVM模型均具有較高的預測精度。EMC-SVM模型校驗參數RMSE、MBE遠小于數據集EMC均值,CE、CC達到0.815及0.933;FF30-SVM模型校驗參數RMSE、MBE遠小于數據集FF30均值,CE、CC分別為0.866及0.932。
此外,本文建立的預測模型以國內多個城市的道路降雨徑流污染實測數據為樣本,通過驗證,該模型預測精度較高,因此可作下述應用:
(1)對于開展監測實驗難度較大的城市道路,可以運用該模型進行降雨徑流污染的預測和評估:通過道路特性參數及降雨特性參數的輸入得到其在特定場次降雨下的EMC及FF30輸出值。
(2)預測模型輸出值EMC可作為降雨徑流模型(如:SWMM)的輸入參數,通過模型進一步計算出排水管網出口污染負荷。
(3)低影響開發(LID)作為城市降雨徑流水質水量管理的重要途徑,其方案設計應基于可靠的場地基礎數據。降雨徑流形成后,先經過LID單體設施的消納及凈化,再進入管網系統排出。因此路面徑流污染預測值EMC及FF30可作為LID方案設計的基礎數據。同時,模型輸出值FF30反映初期沖刷效應的顯著性,可為初雨截留裝置的設計提供依據。
(4)通過累加特定道路一年內所有場次降雨的EMC預測值與徑流量的乘積,得到道路年徑流污染負荷評估值。