鄧偉萍 桂超 汪波 石黎 關培超
摘? 要:針對水質評估因子的模糊性和非線性特征,且水質樣本小類(如高污染水質類)因樣本量少而容易導致誤分的問題,深入研究了支持向量機(SVM)這一善于解決非線性問題的智能模型,設計了一種多寬度復合高斯核的支持向量機模型。該模型通過多個復合高斯核擴大和控制核函數寬度,以此擴大樣本間歐氏距離與差異,以解決小類的誤分問題。運用MATLAB平臺對2017 年全國98 個重點斷面水質周報數據進行算法對比實驗,結果證實多寬度核評估模型較好地提升了SVM的分類精度,對水質分類問題是可行有效的,對其他小樣本分類問題也有一定的借鑒作用。
關鍵詞:水質評估;多寬度高斯核; 支持向量機;參數尋優
中圖分類號:TP391.4? ? ?文獻標識碼:A
文章編號:2096-1472(2022)-01-47-03
Abstract: In view of the ambiguity and non-linear characteristics of water quality assessment factors, and the problem of small water quality samples (such as high-polluted water quality) that are easy to cause misclassification due to the small sample size, support vector machine (SVM), a smart model which is good at for solving nonlinear problems, is deeply studied. This paper proposes to design a support vector machine model with a multi-width compound Gaussian kernel. The proposed model expands and controls the width of the kernel function through multiple compound Gaussian kernels to expand the Euclidean distance and difference between samples, so that the problem of misclassification of small classes can be solved. The MATLAB platform is used to conduct algorithm comparison experiments on the water quality weekly report data of 98 key sections across China in 2017. The results prove that the multi-width kernel assessment model improves the classification accuracy of SVM, which is feasible and effective for water quality classification problems. It also provides a reference for problems of other small sample classification.
Keywords: water quality assessment; multi-width Gaussian kernel; support vector machine; parameter optimization
1? ?引言(Introduction)
隨著經濟的高速發展,我國的水資源污染狀況也愈發嚴峻,局部地區的水質惡化事件時有發生。因此,實時監測和評估地表水的質量與變化,將為環境決策、工農業生產服務提供依據,是防止污染與合理利用水資源的基礎[1]。水質評估分單因子評估與多因子評估,在沒有突發水污染事件的情況下,對斷面進行長期監測與評估時一般采用多因子評估方法。
鑒于水質評估中各評估因子的模糊不確定性和非線性特征,有學者采用智能計算方法進行水質評估。陳海洋等人[2]通過構建多個子分類器的決策樹支持向量機模型評估水質的多分類問題;馬創等人[3]使用遺傳算法與支持向量機建立自適應權重水質預測模型;方國華等人[4]采用粒子群算法,計算水量與水質聯合配置模型;石晴宜等人[5]采用模糊神經網絡計算洪澤湖入湖水質等問題;XIA等人[6]采用粒子群、蜂群、支持向量機等多種混合優化算法評定水質富營養化分級。上述方法解決了水質評估的多分類問題,也對參數尋優的過程進行了優化,但對分類過程中的小樣本類別的誤分問題沒有側重考慮,本文決定對支持向量機(Support Vector Machine, SVM)中的核函數進行改進,重點解決多因子分類中小樣本訓練不夠易誤分的問題。
2? ?支持向量機(Support Vector Machine)
支持向量機分類模型的原理是通過核函數將樣本點映射到多維特征空間,通過構造最優分類超平面,使得超平面與不同類樣本集之間的距離最大,從而達到最大的泛化能力。
SVM標準算法中,設有訓練樣本集為,
與分別表示兩類不同的樣本;樣本集可被一超平面,即沒有錯誤地分開,對任意一個訓練樣本都有:
使分類間隔最大的分類面稱為最優分類超平面,尋找過程轉化為求如下一個二次規劃問題:,滿足約束條件(1)。采用LaGrange轉換,將二次規劃問題轉為如下一個對偶問題:
稱為核函數,將高維特征空間中內積運算轉化為低維模式空間上一個簡單的函數計算。核函數中以高斯核函數(Radial Basis Function, RBF)運用最廣泛:
其中,為高斯分布的寬度。
3? 多寬度高斯核支持向量機(Multi-width Gaussian kernel Support Vector Machine)
高斯核支持向量機中可調的參數僅有核寬度,樣本映射到特征空間后其分布是不均勻的,容易導致支持向量機模型在樣本集中的區域產生過學習現象,而在樣本稀疏區又學習不足,從而產生錯分問題或陷入局部最優解現象。針對此類問題,多寬度高斯核被提出[7],其核函數是一種復合函數,形式如下:
通過二項式定理展開后:
形成一種復合核函數,是由一系列不同寬度的高斯核構成,每個核的寬度為,影響單個高斯核的空間收放程度。文獻[8]闡述了當時,二項式展開式的前面若干個高斯核將被放大,影響程度高,權重加大;反之,當時,二項式展開式的后面若干個高斯核將被放大,權重加大。
多個不同寬度的高斯核累加在一起,通過多參數調節,能解決其可調參數單一容易導致的過學習問題,提高單一高斯核函數的抗干擾性和泛化能力;常量因子將點集之間的矢量距離放大了,這也將擴大樣本點映射在特征空間的差異,從而提高分類器的效率[9]。
多寬度核的參數增加,給參數尋優增加了困難[10]。現討論參數對核函數的影響,對式(5)做簡化處理:
當時,是普通的高斯核;增大,核寬度明顯縮小,有利于函數收斂;當增大時,等同于增大,核寬度縮小;當時,核函數徑向作用范圍被顯著拉伸,加大樣本在特征空間的距離差異,有利于分類,三個參數需要結合樣本進行協調[11]。
4? ?實例驗證(Example verification)
本文以全國主要流域重點斷面水質自動檢測周報[12]作為數據源,選取了2017 年第1 周、第8 周、第31 周、第44 周不同時期的水質監測數據。以PH值、溶解氧(DO)、高錳酸鹽指數(CODMn)與氨氮(NH3-N)四項因子作為水質評估指標。2017 年有效斷面監測點為98 個,包括長江、黃河、淮河、松花江、太湖、遼河、海河等主要江河流域和重要湖泊,取58 個樣本作為訓練集進行SVM模型的訓練,另外取40 個樣本作為測試集進行預測。表1列出了中華人民共和國國家地表水環境質量標準(GB3838—2002)提供的指標限值標準。
本文以LIBSVM軟件包為開發工具,在MATLAB 2016平臺上分別對水質樣本做了比較試驗,對比研究了不同樣本集、不同參數下多寬度高斯核與標準高斯核的分類結果。以2017 年第31 周水質樣本為例,闡述實驗結果:參數組如表2所示,參數對應式(7)中的和懲罰因子,令,為突出比較其他主要參數,表2中統一設。多寬度高斯核分類準確率對比如表3所示。多寬度高斯核與標準高斯核(RBF)的最優預測結果如圖1、圖2所示,反映一類至五類及劣五類共六個水質等級,符號○表示Labels,代表實際水質評估結果;符號*與分別表示多寬度高斯核與標準高斯核的預測值。
從實驗結果可以看出,參數d放大高斯核徑向作用的范圍,拉大了樣本距離,對高斯影響最大,直接影響精度。對比參數組Ⅱ與Ⅴ、Ⅲ與Ⅵ,在相同的情況下,d增大,準確率均有提高。決定高斯核的寬度,對比參數組Ⅰ、Ⅴ、Ⅵ,在d相同的情況下,增大,核寬度縮小,有利于加快收斂,快速找到最優解。但和d增長到一定程度,精度將不再提高,如參數組Ⅱ、Ⅲ、Ⅳ,提高將導致過學習狀態產生。
現討論多寬度核的特例情況,令,多寬度核轉變為標準高斯核,其可調節參數為c和,調節參數后經實驗演算,得到如圖2所示的最優解。
對比圖1、圖2中相同40 個預測樣本在不同方法下的最優預測結果可以發現,多寬度高斯核評估結果更吻合實際評估值,其分類精度要優于標準高斯核(RBF),特別是在易錯分的四、五、六等小類上分類精度也有所提高。
5? ?結論(Conclusion)
分析水質評估問題的特點后,引入多寬度高斯核SVM方法進行水質評估。多寬度高斯核是一種復合核函數,較之標準高斯核,其通過拉大樣本在特征空間的歐式距離來降低誤分率。該模型對弱特征類別、小樣本分類非常有利,能較好地解決水質分類中局部高污染點這種小樣本類的錯分問題。
通過比較多組實驗數據,分析了不同參數對核函數分類性能、收斂速度和泛化能力的影響,為合理尋找最優核函數提供依據,并闡述多寬度高斯核的收斂速度略落后于標準高斯核,但是其分類性能、泛化能力要優于標準高斯核。
經實驗研究證實,該綜合模型對水質評估是高效可行的,為合理選擇水源,充分利用和管理水資源提供了重要依據。
參考文獻(References)
[1] 郭彥英,鄧云峰.AHP法在地表水水質綜合評估指標權重確定中的應用[J].蘭州交通大學學報(自然科學版),2006(6):70-72.
[2] 陳海洋,滕彥國,王金生.改進的決策樹支持向量機地下水水質評估[J].計算機應用,2011(3):848-850.
[3] 馬創,王堯,李林峰.基于遺傳算法與支持向量機的水質預測模型[J].重慶大學學報,2021,44(07):108-114.
[4] 方國華,王雪,方應學,等.基于改進粒子群算法的區域水量水質聯合配置研究[J].水資源保護,2021(10):1-15.
[5] 石晴宜,董增川,羅赟,等.基于機器學習方法的洪澤湖入湖水質評估及預測研究[J].中國農村水利水電,2021(10):1-14.
[6] XIA J J, ZENG J. Environmental factor assisted chlorophyll—a prediction and water quality eutrophication grade classification: A comparative analysis of multiple hybrid models based on a SVM[J]. Environmental Science: Water Research and Technology, 2021,7(6):1040-1049.
[7] 田徑,趙犁豐,趙宇倩.一種基于WGKMW的網絡結構核函數框架[J].中國海洋大學學報,2009(9):471-474.
[8] 常群,王曉龍,林沂蒙,等.支持向量分類和多寬度高斯核[J].電子學報,2007(3):484-487.
[9] 汪廷華,趙東巖,張瓊.多類核極化及其在多寬度RBF核參數選擇中的應用[J].北京大學學報(自然科學版),2012,48(05):727-731.
[10] 羅浪.基于多寬度高斯核的支持向量機參數優化與特征選擇算法研究[D].武漢:中南民族大學,2018.
[11] 鄧偉萍.基于智能算法的洪災綜合評估模型研究[D].武漢:華中科技大學,2013.
[12] 中國環境監測總站.水質自動監測周報[EB/OL]. (2017-01-09)[2017-11-03]. http://www.cnemc.cn/sssj/szzdjczb/201712/t20171211_660224.shtml.
作者簡介:
鄧偉萍(1979-),女,博士,副教授.研究領域:機器學習,智能評估與預測.
桂? 超(1966-),男,碩士,教授.研究領域:智能計算,網絡編碼.
汪? ?波(1977-),男,碩士,副教授.研究領域:計算機系統結構.
石? ?黎(1980-),女,博士,副教授.研究領域:機器學習,決策與決策支持.
關培超(1977-),男,博士,講師.研究領域:軟件工程,空間信息共享與集成.