張慧妍, 段 瑜, 王小藝, 許繼平, 鄭 蕾
(1.北京工商大學 食品安全大數據技術北京市重點實驗室, 北京 100048; 2.北京師范大學 水科學研究院, 北京 100875)
農業水質與農產品生產安全密切相關,對其進行監測與評價為從源頭保障生態農業建設提供支撐。農業在線水質監測一般在野外進行,環境影響因素眾多,測試數據攜帶噪聲是不可避免的。因此,構建抗擾性較強、實用性較好的農業水質綜合評價模型,與實時監測設備結合,將有利于進行自動、實時評價,以避免由于監測不及時,任由水質惡化引發農作物污染等問題。
借鑒以往綜合評價方法可在一定程度上對解決農業水質評價面臨的噪聲等不確定性有所裨益。其中,模糊數學[1-2]可以恰當表達、計算難以量化的模糊信息,為農業水質評價問題提供了一種可行的解決思路,但如何避免主觀因素對參數的影響還需要注意。投影尋蹤法[3-4]通過考察數據投影方向的積聚與離散特征以實現數據降維目的,其投影值權重可作為綜合評價的基礎,但尋求簡單、有效的求解方法是投影尋蹤法實際應用中必須解決的前提條件。灰色理論[5-6]則是針對數據量少、信息貧乏問題的一種實用不確定信息處理手段,與其他算法融合有可能發揮其優勢并拓展應用。
此外,余勛等[7]針對水質評價過程中模型結構的參數不確定性,建立融合三角模糊數的貝葉斯模糊綜合評價模型,對不確定性的刻畫更為全面、符合實際。鞏奕成等[8]為解決水質評價中的數據模糊性與指標不相容性,引入螢火蟲算法,優化尋求最佳投影方向,實現合理評價的目的。梁中耀等[9]則基于二項分布檢驗法定量表征了變量不確定性可能導致的決策風險,研究結果更具魯棒性。
本文擬依據農業水質評價標準,結合監測數據,探索在監測噪聲情況下,建立具有良好抗擾性和等級劃分的綜合評價模型。采用投影尋蹤法求得各評價指標的優化權重;數據驅動優化確定三角形隸屬度參數,進而構建模糊支持向量機評價模型有效地解決農業水質監測數據中存在的數據噪聲問題。此外,提出的等級劃分可信度,以期有效度量綜合評價等級可信任的程度,提高等級劃分分辨率,為全面考察綜合評價結果提供一個新的視角。
多指標綜合評價中各指標權重的科學確定,對于評價結果的客觀、公正具有重要意義。投影尋蹤(projection pursuit,PP)函數[10-11]是從評價指標數據特征出發來確定指標權重的方法,可有效避免權重確定中的主觀性和隨意性。
投影尋蹤法指標權重確定過程如下:
首先,利用PP函數將無量綱處理后[13]的m維數據xi=(xi1,xi2,…xim)變換為以σ=(σ1,σ2,…,σm)為投影分向量的一維特征值zi=xiσT,得到z=(z1,z2,…zi,…,zl)。而后通過z的標準差S(z),z與其對應的水質經驗等級g=(g1,g2,…,gl)的相關系數絕對值Rzg定義投影指標函數Q(σ)。即:
Q(σ*)=maxQ(σ)=S(z)Rzg
(1)
(2)
PP函數的求解σ實質上是一個非線性優化問題,存在計算復雜,模型優化求解困難等問題。適于非線性問題優化求解的遺傳算法(genetic algorithm,GA)[12]存在易陷入局部最優,穩健性不好等弊端。本文提出改進算法,其主要思想為擴充、倍增備選解集,每次迭代過程中最優解被強制保留在備選解集中,解決了最優解可能丟失的缺點,并增強了模型求解的穩健性。
在實際應用中,通過計算機算法求解σ實現多指標權重的客觀確定,具有較好的適用性,在指標增加是可以僅需修改對應權重向量的維度,快捷、方便地計算給出新的數據驅動權重結果。
支持向量機(support vector machine, SVM)在非線性分類及高維模式識別中表現出特有的優勢[14-16]。選擇SVM是期望能夠利用其結構風險小,泛化能力強的特點來提高模型的抗噪聲干擾特性。
由于傳統SVM對孤立點反應敏感,而野外在線監測獲得的數據常常伴隨噪聲、野值,且綜合評價研究中認為等級邊界漸變較為合理。因此,本文采用模糊支持向量機(fuzzy support vector machines,FSVM)[17-20]嘗試對上述問題予以解決。通過合理設置隸屬度對樣本點實現差異化與模糊化[21-22]以提高評價精度。
在農業水質綜合評價中,評價指標之間存在著復雜的非線性關系,因此,需要利用核函數K(xi,xj)映射變換。模糊訓練樣本集為:T=[φ(xi),yi|i=1,2,…,l],其中樣本xi∈Rm,φ(xi)為經過核函數變換的樣本指標,評價標簽yi∈{-1,+1},隸屬度fi∈(0,1],為降低樣本錯分的幾率,需要設置懲罰參數C。則FSVM優化目標和約束條件如下:
(3)
(4)

(5)
為簡化起見本文構建的FSVM選用三角模糊隸屬度,1隸屬度值對應為農業水質等級評價標準中對應等級的區間中心值;而對應的0.5隸屬度的值,則需結合需要劃分等級的建模數據方差設定。
為了較精細地刻畫評價等級結果,本文綜合FSVM的判別函數值ki,隸屬度fi,評價標簽yi,引入區域劃分可信度δi作為評價補充,使得評價結果更加全面、易于理解。在采用FSVM評價時,每構建一次評價超平面,參與評價的樣本就會產生一個對應的區域劃分可信度。構建超平面時的樣本區域劃分可信度具體定義如下:
(6)

由公式(6)可知區域劃分可信度由兩部分構成,一部分體現了模型離散評價等級的偏差;另外一部分綜合了判別函數值與隸屬度,體現了FSVM評價結果的精確范圍。校正參數p,q應使公式(6)中的分子與分母的數量級一致。p和q的存在,保證了模型參數在一定范圍內可以做出調整以適應不同的具體情況。文中選取p=1,q=1。

應用中每經過一次超平面劃分,參與劃分的樣本就會按公式(6)計算出其相應的區域劃分可信度。這樣,通過比較每組監測數據所得的區域劃分可信度,了解評價結果的可信任程度,有效彌補了現行離散評價結果分辨率較低的不足。
參考國家農田灌溉水質標準并且結合太湖流域的水域環境,本文選取鹽度、氯化物、氨氮、溶解固體作為監測指標,將水質等級分為Ⅰ級(優)、Ⅱ級(良)、Ⅲ級(中)、Ⅳ級(差),具體評級標準見表1。

表1 農業水質等級評價標準
首先根據表1水質等級評價標準產生虛擬樣本序列[23],每個等級隨機產生5組數據,即共生20組標準水質樣本,同時為了增加樣本代表性,本文將指標處于等級區間臨界值的水樣定義為中間水質等級,見表2的第6,12,18組數據。
如指標權重確定采用改進GA算法對PP函數求解,求得的投影權重σ=(0.108 1,0.442 6,0.805 7,0.378 5)。

為驗證模型評價效果,在相同條件下隨機生成40個樣本(每級10個)進行評價,測試結果正確的為39個,評價結果與水質經驗等級的一致率為97.5%,而采用傳統的灰色聚類法和模糊綜合評價法對虛擬測試樣本序列進行對比評價,兩種對比方法的一致率為95%和92.5%,說明使用本模型的評價結果可以推廣應用,精度較高。
進一步,選取太湖流域用于農業灌溉的20個水質監測樣本進行實測檢驗,最終評價結果詳見表3。

表2 農業虛擬水質樣本、經驗等級及模型評價結果

表3 農業水質等級評價實例數據與不同評價方法的評價結果
其中,水樣7的鹽度屬于1級,而其他指標均屬于2級,由于鹽度權重較小,故最終模型評價此樣本為2級,其區域劃分可信度;水樣5的氨氮含量屬于2級,但計及其他污染物綜合考量,最終被模型評價為1級水,其區域劃分可信度 。3次構建評價超平面的評價區域劃分可信度的無效臨界值分別為δ1=0.438 9,δ2=0.374 3和δ3=0.221 6,易知可信度均大于無效臨界值,水質綜合評價結果可信。
為了進一步考察模型的抗噪穩定性,在實測樣本中分別加入10%,20%,30%范圍的隨機噪聲進行測試分析。表4表明,在較低的隨機噪聲條件下,本文模型和模糊綜合法的評價結果基本不受影響,而灰色聚類法模型則出現錯評情況;在20%,30%的噪聲條件下所有模型均出現錯評,但本文的FSVM模型的錯評數少于對比模型。說明本文提出綜合評價模型評價精度較高,抗噪能力較強。

表4 加噪條件下模型的評價結果對比分析
此外,實際應用中存在監測數據突然變化是由于自然條件的改變而引起的,若模型參數恒定則不能區分隨機噪聲和真正的環境條件變化。因此,模型應用時需要與實時監測設備結合,存儲采集數據,通過合理設定模型參數更新時長以盡快捕獲水質的靜、動態特性,為甄別隨機噪聲與自然條件的變化提供理論與技術支撐。
針對農業水質綜合評價中監測數據存在噪聲影響模型判別準確性,及常用評價的4等級劃分精度相對粗糙問題,本文提出數據驅動的FSVM評價模型。首先通過改進GA算法求解PP函數快速穩健地實現了指標權重優化;而后對FSVM模糊隸屬度進行優化確定,經過3次構建評價超平面實現了4個等級有效換份,減小了噪聲的影響;最后,通過引入綜合評價區域可信度,用來表征模型評價結果的可信賴程度,為離散等級進一步細化描述提供了參考。文中提出的綜合評價模型構建方法具有計算量小,訓練速度快、穩健性好、區域可信度較高等優點,實例驗證了模型的可行性與有效性。