孔憲喻,蘇榮國(中國海洋大學,海洋化學理論與工程技術教育部重點實驗室,山東 青島 266100)
?
基于支持向量機的黃東海富營養化快速評價技術
孔憲喻,蘇榮國*(中國海洋大學,海洋化學理論與工程技術教育部重點實驗室,山東 青島 266100)
摘要:以發展黃東海富營養化現場快速監測技術為目的,選取有色溶解有機物(CDOM)特征吸收系數aCDOM(255)、aCDOM(355)、aCDOM(455)及能現場實時監測的濁度(Tur)、葉綠素a(Chl a)、溶氧(DO)等水質參數,以TRIX值為參照,利用支持向量機建立了近海富營養化快速評價技術.建立的支持向量機模型最優懲罰參數C=45.3,最優核函數參數g=0.7,對訓練集分類準確率為92.5%,交叉驗證準確率為91.8%,驗證集分類準確率為85.0%.結果表明:基于CDOM吸收系數及DO、Chl a、Tur建立的近海富營養化快速評價技術能夠準確的對近海富營養化狀態進行評估,可為近海富營養化的現場快速監測提供技術支持.
關鍵詞:富營養化;快速評價;有色溶解有機物(CDOM);支持向量機
? 責任作者, 副教授, surongguo@ouc.edu.cn
隨著沿海經濟的快速發展,大量富含氮、磷等的工業廢水和城市生活污水排放入海,使近海富營養化問題日益突出.對近海富營養化進行現場快速實時評價成為海洋環境監測的迫切需要.目前,富營養化評價的常用方法主要包括單因子評價法(TSI)[1],富營養化指數法(EI)[2]、營養狀態質量指數法(NQI)[3]、富營養化狀態指數法(TRIX)[4]等綜合指數法,評價指標主要包括營養鹽、COD、BOD、溶氧(DO)、葉綠素a(Chl a)、濁度(Tur)等.由于營養鹽、COD等參數的測定存在操作較為復雜、試劑用量大等缺點,難以實現現場實時監測.
有色溶解有機物(CDOM)是存在于水體中的一類含有富里酸、腐殖酸、芳烴聚合物等物質的可溶性有機物,與營養物質的生物地球化學循環密切相關[5].CDOM的紫外可見吸收光譜的特定波長吸收系數可有效地揭示CDOM的組成特征,CDOM的濃度通常由某一選定波長處的吸收系數來表征.有研究指出CDOM的紫外可見吸收與DOC 、COD、營養鹽等水質參數有顯著相關性[6-8],同時紫外可見光譜分析技術已廣泛應用于在線實時監測.
支持向量機(SVM)是由Vapnik[9]根據統計學理論提出的一種基于結構風險最小化原則,通過引用核函數,將輸入空間中的非線性問題映射到高維特征空間,借此轉化成構造線性判別函數,在模式識別、圖像處理、數據挖掘、回歸預測等領域廣泛應用[10-13],可以很好地解決非線性問題.
近海富營養化的評價因素與富營養化等級之間關系復雜而且具有非線性特征.因此,本文以黃東海海域為研究對象,選取CDOM的特征吸收系數及可現場實時監測的DO、Chl a、Tur等水質參數,以TRIX值為參照,利用支持向量機建立黃東海富營養化快速評價技術.
1.1 研究區域
研究區域位于黃東海海區,樣品采集于2013 年7月,共57個站位,站位分布如圖1所示,共采集樣品294個.具體方法:用Niskin采水器現場采集1L水樣,立即用0.7μm的GF/F膜過濾,過濾后的膜樣用錫紙包好冷凍保存,用于測定Chl a的含量;過濾后的水樣置于潔凈棕色玻璃瓶中冷凍保存(-20℃),用于紫外可見吸收光譜分析;另外直接取未過濾的100mL水樣于聚乙烯瓶中冷凍保存,用于TN和TP的測定.

圖1 2013年7月黃東海航次站位Fig.1 Sampling stationsof the Yellow Sea and the East China Sea in July 2013
1.2 測定方法溫度(T)、鹽度(S)、DO和Tur:利用CTD測得.
Chl a:使用島津UV-2550紫外可見分光光度計,1cm石英比色皿,用90%的丙酮溶液萃取膜樣后的上清液于比色皿中測定,以90%的丙酮溶液做參比,波長范圍為400~800nm.取664,647, 630,750nm處的吸光度用Jeffrey and Humphrey方程計算Chl a濃度[14].
CDOM吸收系數:使用島津UV-2550紫外可見分光光度計,水樣用0.2μm聚醚砜針頭濾器過濾,1cm石英比色皿,以Mill-Q標準純水做參比進行測定.
1978年,黨的十一屆三中全會做出了把黨和國家工作中心轉移到經濟建設上來的歷史性抉擇,開啟了中國改革開放的新紀元。從以階級斗爭為綱轉變到以經濟建設為中心,從封閉轉變到擴大開放,從固守陳規轉變到改革創新。改革從農村到城市,從經濟領域到政治領域、科技教育及其他社會生活領域。面對社會經濟領域改革發展帶來的系統性、復雜性等問題,相關研究組織和機構陸續成立,一大批專家學者投身到這些問題的研究中。面對新形勢和新問題,為更好地服務科學決策,理論、方法、實踐亟待創新和運用。
TP和TN:分別采用磷鉬藍法和鎘-銅還原法對水樣TP和TN濃度測定.
1.3 富營養化狀態指數TRIX
1998年,Vollenweider等[4]提出了近海富營養化評價方法的TRIX指數法:

式中:Chl a為水體中葉綠素a的濃度,μg/L;TN、TP分別代表水體中總氮和總磷的濃度,μg/L; aD%O為水體中溶解氧的絕對標準偏差.
TRIX指數法包括了壓力因素TN和TP、生態響應因素Chl a及環境干擾因素溶解氧DO,較為全面的評價了富營養化狀況,具有簡單,準確度高等優點.富營養化狀態指數法已在地中海、黑海、波羅的海等近海水域的富營養化狀態評價中得到了廣泛的應用,并取得較好的效果[15-17].TRIX指數法對富營養化狀態的分類標準為: 2 1.4 富營養化快速評價技術建立 SVM利用核函數將低維輸入空間中線性不可分的點映射成高維特征空間中線性可分的點,在高維空間構建最優超平面,使同類樣本之間的相似性盡可能的大,異類樣本之間的相似性盡可能的小,理論上可以得到全局最優的解析解,不存在局部最優化問題,可達到最大泛化能力.可用圖2的二維分類情況說明,小圓點和三角代表兩類樣本,H為分類超平面,H1和H2分別為離分類超平面最近的樣本且平行于分類超平面的平面,它們之間的距離叫做分類間隔.高維空間中距離分類超平面最近的點所對應的低維空間點稱之為支持向量,如圖中大圓點所示[19-20]. 圖2 最優分類超平面示意Fig.2 The optimal separating hyperplane SVM的另一個重要特征是解的稀疏性,即需要少量支持向量即可構造最優分類器,在解決小樣本、非線性及高維模式識別問題中表現出許多特有的優勢[21-23].海水的富營養化評價是典型的模式識別問題,影響水質的因素很多,評價指標與水質標準等級之間是復雜的非線性關系,因此,支持向量機分類適用于建立富營養化評價技術. SVM常用的核函數包括線性核函數、多項式核函數、sigmoid核函數和徑向基核函數,應用最廣泛的是徑向基核函數,且具有較寬的收斂域,是較為理想的分類依據函數[24].本研究使用徑向基核函數.徑向基核函數可表示為: 選定核函數后,需確定最優懲罰參數C和核參數g.懲罰參數C主要表示錯分樣本的懲罰程度,核參數g主要影響樣本數據子空間分布的復雜程度.通常用k-折交叉確認法來評價參數的優劣[25]. 為全面反映海域富營養化狀況,選取水質狀態和生態響應兩方面指標作為富營養化快速評價指標.其中,水質狀態反映了海域富營養化的致害或壓力因素,生態響應反映了海域富營養化的效應因素.水質狀態指標包括反映水體溶解有機物特征(CDOM的特征吸收系數)指標和反映水體懸浮顆粒物特征(濁度)指標,生態響應包含初級生態響應(葉綠素a)和次級生態響應(溶解氧)指標. 富營養化快速評價技術建立的具體步驟為:利用支持向量機構建近海富營養化快速評價模型,以CDOM特征吸收系數aCDOM(255)、aCDOM(355)、aCDOM(455)及DO、Chl a和Tur等參數為輸入變量,TRIX評價結果為因變量,建立樣本數據集(訓練集),通過網格尋優對支持向量機分類預測模型的各項參數進行尋優處理,找到最優的參數取值;然后利用支持向量機進行學習訓練,得到基于網格尋優的支持向量機(GRIDSVM)模型,并利用此模型對驗證集樣品進行預測;最后討論快速測定指標的精度及溫度和鹽度等環境因素對模型的影響. 2.1 相關性分析 對支持向量機模型輸入變量進行分析,去除不相關或重復變量,對于保證模型的合理性以及提高模型的準確度具有重要意義.計算了各輸入變量與TRIX值及TN、TP的Pearson相關系數,結果如表1所示. 由表1可知,在0.01的顯著性水平下,DO、Chl a、Tur與TN、TP和TRIX都具有顯著相關性,相關性系數在0.231~0.771之間,吸收系數aCDOM(255)與TP和TRIX相關性系數分別為-0.247和-0.163,aCDOM(355)與TN相關性系數為0.170,aCDOM(455)與TRIX值在0.05的顯著性水平下具有顯著相關性,表明本研究選取的CDOM特征吸收系數aCDOM(255)、aCDOM(355)、aCDOM(455)及DO、Chl a、Tur等水質參數與水體富營養化之間具有關聯性. 表1 輸入變量和TN、TP及TRIX值的Pearson相關系數Table 1 The Pearson correlation coefficient between the input variables, TN, TP and the TRIX values 2.2 TRIX富營養化評價標準 表2 TRIX值及水質參數表Table 2 Statistics of TRIX values and water quality parameters 對294個樣品的DO、Chl a、Tur、aCDOM(255)、aCDOM(355)、aCDOM(455)等參數以及TN、TP和TRIX值進行統計分析(表2),可知TRIX的平均值為5.65,變化范圍在2.66~7.32之間,符合TRIX分類標準,即2 2.3 富營養化快速評價技術的建立 從294個樣品中隨機抽取147個樣品作為訓練集,其余147個樣品作為驗證集.以CDOM特征吸收系數aCDOM(255)、aCDOM(355)、aCDOM(455)以及DO、Chla、Tur等6個參數為輸入變量,以TRIX值為因變量,以TRIX值為因變量,根據TRIX的分類結果,將訓練樣品對應的低富營養化、中等富營養化和高富營養化狀態分別賦值1、2和3.由于數據中各變量的量綱和數量級不同,為減小數值變化幅度差異,將數據進行了[0,1]歸一化處理,同時運用主成分降維預處理,設置特征提取百分比為95%,在此基礎上,利用支持向量機技術建立富營養化快速評價模型. 采用LIBSVM-3.1軟件建立支持向量機分類模型,設置核函數為RBF,為確定懲罰因子C和核參數g的最佳參數值,將C、g分別取以2為底的指數離散值,代入k-cv交叉驗證的算法中,選取平均驗證準確度最大的C、g值作為模型參數.模型參數設置C∈{2-10,2-9.5,…,210},g∈{2-10, 2-9.5,…,210},V=5,進行網格尋優,結果如圖3所示. 圖3 網格尋優參數選擇結果Fig.3 The optimization results of Grid Search 利用網格尋優方法確定的參數最優值為C=45.3,g=0.7.在此條件下,訓練集分類準確率為92.5%,交叉驗證準確率為91.8%.所建立的支持向量機(SVM)分類預測函數可以表示: 該模型包含65個5維的支持向量,來自于訓練集樣本[0,1]歸一化后形成的轉置矩陣,按行依次分解得到的向量(i=1,2,…,65)以及相對應的分類標簽向量;核函數為K(xi,x)=exp(-0.7||x-xi||2);支持向量系數為一個65×2的矩陣,矩陣元素為(i=1,2,…,65),由懲罰參數C=45.3與符號函數組成. 2.4 富營養化快速評價技術的驗證 驗證集的147個樣品,按照TRIX評價結果,38個樣品為低富營養化狀態,44個為中等富營養化狀態,65個為高富營養化狀態.利用建立的富營養化快速評價技術對驗證集樣品進行分析,得到驗證集樣品的富營養化狀態預測值,與TRIX分類結果進行對比,得到驗證集樣品的分類準確率為85.0%(圖4).其中,低富營養化、中等富營養化和高富營養化樣品的分類準確率分別是100%、75.0%和83.1%.中等富營養化誤判為低富營養化的樣品為7個,其中TRIX值在5.0~5.1之間的為5個,中等富營養化誤判為高富營養化的樣品為4個,其中TRIX值在5.9~6.0之間的為1個;高富營養化樣品誤判為中等富營養化的樣品為11個,其中TRIX值在6.0~6.1之間的為7個,預測錯誤的樣品其TRIX值多數處于富營養化狀態分類邊界值附近.若不計TRIX分類邊界值附近的誤判,驗證集樣品富營養化狀態的分類準確率達到93.9%,可見,利用DO、Chla、Tur及CDOM光學參數等6個指標建立的富營養化快速評價技術對實現近海富營養化狀態的現場快速評價具有較高的準確度. 圖4 驗證集的實際分類與預測分類Fig.4 The classification diagram of actual category and predicted category for the test set 2.5 水質指標精度及環境因子影響 利用在驗證集數據中各水質指標分別添加隨機誤差的方法考查了水質指標精度對模型穩定性的影響(表3).結果表明,當隨機誤差小于20%時,模型預測結果幾無變化,當隨機誤差達到30%時,模型預測準確度稍有降低.說明選取DO、Chla、Tur及CDOM光學參數等6個指標建立的富營養化快速評價技術有較好的穩定性. 表3 水質指標精度對分類模型預測結果的影響Table 3 Effects of water quality indicators accuracy on prediction accuracy of classification model 為探討溫度和鹽度等環境因子對模型的影響,在輸入變量中加入溫度和鹽度指標,構建加入不同變量后的分類模型,結果表明(表4),鹽度對快速評價技術的預測結果基本沒有影響.溫度對驗證集預測結果也基本沒有影響.因此,本文選取DO、Chla、Tur及CDOM光學參數等6個指標建立富營養化快速評價技術受溫度、鹽度等環境因子的影響不明顯. 表4 溫度和鹽度對分類模型的預測精度的影響(%)Table 4 Effects of temperature and salinity on the accuracy of the classification model (%) 基于CDOM特征吸收系數aCDOM(255)、aCDOM(355)、aCDOM(455)及可現場實時測定的DO、Chla、Tur等水質參數,利用支持向量機建立了近海富營養化快速評價技術,對訓練集樣品富營養化狀態的分類準確率為92.5%,交叉驗證準確率為91.8%,對驗證集樣品富營養化狀態的分類準確率為85.0%,其中,低富營養化、中等富營養化和高富營養化樣品的分類準確率分別是100%、75.0%和83.1%.所建立的富營養化快速評價技術為近海富營養化監測提供了一種快速有效的新方法. 參考文獻: [1] Carlson R E.A trophic state index for lakes [J].Limnology and Oceanography, 1977,22(2):361-369. [2] 秦銘俐,蔡燕紅,王曉波,等.杭州灣水體富營養化評價及分析[J].海洋環境科學, 2009,28(A01):53-56. [3] 李成高,崔 毅,陳碧鵑,等.唐島灣網箱養殖區底層水營養鹽變化及營養狀況分析 [J].海洋水產研究, 2006,27(5):52-62. [4] Vollenweider R A, Giovanardi F, Montanari G, et al.Characterization of the trophic conditions of marine coastal waters, with special reference to the NW Adriatic Sea: proposal for a trophic scale, turbidity and generalized water quality index [J].Environmetrics, 1998,9(3):329-357. [5] Rochelle-Newall E J, Fisher T R.Chromophoric dissolved organic matter and dissolved organic carbon in Chesapeake Bay [J].Marine Chemistry, 2002,77(1):23-41. [6] Hur J, Cho J.Prediction of BOD, COD, and total nitrogen concentrations in a typical urban river using a fluorescence excitation-emission matrix with PARAFAC and UV absorption indices [J].Sensors, 2012,12(1):972-986. [7] Kowalczuk P, Zablocka M, Sagan S, et al.Fluorescence measured in situ as a proxy of CDOM absorption and DOC concentration in the Baltic Sea [J].Oceanologia, 2010,52(3):431-471. [8] Vasel J, Praet E.On the use of fluorescence measurements to characterize wastewater [J].Water Science & Technology, 2002, 45(4/5):109-116. [9] Vapnik V.The nature of statistical learning theory [M].Springer Science & Business Media, 2000. [10] 顧海峰,游冬良.基于支持向量機的信托公司風險預警指標及模型研究——來自2005年-2013年信托業的經驗證據 [J].金融監管研究, 2014,(9):68-87. [11] 何世鈞,唐瑩莉,張 婷,等.基于支持向量機的綠潮災害影響因素的權重分析 [J].中國環境科學, 2015,35(11):3431-3436. [12] 李祚泳,張正健.基于回歸支持向量機的指標規范值的水質評價模型 [J].中國環境科學, 2013,33(8):1502-1508. [13] 姜 雪,盧文喜,楊青春,等.應用支持向量機評價土壤環境質量[J].中國環境科學, 2014,34(5):1229-1235. [14] Hoge F E, Vodacek A, Blough N V.Inherent optical properties of the ocean: retrieval of the absorption coefficient of chromophoric dissolved organic matter from fluorescence measurements [J].Limnology and Oceanography, 1993,38(7):1394-1402. [15] Giovanardi, Vollenweider R A.Trophic conditions of marine coastal waters: experience in applying the Trophic Index TRIX to two areas of the Adriatic and Tyrrhenian seas [J].Journal of Limnology, 2004,63(2):199-218. [16] Parkhomenko A V, Kuftarkova E A, Subbotin A A, et al.Results of hydrochemical monitoring of Sevastopol Black Sea's offshore waters [J].Journal of Coastal Research, 2003:907-911. [17] Vascetta M, Kauppila P, Furman E.Indicating eutrophication for sustainability considerations by the trophic index TRIX: does our Baltic case reveal its usability outside Italian waters[C]//PEER Conference, 17th November.2004. [18] Pettine M, Casentini B, Fazi S, et al.A revisitation of TRIX for trophic status assessment in the light of the European Water Framework Directive: Application to Italian coastal waters [J].Marine Pollution Bulletin, 2007,54(9):1413-1426. [19] 王 冉,楊道軍.基于支持向量機的巢湖富營養化程度評價研究[J].環境科學與管理, 2011,(5):181-184. [20] 王洪禮,王長江,李勝朋.基于支持向量機理論的海水水質富營養化評價研究 [J].海洋技術, 2005,(1):48-51. [21] Cristianini N, Shawe-Taylor J.An introduction to support vector machines and other kernel-based learning methods [M].Cambridge: Cambridge University Press, 2000. [22] 周建國,張希剛.基于粗糙集與灰色SVM的中國CO2排放量預測 [J].中國環境科學, 2013,33(12):2157-2163. [23] 何世鈞,唐瑩莉,張 婷,等.基于支持向量機的綠潮災害影響因素的權重分析 [J].中國環境科學, 2015,35(11):3431-3436. [24] Hsu C W, Chang C C, Lin C J.A practical guide to support vector classification [OL].2010-04-15 [25] 萬 鵬,王紅軍,徐小力.局部切空間排列和支持向量機的故障診斷模型 [J].儀器儀表學報, 2012,(12):2789-2795. [26] 王文森.變異系數——一個衡量離散程度簡單而有用的統計指標 [J].中國統計, 2007,(6):41-42. A support vector machine-basedtechnology for rapidly assessing trophic status of the Yellow Sea and the East China Sea. KONG Xian-yu, SU Rong-guo?(Key Laboratory of Marine Chemistry Theory and Technology, Ministry of Education, Ocean University, Qingdao 266100, China).China Environmental Science, 2016,36(1):143~148 Abstract:In this study, wedeveloped a support vector machine-based model for rapidly assessing trophic status of coastal watersby easy-to-measure parameters (aCDOM(255), aCDOM(355), aCDOM(455), turbidity (Tur), chlorophyll a (Chl a) and dissolved oxygen (DO)) with the trophic index (TRIX) serving as a reference.After the optimal penalty parameter C(45.3) and kernel parameter g (0.7) were obtained by Grid Search, the SVM model was established and its classificationaccuracy rate was 92.5% for the training data, 85.0% for the validation dataand 91.8% for the cross-validation.The results indicated that the developed technique could be useful for rapidly assessingthe eutrophication status ofcoastal waters. Key words:eutrophication;rapidly assessing;CDOM;support vector machine 中圖分類號:X55 文獻標識碼:A 文章編號:1000-6923(2016)01-0143-06 收稿日期:2015-06-19 基金項目:山東省自然科學基金(ZR2013DM017);國家自然科學基金(41376106) 作者簡介:孔憲喻(1990-),女,山東青島人,碩士研究生,主要從事海洋污染生態研究.

2 結果分析







3 結論