999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據挖掘的銅綠微囊藻試驗模擬數據分析

2012-12-25 00:56:36許云峰馬春子霍守亮席北斗錢光人
環境工程技術學報 2012年4期
關鍵詞:數據挖掘分類

許云峰,馬春子,霍守亮,席北斗,錢光人*

1.上海大學環境與化學工程學院,上海 200444

2.中國環境科學研究院,北京 100012

富營養化已經成為全世界關注的熱點問題[1-4],人們進行了大量室內模擬試驗探討富營養化的發生機制。其中,銅綠微囊藻等藍藻細菌是引起湖泊夏季水華的主要藻類[5],會導致水處理費用增加[6-7]、水的娛樂價值降低并產生惡臭及微囊藻毒素[8]等,針對銅綠微囊藻的研究成為室內研究水體富營養化的主要關注點,且得到了大量試驗模擬數據。然而,這些試驗模擬數據所反映的規律是非常有限的,同時又耗費了大量的人力物力。因此為更好地掌握由室內模擬試驗得到的湖泊富營養化發生機制,并節省人力和資源,需尋求一種從數據中總結規律,據以指導試驗及實際湖泊富營養化治理的方法。

數據挖掘是從一個新的角度將數據庫技術、機器學習、模式識別和統計學等領域結合起來[9],從大量不完全的、有噪聲的、隨機的數據中,提取隱含在其中人們事先不知道的,但又有潛在價值的規律和知識的過程。目前已經廣泛應用于金融[10]、零售[11]、醫藥[12-14]、通訊[15]、化學工程[9,16]和航空[17]等領域。筆者運用數據挖掘方法對收集的銅綠微囊藻試驗模擬數據進行定性分析,以探求抑制藻類生長的主要影響因素。

1 數據與方法

1.1 數據分析

查閱國內外研究機構發表的文獻,收集銅綠微囊藻的試驗模擬數據,對其進行分類整理與分析。收集的數據主要涉及:試驗時間(T,d)、試驗水溫(Tw,℃)、總氮的初始濃度(TN0,mg/L)、總磷的初始濃度(TP0,mg/L)、試驗初始 pH(pH0)、水中鐵的初始濃度(Fe0,mg/L)、藻密度(N,106個/mL)、接種藻密度(N0,106個/mL)、水流速度(v,cm/s)、擾動(R,r/min)、光照強度(E,lx)、光暗比(L,h/h)。

藻類水華是湖泊富營養化發生的顯著特征,這就增加了藻密度作為湖泊水質評價指標的重要性。藻密度是衡量藻濃度的主要常規性監測指標[18]。當藻密度達到106個/mL時有可能爆發水華現象[19]。因此將藻密度N作為目標變量,以藻密度為1×106個/mL作為湖泊能否發生富營養化的分界線。

目標變量 N,N<1×106個/mL為 1類樣本(Class 1),N≥1×106個/mL為2類樣本(Class 2)。影響因素 11 個,分別為 N0、Fe0、TN0、TP0、T、Tw、pH0、v、R、E 和 L。樣本數共1052 個,其中1 類樣本615個,占58.46%,2類樣本437個,占41.54%。

1.2 數據挖掘方法

數據挖掘技術必須通過多種計算方法加以實現,目前主要包括模式識別(主成分分析法、白化變換-線性映照法、最佳映照識別法、模式識別逆映照法)、人工神經網絡及支持向量機等。

主要采用數據挖掘中的主成分分析法(Principal Component Analysis,PCA)作為非參數的分類方法[20],對銅綠微囊藻試驗模擬數據進行定性分析。傳統的主成分分析法是直接對數據樣本進行分析,找出對信息量貢獻較大的主成分,繼而構成二維或三維投影圖剖析數據結構,并未對樣本事先分類。而筆者先將數據樣本分類,并且將主成分分析法中所有的主成分全部找出,每兩個主成分構成投影平面,對投影平面上投影點分類效果最好的圖進行定性分析[21]。

主成分(PC)的表達式可定義為[22]:

式中,a為變量系數;V為原始變量的值;i和n分別為主成分數和變量總數。

2 結果與討論

2.1 變量篩選

在影響銅綠微囊藻目標變量的11個變量中,并不是所有變量都會對目標變量產生重要影響,因此先對11個變量進行逐個篩選,找出影響銅綠微囊藻生長的主要變量。

用主成分分析法(PCA)將1052個樣本點投影到由n個變量構成的n維空間,并映射在兩維特征面上,即可得到特征圖。

影響銅綠微囊藻生長的關鍵特征變量由建立在PCA基礎上的可分性判據P(即分類率[23])來決定。可分性判據的定義為:

式中,Z1為1類樣本點的數目;Z2為特征圖上包含所有1類樣本點的矩形框內2類樣本點的數目。

表1列出了變量逐步刪除后得到的相應分類率。從表1可以看出,在所有變量存在的條件下分類率較低,僅為31.22%,變量逐步減少后分類率不斷上升,說明不是所有變量都對銅綠微囊藻的生長產生很大影響。當繼續刪除變量R后,特征圖的分類率又出現下降,說明R是影響銅綠微囊藻生長的主要因素,不能刪除。

圖1和圖2分別是變量篩選前后的特征圖。比較圖1和圖2可見,雖然逐步刪除了 Fe0、TN0、E、L、v和Tw六個變量,但數據規律依然明顯,說明這六個變量對目標變量的影響較小,可以刪除。篩選后剩余的變量為 N0、T、pH0、R 和 TP0,與表1 得出的結論一致。下面對這五個變量進行詳細分析。

圖2中的橫坐標PC1和縱坐標PC2分別為以上五個變量的線性組合,具體表示為以下方程(非標準化方程):

表1 特征變量篩選表Table 1 The screening list of feature variables

并且特征圖上的每個點都是五個變量的組合,由圖2可知,藻密度較小的樣本(N<1×106個/mL,實心樣本點)和藻密度較大的樣本(N≥1×106個/mL,空心樣本點)明顯分布在圖的不同部位,實心樣本分布在特征圖的中間位置,空心樣本主要分布在其兩邊,數據有著較好的規律性。數據分界面在原始變量空間的方程為:

這說明可以通過調節五個變量來控制銅綠微囊藻的藻密度。當N0、T、pH0、R和 TP0五個變量滿足式(5)和式(6)時,銅綠微囊藻的藻密度可以控制在1×106個/mL以下,湖泊可能不會發生水華;不滿足式(5)和式(6)時藻密度會高于1×106個/mL,有可能會發生水華。這為湖泊的富營養化治理提出了一定的理論依據。

2.2 變量重要性的分析

采用主成分分析的載荷圖(圖3)可以對變量的重要性進行分析。通常變量在圖形中的位置代表了變量影響目標值變化的方向,遠離原點的變量對目標變量的影響最大。根據主成分的載荷值在圖3的不同位置上標出了五個變量,將該圖與圖2對應,就可以根據五個變量所處的位置分析變量對目標變量的影響趨勢。

圖2的中間部分是目標變量(藻密度)的優類區域,即目標變量減少的方向,說明圖3中的變量向中間移動會使2類樣本點變為1類樣本點,使目標變量降低。

由圖3可以看出,根據各變量的坐標到原點的距離有如下順序:pH0>N0>TP0>R>T,可見對銅綠微囊藻生長影響較大的變量是pH0、N0和TP0。適當減小藻類的初始接種量、水體初始pH或初始TP濃度,都可以使目標變量降低,有效抑制銅綠微囊藻的生長。

圖3 銅綠微囊藻數據載荷圖Fig.3 The load diagram of Microcystis aeruginosa

3 結論

(1)主成分分析法作為非參數的分類方法可以對變量的重要性進行篩選,并能得到分類效果較好的特征圖。

(2)通過運用主成分分析的載荷圖,得到影響銅綠微囊藻生長的主要因素,且適當減小藻類的初始接種量N0、水體的初始pH或初始TP濃度都可以抑制銅綠微囊藻的生長。

[1]XUE X,LANDIS A E.Eutrophication potential of food consumption patterns[J].Environ Sci Technol,2010,44(16):6450-6456.

[2]GRUNDY R D.Strategies for control of man-made eutrophication[J].Environ Sci Technol,1971,5(12):1184-1190.

[3]LEE G F,RAST W,JONES R A.Water report:eutrophication of water bodies:insights for an age old problem[J].Environ Sci Technol,1978,12(8):900-908.

[4]LEE G F,JONES R A.Detergent phosphate bans and eutrophication[J].Environ Sci Technol,1986,20(4):330-331.

[5]AHN C Y,PARK M H,JOUNG S H,et al.Growth inhibition of cyanobacteria by ultrasonic radiation:laboratory and enclosure studies[J].Environ Sci Technol,2003,37(13):3031-3037.

[6]TEIXEIRA M R,ROSA M J.Comparing dissolved air flotation and conventional sedimentation to remove cyanobacterial cells of Microcystis aeruginosa:Part I.the key operating conditions[J].Separation and Purification Technology,2006,52(1):84-94.

[7]TAKAARA T,SANO D,MASAGO Y,et al.Surface-retained organic matter of Microcystis aeruginosa inhibiting coagulation with polyaluminum chloride in drinking water treatment[J].Water Res,2010,44(13):3781-3786.

[8]SANGOLKAR L N,MASKE S S,CHAKRABARTI T.Methods for determining microcystins(peptide hepatotoxins)and microcystin-producing cyanobacteria[J].Water Res,2006,40(19):3485-3496.

[9]楊善升,陸文聰,陳念貽.數據挖掘技術在化工優化中的應用[J].江蘇化工,2004,32(4):1-4,8.

[10]HO H S,KRISHNAN R.Predicting repayment of the credit card debt[J].Computers & Operations Research,2012,39(4):765-773.

[11]KARGARI M,SEPEHRI M M.Stores clustering using a data mining approach for distributing automotive spare-parts to reduce transportation costs[J/OL].Expert Systems with Applications,2012,39(5):4740-4748[2011-10-01].http://dx.doi.org/10.1016/j.bbr.2011.03.031.

[12]郭立瑋,潘林梅,朱華旭,等.關于復雜系統理論和方法應用于中醫藥研究領域的思考與實踐[C]//中華中醫藥學會中成藥學術研討會.北京:中華中醫藥學會,2007:9-15.

[13]郭立瑋,董潔,樊文玲,等.數據挖掘方法用于中藥水提液膜過程優化的研究[J].世界科學技術,2005,7(3):42-47,88.

[14]陳瑞蘭,陸文聰,劉旭,等.支持向量機算法研究頭發微量元素與高血壓的相關性[J].計算機與應用化學,2003,20(5):567-570.

[15]SENG J L,CHEN T C.An analytic approach to select data mining for business decision[J].Expert Systems with Applications,2010,37(12):8042-8057.

[16]楊善升,陸文聰,顧天鴻,等.基于數據挖掘的合成氨過程優化和監測系統應用研究[J].化工自動化及儀表,2010,37(7):76-78.

[17]GüRBüZ F,ZBAKIR L,YAPICI H.Data mining and preprocessing application on component reports of an airline company in Turkey[J].Expert Systems with Applications,2011,38(6):6618-6626.

[18]RODRIGUES L H R,ARENZON A,RAYA-RODRIGUEZ M T,et al.Algal density assessed by spectrophotometry:a calibration curve for the unicellsular algae Pseudokirchneriella subcapitata[J].Journal of Environmental Chemistry and Ecotoxicology,2011,3(8):225-228.

[19]Wikipedia contributors.Algal bloom[EB/OL].[2011-12-10].http://en.wikipedia.org/wiki/Algal_bloom.

[20]VEGA M,PARDO R,BARRADO E,etal.Assessment of seasonal and polluting effects on the quality of river water by exploratory data analysis[J].Water Res,1998,32(12):3581-3592.

[21]陳念怡,秦沛,陳瑞亮,等,模式識別方法在化學化工中的應用[M].北京:科學出版社,2000.

[22]STATHEROPOULOS M,VASSILIADIS N,PAPPA A.Principal component and canonical correlation analysis for examining air pollution and meteorological data[J].Atmos Environ,1998,32(6):1087-1095.

[23]BAO X H,LU W C,LIU L,et al.Hyper-polyhedron model applied to molecular screening of guanidines as Na/H exchange inhibitors[J].Acta Pharmacologica Sinica,2003,24(5):472-476.?

猜你喜歡
數據挖掘分類
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
探討人工智能與數據挖掘發展趨勢
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
給塑料分分類吧
主站蜘蛛池模板: 亚洲视频影院| 欧美日韩理论| 狠狠色婷婷丁香综合久久韩国 | 2021国产精品自拍| 免费视频在线2021入口| 免费三A级毛片视频| 亚洲国产精品无码久久一线| 日韩午夜片| 久久久久青草线综合超碰| 亚洲精品制服丝袜二区| 国产视频a| 欧美在线观看不卡| 国产高清在线观看| 亚洲精品无码av中文字幕| 成人无码一区二区三区视频在线观看| 成年人午夜免费视频| 伊人丁香五月天久久综合| 国产丝袜无码一区二区视频| 91亚瑟视频| 国产自在线播放| 福利视频一区| 欧美日韩在线第一页| 免费人成在线观看视频色| 九九九久久国产精品| av色爱 天堂网| 亚洲欧美一区在线| 亚洲二区视频| 国产午夜人做人免费视频| 91久久精品国产| 欧美成人午夜在线全部免费| 国产精品专区第一页在线观看| 亚洲人成网站日本片| 色视频国产| 亚洲日韩在线满18点击进入| 中文字幕av一区二区三区欲色| 免费毛片网站在线观看| 国产原创第一页在线观看| 亚洲第一成年网| 亚洲免费播放| 超碰免费91| 91蜜芽尤物福利在线观看| AⅤ色综合久久天堂AV色综合| 亚洲黄网在线| 四虎影视无码永久免费观看| 国产微拍精品| 成人午夜视频网站| 99在线观看视频免费| 欧美五月婷婷| 亚洲最新在线| 波多野结衣中文字幕一区二区| 亚洲色图欧美在线| 久久中文字幕av不卡一区二区| 自拍偷拍一区| 在线观看网站国产| 美女被操91视频| 久久人人妻人人爽人人卡片av| 一本大道香蕉中文日本不卡高清二区| 久久国产精品嫖妓| 麻豆精品久久久久久久99蜜桃| 成人毛片在线播放| 亚洲三级影院| 浮力影院国产第一页| 在线观看欧美国产| 综合亚洲网| 自慰高潮喷白浆在线观看| 视频国产精品丝袜第一页| 久久精品免费看一| 中文字幕天无码久久精品视频免费| 国产精鲁鲁网在线视频| 夜色爽爽影院18禁妓女影院| 婷婷激情五月网| 永久免费精品视频| 欧美成人综合视频| 国产成人福利在线| 国产一区二区人大臿蕉香蕉| 波多野结衣一二三| 国产av色站网站| 久久天天躁狠狠躁夜夜2020一| 亚洲第一视频网| 91区国产福利在线观看午夜| 五月婷婷丁香色| 狼友视频一区二区三区|