999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機森林算法的水華預警模型

2018-09-10 08:50:18劉云翔吳浩
人民黃河 2018年8期

劉云翔 吳浩

摘要:針對湖泊水華預警模型中的數據具有噪聲較復雜和非線性的特點,而傳統預警方法難以解決穩健性差和過度擬合等問題,采用機器學習分類算法——隨機森林,根據葉綠素a的濃度判斷水華是否發生,選取水溫(T)、pH值、氮磷比(TN:TP)、化學需氧量(COD)、總氮(TN)、總磷(TP)作為影響因子,構建基于隨機森林分類算法的穩健性較好、泛化性能強、實用性強的水華預警模型。選取太湖西半湖作為研究區域進行實例分析,結果表明:該模型預測精度達到91.67%,泛化誤差小,能夠有效進行短期預測;在水華發生的各個影響因子中,總磷和總氮是相對重要的影響因子。

關鍵詞:隨機森林;CART決策樹;水華;預警模型;太湖

中圖分類號:X52; TP39

文獻標志碼:A

doi:10.3969/j.issn.1000-1379.2018.08.018

水華是淡水水體中藻類繁殖聚集到一定程度的一種自然現象,目前已成為全球性的水環境污染問題之一,并且隨著經濟的快速發展和人類活動范圍的急劇擴大而越來越嚴重。我國多數江河湖泊和水庫有不同程度的水華現象。利用有效的方法預測水華的發生并進行預警,有利于有針對性地采取預防措施。為了解決水體水華預警問題,國內外學者從不同角度、采取不同方法進行了研究,如多變量統計回歸、模糊數學、遺傳算法和神經網絡方法等,不過這些方法各有不足,建立的預測模型存在不同的問題。

把水華暴發的影響因子作為輸人變量,以葉綠素a的濃度為輸出變量,構建水華預測模型,可以判斷水體是否發生水華,進行短期預測。這種通過分析已有的水體水質、水文等數據來判斷水華是否發生,是一個典型的分類問題,因此可以采用決策樹算法生成水華預警模型。決策樹算法具有模型簡單和規則提取簡單的特點,其中CART算法是決策樹算法中的經典算法,但基于傳統CART算法生成的水華預測模型在進行判斷時,依然存在準確率不高、易過度擬合等問題。隨機森林是一種基于CART算法的組合分類器,能夠提高分類正確率并解決過度擬合問題,因此筆者基于隨機森林算法建立水華預警模型,對水體水華是否發生進行預測。

1 研究方法

1.1 隨機森林算法原理

隨機森林算法是一種具有監督性的數據挖掘算法,隨機森林是一種利用大量CART決策樹形成的分類器。把當前樣本集的所有屬性的GINI指數計算出來,對所有屬性的GINI指數進行排序,選擇GINI指數最小的屬性作為CART決策樹的根節點,然后以該屬性的GINI指數為分割閾值將樣本集分割成兩部分。在生成CART決策樹的過程中要充分利用二叉樹,在分割后的子集上不斷遞歸重復上述操作,使得最終生成的非葉子節點都具有左有兩個分支,直到所有葉子節點中樣本的類別基本屬于同一類,或者沒有下一個分裂屬性為止。

GINI指數反映數據分區E的不純凈程度,定義如下:式中:pi=|Ci|/|E|,為E中的樣本屬于類Ci的概率,|Ci|為E中屬于Ci的數量;m為樣本分類數。

當屬性A將訓練樣本集E劃分成E1和E2后,E的GINI指數公式為式中:|Ei|/|E|為樣本集中樣本屬于第j(j=1,2)個子集的概率。

隨機森林是由許多沒有經過剪枝的CART分類樹{h(x,@k)|k|=l,2,…}(x為輸入變量,@k為服從獨立同分布的隨機向量)形成的一種組合分類模型。隨機森林的構建具有兩種隨機化思想:一是根據bootstrap重抽樣創建k個隨機向量@1、@2、@3、@4,再將每個隨機向量@i變為一個無剪枝的決策樹h(x,@i)(簡稱hi(x)),得到k棵決策樹序列{h1(x),h2(x),…,hk(X)},每棵決策樹之間沒有任何關聯,第k棵樹的形成流程見圖1:二是在生成決策樹時,選擇的屬性也是隨機生成的,需要在所有的屬性集中等概率隨機選擇特征屬性值,構成特征屬性子集,再利用這些特征屬性子集中的特征屬性構成需要的決策樹。形成的大量決策樹組合在一起稱為隨機森林,簡稱RF。假設y為輸出變量,由(x,y)所構成的樣本數據集稱為原始樣本數據集。最終的分類結果由上述序列中所有決策樹的分類結果綜合決定,本文采用的是最簡單的投票決定法,輸入變量x的類別為得票數最多的類別。最終的分類結果可用公式表示如下:式中:H(x)表示組合分類器模型;hi為第i個決策樹分類模型;I(·)為示性函數(示性函數是指使集合中有該數值為1,沒有則為0);argmax表示其后表達式取得最大值時對應的變量x、y取值。

1.2 隨機森林算法模型的建立

隨機森林算法模型建立的步驟如下。

(1)用bootstrap方法從原始數據中選取k個不同的樣本集數據,每個樣本集是每棵決策樹的訓練數據,且每個樣本集的樣本數量與原始數據集相等。

(2)用選取的k個樣本集構建k個未剪枝的決策樹。在生成每棵決策樹的過程中,為了生成決策樹的節點,需要從原始數據集中的所有M個特征屬性中等概率選出m個(m≤M)特征屬性作為候選特征屬性。利用隨機選出的m個候選特征屬性構建決策樹,并且使每棵樹不進行剪枝地完整生長,得到k棵完整的決策樹,每棵決策樹都對輸出變量做出分類,最終得到k個分類結果。

(3)根據得到的k種分類結果,對輸出變量的最終分類進行投票,得票最多的類別為輸出變量的最終類別。1.300B估計和屬性變量重要性

采用bootsrap重抽樣方法生成k個數據集時,在原始數據中將有近37%的樣本可能沒有被選中,這些樣本稱為Out-Of-Bag(OOB)數據。隨機森林的每棵樹都有一個OOB誤差估計,取所有樹OOB誤差估計的平均值作為模型的泛化誤差估計,用來檢驗模型的分類性能。大量試驗表明,只要樹的數量足夠大,OOB誤差與交叉驗證得到的誤差就相差不大。對于生成的隨機森林模型,給其中某一個特征屬性增加噪聲,獲取增加噪聲前后的OOB準確率,用來檢驗模型性能,增加噪聲后OOB值的減小幅度越大,這個特征屬性就越有用。

2 實例應用

2.1 研究區域和數據來源

選取太湖西半湖作為研究區域,該地區曾多次暴發水華。研究所用水質數據來源于太湖水華在線監測基站。將葉綠素a的濃度作為判斷水華發生的標準:大于0.003mg/L,表示有發生水華的可能性,需要進行預防:小于0.003mg/L,表示水環境狀況良好,水華暴發的可能性不大。把水華是否發生作為隨機森林模型的輸出變量,將水溫(T)、pH值、氮磷比(TN:TP)、化學需氧量(COD)、總氮(TN)、總磷(TP)等水質水文數據和輸出變量一起構成原始數據集。共有124組原始樣本數據(見表1,表中只列出一小部分),將其中前100組樣本用于建立水華預測模型,后24組樣本用于檢驗模型的分類性能。

2.2 模型分類性能評價標準

采用總體分類準確率(Acc)來評估RF模型的分類性能。Acc為最終分類預測值與真實值(實測值)的比值,其值越大表示模型的分類性能越好,計算公式為式中:Tp為正確分類的樣本數;TN為總樣本數。

2.3 隨機森林模型的構建

采用RandomForest()函數來構造基于RF算法的水華預測模型,該函數有2個主要參數ntree和mtry,其中:ntree表示樹的數量,其值越大表示過擬合的可能性越小,一般取100,經計算可以得到OOB誤差與ntree的關系,見圖2:mtry表示待選特征屬性的個數,取值一般為所有特征屬性個數的平方根,本研究特征屬性個數為6,所以mtry的取值為2。由圖2可知,當ntree>80時OOB誤差趨于穩定,表明隨機森林模型的分類性能較高。由文獻可知,當ntree為100左有時,RF的分類性能與支持向量機相當,所以把ntree的值設為100,mtry的值設為2。用原始數據集的前100組數據進行訓練,得到隨機森林水華預警模型,把后24組數據作為測試數據輸入隨機森林模型,對這24組數據進行分類判定,最終的分類準確率為22/24,而支持向量機的分類準確率為21/24,說明隨機森林水華預警模型行之有效。

另外利用隨機森林預警模型還可以對水華影響因子的相對重要性進行比較,以獲得太湖水華發生各影響因子的重要程度,結果見圖3。由圖3可知,在所有影響水華發生的因子中,TP濃度的相對重要性較高,其次是TN濃度,所以為預防水華暴發,要特別注意TP濃度和TN濃度。

3 結語

隨機森林模型不需要先設定屬性的權重、怎樣去分類,模型需設置的參數少,計算過程簡單、計算量較小,適合平臺廣泛,是一種快捷有效的機器學習模型。基于機器學習算法——隨機森林,把影響水華發生的6個因子作為隨機森林的輸人變量、把葉綠素a的濃度作為輸出變量,建立水華預警模型。測試結果表明,其最終分類準確率達到了91.67%,與支持向量機模型的分類性能相當,能夠解決其他算法穩健性不足和過擬合等問題,能保證預測正確率且可以分析影響水華暴發的主要因子,為水環境管理提供理論支持。

主站蜘蛛池模板: 美女免费黄网站| 国产精品一老牛影视频| 色135综合网| 国产精品区网红主播在线观看| 亚洲视频三级| 天天干天天色综合网| 亚洲IV视频免费在线光看| 久久 午夜福利 张柏芝| 天堂av综合网| 国产成人毛片| 青青青视频蜜桃一区二区| 成人一区专区在线观看| 亚洲大尺码专区影院| 性视频一区| www.91在线播放| 国产精品分类视频分类一区| 亚洲水蜜桃久久综合网站| 青青青视频免费一区二区| 国产爽爽视频| 国产靠逼视频| 亚洲精品第1页| 国产精品性| 国产91av在线| 亚洲综合欧美在线一区在线播放| 亚洲无码久久久久| 国产午夜小视频| 国产成人精品免费视频大全五级| 国产成人免费观看在线视频| 夜夜操国产| 尤物亚洲最大AV无码网站| 91成人精品视频| 久久大香香蕉国产免费网站| 午夜精品福利影院| 午夜日b视频| 一区二区三区四区精品视频| 欧美一级在线| 女人18毛片水真多国产| 亚洲av无码人妻| 97se亚洲综合| 中文字幕亚洲综久久2021| 国产在线小视频| 美女一级免费毛片| 国产视频资源在线观看| 国产乱子伦视频在线播放| 国产欧美日韩18| 精品视频免费在线| 久久久久夜色精品波多野结衣| 91网站国产| 91小视频在线观看免费版高清| 亚洲综合久久一本伊一区| 国产美女91视频| 最新加勒比隔壁人妻| 中文字幕资源站| 精品国产中文一级毛片在线看| 亚洲成人动漫在线观看| 日韩av电影一区二区三区四区| 国产精品人莉莉成在线播放| 国产精品免费入口视频| 国产女人在线视频| 丰满人妻久久中文字幕| 亚洲国产天堂久久综合226114| 国产91视频观看| 99精品久久精品| 国产一区成人| 国产精品区视频中文字幕| 国产成人夜色91| 国产乱子伦一区二区=| 国产在线欧美| 国产精品三级av及在线观看| 日韩欧美在线观看| 国产高清在线精品一区二区三区| 亚洲精品老司机| 色色中文字幕| 成人免费黄色小视频| 日本不卡在线视频| 毛片免费在线| 成人免费黄色小视频| 日本尹人综合香蕉在线观看| 中文字幕66页| 亚欧成人无码AV在线播放| 天天躁夜夜躁狠狠躁图片| 欧美一区二区精品久久久|