999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的北京空氣質量預測

2021-10-25 03:42:48何春旺
信息記錄材料 2021年10期
關鍵詞:分類特征

劉 俠,何春旺

(江西軟件職業技術大學 江西 南昌 330000)

1 引言

近10年來,隨著整個中國工業化水平的不斷提高,環境污染問題變得越來越嚴重,而空氣質量的好壞更是其中最為重要的標準之一。PM2.5是指空氣中直徑小于或等于2.5 μm的固體顆粒或液滴[1]。PM2.5指標可以用來評價一個區域空氣質量和環境的好壞,過高的濃度會危害人類的健康,所以近年來受到了各級政府與部門的關注。此次研究的目的就是通過實驗比對尋找一個預測準確率、召回率、精確率較高預測模型,并對其進行調優。

2 數據分析

2.1 數據來源

UCI數據庫是加州大學歐文分校(University of CaliforniaIrvine)提出的用于機器學習的數據庫[2]。本次研究的數據是2013—2017年北京市周邊12個站點的氣象數據,各站點每天每1h檢測1次數據。數據包含PM2.5濃度(μg/m3)、PM10濃度(μg/m3)、SO2濃度(μg/m3)、NO2濃度(μg/m3)、CO濃度 (μg/m3)、O3濃度 (μg/m3)、TEMP溫度 (℃)、PRES氣壓(hPa)、DEWP露點溫度 (℃)、rain降水量(mm)、Wd風向、WSPM風速(m/s)等多個空氣指標,見表1。

表1 部分氣像數據

2.2 數據分類

按PM2.5的值將空氣質量分成優、良、輕度污染、中度污染、重度污染、嚴重污染6個等級,見表2。

表2 根據PM2.5進行分類表 單位:μg/m3

2.3 數據歸一化

對于以上12項特征,單位不統一,數據量不在同一范圍,無法將其與PM2.5進行比較。觀察其與PM2.5之間的關系,需要將每項特征進行標準化處理,縮放至0~1范圍,也叫歸一化處理。常用的歸一化處理的方法有minmax標準化方法以及z-score標準化方法兩種[3]。本文采用min-max標準化,函數如下:

見表3,可以看到歸一后,模型的各項指標均有提高。

表3 決策樹預測PM2.5歸一化前后對比 單位:%

2.4 特征分析

利用python的matplotlib工具庫,取了500條數據,繪制了10幅線性圖,可以較為直觀地觀察PM2.5數值與各個氣象指標之間的關系,X軸是按時間順序排好的編號,Y軸是各特征值。圖1和圖2中虛線代表PM2.5,實線代表其他特征。再使用pandas.corr()方法得到協方差矩陣,結果見表4。從圖1、圖2和相關系數表可以知,PM2.5與PM10、CO、NO2、SO2、DEWP、PRES正相關,與WSPM、O3、TEMP、RAIN負相關。

表4 各指標相關系數

圖1 PM2.5與PM10、SO2、NO2、CO的相關性

圖2 PM2.5與O3、PRES、DEWP、RAIN、TEMP的相關性

3 研究方法

3.1 邏輯回歸

Sigmoid函數在不同坐標尺下,當x為0時,函數值為0.5,隨著x增大,函數的值無限接近于1;隨著x的減小,函數的值無限接近于0,所有大于0.5的數據被分入1類,小于0.5的被歸類為0類[4]。如圖3所示,對于數據集(x1,x2,…,xn),其輸出都可以映射到[0,1]區間進行分類。

圖3 Sigmoid函數

對于本文的PM2.5空氣質量屬于多分類問題,可以采用one-vs-rest方式。具體步驟如下:首先選用一個類型作為正樣本,其他類型作為負樣本,再計算出該類型的概率P1。其次,再選用另一個類型作為正樣本,其他類型作為負樣本,得到另一個類型的概率P2。重復上述步驟得到每個類型的概率Pi,取概率最大的那個類型作為預測的類型。

具體執行過程調用Sklearn中的LogisticRegression(),并將multi_class參數設置為ovr,使用分類方法one-vs-rest (ovr,一對多)。

3.2 決策樹

決策樹和二叉樹一樣,由節點和邊組成,葉子節點代表一個類別,非葉子節點代表特征屬性。從根節點開始,對每個特征進行判斷,至直到葉子節點得到預測類型。決策樹也可以看成是特征條件下類的概率分布;這個類的概率分布其實質就是在這個單元中的樣本屬于某一類的概率,這個概率通過訓練得到;各子類的概率分布構成決策樹的條件概率分布,見圖4。

圖4 PM2.5預設決策樹部分

(1)選擇最優特征:首先計算gini系數,挑選gini系數值最大的特征作為最優特征。

(2)決策樹構造過程:按照最優特征將訓練數據集分類成子集。然后遞歸向下處理子集,如果子集被正確分類,就繼續構造葉子結點,將對應的數據分到各結點下;否則重新選擇根結點,重復上面過程。遞歸至所有數據被正確分類,或者沒有合適的特征為止。最后所有數據子集都有了自己的分類,就形成了一棵決策樹。

(3)決 策 樹 預 測:調用Skearn中的Decision-TreeClassifier(),設置參數max_depth,criterion,使用GridSearchCV查找最優參數,見表5。

表5 決策樹參數

3.3 隨機森林

3.3.1 簡介

隨機森林是將多棵決策樹集成的學習方法,可以用來做分類與回歸等問題。我們這里就是利用其做分類問題,通常它有較高的準確率,每棵決策樹都作為分類器,N棵樹就產生N個結果,隨機森林集成了所有結果,將分類概率最高的一個類作為結果。

3.3.2 理論基礎

隨機森林使用決策樹作為基分類器,采用Bagging方法生成相互差異的訓練集,隨機劃分子空間構建決策樹,從所有特征中隨機選擇部分特征,從該部分特征中選擇最優特征進行分裂。這種隨機劃分子間和隨機選擇特征的思想能夠讓隨機森林不容易陷入過擬合,每棵決策樹之間存在多樣性,所以隨機森林具有優越的分類性能。隨機森林的算法框架見圖5。

圖5 隨機森林算法框架

調用sklearn.ensemble中RandomForestClassifier進行預測分類,調整n_estimators,oob_score,random_state參數進行優化。

3.4 梯度提升決策樹(GBDT)

GBDT是基于決策樹的線性回歸算法,與隨機森林類似,由多棵決策樹組成,處理結果為多棵決策樹結果[5]。

梯度提升決策樹算法即梯度加提升樹,是一個加法模型,優化算法采用前向分步算法,基學習器使用回歸樹,每一棵回歸樹對上一棵樹的殘差進行擬合。假設訓練集樣本T=(x,y1),(x,y2),...,(x,ym),損失函數用L表示,最大迭代次數為T,輸出得到強學習器f(x)。回歸算法過程如下所示:

(1)先初始化弱學習器,c的值可以設置為樣本y的均值f0(x)

(2)對樣本i=1,2,3,...,m,計算負梯度

(3)利用(xi,rti),i=1,2,3,...,m,訓練出一棵CART回歸樹,獲得第t棵回歸樹,其對應的葉子節點區域Rti,J=1,2,3,...J。其中J為回歸樹的葉子節點個數。

(4)葉子區域j=1,2,3,...,m,計算出最佳似合值

(5)更新強學習器

(6)得到強學習器f(x)表達式

執行過程使用sklearn中的RandomForestClassifier,并調整參數n_estimators、oob_score 和random_state進行優化。

3.5 極端梯度提升(XGBOOST)

XGBoost最大的特點在于,它能夠自動利用CPU的多線程進行并行,同時在算法上加以改進提高了精度[6]。XGboost在多個方面進行了優化,其基學習器可以用CART也可以線性分類器。

極端極度提升就是不停地添加樹,進行訓練去擬合上次預測的殘差。訓練完成后得到n個決策樹,每棵樹根據樣本的特征得到一個分數,每棵樹的分數之和即預測值。

注:Wq(x)為葉子節點q的分數,f(x)為中其一個回歸樹,T表示葉子結點的個數,w表示葉子節點的分數。

步驟:第1步:增加一顆 CART樹,使用貪婪算法構建樹。第2步:求得損失函數的一階和二階導數值,利用導數計算出葉子節點的最佳權重W和節點分裂的最佳增益Gain。第3步:利用構建好的樹再次進行預測分類。第4步:重新更新計算損失函數的一階和二階導數值。第5步:重復第1步,直到生成N顆樹。

4 評價指標

本文使用TP(True Positive)、FP(False Positive)、FN(False Negative)和TN(True Negative)作為評價指標。如表6混淆矩陣表所示,TP為正樣本被預測為正類的概率,FN為正樣本被預測為負樣本的概率,FP為負樣本被預測為正樣本的概率,TN為負樣本被預測為負類的概率。

表6 混淆矩陣表

5 結論

(1)影響PM2.5的因素包括很多,其中SO2、NO2、CO和WSPM等對PM2.5的影響較大,經過數據分析發現,PM10、SO2、NO2、CO、DEWP與PM2.5的值成正相關,而O3、PRES、RIAN、WSPM都與PM2.5的值成負相關。其中,相關系數排序前8的因素為PM10、SO2、NO2、CO、WSPM、O3、TEMP、DEWP。

(2)經過實驗對比,利用xgboost算法預測的北京空氣的PM2.5的值的準確率為0.8 316,精確率為0.8 084,召回率為0.8 079,F值為0.8 077,與邏輯回歸、決策樹、隨機森林、梯度提提升決策樹、極端梯度提升相比,預測結果最接近實際值,各項指標得分最高見表7。

表7 實驗結果 單位:%

猜你喜歡
分類特征
抓住特征巧觀察
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 成人午夜天| 最近最新中文字幕免费的一页| 熟妇无码人妻| 亚洲 欧美 偷自乱 图片| 日本亚洲国产一区二区三区| 欧美第一页在线| 国产精品永久不卡免费视频| 欧洲一区二区三区无码| 一级片免费网站| 色网站免费在线观看| 在线播放精品一区二区啪视频| 中文字幕亚洲精品2页| 国产成人精品在线| 日本a∨在线观看| 欧美a网站| 2020久久国产综合精品swag| 在线观看91香蕉国产免费| 久草性视频| 色综合久久88色综合天天提莫 | 丰满人妻中出白浆| 亚洲综合香蕉| 久久人搡人人玩人妻精品一| P尤物久久99国产综合精品| 午夜限制老子影院888| 第九色区aⅴ天堂久久香| 久久99精品久久久久纯品| 伊人中文网| 日韩在线2020专区| 素人激情视频福利| 欧美日韩v| 亚洲美女视频一区| 人妻出轨无码中文一区二区| 国产精品美女网站| 91成人免费观看| 91色在线观看| 国产在线日本| 91麻豆精品国产高清在线| 中文字幕日韩丝袜一区| 国产精品自在自线免费观看| 亚洲福利一区二区三区| 51国产偷自视频区视频手机观看| 国产成人你懂的在线观看| 欧美成人日韩| 午夜国产理论| 人人爽人人爽人人片| 中文字幕在线日韩91| 啪啪啪亚洲无码| 国产精品女同一区三区五区| 精品无码人妻一区二区| 国产美女人喷水在线观看| 国产制服丝袜91在线| 亚洲色大成网站www国产| 青青青视频91在线 | 国产成在线观看免费视频 | 欧洲日本亚洲中文字幕| 亚洲av日韩av制服丝袜| 26uuu国产精品视频| 伊人久综合| 亚洲男人的天堂久久精品| 欧美视频在线不卡| 综合五月天网| 欧美国产另类| 久久精品aⅴ无码中文字幕| 国内精品久久久久久久久久影视| 婷婷色一二三区波多野衣| 一区二区三区成人| 日韩毛片在线视频| 国产美女91视频| 国产H片无码不卡在线视频| 99在线视频免费观看| 免费人成在线观看成人片| 视频二区欧美| 99视频国产精品| 日韩在线播放欧美字幕| 日韩精品无码不卡无码| 午夜a级毛片| 国产成人a毛片在线| 老色鬼久久亚洲AV综合| 欧美一级一级做性视频| 无码综合天天久久综合网| 成人国产精品一级毛片天堂| 最新日韩AV网址在线观看|