999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于PCA-BN的銀川市空氣質(zhì)量預(yù)測

2020-09-27 13:01:10穆春陽
安全與環(huán)境工程 2020年5期
關(guān)鍵詞:模型

盧 彬,馬 行,穆春陽,張 鄂

(1.北方民族大學(xué)寧夏智能信息與大數(shù)據(jù)處理重點實驗室,寧夏 銀川 750021;2.北方民族大學(xué)電氣信息工程學(xué)院,寧夏 銀川 750021;3.北方民族大學(xué)機(jī)電工程學(xué)院,寧夏 銀川 750021)

近年來,空氣質(zhì)量問題成為了全社會廣泛關(guān)注的焦點問題,空氣質(zhì)量狀況影響著人們的日常生活出行和當(dāng)?shù)厣鐣a(chǎn)活動。因此,空氣質(zhì)量的預(yù)測對當(dāng)?shù)卮髿馕廴颈O(jiān)管和治理有著重要的意義。

我國學(xué)者楊瑞君等[1]將隨機(jī)森林(BF)模型引入上海市空氣質(zhì)量的評價中,結(jié)果表明BF模型在空氣質(zhì)量等級的評價中有較高的準(zhǔn)確率;化虎蝶等[2]將貝葉斯網(wǎng)絡(luò)(BN)引入到大連市的空氣質(zhì)量評價與預(yù)測中,并與模糊綜合評價法的預(yù)測結(jié)果進(jìn)行對比,結(jié)果表明BN法在預(yù)測精度上有顯著的提高。這些研究雖對城市空氣質(zhì)量的預(yù)測提供了可靠、準(zhǔn)確的方法,但未考慮氣象因素對城市空氣質(zhì)量的影響。楊正理等[3]將影響城市空氣質(zhì)量的34種氣象因素作為輸入,將互信息與BF算法引入太原市空氣質(zhì)量的預(yù)測中,結(jié)果表明該方法能夠有效識別影響城市不同區(qū)域空氣質(zhì)量的氣象因素,并在城市空氣質(zhì)量預(yù)測上有較高的可靠性和準(zhǔn)確率;郭飛等[4]將溫度、氣壓、濕度、風(fēng)速4種氣象因素作為輸入,并將改進(jìn)的支持向量機(jī)(Support Vector Machine,SVM)應(yīng)用于沈陽市空氣質(zhì)量預(yù)測中,結(jié)果表明改進(jìn)后的SVM有效地降低了預(yù)測錯誤率,提升了預(yù)測精度。這些研究雖然考慮了氣象等因素對城市空氣質(zhì)量的影響,但未對氣象等因素進(jìn)行信息的濃縮,當(dāng)因素較多時,因素之間可能存在信息的重疊和相關(guān)性,從而增加模型結(jié)構(gòu)和數(shù)據(jù)分析的復(fù)雜度[5]。

為了解決上述研究中所存在的問題,本文結(jié)合主成分分析(PCA)方法對數(shù)據(jù)降維以消除信息冗余的特點以及BN在多因素復(fù)雜系統(tǒng)中具有較強(qiáng)推理能力的優(yōu)勢[6],以銀川市2015年1月1日至2019年10月31日的空氣質(zhì)量數(shù)據(jù)和同期的氣象數(shù)據(jù)為基礎(chǔ),將PCA-BN模型引入到銀川市空氣質(zhì)量的預(yù)測中,建立了基于PCA-BN的銀川市空氣質(zhì)量預(yù)測模型,并對模型預(yù)測準(zhǔn)確率以及可靠性和可行性進(jìn)行了驗證。

1 數(shù)據(jù)來源與研究方法

1. 1 數(shù)據(jù)來源

本文通過網(wǎng)絡(luò)爬蟲爬取銀川市2015年1月1日至2019年10月31日的空氣質(zhì)量等級、空氣質(zhì)量指數(shù)以及空氣中細(xì)顆粒物(PM2.5)、可吸入顆粒物(PM10)、二氧化硫(SO2)、一氧化碳(CO)、二氧化氮(NO2)、臭氧(O3)6種主要污染物濃度數(shù)據(jù)和同期的氣象數(shù)據(jù)日均值。其中,同期的氣象數(shù)據(jù)主要包括平均地表氣溫、日最高地表氣溫、日最低地表氣溫、平均相對濕度、日照時數(shù)、平均氣溫、日最高氣溫、日最低氣溫、平均氣壓、平均風(fēng)速10項指標(biāo)。空氣中6種主要污染物濃度數(shù)據(jù)的時間序列圖見圖1,10項氣象指標(biāo)數(shù)據(jù)的時間序列圖見圖2。

圖1 2015年1月1日至2019年10月31日銀川市空氣中6種主要污染物濃度數(shù)據(jù)的時間序列圖(單位:μg/m3)Fig.1 Time series diagram of the content data of six major pollutants in the air of Yinchuan City from Jan 1st, 2015 to Oct 31st,2019(unit:μg/m3)

1. 2 研究方法

本文研究方法分為三個步驟進(jìn)行:①對1 765條樣本數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,處理樣本數(shù)據(jù)中存在的缺失值;②利用主成分分析方法對氣象數(shù)據(jù)進(jìn)行降維處理并提取氣象因素的綜合評價指標(biāo);③構(gòu)建基于PCA-BN的銀川市空氣質(zhì)量預(yù)測模型。

1.2.1 數(shù)據(jù)清洗

首先對1 765條樣本數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,處理樣本數(shù)據(jù)中存在的缺失值。由于樣本數(shù)據(jù)中存在缺失值的數(shù)據(jù)量占樣本數(shù)據(jù)總量的比例較小,因此對樣本數(shù)據(jù)中連續(xù)缺失的數(shù)據(jù)做剔除處理,對于一個有數(shù)據(jù)缺失的缺失值, 采用相鄰日期前后兩項數(shù)據(jù)的平均值進(jìn)行插補(bǔ)。將經(jīng)過數(shù)據(jù)清洗后得到的1 677條數(shù)據(jù)作為新的樣本數(shù)據(jù),以樣本數(shù)據(jù)中的70%作為訓(xùn)練數(shù)據(jù)集,30%作為驗證數(shù)據(jù)集,構(gòu)建PCA-BN模型。

圖2 2015年1月1日至2019年10月31日銀川市10項氣象指標(biāo)數(shù)據(jù)的時間序列圖Fig.2 Time series chart of the content data of ten meteorological indicators of Yinchuan City from Jan 1st, 2015 to Oct 31st,2019

1.2.2 主成分分析

主成分分析(Principal Component Analysis,PCA)方法常用于處理變量之間具有高度相關(guān)性的數(shù)據(jù)[7]。該方法是運用降維的思想去除冗余的信息,將多個變量轉(zhuǎn)化為由多個變量線性表示的少數(shù)主成分的過程[8]。根據(jù)PCA原理,可分為如下幾個步驟進(jìn)行計算[9]:

(1) 對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理:

(1)

(2) 計算相關(guān)系數(shù)矩陣R=(rjk)m×m:

(2)

(3) 求解相關(guān)系數(shù)矩陣的特征值與特征向量。

(4) 提取主成分:主要根據(jù)特征根和累計貢獻(xiàn)率的值來提取主成分,一般選取特征根大于1的主成分[10]。主成分zt的方差貢獻(xiàn)率wt為

(3)

wt值越大,表明主成分Zt對原始變量信息的解釋能力越強(qiáng)。前q個主成分的累計方差貢獻(xiàn)率Wq為

(4)

Wq表示所提取的q個主成分能夠解釋原始變量信息量的多少。

1.2.3 貝葉斯網(wǎng)絡(luò)

貝葉斯網(wǎng)絡(luò)(Bayesian Networks,BN),又稱信度網(wǎng)絡(luò),是一種結(jié)合了概率論和圖論的不確定性知識表達(dá)與推理的方法。BN作為一種圖形化模型,能夠表達(dá)出因果關(guān)系和相關(guān)的不確定性知識,該模型由節(jié)點、有向弧和條件概率表(Conditional Probability Tables,CPT)組成[11-12]。由于BN要求各節(jié)點之間不能形成閉環(huán),因此BN符合有向無環(huán)圖(Directed Acyclic Graph,DAG)結(jié)構(gòu)[13]。BN因其具有的簡潔、直觀、準(zhǔn)確、方便的特點,在實際工程中得到了廣泛的應(yīng)用[14]。在BN中,貝葉斯公式為概率計算的基礎(chǔ),貝葉斯公式[15]如下:

(5)

其中P(Xi)>0,P(E|Xi)>0,P(Xi|E)>0。

式中:X1,X2,…,Xn為樣本空間Ω中兩兩互斥的事件;P(Xi)為事件Xi的先驗概率[16];P(Xi|E)為后驗概率,表示在已知事件E發(fā)生的概率下,事件Xi發(fā)生的概率;P(E|Xi)為條件概率,表示在已知事件Xi發(fā)生的概率下,事件E發(fā)生的概率。

BN的學(xué)習(xí)分為BN的結(jié)構(gòu)學(xué)習(xí)和BN的參數(shù)學(xué)習(xí)。其中,BN結(jié)構(gòu)學(xué)習(xí)是根據(jù)數(shù)據(jù)經(jīng)驗和先驗知識確定BN結(jié)構(gòu),在得到確定的BN結(jié)構(gòu)的基礎(chǔ)上,采用合理的參數(shù)學(xué)習(xí)方法確定BN拓?fù)浣Y(jié)構(gòu)中各節(jié)點之間的條件概率[17];BN參數(shù)學(xué)習(xí)是以BN結(jié)構(gòu)為基礎(chǔ),如圖3所示為一個簡單結(jié)構(gòu)的BN結(jié)構(gòu)圖,根據(jù)先驗概率、后驗概率以及條件概率等知識對構(gòu)成BN結(jié)構(gòu)的各節(jié)點進(jìn)行定量分析,并得到各節(jié)點間相關(guān)關(guān)系的強(qiáng)弱[18]。

圖3 簡單結(jié)構(gòu)的貝葉斯網(wǎng)絡(luò)(BN)結(jié)構(gòu)圖Fig.3 Diagram of Bayesian Network (BN) with simple structure

如圖3所示,節(jié)點X1、X2均通過有向線段指向節(jié)點Y,有向線的起點為子節(jié)點,終點指向父節(jié)點,利用參數(shù)學(xué)習(xí)方法可分別求得父節(jié)點Y與各子節(jié)點X1、X2的條件概率。

為了提高BN局部因果結(jié)構(gòu)的效率并有效地對原始變量的特征空間進(jìn)行降維,本文利用馬爾科夫毯(Markov Blanket,MB)算法進(jìn)行BN結(jié)構(gòu)學(xué)習(xí)。馬爾科夫毯的定義為:集合U為隨機(jī)變量的全集,對于一個給定的變量X(X∈U)和變量集MB(MB∈U且X?MB),若滿足[19]:

X⊥{U-MB-{X}}|MB

則稱最小變量集MB為變量X的馬爾科夫毯。

本文所采集的數(shù)據(jù)為各項指標(biāo)的日均值且數(shù)據(jù)量充足、較為完整,故采用最大似然法作為BN結(jié)構(gòu)的參數(shù)學(xué)習(xí)方法。假定數(shù)據(jù)集C={C1,C2,…,Cn},節(jié)點Xi共有hi個取值,且節(jié)點Xi的參數(shù)為θi,節(jié)點Xi的父節(jié)點α(Xi)的取值共有qi個組合,則節(jié)點Xi的參數(shù)θi的對數(shù)似然函數(shù)表達(dá)式如下[20]:

(6)

(7)

式中:mijk為數(shù)據(jù)集C中滿足Xi=k且α(Xi)=j的樣本數(shù)量。

2 研究結(jié)果與分析

2.1 PCA結(jié)果分析

本文利用PCA方法對銀川市10項氣象指標(biāo)數(shù)據(jù)進(jìn)行降維處理,得到KMO和Bartlett的球形度檢驗結(jié)果見表1。

表1 KMO和Bartlett的球形度檢驗結(jié)果

由表1可知,KMO的檢驗結(jié)果為0.790,大于0.500;Bartlett的球形度檢驗拒絕單位相關(guān)陣的原假設(shè)(Sig.<0.001),說明本文選取的10項氣象指標(biāo)數(shù)據(jù)適合進(jìn)行主成分分析。

銀川市10項氣象指標(biāo)數(shù)據(jù)經(jīng)過PCA法降維處理后提取的3個主成分的方差百分比和累計方差貢獻(xiàn)率,見表2。

表2 銀川市10項氣象指標(biāo)數(shù)據(jù)經(jīng)過PCA法降維處理后提取的3個主成分的方差百分比和累計方差貢獻(xiàn)率

由表2可知,所提取的3個主成分解釋了原10項氣象指標(biāo)數(shù)據(jù)信息量的91.563%,大于85%,說明提取的3個主成分是合適的。

銀川市10項氣象指標(biāo)數(shù)據(jù)經(jīng)過主成分分析后的碎石圖,見圖4。

圖4 銀川市10項氣象指標(biāo)數(shù)據(jù)經(jīng)過主成分分析后的 碎石圖Fig.4 Scree plot in PCA analysis of ten meteorological indicators of Yinchuan City

由圖4可見,第三個主成分之后,曲線變得平滑,沒有出現(xiàn)明顯的變化趨勢,這從側(cè)面說明PCA法將銀川市10項氣象指標(biāo)數(shù)據(jù)降維處理后提取3個主成分是合適的。

由主成分因子負(fù)荷矩陣(見表3)可知,第一主成分主要包含原指標(biāo)中各氣溫和平均氣壓指標(biāo),因此第一主成分可作為總體氣溫狀況的綜合描述指標(biāo);第二主成分主要包含原指標(biāo)中平均相對濕度和日照時數(shù)指標(biāo),且平均相對濕度指標(biāo)相較于日照時數(shù)指標(biāo)在第二個主成分上具有更大的載荷,說明在第二主成分中平均相對濕度相比于日照時數(shù)具有更高的重要性,因此第二主成分可作為濕度狀況的綜合描述指標(biāo);第三主成分主要包含原指標(biāo)中平均風(fēng)速指標(biāo),因此第三主成分可作為風(fēng)速狀況的綜合描述指標(biāo)。

由表2和表3可知,第一主成分方差百分比較高,方差貢獻(xiàn)率達(dá)到65.014%,說明氣象因素中氣溫對空氣質(zhì)量有較大的影響。銀川市10項氣象指標(biāo)的3個主成分序列圖,見圖5。

表3 主成分因子負(fù)荷矩陣

圖5 銀川市10項氣象指標(biāo)的3個主成分的序列圖Fig.5 Sequence diagram of three principal components extracted from the ten meteorological indicators of Yinchuan City

2.2 構(gòu)建PCA-BN模型

銀川市原10項氣象指標(biāo)經(jīng)過主成分分析后提取得到3項氣象綜合描述指標(biāo),不僅降低了氣象指標(biāo)的維數(shù),并且反映了原氣象指標(biāo)的絕大部分信息量。以3項氣象綜合描述指標(biāo)和大氣中6項主要污染物濃度指標(biāo)共9項指標(biāo)數(shù)據(jù)作為輸入,并對指標(biāo)數(shù)據(jù)進(jìn)行離散化處理,構(gòu)建基于PCA-BN的銀川市空氣質(zhì)量預(yù)測模型,即PCA-BN模型。

構(gòu)建PCA-BN模型時,首先利用MB算法進(jìn)行BN的結(jié)構(gòu)學(xué)習(xí)。以質(zhì)量等級為目標(biāo)變量,先得到目標(biāo)變量的MB;再根據(jù)目標(biāo)變量的MB進(jìn)一步確定所研究的預(yù)測變量的條件概率分布,由于目標(biāo)變量的MB包含了目標(biāo)變量的所有信息,則MB以外的變量可被視為冗余變量并排除了其余變量的影響[21];最后基于條件獨立性測試判斷兩變量間是否相互獨立,若相互獨立,則刪去連接兩變量節(jié)點的線。

然后,利用最大似然估計進(jìn)行BN的參數(shù)學(xué)習(xí),確定每個變量的條件概率分布。PCA-BN模型中輸入變量的重要性見表4,PCA-BN模型的網(wǎng)絡(luò)結(jié)構(gòu)圖見圖6,其中輸入變量節(jié)點的顏色深淺表示預(yù)測變量重要性的高低。

表4 PCA-BN模型中輸入變量的重要性

圖6 PCA-BN模型的網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.6 Network structure diagram of the PCA-BN model

由表4和圖6可知,PCA-BN模型中所輸入的9項指標(biāo)均會對銀川市空氣質(zhì)量等級產(chǎn)生影響,且各項指標(biāo)間也會有相互的影響關(guān)系。其中,SO2對于銀川市空氣質(zhì)量的影響較大,故必須注意對于SO2污染源頭的控制。

PCA-BN模型預(yù)測結(jié)果的準(zhǔn)確率見表5。

表5 PCA-BN模型預(yù)測結(jié)果的準(zhǔn)確率

由表5可知,PCA-BN模型在訓(xùn)練數(shù)據(jù)集和驗證數(shù)據(jù)集中的正確率接近,且預(yù)測結(jié)果的準(zhǔn)確率達(dá)到97.88%。

PCA-BN模型預(yù)測結(jié)果的混淆矩陣見表6,其中行為空氣質(zhì)量實際值,列為空氣質(zhì)量預(yù)測值。

由表6可知,在驗證數(shù)據(jù)集中,空氣質(zhì)量實際值為良的情況下,PCA-BN模型的預(yù)測值為輕度污染的個數(shù)為1個;空氣質(zhì)量實際值為輕度污染的情況下,PCA-BN模型的預(yù)測值為良的個數(shù)為2個,為中度污染的個數(shù)為3個;空氣質(zhì)量實際值為中度污染的情況下,PCA-BN模型的預(yù)測值為輕度污染的個數(shù)為4個,為重度污染的個數(shù)為1個;其余情況下均未出現(xiàn)預(yù)測錯誤。

表6 PCA-BN模型預(yù)測結(jié)果的混淆矩陣

根據(jù)上述預(yù)測結(jié)果的準(zhǔn)確率和混淆矩陣,說明PCA-BN模型在銀川市空氣質(zhì)量的預(yù)測中有著較高的預(yù)測精度,具有一定的應(yīng)用價值。

2.3 PCA-BN模型與隨機(jī)森林模型預(yù)測結(jié)果的比較

為了進(jìn)一步說明PCA-BN模型在銀川市空氣質(zhì)量預(yù)測中的可靠性和可行性。本文利用隨機(jī)森林(Random Forests,RF)模型并將空氣中6種大氣主要污染物濃度數(shù)據(jù)和同期的氣象數(shù)據(jù)共16項指標(biāo)作為輸入,得到基于RF的銀川市空氣質(zhì)量預(yù)測結(jié)果,并與基于PCA-BN模型的銀川市空氣質(zhì)量預(yù)測結(jié)果進(jìn)行了比較,其結(jié)果見表7。

表7 PCA-BN模型與RF模型預(yù)測結(jié)果的對比

由表7可知,RF模型和PCA-BN模型預(yù)測結(jié)果的準(zhǔn)確率分別為88.03%和97.88%,PCA-BN模型對銀川市空氣質(zhì)量預(yù)測結(jié)果的準(zhǔn)確率有明顯的提高,說明該模型在空氣質(zhì)量的預(yù)測中有一定的可行性和可靠性。

3 結(jié) 語

本文將PCA-BN模型引入銀川市空氣質(zhì)量的預(yù)測中,結(jié)果表明:該方法預(yù)測結(jié)果的準(zhǔn)確率達(dá)到了97.88%,并且有效降低了數(shù)據(jù)分析的復(fù)雜性。今后針對城市空氣質(zhì)量的預(yù)測還需要考慮更多的氣象條件、區(qū)域環(huán)境、污染源排放、城市結(jié)構(gòu)、城市發(fā)展水平等有可能影響到城市空氣質(zhì)量的因素,并提出合理的建議,以達(dá)到對空氣質(zhì)量狀況更加準(zhǔn)確的評價,促進(jìn)城市空氣質(zhì)量的提升。

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機(jī)模型
提煉模型 突破難點
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 无码免费视频| 真实国产精品vr专区| 视频二区欧美| 亚洲人成在线免费观看| 免费观看欧美性一级| 91精品国产自产91精品资源| 亚洲人成日本在线观看| 日本一区二区三区精品视频| 久久美女精品国产精品亚洲| 成人亚洲国产| 亚洲综合第一区| 亚洲成人在线播放 | 无码精品国产dvd在线观看9久| 亚洲成年人片| 91无码网站| 蜜臀AVWWW国产天堂| 亚洲伦理一区二区| 精品国产aⅴ一区二区三区| 亚洲天堂成人| 欧美一级片在线| 狠狠色婷婷丁香综合久久韩国| 色亚洲成人| 国产内射一区亚洲| 毛片网站观看| 萌白酱国产一区二区| 99九九成人免费视频精品| 免费无码AV片在线观看中文| 国产素人在线| 性喷潮久久久久久久久| 亚洲av日韩av制服丝袜| 91 九色视频丝袜| 波多野结衣爽到高潮漏水大喷| 超碰91免费人妻| 中文字幕在线欧美| 精品国产一区二区三区在线观看| 天天综合亚洲| 五月天婷婷网亚洲综合在线| 91视频区| 台湾AV国片精品女同性| 无码精品一区二区久久久| 久久semm亚洲国产| 国产一区二区精品福利| 一级一级特黄女人精品毛片| JIZZ亚洲国产| 日韩国产 在线| 国产欧美日韩专区发布| 67194亚洲无码| a级高清毛片| 国产成人精品视频一区视频二区| 日韩精品欧美国产在线| 91麻豆精品国产高清在线| 中国黄色一级视频| 亚洲毛片在线看| 一级香蕉人体视频| 欧美成人精品一区二区| 婷婷中文在线| a毛片在线播放| 日本高清免费一本在线观看| 91啦中文字幕| 国产一级在线观看www色| 欧美一级片在线| 国产精品视频白浆免费视频| 亚洲欧美综合在线观看| 色综合中文字幕| 免费一级毛片不卡在线播放| 亚洲av综合网| 黄色网址手机国内免费在线观看| 精品人妻一区二区三区蜜桃AⅤ| 国产97区一区二区三区无码| 一本大道东京热无码av | 欧美亚洲一区二区三区导航| 亚洲va欧美ⅴa国产va影院| 69av在线| 久久性妇女精品免费| 老司机aⅴ在线精品导航| 欧美日韩资源| 亚洲一级毛片在线播放| 欧美日本二区| 在线日韩日本国产亚洲| 刘亦菲一区二区在线观看| 亚洲天堂久久| 国产精品福利尤物youwu|