999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據挖掘的空氣質量預測模型研究*

2021-09-15 08:34:56周凱劉萍
計算機與數字工程 2021年8期
關鍵詞:分析模型

周凱 劉萍

(陸軍炮兵防空兵學院 合肥 230000)

1 引言

“綠水青山就是金山銀山”,十八大以來,人們逐漸把生態文明建設放在突出位置。在各種有力措施的治理下,空氣質量作為生態文明建設的重要一環,其情況得到了有效改善。但大氣污染物對身體健康的影響還持續存在。像華北地區,進入秋冬季,霧霾便會籠罩全城,引起一系列呼吸道疾病,嚴重的造成交通事故危及生命。據世界衛生組織稱,每年因空氣污染導致疾病而死亡的人數高達700萬[1]。因此在大數據技術浪潮興起的今天,如何通過數據挖掘和分析對未來空氣質量,進行實時有效的預測預警,以避免各種災難的發生,成為一個亟待研究的課題。

數據挖掘技術在20世紀90年代得到了飛速的發展,所謂數據挖掘,顧名思義即是在大量的關系或非關系數據庫中發掘出隱含的、未知的有價值信息。它是一種決策支持過程,主要為決策者提供信息支持。主要基于機器學習、人工智能、傳統統計學等數理手段。通常由數據準備、數據挖掘和數據分析三階段組成。空氣質量數據經過數十年的積累,其隱含的價值是可觀的。空氣質量指數(AQI)是衡量一個地區此刻空氣質量水平的一個重要指標,指數越大,危害越大[2]。

空氣質量數據是典型的時序數據,主要來自地面監測、氣象衛星等采集站點。通過對空氣質量數據進行數理分析已經成為空氣質量預測的可行性途徑之一。傳統的空氣質量預測主要分為數值預測和統計學預測兩種,所謂數值預測過去幾十年主流的一種預測方式,它主要是通過已有的空氣質量數據,推導總結出一系列的物理學和化學狀態方程,這些方程通常是高階微分方程,通過導入相應參數得到未來空氣質量數值,但這種預測方式需要規模龐大的計算力,而且考慮的影響方面相當有限,比如像人力活動等,數值預測的參數就很難把握并量化。而統計學預測則是通過數學建模分析已有數據,像非線性數值分析、多元統計、灰色分析、車貝雪夫展開等,但統計學預測存在周期長,操作復雜等限制,難以及時迅速準確地提供空氣質量數據的相關信息。隨著時間的推移和空氣質量數據采集處理技術的多元發展,人們開始逐步采用機器學習等新技術進行空氣質量數據的預測以彌補傳統預測方法的不足。但傳統機器學習等預測方法一般采用的是批處理的學習和預測方式,即在一次樣本學習和預測后,便不會對新樣本進行學習,這就加大了空氣質量預測的誤差,偏離了實時預測的軌道,很難有效地應用到實際工程之中[3]。

基于空氣質量預測的實際需求,本文在前人研究的基礎之上,對比、研究和采納不同計算框架的優缺點,選取兩種分別代表不同類型架構的模型進行空氣質量預測。以尋求一種理想的空氣質量預測模型。

2 模型原理

2.1 ARIMA原理

為了對比不同模型在預測上的精度優勢,我們首先比較傳統的時間序列分析法,ARIMA(自回歸移動平均模型)是傳統統計模型最常見的時間序列預測模型。自20世紀70年代提出后,與不少算法模型組合在預測領域取得矚目的成績,其基本思想是將時序數據看成一個隨機序列,通過數學模型對其內部構造和復雜特性進行近似描述,以最小方差為目標的最佳預測[4]。時間序列的分析主要從頻域和時域兩種角度進行分析,頻域分析在此不做贅述,

在時域方面,如果時間序列特征隨時間而變化,則可說時間序列是非平穩的,反之是平穩的。如果去除均值和確定性因素的隨機過程可以用式(1)表示[5]:

則可說該過程是p階自回歸過程,其中φi是自回歸參數,lt是白噪聲,可用AR(p)表示。

如果去除均值和確定性因素的隨機過程可用上式表示,則稱該過程為q階移動平均過程,其中θi是自回歸參數,lt是白噪聲。如果去除均值和確定性因素的隨機過程由上述兩過程共同表示,就可稱其為自回歸移動平均過程[6],表示如下:

差分過程為現實值與滯后值的差為固定值的冪,幾次冪就稱為幾次差分。如果一個隨機過程經過d次差分后變換為一個平穩的自回歸移動平均過程,則稱該過程為單積自回歸移動平均過程,ARIMA預測模型的一般形式如下:

其中,p表示預測模型中采用的時序數據本身的滯后數,d表示時序數據需要進行幾階差分化,才是穩定的,q表示需要移動平均的階數。空氣質量數據是在固定間隔的時間差采集的離散數據,其變量前后必然存在某種聯系,ARIMA預測正是尋找這種聯系對未來一定時間內的變量進行預測[7]。

2.2 GRU神經網絡原理

實現神經網絡在時序問題上的應用,繞不開對遞歸神經網絡的研究,遞歸神經網絡RNN也叫循環神經網絡,其在結構設計上與傳統的前饋式神經網絡不同,它也由輸入層、隱含層和輸出層組成。它考慮到前置樣本對當前樣本的影響,突出時序對模型預測的作用[8],其數學表達式為

其中,V、W和U分別為輸出層權值矩陣、上一層隱含層作為這次輸入的權值矩陣、輸入層權值矩陣,f和g都為激活函數,st是隱含層狀態,xt是輸入值。

其中LSTM(長短期記憶)網絡為典型的遞歸神經網絡RNN的一種變型,標準RNN中只有一個神經元細胞,一個隱含層進行學習,這樣由于在結構上的限制就會在長期記憶方面存在一定的不足,為了實現長期記憶,LSTM在RNN的基礎上,增加了記憶單元[9]。

LSTM網絡在結構增加門單元,來控制前置信息影響力的大小,實現了對長距離數據對現時數據的有效影響。設置了三個門,這三個門分別是遺忘門、輸入門和輸出門。每個門實現不同的功能,其中遺忘門控制保留多少狀態到目前時刻;輸入門控制輸入多少當前時刻到當前狀態;輸出門控制當前時刻的輸出[10]。基本公式如下:

σ單元輸出0到1的值,可以通過權值控制每部分輸入的量。遺忘門,讀取輸入xt和前置神經元的h信息,并通過函數值確定要丟棄多少信息。

輸入門,通過控制量函數和tanh函數更新細胞狀態。

輸出門,控制舊細胞狀態,將細胞舊狀態通過權值控制,忘記需要丟棄的信息,加上新的候選值,舊細胞狀態得以更新[11]。

最后的輸出為ht,通過一個權值控制層確定哪些細胞狀態輸出出去,然后將舊細胞狀態通過tanh處理后與輸出相乘確定最終輸出。

LSTM是RNN的變體,GRU則是LSTM的變體,LSTM實現了對遠距離依賴的有效處理,GRU則實現處理速度的提升。GRU在網絡結構上與LSTM類似,但它只有兩個門,它們分別是更新門和重置門。更新門控制先前狀態的保留,其值越大,先前狀態的影響就越大。復位門控制新輸入與先前狀態的關系,其值越小,記憶先前狀態影響越小。公式如下[12]:

圖1 GRU單元結構

3 實驗與結果分析

3.1 數據準備與分析

選取北京市2014年1月1日~2014年12月31日的AQI小時數據作為各個模型的研究對象,經過數據缺失值和異常值處理后,一共得到8760條數據。選取的AQI數據是典型的時序數據,符合各時間點上數值序列的特征。本文對一年之中的AQI時間序列作二維曲線圖,XY軸分別表示測量序列及濃度值,便于形象直觀地展現出AQI的變化規律。

為了方便所選模型訓練學習,減少數據偏移、幅度縮放、線性趨勢和噪聲對后續計算的影響。對所選數據進行歸一化處理,公式如下:

3.2 基于ARIMA時序分析預測的空氣質量預測模型

基于ARIMA的空氣質量預測模型我們選取后280個樣本數據進行模型預測,其基本預測步驟可以分為以下四步。

1)首先考察空氣質量數據序列是否平穩,觀察是否具有季節性,是否為白噪聲,依據空氣質量數據的ACF(自相關)系數和PACF(偏自相關)系數我們得到圖2。

圖2 自相關與偏自相關圖

在自相關圖系數是一個衰減的趨勢,我們可以判定為拖尾,偏自相關圖在3階長的時候系數趨于零,可以看出是截尾。因此我們可以判定空氣質量時序數據是不平穩的,需要進一步作差分分析。

2)空氣質量數據平穩處理。雖然空氣質量數據受季節影響,但在圖形曲線中并沒有呈現季節性變化,我們只考慮通過差分方法使時間序列平穩,分別嘗試差分階數為1、2、3、4,繪制時序圖如圖3。

圖3 差分圖

從經過差分處理的圖中,我們發現當差分階數取4時時序數據趨于平穩。

3)確定ARIMA模型參數及類型,空氣質量時序數據平穩處理后,再次通過繪制自相關和偏自相關圖,通過下圖可知,平穩序列的自相關函數和偏自相關函數均為拖尾,因此我們選用ARIMA模型,偏自相關圖在滯后為5以后趨于零,我們暫定P參數為5;自相關系數圖中顯著不為0的自相關數為2,我們暫定q參數為2,至此我們選擇模型ARIMA(5,4,2)。

圖4 4階差分后的自相關和偏自相關圖

4)根據選定模型進行預測分析。通過模型代入,給出ARIMA殘差自相關和偏自相關函數圖,從圖中可知ACF和PACF圖皆沒有明顯拖尾和截尾,表明預測模型的選取是恰當的。

圖5 ARIMA殘差相關函數圖

將原始數據代入模型,我們得到ARIMA擬合預測圖,從圖中我們可知,擬合值與輸入值擬合效果較好。擬合度均方誤差3.664,平均絕對誤差均值1.975(如表1所示),達到了擬合的預期。然后對后12h進行預測,從結果我們可以看出在前3h置信區間較小,預測精度較高,但隨著預測時長的增長,ARIMA空氣質量模型的置信區間隨之增大,預測精度減低。如果我們需要實現長期預測,還需尋求對遠端樣本有明顯精度預測的模型。

表1 模型擬合統計

3.3 基于GRU的空氣質量預測模型

根據前文數據樣本分析,我們知道選取的AQI樣本為單純的時序樣本,所謂AQI指數是將六種主要污染物中最高的污染指數作為AQI指數,基于上述分析,AQI數據樣本的時序分析沒有其他變量可以輸入,我們選取后8000個樣本作為訓練樣本,用后48h的數據作為樣本檢測。GRU空氣質量預測模型的學習衰減率選為0.002,隱含層單元設置為9,經過訓練5000次,可得空氣質量預數據在訓練計算過程中損失函數情況[13]。

表2 GRU模型訓練損失函數值

經過樣本訓練5000次,模型損失函數值逐漸減少,當訓練5000次時損失函數值為0.3012,使用經過訓練的模型對指定48h時間步長進行預測,預測結果對比圖如圖6。

圖6 GRU空氣預測模型精度對比圖

圖中實線為實際測量,虛線為實時預測數值。可以看出,在輸入數據后得到的48h內的預測結果與實際結果較吻合,證明本文提出的預測模型有較好的預測精度,實現了短期預測的設計目的。說明本文提出的模型切實可行,到此證明了預測模型的可行性,然后將提出的兩種模型進行對比[14]。

對比方法我們采用均方根誤差法進行對比,均方根誤差法(RMSE)是通過預測值減去實際值,將差平方后累加,除以樣本個數,最后將商開方,具體公式如下:

其中y1為預測值,y2為實際值,d為樣本個數。通過均方根誤差可以很好評價一個模型預測精度的好壞,其計算值越小,預測能力越好。表3為兩種預測模型均方根誤差比較[15]。

表3 預測模型RMSE對比

通過表3,我們對兩種預測模型進行均方誤差對比,發現基于GRU網絡的預測模型在空氣質量預測方面有較突出的記憶能力和通用性,對提高空氣質量模型的預測精度有很高的學術價值。

4 結語

本文根據空氣質量時序數據的特點,分析了提高空氣質量預測精度的必要性,總結了前人經驗,先對空氣質量數據的平穩性進行了分析,隨后根據ARIMA模型建立步驟,進行時序數據平穩化,根據自相關和偏自相關圖確定ARIMA模型,進行了擬合預測;隨后從新興循環神經網絡的角度出發,提出了一種基于門控循環單元網絡的預測模型,通過樣本選擇后進行了預測。實驗很好地證明了本文提出的模型通過各種參數設置,其可行性和出色的性能是確實存在的。并計劃在將來合并更多種類的深度學習模型并應用更多最先進的機器學習算法,預測更豐富的空氣質量數據,為進一步設計出一個具有實用性的空氣質量預測系統打下了堅實的理論基礎。

猜你喜歡
分析模型
一半模型
隱蔽失效適航要求符合性驗證分析
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統及其自動化發展趨勢分析
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
中西醫結合治療抑郁癥100例分析
在線教育與MOOC的比較分析
主站蜘蛛池模板: 欧美不卡在线视频| 四虎影视永久在线精品| 欧美伦理一区| 久草视频中文| 91精品久久久无码中文字幕vr| 国产成人免费| 国产高清色视频免费看的网址| 亚洲色图综合在线| 欧美日韩另类在线| 色综合天天综合| 40岁成熟女人牲交片免费| 成人午夜视频网站| 9久久伊人精品综合| 国产一区二区免费播放| 欧美成人怡春院在线激情| 91人妻日韩人妻无码专区精品| 18禁高潮出水呻吟娇喘蜜芽| 国产午夜福利在线小视频| 欧美亚洲欧美| 老司机精品99在线播放| 日本日韩欧美| 亚洲免费黄色网| 国产jizz| 国产精品一线天| 99久久精品久久久久久婷婷| 日韩欧美亚洲国产成人综合| 22sihu国产精品视频影视资讯| 久久精品人人做人人爽电影蜜月 | 久久人妻xunleige无码| 亚洲欧美一区二区三区图片| 少妇人妻无码首页| 国产剧情一区二区| 亚洲九九视频| 国产女人在线视频| 国产对白刺激真实精品91| 国产精品va免费视频| 亚洲天堂在线视频| 97综合久久| 国产综合网站| 丁香婷婷在线视频| 色综合中文综合网| 亚洲无码精品在线播放| 直接黄91麻豆网站| 亚洲视频影院| 欧美一级大片在线观看| 国产一线在线| 高清大学生毛片一级| 福利视频99| 香蕉久久永久视频| 毛片网站免费在线观看| 亚洲国产91人成在线| 国产一级视频久久| 久久国产精品国产自线拍| 午夜不卡视频| 久久国产精品77777| 成人韩免费网站| 久久中文电影| 玖玖精品视频在线观看| 国产流白浆视频| 久精品色妇丰满人妻| 亚洲黄色成人| 久久午夜影院| 亚洲中文无码h在线观看| 99热这里只有精品5| 欧美日本二区| 91小视频版在线观看www| 国产特级毛片| 91美女在线| a在线观看免费| 无码精品国产VA在线观看DVD| 久久国产黑丝袜视频| 精品国产免费观看| 亚洲日韩欧美在线观看| 亚洲欧美成aⅴ人在线观看| 国产一区在线观看无码| 91视频日本| 国产欧美日韩另类| 亚洲妓女综合网995久久 | 精品三级网站| 一本一道波多野结衣一区二区| 日本亚洲国产一区二区三区| 中国特黄美女一级视频|