于璐 姜珊 王新秀



關鍵詞:空氣污染時序數據;后綴索引;清晰模型;特征提取
中圖分類號:X831 文獻標志碼:B
前言
為監測和預測大氣環境,政府在全國范圍內建立了大量的空氣質量監測站點,收集了大量的空氣污染時序數據。空氣污染時序數據可以提供有關空氣質量變化的實時信息,通過對數據的監測和分析,可以及時發現空氣質量下降趨勢和異常,預警公眾和決策者并采取相應措施,以保護公眾健康。然而,如何從這些數據中提取出有用的特征,以便更好地監測和預測空氣質量,是氣象監測領域面臨的一個重要挑戰。
隨著對時序數據特征提取問題的研究越來越多。文獻[3]中使用HYSPLIT模型研究了臨汾市空氣污染物的時間變化特征、軌跡輸送特征和可能來源,該方法能夠較好地監測空氣污染物的時間變化情況并簡要歸納特征。文獻[4]中提出了基于Prophet模型的空氣污染物濃度預測方法,運用Prophet模型,確定環境監測數據的突變點等特征,分析了各項污染物濃度的時空變化規律。但將以上方法應用于空氣污染時序數據時,存在準確性不高的問題。
為解決這一問題,設計一種針對空氣污染時序數據的特征提取方法,提高特征提取的精確度。
1空氣污染時序數據特征提取方法設計
1.1空氣污染時序數據挖掘
通過改進的PrefixSpan算法實施空氣污染時序數據挖掘。基于后綴索引對PrefixSpan算法實施改進,將原本的投影數據庫替換,縮小算法運行時的實際占用空間。
通過下式表示后綴索引:
G=
式(1)中,id為序列的ID或序列的位置下標;itemSetPosition為序列的項集;itemPosition表示項集的項;G為將序列中某項到序列末尾間的項集作為當前前綴的后綴。其中,itemSetPosition與itemPosition的編號從0開始。
將前綴樹作為改進算法的數據結構,前綴樹的結點能夠記錄子結點、后綴索引、前綴的類型以及新生成的前綴,分別用childTreeNode、suffixIndex、itemFlag、prefix來表示。
改進的PrefixSpan算法的具體運行流程如下:
(1)在標準站數據庫中實施挖掘操作;
(2)R為前綴樹的根結點,B為原始序列集,Smin為最小支持度。
(3)對前綴樹的根結點R實施初始化處理,將R的itemFlag設置為0,childTreeNode、prefix設置為null。
(4)將suffixIndex的itemSetPosition與itemPosition設置為0。
(5)將id設置為序列集內序列的ID。
(6)從根結點開始對前綴樹實施遞歸創建。具體步驟如下:
①以當前結點的后綴索引為依據對序列集內對應的后綴實施遍歷,對后綴內各項的支持度進行計算,計算公式如式(2):
當未產生新前綴時,遞歸返回;當產生新前綴時,執行以下步驟:
③以當前結點的后綴索引為依據對產生的新前綴所對應的后綴索引進行計算,并分別對新的前綴樹結點實施創建;
④將前綴樹結點的prefix直接設置為新產生的前綴;
⑤將childTreeNode設置為null,
⑥將suffixIndex設置為新產生的前綴所對應的后綴索引;
⑦根據當前遍歷的結點的prefix與新產生前綴的關系將itemFlag設置為1或者0;
⑧將全部新創建的前綴樹結點當做目前遍歷結點的子結點,并在前綴樹中加入這些結點;
⑨將當前結點的suffixIndex直接設置為null;
⑩依次對當前結點的子結點實施遍歷,執行步驟1~2。
(7)獲取挖掘的多組空氣污染時間序列。
1.2挖掘時序數據的噪聲識別與清洗
設計考慮異常保留的時序數據噪聲識別清洗模型,實現挖掘的空氣污染時序數據中噪聲數據的處理。該模型通過降維與聚類方法實現離群點的判定,通過網格系統拆分行為空間,從而實現噪聲與異常的分辨。
該時序數據噪聲識別清洗模型的結構見圖1。
通過自適應滑動窗口將空氣污染時序數據分割為數據片段,具體操作步驟如下:
2案例測試
2.1實驗數據集
該市共有15個標準站,其中大型標準站共有八個,均分布在郊區,小型標準站共有七個,均分布在市內。利用改進的PrefixSpan算法挖掘以上15個標準站最近六個月的空氣污染時序數據作為實驗數據集,測試設計方法的特征提取性能。
2.2實驗過程
挖掘的空氣污染時序數據共56852條,找到其中的28 563條被認為含有噪聲的數據段,最終定位了6852個噪聲點實施了差值修復,提高了空氣污染時序數據的質量。
通過基于多維評價與模態重構設計特征提取方法實現實驗數據集的特征提取。在該過程中,將壓縮率P分別設置為75%、80%、85 010、90%、95%,通過遺傳尋優算法獲取加權參數與去噪閾值,不同壓縮率下的參數尋優結果如下:
壓縮率P為75%:加權參數與去噪閾值的尋優結果分別為0.71、0.24;
壓縮率P為80%:二者尋優結果分別為0.83、0.22:
壓縮率P為85%:二者尋優結果分別為0.94、0.17:
壓縮率P為90%:二者尋優結果分別為0.47、0.17:
壓縮率P為95%:二者尋優結果分別為0.41、0.16。
在不同參數尋優結果下,獲取PLR序列內全部分段點的連接曲線,實現特征的提取,其中壓縮率為75%時的連接曲線見圖2。
測試設計方法特征提取中的平均擬合誤差與擬合損失,將基于轉折點和趨勢段的時間序列趨勢特征提取方法與時間序列數據并行化排列熵特征提取方法作為對比測試方法,共同進行測試,并分別用方法1、方法2來表示。
2.3測試結果
2.3.1平均擬合誤差測試結果
首先測試不同壓縮率下設計方法與方法1、方法2特征提取中的平均擬合誤差,測試結果見表1。
根據表1的測試結果,設計方法在壓縮率P為85%時平均擬合誤差最低;方法1在壓縮率P為90%時平均擬合誤差最低;方法2在壓縮率P為80%時平均擬合誤差最低。設計方法的平均擬合誤差整體低于兩種對比方法,說明其特征提取更加準確,特征提取性能更好。
2.3.2測試結果
接著測試三種方法的擬合損失,測試結果見圖3。
根據圖3測試結果,隨著時間的增長,三種方法的擬合損失都越來越低,其中設計方法的擬合損失一直低于方法1、方法2這兩種對比方法,并在最終達到了0.1以下的擬合損失。
3結束語
通過文章的研究,可以得到以下結論:空氣污染時序數據特征提取方法是一種有效的手段,可以從空氣污染時序數據中提取出有用的特征,以便更好地監測和預測空氣質量。在特征提取過程中,需要結合不同的算法和模型,以適應不同的數據類型和監測需求。此外,特征提取的結果可以為空氣質量監測和預測提供重要的參考依據,幫助政府和相關機構及時采取措施,減輕空氣污染對人類健康和環境的影響。因此,空氣污染時序數據特征提取方法具有廣泛的應用前景和研究價值。