蔣澤坤 陳炫輪


◆摘? 要:在全球對環境問題越發重視的大背景下,采用有序樣本聚類將北京市2013年12月到2021年6月的91份空氣質量指數(AQI)劃分為七個等級,并采用集對分析構造集對權重配合馬爾科夫鏈對未來的空氣質量指數進行區間預測,比精準性的數值預測更具有可信度,可以為相關部門制定計劃提供依據。
◆關鍵詞:有序聚類;馬爾科夫鏈;集對分析;空氣質量指數(AQI)
一、文獻綜述
空氣質量作為與人類健康息息相關的自然因素,對其進行研究具有十分重要的意義。目前對于空氣質量的研究主要集中在兩個主要方面:探究空氣污染成因和污染物質濃度的準確性數值預測。
探究空氣污染成因。Tofful Luca采集城郊地區獨立住戶室內外的PM2.5濃度,探討了室內外污染源對生活環境中顆粒物化學組成的影響。
污染物質濃度的準確性數值預測。Chae Sangwon將插值應用于空氣質量和天氣數據,然后使用卷積神經網絡(CNN)預測PM濃度。并據此提出了一個實時預測模型,可以預測空氣中的顆粒物(PM)的濃度。
二、研究方法和數據來源
2.1有序樣本聚類
有序樣本聚類有別于常見的聚類分析方法,通常的聚類方法是依據樣本特征的相似度或者距離,按照一定的分類標準將樣本劃分到若干個類別中。有序樣本聚類獨有的特點是在樣品順序不被打亂的前提下進行分類,適用于對不能打亂順序的客觀現象進行聚類分析。
2.2集對分析
集對是聯系數學中的一個基本概念,指兩個有一定關聯的集合做組成的一個新的系統。
2.3馬爾科夫鏈
馬爾科夫鏈的基本特性就是無后效性,其直觀解釋就是現象未來得狀態只依賴于現在,而與過去的狀態無關。自然界中的現象總是呈現為隨機過程,而馬爾科夫鏈就被廣泛的運用到隨機過程的建模當中,如天氣預報、運籌決策、安全科學、統計物理及計算機科學等領域中。
2.4數據來源
本文所使用的數據均來自于杭州真氣科技公司的真氣網,真氣網是一個空氣質量情況監測平臺,具體數據為北京市2013年12月份到2021年6月份的月度空氣質量指數(AQI)。
三、實證分析
3.1 有序樣本聚類的實現
本文進將北京市2013年12月到2021年6月這91個月的空氣質量指數按從大到小的順序進行排列,借助R軟件繪出了有序聚類的損失函數L[b(n,k)]與分類數k的關系圖像,可知當把這91份空氣質量指數按從小到大順序排列分為6類時,其損失函數值最小。分類結果如表1所示。
3.2 馬爾科夫性檢驗
無后效性是馬爾科夫鏈最基本的特性,同樣也是隨機過程進行馬爾科夫建模的前提條件,只有滿足無后效性這一特性,才能使用馬爾科夫鏈的相關理論。根據計算卡方統計量[χ][2]=45.794,當給定顯著性水平[α]=0.05時,查找卡方分布表可得[χ][a2][](m-1)[2][]=[χ][0.05][2](25)=37.652<[χ2]=45.794所以北京市空氣質量指數序列滿足無后效性。
3.3 空氣質量預測
對空氣質量這種自然界中存在著很大的不確定性的隨機過程,精準性的數值預測往往缺乏一定的可信度和說服力,如果根據狀態空間劃分現象,進而對預測期目標現象所處的狀態空間進行預測,則往往更加可靠且對各種決策的制定具有很重要的參考價值。
對北京市這91個月份的空氣質量指數,按照時間順序以及不同的滯時步長統計其狀態轉移情況,即可得到相應滯時步長的狀態轉移頻數矩陣和對應的狀態頻率轉移矩陣。要預測2021年7月份的空氣質量所處的狀態區間,本文選取最大滯時為5的5個時點,即2021年2月到2021年6月這5個月份進行加權的馬爾科夫鏈預測,表2即加權馬爾科夫鏈的預測過程。
根據表2中集對加權的結果各個狀態的概率值中的最大值對應狀態4,根據表1可以得知2021年7月的空氣質量指數的取值范圍為113≤x<137。根據國家對空氣質量指數的級別劃分,此范圍處于輕度污染狀態。
四、結論
空氣質量情況作為自然界的隨機過程具有很強的隨機性,所以目標現象的準確性數值預測相對于狀態空間范圍的預測往往缺乏一定的可信度,而狀態空間范圍的預測結果在提高可信度的同時也能為研究者和相關單位、人員的決策提供可靠理論依據。本文所采用的基于有序聚類的加權馬爾科夫鏈,根據有序聚類的損失函數來判斷,最為合理的分類數并以此作為加權馬爾科夫鏈的狀態空間劃分標準,提高了狀態劃分的科學性。
參考文獻
[1]伍艷清.2017~2020年高明區春節及元宵期間空氣質量分析研究[J].廣東化工,2021,48(12):146-147.
作者簡介
蔣澤坤(1997-),男,安徽亳州人,碩士研究生,主要研究方向大數據分析。