基于多元線性回歸的空氣質量指數預測模型

2024-03-28 05:52:44王凱文李宏濱

信息記錄材料 2024年2期

關鍵詞：模型

王凱文，李宏濱

（太原師范學院計算機科學與技術學院山西晉中 030600）

0 引言

中國是世界上的人口大國，也是世界上最大的制造業和工業生產國之一。一直以來，空氣污染問題的解決面臨著嚴峻考驗，尤其是在城市地區，PM10、O3、SO2、PM2.5、N02、CO 等污染物對人體健康和環境的影響非常嚴重。建立空氣質量指數（air quality index， AQI）與不同污染物濃度之間的模型有多重意義。首先，AQI 是一個用于評估空氣質量的標準化指數，建立AQI 與不同污染物濃度之間的模型可以幫助政府相關部門準確地評估空氣質量，從而采取更有效的措施保護公眾健康。其次，AQI 與不同污染物濃度之間的模型可以幫助政策制定者了解不同污染物的影響程度，從而制定相應的環境政策。最后，AQI 是一個國際標準化指數，可以用來比較不同地區的空氣質量，與不同污染物濃度之間的模型可以幫助不同地區使用相同的指數來評估和比較空氣質量，從而更好地了解不同地區的環境狀況。因此，建立AQI 與不同污染物濃度［1］之間的模型對于環境保護和公眾健康有著重要的意義。

1 相關概念

1.1 AQI

AQI［2］是一項關鍵的環境指標，旨在向公眾傳遞有關空氣質量狀況的信息。該指數在計算過程中綜合考慮了顆粒物（PM10和PM2.5）、臭氧（O3）、二氧化硫（SO2）、一氧化碳（CO）、氮氧化物（NO2）等多種空氣污染物［3］。 AQI的計算方式也由于地區的不同存在一定的差異，計算結果按照不同的數值范圍進行劃分，不同范圍代表空氣質量的不同等級，例如：0～50 代表當前地區的空氣質量為優等。

1.2 皮爾遜相關系數

皮爾遜相關系數（Pearson correlation coefficient）是一種用來計算兩組變量之間線性關系強弱和方向的量。在具體應用過程中通常使用字母“r” 表示，它的取值范圍是［－1，1］。 r 的計算結果為1 時代表完全正相關；r 的計算結果為－1 時表示完全負相關。 r ＝0 表示無相關性：兩個變量之間沒有線性關系。

皮爾遜相關系數的值不僅表示線性關系的強度，還可以用來表明兩組變量關系的方向。呈正相關時，其值為正；呈負相關時，其值為負。

1.3 多元線性回歸模型

多元線性回歸是一種統計模型，用于建立多個自變量與一個因變量之間的關系。這個模型可以用于預測和解釋變量之間的復雜關系。多元線性回歸的目標是找到合適的回歸系數，使得模型對觀測數據的預測誤差最小化。這通常通過最小二乘法來實現，即通過最小化觀測值與模型預測值之間的殘差平方和。

建立多元線性回歸模型的主要步驟包括數據收集、變量選擇、模型擬合、模型評估和預測。多元線性回歸模型的解釋性較強，能夠同時考慮多個自變量對因變量的影響。與此同時，該模型也存在一些缺點，例如，模型的有效性依賴于一些假設，如誤差項的正態性和方差齊性。在應用中，還需要注意避免過擬合（模型過度復雜，對訓練數據過于敏感）。

2 問題分析

首先，模型的建立需要通過《中國統計年鑒2022》完成對某城市全年空氣污染物濃度數據的采集，同時對采集到的數據進行統計分析，對數據異常值、缺失值進行預處理工作；其次，通過建立相關性分析模型，計算AQI 與這些污染物之間相關性的強弱［4］，并根據污染物在空氣中的濃度值、影響范圍以及對人體是否有害等因素，確定對空氣質量有影響的污染物主要有六種；最后，將六種污染物濃度作為自變量，AQI 作為因變量，建立多元線性回歸模型，根據模型預測的AQI 與真實AQI 進行比較，確定該模型的實用性和精確度。

3 數據處理

本文主要探究AQI 與各污染物濃度之間的數學模型，因此不受城市變化的影響。從中挑選了某城市2022年的空氣質量指數與空氣污染物濃度的數值。數據的內容如表1 所示。

表1 2022 年某城市AQI 與空氣污染物濃度數據

3.1 缺失值處理

在對數據進行統計分析時發現數據是不連續的，為了滿足時間序列本身是連續、平滑的特性，對數據中的缺失值進行填充。常用的缺失值填充方法有隨機填補法、均值法、中位數法、眾數法等。此外，K－最近鄰（K-nearest neighbor， KNN）、回歸預測、期望最大化（expectation maximization， EM）等建模方法也可用來進行數據填充。由于數據集缺失值比重低，且構成的時間序列的周期長，因此采用對應污染物的平均濃度限值作為缺失數據進行填充。

3.2 數據有效性處理

首先，確定CO 數據允許保留三位小數，其他污染物的數據允許保留兩位小數；其次，對數據進行更詳細的判斷：將值按小數點進行分割，如果分割后的部分不是兩部分，或者小數部分的長度超過3 位，則數據無效；最后，對于無效的數據也采用對應污染物的平均濃度限值進行修改。

4 模型建立

4.1 相關性檢驗

從《中國統計年鑒2022》以及某些地方政府網站發布的監測得知，我國空氣污染物主要的監測指標主要有六項，分別是PM10（粗顆粒物）、PM2.5（細顆粒物）、SO2、NO2、CO 和O3。 AQI 是用來評價空氣質量情況的無量綱相對數值。

設空氣質量指數為因變量Y，各污染物濃度為Xi（i ＝1，2，3，…，n），其中n為對AQI 有影響的污染物種類數。通過使用皮爾遜相關系數進行相關性分析［3］，分析空氣質量指數與各污染物濃度之間的相關性。具體的步驟如下所示：

以AQI 與NO2之間的相關性計算［4］為例，假設AQI的樣本數據為Y：｛Y1，Y2，Y3，…，Yn｝，污染物NO2濃度的樣本數據為X：｛X1，X2，X3，…，Xn｝。

步驟1：用公式（1）、（2）計算樣本均值：

步驟2：用公式（3）、（4）計算樣本的標準差：

步驟3：用公式（5）計算樣本的協方差：

步驟4：用公式（6）計算皮爾遜相關系數：

其中，相關系數r的數值越趨近于1 或－1，相關性越強；趨近于0 時，相關性越弱。通過上述求解，可以得出AQI 與各個污染物濃度之間的相關系數，如表2 所示。對各相關系數進行分析，確定收集數據中的六項指標都與空氣質量指數有較強的相關性。

表2 AQI 與各污染物濃度相關系數

4.2 多元線性回歸模型建立

4.2.1 轉化分指數

因為不同污染物的濃度單位和濃度范圍不同，直接使用濃度值來計算AQI 可能會出現不公平或不準確的情況，所以將空氣污染物的濃度轉化為分指數可以更準確地評價空氣質量，反應不同污染物對人體健康和環境的影響程度，避免了不公平或不準確的情況。

同時，分指數的計算也考慮了不同級別的污染物標準限值，以及不同污染物的影響程度，可以更加客觀地評價空氣質量，避免了過度關注某一種污染物而忽略其他污染物對空氣質量的影響。各污染物濃度區間值如表3 所示。

表3 污染物濃度區間值

分指數計算公式如式（7）所示。

轉化后AQI 部分數據的分指數如表4 所示。

表4 轉化后AQI 部分數據的分指數

4.2.2 多元線性回歸模型

假設上述處理過的數據為D，一條樣本數據中有d條影響AQI 的空氣污染物屬性指標。通過多元線性回歸模型［5－6］，最終目標是尋找d維列向量ω與常數b，使模型為式（8）所示。

目的是使預測值盡可能接近真實值yi。使用Python中的Numpy、Pandas 等庫對上述模型進行求解，得到各個指標分量的系數ω以及偏移量b［7］，進而得到空氣質量指數與各污染物濃度的關系表達式如式（9）所示。

將數據中的各污染物濃度數值分別代入上述公式，計算出每天空氣質量指數的預測值y＾。

5 結果分析

使用上述建立的AQI 與不同污染物濃度之間的數學模型［8］，對該城市AQI 進行計算得到預測值，并與真實值進行比較，其部分結果如表5 所示。

表5 AQI 預測值與真實值對比

最后，通過皮爾遜相關系數計算真實值與預測值的相關性，計算結果為0.928。經過驗證，上述函數y ＝－1.134x1＋0.793x2＋0.729x3＋1.287x4＋0.100x5＋0.387x6＋4.104 預測結果較為準確。

6 結語

首先，本文對收集到的各空氣污染物濃度進行統計分析，使用各污染物的平均濃度限值對缺失數據進行填充；其次，將空氣污染物濃度轉化為分指數，解決了直接使用濃度值來計算空氣質量指數可能會出現不公平或不準確的情況；最后，使用多元線性回歸對問題進行建模，最終得到的模型可以將多種污染物的濃度綜合考慮，AQI 預測準確率達到了0.928，能夠反映空氣質量的總狀況。但是，該模型并沒有考慮季節等相關因素的影響，因此可以考慮將各城市每年的數據按照季節［9］進行劃分，分別進行構建AQI 與各影響指標之間的關系模型，進一步提高模型的精確率。