王建國,趙 婧
(內蒙古環境監測中心站,呼和浩特 010011)
大氣環境監測中,在應用大數據解析技術的時候,可開展可視化操作,同時也能實現數據的收集、數據的整理、數據的記錄以及數據的挖掘,還可以預測大氣環境。具體來說包括:第一,開展可視化操作。若想要有效確保大氣環境監測的效果與質量,就要對多方面因素進行仔細分析,若是單純進行數據記錄,便很難準確反映大氣環境確切、真正的變化規律。面對這樣的問題,可以采取大數據解析這一先進、科學的技術措施,將經過圖像化處理的數據展示出來,實現可視化操作,同時,還可以與氣象平臺有機結合起來,來進行數據發布,根據氣象平臺上發布的大氣環境信息,人們便可以有計劃地開展各項活動。第二,關于數據的相關工作。大數據解析技術,顧名思義是一種關于數據的技術,在大氣環境監測過程中應用這種技術措施,便可以更好地收集、整理、記錄、挖掘大氣環境數據,并構建數據檔案,根據一段時間內收集到的數據,便可以對大氣環境變化的實際規律情況進行探討與分析,并可以以此為根據,開展大氣環境預測,促進預測結果準確性的提高。第三,還可以預測大氣環境。對大氣環境數據進行處理之后,便可以通過對大數據解析技術進行應用,來分析數據之間的聯系,總結數據規律,并結合運用氣象公式、針對性編程,充分考慮歷史同期數據與生態環境因素等,便可以有效預測大氣環境。
現以城市局部PM2.5平均濃度計算為例,探討大數據解析技術在大氣環境監測中的運用策略。首先,按照規格為1千米×1千米單元網格,對目標城市進行劃分。基于此,用G(g1,g2,…,gi,…,gn)代表研究對象;用Gi 代表城市中1平方千米范圍內的地區;用C(Cg1,Cg2,…,Cgi,…,Cgn)代表研究內容;用Cgi 代表城市局地網格中PM2.5平均濃度。應用大數據解析技術的時候,研究內容又可以叫做目標函數,以J(Ci)進行代表,其有C1、C2兩種類型,C1是PM2.5平均濃度已知的設有大氣自動監測站的網格;C2是PM2.5平均濃度未知的未設大氣自動監測站的網格。在對C2的PM2.5濃度進行計算的過程中,需要采取大數據解析。
在應用大數據解析技術對C2的PM2.5平均濃度進行計算的過程中,為實現計算精準度的提高,需要收集C2的相關數據。在數據選擇的時候,應采取“可能”與“需要”的原則,前者是指相關數據存在,后者是對各類數據進行分析,保證J(Ci)目標函數與所選數據類存在相關性。收集到的C2相關數據有:人群活動情況、交通狀況、氣象條件、各網格坐標等相關數據,加油站、工廠、餐飲業等與空氣污染有關的特征單位方面的數據,PM2.5平均濃度的歷史數據。在實踐應用大數據解析的時候,應注意J(Ci)目標函數所受到的各種數據的特征量的影響。包括:交通狀況中的總車輛數、不同車速下的車輛數、平均車速及平均車速方差;氣象條件中的氣溫、氣壓、風速、相對濕度;PM2.5平均濃度的歷史數據。選擇各個特征量后,便可采取下述公式(1)、公式(2)、公式(3)來對各個特征量進行歸一化處理:

式中,下標ik是第k 個特征量;`xk 是其平均值;下標i 是其第i 個數值;n 是其數據個數;Sk是其標準差;X’ik是特征量k 歸一化后的第i 個數據。
對上述特征量進行分析,可以看出存在兩種特征量,即隨時間變化、不隨時間變化兩種特征量,目標函數也在一定程度上受到兩種特征量的影響,在對目標函數進行解析的過程中,解析途徑也有所不同。這樣的情況下,對于空間相關的數據集,可應用空間分類器來進行目標函數運算,經過運算之后便可以得到預期結果;可對時間分類器進行運用,針對時間相關的數據集,開展目標函數運算,從而獲得預期結果。隨時間變化的數據集包括氣象條件、交通狀況、人群活動情況以及PM2.5平均濃度的歷史數據。與空間相關數據集包括網格道路狀況、坐標數據以及與空氣污染密切相關的特征單位數據。
其所包含的特征量處于靜態過程,同時不受時間影響。目標函數受到其所包含特征量的干擾,為多層、多節點的傳遞過程,其結構特征為靜態神經網絡。空間分類器局地網格PM2.5平均濃度預測,主要組成部分包括人造神經網絡部分(ANN)、輸入部分(IG),空間分類器IG 主要負責利用各種空間特征量,來構建ANN 的輸入值,其數據生成流程如圖1所示。研究過程中,應在設有大氣自動監測站的C1隨機選擇兩個局部坐標標記為11、12,根據圖2,可以采取反演法,解決神經網絡中的非線性函數變換問題,結合Widrow-Hof 學習規則,對空間分類器進行不斷反復訓練,來滿足大數據解析技術的實際應用要求。

圖1 空間分類器IG的數據生成流程

圖2 神經網絡節點輸入輸出流程
局部地區大氣污染物濃度是隨時間變化的特征量,將其用yi表示,某網格點某特征量用Xij表示,則X={x1,x2,…xn},xi={xi1,xi2,…,xij,t},t 為某一時刻。X 確定的前提下,隨機變量yi 僅僅與相鄰yi-1存在關系,由此得出公式(4):

P 是概率,i~j 是給定域中i 狀態變量和狀態變量相鄰。進一步對其進行分析,可得出公式(5):

Z(x)代表的是條件概率函數的權重;λ 代表的是訓練過程中的待估參數。對線性函數參數估值法進行應用之后,便可以得到權重參數估值。
城市局部地區PM2.5平均濃度計算中應用大數據解析技術,可應用公式(6),并應用趨于最優的時間分類器、空間分類器,得出未知網格PM2.5平均濃度的計算。

復雜性、多樣性是大氣環境問題的顯著特征,大氣環境監測中,不同類型的大氣環境數據,相互之間的關系為非線性關系、多元化關系。這樣的背景下,大氣環境監測工作的實際開展過程中,在分析、利用數據信息的時候,面臨著諸多方面的制約。因此,必須加大對大數據解析技術的研究與應用,以便于更好地開展大氣環境監測。