潘爭光, 趙 奎, 王鴻亮, 王俊霖
?
基于實時技術的大氣顆粒物在線分析系統①
潘爭光1,2, 趙 奎2, 王鴻亮2, 王俊霖3
1(中國科學院大學, 北京 100049)2(中國科學院沈陽計算技術研究所, 沈陽 110168)3(大連理工大學軟件學院, 大連 116024)
針對環境監測中, 難以實時在線處理海量顆粒物數據的問題, 提出了一種基于實時技術的大氣顆粒物在線分析系統, 實現了顆粒物統計、濃度變化、來源解析等功能. 該系統利用實時數據庫來實時采集、存儲海量大氣數據, 解決了環境監測中數據的海量問題; 同時, 引入自適應共振神經網絡算法和邏輯回歸模型進行數據分析, 成功降低數據規模, 提升數據分析速度. 實踐表明, 該在線分析系統能在合理時間內得到準確的分析結果, 具有重要的實際意義.
實時技術; 海量數據; 聚類分析; 在線分析; 環境監測
當前, 大氣環境污染問題日益嚴重, 大氣中各種細小顆粒物對人體健康極為有害. 速度開展環境狀況及影響分析, 已經是擺在科研人員面前的緊迫任務. 傳統的環境數據分析方法是以人工的方式進行數據采集、手動或半自動化地進行數據分析、最后以靜態的表格形式存儲, 整個過程費時費力; 再者我國經濟處于高速發展的階段, 環境數據更新迅速, 這就對環境數據分析方法提出了時效性要求; 另外一方面, 隨著現在環境監測手段的多樣化、自動化, 比如質譜儀每分鐘采集到數百的質譜數據, 如何高效、自動化地存儲分析數據顯然十分必要[1,2].
本系統利用實時數據庫來采集、存儲、管理海量顆粒物數據, 再通過相應的數據庫接口, 提供給上層數據分析系統, 上層數據分析系統再從海量大氣信息中, 通過各種數據分析方法, 實現海量大氣顆粒物的統計譜圖、粒徑分布、濃度變化曲線圖、自動命名、源解析等分析功能, 實時、在線地提取有效信息, 助力環境中心的空氣污染監測.
2.1 實時技術與實時數據庫
實時技術具有低延遲、快速反應、實時處理的特點, 實時數據庫技術自上世紀80年代開始飛速發展, 其作為數據庫系統的一個分支, 是傳統數據庫技術與實時技術結合的產物, 它具有高實時性、高數據吞吐量等特點, 是各種信息監測系統的基礎, 廣泛應用在工業生產現場的信息采集、裝置監控、歷史數據管理[3], 已經在各行業的實時在線系統中扮演重要角色.
2.2 大氣顆粒在線分析方法
現行多種大氣顆粒物數據分析方法, 比如顆粒物總體分析和單顆粒分析[4]. 總體分析是以采集樣本的總體作為研究對象. 通過X射線熒光光譜或者中子活化分析法來對顆粒物中的元素進行檢測, 分析出樣本整體表現出的光譜或化學特征, 從而得到總體數據; 單顆粒分析法以單個空氣顆粒為分析單位, 利用空氣動力學和光學相關知識, 能夠對單個顆粒的粒徑和化學成分進行分析, 精確程度較高, 但會產生海量離子、譜圖數據.
2.3 顆粒物聚類分類方法
單顆粒分析法在分析大氣顆粒物時, 會產生海量數據, 因此需要利用數據挖掘技術來進行高效的、自動化的數據分析.
數據挖掘中有多種聚類算法, 適用于質譜儀數據的聚類算法多采用基于密度的聚類方法, 如K-means算法、模糊c均值、ART-2a(自適應共振神經網絡)等, 綜合考慮大氣數據特征與算法效率特征, 本系統采用的是ART-2a算法.
3.1 系統需求分析
本系統旨在實現一個基于實時技術的大氣顆粒物在線分析系統, 主要包含以下功能子模塊: 數據來源配置、化學成分分析、顆粒物來源解析、查詢統計等模塊[5]. 具體功能劃分如圖1所示.
3.2 架構設計
本系統采用C/S架構, 在架構設計上分為表示層、邏輯層和數據層, 如圖2所示.

圖1 功能模塊圖
3.2.1 數據服務層
數據服務層是系統的基石, 在本系統中, 采用某品牌實時數據庫與MySQL數據庫結合的方式來構建數據采集、存儲和管理系統, 解決了海量大氣顆粒數據監測中的實時性需求和海量數據存儲需求, 為上層的業務邏輯層提供高速的數據服務.
3.2.2 業務邏輯層
業務層是各種數據分析過程的具體實現, 是整個系統的核心部分, 包含眾多的數據分析過程, 如數據導入導出、顆粒物聚類、顆粒物自動命名、統計分析、濃度變化曲線圖、顆粒物來源解析等.
圖3是對空氣顆粒物進行來源解析的流程圖.

圖3 源解析流程圖
本系統基于Visual Studio 2010平臺, 采用C++語言, 使用某品牌實時數據庫系統做實時數據采集和存儲, 使用MySQL數據庫來存儲數據分析結果和存儲本系統的管理數據[6].
本系統具有多種優點: (1)界面友好、操作方便; (2)可以對海量大氣數據進行快速分析; (3)對分析結果以圖表的形式進行展示, 并可以對結果進行導入導出; (4)對數據分析的參數可以動態配置; (5)可以對顆粒物聚類結果實現自動命令, 高度自動化, 節省人力物力; (6)提供管理員等多角色管理功能.
下面主要介紹數據服務層、數據預處理、數據聚類分類分析、數據統計等四個關鍵模塊的實現.
4.1 數據服務層的實現
實時數據采集和歷史數據都可以通過相應的API或者數據庫管理系統來完成, 其提供C/C++二次開發API讓客戶很方便地對實時采集和歷史數據進行增刪查改, 如goh_get_archived_values可獲取單個標簽點一段時間內的存儲數據, goh_get_single_value獲取某標簽某時間點的數據, goh_update_value可修改某標簽某時間段的數據值, goh_remove_values可刪除某標簽一段時間內的數據值, goh_get_cross_section_values可獲取批量標簽點的數據值.
用MySQL數據庫可以存儲數據分析后的結果, 方便數據的存儲、查詢、導入、導出.
4.2 數據預處理模塊
數據預處理階段, 主要是針對實時采集的顆粒物數據, 從中提取到系統數據分析模塊所需要的電離離子的峰高、峰面積、相對峰面積等數據, 并根據需求選擇一個指標作為后續處理的基準.
4.3 顆粒物聚類分析
本系統通過ART-2a自適應共振神經網絡算法來將相似的顆粒物聚集到同一個分組中, ART-2a神經網絡是一種無監督的矢量分類器, 能有效地處理大數據集和高維數據集, 大大降低數據的規模. 并且當某個數據點與當前存在的所有分類都沒有達到預設的相似度時, ART-2a為其自動產生一個新的類別, 而不影響其它已經存在的顆粒物聚類, 因此該算法很適用于質譜儀數據聚類分析[7].
ART-2a算法的流程如下:
1). 利用數據矩陣, 隨機初始化輸入向量;
2). 對輸入向量進行歸一化處理;
3). 計算輸入向量與已存在的感知器進行相似度計算, 即向量內積計算;
4). 若相似度達到閾值參數, 則該顆粒物屬于該分組, 并進行共振, 更新感知器位置; 若未達到相似度閾值, 則自動產生新類;
5). 將所有的顆粒重復上面的步驟, 并進行多輪迭代直到分類結果穩定.
聚類效果如圖4所示.

圖4 聚類效果示意圖
4.4 顆粒物自動命名
本模塊給出了基于邏輯回歸模型的分類系統, 來實現對顆粒物自動命名. 主要思路是: 以離子信息的峰高、峰面積、相對峰面積等參數作為特征值, 通過訓練樣本來調整分類器的參數, 在訓練樣本充足的情況下, 會得到相應顆粒物的回歸模型, 隨著后期用戶的不斷反饋, 進行在線學習, 可以進一步更新模型參數, 提高分類精確度[8].

圖5 回歸模型
邏輯回歸模型用于二分類問題, 大氣中常見的有七種顆粒: 元素碳(EC)、鈉鉀(NaK)、鉀(K)、礦物質(M)、重金屬(HM)、大分子有機物(HOC)、有機碳(OC). 因此, 我們需要對此七種顆粒物分別建立模型, 需要相應的回歸模型. 在對實際數據進行分類測試時, 只需分別對每個顆粒物進行二分類即可.
自動命名結果如圖6所示.

圖6 自動命名示意圖
4.5 顆粒物數據統計
為更加宏觀直觀地顯示空氣數據, 需要對分析后的數據進行統計, 以便制定應對方案, 助力環境保護. 圖7是顆粒物粒徑分布圖; 圖8表示顆粒物濃度變化曲線圖; 圖9表示顆粒物來源分布餅狀圖.

圖7 顆粒物粒徑分布圖

圖8 顆粒物濃度變化曲線圖

圖9 顆粒物來源分布餅狀圖
根據顆粒物來源分布餅狀圖, 可以進一步對顆粒物來源進行解析, 判斷出可能的污染源, 如: 生物質燃燒、工業、尾氣、燃煤等.
本系統測試服務器配置如下: Intel Xeon E4-1235v2 CPU、64G內存、Windows Server2008(64位), 然后于遼寧大學、沈撫新城等位置獲取12W、22W、32W組顆粒物測試數據, 分別測試數據預處理、聚類分析、自動命名等模塊的運行時間.

圖10 來源分析結果
本文中以采用MySQL數據庫為系統優化前的速度, 采用實時數據庫后為系統優化后的速度, 下面是兩者在各階段的處理性能, 數據規模單位為W(萬組), 時間指標單位為min(分鐘).

表1 系統性能測試
由上表可以看出, 本系統在未優化前, 時間分別為46分、85分、119分, 對比于半自動化或者手動數據分析, 整個系統分析速度提升數十倍以上; 同時, 采用實時技術的優化策略后, 本系統的運行時間為30分、50分、76分, 系統運行速度提升35%.
在本文中, 一種基于實時技術的大氣顆粒物在線分析系統被實現, 該系統采用實時數據庫來解決大氣監測中的海量數據和數據存儲的實時性兩大問題, 上層數據分析中采用了ART-2a自適應共振神經網絡算法和邏輯回歸模型等數據分析方法來降低數據規模, 提升數據分析速度, 成功地處理海量大氣顆粒物數據.
實驗數據表明, 本在線分析系統可以有效地處理大氣監測中的海量數據問題, 同時整個系統的運行速度在期望范圍內, 滿足環境監測中的實時性需求. 在實際測試中, 分組數據的正確性能達到80%; 同時, 采用實時數據庫優化后, 相比基于MySQL的傳統分析系統能提升35%的速度. 由此可見, 本系統對于自動化分析大氣顆粒數據具有重要實際應用意義和價值.
1 尹洧.大氣顆粒物及其組成研究進展(上).現代儀器,2012, 18(2):1–5.
2 張莉.基于單顆粒氣溶膠質譜信息的分類方法研究及其應用[碩士學位論文].上海:上海大學,2013.
3 翟明玉,王瑾,吳慶曦,等.電網調度廣域分布式實時數據庫系統體系架構和關鍵技術.電力系統自動化,2013,37(2): 67–71.
4 楊新興,尉鵬,馮麗華.大氣顆粒物PM2.5及其源解析.前沿科學,2013,7(2):12–19.
5 王丹.遼寧省大氣環境監測數據分析系統研究[碩士學位論文].沈陽:東北大學,2009.
6 Yin YF, Gong GH, Han L. Air-combat behavior data mining based on truncation method. Journal of Systems Engineering and Electronics, 2010, 10: 827–834.
7 李法運,陳亮.基于改進BP網絡的網絡論壇熱點主題挖掘. 計算機系統應用,2016,25(3):113–118.
8 曹占峰,劉海濤,張啟偉.智能統計分析系統.計算機系統應用,2015,24(7):41–45.
Atmospheric Particle Online Analysis System Based on Real-Time Technology
PAN Zheng-Guang1,2, ZHAO Kui2, WANG Hong-Liang2, WANG Jun-Lin3
1(University of Chinese Academy of Sciences, Beijing 100049, China)2(Shenyang Institute of Computing Technology, Chinese Academy of Sciences, Shenyang 110168, China)3(School of Software Technology, Dalian University of Technology, Dalian 116024, China)
For environmental monitoring, the existing online analysis system is difficult to deal with massive atmospheric particle data. In this paper, we propose an atmospheric particle online analysis system based on real-time technologies, which aims to achieve atmospheric particle statistics, concentration change and the source analysis. The system adopts real-time databases to realize real-time capturing, stores massive atmospheric particle data, and solves the massive data problem in environmental monitoring. Besides, to accelerate data analysis and reduce data scale, the system adopts the ART-2a neural network algorithm and logistic regression model. The experiment results prove that the online analysis system could get accurate analysis result within a reasonable time. Besides, the experiment demonstrates the practical significance of our system.
real-time technology; massive data; clustering analysis; online analysis; environmental monitoring
國家水體污染控制與治理科技重大專項(2012ZX07505003)
2016-04-26;收到修改稿時間:2016-06-21
[10.15888/j.cnki.csa.005532]