李 蔚,胡 昊,徐富春,程子峰
環境保護部信息中心,北京 100029
當今社會發展已經進入了信息爆炸的時代。各行各業每時每刻產生大量的信息,通過高速發展的通訊、傳媒通道,傳送到社會各個數據層面和節點,為公眾服務。巨量信息的產生、流動、交互、反饋已成為現今社會的一個顯著特點。伴隨巨量信息的產生,信息的計算和處理技術也取得了日新月異的進展,全球最快的超級計算機“天河二號”的運算能力已達到每秒33.86千萬億次的浮點運算速度。同時,應需而生的大量基礎和應用軟件的開發,也為數據的存儲、運算、處理提供了多種方式和能力。環境保護各部門、各系統每日每時都產生大量信息:環境監測部門所得到的大氣、水、土壤、海洋等環境要素的質量信息,環境監察部門獲得的污染源排放數據,環境統計所獲得的社會、經濟、環境保護工作數據,環境科研、調研獲取的科研信息。另外,環保部門還從與環境保護工作密切相關的氣象、水利、海洋、農林漁業、能源、衛生、交通等部門交換了大量信息,這些信息為環境科學研究人員提供了認識、分析、研究環境問題的機遇和條件,也為環境管理、環境決策提供了分析、認識問題的基礎。但是,由于環境問題的多樣性和復雜性,從不同渠道獲取的數據之間可比性較差,不同類型的數據之間呈現多元、非線性的相互關系,這對數據的分析、利用帶來了巨大的困難和挑戰。
面對巨量信息及不同數據類型之間的復雜關系,一種探求數據類與類之間的相互關系、相互影響的大數據解析技術迅速發展起來[1]。大數據解析技術應用數據采集、統計計算、系統模擬和參數識別、隨機過程分析、神經網絡分析、系統智能自學及半自學等各種數據分析技術,對多元、非線性的數據類之間的關系進行解析,達到分析預測研究目標函數的變化規律,為利用巨量信息分析研究環境問題提供了一種有力的手段。
本文擬以大數據解析技術在城市局地PM2.5濃度計算為例,對大數據解析技術在環境科學研究中的應用方法進行一些探索性的分析,企盼對從事環境科學研究的從業者有所啟迪。
中國近年頻發大范圍的PM2.5污染問題,引起了社會公眾的高度關注,PM2.5已成為環境保護工作的突出問題。公眾關心PM2.5的污染問題,自然關切自身所在地點PM2.5濃度問題。由于設置大氣自動監測站(含PM2.5濃度的監測)一次投資金額較大(一個站點大約需人民幣200萬元),加上運行維修費、人工成本等費用,就一個城市而言,不可能投資建設太多的大氣自動監測站。以北京為例,每100 km2左右才有一個大氣自動監測站,難以代表該區域內每個局地點的PM2.5濃度。因此,研究計算局地PM2.5的濃度是有意義的。
應用大數據解析技術對局地大氣污染濃度計算的流程見圖1:

圖1 大數據解析技術預測大氣污染濃度流程
由于大數據解析技術面對的是眾多相互之間關系復雜的數據類,因此大數據解析技術在遵循數據分析原理的基礎上,在處理和解決不同的問題類型時具有多樣性、靈活性的特點。應用大數據解析技術時,要先確定研究對象和研究內容。以城市的局部地區為研究對象,以城市局部地區PM2.5的平均濃度為研究內容。首先將目標城市按一定的標準劃分為單元網格(如1 km×1 km),研究對象可表達成 G(g1,g2,… ,gi,… ,gn),每個gi代表一個范圍為1 km2的地點;研究內容可表達為 C(cg1,cg2,… ,cgi,… cgn),其中 cgi表示 gi局地網格的PM2.5濃度。研究內容在大數據解析中被稱為目標函數,可表示為J(Ci)。J(Ci)中的Ci有兩類,一類是設有大氣自動監測站的網格C1,其PM2.5的濃度已知,另一類是未設有大氣自動監測站的網格C2,C2所在的局地網格PM2.5濃度未知,是需要應用大數據技術進行解析的目標值。
為了盡可能準確的獲知C2,需要選擇大量與C2相關的城市數據進行解析。選擇這些數據類的原則是“可能”“需要”。“可能”是首要的,只有有數據才能選擇;“需要”則需對各種數據類進行分析,選取與目標函數J(Ci)有一定相關性的數據類。相關性可強可弱,與目標函數J(Ci)的關系也可簡單可復雜。就環境研究領域中的問題而言,數據類之間的關系,大多呈現多樣性、非線性的復雜關系,這也是大數據解析技術研究問題的難點所在。為了研究局地PM2.5濃度,根據環境科學的基本原理和基礎知識,以及現有數據條件,可選擇以下幾類數據:1)有大氣自動監測站所在網格的PM2.5濃度歷史數據;2)氣象條件數據;3)交通狀況數據;4)人群活動情況數據;5)網格道路狀況數據;6)網格內與空氣污染有關的特征單位數據,例如:工廠、加油站、餐飲業、車站、購物中心、運動場、公園等數據;7)每個網格的坐標。
在大數據解析技術中,對目標函數的研究,主要是通過各類數據所包含的特征量對目標函數的影響來解析的,因此,必須合理的從各類數據中確定特征量。對已知濃度網格的PM2.5濃度數據,由于研究目標是網格PM2.5小時平均濃度,取網格內PM2.5濃度值也應將歷史上PM2.5小時平均濃度作為特征量;對氣象條件,取氣溫、氣壓、風速、相對濕度等作為特征量;對交通狀況,取總車輛數、平均車速、平均車速方差及在不同車速下的車輛數(例如:可采用將車速分為三檔,0<V1≤20,20<V2≤40,V3>40)作為特征量,此處車速單位均為km/h;對人群活動情況,取進出網格的人數作為特征量;對網格道路狀況,取高速公路長度、一般公路長度、交叉路口的數量等作為特征量;對網格內與空氣污染有關的特征單位數據,可取工廠、加油加氣站、餐飲業、車站、購物中心、運動場、公園、旅館等的數量作為特征量。
從上述所選取的各個特征量,要計算其對目標函數J(Ci)的影響,須對特征量數據進行歸一化處理,計算公式如下

式(1)~式(3)中:xik為歸一化前的特征量數據,下標K為第k個特征量,i為第K個特征量的第i個數值;x—k為第k個特征量的平均值;sk為第k個特征量的標準差;x'ik為歸一化后的特征量k的第i個數據,n為第k個特征量數據個數。
當選定特征量并對每個網格的特征量數據進行采集時,有直接和間接兩種途徑,其中間接數據采集是在直接采集數據的基礎進行分析和處理得到的再分析數據,例如人群的進或出的數量、車輛的平均車速及數量的采集是根據文獻[2、5]的方法進行處理后得到的。
上述選擇的特征量有兩個明顯不同屬性:一類特征量隨時間的變化而變化,另一類特征量不隨時間而變化。由于這兩類不同的特征量對目標函數J(Ci)的影響過程及解析途徑有所不同,在大數據解析過程中,通常將特征量分成兩類:一類是與空間相關的數據集(Spatial Data Set),在分析這類數據對目標函數的影響過程中,是通過自學或半自學的方法,構建成空間分類器(Spatial Classifier,SC),運用SC對目標函數進行預算得到預期結果。另一類是隨時間變化的相關數據集(Temporal Data Set),在分析這類數據對目標函數的影響過程中,也通過自學或半自學的方法,構建成時間分類器(Temporal Classifier,TC),運用TC對目標函數進行運算得到預期結果。
選取的數據類中,其中網格道路狀況、網格內與空氣污染有關的特征單位數據,以及每個網格的坐標數據類所包含的特征量應歸為與空間相關的數據集;PM2.5濃度的歷史數據、氣象條件、交通狀況及人群活動情況數據類所包含的特征量應歸為與隨時間變化的相關數據集。由于SC和TC的性質特征不同,其建立和訓練的途徑和方法也不同,SC和TC的建立是大數據解析技術的關鍵步驟。
SC所包含的特征量不隨時間的變化而變化,它是一個靜態過程。SC所包含的特征量對目標函數的影響是多層多節點的傳遞過程,傳遞路線是線性的,傳遞過程在節點的輸出可以是線性的或非線性的,因而SC具有靜態神經網絡結構的特征。神經網絡法本身是模擬復雜系統、解析大數據非常有用的工具,因此選用由輸入部分(Input Generation,IG)、人造神經網絡部分(Artificial Neural Network,ANN)組成的 SC來模擬預測局地網格PM2.5濃度。
IG的作用是用各類空間特征量構建ANN的輸入值。從建有大氣自動監測站的網格中隨機選取兩個局地坐標為l1和l2的網格,每個網格中包含二個特征量和污染物濃度值,分別用f11、f12,f21、f22和c1、c2表示;x代表某一待預測的網格,其局地坐標用lx表示,x網格中二個特征量和待估污染物濃度用fx1、fx2和cx表示。由IG構成的對ANN的輸入數據生成流程見圖2。

圖2 空間分類器IG數據生成流程
圖2中,d表示一種算法,例如:兩網格坐標點之間的幾何距離;D也表示一種算法,例如:兩網格某一特征量間的皮爾遜(Pearson)距離。p、d則表示計算結果,構成ANN的輸入數據。其數學表達公式如下

ANN是在接受輸入數據后,通過神經網絡節點和傳遞,最終產生對目標值的影響。為理解神經網絡的傳遞過程,神經網絡某節點的傳遞過程見圖3。

圖3 神經網絡節點輸入輸出流程
圖3表示神經網絡一個節點輸入輸出關系。f1x、f2x表示該節點的兩個輸入;f'x表示該節點的輸出;w1x、w2x表示兩個輸入權重;bx表示該節點輸入輸出的偏移,即神經感知偏移;φ表示輸出為非線性輸出的變換函數。則該節點的輸入輸出之間的關系見公式(7):

若神經網絡節點輸出為線性輸出,則式(7)可簡化表示為式(8):

在神經網絡分析中,廣泛采用只有一個隱藏層的網絡結構。若輸入有P項,神經網絡的第一層接受節點有q個,輸出層的節點有r個,則神經網絡輸出結果可由式(7)擴展成式(9):

式中:fp表示輸入特征量,w表示各層各節點輸入特征量的權重,w'表示隱藏層權重,bq、b'r、b″表示各層各節點的神經感知偏移,節點輸出非線性變換函數(φ)最常選用的是sigmoid函數[5],cx表示最終輸出值。
從式(9)中可以看出,由神經網絡構造的空間分類器SC預測某局地點大氣污染濃度,要解決神經網絡中各感受層、各個節點的權重、節點神經感知偏移和非線性函數變換問題。目前廣泛使用解決該問題的方法是反演法(Back-Propagation),或稱BP法[6]。其思路是與實際神經網絡感受由左向右相反,由右向左將殘差(估算值與實測值之差)分配到各輸入權重上,一層一層向左進行,直到最后分配到IG的輸出特征量的各權重上。按最優模擬模型參數估值最小二乘法推演[7],殘差分配到各權重上,即權重的更新,是將殘差按輸入值大小比例分配到各權重上。這種方法在模型學習過程中稱為Widrow-Hoff學習規則。φ的影響亦是以線性方式體現的,即在權重上加一個比例系數。在解決實際問題時,k可選用有大氣污染自動監測站的網格數據,不斷反復模擬訓練SC,即SC的不斷反復的自學習過程。SC模擬學習過程是否完成,是用殘差大小來判別的,當殘差值小于設定值,表示SC模型趨于完善。
綜上所述,大數據解析過程中,包含對隨時間變化的特征量的解析。在對局地點大氣污染濃度預測的實例中,氣象條件類中的氣溫、氣壓、風速、相對溫度;交通狀況中的網格內車輛總數、平均車速、平均車速方差、不同車速車輛的分配值;網格中人員進出的數量,都為此類特征量,記為xij,i表示某網格點,j表示某個特征量,則可進一步表示為 X={x1,x2,…,xn},其中:xi={xi1,xi2,…,xij,t},t表示某一時刻。
局地點大氣污染物濃度亦是一個隨時間變化的特征量,記為yi,i表示某網格點,則可記:Y={y1,y2,…,yn},它代表了某一時刻要被預測的大氣污染物濃度值,是某一時刻的狀態函數,為一隨機變量。當特征量X確定的條件下,隨機變量yi具有馬和科夫特性,即yi僅與相鄰的yi-1的值有關,而與其他的yk值無關,其數學表達為

式中:P表示概率,i~j表示i狀態變量與j狀態變量在給定域中相鄰。
在給定特征量X序列條件下,估計值y出現的概率被定義為正態分布函數,它由x條件下狀態特征函數exp(u·s(yi,xi,i))和由狀態i- 1 轉移到 i時的轉移特征函數 exp(λ·t(yi-1,yi,x,i))決定。在這兩個特征函數中,yi、yi-1定義同前,x表示某特征量,i表示某狀態,s表示狀態函數,t表示轉移函數,u、λ是訓練過程中的待估參數。由概率論而知,兩事件相交的概率為兩事件概率相乘。當特征量X有k個狀態,特征量為j個時,則估計值y出現的概率為

式(11)可改寫為

式(12)中:Z(x)為正態分布標準化因子,文獻[8]中有詳細介紹,fj表示j個特征量。為解決權重參數λ的估值問題,可對式(12)作簡單的對數變換,得到:

由式(13)可以看出,條件概率函數已變換成線性函數關系,可使用常用的線性函數參數估值的方法,估出λ值。與SC中的權重w一樣,條件概率函數的權重λ值也是在不斷自身學習過程中加以修正。經反復學習,構建成了訓練好的TC。TC構建的整個過程實質上是對條件隨機場(Conditional Random Field,CRF)的解析過程[8]。
通過對大數據集中相關特征值的解析、推演,可得到趨于最優的TC、SC,使其能對各研究對象中的研究內容進行估算。在計算城市局地大氣污染物濃度的應用中,能用訓練好的SC、TC,對各未知網格中的 PM2.5濃度進行估算,得出最終估算值:

大數據解析技術的基本思路是篩選出某些具有相關關系的數據類,精心選擇數據類的特征量,針對各種不同的研究對象和研究內容,采用靈活、多樣的數學分析方法對特征量進行解析運算,對包含不同特征量的各種因素之間相關關系進行分析,達到解決研究問題的目的。該技術提供了一種研究解決多元、非線性因素之間關系的方法。目前,大數據解析技術在各行各業中的應用越來越活躍,其研究應用的深度和廣度都在不斷向前取得進展,該文所進行的介紹還是相當粗淺的,許多問題有待進一步實踐和探討。
大數據解析過程中有幾個關鍵點,需要特別予以注意。1)基礎數據的收集和處理:現有的數據經常會有不準(甚至錯誤的數據)、不全、不能直接獲取等問題,有些不能直接獲取的特征量,還需運用各種統計分析方法獲取。2)數據類和數據類中特征量的選取,是分析研究問題的關鍵所在:合理的特征量的篩選對解決所研究問題起相當重要的作用,并且對保證研究結論的準確度也會有相當大的幫助。3)解析數據類特征量數學工具的選擇:對同一問題的解析,往往可有若干種數據處理的途徑和方法,準確選擇數學工具對解決研究問題的重要性是不容置疑的。
環境問題是典型的多因素、多元、非線性相互關系問題。城市、農村、流域、區域都有大量關系復雜的因素包含在其中;大氣、水體(河流、湖泊、海洋、地下水)、土壤、固體廢物堆放等種種環境污染問題,有許許多多數據類之間的相互影響需要解析;研究當今能源、氣候變化、生態系統破壞等重大環境問題的對策,大數據解析也是一種有用的工具;人口、資源、交通發展變化趨勢需要進行預測;有毒有害物質、食品安全、人群身體健康等許多問題需要進行風險評估。凡此種諸多環境問題,大數據解析都有用武之地。總之,大數據解析技術在環境問題應用中前景廣闊。
[1]黃哲學,曹付元,李俊杰,等.面向大數據的海云數據系統關鍵技術研究[J].網絡新媒體技術,2012,1(6):20-26.
[2]Yuan J,Zheng Y,Xie X.Discovery regions of different functions in a city using human mobility and POIs[C]//The 18th ACM SigKdd Conference on Knowledge Discovery and Data Mining.New York:Association for Computing Machinery,2012:186-194.
[3]Zheng Y,LiuY, XieX.Urbancomputingwith Taxicabs[C].Proc of the 13th Int Conf on Ubiquitous Computing.New York:Association forComputing Machinery,2011:89-98.
[4]Rodgers J L,Nicewander W A.Thirteen ways to look at the correlation coefficient[J]. The American Statistician,1988,42(1):59-67.
[5]羅兵,黃萬杰,楊帥.基于Tan-Sigmoid函數參數調整的BP神經網絡改進算法[J].重慶大學學報:自然科學版,2006,29(1):150-154.
[6]劉鷹,趙琳.神經網絡BP算法的改進和仿真[J].計算機仿真,1999,16(3):12-15.
[7]程子峰,徐富春.環境數據統計分析基礎[M].北京:化學工業出版社,2006.
[8]Lafferty J,Callum A M,Pereira F.Conditional random field:Probabilistie models for segmenting and labeling sequence data[C]//In Proceeding of 18th International Conference on Machine Learning.Massachusetts:International Machine Learning Society,2001:282-289.