伯鑫,唐千紅,王駿,王成鑫,4,朱榮杰,5,王彤,李涵
(1.生態(tài)環(huán)境部環(huán)境工程評估中心,北京100012;2.中國氣象局公共氣象服務中心,北京10081;3.天氣科技(北京)有限公司,北京100081;4.四川大學建筑與環(huán)境學院,四川成都610065;5.天津大學環(huán)境科學與工程學院,天津300354;6.陜西省環(huán)境調(diào)查評估中心,陜西西安710000;7.重慶市生態(tài)環(huán)境工程評估中心,重慶401121)
2019年,生態(tài)環(huán)境部發(fā)布《建設項目環(huán)境影響報告書(表)編制監(jiān)督管理辦法》[1],要求對全國環(huán)評文件開展技術復核工作,并規(guī)定“鼓勵利用大數(shù)據(jù)手段開展復核工作”。2020年,生態(tài)環(huán)境部發(fā)布《關于嚴懲弄虛作假提高環(huán)評質(zhì)量的意見》[2],提出“生態(tài)環(huán)境部推進大數(shù)據(jù)在線自動查重,對各地審批的環(huán)評文件及時開展智能校核”。2020年,我國公布了《中華人民共和國刑法修正案(十一)(草案二次審議稿)》[3],明確提出環(huán)境影響評價機構(gòu)及相關人員的造假行為“入刑”,進一步強化了環(huán)評造假行為懲罰力度。
針對環(huán)評報告大氣環(huán)境影響預測章節(jié),本研究團隊結(jié)合《環(huán)境影響評價技術導則大氣環(huán)境》等要求,已開展了大量技術復核工作[4~6],發(fā)現(xiàn)一些環(huán)評單位在空氣質(zhì)量模型參數(shù)設置、數(shù)據(jù)處理方面存在一些錯誤問題,例如篡改氣象數(shù)據(jù)、錯誤使用氣象數(shù)據(jù)等。
大氣環(huán)境影響技術復核工作主要審查氣象、地形、污染源、坐標投影、地表參數(shù)、模型輸入及輸出文件等[7~8],輸入模型的氣象文件格式主要是SFC格式文件(AERMOD模型)、MET格式 文 件(ADMS模 型)、DAT格 式 文 件(CALPUFF模型)等,氣象要素包括風速、風向、云量、溫度、降水、云底高度、相對濕度等,時間分辨率為1h。但由于氣象數(shù)據(jù)存儲量大,氣象要素的技術復核以人工審查為主,較為繁瑣,難以實現(xiàn)復核的自動化、智能化應用。目前,國內(nèi)氣象數(shù)據(jù)主要應用于公眾服務、交通、旅游、農(nóng)業(yè)、水利等領域[9],尚未應用于環(huán)評技術復核業(yè)務。
針對上述問題,本研究以中國氣象局實時監(jiān)測、質(zhì)控、發(fā)布的權(quán)威氣象數(shù)據(jù)為基礎,建立了一套基于氣象大數(shù)據(jù)的環(huán)評技術復核原型系統(tǒng),依托機器學習和大數(shù)據(jù)分析技術,通過云端服務方式對環(huán)評業(yè)務使用的氣象數(shù)據(jù)進行智能化、自動化復核,旨在為環(huán)評業(yè)務的監(jiān)督管理提供技術支持。
本研究團隊總結(jié)了環(huán)評氣象復核的工作難點:(1)氣象數(shù)據(jù)存儲量大,通過人工方式逐條復核耗時長、易出錯。(2)針對氣象數(shù)據(jù)的弄虛作假行為較為隱蔽,如通過篡改少數(shù)時段的氣象數(shù)據(jù)來實現(xiàn)模擬濃度達標。(3)復核人員需要掌握一定氣象專業(yè)知識,否則難以滿足地方復核業(yè)務化需求。
本研究建立了基于氣象大數(shù)據(jù)的環(huán)評技術復核原型系統(tǒng)(以下簡稱原型系統(tǒng)),依托機器學習和大數(shù)據(jù)分析技術開展環(huán)評氣象復核工作,快速識別環(huán)評氣象數(shù)據(jù)中存在的弄虛作假行為,降低復核審查成本,有效提升監(jiān)督管理效率。該系統(tǒng)主要分為以下幾個模塊(圖1)。

圖1 基于氣象大數(shù)據(jù)的環(huán)評技術復核原型系統(tǒng)技術路線圖
1.1.1 氣象大數(shù)據(jù)平臺
氣象大數(shù)據(jù)平臺存儲了自1949年以來經(jīng)過中國氣象局實時監(jiān)測、質(zhì)控和發(fā)布的各類權(quán)威數(shù)據(jù)集。這些數(shù)據(jù)包含全國2400多個國家級地面氣象觀測站、6萬多個區(qū)域自動氣象站、近200部天氣雷達、2000多個土壤水分觀測站、1000多個交通氣象觀測站、300多個雷電觀測站、120個探空氣象觀測站、7顆在軌風云衛(wèi)星的氣象監(jiān)測數(shù)據(jù)等。每年新增數(shù)據(jù)存儲量600TB左右,涵蓋降水、溫度、風力風向等30余種氣象要素,并均已實現(xiàn)觀測自動化,觀測頻率達到分鐘級,平均氣象觀測站間距20公里,鄉(xiāng)鎮(zhèn)覆蓋率達到98%。
氣象大數(shù)據(jù)平臺作為環(huán)評技術復核原型系統(tǒng)的基礎支撐,可支持對任何種類、任意氣象要素、任意空間范圍、任意時間范圍、任意精度的環(huán)評氣象數(shù)據(jù)比對分析,能夠有效滿足不同環(huán)評業(yè)務的氣象數(shù)據(jù)審查場景,實現(xiàn)“一站式”復核。
1.1.2 環(huán)評氣象數(shù)據(jù)預處理模塊
環(huán)評氣象數(shù)據(jù)預處理模塊用于對上傳的環(huán)評氣象文件進行大數(shù)據(jù)分析前的預處理。由于環(huán)評業(yè)務中不同環(huán)境空氣質(zhì)量模型對輸入的氣象數(shù)據(jù)文件在數(shù)據(jù)結(jié)構(gòu)、特征值、數(shù)據(jù)處理方式等方面有不同的要求,因此,通過脫密脫敏、坐標轉(zhuǎn)換、格式轉(zhuǎn)換、特征值轉(zhuǎn)換、異常值檢測、數(shù)據(jù)質(zhì)量控制和可用性檢測等多個預處理流程,可以將不同種類的環(huán)評氣象文件處理為標準的、統(tǒng)一的、結(jié)構(gòu)化的氣象數(shù)據(jù)文件,進而輸入大數(shù)據(jù)分析模型進行分析評分。
1.1.3 基于機器學習的大數(shù)據(jù)分析模塊
大數(shù)據(jù)分析模塊承擔著對輸入的環(huán)評氣象數(shù)據(jù)文件進行比對分析和評分的工作。大數(shù)據(jù)分析模塊在接收到環(huán)評氣象數(shù)據(jù)后,將從氣象大數(shù)據(jù)平臺中獲取對應種類、氣象要素、空間范圍、時間范圍、時空精度的權(quán)威數(shù)據(jù),并對兩類數(shù)據(jù)進行初步的比對和殘差運算。
然后對兩類數(shù)據(jù)的殘差進行特征提取,進而采用多種方法開展多維度的統(tǒng)計分析工作,如時序分析、統(tǒng)計分析、聚合分析、空間分析等,最終由評價模型輸出環(huán)評氣象數(shù)據(jù)文件的復核評分。為便于理解,本文將對數(shù)據(jù)分析環(huán)節(jié)中涉及到的部分關鍵統(tǒng)計指標進行展示和介紹,具體詳見本文1.2統(tǒng)計指標。
采用基于機器學習的評價模型對環(huán)評氣象數(shù)據(jù)復核的優(yōu)勢在于:隨著復核數(shù)據(jù)文件的增多,系統(tǒng)會對存在造假行為的環(huán)評氣象數(shù)據(jù)文件進行持續(xù)性標注,從而推動模型對其造假行為特征不斷迭代,進一步提升環(huán)評氣象數(shù)據(jù)復核的準確性。
1.1.4 交互頁面
為了提升環(huán)評氣象數(shù)據(jù)復核工作的效率,原型系統(tǒng)提供了便利易用的前端交互界面,用戶根據(jù)頁面指引可快速對須審查的環(huán)評氣象文件進行復核。具體業(yè)務流程(圖2)如下:在用戶登錄系統(tǒng)中,上傳審查的環(huán)評氣象文件到原型系統(tǒng),原型系統(tǒng)自動將審查各氣象要素,并與中國氣象局權(quán)威氣象數(shù)據(jù)集中的相應數(shù)據(jù)對比分析,進行智能復核并自動生成復核報告。

圖2 基于氣象大數(shù)據(jù)的環(huán)評技術復核原型系統(tǒng)業(yè)務流程圖
本研究選取平均偏差,平均絕對誤差,均方根誤差,相關系數(shù)等作為統(tǒng)計指標,其計算方法見公式(1)-(4)。
平均偏差(Bias),指氣象要素觀測平均值和模型分析平均值的差值。

平均絕對誤差(AE),指對氣象要素觀測值與模型分析值的差值絕對值進行平均。

均方根誤差(RMSE),指對氣象要素觀測值與模型分析值差值平方和的均值開方。

相關系數(shù)(Corr):衡量氣象要素觀測值與模型分析值的線性相關程度。

式中,N為統(tǒng)計時次的個數(shù)為中國氣象局數(shù)據(jù)中氣象臺站j在第i個時段的觀測值;xo
ij為模式輸出數(shù)據(jù)提取的氣象臺站j在第i個時段的分析值為分析時段內(nèi)中國氣象局數(shù)據(jù)中氣象臺站j觀測值的平均值為分析時段內(nèi)模式輸出數(shù)據(jù)提取的氣象臺站j分析值的平均值。
為驗證原型系統(tǒng)可靠性,本研究選取典型環(huán)評氣象數(shù)據(jù)案例,定量評估了氣象數(shù)據(jù)有效性,識別疑似造假行為。
該環(huán)評案例預測文件中氣象數(shù)據(jù)整體錯位1h,并且每日21-24時風速、氣溫數(shù)據(jù)存在異常。其中風速存在1785個時次的偏差,占總數(shù)據(jù)的20.4%,風速偏差的時間分布存在明顯規(guī)律性,77.6%的風速偏差出現(xiàn)在21-24時;溫度存在1739個時次的偏差,占總數(shù)據(jù)的19.9%,溫度偏差的時間分布也存在明顯規(guī)律性,64.1%的溫度偏差出現(xiàn)在21-24時。復核結(jié)論為該環(huán)評預測文件中每天21-24時的風速、溫度數(shù)據(jù)存在人為調(diào)整的痕跡。統(tǒng)計指標結(jié)果見表1。

表1 模型氣象數(shù)據(jù)和地面氣象觀測站實測數(shù)據(jù)對比表

圖3 模型氣象數(shù)據(jù)和地面氣象觀測站實測數(shù)據(jù)偏差的時間分布圖

圖4 系統(tǒng)生成風向偏差小時分布散點圖
該環(huán)評案例預測文件經(jīng)系統(tǒng)分析,8291個時次數(shù)據(jù)中共有3675個時次的風向數(shù)據(jù)出現(xiàn)偏差,占總數(shù)據(jù)量的44.3%。并且兩者在部分月份的風玫瑰圖存在明顯的差異。復核結(jié)論為該環(huán)評預測文件中部分月份的風向數(shù)據(jù)存在人為調(diào)整的痕跡。

圖5 模型氣象數(shù)據(jù)和地面氣象觀測站實測數(shù)據(jù)的風玫瑰對比圖(左為模型氣象數(shù)據(jù)的月風玫瑰圖,右為氣象觀測站實測數(shù)據(jù)的月風玫瑰圖)
該環(huán)評案例預測文件中云量數(shù)據(jù)經(jīng)原型系統(tǒng)分析,1808個時次數(shù)據(jù)中共有1784個時次的低云量數(shù)據(jù)出現(xiàn)偏差,占總數(shù)據(jù)量的98.673%。其中,中國氣象局地面氣象站實測云量數(shù)據(jù)大于模型云量數(shù)據(jù)的時次有1657個,占比為92.9%;中國氣象局地面氣象站實測云量數(shù)據(jù)小于模型云量數(shù)據(jù)的時次有127個,占比為7.1%。系統(tǒng)生成的低云量偏差小時分布散點圖(見圖6)。此外,該預測文件中的云高數(shù)據(jù)人為設定為定值808米,與實際情況不符,存在較大問題,導致結(jié)果失真。

圖6 云量數(shù)據(jù)復核結(jié)果
本研究建立了基于氣象大數(shù)據(jù)的環(huán)評技術復核原型系統(tǒng),實際復核案例應用表明,該系統(tǒng)依托機器學習和大數(shù)據(jù)分析技術,突破了人工復核方法的瓶頸,提高了大氣技術復核工作的效率,為環(huán)評智能復核工作提供了新的技術方法。下一步建議管理部門要求環(huán)評單位將大氣預測模式輸入文本文件、氣象數(shù)據(jù)、地形數(shù)據(jù)、地表參數(shù)等作為四級聯(lián)網(wǎng)上傳附件內(nèi)容,以備抽查、復核。