

關鍵詞:污染源;企業畫像;精準監管;數據挖掘
中圖分類號:X171.1 文獻標志碼:A
前言
隨著工業化和城市化的快速發展,環境污染源的精準監管成為環境治理的關鍵環節。不少學者探討了企業污染的相關問題。如文獻[1]韋嘯等提出基于多通道分布式VOCs在線監測質譜系統精準識別企業污染源的方法,建立了一個多通道分布式質譜系統,通過該系統在企業內部和廠界設置多個在線監測點位,連續監測VOCs無組織排放污染源。運用PMF模型解析廠區環境大氣VOCs的污染源因子,再結合CBPF方法識別各個污染源因子的地理位置信息。但是,該方法需要較高的初始投資用于購買和維護多通道監測設備,且數據分析過程較為復雜,需要專業的技術人員進行操作和維護。為解決深圳市生態環境局當前污染源監管“人少事多量大”的困難局面,避免污染源企業數據造假問題,提升污染源監管效率。提出一種基于大數據和畫像的污染源精準監管方法。通過運用大數據和人工智能、機器學習、知識圖譜等新技術構建污染源企業環保全景多維度畫像體系,賦能污染源監管執法自動推薦、不同用戶的個性化自動推薦、主動通過檢索快速查找到所需的污染源數據,彌補監管漏洞。從而實現污染源精準化監管、科學化決策、精細化管理。
1研究方法和主要思路
1.1研究方法
通過深圳市生態環境局用戶的實際調研,針對管理者、決策者和監管人員的訪談充分了解用戶需求的基礎上,開展“企業環保畫像”場景實現污染源精準監管的應用研究。
1.2主要思路
如圖1所示,污染源企業環保畫像體系的構建,應以生態環境大數據平臺整體框架為基礎,匯聚污染源企業全域數據,通過建模形成企業環保行為特征標簽體系,為執法應用、個性化推薦、智能檢索等具像化應用場景提供技術支撐,最終實現“千企千面”智慧化運營和精準監管。同時,借助污染源企業環保畫像建立以下四大“核心能力”。
(1)建立“動態采集+數據認證”的污染源數據收集網絡體系。
(2)建立“污染源企業+大數據+人工智能+知識圖譜”的能力核心。
(3)建立“執法應用+個性化推薦+智能檢索”的數據應用場景模式。
(4)建立“數據庫+專家經驗智庫”的污染源權威評估和決策方式。
2總體框架和技術方案
2.1總體框架
系統包括管理平臺與畫像構建及應用兩個主要組成部分。
管理平臺主要對標簽進行管理,畫像應用場景模型的構建,模型成效分析、標簽行為分析、標簽數據生產計劃任務管理、系統用戶權限、日志管理等基礎功能。
畫像構建及應用,主要包括從數據采集、畫像構建、畫像分析、畫像可視化到應用場景模型、模型成效改進等幾部分建設內容。(見圖2)
2.2技術方案
實現基于生態環境大數據構建“企業環保畫像”助力污染源精準監管,從數據準備、企業環境畫像構建、企業環境畫像可視化、企業環境畫像應用等幾個步驟進行實現。
2.2.1數據準備
2.2.1.1數據基礎
構建企業環境行為畫像,需要企業全生命周期高質量數據作為支撐。針對深圳市,現有監管污染源企業達九萬余家,包括重點污染源企業、一般污染源企業和已核發排污許可證企業等,生態環境大數據中心已經匯聚了環評、許可證、執法、行政處罰、監測、申報等多元數據,所擁有數量已達120億條,并且以每天5000萬條的數據產生量在持續增加。
2.2.1.2數據融合
由于政府各個部門、企業、三方機構等的基礎數據存在差異,需提取基本屬性、污染排放、社會監督、行政執法等企業對環境產生影響的部分,基于這些數據,采用ETL技術進行數據抽取,清洗,創建企業環境行為畫像構建需要的各類主題數據庫。
2.2.2標簽體系構建
2.2.2.1標簽體系
數據準備好后,通過調研與海量歷史數據分析結果,基于目的性、全面性、可獲取性、可比性原則確定標簽體系,包括基本屬性、污染排放、社會監督、行政執法、環境風險、環境管理、生態保護等維度。其中,目的性原則即根據研究目的選取標簽體系;全面性原則即選取的標簽體系盡量涵蓋企業各個方面;可獲取性原則即可行性原則,確保選取的標簽體系是容易獲得并具有代表性的;可比性原則即確保所有標簽的量綱統一,使標簽之間具有可比性。
2.2.2.2標簽數據開發
根據“數倉分層建模理論”建立以上述7個維度為主的三級模糊標簽指標體系,通過將訓練數據引入BERT(Bidirectional Encoder Representation from Transformers)即預訓練語言表征模型,抽取不同維度的底層標簽,并依據標簽抽取的不同方法劃分標簽類型,包括:(1)統計類標簽,根據企業多維度數據進行統計而來;(2)規則類標簽,定義規則,設置定時任務,根據規則進行規則類標簽的開發;(3)數據挖掘類標簽,通過數據挖掘與機器學習方法進行標簽的產生,一般通過監測數據為主,融合其他數據進行某種特定規律的發現、數據預測等。
2.2.2.3標簽特征抽取
很多標簽容易出現表達不明確的問題,為了使企業畫像更為精確,需要對模糊標簽進行特征提取。先利用BERT模型將模糊標簽向量化,再通過特征融合方式,對多源標簽進行向量拼接,并根據標簽打分結果計算該權重,對其賦予權重后得到特征融合后的企業信息;再將該向量信息引入BiLSTM(雙向長短期記憶網絡,Bi-directional Long Short-Term Memory)網絡捕捉雙向語義依賴,得到更為準確的次級標簽,并構建相應的標簽庫。例如,某化工企業被群眾投訴夜間排放污染廢水,投訴中包括企業具體違法行為、時間,將其向量化后乘以權重并與執法記錄對應的執法時間及該企業處罰結果進行向量拼接,得到企業“偷排”這一次級標簽,并計算此標簽權重。
統計類標簽主要是管理標簽的啟用/禁用狀態;規則類標簽可以修改標簽的計算規則、啟用/禁用狀態等;數據挖掘類標簽需要在標簽管理中根據經驗與應用進行人工確認與命名,例如:企業污染排放的規律、污染排放的周期性特征行為、排放數據造假行為等挖掘類標簽。
2.2.3企業環境畫像構建
利用數據挖掘、人工智能、機器學習等技術方法,分析企業環境行為特征,刻畫企業動態標簽,并根據建立的標簽體系,構建企業環境畫像。
根據各一級標簽下二級標簽的加權平均數,得到一級標簽的權重配比,即企業整體畫像中不同維度的貢獻率,構建出整體企業畫像。例:社會監督維度權重30%,即社會監督維度在企業整體畫像的貢獻率為30%,則整體企業畫像中社會投訴生成的標簽重要度為30%。同時也可以提取同一行業、同一區域等標簽,根據含此類標簽企業整體畫像進一步構建行業企業畫像或區域企業畫像等。
2.2.4應用場景模型
結合用戶實際的應用場景,通過標簽的有機組合,形成各個應用場景模型,通過應用場景模型賦能相應的業務系統,使業務系統使用起來更智能化,同時通過業務系統使用的反饋數據,如執法系統推薦企業執法命中率等數據,進一步調優模型,使模型更精準。
3案例應用情況
深圳市生態環境局現有監管污染源企業達九萬余家,包括重點污染源企業、一般污染源企業和已核發排污許可證企業等,其中需要重點監管的企業有一萬多家,但是執法人員僅有400余人,基本上每個執法人員需要監管約200家企業,再加上現場執法耗時長,平均一天執法人員只能現場執法3~4家企業。通過給污染源企業進行特征標簽,然后將標簽中與違法情形掛鉤的標簽有機組合,形成執法推薦模型,可以有效地幫助監管執法人員在現場執法過程中命中違法企業,而非靠運氣隨機發現違法企業,大大提高了監管執法人員的工作效率,并有效地降低了企業違法的僥幸心理。另外,通過不斷的現場執法實踐,反饋推薦企業中違法企業的數量、基本信息等數據,可以幫助執法推薦模型進一步優化,提升未來命中違法企業的準確率。
4結束語
依托深圳大數據平臺匯集的各類企業生產經營活動中產生的數據,利用規律計算、大數據挖掘算法、機器學習等方式,結合污染源監管業務場景等需求,構建完善、動態的標簽體系形成企業畫像,采集污染源企業環境行為特征體系,提取和識別污染源企業特征行為,幫助生態環境監管部門構建污染源企業環保標簽體系,為業務系統賦能,使污染源監管更智能,更精準。企業畫像應用場景豐富,改變了傳統企業檔案管理應用模式,發揮了大數據平臺的價值,為生態環境監管部門減輕工作壓力,針對污染源企業的監管效率也大大提升。在大數據相關技術高速發展的時代,作為污染源企業監管人員,應當積極轉變思維模式與工作方式,借助科技的手段,精準有效的實現環保監管。