景德基,程娜娜,蔡興農(nóng),石展宏,楊春亞,李素靜,王俏麗,李 偉,*
(1.浙江大學(xué) 化學(xué)工程與生物工程學(xué)院,浙江 杭州 310007;2.浙江工業(yè)大學(xué) 環(huán)境學(xué)院,浙江 杭州 310014)
深入打好污染防治攻堅(jiān)戰(zhàn),不斷改善空氣質(zhì)量,是建設(shè)美麗中國的必要前提。地級(jí)及以上城市空氣質(zhì)量優(yōu)良天數(shù)比率到2025年達(dá)到87.5%,已成為我國“十四五”時(shí)期經(jīng)濟(jì)社會(huì)發(fā)展的一項(xiàng)約束性指標(biāo)[1]。當(dāng)前,我國大氣細(xì)顆粒物(PM2.5)污染形式依然嚴(yán)峻[2-3]且臭氧(O3)污染日益凸顯[4],成為影響空氣質(zhì)量的主要因素。京津冀及周邊地區(qū)、長三角地區(qū)、汾渭平原區(qū)域現(xiàn)階段源解析研究表明,揮發(fā)性有機(jī)物(VOCs)是PM2.5和O3大氣復(fù)合污染的重要來源[5]。此外,環(huán)境空氣中部分VOCs具有特殊氣味并且表現(xiàn)出刺激性、腐蝕性、器官毒性、致癌性,對(duì)人體健康造成較大的影響[6-7]。部分VOCs可以被傳輸?shù)狡搅鲗樱瑢?duì)臭氧層造成破壞,少數(shù)VOCs屬于溫室氣體[8]。因此,減少VOCs的排放對(duì)于提高空氣質(zhì)量有著重要意義。
實(shí)施VOCs減排,要抓好污染嚴(yán)重的重點(diǎn)行業(yè),準(zhǔn)確識(shí)別重點(diǎn)企業(yè)和工藝過程,全面推進(jìn)工業(yè)園區(qū)、企業(yè)集群等VOCs的精準(zhǔn)治理和綜合治理[9]。隨著醫(yī)藥行業(yè)的迅速發(fā)展,中國已經(jīng)成為一個(gè)醫(yī)藥大國,醫(yī)藥行業(yè)的VOCs排放成為一個(gè)不可忽視的環(huán)境問題[10]。隨著化工企業(yè)“退城入園”工作的推進(jìn),化工園區(qū)的企業(yè)密度日益變大,作為精細(xì)化工產(chǎn)業(yè)的代表,制藥行業(yè)在化工園區(qū)占據(jù)重要的地位。化學(xué)合成類制藥行業(yè),生產(chǎn)原料使用大量有機(jī)溶劑,合成工藝復(fù)雜,各類副反應(yīng)繁多,存在大量間歇性、無組織的VOCs排放,使得排放規(guī)律不明晰、排放特征不明確,同時(shí)還存在監(jiān)測難度大,污染來源追溯難等問題[11-14]。
針對(duì)污染排放源監(jiān)測構(gòu)建的污染源成分譜是描述源排放特征的重要數(shù)據(jù)集之一[15-17]。然而,VOC污染源成分譜由于數(shù)據(jù)量大、因子多、信息不完備、數(shù)據(jù)規(guī)則不明顯,在其應(yīng)用過程中難以充分挖掘排放特征。而特征污染物可以簡化源成分譜描述,減少數(shù)據(jù)干擾,以少量的組分表征污染源的排放特征,實(shí)現(xiàn)污染源類的定性判定[18-20]。隨著科學(xué)研究的基本手段從傳統(tǒng)的“理論+實(shí)驗(yàn)”走向現(xiàn)在的“理論+實(shí)驗(yàn)+計(jì)算”,乃至出現(xiàn)“數(shù)據(jù)科學(xué)”這樣的提法,機(jī)器學(xué)習(xí)的重要性日趨顯著。在環(huán)境領(lǐng)域,已有部分研究者采用機(jī)器學(xué)習(xí)的手段提取各種類型的特征因子。張?jiān)迄i等使用典型相關(guān)性分析和空間網(wǎng)格化邏輯回歸分析方法獲得了影響土地利用變化的全局特征因子和空間特征因子[21]。孫笑笑采用聚類分析和相關(guān)性分析提取了浙江近海岸赤潮發(fā)生時(shí)產(chǎn)生突變的赤潮特征因子[22]。曹叢華等采用主成分分析(PCA)和聚類分析提取了遼東灣鲅魚圈赤潮的環(huán)境特征因子[23]。吳超凡采用回歸分析、相關(guān)性分析和特征選擇方法識(shí)別了與森林生物量相關(guān)的特征因子[23]。機(jī)器學(xué)習(xí)具備適應(yīng)復(fù)雜數(shù)據(jù),能獲得預(yù)測模型的優(yōu)點(diǎn)。
本文以長三角地區(qū)某精細(xì)化工園區(qū)內(nèi)一家典型化學(xué)制藥企業(yè)為研究對(duì)象,深入分析其VOCs排放特征,利用機(jī)器學(xué)習(xí)的手段開展統(tǒng)計(jì)分析,通過數(shù)據(jù)驅(qū)動(dòng)識(shí)別其生產(chǎn)工藝過程的排放特征因子。識(shí)別的特征因子種類精簡,易于監(jiān)測,與污染源類能夠高度對(duì)應(yīng),可為化學(xué)合成類制藥行業(yè)實(shí)施VOCs減排、合理選擇排放控制技術(shù)及后續(xù)地方標(biāo)準(zhǔn)的制定提供基礎(chǔ)信息,為實(shí)現(xiàn)化工園區(qū)大氣污染溯源提供了一條新思路。
污染源VOCs成分譜來自長三角地區(qū)某精細(xì)化工園區(qū)內(nèi)一家典型化學(xué)合成類制藥企業(yè),該企業(yè)生產(chǎn)的恩諾沙星、阿奇霉素、羅紅霉素等產(chǎn)品份額約占海內(nèi)外市場的30%。根據(jù)環(huán)評(píng)資料和現(xiàn)場調(diào)研,對(duì)廠區(qū)內(nèi)VOCs排放源開展了全覆蓋的樣品采集工作,收集了20個(gè)污染源樣本,分析了116種VOCs組分的濃度,并基于分析結(jié)果構(gòu)建了基于工藝過程的精細(xì)化污染源成分譜,參見前期相關(guān)成果[25]。采樣信息如表1所示。將污染源成分譜表示為數(shù)據(jù)集D={x1,x2,…,xm},其中m=20,代表樣本數(shù)量。xi=(xi1,xi2,…,xid)代表每個(gè)樣本由各個(gè)VOC物種濃度組成的特征向量,單位μg·m-3;d=86,為所有檢測出的VOCs物種的數(shù)量。

表1 污染源采樣信息
污染源成分譜中的每個(gè)VOC物種被定義為一個(gè)特征,構(gòu)成一個(gè)特征集。特征因子的識(shí)別過程被轉(zhuǎn)化成機(jī)器學(xué)習(xí)中的一個(gè)特征選擇過程,對(duì)特征子集的評(píng)價(jià)采用分類器的分類準(zhǔn)確率作為標(biāo)準(zhǔn)。識(shí)別特征因子的技術(shù)路線如圖1所示。

圖1 特征因子識(shí)別技術(shù)路線
首先采用PCA加聚類分析將所有樣本按照VOCs的物種組成相似度分為若干類別,并予以標(biāo)記,實(shí)現(xiàn)污染源類別的區(qū)分。聚類分析通過對(duì)無標(biāo)記訓(xùn)練樣本的學(xué)習(xí),將數(shù)據(jù)集劃分為若干個(gè)通常是不相交的子集,每個(gè)子集稱為一個(gè)簇[26]。k均值聚類作為被廣泛使用的聚類算法,是一種基于中心的聚類方法[27]。它通過迭代,將樣本分到k個(gè)類中。通過這樣的劃分,每個(gè)簇可以對(duì)應(yīng)一類排放特征相似的污染源。本研究中的污染源成分譜檢測出了86種VOCs的濃度,屬于高維度的樣本數(shù)據(jù)集,將導(dǎo)致聚類分析中的向量相關(guān)計(jì)算量呈指數(shù)增長,并且使樣本距離的度量失去意義,大大降低性能。為了使各類樣本在VOCs組成上的差異更容易區(qū)分,PCA用少數(shù)主成分近似表示原有數(shù)據(jù)集的所有信息,實(shí)現(xiàn)降維處理,提高聚類性能。
然后,對(duì)標(biāo)記后的數(shù)據(jù)集分別使用PCA處理后的數(shù)據(jù)和特征選擇處理后的數(shù)據(jù)訓(xùn)練若干分類器,并計(jì)算其分類準(zhǔn)確率。分類器是從數(shù)據(jù)中學(xué)習(xí)到的一個(gè)分類模型或分類決策函數(shù),可以對(duì)新的輸入進(jìn)行輸出的預(yù)測,稱為分類[28-29]。從給定的特征集合中選擇出相關(guān)特征子集的過程,稱為特征選擇[30]。特征選擇在于選取對(duì)提高分類器性能有所貢獻(xiàn)的特征,即選取能夠?qū)ξ廴驹搭悇e進(jìn)行準(zhǔn)確分類的VOCs物種。比較PCA處理和特征選擇處理對(duì)分類器性能的影響,篩選出初步的特征子集作為預(yù)選特征因子。
最后對(duì)污染源成分譜進(jìn)行變量聚類處理,將所有VOCs物種劃分成若干個(gè)特征簇。變量聚類根據(jù)各個(gè)物種在污染源間的濃度分布,將其分為若干個(gè)特征簇,構(gòu)成同一個(gè)特征簇的物種擁有相似的污染源間濃度分布。根據(jù)綜合評(píng)估特征選擇和變量聚類的結(jié)果,確定最終的特征因子。
2.1.1 源樣本類別標(biāo)記
先對(duì)原始數(shù)據(jù)集進(jìn)行PCA的降維處理,選取95%的解釋方差,提取獲得前15個(gè)主成分,如圖2(a)所示。在經(jīng)過k均值聚類后,所有樣本被劃分為3個(gè)子集,如圖2(b)所示,將其污染源類別分別標(biāo)記為1、2、3。將聚類結(jié)果與采樣點(diǎn)所屬工藝過程進(jìn)行對(duì)比,如表2所示。擁有相同聚類標(biāo)記的樣本擁有相似的VOCs排放組成,結(jié)果顯示來自相同工藝流程的樣本基本上被劃分到了一類。在阿奇霉素生產(chǎn)線,只有103肟化車間的樣本被賦予了不同標(biāo)記。同樣,在地克朱利生產(chǎn)線,只有402車間后段的樣本被賦予了不同標(biāo)記。這說明該企業(yè)阿奇霉素生產(chǎn)過程與地克朱利生產(chǎn)過程有著與其它工藝過程顯著區(qū)分的VOCs排放特征,而恩諾沙星、羅紅霉素、麻保殺星等生產(chǎn)過程的VOCs排放特征則較為相似。聚類標(biāo)記與工藝過程對(duì)應(yīng)趨勢(shì)明顯,說明通過分析PCA提取的主成分信息,該企業(yè)的工藝特征得到了明顯的區(qū)分。然而PCA獲得的主成分是所有VOCs物種的線性組合,無法直接指向具體的物種作為污染源的特征因子,這將給實(shí)際的監(jiān)測工作帶來困難,也提高了溯源模型在數(shù)據(jù)輸入方面的難度。

圖2 源樣本類別標(biāo)記

表2 聚類結(jié)果與工藝過程對(duì)比
2.1.2 特征選擇結(jié)果
對(duì)標(biāo)記后的數(shù)據(jù)集進(jìn)行特征選擇處理。參考PCA選擇正交變換組合的原理,特征在不同樣本間的方差越大,蘊(yùn)含的信息越豐富。將86個(gè)VOCs物種按照方差降序排列,對(duì)照2.1.1中提取的15個(gè)主成分,選擇前15個(gè)物種特征作為數(shù)據(jù)輸入,訓(xùn)練分類器,并計(jì)算其分類準(zhǔn)確率。訓(xùn)練過程在MATLAB軟件自帶的機(jī)器學(xué)習(xí)與深度學(xué)習(xí)工具箱中的Classification Learner模塊進(jìn)行,驗(yàn)證方式選擇五折交叉驗(yàn)證。訓(xùn)練的分類器類型包括決策樹、判別分析、邏輯回歸分類器、樸素貝葉斯分類器、支持向量機(jī)、最近鄰分類器和集成分類器。作為對(duì)照,另設(shè)一組實(shí)驗(yàn),直接使用PCA處理后的帶標(biāo)記數(shù)據(jù)訓(xùn)練分類器,并計(jì)算器分類準(zhǔn)確率。觀察性能較好的分類器,結(jié)果如表3所示,經(jīng)過特征選擇處理后的數(shù)據(jù),有2個(gè)分類器的分類準(zhǔn)確率達(dá)到了85.0%,說明通過觀察被選擇的這15個(gè)物種可以實(shí)現(xiàn)對(duì)污染源的準(zhǔn)確分類。對(duì)比PCA處理后數(shù)據(jù)訓(xùn)練得到的分類器性能,可以發(fā)現(xiàn),特征選擇在對(duì)污染源進(jìn)行分類方面,達(dá)到了與PCA處理同樣的效果。因此這15個(gè)物種被認(rèn)定為初步識(shí)別到的特征因子,如表4所示。

表3 特征選擇和分類分析結(jié)果

表4 預(yù)選特征因子
針對(duì)未標(biāo)記的原始數(shù)據(jù)集,對(duì)86個(gè)VOCs物種進(jìn)行k均值聚類分析。變量聚類根據(jù)各個(gè)VOCs物種在不同樣本間的濃度分布將其分成若干個(gè)特征簇,被分為同一類的特征擁有相似的樣本間濃度分布。結(jié)果如表5所示,所有物種被分為3個(gè)特征簇,其中甲苯、丙酮、乙醛、苯甲醛、正己烷、乙酸乙酯被分為一組。除乙酸乙酯外,其余物種均包含在步驟2.1識(shí)別出的15個(gè)預(yù)選特征因子當(dāng)中。結(jié)合現(xiàn)場調(diào)研與污染源成分譜分析,甲苯是該企業(yè)多個(gè)車間的主要特征污染物,而丙酮、乙醛、苯甲醛和正己烷被劃分到與甲苯一類,說明它們?cè)诟鱾€(gè)車間的濃度分布與甲苯類似。對(duì)比特征選擇和變量聚類的結(jié)果,綜合特征因子的特征性和精簡性,該企業(yè)的特征因子被最終認(rèn)定為:甲苯、丙酮、乙醛、苯甲醛和正己烷。

表5 變量聚類分析結(jié)果
本研究以基于工藝過程的精細(xì)化污染源成分譜為基礎(chǔ)數(shù)據(jù),采用特征選擇和變量聚類的機(jī)器學(xué)習(xí)方法識(shí)別出某典型化學(xué)合成制藥企業(yè)的VOCs排放特征因子為:甲苯、丙酮、乙醛、苯甲醛和正己烷。通過這種方法識(shí)別的特征因子,擁有相似的污染源濃度分布,并且可以較好地體現(xiàn)各個(gè)工藝過程在VOCs排放組成上的差異,對(duì)精細(xì)化的污染源類別實(shí)現(xiàn)準(zhǔn)確分類。在對(duì)污染源成分譜進(jìn)行分析時(shí),可通過觀察這幾種物質(zhì)的VOCs濃度組成,分析其所屬工藝過程。在實(shí)際的生產(chǎn)監(jiān)管過程中,可采集足夠豐富的污染源樣本構(gòu)建成分譜,并訓(xùn)練分類器,通過重點(diǎn)監(jiān)測特征因子的濃度,輸入分類器,得到所屬類別以及判別概率,有望實(shí)現(xiàn)VOCs排放的快速精細(xì)化溯源。