堵錫華,王 超
(徐州工程學(xué)院化學(xué)化工學(xué)院,江蘇 徐州 221018)
水是環(huán)境中化學(xué)物質(zhì)遷移、循環(huán)的重要介質(zhì),隨著工業(yè)廢水、生活污水的排放,大量的化學(xué)污染物進(jìn)入水體,這些水污染對(duì)工農(nóng)業(yè)生產(chǎn)造成了重大的影響,特別是對(duì)飲用水及飲料生產(chǎn)造成了大的危害。揮發(fā)性有機(jī)物是水體中重要的污染物,它包括烯烴、芳烴、鹵代烴等化合物,這些揮發(fā)性化合物性質(zhì)穩(wěn)定、不易分解,而且有強(qiáng)致癌、致畸、致突變性及致生殖系統(tǒng)和神經(jīng)系統(tǒng)毒性[1-3],所以評(píng)價(jià)水質(zhì)質(zhì)量的一項(xiàng)特征指標(biāo)即是飲用水中的揮發(fā)性有機(jī)物,因此有效并快速鑒別水中痕量揮發(fā)性有機(jī)物的分析方法和手段成為一項(xiàng)重要工作,目前快速檢測生活飲用水中揮發(fā)性有機(jī)物的方法主要采用吹掃捕集-氣相色譜-質(zhì)譜聯(lián)用方法[4-6],還有膜萃取分離技術(shù)/微捕集與色譜儀聯(lián)用技術(shù)方法也逐漸成為一種對(duì)水中揮發(fā)性有機(jī)物分析測試的新型手段[7]。另外還有采用偏最小二乘法回歸建立定量結(jié)構(gòu)-保留相關(guān)性(quantitative structure-retention relationship,QSRR)模型的方法對(duì)飲用水中揮發(fā)性有機(jī)物進(jìn)行分析研究有少量的報(bào)道[8],在該方法基礎(chǔ)上,進(jìn)一步結(jié)合人工神經(jīng)網(wǎng)絡(luò)方法對(duì)飲用水中揮發(fā)性有機(jī)物進(jìn)行研究,較少見有報(bào)道[9]。
人工神經(jīng)網(wǎng)絡(luò)是一個(gè)多學(xué)科交叉的前沿學(xué)科,它主要以模擬人的大腦,對(duì)相關(guān)信息進(jìn)行處理,在食品科學(xué)[10]、環(huán)境化學(xué)[11]、建筑學(xué)[12]、農(nóng)業(yè)科學(xué)[13]、氣象學(xué)[14]、色譜學(xué)[15-16]等諸多領(lǐng)域得到廣泛應(yīng)用。在前期[17-19]工作基礎(chǔ)上,根據(jù)文獻(xiàn)[8]所列的56 個(gè)飲用水中揮發(fā)性有機(jī)物的色譜保留數(shù)據(jù),采用MATLAB軟件,按照文獻(xiàn)[20-21]方法編寫計(jì)算應(yīng)用程序,計(jì)算得到了分子連接性指數(shù)、分子形狀指數(shù)、電性拓?fù)錉顟B(tài)指數(shù)以及電性距離矢量4類分子結(jié)構(gòu)參數(shù),利用MINITAB 14軟件的最佳變量子集回歸方法,從中篩選了7 種分子結(jié)構(gòu)參數(shù)作為神經(jīng)網(wǎng)絡(luò)的輸入神經(jīng)元,將這些揮發(fā)性有機(jī)物的氣相色譜保留時(shí)間(tR)作為輸出神經(jīng)元,建立了神經(jīng)網(wǎng)絡(luò)QSRR模型,所得結(jié)果顯示,飲用水中揮發(fā)性有機(jī)物的分子結(jié)構(gòu)參數(shù)與其氣相色譜保留值之間具有高度相關(guān)的非線性關(guān)系,利用該模型計(jì)算得到的色譜保留時(shí)間預(yù)測值與文獻(xiàn)實(shí)驗(yàn)值吻合度較好,本研究可為解決對(duì)飲用水中揮發(fā)性有機(jī)污染物儀器檢測中存在的樣品需要量大、耗費(fèi)有機(jī)溶劑且?guī)砹硗獾奈廴尽⒉僮鲝?fù)雜、靈敏度低等問題提供一定的理論幫助,為水中揮發(fā)性有機(jī)物成分分析提供了參考,而且該法具有準(zhǔn)確度高、快速、操作簡單、無污染的一些優(yōu)點(diǎn),故對(duì)提高生態(tài)水質(zhì)質(zhì)量的社會(huì)環(huán)境問題具有現(xiàn)實(shí)意義。
根據(jù)文獻(xiàn)[22-24]提出的幾種分子的結(jié)構(gòu)參數(shù)——分子連接性指數(shù)、分子形狀指數(shù)、電性拓?fù)錉顟B(tài)指數(shù),以及劉樹深[25]、張亞輝[26]等提出的電性距離矢量的計(jì)算方法,首先采用Chemoffice 2005中的Chem3D 9.0應(yīng)用畫圖軟件,勾畫文獻(xiàn)[8]中列出的56 種水中揮發(fā)性有機(jī)物的分子結(jié)構(gòu),在MATLAB軟件中用自編程序,計(jì)算得到了4類分子結(jié)構(gòu)參數(shù)作為描述符,采用最佳變量子集回歸方法,針對(duì)揮發(fā)性有機(jī)物色譜保留時(shí)間回歸統(tǒng)計(jì)分析,進(jìn)行結(jié)構(gòu)指數(shù)的最優(yōu)變量篩選,結(jié)果見表1。

表1 tR與參數(shù)的最佳變量子集回歸結(jié)果Table 1 Results of nX, Kn, In, Mn and tR with optimal subset regression
表中R、R2Adj、F、S、FIT依次為相關(guān)系數(shù)、調(diào)整的判定系數(shù)、Fischer檢驗(yàn)值、標(biāo)準(zhǔn)誤差、Kubinyi函數(shù),F(xiàn)IT的計(jì)算公式[27]為:

式(1)中:n為有機(jī)化合物分子的樣本個(gè)數(shù);b為模型采用的變量數(shù);R2為模型的決定系數(shù)。FIT值越大,說明建構(gòu)的模型越穩(wěn)定,預(yù)測能力也就越高。
從表1可以看出,從4類分子結(jié)構(gòu)參數(shù)篩選取7 個(gè)參數(shù)時(shí),所得模型調(diào)整的判定系數(shù)值最大、標(biāo)準(zhǔn)誤差值最小,將56 個(gè)水中揮發(fā)性有機(jī)物分子及其相關(guān)結(jié)構(gòu)參數(shù)如表2所示。

表2 揮發(fā)性有機(jī)物的結(jié)構(gòu)參數(shù)Table 2 Structural parameters of volatile organics

續(xù)表2
文獻(xiàn)[8]中列出的56 種水中揮發(fā)性有機(jī)物的色譜保留時(shí)間,其數(shù)據(jù)來源于姚祺等[28]通過同一次實(shí)驗(yàn)獲取,該實(shí)驗(yàn)采用7890/5975氣相色譜-質(zhì)譜聯(lián)用儀進(jìn)行檢測,利用文獻(xiàn)[8]所列的保留時(shí)間數(shù)據(jù),與優(yōu)化篩選出的7 種分子結(jié)構(gòu)參數(shù)0X、1X、2X、3X、K1、E43和M91進(jìn)行多元回歸分析,得到七元回歸方程為:

利用式(2)對(duì)水中揮發(fā)性有機(jī)物的色譜保留時(shí)間進(jìn)行預(yù)測,所得預(yù)測值(表2中的預(yù)測值1)與實(shí)驗(yàn)值之間基本吻合。
為檢驗(yàn)?zāi)P偷姆€(wěn)健性、預(yù)測能力大小,這里應(yīng)用MINITAB應(yīng)用軟件中的留一交叉驗(yàn)證法,對(duì)多元回歸模型(2)進(jìn)行分析檢驗(yàn),得到交叉驗(yàn)證相關(guān)系數(shù)為0.945,遠(yuǎn)大于0.5,說明建立的模型具有較好的預(yù)測能力。一般模型的越接近于1,模型的穩(wěn)定性就越好,預(yù)測能力也越強(qiáng)[29],這里所建模型的達(dá)到0.945,說明穩(wěn)定性和預(yù)測能力均較強(qiáng)。
評(píng)判模型是否具有離域的“異常數(shù)據(jù)”,雷達(dá)圖法是比較典型、直觀和形象的圖形評(píng)價(jià)方法,可對(duì)各種評(píng)價(jià)對(duì)象進(jìn)行定性評(píng)價(jià),通過勾畫56 個(gè)分子的Jackknifed調(diào)整的判定系數(shù)的雷達(dá)圖(圖1),可進(jìn)一步評(píng)價(jià)判斷模型的穩(wěn)定性。這里以0.950為圓心,0.002為間距,56 個(gè)分子的值全部落在0.950~0.962之間,波動(dòng)性不大,說明所建模型不存在異常數(shù)據(jù)。當(dāng)模型的-值小于0.3時(shí),一般認(rèn)為模型不存在過擬合現(xiàn)象,這里模型的Jackknifed(0.957)與交互檢驗(yàn)相關(guān)系數(shù)(0.945)差值為0.012,值小于0.3,說明本模型既沒有過擬合也沒有離域值存在。

圖1 Jackknifed判定系數(shù)R2Adj的雷達(dá)圖Fig. 1 Radar map of determination coef fi cient R2Adj
為更好地提高預(yù)測色譜保留時(shí)間的準(zhǔn)確度,采用神經(jīng)網(wǎng)絡(luò)法進(jìn)一步進(jìn)行研究。根據(jù)表1篩選出的0X、1X、2X、3X、K1、E43和M91共7 個(gè)參數(shù),將這7 個(gè)參數(shù)作為神經(jīng)網(wǎng)絡(luò)的輸入神經(jīng)元,將56 種揮發(fā)性化合物色譜保留時(shí)間作為神經(jīng)網(wǎng)絡(luò)的輸出神經(jīng)元,按照Andrea和許祿[30]等學(xué)者的建議規(guī)則:

式(3)中:n為樣本個(gè)數(shù);M為網(wǎng)絡(luò)總權(quán)重。
M的計(jì)算公式如下:

式(4)中:I、H、Q分別為神經(jīng)網(wǎng)絡(luò)中輸入層、隱含層及輸出層的神經(jīng)單元數(shù)。這里的輸入神經(jīng)元I為7(即篩選出的7 個(gè)分子結(jié)構(gòu)參數(shù));輸出神經(jīng)元Q為1(即揮發(fā)性有機(jī)物的色譜保留時(shí)間);故根據(jù)式(3)和式(4)進(jìn)行計(jì)算,當(dāng)H取3或4時(shí),可符合規(guī)則條件;經(jīng)反復(fù)測試,當(dāng)H取4時(shí),所得結(jié)果最優(yōu),故本神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)采用7∶4∶1的結(jié)構(gòu)方式。
為防止過擬合,將全部樣本數(shù)據(jù)分為3 組:訓(xùn)練集(每5 個(gè)數(shù)據(jù)為一組,取其中的第1、3、5個(gè)數(shù)據(jù))、測試集(第2個(gè)數(shù)據(jù))、驗(yàn)證集(第4個(gè)數(shù)據(jù)),由此得到了BP(back propagation)神經(jīng)網(wǎng)絡(luò)預(yù)測模型的總相關(guān)系數(shù)r總為0.999 1,訓(xùn)練集相關(guān)系數(shù)r1為0.999 3、測試集相關(guān)系數(shù)r2為0.998 7、驗(yàn)證集相關(guān)系數(shù)r3為0.999 1,利用新建構(gòu)的神經(jīng)網(wǎng)絡(luò)模型,計(jì)算得到水中揮發(fā)性有機(jī)物的色譜保留時(shí)間預(yù)測值2見表2,該預(yù)測值與實(shí)驗(yàn)值吻合度比較理想,兩者的相對(duì)平均誤差僅為2.17%,遠(yuǎn)小于利用多元回歸方法模型的預(yù)測誤差9.01%,說明神經(jīng)網(wǎng)絡(luò)法建立模型的相關(guān)性明顯優(yōu)于多元回歸分析方法,而且本法結(jié)果明顯優(yōu)于文獻(xiàn)。預(yù)測值1、預(yù)測值2與實(shí)驗(yàn)值的關(guān)系圖見圖2,神經(jīng)網(wǎng)絡(luò)法預(yù)測的色譜保留時(shí)間,與實(shí)驗(yàn)值的吻合度更好。神經(jīng)網(wǎng)絡(luò)模型的權(quán)重和偏置見表3。

圖2 保留時(shí)間預(yù)測值及其實(shí)驗(yàn)值的關(guān)系圖Fig. 2 Relationship between predicted and calculated values of tR

表3 BP-人工神經(jīng)網(wǎng)絡(luò)模型的權(quán)重和偏置Table 3 Weights and bias of BP-ANN model
這里所得的預(yù)測值為根據(jù)模型理論計(jì)算所得,模型是否具有更好的普適性,還需要通過實(shí)驗(yàn)測定其他分子的色譜保留時(shí)間進(jìn)行檢驗(yàn),這需要下一步開展更多的研究工作進(jìn)行完善。
根據(jù)表1的最優(yōu)變量子集回歸可以看出,選用分子連接性指數(shù)中的0X、1X、2X和3X、分子形狀指數(shù)中的K1、電性拓?fù)錉顟B(tài)指數(shù)中的E43和電性距離矢量的M91共7 個(gè)變量,與色譜保留時(shí)間相關(guān)性最優(yōu),這些變量中,分子連接性指數(shù)中的0X、1X、2X和3X分別代表0~3階路徑指數(shù)、分子形狀指數(shù)中的K1代表1階形狀特征參數(shù)、電性拓?fù)錉顟B(tài)指數(shù)中的E43代表氯原子基團(tuán)的參數(shù)值、電性距離矢量中的M91代表的是第13類原子(—F、—Cl、—Br、—I)之間的相互作用,這7 個(gè)變量所代表的基團(tuán)對(duì)方程貢獻(xiàn)最大,這說明在分子的空間結(jié)構(gòu)中,原子之間的連接形式、連接的基團(tuán)、相鄰原子之間的相互作用對(duì)色譜保留時(shí)間均能產(chǎn)生影響,其中以空間連接的形式或連接何種基團(tuán)對(duì)分子的貢獻(xiàn)最大。從表2可以看出,隨著揮發(fā)性有機(jī)物分子中碳原子數(shù)目的增加或吸電子基團(tuán)的存在,分子的體積逐漸增大,分子原子之間的色散作用會(huì)逐漸增強(qiáng),相應(yīng)的色譜保留時(shí)間會(huì)逐漸增大[31]。由于單一類的結(jié)構(gòu)參數(shù)不能完全反映分子中原子之間復(fù)雜的相關(guān)影響關(guān)系,故將蘊(yùn)含了空間拓?fù)浣Y(jié)構(gòu)和電性結(jié)構(gòu)信息的4類結(jié)構(gòu)參數(shù)有機(jī)融合,在一定程度上揭示分子基團(tuán)之間的相互作用,充分反映水中揮發(fā)性有機(jī)物色譜保留時(shí)間的變化規(guī)律,指數(shù)與色譜保留時(shí)間之間呈現(xiàn)了良好的非線性關(guān)系,利用優(yōu)化篩選的7個(gè)分子結(jié)構(gòu)參數(shù)建立的神經(jīng)網(wǎng)絡(luò)模型,對(duì)色譜保留時(shí)間作出預(yù)測的相對(duì)平均誤差達(dá)到2.17%,結(jié)果較為理想,而且通過檢驗(yàn)穩(wěn)定性,得到交叉驗(yàn)證相關(guān)系數(shù)達(dá)到0.945,遠(yuǎn)大于0.5,說明模型具有好的穩(wěn)定性和預(yù)測能力。通過對(duì)全部56個(gè)水中揮發(fā)性有機(jī)物分子的色譜保留時(shí)間進(jìn)行預(yù)測,只有對(duì)二氯乙烷和反式-1,1-二氯乙烯2 個(gè)分子的預(yù)測結(jié)果相對(duì)誤差偏大,這可能是與連接在相鄰2 個(gè)碳原子上的氯原子對(duì)空間結(jié)構(gòu)的影響較大、或反式結(jié)構(gòu)的色譜保留時(shí)間相對(duì)偏小有關(guān)。
水中揮發(fā)性有機(jī)物分子的7 種分子結(jié)構(gòu)參數(shù)0X、1X、2X、3X、K1、E43、M91與其色譜保留時(shí)間之間,能建立良好的神經(jīng)網(wǎng)絡(luò)QSRR數(shù)學(xué)模型,所得模型的總相關(guān)系數(shù)r總與訓(xùn)練集r1、測試集r2、驗(yàn)證集r3的相關(guān)系數(shù)較為吻合,不存在異常的離域值,經(jīng)留一法交叉檢驗(yàn),模型具有良好的穩(wěn)健性、較強(qiáng)的預(yù)測能力(= 0.945);神經(jīng)網(wǎng)絡(luò)法比多元回歸分析具有更好的預(yù)測準(zhǔn)確度、更強(qiáng)的糾錯(cuò)能力,能很好地反映蘊(yùn)含影響色譜保留時(shí)間的結(jié)構(gòu)信息,同時(shí)也反映出4 類結(jié)構(gòu)參數(shù)與其色譜保留時(shí)間之間具有良好的非線性關(guān)系。