


















摘要:運用多元線性回歸(MLR)、非線性支持向量回歸(SVR)以及投影尋蹤回歸(PPR)方法構建了定量結構-活性關系(QSAR)模型,以預測水相有機物與臭氧的反應速率常數(logKO3).采用內檢驗和外檢驗方法,對模型的擬合性能、穩健性以及預測能力進行了比較.結果表明,非線性模型結果優于線性模型;PPR模型的性能最佳.采用SHAP方法對PPR進行可視化表征及分析,以提高模型預測結果的可靠性,增強模型的透明度,從而彌補了機器學習模型的“黑箱”缺陷.最后,利用Williams圖法表征了PPR模型的應用域范圍(AD).
關鍵詞:水環境;定量結構-活性關系(QSAR);有機污染物;臭氧反應速率;投影尋蹤回歸;SHAP
中圖分類號:X-131"" 文獻標志碼:A
An Explainable Machine Learning Model for Reaction Rate Constantsof Organic Compounds in Water with Ozone
Abstract:By using multiple linear regression (MLR), nonlinear support vector regression (SVR) and projection pursuit regression (PPR) methods, QSAR models were developed to predict the reaction rate constant (logKO3) of organic compounds with ozone in water. The robustness, fitting performance and ability of the models were compared by internal and external validation procedures. The results showed that, comparatively, nonlinear models were better than linear model, with PPR performs best. Then the PPR model was visualized and explained through SHAP analysis, providing interpretability and explainability for the black-box nature of machine learning model, to strengthen the transparency and credibility of the model. In addition, the applicability domain (AD) range of PPR models was defined and visualized via a Williams plot.
Key words:wate environment; QSAR; organic pollutants; ozone reaction rate; projection pursuit regression; SHAP
0 引言
有機化學品給人們生活帶來許多便利的同時,也對生態系統構成了威脅.近年來,大量文獻表明水環境中經常檢測到多種有機物,如藥品、殺蟲劑、阻燃劑、表面活性劑和染料等.目前去除水中污染物的主流技術有物理化學工藝和生物方法,在處理難降解的有機物時通常存在處理效率低、二次污染和成本高等問題;而臭氧作為一種高效強氧化劑,在該方面展現了巨大潛力[1].有機物與臭氧反應的速率常數(KO3)表示有機化合物與臭氧之間的反應活性,這一參數可用于快速評估有機物的去除效率.
隨著社會的快速發展,有機物的數量和種類不斷增加,通過實驗方法難以獲取每種化合物在水環境中的KO3值.與之相比,定量結構-活性關系(quantitative structure-activity relationship, QSAR)方法能夠定量分析有機物的分子結構與其性質或活性之間的關系,揭示性質或活性與分子結構參數之間的相關性規律,有效避免了性質或活性測定過程中耗時、費力、高成本等問題[2].因此,QSAR已廣泛應用在環境科學領域,如預測有機物與高鐵酸鹽的反應活性[3]、預測大氣中揮發性有機物(VOCs)與硝基自由基(NO3)的反應速率常數[4, 5]、預測有機污染物在聚苯乙烯二乙烯基苯樹脂(XAD)與空氣中的分配系數[6]、預測FeCl3混凝染色廢水脫色效率[7]等.
目前,已有文獻報道了用QSAR模型預測水相有機物的KO3.例如,2012年Lee等[8]開發了幾個小數據集(≤59)的線性局部模型,用于預測某些特定類別化合物如苯胺、酚類、苯衍生物和烯烴等的KO3;2020年黃宇等[9]應用支持向量機(support vector machine, SVM)和多元線性回歸(multiple linear regression, MLR)建立了QSAR模型,預測了136種微污染物(含除草劑、農藥和阻燃劑等)的KO3,結果表明SVM優于MLR;2022年張曉等[2]采用偏最小二乘法(partial least squares, PLS)和SVM針對離子/非離子態化合物開發了兩組預測KO3的模型,SVM模型的結果略優于PLS模型.綜合上述研究可知,線性模型不足以描述結構與活性之間的復雜關系,其擬合優度有待提高[2, 9].非線性模型(如SVM)雖具備較強的性能,但存在機器學習“黑箱”問題,難以解釋模型內部的決策過程,因此也具有一定的局限性.所謂的模型的可解釋性指的是對模型中的決策過程和結果能夠給出直觀解釋,對于增強模型的透明度和發現數據偏差等都極為重要[10].
為了建立一個對有機化合物與臭氧反應活性預測的可靠模型,用來定量預測水相有機物的logKO3,本研究應用Dragon軟件計算了一系列分子描述符表征物質的結構信息,運用主成分分析法(principal component analysis, PCA)對數據集進行劃分,使分組更加合理[5].除采用MLR和非線性支持向量回歸(support vector regression, SVR)方法外,還嘗試用投影尋蹤回歸(projection pursuit regression, PPR)方法[11]構建模型,并對所有模型結果進行對比,篩選出最佳模型.利用SHAP(Shapley additive explantions)對最佳模型進行可視化及機理解釋,以解決機器學習模型的“黑箱”缺陷.最后,通過Williams圖給出最優模型的應用域范圍.
1 數據來源和方法
1.1 數據來源
從已報道文獻中[2, 8, 9, 12]共檢索到了322種有機物在(22±3)°C時水相的KO3(mol-1·s-1)值.為便于后續的數據分析,對KO3進行對數變換,以logKO3表示有機物與臭氧的反應速率,其范圍為-2.30~9.56,平均值為2.43,標準差為2.41.
322種有機物的名稱、CAS號及相應的logKO3的實驗值與預測值如表1所列.
1.2 主成分分析及數據集劃分
Dragon軟件計算共得到4 885個分子結構描述符.通過數據預處理剔除了含缺失值、常量以及相關性較高(相關性系數R>0.95)的分子描述符,最終保留了3 223個分子描述符用于后續PCA分析、訓練集和測試集的劃分以及建立模型.PCA分析的目的是對數據集進行可視化分析,分析其中可能的聚類,找出可能存在的結構“異常點”,并輔助判斷訓練集和測試集數據劃分是否合理.整個數據集按照4∶1的比例劃分為兩組:訓練集中包含257個物質,用于建模并進行模型性能內部評價,測試集中包含65個物質,用于模型外部預測能力的評價[5].
1.3 QSAR模型的構建
利用SPSS軟件對3 223個Dragon分子描述符進行逐步回歸分析,采用ΔR2<0.02作為確定模型的標準[5, 13].同時利用所篩選的分子描述符在限定核函數為高斯內積函數(kernel=“radial”)的條件下采取網格搜索法來確定SVR模型的最優超參數(C、γ、ε).對于PPR模型,參數nterms代表最終選入模型的變量個數,將逐步回歸所得的分子描述符全部輸入模型,因此不需要優化該參數,剩下的參數(optlevel和span)同樣使用網格搜索法來確定.
1.4 模型檢驗
模型的擬合能力采用訓練集的決定系數(R2)、均方根誤差(RMSEtr)以及平均絕對誤差(MAEtr)來評價,穩健性通過留一法交叉驗證指標Q2LOO來評價,預測性能則通過測試集的決定系數(R2pred)、可解釋方差(Q2ext)、均方根誤差(RMSEext)和平均絕對誤差(MAEext)來評價.為了保證良好的擬合優度和預測性能,QSAR模型應具有較高的R2、R2pred(R2>0.60)和Q2ext,以及較低的MAEtr、MAEext、RMSEtr和RMSEext.同時,模型也應具有較高的Q2LOO(Q2LOO>0.50),以保證模型具有良好的穩健性[14-15].
1.5 SHAP分析
理解模型為什么做出某種預測與預測的準確性同樣重要.在某種程度上,通過恰當的機理解釋可以提高模型預測結果的可靠性,增強模型的透明度[10].本研究中,采用SHAP法來衡量分子描述符的重要性,以彌補機器學習模型的“黑箱”缺陷.SHAP(Shapley additive explanations)是一種基于博弈論的解釋方法,它通過將每次預測分解為對輸入特征(即分子描述符)的貢獻度,來解釋模型是如何做出其決策的[16].具體類似于對線性回歸預測值進行拆分,將目標特征值與其對應的回歸系數相乘得到Shapley值,以此作為特征重要性的度量[10,16-17].SHAP不僅能提供全局的模型解釋(即整個模型的平均表現),還能夠對具體樣本的預測給出局部解釋.與其他解釋方法相比,SHAP方法具有一致性、局部準確性和特征重要性排序的優勢.本研究從SHAP特征重要性圖、SHAP分析概要圖以及SHAP分析解釋瀑布圖對最優模型進行可視化機理解釋.
1.6 模型的應用域
QSAR模型是建立在已知化合物的結構和生物或物理化學特性之間的定量關系基礎上的,模型對于未參與建模的物質是否適用,必須對其應用域(applicabilty domain, AD)進行表征,以驗證其可靠性.本研究采用Williams圖來評價最優模型的應用范圍,并判定參與建模的樣本是否存在異常點.
2 結果和討論
2.1 PCA分析
對所有物質進行主成分分析(PCA),用前3個主成分的得分作圖,得其載荷圖以分析樣本的分布如圖1所示,樣本之間不存在明顯的聚類.
圖2、圖3是數據集在主成分1及主成分2的核密度圖[18].從圖2、圖3可知,訓練集樣本基本能覆蓋測試集樣本,證明訓練集和測試集劃分是合理的.
2.2 MLR模型
通過逐步多元線性回歸(MLR),篩選出了包含14個描述符的模型;模型相關參數見表2.
這14個描述符中,nArOR、nArOH以及nRNR2屬于官能團計數描述符,分別表征化合物分子結構中的芳香醚、酚羥基以及脂肪族叔胺的數量,其系數均為正,表明它們與logKO3呈正相關.羥基和醚鍵的供電子能力強于吸電子能力,可以激活芳香環增加苯基的電子密度.叔胺分子中的氮原子通常表現出給電子基的性質,其孤對電子容易參與反應.由于O3是親電試劑,所以含有芳香醚、酚羥基以及叔胺的化合物往往與O3具有較高的反應活性[2].
C-033屬于原子中心碎片描述符,這類描述符被定義為化合物分子中某類原子的數量,能夠描述原子的鄰接基團和連接情況等信息.C-033表征了化合物分子結構中R—CH…X片段的數量,它與logKO3呈正相關,表明O3容易進攻這些結構,使得反應速率加快.
B01[C—O]和B03[N—O]是2D原子對描述符,分別描述化合物結構中C—O原子對在拓撲距離1處的存在情況和N—O原子對在拓撲距離3處的存在情況.前者系數為負,后者系數為正,表明在相應的拓撲距離處N—O原子對相比C—O原子對更容易被O3氧化.
GATS1e是由Sanderson電負性加權的Geary自相關變量,屬于2D自相關描述符.這類描述符主要表征基于化合物的分子結構圖計算得到的原子之間的拓撲距離,能夠描述分子的拓撲結構對某些性質的影響.GATS1e的權重因子Sanderson電負性能夠衡量分子吸收電子的能力:電負性越大,分子的得電能力越強;電負性越小,分子的得電能力越弱.并且該權重因子在一定程度上增大了分子中氟、氧和氯等電負性原子的貢獻性.GATS1e的系數為正,表明其與logKO3呈正相關關系[19].
SdsCH和SdCH2屬于原子類型電性拓撲態指數類描述符,反映電子性質和拓撲性質等結構信息.SdsCH反映了分子中=CH—(原子類型)結構電性拓撲態的總和,SdCH2則反映了分子中 =CH2(原子類型)結構電性拓撲態的總和.二者系數均為正,表明隨著=CH-結構和=CH2結構電性拓撲態的上升,有機物與O3的反應也隨之加快.
Eig03_EA(dm)和SpMax_AEA(dm)屬于邊緣鄰接指數類描述符.Eig03_EA(dm)是由偶極矩加權的邊鄰接矩陣的3號特征值,SpMax_AEA(dm)是從增強邊緣鄰接矩陣中得到的第一特征值.它們通過一個二進制0-1矩陣(鄰接矩陣)測定其值,該矩陣包含除氫原子外有關化學鍵之間存在邊的信息.隨著Eig03_EA(dm)與SpMax_AEA(dm)值的增大(系數為正),有機物與O3的活性增大.
J_D屬于2D矩陣描述符,表征了拓撲距離矩陣的balaban距離連接指數.Psi_e_A和GMTIV屬于拓撲指數描述符,分別表征電拓撲狀態偽連通性指數(S型平均值)以及根據價頂點度計算的古特曼分子拓撲指數.J_D,Psi_e_A以及GMTIV的系數均為負,表明這些分子描述符均與logKO3呈負相關關系.
以上描述符的標準化系數波動都不大;相比而言,其中對于有機物與O3反應影響最大的是nArO,其次則是SpMax_AEA(dm),剩余的描述符按照以下順序影響逐步減小:J_Dgt; SdsCHgt;GMTIVgt;SdCH2gt;GATS1e, Psi_e_Agt;nArORgt;nRNR2gt;B01[C-O]gt;B03[N-O]gt;C-033.各描述符的方差膨脹系數(VIF)都低于5,表明變量之間不存在共線性,該MLR模型具有統計學意義[20].
2.3 非線性模型
網格搜索法確定非線性SVR模型參數為:C=358,γ=0.01,ε=0.41,支持向量個數為128.與MLR模型相比,SVR模型的擬合能力指標R2增加了0.157,RMSEtr降低了0.358,MAEtr降低了0.272,而預測性能指標R2pred增加了0.066,RMSEext降低了0.174,MAEext降低了0.148.這表明SVR模型較MLR模型具有更優異的泛化能力.
PPR模型參數為:nterms=14,optlevel=2,span=0.339.相較于MLR和SVR模型,該模型的擬合能力指標R2增加到0.883,RMSEtr降低到0.831,MAEtr降低到0.622.預測性能指標R2pred增加到0.812,RMSEext降低到1.021,MAEtr為0.816,比SVR略高.不同QSAR模型的參數統計如表3所列.
從表3數據可知,MLR、SVR以及PPR模型的R2 gt; 0.6,Q2LOOgt; 0.6,Q2extgt; 0.6,|R2 -Q2ext|≤0.1,說明這些模型均具有良好的擬合優度、穩健性和預測性能,且均未出現過擬合現象[14].其中,PPR模型的性能最佳,SVR模型次之,二者均優于MLR模型.這些結果充分表明,臭氧反應速率與物質結構參數之間的關系比較復雜;基于同樣的結構描述符,用非線性方法如SVR以及PPR所建模型能更準確地描述這種關系.
2.4 PPR模型的SHAP分析
針對最優PPR模型,通過計算模型中各分子描述符對應的Shapley值,估算每個描述符對于模型預測的貢獻,對描述符進行重要程度排序,從而對PPR模型進行可視化表征及分析.圖4所示為PPR模型中SHAP特征重要性的排序.
14個分子描述符的SHAP特征重要性排序,依次為SdsCH gt; nArOR gt; B01[C-O] gt; J_Dgt; SpMax_AEA(dm) gt; Psi_e_A gt; GMTIV gt; GATS1e gt; SdCH2 gt; B03[N-O] gt; nArOH gt; nRNR2 gt; Eig03_EA(dm) gt; C-033.其中,前6個描述符相差不大,以SdsCH略為顯著.MLR模型中最重要的描述符是nArOH, 其次是SpMax_AEA(dm),二者在PPR模型中則分別降到第2位和第5位.這說明SHAP方法所得特征重[HJ]要性排序與前述MLR模型有部分差異.綜合表2中[HJ]各模型的統計數據差異,說明單純依據線性模型中的系數值對特征進行排序有一定的局限性和偏差,而基于SHAP的特征分析更為客觀.
SHAP特征重要性圖僅僅是對輸入特征(即分子描述符)的重要性進行排序,但是不能解釋每個特征對于反應速率是正影響還是負影響.SHAP分析概要圖則對此給出了局部解釋,揭示了訓練集樣本中每一個分子描述符數值與其對應的Shapley值的分布的變化關系,圖5所示為SHAP分析概要圖.圖中,縱坐標表示描述符,并按其重要性排序,所得結論與圖4一致;橫坐標為各描述符對應的Shapley值的分布,藍色到紅色對應描述符本身數值由低到高的變化(圖5的彩圖可查閱如下鏈接:http://img.picui.cn/free/2024/10/24/6719ca81248f3.png).Shapley值為正意味著會導致有機物的logKO3的預測值增大,Shapley值為負則意味著會導致有機物的logKO3的預測值減小.
從圖5可知,當SdsCH值增大時,對應的Shapley值會隨之增大;反之,當SdsCH值減小時,對應的Shapley值也隨之減小.類似的描述符還有nArOH、SpMax_AEA(dm)、GATS1e、SdCH2、B03[N-O]、nArOR、nRNR2、Eig03_EA(dm)以及C-033,說明這些描述符與logKO3正相關.當描述符B01[C—O]的值增大時,對應的Shapley值會減小;反之,當B01[C—O]值減小時,對應的Shapley值則增大.類似的描述符還有J_D,Psi_e_A 和GMTIV,說明它們與logKO3負相關.綜合以上可知,PPR模型中各描述符對于反應活性預測的影響(正或負)與MLR模型一致.
SHAP分析解釋瀑布圖可以用來描述單個化合物在預測模型計算中從基準值到最終輸出結果(f(x))的過程中每個分子描述符對預測結果的具體影響.其力值(即Shapley值,箭頭旁的數字)代表每個分子描述符在增強或減弱預測結果方面的作用大小,可以直觀地用箭頭的長短表示.基準值E[f(x)]是模型中所有樣本預測結果的平均值;f(x)表示樣本的預測結果.本研究以55號物質和69號物質為例來進行分析.
圖6所示為55號物質羥基乙酸(Glycolic Acid)的SHAP分析解釋瀑布圖.從圖6可知,PPR模型對該物質logKO3的預測結果為-2.06,比平均預測值2.542低4.602.該物質的分子描述符Psi_e_A,Eig03_EA(dm),SdsCH以及J_D的Shapley值為負值,對應于圖中向左的深色箭頭,表明這些分子描述符對羥基乙酸與臭氧反應速率的預測有負影響.其中,最長的兩個向左的箭頭分別對應描述符Psi_e_A 和Eig03_EA(dm),說明Psi_e_A和Eig03_EA(dm)是導致羥基乙酸logKO3預測值偏小的兩個主要因素.描述符GATS1e的Shapley值為正值,對應于圖中向右的淺色箭頭,表明其對羥基乙酸的預測有正影響.對比可知,分子描述符對羥基乙酸logKO3預測結果的負影響遠大于正影響,所以羥基乙酸logKO3預測結果要低于平均預測結果.
從圖7可以看出,PPR模型對該物質logKO3的預測結果為8.926,比平均預測值2.542高出6.384.對該物質而言,分子描述符J_D,Psi_e_A,B01[C-O],nRNR2以及C-033的Shapley值都為正值,對應于圖中向左的淺色箭頭.其中,最長的淺色箭頭對應描述符C-033,表征了分子結構中R—CH…X片段的數量,說明O3更容易進攻該片段,同時也說明C-033是影響蘆竹堿logKO3預測值偏大的主要因素,nRNR2次之.其余的分子描述符的Shapley值為負,對應于圖中向左的深色箭頭,表示具有減少模型預測的作用.綜上,在PPR模型中,分子描述符對蘆竹堿預測結果的正影響遠大于負影響,所以其logKO3的預測值高于平均預測值.
2.5 PPR模型的應用域分析
基于Williams圖對PPR模型的應用域進行表征.本研究中,模型的適用范圍為hilt;h* (h*=0.175)的區域.圖8所示為PPR模型的Williams 圖.
從圖8可以看出,PPR模型中絕大部分物質都在模型的應用域范圍內;有12個物質的hi大于h*,分別是訓練集中的69號蘆竹堿(3-(Dimethylaminomethyl)indole)、238號氟樂靈(Trifluralin)、247號1,4-丁二醇二甲基丙烯酸酯(1,4-Butanediol dimethacrylate)、306號乙烯(Ethene)、319號柱孢藻毒素(Cylindrospermopsin)、35號二甲基亞砜(Dimethyl sulfoxide)、190號四硝基甲烷(Tetranitromethane)、316號西替利嗪(cetirizine)、134號亞油酸甲酯(Methyl linoleate)、175號三乙烯二胺(Triethylenediamine)和124號吡咯(Pyrrole)以及測試集中的279號2-脫氧鳥苷(2-Deoxyguanosine).其中蘆竹堿、氟樂靈、1,4-丁二醇二甲基丙烯酸酯、乙烯、柱孢藻毒素、二甲基亞砜、四硝基甲烷、西替利嗪、亞油酸甲酯、三乙烯二胺以及吡咯屬于高杠桿點化合物,尤以吡咯的影響最大.由于它們的分子結構與訓練集中其他化合物存在差異,導致hi大于h*,但PPR模型對它們的擬合結果較好(δ<3),表明PPR模型訓練集具有較好的代表性.測試集中2-脫氧鳥苷的分子結構與訓練集中的化合物存在較大差異,但其標準殘差較小(δ<1),表明PPR模型具有良好的預測能力和泛化能力.
3 結論
本研究基于Dragon分子結構描述符,應用MLR、SVR以及PPR方法構建了322種有機化合物與其臭氧反應速率常數之間的QSAR模型.從模型的各統計指標可知,所有模型均具有良好的擬合優度、穩健性和預測性能,且均未出現過擬合現象,其中PPR模型的性能最佳.
基于SHAP法從特征重要性排序、總體特征圖以及瀑布圖對PPR模型進行可視化表征,克服了以往工作中機器學習算法模型存在的“黑箱”缺陷.對比發現,在線性模型(MLR模型)與非線性模型(PPR模型)中,各描述符對于反應活性(logKO3)預測的影響趨勢一致,但是同一描述符對預測的貢獻大小或重要性排序有部分變化.這表明影響化合物與臭氧反應速率常數的因素復雜,非線性模型如PPR更加適合描述這種關系.對PPR模型的應用域分析表明,訓練集有良好的代表性且具有一定的外推能力.因此,本文提出的PPR模型可用于預測未知實驗測定logKO3值的有機化合物,可為今后相關領域的研究提供基礎數據和理論支撐.
參考文獻:
[1] 楊鶴云,鄭興.高級氧化法降解有機污染物的應用及研究進展[J].水處理技術,2021,47(12):13-18.
[2] ZHANG X,LI S,YANG Y,et al.Predicting reaction rate constants of ozone with ionic/non-ionic compounds in water[J].Science of the Total Environment,2022,835:155501.
[3] QI X,LIU N,TANG Z,et al.Quantitative structure:activity relationship models for predicting apparent rate constants of organic compounds with ferrate (VI) [J].Science of the Total Environment,2023,871:162043.
[4] LIU Y,CHENG Z,LIU S,et al.A quantitative structure activity relationship (QSAR) model for predicting the rate constant of the reaction between VOCs and NO3 radicals[J].Chemical Engineering Journal,2022,448:136413.
[5] 叢建業,楚留意,任月英.揮發性有機化合物與硝基自由基反應速率常數的定量結構-性質關系[J].蘭州文理學院學報(自然科學版),2022,36(6):84-88.
[6] 朱騰義,陳穎,程浩淼,等.基于QSAR模型預測有機污染物在XAD與空氣中的分配系數[J].中國環境科學,2022,42(5):2269-2274.
[7] REN Y,TAN Y,CHENG Z,et al.QSAR model and mechanism research on color removal efficiency of dying wastewater by FeCl3 coagulation[J].Ecotoxicology and Environmental Safety,2022,240:113693.
[8] LEE Y,VON GUNTEN U.Quantitative structure-activity relationships (QSARs) for the transformation of organic micropollutants during oxidative water treatment[J].Water Research,2012,46(19):6177-6195.
[9] HUANG Y,LI T,ZHENG S,et al.QSAR modeling for the ozonation of diverse organic compounds in water [J].Science of the Total Environment,2020,715:136816.
[10] 朱騰義,張玉,程浩淼,等.基于可解釋性機器學習的納濾膜去除有機微污染物研究[J].環境科學學報,2023,43(7):194-203.
[11] FRIEDMAN J H.Exploratory projection pursuit[J].Journal of the American Statistical Association,1987,82(397):249-266.
[12] ZHONG S,ZHANG Y,ZHANG H.Machine learning-assisted QSAR models on contaminant reactivity toward four oxidants:combining small data sets and knowledge transfer[J].Environmental Science amp; Technology,2022,56(1):681-692.
[13] KATRITZKY A R,KUANAR M,FARA D C,et al.QSPR treatment of rat blood:air,saline:air and olive oil:air partition coefficients using theoretical molecular descriptors[J].Bioorganic Medicinal Chemistry,2004,12(17):4735-4748.
[14] 覃禮堂,劉樹深,肖乾芬,等.QSAR模型內部和外部驗證方法綜述[J].環境化學,2013,32(7):1205-1211.
[15] 陳憲.基于OECD準則對QSAR/QSPR模型幾個重要問題的研究[D].長沙:中南大學,2013.
[16] LUNDBERG S M,LEE S-I.A unified approach to interpreting model predictions [J].Advances in Neural Information Processing Systems,2017,30:4765-4774.
[17] 楊蔚,張寧妹,張朝林,等.基于Shapley additive explanations(SHAP)分析乳腺X線檢查假陰性乳腺癌的特征[J].中國醫學計算機成像雜志,2023,29(3):271-276.
[18] 黃歡,黃宇,王舒樂.基于Excel VBA的能力驗證結果核密度圖繪制及其應用[J].理化檢驗(化學分冊),2023,59(11):1337-1340.
[19] 羅翔.有機污染物與羥基自由基和單線態氧水相反應速率常數的QSAR模型[D].大連:大連理工大學,2021.
[20] 朱鈺,鄭屹然,尹默.統計學意義下的多重共線性檢驗方法[J].統計與決策,2020,36(7):34-36.