






摘要:為實現植物根系對全氟與多氟化合物(Per- and polyfluoroalkyl substances,PFAS)的吸收和積累的精準預測,本研究基于涵蓋了19種PFAS的水培或土培體系文獻數據,共計668條數據點,利用分子描述符、實驗條件以及作物屬性等作為特征變量,構建4種機器學習模型分別預測了水培體系和土壤體系的根系富集因子(RCF),效果最佳的均是極端梯度提升樹(XGB)模型,測試集決定系數(R2)分別為0.69和0.83,均方根誤差(RMSE)分別為0.51和0.28。水培體系中PFAS的吸收、積累更容易研究,因此搭建了從水培體系到土壤體系的遷移學習模型,通過知識共享來提升RCF 預測的準確度。最優的遷移模型的測試集R2達到了0.86,RMSE為0.25,準確性有顯著提升。Shapley加性解釋(SHAP)特征重要性分析結果顯示,暴露時間、土壤pH和PFAS濃度是影響土壤根系吸收積累最主要的3個因素。本研究通過構建機器學習和遷移學習模型來預測土壤中植物根系PFAS的吸收積累,實現了簡單水-植物根表體系向土-水-植物多個界面復雜體系的遷移,為評估土壤PFAS生態環境風險提供了新的視角。
關鍵詞:全氟與多氟化合物;植物根系吸收積累;機器學習;遷移學習
中圖分類號:X53 文獻標志碼:A 文章編號:1672-2043(2024)11-2516-09 doi:10.11654/jaes.2024-0854
全氟與多氟化合物(Per- and polyfluoroalkyl sub?stances,PFAS)是一類人工合成的高度氟取代的有機氟化物,因具有出色的表面活性和化學穩定性而被廣泛應用于工業和日常生活中,從而也導致其在不同環境介質中普遍存在且不斷積累[1]。PFAS種類繁多,除了傳統型全氟辛酸(PFOA)和全氟辛烷磺酸(PFOS),大量新型PFAS 替代品,如六氟環氧丙烷-二聚酸(GenX)、6∶2氟調聚物磺酸(6∶2 FTSA)等仍在不斷開發和應用中。土壤是PFAS重要的歸趨場所,不同深度土壤、滲流帶以及地下水中都檢測到PFAS 的存在[2]。研究表明,土壤PFAS可被植物根部吸收,富集于植物組織中,并通過食物鏈的傳遞對生態環境和人體健康構成風險[3]。因此,植物對土壤PFAS 的吸收和富集受到越來越多的關注,亟需對其吸收機制、生態風險進行深入評估。
植物根系對PFAS的吸收和積累過程包括土壤顆粒吸附的PFAS解吸進入土壤溶液,再被植物根表吸收并在植物體內轉運,涉及到土壤、土壤溶液和根表三相界面過程,受多種因素影響,包括PFAS的物理化學性質、植物種類、土壤條件等[4]。例如,PFAS的鏈長在植物根系的吸收和富集中起著重要作用,疏水性更強的長鏈PFAS在根中表現出更多的積累[5]。有機污染物從土壤到作物根系的轉移通常通過根系富集因子(RCF)來評估[6]。大量PFAS的植物吸收和毒性研究采用了水培體系,而土壤體系復雜,土壤性質千差萬別,且上述研究選擇的植物種類差別很大,如何融合水培和土培實驗來探究不同PFAS在不同植物根系中的吸收及積累機制具有挑戰性。
機器學習模型已成為環境科學研究的重要工具,在污染物毒性預測、催化劑設計、環境風險評估等領域得到廣泛應用,尤其在整合大量復雜數據對新污染物屬性行為預測方面的應用不斷拓展,為評估新化學物質的環境和健康風險提供了新方法[7]。基于這一優勢,可以通過綜合水培和土培體系PFAS根吸收實驗數據,搭建機器學習模型來預測土壤復雜體系的植物根系RCF 及吸收機制。
前人研究主要集中于單一體系,即水培或土培體系的植物PFAS吸收和積累分析,這些體系在環境復雜性、PFAS種類、植物種類等方面差異較大,模型的泛化能力和可遷移性不確定,難以全面理解和預測PFAS在實際土壤中的行為[8-9]。水培體系由于缺少土壤中復雜的交互影響,模型能夠描述PFAS分子與植物根系的直接相互作用,借助遷移學習,將這一知識遷移至土培體系后,新機器模型土壤數據集測試集的決定系數(R2)從0.83提升至0.86,新模型融合了不同體系中的數據集,驗證了模型泛化能力和可遷移性。同時,基于SHAP值的特征重要性分析,可識別影響PFAS吸收和積累的關鍵因素,并結合水培和土培的數據,探討PFAS在復雜土壤環境中的吸收和富集過程。本研究側重點在于提高RCF 預測的準確性和穩健性,因此在目標上更關注結果的量化與模型性能,但通過特征重要性分析能夠初步揭示影響吸收和積累的機制和關鍵因素。更為重要的是,通過遷移學習融合了水-植物根體系和土-水-植物多界面復雜體系PFAS 的植物吸收,為深入理解PFAS 在復雜環境下的吸收和富集機制提供了新的思路。
1 材料與方法
1.1 數據收集
從經同行評議的研究文章中分別提取了378條水培[8]和290條土壤[9]植物根系PFAS吸收積累的數據點,具體如表1和表2所示。這兩項研究分別描述了水培和土培生長條件下PFAS 在植物根系的積累情況,通過從這些研究中獲取和提取數據,本研究構建了關于PFAS遷移的水培數據集及土培數據集。RCF作為輸出用于衡量PFAS 在植物根系中的吸收和積累,計算公式如下:
RCF=Croot/Cmedia (1)
式中:Croot表示PFAS 在植物根系中的含量,mg·kg-1;Cmedia表示PFAS在生長介質中的濃度,mg·L-1(水培)或mg·kg-1(土培)。
本研究首先基于水培和土培數據集中共同的輸入特征,對水培數據進行訓練,學習與PFAS吸收積累的相關信息。隨后,將訓練的最優模型應用于土培數據預測相應的RCF。將RCF 預測值作為新的特征加入到土培數據集中,對整體土培數據構建遷移學習模型,實現知識遷移。
1.2 特征提取和特征選擇
水培數據作為基礎模型的訓練,所以在訓練時選用和土培數據相同的特征作為輸入,包括污染物分子量、pKa、lg Kow、暴露時間、植物根系蛋白含量、根系脂質含量和污染物的分子描述符,lg RCF 作為輸出。其中分子描述符使用Python包(PaDELPy)生成,共1 444個,植物根系蛋白和脂質含量從不同文獻中搜集得到[10-11]。為了優化基礎模型和遷移模型效果,先初步訓練水培基礎模型,將最優模型中重要性為0的特征刪去,然后基于隨機森林的遞歸特征消除(RFECV)方法來進一步簡化特征個數。
在單獨訓練土壤數據時,選取栽培條件(植物種類、盆栽和大田實驗2種培養模式、PFAS濃度、暴露時間)、土壤理化性質(有機碳含量、土壤pH值)、植物理化性質(根系蛋白含量、根系脂質含量)以及污染物的1 444個分子描述符作為輸入特征。遷移學習預測土壤體系下的RCF 時,用水培篩選后的相同特征作為輸入。
1.3 數據預處理
水培數據中部分植物缺少脂質含量,而土培數據中部分污染物缺少pKa 和lg Kow,因此在構建模型時分別刪除了14條和10條數據,最終分別留下了378條和290條數據。
1.4 機器學習模型及效果評估
研究中選擇了隨機森林(RF)、極端梯度提升樹(XGB)、多元線性回歸(MLR)和支持向量機(SVM)4種機器學習模型來訓練水培和土培數據集。采用8∶2隨機劃分分割數據集,五折交叉驗證訓練模型,貝葉斯優化調整超參數。R2和均方根誤差(RMSE)是模型的評估指標,用于解釋數據方差及其預測的準確性。SHAP 特征重要性解釋基于最佳的遷移學習模型進行機制探討。
2 結果和討論
2.1 PFAS種類和lg RCF 分布
在水培與土培數據集中,PFAS種類和數量存在一定的差異。如圖1(a)所示,PFOA為8.99%,PFNA、PF?DA、PFHpA 和PFHeA 為7.94%,占據較大比例,其他PFAS化合物的分布相對均勻。圖1(b)表明土培數據集中,PFOS的比例顯著高于其他化合物,占27.68%,PFOA占13.15%,其次是PFHpA占8.65%,其余PFAS化合物的比例相對較小,基本在1.04%~8.30%之間。圖1(c)顯示了PFAS化合物的lg RCF 的分布情況,水培數據集中的lg RCF 中位數較高,數據離散性較大,這可能與其化學性質、溶解性或與植物根系的相互作用相關。相比之下,土壤數據集中lg RCF 中位數較低,數據分布更為集中,這可能與PFAS種類較少、植物品種以小麥為主有關。此外,土壤顆粒界面對PFAS的吸附作用,使得不同PFAS的行為趨于一致[12]。這些分析表明,土-水-植物多個界面過程對PFAS的行為和富集特性都有重要影響,可能需要進一步研究不同環境條件下的遷移和積累機制。
2.2 水培體系最優模型和特征篩選
為了獲得最優的lg RCF 預測模型,基于R2 和RMSE值對4種廣泛使用的機器學習模型(XGB、RF、MLR和SVR)進行了評估。如圖2所示,XGB模型的效果最佳,測試集R2=0.69,RMSE=0.51,RF模型次之,R2=0.66,RMSE=0.54。盡管SVR 在訓練集上的表現相對較好,但其在測試集上的表現較差,這表明SVR模型存在過擬合的趨勢,泛化能力不足。此外,MLR模型在訓練集和測試集上的擬合效果均較差,表明MLR無法充分捕捉數據之間的復雜關系。從模型類型來看,XGB 和RF 都是基于決策樹的模型。相比RF,XGB通過梯度提升機制能夠逐步減少預測誤差,每一步都能針對前一步的誤差進行補償。因此,XGB在處理不平衡數據集時表現出色,能夠更好地捕捉復雜的特征關系,并優化預測結果。而SVR 則受限于其對輸入特征數量的處理能力,難以應對本研究中大量輸入特征之間的復雜非線性關系,導致其容易過擬合[13]。此外,MLR模型的簡單線性假設限制了其對數據復雜性的描述能力,無法有效捕捉特征間的非線性關系。基于模型的表現,本研究選擇XGB模型進行下一步特征篩選。通過使用XGB 模型對重要特征進行篩選后,進一步利用XGB模型進行水培條件下的知識遷移,提升模型的泛化能力,并為土培體系下lg RCF 的精準預測提供支持。
圖3(a)展示了不同特征數量下模型性能的變化趨勢。通過RFECV逐步調整特征個數并訓練模型,最終選取了驗證集R2最優的特征子集,共保留了8個特征(ATS3m、暴露時間、根脂質含量、ATS3s、ATS4m、AATS2v、ATS3e、ATS4s)。拓撲結構自相關(ATS)描述符,也稱為Moreau-Broto 自相關描述符。利用該描述符評估原子對(如電荷或質量)的特定屬性與它們的拓撲距離(將它們分開鍵的數量)之間的相關性,以表征分子結構,相關的描述符包括AATS(平均ATS)、ATSC(中心ATS)和AATSC(平均ATSC)[14-15]。其中ATS3m、ATS3s、ATS4m、AATS2v、ATS3e、ATS4s(m指分子質量、s指原子電荷、e指電負性、v指原子體積)描述符因其較高的重要性得分而被篩選出。使用8個最優特征作為模型的輸入特征,進一步評估XGB模型的性能。如圖3(b)所示,與未進行特征篩選時相比,訓練集的R2 值略微下降至0.88,說明模型減少了過擬合,但是測試集上的R2和RMSE沒有變化,表明模型的預測能力在簡化特征后仍然保持穩定。
2.3 土培體系最優模型和知識遷移
對于土培數據集,研究使用了與水培相同的機器學習模型(XGB、RF、MLR、SVR),如圖4所示,這些模型的表現與在水培數據集上趨勢一致,XGB 模型依然表現最佳,其次是RF模型,而SVR和MLR模型表現相對較差,說明XGB模型在處理復雜環境數據時,都能夠準確捕捉非線性關系。XGB模型通過樹模型的逐步提升,有效地減少了預測誤差[16],確保了在兩個數據集上均能達到優異的預測效果。總體而言,水培和土培數據集在模型表現上的一致性表明了這些數據集中的共性,即都存在復雜的非線性模式和特征交互關系,基于決策樹的模型(XGB、RF)能夠提供更優的預測結果。
由于水培體系中PFAS的吸收和積累機制較為直觀且易于研究,且PFAS種類更為豐富,本研究在此基礎上構建了一個從水培體系到土壤體系的遷移學習模型,該模型通過知識共享的方式,有效提升了對復雜土壤體系中PFAS根系吸收和積累的預測精度。具體而言,遷移學習的過程首先基于水培體系中的特征篩選結果,使用水培模型對土培數據集進行初步預測,進而將這些預測輸出作為土培模型的輸入特征。通過這種方式,模型能夠保留并利用水培體系中所捕捉到的PFAS 在水-植物根表過程某些關鍵特征信息,并將其融入到土壤體系的土-水-植物多界面建模過程中。如圖5所示,遷移學習后,各種機器學習模型的表現均有所提升,尤其是在測試集上的表現尤為顯著。其中,XGB 模型的效果最為突出。在訓練集上,XGB 的R2 值從0.98 略微提升至0.99,RMSE 從0.09下降至0.07,然而,測試集上的變化則更加明顯。測試集R2從遷移前的0.83提升至0.86,RMSE從0.28下降至0.25。訓練集上提升較小的原因在于模型本身在訓練集上已經有較強的擬合能力,因此遷移后的主要改進體現在模型的泛化能力上,而非單純提高訓練集的擬合效果[17]。這種優化不僅使得模型在土培體系下表現更加穩健,也為實際應用中復雜環境數據的建模提供了新的思路。通過遷移學習的知識共享,成功利用了水培體系中的信息,增強了土培體系中PFAS積累預測的準確性,從而驗證了遷移學習在處理不同環境體系中的有效性。
2.4 特征重要性分析
基于土壤數據遷移前后的XGB 模型,本研究利用SHAP分析探究了影響lg RCF 的重要特征。如圖6(a)和圖6(b)所示,特征重要性排名前五的因素依次為暴露時間、土壤pH值、PFAS濃度、土壤有機碳含量以及遷移模型預測。暴露時間是最關鍵的影響因素。暴露時間越短,植物與PFAS的相互作用時間越少,導致吸收積累率越低。隨著暴露時間的增加,PFAS的累積效應逐漸顯現,lg RCF 值也會增加。有研究表明,這一趨勢可能與植物的生長周期密切相關,在最初的40 d內,植物的根部迅速生長,根系吸收較強,從而產生較高的lg RCF 值,在約70 d后,植物根系開始腐爛,從而影響PFAS 的吸收效率,這可能導致暴露60 d lg RCF 值出現顯著下降[9,18]。
土壤pH 值在本研究中顯示出第二重要的影響力。PFAS多為含羧基或磺酸基團的離子型化合物,其吸收效率受到土壤pH值的顯著影響。在堿性土壤中,負電荷狀態的PFAS化合物可能更容易通過土壤溶液擴散,進而降低根系的吸收效率[19]。已有研究表明,中性pH值范圍最有利于植物根系的生長及其對PFAS的捕獲能力,在較高的pH條件下(gt;7.7),lg RCF值可能較低,可能是植物在堿性環境下受到脅迫所致[20]。除此之外,PFAS在植物組織中的富集含量與培養介質中的暴露濃度密切相關。當土壤中的PFAS含量高于10 μg·kg-1時,lg RCF 值下降趨勢較緩,而當含量低于該特征值后lg RCF 值急劇下降。這一趨勢可以歸因于低含量PFAS時植物的吸收效率較低[21]。然而,由于植物根部的載體蛋白、陰離子通道和水通道蛋白的數量有限,不同植物種類的根系對PFAS物質的轉運路徑有所不同,這種差異可能導致不同的吸收表現[22]。
土壤有機碳含量是影響土壤對PFAS 吸收行為的關鍵因素。PFAS 通過疏水作用被大量吸附在有機碳上,這可能導致有機質微孔堵塞或構象改變,從而增加PFAS 在土壤中的滯留,降低其生物可利用性[22-23]。Xiang 等[9]的研究也表明了類似的趨勢,即隨著有機碳含量從2.2%增加到2.4%,RCF 值急劇下降。這進一步驗證了有機碳含量在控制PFAS 吸收過程中的重要作用。
圖6(c)和圖6(d)展示了知識遷移之前XGB模型的特征重要性排名。從水培遷移到土培數據集的過程中,主要用暴露時間、根脂質含量和分子結構信息等水培模型篩選的特征維度實現遷移學習。在土培數據集遷移學習前,根脂質含量的特征重要性排名較低,這表明盡管它對某些PFAS分子的吸收和積累有一定影響,但在整體模型中的貢獻較小,遠不及暴露時間和土壤pH等特征顯著,但在水培模型中根脂質含量是一個相對重要的特征,這歸因于復雜的土壤環境削弱了其影響。在遷移到土壤體系后,根脂質含量的重要性進一步降低,這是由于遷移學習過程中已經包含了水-植物界面過程中根脂質含量的信息,導致遷移后的模型中該特征的重要性有所下降。這表明脂質含量的信息在遷移過程中變得冗余,XGB 模型優先考慮了對新環境更為關鍵的特征,自適應調整該特征的相對重要性。值得注意的是,GATS7i分子描述符在土壤體系中的重要性提升。GATS7i衡量的是分子中相距7 個鍵的原子之間的電離能相關性。PFAS分子的電離狀態直接影響其與植物根系的相互作用,GATS7i通過加權第一電離能,揭示了距離較遠的原子在不同環境條件下如何影響PFAS分子的電離趨勢或行為[24]。其重要性的提升表明,在土-水-植物多個界面復雜過程中,分子結構和電子分布對PFAS的吸收和積累行為有了更大的影響。
總的來說,遷移學習幫助模型捕捉到了從水培系統到土培體系中PFAS行為的變化,尤其是部分信息的冗余和分子結構特征在土壤環境中的增強作用,為研究PFAS在復雜土壤條件下的遷移和吸收積累機制提供了新的思路。
3 結論
(1)相較于水培體系,土培體系lg RCF 中位數小且分布集中,這與PFAS 在土-水界面上的吸附作用相關,兩者數據融合可以支撐PFAS多相界面過程的機制模型。
(2)XGB 模型在水培和土培數據集上顯著優于RF、MPL、SVR 模型。通過水培知識遷移,XGB 模型在土壤數據集預測中的穩定性和預測精度得到增強,為研究PFAS在復雜環境中的植物吸收和富集機制提供了新的思路。
(3)通過特征重要性分析發現,遷移學習后PFAS分子結構和電子分布在土培條件下對PFAS吸收行為具有重要影響,而根脂質含量的重要性降低。
參考文獻:
[1] QIAN L, ZHAO H Y, SCHIERZ A, et al. A deep insight into
perfluorooctanoic acid photodegradation using metal ion-exchanged
zeolites[J]. ACS ESamp;T Engineering, 2024, 4(3):748-757.
[2] JOHNSON G R. PFAS in soil and groundwater following historical land
application of biosolids[J]. Water Research, 2022, 211:118035.
[3] ZHANG J F, HU L H, XU H Y. Dietary exposure to per - and
polyfluoroalkyl substances:potential health impacts on human liver[J].
Science of the Total Environment, 2024, 907:167945.
[4] SONG C Z, GU Q, ZHANG D K, et al. Prediction of PFAS
bioaccumulation in different plant tissues with machine learning
models based on molecular fingerprints[J]. Science of the Total
Environment, 2024, 950:175091.
[5] HUANG D L, XIAO R H, DU L, et al. Phytoremediation of poly- and
perfluoroalkyl substances:a review on aquatic plants, influencing
factors, and phytotoxicity[J]. Journal of Hazardous Materials, 2021,
418:126314.
[6] GAO F, SHEN Y K, BRETT SALLACH J, et al. Predicting crop root
concentration factors of organic contaminants with machine learning
models[J]. Journal of Hazardous Materials, 2022, 424:127437.
[7] LIU X, LU D W, ZHANG A Q, et al. Data-driven machine learning in
environmental pollution:gains and problems[J]. Environmental Science
amp; Technology, 2022, 56(4):2124-2133.
[8] ADU O, BRYANT M T, MA X M, et al. A machine learning approach
for predicting plant uptake and translocation of per - and
polyfluoroalkyl substances(PFAS) from hydroponics[J]. ACS ESamp;T
Engineering, 2024, 4(8):1884-1890.
[9] XIANG L, QIU J, CHEN Q Q, et al. Development, evaluation, and
application of machine learning models for accurate prediction of root
uptake of per - and polyfluoroalkyl substances[J]. Environmental
Science amp; Technology, 2023, 57(46):18317-18328.
[10] ZHU Y H, ZHANG S Z, ZHU Y G, et al. Improved approaches for
modeling the sorption of phenanthrene by a range of plant species[J].
Environmental Science amp; Technology, 2007, 41(22):7818-7823.
[11] MURANO H, OTANI T, SEIKE N, et al. Dieldrin uptake and
translocation in plants growing in hydroponic medium[J].
Environmental Toxicology and Chemistry, 2010, 29(1):142-148.
[12] LIU Z Y, LU Y L, SONG X, et al. Multiple crop bioaccumulation and
human exposure of perfluoroalkyl substances around a mega
fluorochemical industrial park, China:implication for planting
optimization and food safety[J]. Environment International, 2019, 127:
671-684.
[13] JIANG S Y, ZHOU Y R, XU W, et al. Machine learning-driven
optimization and application of bimetallic catalysts in
peroxymonosulfate activation for degradation of fluoroquinolone
antibiotics[J]. Chemical Engineering Journal, 2024, 486:150297.
[14] ZHENG T Y, MITCHELL J B O, DOBSON S. Revisiting the
application of machine learning approaches in predicting aqueous
solubility[J]. ACS Omega, 2024, 9(32):35209-35222.
[15] ANDROUTSOS L, PALLANTE L, BOMPOTAS A, et al. Predicting
multiple taste sensations with a multiobjective machine learning
method[J]. NPJ Science of Food, 2024, 8:47.
[16] WANG K, HU S J, LI D Q, et al. Ensemble tree model prediction of
summer precipitation in north China based on predictor selection
strategy[J]. Climate Dynamics, 2024, 62(7):6539-6554.
[17] WANG F Q, ZHOU Y C, YAN H Z, et al. Enhancing the
generalization ability of deep learning model for radio signal
modulation recognition[J]. Applied Intelligence, 2023, 53(15):18758-
18774.
[18] CHEN L, ZHANG S Z, HUANG H L, et al. Partitioning of
phenanthrene by root cell walls and cell wall fractions of wheat
(Triticum aestivum L.)[J]. Environmental Science amp; Technology,
2009, 43(24):9136-9141.
[19] MA X, LIU X P, DING S L, et al. Sorption and leaching behavior of
bithionol and levamisole in soils[J]. Chemosphere, 2019, 224:519-
526.
[20] ZHAO H X, GUAN Y, QU B C. PFCA uptake and translocation in
dominant wheat species(Triticum aestivum L.)[J]. International
Journal of Phytoremediation, 2018, 20(1):68-74.
[21] XIANG L, CHEN X T, YU P F, et al. Oxalic acid in root exudates
enhances accumulation of perfluorooctanoic acid in lettuce[J].
Environmental Science amp; Technology, 2020, 54(20):13046-13055.
[22] ADU O, MA X M, SHARMA V K. Bioavailability, phytotoxicity and
plant uptake of per-and polyfluoroalkyl substances(PFAS):a review
[J]. Journal of Hazardous Materials, 2023, 447:130805.
[23] LIU M, TIAN S Y, CHEN P, et al. Predicting the bioavailability of
sediment-associated polybrominated diphenyl ethers using a 45-d
sequential Tenax extraction[J]. Chemosphere, 2011, 85(3):424-431.
[24] PASTEWSKA M, BEDNARCZYK-CWYNAR B, KOVA?EVI? S, et
al. Multivariate assessment of anticancer oleanane triterpenoids
lipophilicity[J]. Journal of Chromatography A, 2021, 1656:462552.