土壤速效磷近紅外遷移學(xué)習(xí)預(yù)測(cè)方法研究

2020-11-06 12:17:54鄭文瑞李紹穩(wěn)韓亞魯石勝群朱先志

分析測(cè)試學(xué)報(bào) 2020年10期

鄭文瑞，李紹穩(wěn)，韓亞魯，石勝群，朱先志，金秀

(安徽農(nóng)業(yè)大學(xué) 信息與計(jì)算機(jī)學(xué)院智慧農(nóng)業(yè)技術(shù)與裝備安徽省重點(diǎn)實(shí)驗(yàn)室，安徽合肥 230036)

土壤速效磷(Available phosphorus，AP)是農(nóng)作物生長(zhǎng)過(guò)程中所必須的營(yíng)養(yǎng)元素，檢測(cè)土壤中AP含量在作物精準(zhǔn)施肥和環(huán)境保護(hù)方面具有重要意義[1]。近年來(lái)，國(guó)內(nèi)外均有利用可見-近紅外光譜預(yù)測(cè)土壤AP含量的報(bào)道，且取得了良好效果。如齊海軍等[2]提出利用偏最小二乘回歸(PLSR)對(duì)可見-近紅外光譜數(shù)據(jù)進(jìn)行特征提取和降維，將得到的潛在變量和特征波長(zhǎng)分別輸入反向傳播神經(jīng)網(wǎng)絡(luò)(BPNN)建立了土壤AP含量預(yù)測(cè)模型，與全波長(zhǎng)數(shù)據(jù)建模結(jié)果相比，PLS-BPNN算法能有效地降低高光譜數(shù)據(jù)冗余和共線性影響。Paz-Kagan等[3]利用機(jī)載成像光譜技術(shù)(IS)繪制光譜土壤質(zhì)量指數(shù)(SSQI)圖，為SSQI的評(píng)估提供了一種快速可靠的方法，該方法采用PLSR算法在350～2 500 nm可見-近紅外光譜區(qū)域建立的土壤AP回歸模型的相對(duì)分析誤差(RPD)達(dá)到1.92。目前，研究主要集中于對(duì)同一地區(qū)土壤樣本進(jìn)行建模預(yù)測(cè)，存在預(yù)測(cè)樣本采集地區(qū)改變，已建光譜模型不能提供準(zhǔn)確的預(yù)測(cè)結(jié)果，出現(xiàn)模型失效的問(wèn)題[4]。而新地區(qū)重新采集大量樣本建模會(huì)增加成本、降低效率，并降低對(duì)已有土壤樣本的利用率。

本研究擬低成本將皖南地區(qū)土壤AP預(yù)測(cè)模型遷移給皖北地區(qū)使用。研究的關(guān)鍵在于解決不同地區(qū)土壤光譜差異即光譜數(shù)據(jù)不同分布問(wèn)題，因?yàn)閭鹘y(tǒng)回歸算法假設(shè)訓(xùn)練集和測(cè)試集的數(shù)據(jù)必須是同分布的。為此，本文采用遷移學(xué)習(xí)(Transfer learning)[5]中遷移成分分析(Transfer component analysis，TCA)[6]方法以減少不同地區(qū)間的光譜差異，在皖南和皖北土壤光譜進(jìn)行TCA變換前后，設(shè)計(jì)了4個(gè)基于不同訓(xùn)練集建立模型，預(yù)測(cè)皖北地區(qū)土壤AP含量。

1 實(shí)驗(yàn)部分

1.1 樣本采集與處理

采集了安徽省兩種不同類型的土壤樣本共180份，其中皖南地區(qū)為黃山區(qū)烏石鄉(xiāng)桃園基地和池州市石臺(tái)縣大演鄉(xiāng)，共計(jì)120份，土壤類型為黃紅壤土；皖北地區(qū)為蒙城縣和宿州市埇橋區(qū)共計(jì)60份，土壤類型為砂姜黑土。采樣深度均為0～20 cm。樣本采集后密封帶回實(shí)驗(yàn)室風(fēng)干、研磨，過(guò)20目篩，再進(jìn)行光譜數(shù)據(jù)采集，并從每個(gè)土壤樣本中取出部分用于實(shí)驗(yàn)室理化檢測(cè)。

使用OFS1700地物光譜儀(海洋光學(xué)公司)和50 W鹵鎢燈接觸式反射探頭采集土壤近紅外光譜數(shù)據(jù)，光譜范圍為350～1 700 nm，其中350～900 nm的光譜分辨率為2 nm，900～1 700 nm的光譜分辨率為5 nm。土壤AP的理化檢測(cè)使用碳酸氫鈉浸提-鉬銻抗分光光度法[7]，由安徽農(nóng)業(yè)大學(xué)資源與環(huán)境學(xué)院土壤學(xué)實(shí)驗(yàn)室完成。

1.2 數(shù)據(jù)處理

1.2.1 遷移學(xué)習(xí)方法遷移學(xué)習(xí)是機(jī)器學(xué)習(xí)中一個(gè)重要研究問(wèn)題，側(cè)重將前期的學(xué)習(xí)經(jīng)驗(yàn)適應(yīng)于新的學(xué)習(xí)中，提高新的學(xué)習(xí)效率[8]。遷移成分分析(TCA)是一種經(jīng)典的基于特征的遷移學(xué)習(xí)方法，旨在讓一個(gè)領(lǐng)域?qū)W習(xí)到的模型適應(yīng)到另一個(gè)不同但相關(guān)的領(lǐng)域中[6]。它與主成分分析(PCA)算法[9]類似之處在于均可實(shí)現(xiàn)降維，但PCA并不能解決源域(Source domain)和目標(biāo)域(Target domain)數(shù)據(jù)不同分布的問(wèn)題。TCA通過(guò)將不同邊緣概率分布的源域和目標(biāo)域數(shù)據(jù)映射到一個(gè)高維的再生核希爾伯特空間(RKHS)[10-11]，在此空間中通過(guò)最小化源域和目標(biāo)域數(shù)據(jù)距離以減少其數(shù)據(jù)分布差異，同時(shí)最大程度地保留了各自的內(nèi)部屬性。劉翠玲等[12]利用TCA方法研究不同光譜儀間食用油光譜模型的傳遞，Tao等[13]利用TCA方法研究不同地區(qū)間土壤砷污染診斷模型的可轉(zhuǎn)移性，均得到了具有良好預(yù)測(cè)性能的遷移模型。

目前，很多方法可嘗試減小源域和目標(biāo)域間的距離，而TCA的貢獻(xiàn)在于其計(jì)算距離的方法更加簡(jiǎn)單。TCA算法步驟如下：首先，定義源域和目標(biāo)域的光譜數(shù)據(jù)分別為Xs=[xs1…xsi…xsns]和Xt=[xt1…xti…xtnt],xsi和xti為光譜特征向量，ns、nt分別為源域和目標(biāo)域樣本數(shù)量。然后在RKHS空間中通過(guò)最大均值差異(MMD)[14]來(lái)度量Xs和Xt的邊緣分布距離，公式如下：

(1)

找到一個(gè)合適的映射φ可以使得這個(gè)距離最小，但φ通常是高度非線性的，難以尋求。于是Pan等[15]提出將這個(gè)距離的最小化問(wèn)題轉(zhuǎn)化為核學(xué)習(xí)問(wèn)題，利用核技巧k(即k(xixj)=φ(xi)Tφ(xj))可以將公式(1)改寫為核矩陣的跡：

Dist(Xs,Xt)=trace(KL)

(2)

(3)

(4)

Dist(Xs,Xt)=trace((KWWTK)L)=tr(WTKLKW)

(5)

最小化公式(5)，得到的W表示TCA降維后源域和目標(biāo)域的光譜矩陣，則轉(zhuǎn)變?yōu)榍螅?/p>

minwtr(WTKLKW)+μtr(WTW)

(6)

其中，μ為一個(gè)平衡參數(shù)，正則化項(xiàng)tr(WTW)的加入是為了控制W的復(fù)雜度。加入約束WTKHKW=Im是為了避免平凡解(即W=0)。最終，Pan等[6]通過(guò)數(shù)學(xué)推導(dǎo)得出，W的解即為(KLK+μI)-1KHK的前m個(gè)特征值對(duì)應(yīng)的特征向量，將其輸出得到源域和目標(biāo)域TCA轉(zhuǎn)移后的數(shù)據(jù)，即可使用傳統(tǒng)回歸算法運(yùn)算。

1.2.2 基于TCA的實(shí)驗(yàn)方法PLSR算法[16]是一種適用性廣泛的化學(xué)計(jì)量學(xué)建模方法，它將光譜變量矩陣和濃度矩陣同時(shí)進(jìn)行分解并考慮二者間的相互關(guān)系，從而加強(qiáng)了兩者的對(duì)應(yīng)計(jì)算關(guān)系，且計(jì)算速度快，但PLSR是基于線性回歸的多元校正方法，光譜變量和濃度間存在一定的非線性，當(dāng)非線性嚴(yán)重時(shí)，則不能建立理想的校正模型；SVR算法[17]是常用的非線性校正方法，具有很強(qiáng)的抗過(guò)擬合能力，但它存在數(shù)據(jù)量過(guò)大會(huì)減慢建模速度的缺點(diǎn)，PLSR和SVR均被廣泛應(yīng)用于光譜分析中。本研究設(shè)計(jì)了4個(gè)實(shí)驗(yàn)，在光譜預(yù)處理后，將源域劃分為源域訓(xùn)練集和源域測(cè)試集，目標(biāo)域劃為目標(biāo)域訓(xùn)練集和目標(biāo)域測(cè)試集，建模方法選擇PLSR和SVR，基于此設(shè)計(jì)實(shí)驗(yàn)①～③，再結(jié)合TCA方法設(shè)計(jì)實(shí)驗(yàn)④，總體實(shí)驗(yàn)流程圖見圖1。4個(gè)實(shí)驗(yàn)內(nèi)容如下：①采用目標(biāo)域訓(xùn)練集建模，對(duì)目標(biāo)域測(cè)試集樣本進(jìn)行預(yù)測(cè)，用于研究樣本量不大的情況下能否建立具有良好預(yù)測(cè)效果的模型。②采用源域訓(xùn)練集建模，對(duì)目標(biāo)域測(cè)試集樣本進(jìn)行預(yù)測(cè)，用于研究源域模型能否直接給目標(biāo)域使用的模型。③采用源域訓(xùn)練集混合目標(biāo)域訓(xùn)練集建模，對(duì)目標(biāo)域測(cè)試集樣本進(jìn)行預(yù)測(cè)，用于研究部分目標(biāo)域樣本加入源域訓(xùn)練集能否提高模型預(yù)測(cè)精度的模型。④用TCA變換后的源域訓(xùn)練集混合目標(biāo)域訓(xùn)練集建模，再對(duì)TCA變換后的目標(biāo)域測(cè)試集樣本進(jìn)行預(yù)測(cè)，研究基于TCA光譜變換和部分目標(biāo)域樣本加入訓(xùn)練集建立的模型是否能顯著提升預(yù)測(cè)精度。對(duì)4個(gè)實(shí)驗(yàn)?zāi)Ｐ偷男阅苓M(jìn)行評(píng)估和對(duì)比，分析采用TCA方法能否將源域模型應(yīng)用于目標(biāo)域，提高對(duì)目標(biāo)域的預(yù)測(cè)精度。

1.2.3 模型評(píng)價(jià)參數(shù)模型預(yù)測(cè)性能的評(píng)價(jià)標(biāo)準(zhǔn)選用預(yù)測(cè)均方根誤差(RMSEP)、決定系數(shù)(R2)和相對(duì)分析誤差(RPD)。RMSEP越小，表明模型的預(yù)測(cè)性能越好，并采用Chang等[18]劃分的預(yù)測(cè)模型等級(jí)(Predictive model level)進(jìn)行描述：當(dāng)RPD>2.0且R2≥0.80時(shí)，模型具有良好的預(yù)測(cè)能力，可用于定量預(yù)測(cè)，為A類模型；當(dāng)1.4≤RPD≤2.0且0.50≤R2<0.80時(shí)，模型具有中等的預(yù)測(cè)能力，可近似估計(jì)，為B類模型；當(dāng)RPD< 1.4且R2<0.50時(shí)，模型具有較差的預(yù)測(cè)能力，不能用于定量預(yù)測(cè)，屬C類模型。

圖1 總體實(shí)驗(yàn)流程圖Fig.1 Experimental flow chart

2 結(jié)果與討論

2.1 樣本分析

為降低噪聲等的影響，采用Savitzky-Golay卷積平滑(SG)、標(biāo)準(zhǔn)正態(tài)變量變換(SNV)和SG+SNV分別對(duì)皖南和皖北土壤光譜進(jìn)行預(yù)處理。結(jié)果顯示，皖南(圖2A～D)和皖北(圖2E～H)地區(qū)土壤光譜曲線差異明顯，說(shuō)明兩者的數(shù)據(jù)分布不同；皖北地區(qū)采集的砂姜黑土顏色偏深，故和皖南地區(qū)相比原始光譜反射率整體較低(圖2A、E)；SG平滑能夠降低光譜噪聲，使得光譜曲線更加平滑(圖2B、F)；而經(jīng)SNV預(yù)處理后的光譜曲線變化明顯(圖2C、G)；經(jīng)SG+SNV組合預(yù)處理后不僅光譜曲線的變化明顯，而且在650～1 000 nm處能觀察到有效降低了光譜噪聲(圖2D、H)。本研究以皖南地區(qū)為源域，皖北地區(qū)為目標(biāo)域，經(jīng)理化檢測(cè)得到源域和目標(biāo)域土壤AP含量見表1，再將預(yù)處理后的源域數(shù)據(jù)(src)和目標(biāo)域數(shù)據(jù)(tar)分別以2∶1的比例劃分為訓(xùn)練集和測(cè)試集，結(jié)合4個(gè)實(shí)驗(yàn)得到基于遷移學(xué)習(xí)的土壤樣本劃分及分析表(表2)。根據(jù)表1～2可知皖南和皖北兩個(gè)地區(qū)尤其是皖南地區(qū)總樣本AP含量的標(biāo)準(zhǔn)差較大，4個(gè)實(shí)驗(yàn)中含有皖南地區(qū)樣本的訓(xùn)練集標(biāo)準(zhǔn)差也更大，所以對(duì)數(shù)據(jù)進(jìn)行對(duì)數(shù)變換，使其更接近正態(tài)分布[13]。

表1 土壤樣本AP含量統(tǒng)計(jì)Table 1 Statistical of AP content in soil samples

表2 基于遷移學(xué)習(xí)的土壤樣本劃分及分析Table 2 Standard deviation of AP content in soil samples

2.2 基于源域及目標(biāo)域的近紅外光譜遷移實(shí)驗(yàn)結(jié)果

本研究采用4個(gè)實(shí)驗(yàn)，基于原始數(shù)據(jù)、3種不同預(yù)處理方法(SG、SNV、SG+SNV)和2種建模方法(PLSR、SVR)共建立了32個(gè)回歸模型，其預(yù)測(cè)性能見表3。結(jié)果顯示:實(shí)驗(yàn)④全為B類模型，②全為C類模型，①中B類模型較多，③中C類模型較多。圖3更直觀地展示了4個(gè)實(shí)驗(yàn)?zāi)Ｐ偷腞PD水平差距，②中模型的RPD水平普遍低于其它實(shí)驗(yàn)；④對(duì)源域和目標(biāo)域光譜進(jìn)行TCA變換后建立的模型RPD水平普遍高于其它實(shí)驗(yàn)。綜上，可得出如下結(jié)論：(1) 在樣本量不大的情況下建立的模型，預(yù)測(cè)精度較低；(2)源域模型不能直接用于目標(biāo)域，會(huì)出現(xiàn)模型失效問(wèn)題；(3) 在源域中加入部分目標(biāo)域數(shù)據(jù)建立的模型，預(yù)測(cè)精度有所提升但仍不理想；(4) 基于TCA光譜變換和部分目標(biāo)域樣本加入訓(xùn)練集，可顯著提高模型的預(yù)測(cè)精度。

表3 4個(gè)實(shí)驗(yàn)中基于不同預(yù)處理方法和建模方法的模型性能Table 3 Model performances based on different preprocessing methods and modeling methods in four experiments

圖3 不同預(yù)處理和建模方法在4個(gè)實(shí)驗(yàn)下的RPD水平Fig.3 RPD levels of regression models with different Preprocessing and modeling methods

2.3 討論與分析

由圖3可見，實(shí)驗(yàn)①～④中RPD最高模型的預(yù)處理和建模組合分別為SG+SNV+SVR、SG+SVR、SG+SNV+PLSR、SG+SNV+PLSR，其回歸模型的預(yù)測(cè)值和測(cè)量真實(shí)值間的散點(diǎn)圖見圖4，預(yù)測(cè)精度見表4。結(jié)果顯示，實(shí)驗(yàn)②模型預(yù)測(cè)點(diǎn)幾乎完全偏離1:1回歸線，印證其模型失效(圖4B)；實(shí)驗(yàn)①和③模型預(yù)測(cè)精度較低，預(yù)測(cè)點(diǎn)比較分散(圖4A、C)；而實(shí)驗(yàn)④基于TCA光譜變換的預(yù)測(cè)模型性能較好，預(yù)測(cè)點(diǎn)最接近1∶1回歸線(圖4D)。

表4 4個(gè)實(shí)驗(yàn)中RPD最高回歸模型預(yù)測(cè)精度Table 4 Highest prediction accuracy of RPD regression model in the four experiments

結(jié)合表4分析，將源域模型直接用于目標(biāo)域的方法(實(shí)驗(yàn)②)不可行，會(huì)出現(xiàn)模型失效問(wèn)題(模型的R2和RPD分別為-0.19和0.92，RMSEP為1.04)；在源域訓(xùn)練集中加入部分目標(biāo)域樣本輔助建模(實(shí)驗(yàn)③)可緩解模型失效問(wèn)題，預(yù)測(cè)精度有所提升，但仍不理想(模型的R2和RPD分別為0.54和1.47，RMSEP為0.65)。針對(duì)可能是源域和目標(biāo)域數(shù)據(jù)不同分布的原因，采用建模前先對(duì)源域和目標(biāo)域樣本進(jìn)行TCA光譜變換(實(shí)驗(yàn)④)，可顯著提高模型的預(yù)測(cè)精度(模型的R2和RPD分別為0.79和2.18，RMSEP為0.44)。另外，還發(fā)現(xiàn)樣本量較小的目標(biāo)域自身建模(實(shí)驗(yàn)①)結(jié)果(模型的R2和RPD分別為0.61和1.60，RMSEP為0.60)也明顯低于實(shí)驗(yàn)④的模型預(yù)測(cè)精度。以上研究表明，基于TCA的方法能將皖南土壤AP預(yù)測(cè)模型應(yīng)用于皖北，從而提高皖北土壤AP模型預(yù)測(cè)準(zhǔn)確性。

3 結(jié) 論

本研究對(duì)120份皖南和60份皖北土壤樣本設(shè)計(jì)了4個(gè)實(shí)驗(yàn)，以探究將皖南土壤AP預(yù)測(cè)模型遷移用于皖北地區(qū)。研究結(jié)果表明，皖南地區(qū)的模型不能直接用于皖北地區(qū)；且樣本量不大的皖北地區(qū)模型的預(yù)測(cè)精度不高。基于TCA光譜變換可將皖南土壤AP預(yù)測(cè)模型用于皖北，提高了土壤AP模型預(yù)測(cè)準(zhǔn)確性。該遷移方法的實(shí)現(xiàn)，為建立更多地區(qū)土壤AP預(yù)測(cè)模型提供了很好的思路，能提高大面積預(yù)測(cè)土壤速效磷的準(zhǔn)確性并降低成本，具有較好的應(yīng)用前景。