鄭文瑞,李紹穩(wěn),韓亞魯,石勝群,朱先志,金 秀
(安徽農(nóng)業(yè)大學(xué) 信息與計(jì)算機(jī)學(xué)院 智慧農(nóng)業(yè)技術(shù)與裝備安徽省重點(diǎn)實(shí)驗(yàn)室,安徽 合肥 230036)
土壤速效磷(Available phosphorus,AP)是農(nóng)作物生長(zhǎng)過(guò)程中所必須的營(yíng)養(yǎng)元素,檢測(cè)土壤中AP含量在作物精準(zhǔn)施肥和環(huán)境保護(hù)方面具有重要意義[1]。近年來(lái),國(guó)內(nèi)外均有利用可見-近紅外光譜預(yù)測(cè)土壤AP含量的報(bào)道,且取得了良好效果。如齊海軍等[2]提出利用偏最小二乘回歸(PLSR)對(duì)可見-近紅外光譜數(shù)據(jù)進(jìn)行特征提取和降維,將得到的潛在變量和特征波長(zhǎng)分別輸入反向傳播神經(jīng)網(wǎng)絡(luò)(BPNN)建立了土壤AP含量預(yù)測(cè)模型,與全波長(zhǎng)數(shù)據(jù)建模結(jié)果相比,PLS-BPNN算法能有效地降低高光譜數(shù)據(jù)冗余和共線性影響。Paz-Kagan等[3]利用機(jī)載成像光譜技術(shù)(IS)繪制光譜土壤質(zhì)量指數(shù)(SSQI)圖,為SSQI的評(píng)估提供了一種快速可靠的方法,該方法采用PLSR算法在350~2 500 nm可見-近紅外光譜區(qū)域建立的土壤AP回歸模型的相對(duì)分析誤差(RPD)達(dá)到1.92。目前,研究主要集中于對(duì)同一地區(qū)土壤樣本進(jìn)行建模預(yù)測(cè),存在預(yù)測(cè)樣本采集地區(qū)改變,已建光譜模型不能提供準(zhǔn)確的預(yù)測(cè)結(jié)果,出現(xiàn)模型失效的問(wèn)題[4]。而新地區(qū)重新采集大量樣本建模會(huì)增加成本、降低效率,并降低對(duì)已有土壤樣本的利用率。
本研究擬低成本將皖南地區(qū)土壤AP預(yù)測(cè)模型遷移給皖北地區(qū)使用。研究的關(guān)鍵在于解決不同地區(qū)土壤光譜差異即光譜數(shù)據(jù)不同分布問(wèn)題,因?yàn)閭鹘y(tǒng)回歸算法假設(shè)訓(xùn)練集和測(cè)試集的數(shù)據(jù)必須是同分布的。為此,本文采用遷移學(xué)習(xí)(Transfer learning)[5]中遷移成分分析(Transfer component analysis,TCA)[6]方法以減少不同地區(qū)間的光譜差異,在皖南和皖北土壤光譜進(jìn)行TCA變換前后,設(shè)計(jì)了4個(gè)基于不同訓(xùn)練集建立模型,預(yù)測(cè)皖北地區(qū)土壤AP含量。
采集了安徽省兩種不同類型的土壤樣本共180份,其中皖南地區(qū)為黃山區(qū)烏石鄉(xiāng)桃園基地和池州市石臺(tái)縣大演鄉(xiāng),共計(jì)120份,土壤類型為黃紅壤土;皖北地區(qū)為蒙城縣和宿州市埇橋區(qū)共計(jì)60份,土壤類型為砂姜黑土。采樣深度均為0~20 cm。樣本采集后密封帶回實(shí)驗(yàn)室風(fēng)干、研磨,過(guò)20目篩,再進(jìn)行光譜數(shù)據(jù)采集,并從每個(gè)土壤樣本中取出部分用于實(shí)驗(yàn)室理化檢測(cè)。
使用OFS1700地物光譜儀(海洋光學(xué)公司)和50 W鹵鎢燈接觸式反射探頭采集土壤近紅外光譜數(shù)據(jù),光譜范圍為350~1 700 nm,其中350~900 nm的光譜分辨率為2 nm,900~1 700 nm的光譜分辨率為5 nm。土壤AP的理化檢測(cè)使用碳酸氫鈉浸提-鉬銻抗分光光度法[7],由安徽農(nóng)業(yè)大學(xué)資源與環(huán)境學(xué)院土壤學(xué)實(shí)驗(yàn)室完成。
1.2.1 遷移學(xué)習(xí)方法遷移學(xué)習(xí)是機(jī)器學(xué)習(xí)中一個(gè)重要研究問(wèn)題,側(cè)重將前期的學(xué)習(xí)經(jīng)驗(yàn)適應(yīng)于新的學(xué)習(xí)中,提高新的學(xué)習(xí)效率[8]。遷移成分分析(TCA)是一種經(jīng)典的基于特征的遷移學(xué)習(xí)方法,旨在讓一個(gè)領(lǐng)域?qū)W習(xí)到的模型適應(yīng)到另一個(gè)不同但相關(guān)的領(lǐng)域中[6]。它與主成分分析(PCA)算法[9]類似之處在于均可實(shí)現(xiàn)降維,但PCA并不能解決源域(Source domain)和目標(biāo)域(Target domain)數(shù)據(jù)不同分布的問(wèn)題。TCA通過(guò)將不同邊緣概率分布的源域和目標(biāo)域數(shù)據(jù)映射到一個(gè)高維的再生核希爾伯特空間(RKHS)[10-11],在此空間中通過(guò)最小化源域和目標(biāo)域數(shù)據(jù)距離以減少其數(shù)據(jù)分布差異,同時(shí)最大程度地保留了各自的內(nèi)部屬性。劉翠玲等[12]利用TCA方法研究不同光譜儀間食用油光譜模型的傳遞,Tao等[13]利用TCA方法研究不同地區(qū)間土壤砷污染診斷模型的可轉(zhuǎn)移性,均得到了具有良好預(yù)測(cè)性能的遷移模型。
目前,很多方法可嘗試減小源域和目標(biāo)域間的距離,而TCA的貢獻(xiàn)在于其計(jì)算距離的方法更加簡(jiǎn)單。TCA算法步驟如下:首先,定義源域和目標(biāo)域的光譜數(shù)據(jù)分別為Xs=[xs1…xsi…xsns]和Xt=[xt1…xti…xtnt],xsi和xti為光譜特征向量,ns、nt分別為源域和目標(biāo)域樣本數(shù)量。然后在RKHS空間中通過(guò)最大均值差異(MMD)[14]來(lái)度量Xs和Xt的邊緣分布距離,公式如下:

(1)
找到一個(gè)合適的映射φ可以使得這個(gè)距離最小,但φ通常是高度非線性的,難以尋求。于是Pan等[15]提出將這個(gè)距離的最小化問(wèn)題轉(zhuǎn)化為核學(xué)習(xí)問(wèn)題,利用核技巧k(即k(xixj)=φ(xi)Tφ(xj))可以將公式(1)改寫為核矩陣的跡:
Dist(Xs,Xt)=trace(KL)
(2)


(3)

(4)

Dist(Xs,Xt)=trace((KWWTK)L)=tr(WTKLKW)
(5)
最小化公式(5),得到的W表示TCA降維后源域和目標(biāo)域的光譜矩陣,則轉(zhuǎn)變?yōu)榍螅?/p>
minwtr(WTKLKW)+μtr(WTW)

(6)
其中,μ為一個(gè)平衡參數(shù),正則化項(xiàng)tr(WTW)的加入是為了控制W的復(fù)雜度。加入約束WTKHKW=Im是為了避免平凡解(即W=0)。最終,Pan等[6]通過(guò)數(shù)學(xué)推導(dǎo)得出,W的解即為(KLK+μI)-1KHK的前m個(gè)特征值對(duì)應(yīng)的特征向量,將其輸出得到源域和目標(biāo)域TCA轉(zhuǎn)移后的數(shù)據(jù),即可使用傳統(tǒng)回歸算法運(yùn)算。
1.2.2 基于TCA的實(shí)驗(yàn)方法PLSR算法[16]是一種適用性廣泛的化學(xué)計(jì)量學(xué)建模方法,它將光譜變量矩陣和濃度矩陣同時(shí)進(jìn)行分解并考慮二者間的相互關(guān)系,從而加強(qiáng)了兩者的對(duì)應(yīng)計(jì)算關(guān)系,且計(jì)算速度快,但PLSR是基于線性回歸的多元校正方法,光譜變量和濃度間存在一定的非線性,當(dāng)非線性嚴(yán)重時(shí),則不能建立理想的校正模型;SVR算法[17]是常用的非線性校正方法,具有很強(qiáng)的抗過(guò)擬合能力,但它存在數(shù)據(jù)量過(guò)大會(huì)減慢建模速度的缺點(diǎn),PLSR和SVR均被廣泛應(yīng)用于光譜分析中。本研究設(shè)計(jì)了4個(gè)實(shí)驗(yàn),在光譜預(yù)處理后,將源域劃分為源域訓(xùn)練集和源域測(cè)試集,目標(biāo)域劃為目標(biāo)域訓(xùn)練集和目標(biāo)域測(cè)試集,建模方法選擇PLSR和SVR,基于此設(shè)計(jì)實(shí)驗(yàn)①~③,再結(jié)合TCA方法設(shè)計(jì)實(shí)驗(yàn)④,總體實(shí)驗(yàn)流程圖見圖1。4個(gè)實(shí)驗(yàn)內(nèi)容如下:①采用目標(biāo)域訓(xùn)練集建模,對(duì)目標(biāo)域測(cè)試集樣本進(jìn)行預(yù)測(cè),用于研究樣本量不大的情況下能否建立具有良好預(yù)測(cè)效果的模型。②采用源域訓(xùn)練集建模,對(duì)目標(biāo)域測(cè)試集樣本進(jìn)行預(yù)測(cè),用于研究源域模型能否直接給目標(biāo)域使用的模型。③采用源域訓(xùn)練集混合目標(biāo)域訓(xùn)練集建模,對(duì)目標(biāo)域測(cè)試集樣本進(jìn)行預(yù)測(cè),用于研究部分目標(biāo)域樣本加入源域訓(xùn)練集能否提高模型預(yù)測(cè)精度的模型。④用TCA變換后的源域訓(xùn)練集混合目標(biāo)域訓(xùn)練集建模,再對(duì)TCA變換后的目標(biāo)域測(cè)試集樣本進(jìn)行預(yù)測(cè),研究基于TCA光譜變換和部分目標(biāo)域樣本加入訓(xùn)練集建立的模型是否能顯著提升預(yù)測(cè)精度。對(duì)4個(gè)實(shí)驗(yàn)?zāi)P偷男阅苓M(jìn)行評(píng)估和對(duì)比,分析采用TCA方法能否將源域模型應(yīng)用于目標(biāo)域,提高對(duì)目標(biāo)域的預(yù)測(cè)精度。
1.2.3 模型評(píng)價(jià)參數(shù)模型預(yù)測(cè)性能的評(píng)價(jià)標(biāo)準(zhǔn)選用預(yù)測(cè)均方根誤差(RMSEP)、決定系數(shù)(R2)和相對(duì)分析誤差(RPD)。RMSEP越小,表明模型的預(yù)測(cè)性能越好,并采用Chang等[18]劃分的預(yù)測(cè)模型等級(jí)(Predictive model level)進(jìn)行描述:當(dāng)RPD>2.0且R2≥0.80時(shí),模型具有良好的預(yù)測(cè)能力,可用于定量預(yù)測(cè),為A類模型;當(dāng)1.4≤RPD≤2.0且0.50≤R2<0.80時(shí),模型具有中等的預(yù)測(cè)能力,可近似估計(jì),為B類模型;當(dāng)RPD< 1.4且R2<0.50時(shí),模型具有較差的預(yù)測(cè)能力,不能用于定量預(yù)測(cè),屬C類模型。

圖1 總體實(shí)驗(yàn)流程圖Fig.1 Experimental flow chart
為降低噪聲等的影響,采用Savitzky-Golay卷積平滑(SG)、標(biāo)準(zhǔn)正態(tài)變量變換(SNV)和SG+SNV分別對(duì)皖南和皖北土壤光譜進(jìn)行預(yù)處理。結(jié)果顯示,皖南(圖2A~D)和皖北(圖2E~H)地區(qū)土壤光譜曲線差異明顯,說(shuō)明兩者的數(shù)據(jù)分布不同;皖北地區(qū)采集的砂姜黑土顏色偏深,故和皖南地區(qū)相比原始光譜反射率整體較低(圖2A、E);SG平滑能夠降低光譜噪聲,使得光譜曲線更加平滑(圖2B、F);而經(jīng)SNV預(yù)處理后的光譜曲線變化明顯(圖2C、G);經(jīng)SG+SNV組合預(yù)處理后不僅光譜曲線的變化明顯,而且在650~1 000 nm處能觀察到有效降低了光譜噪聲(圖2D、H)。本研究以皖南地區(qū)為源域,皖北地區(qū)為目標(biāo)域,經(jīng)理化檢測(cè)得到源域和目標(biāo)域土壤AP含量見表1,再將預(yù)處理后的源域數(shù)據(jù)(src)和目標(biāo)域數(shù)據(jù)(tar)分別以2∶1的比例劃分為訓(xùn)練集和測(cè)試集,結(jié)合4個(gè)實(shí)驗(yàn)得到基于遷移學(xué)習(xí)的土壤樣本劃分及分析表(表2)。根據(jù)表1~2可知皖南和皖北兩個(gè)地區(qū)尤其是皖南地區(qū)總樣本AP含量的標(biāo)準(zhǔn)差較大,4個(gè)實(shí)驗(yàn)中含有皖南地區(qū)樣本的訓(xùn)練集標(biāo)準(zhǔn)差也更大,所以對(duì)數(shù)據(jù)進(jìn)行對(duì)數(shù)變換,使其更接近正態(tài)分布[13]。

表1 土壤樣本AP含量統(tǒng)計(jì)Table 1 Statistical of AP content in soil samples

表2 基于遷移學(xué)習(xí)的土壤樣本劃分及分析Table 2 Standard deviation of AP content in soil samples



本研究采用4個(gè)實(shí)驗(yàn),基于原始數(shù)據(jù)、3種不同預(yù)處理方法(SG、SNV、SG+SNV)和2種建模方法(PLSR、SVR)共建立了32個(gè)回歸模型,其預(yù)測(cè)性能見表3。結(jié)果顯示:實(shí)驗(yàn)④全為B類模型,②全為C類模型,①中B類模型較多,③中C類模型較多。圖3更直觀地展示了4個(gè)實(shí)驗(yàn)?zāi)P偷腞PD水平差距,②中模型的RPD水平普遍低于其它實(shí)驗(yàn);④對(duì)源域和目標(biāo)域光譜進(jìn)行TCA變換后建立的模型RPD水平普遍高于其它實(shí)驗(yàn)。綜上,可得出如下結(jié)論:(1) 在樣本量不大的情況下建立的模型,預(yù)測(cè)精度較低;(2)源域模型不能直接用于目標(biāo)域,會(huì)出現(xiàn)模型失效問(wèn)題;(3) 在源域中加入部分目標(biāo)域數(shù)據(jù)建立的模型,預(yù)測(cè)精度有所提升但仍不理想;(4) 基于TCA光譜變換和部分目標(biāo)域樣本加入訓(xùn)練集,可顯著提高模型的預(yù)測(cè)精度。

表3 4個(gè)實(shí)驗(yàn)中基于不同預(yù)處理方法和建模方法的模型性能Table 3 Model performances based on different preprocessing methods and modeling methods in four experiments

圖3 不同預(yù)處理和建模方法在4個(gè)實(shí)驗(yàn)下的RPD水平Fig.3 RPD levels of regression models with different Preprocessing and modeling methods
由圖3可見,實(shí)驗(yàn)①~④中RPD最高模型的預(yù)處理和建模組合分別為SG+SNV+SVR、SG+SVR、SG+SNV+PLSR、SG+SNV+PLSR,其回歸模型的預(yù)測(cè)值和測(cè)量真實(shí)值間的散點(diǎn)圖見圖4,預(yù)測(cè)精度見表4。結(jié)果顯示,實(shí)驗(yàn)②模型預(yù)測(cè)點(diǎn)幾乎完全偏離1:1回歸線,印證其模型失效(圖4B);實(shí)驗(yàn)①和③模型預(yù)測(cè)精度較低,預(yù)測(cè)點(diǎn)比較分散(圖4A、C);而實(shí)驗(yàn)④基于TCA光譜變換的預(yù)測(cè)模型性能較好,預(yù)測(cè)點(diǎn)最接近1∶1回歸線(圖4D)。



表4 4個(gè)實(shí)驗(yàn)中RPD最高回歸模型預(yù)測(cè)精度Table 4 Highest prediction accuracy of RPD regression model in the four experiments
結(jié)合表4分析,將源域模型直接用于目標(biāo)域的方法(實(shí)驗(yàn)②)不可行,會(huì)出現(xiàn)模型失效問(wèn)題(模型的R2和RPD分別為-0.19和0.92,RMSEP為1.04);在源域訓(xùn)練集中加入部分目標(biāo)域樣本輔助建模(實(shí)驗(yàn)③)可緩解模型失效問(wèn)題,預(yù)測(cè)精度有所提升,但仍不理想(模型的R2和RPD分別為0.54和1.47,RMSEP為0.65)。針對(duì)可能是源域和目標(biāo)域數(shù)據(jù)不同分布的原因,采用建模前先對(duì)源域和目標(biāo)域樣本進(jìn)行TCA光譜變換(實(shí)驗(yàn)④),可顯著提高模型的預(yù)測(cè)精度(模型的R2和RPD分別為0.79和2.18,RMSEP為0.44)。另外,還發(fā)現(xiàn)樣本量較小的目標(biāo)域自身建模(實(shí)驗(yàn)①)結(jié)果(模型的R2和RPD分別為0.61和1.60,RMSEP為0.60)也明顯低于實(shí)驗(yàn)④的模型預(yù)測(cè)精度。以上研究表明,基于TCA的方法能將皖南土壤AP預(yù)測(cè)模型應(yīng)用于皖北,從而提高皖北土壤AP模型預(yù)測(cè)準(zhǔn)確性。
本研究對(duì)120份皖南和60份皖北土壤樣本設(shè)計(jì)了4個(gè)實(shí)驗(yàn),以探究將皖南土壤AP預(yù)測(cè)模型遷移用于皖北地區(qū)。研究結(jié)果表明,皖南地區(qū)的模型不能直接用于皖北地區(qū);且樣本量不大的皖北地區(qū)模型的預(yù)測(cè)精度不高。基于TCA光譜變換可將皖南土壤AP預(yù)測(cè)模型用于皖北,提高了土壤AP模型預(yù)測(cè)準(zhǔn)確性。該遷移方法的實(shí)現(xiàn),為建立更多地區(qū)土壤AP預(yù)測(cè)模型提供了很好的思路,能提高大面積預(yù)測(cè)土壤速效磷的準(zhǔn)確性并降低成本,具有較好的應(yīng)用前景。