豐秋林,鄭南山,2
(1. 中國礦業大學環境與測繪學院,江蘇 徐州 221116; 2. 江蘇省資源環境信息工程重點實驗室,江蘇 徐州 221116)
土壤濕度在研究生態水循環、植被水分供給、土地承載能力等方面發揮著至關重要的作用,實時、準確、長期的土壤濕度信息將會為氣候、水文、農業等科學研究及災害防治提供重要的數據來源[1]。烘干稱重法、土壤濕度計法、電阻法等傳統的土壤濕度測量方法雖然很準確,但遠遠達不到工程應用的需求[2]。微波遙感及傳統的雙基地GNSS-R(Global Navigation Satellite System Reflection)技術是大范圍、非接觸式監測土壤水分的重要手段,但還是存在需要特定的設備、價格昂貴及時空分辨率受限等一系列問題[3-5]。因此利用全球導航衛星反射信號的干涉效應(Global Navigation Satellite System interferometric reflectometry,GNSS-IR)成為一種探測土壤濕度的新技術[6]。
目前國內外在利用此技術進行土壤濕度測量方面作了大量基礎的研究和試驗。Bilich等通過利用SNR(signal-to-noise ratio)幅頻特性建立相關模型,并提取時變和動態多路徑信號的頻率和幅度的參數,分析后發現剔除直射分量后的SNR幅頻特性與多路徑誤差存在一定的關系,同時確定了SNR幅頻特性與多路徑環境之間存在很強的相關性[7-8]。西班牙Starlab利用IPT(interference pattern technique)技術設計了SMIGOL反射計,該反射計利用垂直極化天線同時接收直射與反射信號,通過GNSS反射信號與直射信號產生的干涉效應進行土壤濕度測量[9]。科羅拉多大學Larson等證實了在衛星高度角較低的情況下,普通測地型接收機同樣可以接收并跟蹤GPS衛星反射信號,并利用觀測文件中的SNR數據進行土壤濕度反演研究,試驗結果表明,幅度參數與土壤濕度之間存在相似性,但延遲相位參數與土壤濕度之間的相關性較幅度參數更高[10-12]。在國內,敖敏思等通過仿真和實測土壤濕度與GPS觀測值數據展開對比試驗,結果表明SNR多徑延遲相位與土壤濕度之間的存在較好的指數關系[13]。
但是目前對于利用GNSS反射信號的干涉進行土壤濕度探測的研究,還是一直沒有建立準確的解析模型,大多只是驗證了干涉信號的物理參數(相位、振幅、頻率等)與土壤濕度有很強的相關性。大多數的試驗成果依舊停留在土壤濕度趨勢的反演和監測,除了少數利用線性公式進行大致的土壤濕度監測以外,沒有具體的土壤濕度的反演公式和模型。以此本文提出將GNSS的干涉信號和土壤濕度之間看成一個非線性的回歸問題。利用干涉信號物理參數如相位、振幅、頻率等作為輸入項,將地表粗糙度和植被覆蓋的影響看成噪聲,利用回歸方法得到土壤濕度。目前較好的回歸方法主要為BP神經網絡算法和支持向量回歸機,本文利用這兩種方法分別進行土壤濕度反演,同時與線性模型進行對比分析,選擇一種較優的模型,旨在探索一種適用于定量估測地表土壤濕度的方法。
GNSS接收機每個歷元下不僅會記錄導航電文、偽距與載波相位觀測值,還會記錄GNSS信號的強度,即信噪比觀測值(SNR,signal-to-noise ratio)。由于多路徑效應的影響,在通常情況下,測地型GPS接收機接收到的信號都是直射信號和反射信號的疊加信號,如圖1所示。具體的直射信號、反射信號及其兩者之間的相位差與SNR觀測值之間的關系表示為
(1)
式中,ψ為反射信號與直射信號的相位差,隨著衛星高度角的變化而變化;Ad為直射信號分量;Am為反射信號分量。對于普通的GNSS接收機而言,直射信號占主要成分,因此Ad和Am在數值上會相差很大,可以采用低階多項式來進行擬合,進而提取去除直射信號后的殘余SNR值,即反射信號分量。對于去除直射信號后剩余的反射信號分量SNR與sinθ之間可以用某一固定頻率的余弦函數來進行擬合,即
(2)
式中,θ為衛星高度角;λ為GPS信號波長;h為接收機天線高度;Am為反射信號多徑干涉相對幅度;φ為反射信號相對相位延遲。

圖1 GPS反射信號示意圖
經過上述擬合后,可以求出反射信號的干涉物理量Am和φ。它們的大小主要由接收機的增益水平和信號反射系數決定,而反射系數與天線周圍環境密切相關。因此在天線增益水平不變的情況下,可以通過SNR參量的變化建立土壤濕度與反射信號之間的關系。
本文正是利用反射信號分量的振幅和相位等特征參數與土壤濕度有很強的相關性,將利用SNR觀測值反演土壤濕度看成一個非線性的回歸問題,利用BP神經網絡算法和支持向量回歸機兩種回歸方法,建立GNSS土壤濕度反演模型。同時,通過與線性回歸統計模型對比和實測數據,探究其可行性。
BP(back propagation)神經網絡模型是由Rumelhart和McCelland為首的科學家小組于1986年提出的一種按誤差逆傳播算法訓練的多層前饋網絡模型,它是把一組樣本的輸入與輸出問題轉化為一個非線性優化問題,并通過負梯度下降算法,利用迭代運算求解權值問題的一種學習方法[14]。BP算法主要由正向傳播和誤差反向傳播組成,文獻[15]中詳細介紹了BP神經網絡算法的結構和流程,這里不再詳細闡述。
根據上文的分析,SNR觀測值反射信號分量的振幅和相位等特征參數與土壤濕度有很強的相關性,因此將SNR觀測值反射信號分量的振幅Am和相位φ作為輸入項,而實際土壤濕度則作為期望輸出值。本文使用Matlab進行BP神經網絡模型的構建,BP神經網絡模型訓練的基本參數設置為:最大迭代次數為50 000次,學習率為0.01,訓練目標誤差為0.000 1,輸出層神經元個數為1,隱含層和輸出層激活函數都設置為tansig。由于隱藏層神經元的個數對處理結果有影響,因此將隱含層神經元個數范圍設置為7~13,逐步尋找最合適的神經元個數。選擇最優的隱含層神經元個數和相應的各層權值和閾值,來構建基于BP神經網絡模型的土壤濕度反演模型。
支持向量機是一種機器學習算法,它追求在有限信息條件下得到最優結果,用結構風險最小化原則替代經驗風險最小化原則,通過一套在有限樣本下的機器學習理論框架和方法,在小訓練集上能夠得到較好的泛化特性[16]。支持向量回歸機是在支持向量機的基礎上發展而來的,文獻[17]給出了詳細原理和公式推導,這里不作詳細闡述。
這里同樣使用SNR觀測值反射信號分量的振幅Am和相位φ作為輸入項,而實際土壤濕度作為期望輸出值。由于輸入向量與土壤濕度的關系是非線性關系,因此需要將輸入空間中的樣本通過一個非線性變換映射到一個更高維度的特征空間,從而將輸入空間中的非線性問題轉化為特征空間中的線性問題,然后在特征空間中使用線性支持向量回歸機對樣本點進行擬合。在構建基于支持向量回歸機的反演模型時,還應注意核函數的引入,因為核函數是利用解線性問題的方法求解非線性問題的關鍵,它成功避免了顯式地定義特征空間和映射函數。本文采用適用性更好的徑向基核函數(radial basis function,RBF),RBF核函數為
(3)
式中,γ為RBF核函數的待定參數。由此建立基于支持向量回歸機的土壤濕度反演模型。
美國大陸板塊邊界觀測網(plate boundary observatory,PBO)中安裝了超過1000臺用于大地測量的高質量GPS接收機,其中大部分位于美國西部地區和阿拉斯加地區。試驗選擇PBO觀測網中的P037站點(如圖2所示)2016年中90—249 d的觀測數據作為數據來源,該站點位置為36.448 113° W,256.846 046° N,海拔為1 493.6 m,站點周圍視野開闊,植被稀疏,地形平坦,可為用戶提供1 Hz采樣率的L2C觀測值。土壤濕度采用Noah土地表面模型計算,根據7種地上氣象數據(溫度、濕度、氣壓、降水量、平均風速和長、短波輻射)估計地表土壤濕度。長、短波輻射由全球陸面數據同化系統(GLDAS)進行插值獲得,降水數據由附近的氣象站獲得,其他數據來自GPS氣象文件。

圖2 P037站點
(1) 利用TEQC(translation,editing and quality checking)軟件對GNSS接收機的觀測文件進行分析并提取SNR數據、衛星高度角和方位角數據,其中SNR數據與衛星高度角數據用于多路徑反射信號的參數估計,方位角數據用于有效反射區域的確定。
(2) GNSS接收機觀測得到的SNR值是直射信號與反射信號的疊加,其中直射信號為主要趨勢項,因此采用低階多項式進行擬合,提出直射信號分量,進而得到SNR觀測值殘差,即為反射信號分量。本文選用8°~20°高度角之間的SNR反射分量作為反演數據。
(3) 通過重采樣得到SNR反射分量與衛星高度角正弦值之間的變化量,再對重采樣后的數據進行正弦擬合,得到反射信號分量的特征參數的相位和振幅。
通過上述預處理及數據整理后總共得到155組數據,本文將這些數據采用隨機分配的方法分為兩組:一組為訓練集共120組,一組為測試集35組。訓練集和測試集是互斥的,沒有交集。本文除了將反演值與土壤濕度真值進行對比外,還比較了基于機器學習算法的土壤濕度反演模型與其線性模型之間的關系。基于120組訓練集擬合的線性模型如下。
振幅與土壤濕度線性回歸模型
y=-0.017 6x+0.337 6
(4)
式中,y為土壤濕度值;x為信號振幅值。
相位與土壤濕度線性回歸模型
y=-0.475 0x-0.761 1
(5)
式中,y為土壤濕度值;x為信號相位值。
在利用上述訓練集數據進行模型訓練之后,分別利用模型進行測試集的測試,圖3顯示了幾種模型的預測值與真值之間的關系。可以看出,由振幅擬合的線性模型預測的結果最差,第17—19 d的預測值誤差最大,都不符合其變化趨勢。而相位擬合的線性模型其預測結果基本符合土壤濕度值,與土壤濕度變化基本一致,這也說明振幅與土壤濕度的相關性遠遠不如相位與土壤濕度的相關性。但是相比基于機器學習算法的土壤濕度反演模型,相位擬合的線性模型部分預測值與真值還存在一定的差距,兩種回歸模型的預測值與土壤濕度真值的契合度都非常高,從圖中可以看出這兩種模型的預測值與真值相差無幾。這也充分證明了基于機器學習算法的土壤濕度反演模型具有一定可行性。

圖3 幾種模型預測結果與土壤濕度期望值的對比
為進一步說明幾種模型的預測能力及兩種回歸模型的準確性,分別計算了幾種模型的相對誤差,具體如圖4所示。從圖中可以清晰地看出,振幅擬合的線性模型的預測值相對誤差最大,而且起伏不定,好的情況低于5%,但最差的也甚至高于100%。相位擬合的線性模型的預測值則明顯優于振幅擬合的線性模型,但也基本處于20%左右。而基于機器學習算法的土壤濕度反演模型的相對誤差則明顯較低,基本都不超過20%,同時基于支持向量回歸機的土壤濕度反演模型的相對誤差也優于基于BP神經網絡算法的土壤濕度模型。雖然BP模型的部分預測值的相對誤差小于支持向量回歸機模型,但是整體而言,支持向量回歸機模型的預測值的相對誤差大小更加穩定。
由于相位擬合的線性模型只采用相位一個物理量,因此為了對比分析,本文還將兩種基于機器學習算法的土壤濕度模型只采用相位一個輸入量進行預測,預測結果如圖5、圖6所示。從圖中可以看出,基于回歸算法的土壤濕度模型得預測值的準確性高于相位擬合的線性模型。從圖6中幾種模型的相對誤差大小也可以看出,基于機器學習算法的土壤濕度反演模型的結果較優。
從整體上進一步比較幾種模型的優越性,基于支持向量回歸機的土壤濕度反演模型的決定系數為0.912 8和0.928 3,均方根誤差RMSE為0.032 9和0.026 6,采用振幅和相位兩種物理參數作為輸入量的模型結果較優。而基于BP神經網絡算法的土壤濕度反演模型的決定系數為0.886 0和0.913 1,均方根誤差RMSE為0.038 0和0.032 6,同樣是用振幅和相位兩種物理參數作為輸入量的模型結果較優。但是兩種模型采用兩個輸入量的結果比一個輸入量優越性并不高,主要是由于振幅與土壤濕度的相關性不是很高。而振幅的擬合的線性模型的決定系數為0.553 2,均方根誤差為0.093 9,相位的擬合的線性模型的決定系數為0.859 8,均方根誤差為0.041 6。上述結論說明基于機器學習算法的土壤濕度反演模型可以反演土壤濕度,能達到一定的精度要求,有一定的可行性,而且基于支持向量回歸機的土壤濕度反演模型定量估測土壤濕度優于基于BP神經網絡算法的土壤濕度反演模型。

圖4 幾種模型的相對誤差

圖5 幾種模型結果與土壤濕度期望值的對比

圖6 幾種模型的相對誤差
本文主要研究了基于兩種機器學習算法的GNSS反射信號土壤濕度反演方法,給出了數據處理的一般流程,并開展了仿真試驗對該方法進行驗證測試,同時與線性回歸統計模型和實測數據對比,其結果表明:
(1) 利用SNR觀測值提取的振幅和相位與土壤濕度之間存在很強的相關性,以分解的干涉信號的振幅和相位作為自變量集,利用兩種回歸算法構建估算土壤濕度模型的方法是可靠的。
(2) 利用這兩種模型反演的結果與土壤濕度參考值相關性很好,反演模型的決定系數分別為0.928 3和0.913 1,均方根誤差為0.026 6和0.032 6,且基于支持向量回歸機的土壤濕度反演模型定量估測土壤濕度優于基于BP神經網絡算法的土壤濕度反演模型。
(3) 在得不到地表粗糙度和植被信息的情況下,取得了較高的反演精度,說明將這些解析模型不易建模或采集難度較高的因素作為系統噪聲使用機器學習算法進行抑制是合理、有效的。
本文研究的基于機器學習算法的GNSS反射信號土壤濕度反演方法是可行的,但是在低矮灌木叢、較厚喬木植被和多種植被混合下的復雜情況,以及驗證基于BP神經網絡算法的GPS衛星反射信號土壤濕度反演方法的普遍適用性,仍需要進一步研究。