董健明,陳 雨
(四川大學電子信息學院,成都 610065)
地表溫度是決定地表能量平衡和獲取地表能量交換信息的重要因素,也是地球科學研究不可或缺的重要參數,涉及眾多基礎學科研究[1]。1999 年和2002 年,美國宇航局分別發射了兩顆搭載了MODIS 中分辨率成像光譜儀的極地軌道遙感衛星Terra和Aqua,這兩顆衛星為快速獲取區域地表溫度信息提供了新的途徑,并確保了獲取此類數據時的連續性[2]。由衛星搭載的MODIS 所處理并獲取的地表溫度數據[3],已經在包括植被監測、干旱評估、地熱勘測和火災檢測在內的眾多科學領域發揮了重要的作用[4-7]。但是由于這些衛星系統是被動遙感系統,云覆蓋對地表溫度的估計和信息提取不利,地表溫度數據可能會出現缺失,進而導致在進行災害預警和農業監測時無法做出準確預測。因此在分析地表溫度的時空信息時,需要考慮到數據不完整、不準確所帶來的影響[8]。
為了得到完整準確的地表溫度數據,部分學者提出了結合大氣參數(如透射率和溫度)或地表參數(如發射率和幾何形狀)的地表溫度反演方法[9-11]。除了這些傳統方法外,一些研究人員還利用人工神經網絡(artificial neural network,ANN)來獲取地表溫度數據。由于傳統方法不會去分析建模中涉及的變量之間不完全已知的關系,并且建模和計算過程較為繁瑣,因此人工神經網絡相比傳統方法的建模過程更為簡潔且結果更為精確[12]。雖然已有很多研究采用人工神經網絡的方法利用各種變量作為輸入對地表溫度進行建模、模擬或預測[13-14],但是人工神經網絡的方法無法提取基于時間的特征。相較于人工神經網絡來說,基于時序的深度神經網絡嘗試從序列中獲取數據的時序特征,每個神經元的輸出也會作為輸入反饋回其本身,從而這些神經元具備了先前輸入的一種“記憶”。因此對時間序列做預測時,時序神經網絡的效果要優于人工神經網絡[15]。
在時序神經網絡中,基于循環神經網絡(recurrent neural network,RNN)所改進的長短期記憶網絡(long short-term memory,LSTM)在1997 年被Hochreiter 等[16]提出,它克服了RNN無法記憶長期時序特征進而在時間序列較長時的預測準確率不高的問題,長期時序數據的預測效果得到顯著提升。基于LSTM 的時間預測模型在包含地表溫度在內的眾多領域得到了應用,比如將LSTM 改進成混合數據驅動后的模型對日地表溫度數據序列的預測達到了很好的效果[17],在自然災害方面,利用LSTM 對MODIS 衛星圖像研究可以對森林火災達到85%的準確率檢測[18],以及LSTM對海面溫度也能進行有效的預測[19]。目前關于LSTM 在MODIS 數據方面的預測大多數還采用單層LSTM 結合其他理論方法或對單層LSTM 進行內部結構的改進。然而,在單層情況下某些時間序列信息的復雜特性是無法被直觀表述的,想要提取這些深層特征以提高整體的性能便需要著眼于LSTM 可以堆疊成深層網絡的特點。本文從MODIS 月時變柵格數據中提取了多點地表溫度時間序列,并得到研究區域的月平均時間序列;通過對LSTM 堆疊構成深度LSTM 網絡,使用遺傳算法來預訓練優化網絡結構,再對地表溫度數據進行預測,并將該模型和其他時序預測網絡模型進行對比,驗證深度LSTM網絡的預測性能。
本文原始數據采用美國國家航空航天局在LAADS(Level-1 and atmosphere archive&distribution system)DAAC(distributed active archive center)網站接口提供的MODIS-Level-3 數據集,包含2000年1月至2021年8月共260個月份的分辨率在0.05 度緯度/經度氣候模擬網格(climate modeling grid,CMG)數據。
MODIS 的Level-3 數據即第3 級數據是將衛星測得的原始數據處理過后得到的校正后數據。0級產品被稱為原始數據,在其基礎上賦予標定參數后為1 級產品Level-1A 數據,通過對Level-1A 數據進行MODIS 傳感器數據的輻射校準后可得到Leve-1B 數據即2 級產品,其為定標定位后的數據,采用國際標準的EOS-HDF(earth observation system-hierarchy data format)格式,包含所有波段數據且應用廣泛。而3級產品在1B數據的基礎上,對由遙感器成像過程產生的邊緣畸變(Bowtie 效應)進行校正,產生Level-3 級產品。將得到的260 個月份的Level-3數據集通過HEGTool 工具處理,可將包含多種類型的數據的HDF 文件處理為記錄了許多圖像信息的TIFF 格式文件。對此格式的文件,用ArcMap 軟件在本實驗的研究地區——美國得克薩斯州休斯頓地區進行地表溫度信息數據的提取,最終對研究地區所取的采樣點取平均可以得到實驗所需的260個月的地表溫度時序數據。
時間序列由于其復雜的特征,導致基于統計學的傳統預測方法難以得到較好的預測效果。循環神經網絡RNN 提供了一種全新的預測時間序列的方法,但是它自身在訓練的過程中容易造成梯度爆炸或消失進而造成權重震蕩,導致它無法克服短時依賴特征,因此在循環神經網絡RNN 模型的基礎上,為了解決其在長期記憶的情況下喪失學習能力的問題,Hochreiter 等[16]提出了LSTM 網絡,這是一種特殊類型的RNN網絡,它可以學習長期依賴信息。循環神經網絡的當前時刻輸出不僅與當前時刻輸入有關,還與上一時刻的狀態有關,RNN 的網絡模型結構較簡單(見圖1),它可以記錄時間序列信息,RNN單元的計算公式如下:
其中:ht-1表示上一個時刻的隱藏層狀態;Xt是當前時刻的輸入值;Wh和bh分別表示當前層的權重和偏置;tanh 激活函數可以將流經網絡后輸出的值控制在-1和1之間。由公式(1)可以看出,RNN 此時刻的隱藏層信息只來源于當前輸入和上一時刻的隱藏層信息,并沒有長期記憶的功能。

圖1 RNN模型結構
LSTM 網絡模型結構改進的核心點在細胞狀態,它在運算時只有一些少量的線性交互,信息在傳播時想保持不變也就比較容易。決定細胞狀態應該保留哪些信息和更新哪些信息的核心是LSTM 中的門結構,它實現了一種讓信息選擇性通過的方法,門結構包括一個Sigmoid 神經網絡層和一個按位運算的乘法操作,LSTM 的內部結構如圖2 所示。在LSTM 模型的門結構中,第一步遺忘門的輸出ft會取決于上一個時刻隱藏層的狀態ht-1和當前輸入Xt,它將決定上一時刻的細胞狀態Ct-1中的哪些信息應該從模型中舍棄。更新門將確定哪些新信息會被存放在細胞狀態中,之后將舊的細胞狀態Ct-1更新為新的細胞狀態Ct需要遺忘門和更新門的共同作用。最終,輸出的ht將會基于當前的輸入Xt和細胞狀態Ct而決定,其中具體的計算公式如下所示:
上式中,σ為Sigmoid 激活函數;W、b分別為不同層的權重和偏置;ht是當前時刻的隱藏層狀態值。

圖2 LSTM結構
單層的LSTM 網絡在使用中雖然可以解決RNN 的長期依賴問題,但是很多時候由于網絡的層數少,有些時間序列信息的復雜特性無法被直觀表述,例如當對一些線性度不高或者時間記憶間隔很長的數據進行處理時,增加神經網絡的深度就是提高整體性能的有效方法[20]。RNN 可以看作是一個隨著時間增加而不斷增加堆疊層數的網絡模型,同時可以從輸入層—隱藏層、隱藏層—隱藏層、隱藏層—輸出層三個角度將RNN 擴展成深度RNN 網絡[21]。本文所提出的深度LSTM 網絡模型(DLSTM)是指對LSTM的結構進行多個的堆疊,如圖3所示,在這種分層架構中堆疊多個LSTM的目標是在較低層構建特征,從而分離輸入數據中的變化因素,然后在較高層組合這些特征。循環網絡一層一層的堆疊增加了隱藏層的層數,意味著增加了輸入在循環結構中不同的時間尺度上所能學到的特征。

圖3 DLSTM網絡體系結構
在圖3所示的DLSTM 體系結構中,在t時刻的輸入Xt和上一時刻的隱藏層的狀態作為第一個LSTM 結構的輸入,在t時刻的隱藏狀態的計算見2.1 小節,向前進入第二個循環網絡結構,將之前的隱藏狀態和前一步的隱藏狀態輸出作為當前輸入來計算,繼續向前進入之后的LSTM 結構塊,以此類推直到最后一個LSTM結構。
這種堆疊架構的一個好處是,每一層都可以處理任務的一部分,然后將其傳遞到下一層,直到最后一個累積層提供輸出。另一個好處是,這種結構可以讓每一層的隱藏狀態在不同的時間尺度上運行。在顯示使用具有長期依賴性的數據的場景中,或在處理多變量時間序列數據集的情況下,有較好的效果[22]。除此之外,隱藏層和輸出層之間有深層的結構,有助于更加高效地匯總之前的輸入,從而促進最后預測結果的輸出,因此在最后一個LSTM 結構之后添加了一個全連接Dense層加深隱藏層與輸出層之間的深度。與RNN神經網絡一樣,LSTM的網絡結構也得益于激活函數和抑制過擬合的方法,本文在每一層LSTM 都加入了Dropout 層,并且選擇tanh 函數作為非飽和激活函數,作為防止過擬合的手段。
由于實際的時間序列是非平穩的,很多時候可能表現出某些特定的趨勢特征[23]。而靜態數據對于模型的建模來說更容易,而且會有助于更高效地產生預測結果。所以在數據的預處理中,首先需要刪除數據中的趨勢屬性,無論是增加還是減少的趨勢。之后,實驗會將這種趨勢返回數據中,以便將預測問題返回到原始數據中。消除趨勢的標準方法是對數據進行差分,即從當前時刻(t)的數據中減去上一時間步(t-1)的觀測值。預測方面,本實驗采用的是時間步長為1 的預測,即預測下一個時間(t+1),具體是利用滯后時間方法將時間序列分為輸入和輸出,利用前幾個時間點的數據作為預測輸入,來預測下一個時間點(t+1)的輸出。本實驗中,滯后時間選取在1~8個時間步長。
與其他神經網絡一樣,DLSTM 希望數據范圍在網絡使用的激活函數范圍內。LSTM 的默認激活函數是雙曲正切函數,其輸出值介于-1 和1之間。這是時間序列數據的首選范圍。在這之后,實驗會將縮放后的數據轉換回原尺度,以便將預測問題返回到原始數據中。
食品藥品安全是重要的民生工程,行政監管和技術支撐是“雙輪驅動”,食品藥品檢測人才隊伍是食品藥品檢測體系的重要組成部分。近年來大批應屆畢業生或是相關專業背景的非系統內人員進入食品藥品檢測實驗室,為食品藥品檢測事業提供新鮮血液。本文結合新進人員培訓的實際工作和宏觀科學,包括社會學、管理學、心理學、人才學等經典理論,為更好地培養科室技術隊伍提供一些經驗和方法。以下分別論述科室崗前培訓中的各個組成要素和四個階段的特點。
本文模型訓練的超參數主要包括訓練過程中選取的epoch 數,即需要將完整的數據集輸入進網絡進行訓練的次數、每一個LSTM 層所選取的神經元個數,以及時間間隔步長,也就是預測下一個值所需之前數據的滑動窗口長度。選取時間間隔步長作為超參數之一是因為時間序列的預測問題在輸入之前時間的數據時也意味著添加了噪聲,所以在訓練模型的時候,可以選擇使用不同的時間間隔步長來找到規律從而更為精準地預測。在本文中,超參數的選取采用的是遺傳算法來進行實現的。
DLSTM 模型的實驗包括兩種場景,即靜態場景和動態場景。在靜態場景中,使用所有訓練數據擬合預測模型,然后用真實的測試數據預測下一個時間的值。在動態場景中,通過在測試數據中插入之前的預測值,在每個時間更新預測模型。而靜態預測使用實際值對每個后續結果進行預測。超參數的數量取決于實際場景。對于靜態場景,有三個超參數,即epoch數、每層隱藏神經元數和時間間隔步長。對于動態場景,多了一個更新次數update,即在測試數據中插入預測值時,每個時間更新預測模型的次數。本實驗將網絡結構分為1、2、3、4、5 層LSTM 結構,每一層LSTM 神經元個數的選擇范圍是1~32,epoch數選取在100~2000,滑動窗口步長范圍為1~8,動態場景下update 范圍為1~4,將每種結構結合神經元個數、epoch數和滑動窗口步長進行種群的生成,隨機產生5個種群進行選擇、交叉、變異的遺傳進化,經過10 代后得到最優解,最終總結根據評價指標(見4.1小節)選擇出靜態場景(表1)和動態場景下(表2)的每種結構的最優解,從而得到它們分別應該選取的模型的超參數。

表1 靜態場景下DLSTM模型的超參數

表2 動態場景下DLSTM模型的超參數
在本文的模型訓練階段,采用了GA(genetic algorithm)遺傳算法,使用的是Python 庫中的分布式進化算法實現的遺傳算法(distributed evolutionary algorithms in Python)。GA 算法是根據達爾文的生物進化論和自然選擇理論所提出的一種模擬生物種群選擇、交叉、變異過程的局部最優解搜索方法。模型的運行環境為基于Tensor-Flow機器學習算法庫搭建而成,所使用的Tensor-Flow 版本為2.3.0,代碼編寫所使用的環境為Python3.8,權重優化器選擇為Adam 優化器,所用訓練集數據占全數據集的80%,共208 個月,剩余52個月份用作測試集數據。
4.1.1 均方根誤差
均方根誤差(root mean square error,RMSE)常常用作深度學習模型的評價指標,誤差值的尺度和數據本身相同,因此直接基于該誤差的精度度量不能用于在不同尺度的序列之間比較。均方根誤差的取值是預測值與真實值偏差的平方和與觀測次數n比值的算術平方根,其表達式如下:
均方根百分比誤差(root mean square percentage error,RMSPE)作為一種百分比誤差,優點是與原數據尺度無關,所以常常被用作不同尺度數據集的預測評價指標,其計算式如下:
使用這兩個指標得到的結果在計算值上是不同的,但在預測模型的性能度量中,每個指標的顯著性是相似的。值得注意的是,由于數據在大多數情況下呈現不同的尺度,因此最好使用RMSPE或任何其他百分比誤差度量來估計不同模型之間的相對誤差。
4.1.2 平均絕對百分比誤差
平均絕對誤差(mean absolute error,MAE)表示預測值和觀測值之間絕對誤差的平均值,MAE是一種線性分數,所有個體差異在平均值上的權重都相等,所以RMSE相對MAE來說,對于誤差高的預測值懲罰更多,計算公式如下:
同樣,平均絕對百分比誤差(mean absolute percentage error,MAPE)作為平均絕對誤差的百分比形式,公式如下:
本小節將會根據之前選取的超參數對研究區域的地表溫度數據采取層數不同的LSTM 模型訓練評估,通過對幾種不同的模型結果進行比較,確保對提出的DLSTM 模型進行真正公平的評估。評估模型的性能時并非只用到了一個評價指標,百分比誤差被證明在評估不同模型的性能,特別是在數據集的尺度大小不一樣時是最適合的工具[24]。所以本小節將會依據百分比誤差來對幾種模型的實驗結果進行分析。
將實驗的模型預測方式分為動態更新和靜態更新兩種,表3 為DLSTM 模型在動態模式下的各個模型評價指標的計算結果,表4為靜態模式下的模型評價指標值。總結表3 和表4 的結果可以看出,靜態更新模式下的結果要優于動態更新模式,這種情況是符合事實預期的,因為在動態更新模式下,預測結果的偏差值可能會在下一時序預測的時候被放大和產生誤差的累積,影響后續的預測結果。

表3 動態模式下評價指標的計算結果

表4 靜態模式下評價指標的計算結果
除此之外,動態模式下的預測結果曲線圖和靜態更新模式下的預測結果分別如圖4 和圖5所示。

圖4 動態模式下的預測結果

圖5 靜態模式下的預測結果
通過對比相同更新模式下的不同層數評價指標值可以看出,和單層的LSTM 模型結構相比,特別是動態模式下,DLSTM 的模型評價結果要更優,這也說明了對地表溫度數據通過堆疊LSTM 網絡結構的方法來預測的效果要優于單層模型。從網絡結構來看,DLSTM 相比單層來說含有更多的網絡結構,這也表明了深層次的網絡結構更容易從時間序列中提取到時間特征,也就體現為DLSTM 在時間預測方面有更好的效果。同時對比多層模型結構下的評估指標,層數的增多并不會帶來實驗結果的顯著提升。
本文將一個可以用于大多數時間序列預測問題的模型——LSTM 網絡模型進行深層次的構建,得到了DLSTM,即深度長短期記憶網絡,并將其用于美國德克薩斯州休斯頓地區2000 年1月至2021 年8 月共260 個月份的地表溫度預測。DLSTM 網絡模型通過堆疊LSTM 模型并且在輸出層添加線性全連接層來增加模型的層數結構,模型的時間步長、神經元個數等超參數采用遺傳算法進行優化選取。實驗結果標明,DLSTM網絡對此地區的月時序地表溫度數據有良好的預測效果,同時深層的網絡模型具有更多的網絡結構,能更容易從時間序列中提取到時序特征,實驗結果要優于單層的網絡模型結構,在時間序列數據的預測問題上表現更為優異。
鑒于當前研究中存在的不足,可以進行后續更深入的改進。本文的實驗數據序列的選取較為單一,暫未考慮降雨、蒸散發等其他氣候因素的影響,因此在后續具體區域的研究中應加入其他因素的影響,得到更為精確的實驗序列再進行實驗的訓練和預測。另外,隨著搭載MODIS 的衛星圍繞地球所測得的時間序列增多,意味著會對實驗提供更加豐富的訓練數據集,相信深度神經網絡在這方面的預測也會更為準確。