董國卿, 王平, 夏凌云
(中國石油大學(華東),信息化建設處,山東,青島 266580)
森林覆蓋類型是森林生態系統常見的分類方式,以研究地區內的主要樹種作為分類依據,如松樹林、云杉林、樺樹林等。森林覆蓋類型的分類研究是保護森林資源的前提條件森林覆蓋類型分類研究有助于森林資源動態監測,是研究森林動態變化的重要手段[1]。正確的森林覆蓋類型分類對于制定合理的災難防范和應急處置策略有積極的意義。
森林數據的獲取是森林覆蓋分類研究的前提條件,遙感影像技術是森林信息采集常用的重要方法[2]。目前研究者普遍采用傳統機器學習方法如決策樹、支持向量機等方法基于遙感數據構建分類模型。SUG[3]使用隨機森林構建了一種基于網格搜索的分類方法。KISHORE等[4]基于特征選擇和屬性推導結合的方法選擇最優分類器。DEILMAI等[5]將人工神經網絡與最大似然分類的結果進行比較。MEHDAWI[6]用神經網絡對馬來西亞等發展中國家的森林入侵類型進行分類。
本文提出一種基于TabNet和LightGBM的集成分類模型,對森林覆蓋類型進行預測。同時,將本文中提出的分類模型與目前主流的分類方法進行比較,結果顯示本文的分類模型具有更加準確的分類能力。
深度神經網絡在處理圖像、文本和語音等類型的數據上取得了良好的效果,但在采取表格數據這種結構化數據的任務中應用較少[7],傳統的機器學習方法分類效果好,可解釋性較好,需要訓練的參數較少,在結構化數據中應用較多。
深度神經網絡的優勢在于可以進行表征學習,減少對特征工程的依賴[8];可以通過在線學習的方式更新模型參數[9]。谷歌在2019年提出了TabNet[10],它保留了深度神經網絡端到端訓練和表征學習的能力,并且還具有良好的可解釋性和稀疏特征選擇能力,TabNet的結構如圖1所示。

(a) TabNet編碼器結構
TabNet使用序列式多步神經網絡框架構建了一個類似于加性模型的神經網絡,包括以下特征。
(1)特征選擇:注意力變換層(attentive transformer)可以根據上一步的結果獲得當前層掩模(mask)矩陣,達到自動選擇特征的效果。
(2)特征計算:特征變換層(feature transformer)的作用為計算處理當前步所選取的特征。
TabNet的另一優勢是可以進行自監督學習。在結構化數據中,我們可以通過人為掩蓋(mask)掉一些特征,然后構建編碼-解碼(encoder-decoder)模型來對掩蓋掉的特征進行預測來進行特征表征,如圖2所示。

圖2 自監督學習
LightGBM是一個實現GBDT算法的框架[11],在傳統的GBDT算法上進行了如下優化:
(1)采用基于直方圖優化的決策樹算法。
(2)單邊梯度采樣。
(3)互斥特征捆綁。
(4)帶深度限制的葉子生長策略。
(5)直接支持類別特征、支持高效并行。
模型集成通過策略將多個模型組合在一起,以獲得準確性最高,穩定性最佳的模型。本文采用TabNet和LightGBM兩種異構模型進行軟投票集成,將兩個模型預測的概率取平均值并以此作為分類器,如圖3所示。P為集成后的預測概率向量,維度為標簽的個數。

圖3 模型集成方法
本文采用的數據集采用Covtype數據集,由UCI machine learning repository提供,該數據集采集自美國科羅拉多州北部羅斯福國家森林的4個荒野區域,每個樣本代表30 m×30 m的森林區域。數據集包含581 011個樣本,樣本類別標簽總共有7個類別,分別是冷杉/云杉、海灘松、西黃松、楊樹/柳樹、白楊、花旗松和高山矮曲林。樣本的特征如表1所示。

表1 樣本特征
隨機選取60%的樣本為訓練集,40%的樣本為測試集。

(1)
預訓練后我們采用TabNet的編碼器部分進行分類,采用5折交叉驗證的方式進行訓練,實驗參數如表2所示。

表2 TabNet分類器訓練參數
最后我們訓練LighGBM模型用于模型集成,訓練參數如表3。

表3 LightGBM參數
我們采用準確率、Precision、Recall、Macro F1-Score評估實驗結果,本文模型與其他模型的分類性能對比如表4。

表4 模型對比
可以看出,本文提出的模型在4個評價指標上均優于傳統機器學習方法。對比無預訓練的單TabNet分類器可以看出,通過預訓練與模型集成,本文的分類模型獲得了顯著的提升。
我們與國內外其他類似研究的分類效果進行了對比,如表5所示。

表5 同類研究對比
可以看出本文提出的模型在分類效果上優于目前國內外類似研究。
TabNet在模型的每一步都使用序列注意力機制進行推理,這賦予了TabNet良好的可解釋性。為了分析不同特征對分類結果的影響,從TabNet的encoder中我們可以計算出第b個樣本的第i個step對分類結果的貢獻:
(2)
其中,d[i]為第i個step中encoder的輸出,Nd為encoder中神經網絡計算單元的個數。進一步地,我們將所有setp的結果相加,可以求出歸一化后的特征全局重要性:
(3)
式(3)代表了第b個樣本的第j個特征對分類結果的重要程度。
在本文中,我們選取數據集中前100條樣本作為示例,根據訓練完成的網絡,計算每個特征的全局重要性,并繪制全局特征重要性熱點圖。如圖4所示,其中每個網格[b,j]顏色的深淺代表第b個樣本的第j個特征對該樣本分類結果的貢獻值。

圖4 前100個樣本的特征熱點圖
可以看出,TabNet可以為不同樣本選擇不同的特征,從而提升分類性能。這種特性說明不同的樹種在自然演化過程中,外界因素對其形成森林的影響是有差異的,可以根據不同樣本進行針對化的管理和研究。
圖5為不同特征在所有樣本上的全局重要程度,這些特征對于森林管理者針對不同區域的不同樹種制定差異化的管理措施具有指導意義。

圖5 特征重要程度
本文采用了TabNet和LightGBM構建分類模型。根據實驗結果可以看出,我們基于TabNet構建的模型在森林覆蓋類型預測任務中展示出最優的效果。此外,預訓練有效地學習了特征之間的關聯,提升了模型預測精度。同時,采用LightGBM模型和軟投票方法進行模型集成,顯著提高了模型的性能。最后,我們分析了不同特征對于類別的貢獻程度,為森林管理者決策提供了指導思路。