代林沅
摘要:該文介紹了對深度學習原理的理解和對深度學習中殘差網絡方法的一些思考。從應用深度學習分類方法出發比較了遙感地物分類的特點。分析了現有中高分辨率遙感地物樣本庫的現狀和存在的問題。
關鍵詞:深度學習;遙感;分類
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2018)04-0206-02
1 對深度學習的理解
通過算法進行分類一般有這樣三步過程:首先定義特征,然后建立分類規則,最后通過分類規則完成分類。對于人類大腦來說,分類用到的特征規則都不是一塵不變的,是隨著外界刺激的不斷增加而不斷訓練優化的過程。深度學習試圖模擬人腦神經元傳遞刺激的方式,構造盡可能理想的方程,實現從外界刺激(輸入)到分類結果(輸出的自動轉化,如圖1所示。
實際上,在以往的分類方法中或多或少會利用已經被人類知識預選過的“特征”或“規則”。例如:對于最簡單的線性分類而言,約束輸入和輸出間的一次線性關系就是這個預選的“規則”;對于各種基于概率的分類法而言,除了通常會先提取“特征”外,還會人為規定這些特征計算概率的方法以及概率之間的組合方法。
一些研究[2,3]取出訓練后的網絡隱藏層的卷積核和輸出值分別可視化以后發現:隱藏層輸出值自動的由低層次到高層次逐層的學習到了不同的特征,而每層的卷積核則會被訓練成為如何提取這些特征的算子。
采用深度結構的神經網絡模型成為了當前使用的深度學習1。深度學習網絡既可以是線性的也可以加入非線性的層或參數變成非線性的。一個有三個輸入的典型神經元模型,如圖2所示。
深度學習的學習能力是依賴于多層/多次帶來的復雜非線性變化。2006年,Hinton提出深度學習這個概念,他認為深度學習是一種“使用多層隱變量學習高層表示的方法”。以往的人工神經網絡模型(DBN, CNN,RNN等)都是這樣一種深度學習的模型,只是層數和神經元個數上增加了不少。
目前深度學習一部分研究和應用的熱點在于對日常生活中接觸物(人臉、指紋、數字、文字、聲音等)進行識別、標注或者分類。就拿CIFAR-10[4]這個經常用到的圖片分類樣本庫來說,其中有10類每類6000張樣本。如圖3所示。這里把這類樣本庫叫做日常生活樣本庫。
2 遙感地物分類的特點
從空中一定距離獲取的地表電磁波反射數據,不論是通道數的多少(可見光影像、多光譜數據)還是波段頻率自身反射的特性(可見光、紅外、微波)都體現了跟上面提到的近距離而且非由上至下豎直拍攝的日常生活樣本庫的區別。
遙感數據分辨率越低,地物細節就越不清楚。即便是在較高分辨率的遙感數據上,地表上覆蓋的大多數地物都不具備像日常生活樣本庫一樣豐富的特征。
實際情況是,單個特征分類的精度(特征本身的類代表性)、特征間的相關性和特征的數量一起決定了分類的精度??梢赃@樣來證明:假設有 個特征,單個特征分類的正確率都為 ,且假設這些特征間相互獨立,令 為單個分類正確的個數,通過 的方式決定是否屬于某類,那么最終錯誤率為:
那么當 ,有Hoeffding邊界:
當 時,帶入后得到:
上式顯示,隨著相互獨立的特征數目的增加,最終錯誤率會指數級下降,并趨近于零。與日常生活樣本庫不同的一點,因為分辨率的限制,遙感數據本身含有的類別數量要少一些。美國地質勘探局在第一次國土地表覆蓋數據庫(National Land Cover Database, NLCD[7])中采用的是一套有9個一級類22個二級類的分類標準[8],其后這個標準也在不斷變化,最新公布的的NLCD2011數據是采用的16個類的分類標準。我國第一次地理國情普查中地表覆蓋分類數據采集中使用了10個大類46個二級類,這些二級類下面還細分有更多的三級類[9]。在實際工程應用中,大量地物分類需要外業實地確定。
近年來,盡管比不上一些深度學習應用研究領域的熱度,但是對于遙感地物分類的研究,特別是中高分辨率遙感數據地物分類研究還是不少。但是,因為缺少一個統一的實驗數據,很多研究也都只給出了結果而沒有給出具體的參數、算法和代碼,所以并沒有產生CIFAR-10, IMAGENET, COCO等日常生活樣本庫中形成共識的評價標準。早些年像美國的NLCD項目和歐洲的CORINE項目這一類面向全國資源利用概略調查應用的一般都是依靠分辨率較低的影像(10-30米左右)。
3 中高分辨率遙感地物樣本庫現狀
深度學習通常需要大量樣本進行訓練。當前分享的中高分辨率遙感地物樣本庫,如:UCMerced Land-use Dataset[10], RSSCN7 Dataset[11]都不太能滿足深度學習研究對樣本數量的需求,如表1所示。
樣本數量上的不足只是一個方面。現有的遙感樣本庫都只有最多30種地物類型,這主要是考慮到地物選擇的典型性和細節豐富程度,而沒有考慮需要全面涵蓋遙感影像的地物類型。恰恰地表覆蓋分類的應用中需要樣本庫有更全面的地物類型。另一個需要注意的問題是在樣本庫制作時要盡量避免不同標簽地物的混淆,盡管這種情況很常見,如圖4所示。
避免不同標簽地物的混雜一方面需要設計更合理的分類,保證類內部有一定多樣性的同時保證類間保持一定的可分性;另外一方面,也可以采用多標簽樣本的方案,這可能更適合遙感地物的特點。
4 總結與討論
對深度學習的原理和它為什么有效現在并沒有一個統一具有說服力的解釋方法。用復雜非線性系統來解釋深度學習可以幫助我們更好的理解訓練過程中出現的各種各樣匪夷所思的問題。比如,在對抗性生成網絡中為什么加入一個微小的噪聲就可以使得分類的結果大相徑庭?為什么實驗中更結構更復雜的網絡卻不不能比普通的殘差網絡精度更好?
現有的中高分辨率遙感樣本庫訓練的網絡并不能用于地物分類,但是它們可以用來研究網絡本身,不過問題是:這樣的遙感樣本庫與CIFAR-10一類樣本庫的區別在哪里?
注釋:
1. “深度”一詞是相對20世紀90年代陸續出現的各種淺層學習模型而言的,例如:SVM和Boosting都可以看出帶一層隱藏節點的學習模型,當前多數回歸學習都是淺層結構的模型。
參考文獻:
[1] M. D. Zeiler. Visualizing and Understanding Convolutional Networks[C]. ECCV, 2014.
[2] J. Yosinski. Understanding Neural Networks Through Deep Visualization[C]. ICML, 2015.
[3] A. Krizhevsky. Learning Multiple Layers of Features from Tiny Images[D]. Masters thesis, 2009.
[4] R. K. Srivastava et al. Highway networks[C]. ICML, 2015.
[5] K. He et al. Deep Residual Learning for Image Recognition[C]. CVPR, 2016.
[6] J.A.Fry et al. Completion of the National Land Cover Database (NLCD)[R].1992-2001 Land Cover Change Retrofit product: U.S. Geological Survey Open-File Report,2008,1379(18).
[7] J.R. Anderson et al. A Land Use And Land Cover Classification System For Use With Remote Sensor Data[R]. 1976.
[8] 地理國情普查數據規定與采集要求,GDPJ 03-2013[S].
[9] Y. Yang et al. Bag-Of-Visual-Words and Spatial Extensions for Land-Use Classification[C]. ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems (ACM GIS). 2010.
[10] Q. Zou et al. Deep learning based feature selection for remote sensing scene classification[J] Geoscience and Remote Sensing Letters, IEEE,2015.
[11] G. Huang et al. Deep Networks with Stochastic Depth[C]. ECCV, 2016.