孫 俊 靳海濤 武小紅 陸 虎 沈繼鋒 戴春霞
(1.江蘇大學電氣信息工程學院, 鎮江 212013; 2.江蘇大學計算機科學與通信工程學院, 鎮江 212013)
茶葉以其清熱、解毒等功效深受廣大消費者喜愛[1-2],但目前茶葉市場存在以次充好的現象,嚴重損害消費者權益,也影響經營者的管理,因此,有效、準確的茶葉品種鑒別是十分有必要的[3]。傳統的鑒別方法主要是感官判別法和化學試驗分析法,這些方法主觀性較強、破壞性大、不易推廣[4]。視覺圖像技術[5]可以通過外部特征進行茶葉品種鑒別,但該方法無法獲取茶葉內部的特征信息[6];光譜技術[7]因能檢測樣品內部特征信息,且具有速度快、成本低等優點在農副產品品種鑒別領域得到廣泛關注,但光譜技術在處理數據時缺少樣本的空間信息,這兩種技術的側重點不同,所帶來的局限性必然會影響最終的鑒別效果。因此,如何結合各種鑒別手段,提高茶葉品種鑒別的精度是一個新的研究方向。
高光譜圖像技術作為一種快速無損檢測的方法,將圖像技術和光譜技術結合,融合兩種技術的優勢,對研究對象的內外部特征同時進行檢測,近些年已被廣泛應用于農副產品的定性分析中[8-11]。然而,因為高光譜數據量龐大,波段繁多,且相鄰波段間相關性強[12],所以對數據進行降維處理顯得極其重要。隨著深度學習技術的發展[13-15],自動編碼器(Stacked auto-encoder,SAE)通過輸出對輸入的重構從而對高維數據進行特征學習,該技術已被推廣到圖像處理、數據分類的應用場合中[16-17],與高光譜圖像技術的結合也越來越受到關注。

圖1 茶葉樣本 Fig.1 Tea samples
但是,高光譜圖像在獲取過程中不可避免地受到各種干擾,例如高斯白噪聲、稀疏的沖擊噪聲、壞死的線條等[18-19]。這不僅使圖像的視覺效果變差,更對高光譜圖像的實際應用造成很大的影響。因此對高光譜圖像進行去噪處理[20-21]至關重要。傳統的自動編碼器也常被應用于降噪處理,降噪自動編碼器(DAE)[22-23]假設訓練數據是干凈的,它所針對的噪聲是人為添加來訓練的。然而,受噪聲影響的真實數據是不符合上述假設的。因此,從實際的已被破壞的數據中學習深層特征,對于構建魯棒的特征提取器來說是非常關鍵的。就目前所知,這種基于自動編碼器的深度學習方案以前并沒有被討論過。
近幾年來,低秩矩陣恢復(Low-rank matrix recovery,LRMR)的方法被引入到高光譜圖像恢復領域中,取得較好的效果。LU等[24]采用低秩矩陣恢復的方法去除高光譜圖像中的壞死線噪聲,考慮局部的幾何結構并添加了圖的正則化;ZHANG等[25]基于低秩矩陣恢復的方法較為成功地去除了高光譜圖像的混合噪聲,其正是得益于無噪的高光譜圖像數據低秩的特性。由于這些技術的優點,低秩矩陣恢復已經成功地應用于不同的場景,例如多視點學習、轉移學習和字典學習[26-27]。 然而,并沒有相關文獻將低秩矩陣恢復與深度學習框架聯系起來。
為更加有效地進行茶葉高光譜圖像品種鑒別,本文聯合優化自動編碼器和低秩矩陣恢復,構建低秩自動編碼器(LR-SAE),在自動編碼器的降維基礎上加入去噪處理,提取高光譜數據魯棒判別特征,建立茶葉品種的鑒別模型。
試驗前于鎮江某大型超市購買5個不同品種的綠茶:炒青茶(安徽黃山)、龍井茶(浙江)、毛峰(江蘇宜興)、云霧綠茶(浙江)、碧螺春(江蘇蘇州),樣本如圖1所示。每種茶葉取80個樣本,分別放入廣口試劑瓶中,并貼上標簽,共計400個樣本。將其密封保存立即送往高光譜實驗室進行高光譜圖像采集。

圖2 高光譜成像系統結構圖 Fig.2 Configuration diagram of hyperspectral imaging system 1.移動平臺控制器 2.高光譜圖像攝影儀 3.光纖 4.鹵素燈光源 5.處理器 6.樣本 7.移動平臺
本試驗所采用的高光譜成像系統結構如圖2所示,主要包括光纖、2個光纖鹵素燈(2900型,Illumination Technologies, USA)、高光譜圖像攝影儀(ImSpector V10E, Spectral Imaging Ltd., Oulu, Finland)、移動平臺控制器(北京光學儀器廠,中國)和處理器等部分。高光譜圖像攝影儀中的攝像機為CCD相機,光譜儀為可見-近紅外光譜儀,光譜范圍為431~962 nm,光譜分辨率為2.9 nm,圖像分辨率為1 628像素×1 125像素。
采用直徑6.4 cm、高0.7 cm的塑料圓形器皿均勻放置茶葉樣品,將圓形器皿放置在移動速度為2.1 mm/s的移動平臺上進行數據采集,將光源與樣本距離設置為6 cm,相機鏡頭距樣本12 cm。
感興趣區域(ROI)是樣本圖像中選取分析的重點區域,感興趣區域的選取對后續的試驗質量至關重要。如圖3a所示,為系統掃描得到的茶葉樣品高光譜圖像,本文統一提取高光譜圖像中心區域100像素×100像素部分為感興趣區域。圖3b為茶葉樣本高光譜數據。

圖3 感興趣區域提取與分析 Fig.3 Extraction and analysis of region of interest
高光譜圖像數據的采集使用Spectral cube軟件平臺(Spectral Imaging Ltd., Finland);ROI提取采用ENVI. 5.1(Research System, Inc., USA);最終試驗模型訓練是在CPU為Intel Core i5 3230M 2.60 GHz、內存為8 GB的Windows 10系統下,利用Matlab R2014b軟件完成的。
1.3.1SAE深度模型
自動編碼器(AE)自RUMELHART等[28]初次使用之后,就廣泛應用于特征學習。自動編碼器主要由編碼器和解碼器兩部分構成,在對輸入數據進行學習時,其目的是通過編碼和解碼將輸入數據在輸出中重構出來。從某種程度而言,AE是一個小型的深度學習模型,該模型主要包括輸入層、隱含層和輸出層3部分。
假設無標簽訓練樣本x,自動編碼器的編碼任務是將輸入的訓練樣本通過非線性映射函數映射到隱含層,其數學表達式為
h=f(x)=sf(Wx+bh)
(1)
式中h——隱含層激活值
sf——編碼激活函數
W——輸入層與隱藏層之間的權值矩陣
bh——輸入層與隱藏層之間的偏移向量
自動編碼器的解碼任務是將激活值h逆向轉換成對輸入x的重構y,其數學表達式為
y=g(h)=sg(W′h+by)
(2)
式中y——激活值反向變換成對原始輸入的重構
sg——解碼激活函數
W′——隱含層與輸出層之間的權值矩陣
by——隱含層與輸出層之間的偏移向量
平均重構函數為
L=‖x-y‖2
(3)
通過不斷修改參數來最小化平均重構函數L。對于最小平均重構L,y就可以被認為保留了原始數據的大部分信息[29]。
實際應用中,多采用包含多個隱含層的自動編碼器網絡進行數據處理,即堆疊自動編碼器(SAE)。通過引入神經網絡天然的非線性,SAE更適用于高光譜數據處理等非線性任務。
1.3.2低秩矩陣恢復
當高光譜圖像受到高斯白噪聲的微小擾動時,含噪的高光譜數據Y∈Rn×b可以分解成一個低秩的矩陣X和一個微小擾動的矩陣E,低秩矩陣恢復的目的就是以一種最優手段將Y分解出含盡量少噪聲的X和噪聲矩陣E。
當矩陣E服從獨立同分布的高斯分布時,可用經典主成分分析通過奇異值分解來完成數據降維[25],即求解優化問題
(4)
式中Emin——矩陣E的最小范數
‖·‖F——矩陣范數r(·)——矩陣的秩
然而,當數據中存在比較大的噪聲或異常時,E的元素為任意大小,此時主成分分析的效果不夠準確。針對這種情況,恢復低秩矩陣X成為一個雙目標優化問題。
(5)
式中 ‖·‖0——矩陣0范數,為矩陣中非零元素的個數
E0min——矩陣E的最小0范數
通過引入折中因子λ,并對目標函數進行松弛,將雙目標優化問題轉換為單目標問題
(6)
式中E1min——矩陣E的最小1范數
‖·‖*——矩陣核范數,為矩陣奇異值之和
‖·‖1——矩陣1范數,為矩陣元素絕對值之和
式(6)也稱魯棒主成分分析法[30],使用增廣的拉格朗日乘子法[31](Augmented Lagrange multipliers,ALM)解決上述優化問題,先將其轉換為等價問題

(7)
式中L(·)——拉格朗日函數
D——拉格朗日算子
μ——懲罰因子

1.3.3低秩自動編碼器模型
本文結合低秩矩陣恢復的去噪優勢和自動編碼器的降維優勢,構建了低秩自動編碼器模型,在自動編碼器的降維基礎上,添加了去噪處理。該模型的訓練步驟如下:
(1)采用低秩矩陣恢復的方法,對提取出的ROI中的高光譜數據進行LR分解,得到一個低秩矩陣X和一個稀疏矩陣E,X是進行去噪處理后的目標矩陣,E是噪聲矩陣。
(2)初始化自動編碼器網絡中權值矩陣W、偏移量b、動量m等模型參數,將低秩矩陣X作為輸入進行降維訓練,降低到一個較低維度。
(3)用5折交叉驗證的方法將降維后的數據以4∶1的比例分成訓練集和預測集輸入到分類器中,進行品種鑒別。
(4)以最終的預測集準確率為依據,對自動編碼器網絡中W、b等參數尋優,尋找自動編碼器最優參數。
整個算法模型構建算法流程圖如圖4所示。

圖4 算法流程圖 Fig.4 Flow chart of algorithm
支持向量機(SVM)算法[32]作為一種經典的分類算法,被廣泛應用在高光譜圖像的分類中,其主要思想是作一個非線性映射F(x),將輸入數據空間映射到高維空間,通過尋找一個最優分離曲面,使得兩類數據的間隔盡可能大,以完成分類任務。在進行訓練時,要挑選合適的核函數K(x,y)=(F(x),F(y)),同時,對于樣本集(X,Y),設置合適的懲罰系數c和徑向量函數g,可以獲得優化問題的最優解。
本文結合SVM算法和低秩自動編碼器算法,將低秩自動編碼器處理后的低維高光譜數據采用5折交叉驗證方法進行交叉驗證,以4∶1的比例分為訓練集和預測集,然后和5個茶葉樣本的標簽集構建分類模型進行分類試驗。由于本試驗樣本較少,基于線性核函數的SVM模型效果更優,采用灰狼優化算法對SVM分類器效果影響較大的參數c和g的設置進行優化,以期得到最優SVM分類模型。
Softmax回歸是邏輯回歸的推廣,邏輯回歸是處理二分類問題的,而Softmax回歸是用來處理多分類問題的[33]。它是一種監督模型,表示為邏輯回歸函數的形式[34]為
(8)
式中H——激活函數
z——用自動編碼器模型提取出的特征表示
經低秩自動編碼器提取的特征輸入Softmax模型。利用有監督學習獲取參數,完成模型的構建,通過分類試驗對模型的參數進行微調,得到較優模型。
通過軟件ENVI 5.1計算ROI內各個像素點的反射率,并求其平均值作為每個樣本的反射率,據此繪得5種茶葉樣本的原始光譜曲線,如圖5所示。不同品種的茶葉樣本內部的有效成分(如氨基酸、多酚類和植物堿等)的含量與比例存在差異[35],這些有效成分大多存在含氫基團(C—H、O—H和N—H等),能在某些特定波長下產生倍頻和合頻吸收,表現為對光的吸收強度不同,即表現為不同的反射率[10],在波長為600 nm左右和760 nm左右處的波峰來看,這種差異尤其明顯。

圖5 5種茶葉樣本原始光譜曲線 Fig.5 Raw spectral curves of five kinds of tea samples

圖6 5種茶葉樣本平均光譜曲線 Fig.6 Average spectral curves of five kinds of tea samples
對每種茶葉樣品的反射率求平均值,得到5種茶葉樣本的平均光譜曲線如圖6所示,在2個波峰處光譜曲線有明顯的可分辨性,為茶葉品種鑒別提供了依據。
在茶葉樣本高光譜數據分類之前,要對其進行去噪和降維處理。本文采用改進后的低秩自動編碼器對高光譜數據進行特征學習,提取低維特征,試驗中發現,SAE的深度、規模等參數都會對其最終的特征學習結果產生影響。本次試驗以分類準確率為標準,選取SAE網絡層數和規模2個影響較大的因子進行對比,通過結果的分析來確定最佳參數的設置。本試驗中自動編碼器的激活函數為sigmoid函數,學習率設置為0.2,由于SAE需將輸入數據降低到一個較低維度,所以將SAE第1個隱含層神經元個數設置為300,第2個隱含層神經元個數從1取到300,得出最終的訓練集和預測集準確率如圖7a所示,結果顯示,當第2個隱含層神經元個數為193時,預測集準確率最高為98.59%。增加SAE隱含層數量,用同樣的方法在后續增加SAE隱含層訓練,以最終預測集準確率為標準尋找最優的隱含層神經元個數,結果如圖7b~7d所示。
每次增加SAE隱含層數量,訓練獲得最優隱含層神經元個數,其對應的訓練集準確率和預測集準確率如表1所示。
由此可見,預測集準確率并未隨著網絡層數的增加而提高,當SAE隱含層個數為3,網絡規模為[618-300-193-56]時,同時,原始高光譜波段數為618,經過SAE特征提取,特征數為56,SAE-SVM模型最終預測集準確率達到最大98.82%,降維效果明顯。繼續增加隱含層個數,提高了網絡復雜度,加大了訓練成本,然而最終提取輸出的特征數差別并不大,且最終預測集準確率有減小的趨勢,故本文選擇4個自動編碼器進行堆疊級聯為SAE,應用于最終模型。
根據SAE、LR-SAE、SAE-LR(對SAE輸出層進行低秩矩陣恢復處理)降維模型處理之后的低維特征高光譜數據,采用5折交叉驗證的方法,分別采用SVM分類器和Softmax回歸模型進行分類建模,得出訓練集和預測集的準確率如表2所示。
首先采用SAE對高光譜數據進行降維,對得到的低維特征數據分別應用SVM和Softmax分類器建模,經過灰狼優化算法,最優c=33.86,最優g=0.86,SAE-SVM模型預測集分類準確率最高為98.82%,同時,SAE-Softmax模型預測集分類準確率為97.99%,較高的分類效果說明了采用深度學習自動編碼器模型對于高光譜數據的高效特征提取能力。

圖7 低秩自動編碼器降維結果 Fig.7 Results of dimension reduction with LR-SAE

隱含層個數神經元最優個數模型規模訓練集準確率/%預測集準確率/%2193[618-300-193]99.2398.59356[618-300-193-56]99.8898.82437[618-300-193-56-37]99.8298.33527[618-300-193-56-37-27]99.5696.87
注:模型規模表示SAE各層神經元個數,如[618-300-193]表示輸入層有618個神經元,該網絡包含的2個隱含層神經元個數分別是300、193,并以最后一個隱含層作為整個網絡的輸出。

表2 各模型分類結果 Tab.2 Results of each model classification
從2個分類器角度分析,對于SVM分類器來說,經過SAE降維處理之后,高光譜數據由618維降到56維,最終訓練集準確率為99.30%,預測集準確率為98.82%,而經過LR-SAE降維之后,高光譜數據由618維降到31維,維度更低,最終訓練集準確率高達99.75%,預測集準確率高達99.37%,與SAE降維后的數據分類準確率相比,LR-SAE處理過后的數據的分類準確率有一定的提升,驗證了去噪處理的有效性,通過低秩矩陣恢復的處理,提取了原始高光譜數據的低秩少噪聲甚至無噪聲的魯棒特征。
對于Softmax回歸模型而言,SAE降維之后的預測集準確率為97.99%,而應用改進之后的LR-SAE降維之后的預測集準確率高達99.04%,從另一個角度驗證了LR-SAE降維模型去噪處理的有效性。
同時,無論是SVM分類器,還是Softmax回歸模型,與對SAE輸入層進行低秩矩陣恢復處理的效果相比,對SAE輸出層進行低秩矩陣恢復處理的效果略差,這是由于經過SAE降維后的數據中,數據的物理意義弱化,信號與噪聲的界限沒有原始數據那么明顯。
以茶葉品種鑒別為研究背景,針對高光譜數據信息量大、維度高的問題,本文提出了一種新的高光譜數據降維方法,該方法應用深度學習中的自動編碼器模型,將其處理非線性數據的優勢應用于高光譜數據的降維中,結合低秩矩陣恢復,建立了低秩自動編碼器(LR-SAE)降維模型。首先采用SAE、LR-SAE和SAE-LR模型分別對茶葉高光譜數據進行降維,在得到的低維特征的基礎上分別建立SVM和Softmax分類模型,對5個茶葉品種進行分類。試驗結果顯示,低秩自動編碼器處理高光譜數據,將最初的618維數據降低到較低維度,并將獲得的低維特征用于分類建模, LR-SAE-SVM預測集分類準確率高達99.37%,LR-SAE-Softmax預測集分類準確率達99.04%,效果優于改進前的SAE算法。改進之后的低秩自動編碼器為高光譜數據的降維提供了一種更加高效的方法,尤其是對于含噪聲較大的高光譜數據,對高光譜圖像分類來說具有重要的實際意義。