王麗艷+薛河儒+王洪南
摘要:高光譜儀器采集光譜數據的波長范圍大、波段數據多。如果將這些波段作為模型的輸入,數據量大、計算太復雜,必然會影響建模的速度,因此有必要采取合適的算法對高光譜圖像的光譜數據進行降維處理。采用主成分分析(principal component analysis,簡稱PCA)、逐步判別分析、連續投影(successive projections algorithm,簡稱SPA)方法對馬鈴薯的光譜數據進行降維處理。主成分分析選出8個特征波段,逐步判別分析選出8個特征波段,連續投影法選出6個特征波段。將降維后的特征波段作為輸入,分別建立支持向量機(support vector machine,簡稱SVM)模型,這3種降維方法的識別準確率均為100%,由于連續投影法選擇的波段數少,所以連續投影法是一種較好的降維方法。
關鍵詞:高光譜數據降維;馬鈴薯;主成分分析;逐步判別;連續投影
中圖分類號: TP391.4 文獻標志碼: A 文章編號:1002-1302(2017)18-0229-04
收稿日期:2016-04-06
基金項目:國家自然科學基金(編號:61461041)。
作者簡介:王麗艷(1987—),女,內蒙古通遼人,碩士,主要從事模式識別與圖像處理研究。E-mail:1515128328@qq.com。
通信作者:薛河儒,博士,教授,主要從事模式識別與圖像處理研究。E-mail:xuehr@imau.edu.cn。 目前,高光譜成像技術廣泛應用在無損檢測領域,高光譜圖像集合了圖像信息和光譜信息,圖像信息可以反映樣本外部品質的一些特征[1];光譜信息則反映樣品內部品質,根據內部不同成分對光譜的吸收不同來檢測樣本物理結構、化學成分,有一舉兩得的作用,但是光譜信息數據量大,影響建模速度[2]。本試驗采用的光譜儀測量的波長范圍為380~1 000 nm,光譜分辨率為4.8 nm,平均間隔0.8 nm,采集的馬鈴薯高光譜圖片為388像素×1 004像素,總共有750個波段,即使將6個波段混在一起,也要125個波段。將125個數據作為模型的輸入,數據量大、計算復雜,必然會影響建模的速度和精度。因此,有必要采取合適的算法對高維數據進行降維處理,將高維數據映射到低維數據,提取特征波段,對高光譜圖像及數據進行快速處理具有重要意義[3-4]。
目前,光譜數據降維已成為高光譜研究領域的熱點。丁玲等采用全局等距特征映射(isometric feature mapping,簡稱ISOMAP)算法[5],對高光譜遙感數據進行非線性降維,使數據具有較好的壓縮性,具有良好的降維效果,提高了分類的精度;臧卓等利用主成分分析法對喬木樹種進行高光譜數據降維,并使用不同的分類方法對降維后的數據進行分類發現,主成分的個數對分類結果影響比較明顯[6-7]。近鄰保持嵌入模型雖然可以實現簡單、快速、非線性的降維,但是性能嚴重依賴于所選取的距離度測量度[8],陳新忠等提出一種加權近鄰保持嵌入的一種降維方法,改進了這一算法[9]。目前,關于數據降維對馬鈴薯分類影響的研究較少,因此本研究采用主成分分析[7]、逐步判別、連續投影方法對馬鈴薯的光譜數據進行降維處理,將降維后的數據作為輸入,建立支持向量機種類鑒別模型,實現對費烏瑞它、克新、大西洋等3種馬鈴薯的種類鑒別。
1 材料與方法
1.1 儀器設備
試驗采用基于高光譜圖像采集系統,由高光譜成像光譜儀[HyperSpec VNIR(380~1 000 nm)]、高精度掃描云臺(Hyperspec Pan&Tilt)、光纖鹵素燈系統(PHOTO LIGHT-1 000 W)等部件組成。光譜儀測量的光譜范圍是380~1 000 nm,光譜分辨率為4.8 nm,平均間隔0.8 nm。光譜數據分析采用ENVI[國際電話電報公司(Internatinal Telephone and Telegraph Corporation,簡稱ITT,美國)]軟件和Matlab 2011b(MathWorks,內蒂克,美國)來完成。
1.2 樣本來源與圖像獲取
試驗選用武川黃馬鈴薯的3個品種(圖1):大西洋、費烏瑞它、克新,選取大小、形狀均勻一致的馬鈴薯各50個,其中每個品種30個作為校正集,20個作為預測集。
高光譜圖像在采集過程中,因攝像頭傳感器中存在暗電流以及各波段下的光源強度分布不均勻,會使高光譜圖像數據存在較大噪聲,不同波長下的圖像亮度值也存在較大差異[10]。因此,在數據分析前,須對高光譜圖像進行標定,標定過程為在設定的圖像采集參數條件下,采集標準白色校正板的標定圖像(W);隨后蓋上鏡頭蓋,采集全黑的標定圖像(B);再按公式(1)對高光譜圖像數據進行標定校正,將采集的絕對圖像(I)轉換成相對圖像(R)。
R=I-BW-B。
1.3 光譜數據提取及預處理
利用ENVI軟件提取其中3個光線均勻的感興趣區域,每個感興趣區域要選擇光線均勻的部位,并且越大越好,然后計算3個感興趣區域的平均反射率,得到的馬鈴薯平均反射光譜(圖2),采用Matlab 2011b軟件,對3類馬鈴薯的光譜曲線進行多元散射校正(muliplicative scatter correction,簡稱MSC)預處理[11](圖3)。
2 結果與分析
利用Matlab 2011b和SAS軟件對光譜數據,采用主成分分析、逐步判別、連續投影3種方法進行降維處理。
2.1 主成分分析
通過主成分分析對高光譜數據進行降維[7],累計方差貢獻率大于85%的作為主成分,每個主成分都是由原始的各個波長下的圖像的線性組合[12]。
PCk表示第K個主成分;αi表示第i個波段的權重系數;Ii表示第i個波段的原始圖像。第一主成分的貢獻率已經達到85%以上,根據第一主成分各波段的權重系數,選出絕對值最大的權重系數所對應的波段作為特征波段。本試驗發現8個特征波段(530.1、621.3、678.9、683.7、799.0、803.8、endprint
875.5、943.0 nm),各波段的主成分載荷如圖4所示。
2.2 SAS逐步判別
利用SAS軟件進行逐步判別,基本思想為每次引入1個
變量,將其視為“最重要”的變量,同時檢測先前引入的變量,如果由于新變量引入使先前的變量的判別能力下降,則將其先前的變量從判別式中剔除,直到判別式中的變量都很顯著,逐步篩選結束。逐步判別就是不斷檢驗篩選進來的變量,找出顯著變量,剔除不顯著變量。利用SAS中STEPDISC過程篩選出對數據的判別具有顯著影響的變量。STEPDISC過程的基本語法格式為(1)PROC STEPDISC選項;(2)CLASS分類變量;(3)VAR指標變量,其中PROC語句為必需語句,用于指定分析的過程為STEPDISC逐步判別分析過程。在選項中當引入變量顯著水平P為0.000 1,剔除變量的顯著水平P為0.01時引入的變量時,達到最大的降維限度。
圖5中各變量為x2、x21、x78、x83、x96、x97、x112、x119,對應的波段分別為405.3、496.5、770.2、794.2、856.6、861.4、9334、967.0 mm。
2.3 連續投影
連續投影法能有效解決波長變量之間的共線性問題[13],選擇出冗余信息較少的波長。本試驗選擇6個特征波段。由圖6可知,選出的特征波段變量為x2、x11、x57、x62、x66、x86,它們所對應的波段為405.3、448.5、669.3、693.3、712.5、808.6 nm。
2.4 建立支持向量機種類鑒別模型
支持向量機在解決小樣本、非線性識別中表現出許多特有的優勢。將SVM引入到光譜分析中建立定量或定性模型時常采用徑向基核函數(radial basis function,簡稱RBF),即某種沿徑向對稱的標量函數。通常定義為空間任意一點到中心之間的歐式距離的單調函數。徑向基核函數能實現非線性映射,可以處理系統內難以解析的規律性,具有良好的泛化能力,有很快的學習收斂速度,而且參數較少、計算范圍也較小[14]。目前已廣泛應用在非線性函數逼近、時間序列分析、模式識別、圖像處理、信息處理等[15]。
選用RBF作為核函數需要考慮2個重要參數:懲罰參數c、核參數g。SVM分類模型的精度取決于這2個參數的組合,通常采用交叉驗證方法提高預測精度。采用網絡搜索來找到較好的1組,先初步設定大的搜索范圍,再減小搜索范圍,減小步長,找到更優的參數組合,并且提高模型的推廣能力。K重交叉驗證是SVM中常用的交叉驗證方法,因為參數的選擇并沒有一定的先驗知識,必須做某種類型的模型選擇(參數搜索)。目的是確定好的(c、g)使分類器能正確地預測未知數據,它是將原始數據隨機分成K個模型,用這K個模型最終驗證集的分類準確率的平均數作為K-CV下分類器的性能指標。K-CV可以有效避免過學習及欠學習狀態的發生,最后得到的結果也具有說服力。
本試驗采用K-交叉驗證(cross-validation,簡稱CV)的辦法得到最佳參數,初步搜索的范圍c=[2-10,…,210],g=[2-10,…,210],K=3,CV=100。該搜索范圍內的得到最佳參數c=1 024,g=1 024。SVM模型得到準確率為100%,鑒別結果如圖7所示。由圖7可知,3種降維方法都可以將3種馬鈴薯準確分類。
3 結論
高光譜儀器采集光譜數據的波長范圍較大、波段數較多。如果將這些波段作為模型的輸入,數據量太大、數據冗余、計算太復雜,必然會影響建模的速度和精度。本研究采用主成分分析、逐步判別分析、連續投影等方法對馬鈴薯的光譜數據進行降維處理,主成分分析選出8個特征波段,逐步判別分析選出8個特征波段,連續投影法選出6個特征波段。將降維后的數據分別作為輸入,建立支持向量機數學模型,識別準確率為100%。3種降維方法中,連續投影法能有效解決波長變量之間的共線性問題,選擇出冗余信息較少的波長,自由選擇波段個數,并實現對馬鈴薯的準確分類,所以連續投影法可以作為光譜數據降維常用的一種方法。
由于本試驗只是分別針對大西洋、費烏瑞它、克新等3種馬鈴薯進行的分類,并且3種馬鈴薯的光譜形狀差距較大,使降維比較容易,因此今后要將更多的品種考慮進來,提高降維的準確度,使模型更加穩定。
參考文獻:
[1]臧 卓,林 輝,孫 華,等. 南方主要針葉樹種高光譜數據降維分類研究[J]. 中南林業科技大學學報,2010,30(11):20-25.
[2]朱 艷,劉曉莉,楊哲海. 高光譜數據的降維及Tabu搜索算法的應用[J]. 測繪科學技術學報,2007,24(1):22-25,29.
[3]高 陽. 高光譜數據降維算法研究[D]. 徐州:中國礦業大學,2013.
[4]柳萍萍,林 輝,孫 華,等. 高光譜數據的降維處理方法研究[J]. 中南林業科技大學學報,2011,31(11):34-38.
[5]丁 玲,唐 娉,李宏益. 基于ISOMAP的高光譜遙感數據的降維與分類[J]. 紅外與激光工程,2013,42(10):2707-2711.
[6]臧 卓. 南方主要喬木樹種高光譜數據降維組合分類算法研究[D]. 長沙:中南大學,2013.
[7]臧 卓,林 輝,楊敏華. 利用PCA算法進行喬木樹種高光譜數據降維與分類[J]. 測繪科學,2014,39(2):146-149.
[8]李 娜,趙慧潔,賈國瑞. 因子分析模型的高光譜數據降維方法[J]. 中國圖象圖形學報,2011,16(11):2030-2035.
[9]陳新忠,胡匯涓,王雪松. 基于加權近鄰保持嵌入的高光譜數據降維方法[J]. 中國礦業大學學報,2013,42(6):1066-1072.
[10]孫墨寒. 高光譜數據誤差估計及降維方法研究[D]. 北京:中國地質大學,2013.
[11]楊珺雯,張錦水,朱秀芳,等. 隨機森林在高光譜遙感數據中降維與分類的應用[J]. 北京師范大學學報(自然科學版),2015,51(增刊1):82-88.
[12]臧 卓,林 輝,楊敏華. ICA與PCA在高光譜數據降維分類中的對比研究[J]. 中南林業科技大學學報,2011,31(11):18-22.
[13]高 陽,王雪松,程玉虎,等. 基于非負稀疏嵌入投影的高光譜數據降維方法[J]. 中國礦業大學學報,2012,41(6):1010-1017.
[14]臧 卓,林 輝,楊敏華. 基于PSO-SVM的高光譜數據降維的可靠性研究[J]. 中國農學通報,2011,27(31):47-52.
[15]金鵬磊. 空譜聯合高光譜數據降維與分類方法研究[D]. 西安:西安電子科技大學,2014.付煥森,王郭全,夏華鳳,等. 農產品保鮮冷庫的PLC控制與關鍵技術研究[J]. 江蘇農業科學,2017,45(18):233-236.endprint