基于鄰域熵的高光譜波段選擇算法

2022-03-01 12:34:18翟東昌陳紅梅

計算機應用 2022年2期

關鍵詞：特征

翟東昌，陳紅梅

（1.西南交通大學唐山研究院，河北唐山 063000；2.西南交通大學計算機與人工智能學院，成都 611756）

0 引言

隨著遙感技術的發展，成像光譜儀發射的數百個連續窄波可以探測到地物目標豐富的光譜和空間信息，這些獲取的信息經過成像處理后稱為高光譜圖像。近些年，高光譜圖像廣泛地應用到了多個領域，主要包括地質勘探［1］、農業［1-2］，以及醫療行業［1-3］等。

高光譜圖像包含了二維的空間信息，以及一維的光譜信息，所以高光譜圖像的數據可以通過一個三維的圖像立方體呈現。然而高精度傳感器可以采集到高分辨率的空間信息，連續的數百個探測波段也使得圖像中每個像素點都包含了大量的光譜信息。根據美國國家航空航天局（National Aeronautics and Space Administration，NASA）噴氣推進實驗室的數據，高光譜紅外成像設備發送的平均數據量在65 Mb/s［4］。這使得數據處理過程中的時間成本增加，對硬件的要求也在提升，同時也會引發Hughes 現象［5］和Bellman 維度的詛咒［6］。

此外，高光譜圖像從光譜信息的維度來看，可以將波段作為一個維度對空間信息進行描述，是不同波段探測灰度值的疊加。對于探測、分類等相關任務，要鑒別的物質只對部分波段進行吸收和折射，這使得光譜信息中包含了大量冗余、噪聲信息，全波段在實際應用中的性能也較差。因此對高光譜數據集進行降維處理，降低數據間的冗余度，提高數據的可用性，是數據預處理中的重要環節。

對高光譜圖像進行降維處理的方式主要包括了波段選擇以及特征提取。特征提取按照算法中的標準將原始數據映射到另一個特征空間［7-8］。大部分特征提取算法將原始波段進行了線性組合，如果采用的算法指標不合適，可能導致計算結果更加復雜［9］；波段選擇算法，也稱為特征選擇算法，從原始波段中選取波段子集，并保留了光譜通道的原始光譜信息。

基于數據提供的不同的先驗知識，研究學者提出了很多波段選擇算法。根據是否采用數據的類標，波段選擇算法通常可以分為三種：有監督的、半監督的和無監督的方法［10］。考慮是否采用分類器，波段選擇算法還可以分為：包裹式方法，即采用可預測的模型及其泛化性能對特征進行排序［11］；嵌入式方法，在模型構建的過程中選取最相關的特征［12］；過濾式方法，通過引入其他評判標準來取代分類器準確率，對特征進行排序及篩選。

相較于包裹式算法，過濾式算法不用考慮分類器對特征選取的影響，所以通常會比包裹式算法更為高效，這使得此類算法在高維數據集中的性能會更好。要獲取特征的相關性程度，常用的評判標準有基于皮爾森相關系數的方法［13］；基于統計檢驗的方法，如t-檢驗［14］；基于Fisher 線性判別的方法［15］；基于最近鄰類別的方法［16］；基于互信息（Mutual Information，MI）的方法［17］等。

基于相關性系數的方法對線性特征非常有效，但是對于非線性特征之間的關系無法有效度量；基于統計檢驗的方法以及基于Fisher 線性判別的方法需要特征集合的數據服從正態分布；在Guo 等［18］的研究中，基于MI 的方法可以度量任意隨機變量之間的信息量，所以適用于復雜分類任務中特征相關性的計算。此外，基于MI 的特征選擇算法不依賴機器學習模型以及特定基準的選取。研究學者利用圖像的空間信息［19］，將樣本像素值之間的極差作為權重方程，與MI 結合，其中極差之和可以作為另一種相似度的度量。或者在Liu 等［20］的研究中，將MI 與粗糙集理論相結合，采用MI 的思想計算鄰域MI，并通過粗糙集理論的重要度進行波段選取工作。

本文引入了一種基于MI 的度量方式，稱為鄰域熵（Neighborhood Entropy，NE），用于度量多個特征之間的MI，并且克服了傳統MI 方法需要一對特征變量進行計算的缺陷。此外，高光譜圖像數據集的特征值為實數，近似搜索算法有效地減少了計算樣本鄰域集合耗費的時間。本文將兩種算法結合在一起，提出了一種基于NE 的單次索引特征選擇（Single indexed NE Feature Selection，SINEFS）算法，運用到高光譜圖像的波段選擇過程，并與其他常用的基于MI 的特征選擇算法進行了對比分析。

1 MI理論及相關的特征選擇算法

1.1 MI理論基礎

本節將對基于MI 的特征選擇算法進行說明，以下是信息熵相關內容的說明。

信息熵：對于一個分類任務，通過Pr（k）表示不同類出現的概率，其中k=1，2，…，N。熵是每種類度量不確定性的方式，計算公式如式（1）所示：

條件熵：對于一個分類任務，通過Dd來表示一個集合，元素為第d個特征所有可能的特征值，其中1≤d≤D；通過Dc來表示一個集合，元素為不同的類。在知道第d個特征后的平均不確定性稱為條件熵，定義如式（2）所示：

互信息：類C和一個特征Fd之間的互信息定義式為：

根據公式可知，條件熵往往小于或等于信息熵，當且僅當輸出的類變量和特征是獨立的隨機變量時，條件熵等于信息熵。當特征Fd已知時，MI 相較于信息熵的值會減少。將式（3）推導后可得：

其中：C和Fd是對稱的。根據Fano 不等式［20］，MI 和一個學習系統的精度有相關性。以下是Fano 不等式的定理。

定理1Fano 不等式［21］794：設隨機變量x和y分別代表一個噪聲通道的輸入和輸出信息。一個接收器通過方程f（y），將收到的信息y重構成原始輸入信息x，其中x*=f（y）。設E為二進制隨機變量來表示一個事件是否為錯誤，即E=1 時，給定通道的輸出y的解碼結果x*和原始輸入x不同，則不等式的表達式為：

其中：N是不同輸入通道的個數。將y等價于一個特征Fd，x等價于類C，接收器中轉化用的方程f（·）等價于一個用于分類的算法，則Pr（E=1）可以等價于一個分類器的誤差率。根據式（5），Pr（E=1）的下界和條件熵H（C|Fd）成正比。因此，減少該值可以相當于在增大MI 的值，是降低誤差率且構建有效分類器的必要條件。

1.2 基于MI的特征選擇算法

接下來將對一些基于MI 進行特征選擇的方法進行說明。基于MI 的特征選擇算法是最大化相關性特征選擇（Maximum Relevance-Mutual Information Feature Selection，MR-MIFS）算法，首先計算類變量和每個獨立特征之間的MI值，然后對MI 值進行排序，選擇最高的s個特征。但是此類算法在特征選擇過程中容易將連續的特征進行選取，為了改進上述算法，在算法的評價機制中引入了最小化冗余度，以篩選所選特征之間較小相關性的特征。此類算法稱為最小化冗余度以及最大化相關性的特征選擇（minimum Redundancy MR-MIFS，mRMR-MIFS）算法［22］。該算法首先通過計算類變量之間的MI，將MI 作為相關性的評價標準，并選擇相關性高的特征。然后在相關性較高特征集合里再計算冗余度，篩選冗余度較小的特征集合。在特征集合冗余度的計算中，也采用MI 進行對比，用于再次篩選。

通過計算已選特征以及未被選擇特征之間的歸一化互信息的特征選擇算法，稱為歸一化互信息（Normalized Mutual Information，NMI）［23］。首先計算MI 作為選取特征的指標，再計算所選特征以及被選擇特征之間MI 最小的值，特征之間的MI 值會被最小MI 值歸一化處理。歸一化后的MI值在0～1，當NMI 為0 時，說明兩個特征之間完全獨立；當NMI 值為1 時，說明特征之間的相關性較高，以此作為冗余度評價的標準，對波段子集進行篩選。

以上兩種算法都是按照一對特征，或者特征和類之間的配對進行互信息值的計算。上述的相關性和冗余度需要分別計算。在文獻［24］中提出的特征選擇算法將MI 泛化到多個特征上，稱為精準互信息特征選擇（eXact Mutual Information Feature Selection，X-MIFS）。該算法計算所選特征的特征子集和類變量之間的MI，未被選取的特征和特征子集具有較高的相關性，才會選取該特征。從計算MI 的角度看，該算法在計算MI 的過程中不是兩個一維向量之間的計算，而是一個一維向量和多維隨機變量進行MI 的計算。

對于無監督的特征選擇算法，MI 也是有效的特征評價標準。Martínez-Usó 等［25］提出的基于互信息的Ward連鎖策略（Ward’s Linkage strategy using Mutual Information，WaLuMI），采用基于層次聚類結構算法將類似的特征分成不同的特征子集，使子集之內的方差最小、子集間的方差最大，通過MI實現這種度量方式，以減少波段間的數據冗余。

相較于上述的策略，本文提出的算法是一種通過最大化MI 的貪婪特征搜索過程。根據1.1 節的式（3），最大化MI，即最大化式（3），等價于最大化式（4）。在式（4）中，方程式的第一項H（C）是常量，在算法中可以忽視，最大化MI 只需要最小化方程式中的第二項條件熵H（C|Fd），其中1≤d≤D。對于高光譜圖像，分類器應該將圖像中某個光譜通道下像素值接近的點歸為同一類，其中對于某一個類來說，在該光譜通道下條件熵的值應該是非常小。與之相對應，當一個類的在某個光譜通道下的條件熵非常高，對于分類任務而言該通道的光譜信息是冗余的，甚至是噪聲信息。所以可以將類相較于一個特征的條件熵作為評價特征和類相關性程度的指標，用于選取最富有信息量的波段。

2 本文算法

2.1 鄰域熵

由式（2）可知，計算類和特征之間的條件熵，需要知道Pr（f）和Pr（c|f）的概率分布。本文采用了基于NE 的計算方法可以不需要估計類熵相較于一個特征的概率分布，只用考慮一個樣本點的鄰域范圍的類，并給數據集中的所有樣本點求平均。NE［26］是信息熵在數字特征上的泛化，接下來詳細介紹相關內容。

給定一個分類任務，其中S是一個多維隨機變量，X是S的一個實例。δ（X，k）是X及其k個最近鄰域樣本（k-Nearest Neighborhoods，k-NN）的集合，則對于一個類c∈Dc，其鄰域集合δ（X，k）的相對頻率為：

其中：|·|為集合的基數；n為一個事件發生的次數。則類變量C相較于S的NE 可以定義為：

其中：Xi代表了S的第i個實例。根據式（3）和式（4），通過最小化NE，也就是最大化MI，因為條件熵式（2）和NE 可以推導出近似關系［26］22：

對于特定波段的NE 以及MI，NE 可以不需要估計特征的概率分布以最大化MI，并且NE 采用了自適應的不確定性計算方式，只需要計算一個樣本點鄰域內類變量及相關頻率。

算法執行主要的時間都消耗在樣本點最近鄰的搜索過程中。如果已經選取了i個波段，在第i+1 次循環過程中，NE特征選擇（NE Feature Selection，NEFS）算法為尋找s個波段的CPU 時間復雜度為O（CDs）。

在算法執行的過程中，考慮到高光譜圖像的樣本點個數和其空間分辨率相關，所以算法構建過程中樣本鄰域的搜索是一個重要的環節。本文提出的算法中采取了局部敏感哈希（Local Sensitive Hashing，LSH）算法搜索鄰域集合。LSH算法接受一定程度下近似帶來的誤差，搜索速度會遠高于基于度量距離的暴力搜索方法。

2.2 LSH算法

對于高光譜圖像數據集，假設其包含D個波段，N個樣本點，數據集往往符合D

在本文中，主要采用的方法是Gionis 等［27］提出的搜索算法。通過索引技術將樣本點分到不同的組，每個組的樣本點是近似鄰閾值。在查詢階段，索引可以幫助樣本點到相應的組內，從而再計算組內樣本點之間的距離。以下是對LSH 搜索算法的說明。

設dist 為D個波段的高光譜數據集M中任意兩個樣本點之間的距離計算公式。對于任意樣本點P，通過dist 計算距離，令B（P；r）表示距離P的范圍r內的所有點的集合。

LSH 方程［27］522：對于一個哈希方程簇H，方程h（·）對距離公式dist 具有（r1，r2，p1，p2）敏感性，其中r1

如果P∈B（Q；r1），則PrH（h（Q）=h（P））≥p1；

如果P?B（Q；r2），則PrH（h（Q）=h（P））≤p1。

在NEFS 中，LSH 需要由適用于歐氏空間的局部敏感哈希方程簇來實現，這些方程定義為：

其中：w是一個固定的正整數；b是從［0，w］中隨機獲取的數。為了計算范式l2的距離，從高斯分布中獲取a∈RD。

在NEFS 每次運算的過程中，波段和類之間的NE 需要構建一個新的LSH 索引，時間復雜度為O（Ds）。L個新的哈希方程在NEFS 每次循環中會構建一次，對于每個方程，需要生成b以及向量a∈RD，這些相當于系數的生成過程，時間復雜度為O（Ls2）。當選取的波段子集基數變化時，需要用式（9）將數據集中的每個點哈希L次。循環過程中總共需要構建Ds次索引，因此對于i=0，1，…，s-1，需要哈希的值的個數為NL，則時間復雜度為O（NLDs2）。構建索引后，每個樣本點的NN 搜索會計算樣本點的哈希值，然后在L個哈希表中找到候選的樣本點，最后從候選的點集合中使用距離度量的方式找到鄰域子集。查詢一個樣本點的時間復雜度為O（DNL（1+ε））。因此計算NE 過程中所有波段子集的時間復雜度為O（DN（2+ε）/（1+ε）s2），令α=（2+ε）/（1+ε），則本文提出的NEFS 算法的時間復雜度為：

2.3 SINEFS

本文算法indexed-NEFS 將LSH 算法和NE 計算的過程結合在一起，并且在LSH 構建流程中進行了優化。在2.2 節中提到，LSH 構建索引的過程中，需要當前用于計算NE 的波段子集構建索引，但是本文在D維數據集上只構建了一次索引，也就是在全特征下構建了一次。當NE 子集進行計算時，第一個過程就是獲取一個樣本點的全特征索引，然后在樣本點的哈希表中搜索NN 個樣本點。這是基于以下兩點考慮的：首先，對于D維數據集，利用數據表達的空間信息，樣本點的鄰域集合在全特征的情況下，也是特征子集s樣本點的鄰域集合，其中s

3 實驗與結果分析

3.1 實驗數據集

為了評估提出算法的性能，本節將詳細闡述高光譜波段選擇的實驗結果。首先簡單說明實驗中采用的兩個高光譜圖像數據集：Indian Pines 和Salinas。

Indian Pines 數據集從普渡大學多光譜圖像數據分析小組的站點下載。該數據集為NASA 在1992 年6 月12 日采用JPL 的機載可見/紅外成像光譜儀傳感器采集，它具有每像素20 m 的空間分辨率和10 nm 光譜分辨率，涵蓋光譜0.4 μm～2.5 μm。本文實驗中的數據集為此次采集的一張較大圖像的子集，由145×145 個像素，224 個光譜反射帶組成，圖1 為Indian Pines 數據集的三通道圖像。

圖1 Indian Pines 三通道圖像Fig.1 Three-channel image in Indian Pines

通過移除受水汽影響以及噪聲波段對應的數據，實驗中采用的Indian Pines 數據集的波段個數為200（移除104～108、150～163 以及220 波段）。數據集各個類標樣本量的詳細信息如表1 所示，地物信息主要包括了蔬菜、植被以及公路鐵路。

表1 Indian Pines數據集的類標以及相應的樣本數Tab.1 Class labels and corresponding numbers of samples in Indian Pines dataset

Salinas 數據集從加利福尼亞州Salinas 山谷上空采集，傳感器為AVIRIS，包含了224 個波段，具有高空間分辨率（每像素3.7 m）的特征以及512×217 個像素點。和Indian Pines 數據集一樣，移除了20 個吸水的波段以及噪聲波段（移除108～112、154～167 以及224 波段）。圖2 為Salinas 數據集的三通道圖像。

圖2 Salinas數據集的三通道圖像Fig.2 Three-channel image in Salinas dataset

數據集各個類標樣本量的詳細信息如表2 所示，地物信息主要包括了蔬菜、土壤以及葡萄園。

表2 Salinas數據集的類標以及相應的樣本數Tab.2 Class labels and corresponding numbers of samples in Salinas dataset

3.2 實驗設計

本文提出的算法將與其他基于MI 的特征選擇算法進行波段選擇實驗進行比對，其中包括1.2 節提及的mRMRMIFS、NMI、X-MIFS 以及WaLuMI。

算法執行效率將通過時間復雜度的分析以及算法CPU時間進行對比，以評價LSH 對鄰域集合搜索效率帶來的提升。并通過分類實驗體現SINEFS 算法的可靠性以及有效性。

在本文的實驗中，最佳的波段個數是不確定的，不同數據集上最優的波段個數也會存在差異，所以各個算法選擇的波段個數范圍從5 到60，以等步長5 依次增加。

完成波段選擇算法后，將采用分類任務對選取波段的有效性進行評價。主要采用的分類器為支持向量機（Support Vector Machine，SVM）、徑向基核函數（Radial Basis Function，RBF）、隨機森林（Random Forest，RF）分類器進行分類，其中RF 樹個數設置為20。通過分類器計算獲取各個特征作用下，分類的總體精度（Overall Accuracy，OA）和Kappa 系數（Kappa Coefficience，KC）。此外，為了使分類結果的可信度提升，進行10 次十折交叉驗證，對于每種特征選擇算法，分類實驗中分別在兩個數據集隨機劃分樣本集合作為訓練集和測試集，并將OA 和KC 的均值作為結果進行比對。

所有算法在8 核64 位，CPU 頻率在2.6 GHz，內存16 GB的計算機上運行。算法通過Python3 實現，所有算法在實現過程中沒有利用語言特性或者相關張量計算庫提升運算性能，算法按照偽代碼的實現步驟進行編寫，以保證所有實驗結果的有效性。實驗中的分類器采用第三方庫sklearn 提供的SVM 和RF，以獲取有效的OA 和KC 進行實驗結果比對。

3.3 時間復雜度分析

為了有效地比對各個算法的時間復雜度，如3.2 節說明的，對選擇特征值的個數進行設置。雖然從時間復雜度進行分析所選波段的個數只是部分影響因素，但是算法在實際運行過程中，選擇特征的個數對執行效率影響較大。

對于mRMR-MIFS，算法計算相關性的時間和樣本數量為線性關系，且為正相關。隨著搜索樣本數量的增加，算法執行的時間也會增加。算法計算相關性最差的情況是O（N）。算法循環的過程中，需要執行O（|S|）次計算以獲取特征之間的相關性，并更新特征子集中最大相關性的值。該算法的時間復雜度為CmRMR-MIFS=O（DNs2）。

NMI 算法在執行過程中需要對計算出來的特征對進行排序，排序算法采用堆排序，時間復雜度為O（NlogN），其中N為樣本個數。考慮已選擇的特征個數s，NMI 的時間復雜度為CNMI=O（DNslogN）。

X-MIFS 算法和NEFS 的貪婪搜索過程一致，不同之處在于評價指標為MI，NEFS 為NE。在計算MI 的過程中需要用到修改的式（3），將其中的概率分布函數用多維直方圖的預估器進行替換。在X-MIFS 實現的過程中需要對特征二進制化，所以對于每個子集，通過對所有點的線性遍歷來估計聯合概率分布和邊際概率分布。因此選擇s個特征的時間復雜度為CX-MIFS=O（DNs2）。

WaLuMI 算法在執行過程中主要包括兩個部分。首先是聚類部分，對于一個型為L×L的距離矩陣，以及特征個數為D的數據集，聚類部分的時間復雜度為O（L2D）。第二部分進行離散的子集MI 計算。該計算部分和聚類后的特征子集個數，以及MI 計算過程相關，時間復雜度為O（LDN）。所以WaLuMI 的時間復雜度為O（LDN+L2D）。表3 顯示了各類算法的時間復雜度。

表3 各個算法的時間復雜度Tab.3 Time complexity of each algorithm

為了能夠測試各類算法運行的效率，在表4 中顯示了用CPU 的時間模型，數據集固定在DN，s為10，L為N的1/4，ε=15，各類算法運行時間的最小二乘法線性模型。

表4 CPU時間線性模型Tab.4 CPU time linear model

結合3.2 節NEFS 的時間復雜度分析結果可知，NEFS 在各類算法的比對中較慢，因為會消耗大量時間進行索引構建以及NNs 的搜索。SINEFS 在引入單次構建LSH 索引后，α≈1，即執行效率會接近NMI，相較于NEFS 效率有顯著的提升；mRMR-MIFS、WaLuMI 和X-MIFS 是速度較快的算法，其中X-MIFS 運用了二進制特征，使得其執行效率較高。當WaLuMI 設置距離矩陣L較大，以及數據集特征數量多時，執行消耗會增加。

3.4 分類實驗結果與分析

3.4.1 Indian Pines數據集實驗結果

本節分析并比對各類算法在Indian Pines 數據集上的實驗結果。圖3 顯示了各個算法選取的波段子集，以及全波段集合，采用SVM 以及RF 進行分類的OA 值。

當分類器選取SVM 時，由圖3（a）可知，全波段OA 為77.56%，選取波段個數小于20 時，除了SINEFS，其他算法選取的波段OA 低于全波段OA；當波段子集數為40 時，WaLuMI 選取的波段子集OA 超過了其他算法選取的波段子集，且OA 超過了SINEFS；當選取波段個數超過50 時，X-MIFS 的OA 超過了全波段OA；mRMR-MIFS 和NMI 的性能較差，選擇的波段子集均未超過全波段OA。WaLuMI 在60個波段子集時OA 達到了最優，為83.90%。根據實驗結果，SINEFS 選取的波段子集，能夠較快地超過全波段OA。

當分類器選取RF 時，根據圖3（b），除了NMI 在5 個選取波段的OA 值，其他算法OA 的整體結果優于SVM。其中全波段OA 為79.80%。當波段子集數為30 時，SINEFS、WaLuMI 以及X-MIFS 的OA 值優于全波段OA。在波段子集數為35 和40 時，SINEFS 的OA 值分別為84.45%和84.85%，WaLuMI 的OA 值分別為84.62%和84.71%。雖然SINEFS 在波段子集數為40 時OA 最高，但是在這個區間的OA 結果兩種算法差別不明顯。

圖3 Indian Pines數據集上采用SVM以及RF進行分類實驗的OA值Fig.3 OA values of classification experiments using SVM and RF on Indian Pines dataset

圖4 顯示了各個算法選取不同波段子集，以及全波段集合，采用SVM 和RF 進行分類的KC 值。

圖4 Indian Pines數據集上采用SVM以及RF進行分類實驗的KC值Fig.4 KC values of classification experiments using SVM and RF on Indian Pines dataset

從圖4（a）的KC 值來看，當選取波段子集為15 時，SINEFS 的KC 為0.736 6，優于全波段以及其他算法的KC值；WaLuMI 和X-MIFS 在40 個波段子集時超過了全波段KC。當SINEFS 選取波段子集為55 時，KC 為最高的0.797 6。其他算法在RF 分類器的分類結果相較于SVM 呈現上升趨勢，在高于55 個波段子集時，除了WaLuMI，KC 值有一定的回落。

從圖4（b）的KC 值分析，全波段KC 值為0.754 6，SINEFS 在30 個波段子集超過了全波段KC 值，為0.772 4，同樣為所有算法中最快超過全波段的算法。SINEFS 和X-MIFS隨著波段子集的增加，KC 值也在增加，在波段個數為55 時，達到最優0.837 5。在波段個數為60 時，SINEFS 的KC 值有回落，但是依然高于其他算法以及全波段KC 值。

3.4.2 Salinas數據集實驗結果

在本節，分析并比對各類算法在Salinas 數據集上的實驗結果。圖5 顯示了各個算法選取的波段子集，以及全波段集合，采用SVM 以及RF 進行分類的OA 值。對比圖3 和圖5 可以看出，在Salinas 數據集上，兩種分類器獲取的OA 值均高于Indian Pines 數據。

圖5 在Salinas數據集上采用SVM以及RF進行分類實驗的OA值Fig.5 OA values of classification experiments using SVM and RF on Salinas dataset

當分類器選取SVM 時，根據圖5（a），全波段OA 值為77.56%。SINEFS 和WaLuMI 在10 個波段子集時OA 值分別為77.32%和77.88%，OA 值較為接近，WaLuMI 先超過了全波段OA 值。在波段子集數為15 時，SINEFS 的OA 值超過全波段OA 值，為79.71%。其他算法OA 值均隨著波段子集的個數增加，逐漸超過全波段OA 值。在選取40 個波段子集時，SINEFS 超過WaLuMI 達到最高OA 值，為92.99%。波段子集數范圍在25～55 時，SINEFS 的OA 值優于WaLuMI 及其他算法，在60 個波段子集，SINEFS 的OA 值回落，WaLuMI 有小幅度增加。

當分類器選取RF 時，根據圖5（b），SINEFS 為OA 值增加最快的算法，當選取10 個波段時，OA 值為80.70%，高于全波段的79.80%。波段子集區間10～40 時，SINEFS 高于其他算法。但是在45 個波段時，WaLuMI 達到了最佳OA，值為93.43%，SINEFS 的OA 值開始小幅度下降。其他算法在波段數位25 時均超過全波段OA，并在后面的特征集合中呈上升趨勢。

圖6 顯示了各類算法在Salinas 數據集上KC 值的實驗結果。相較于圖4 中顯示的結果，在Salinas 數據集上KC 值整體優于Indian Pines 數據集。

圖6 Salinas數據集上采用SVM以及RF進行分類實驗的KC值Fig.6 KC values of classification experiments using SVM and RF on Salinas dataset

根據圖6（a），SINEFS 在20 個波段子集時超過全波段KC 值，其中SINEFS 為0.755 3，全波段KC 為0.734。波段子集數范圍在30～40 時，WaLuMI 的KC 值優于SINEFS 及其他算法，但是SINEFS 在所有波段區間都保持了增長的趨勢，而WaluMI 出現了回落。mRMR-NEFS、NMI、X-MIFS 在整個效果上優于Indian Pines 數據集，且在波段子集數為35 時，均超過了全波段的KC 值。

根據圖6（b），SINEFS 在10 個波段的KC 值超過了全波段KC 值，分別為0.775 5 和0.754 6。波段數在5～40 時，SINEFS 的KC 值均優于其他算法，在波段數為30 時，SINEFS的KC 達到最大值0.860 8。WaLuMI 的KC 值在波段數為45時達到實驗最佳，為0.872 2。其他算法KC 值均優于Indian Pines 數據集，且在波段數為30 及以上，均超過了全波段的KC 值。

4 結語

本文根據MI 理論，提出了一種基于MI 波段選擇算法，該算法通過最小化NE，同時最大化特征和輸出變量之間的MI。該算法采取了貪婪的搜索策略，以及LSH 優化NNs 的搜索過程，以獲取最優的波段子集。本文通過實驗比對其他基于MI 的特征選擇算法，實驗結果顯示，相較于其他比對算法，本文提出的SINEFS 可以更快地達到較優的波段子集，能在較小的波段集合的區間獲取較優的分類效果；但是本文的鄰域搜索過程中LSH 的參數設定為人為設定，隨著數據集的變化，需要預先計算以獲取最優參數，后續需要采用其他技術進行優化，以適用于更多的工作場景。