楊磊,劉智,王番,王剛,魏德強
(信息工程大學測繪學院,河南 鄭州 450052)
波譜信息作為影像信息的主要內容,為影像處理、分析、解譯提供了重要的定量信息[1]。多光譜遙感影像擁有眾多波段并包含大量的波譜信息,但由于其波段之間具有較強的相關性,導致很多信息重復或冗余。如果不加分辨地使用全部波段進行遙感影像分類或目標識別,不僅會增加計算量,還會影響處理精度和效果。這種影響可以通過降低波段維數得到有效地抑制,即在特征選擇時,如何從數十甚至上百個波段中選擇最佳波段,盡量減少冗余特征,在損失光譜信息盡量少的情況下準確、完整地表達光譜特征,成為一個值得研究的問題。
傳統意義上數據降維可以用波段選擇和線性變換來實現,其中經典的方法有主成份分析法(PCA)、K-L變換(纓帽變換)等,但這些方法也不同程度存在一些缺陷,比如線性變換法按照一定的規律旋轉圖像光譜空間坐標系來突出主要分量,達到壓縮數據的目的,雖然速度很快,但是改變了圖像的特性。本文提出的方法是在遙感圖像處理中引入形式概念分析的思想,將多光譜影像看成一個形式背景,以各個波段作為形式屬性,通過選擇核心屬性達到最佳波段選擇的目的,實現數據降維。該方法與其他方法相比,不僅更簡潔高效,而且在不改變圖像特性的前提下更直觀。最后,通過遙感影像分類驗證了使用選擇出的最佳波段比使用全波段的效果更好。
形式概念分析(Formal Concept Analysis,簡稱FCA)是由德國數學家Wille R.于1982年提出的一種基于概念的數據挖掘和知識獲取的數學方法。作為應用格理論的一個分支,概念格理論通過對象和屬性之間的對應關系直觀生動地表達了概念之間的泛化和特化的關系。張文修教授、魏玲博士等人提出了概念格的屬性約簡理論[2]。通常意義下的屬性約簡就是在不改變形式背景的概念結構和層次的前提下尋求最簡化的屬性集,用這個屬性集表示的概念格與用所有屬性表示的概念格同構[3-6]。
定義1.1形式背景[2]:一個形式背景可表達為一個三元組Κ(U,A,I),其中U和A是兩個有限集,U={x1,x2,x3,…,xn}為對象集,U的元素xi(i 一個形式化的背景可以表示成一個交叉表,比如一個形式背景中:對象集U={1,2,3,4},屬性集A={a,b,c,d,e},I表示對象具有屬性,則對應的表如下: 表1.1 形式背景表Tab1.1 The Formal Context 定義1.2[2]:設X、B分別是對象集合U和屬性集合A的子集。我們定義: f(X)={a∈A|坌x∈X,xIa}(A中對象共同屬性的集合); g(B)={x∈U|坌a∈B,xIa}(具有B中所有屬性的對象的集合)。以后為了方便表示令f(X)=X*,g(B)=B*. 定義1.3[2]:設L(U,A,I)是概念格,其所有概念外延的集合記為LU(U,A,I)={X|(X,B)∈L(U,A,I)}.若對于兩個概念格: L(U,A1,I1)和L(U,A2,I2),LU(U,A1,I1)=LU(U,A2,I2),則稱L(U,A1,I1)與L(U,A2,I2)相等,記作L(U,A1,I1)=UL(U,A2,I2). 如果L(U,A1,I1)=UL(U,A2,I2),顯然有L(U,A1,I1)艿L(U,A2,I2). 定義1.4[2]:對于形式背景(U,A,I),如果存在屬性D哿A,使得L(U,D,ID)=UL(U,A,I),則稱D是(U,A,I)的協調集。若進一步坌d∈D,L(U,D-g0gggggg,ID-g0gggggg)≠UL(U,A2,I2),則稱D是(U,A,I)的約簡。 所有(U,A,I)約簡的交集稱為(U,A,I)的核心。對于任何形式背景,其約簡一定存在,但不一定唯一。 針對表1.1這個背景,概念格如下: (1,abde),(24,abc),(13,d),(124,ab),(U,覫),(覫,A)。相應的Hasse圖為圖1: 圖1 背景(U,A,I)的概念格Fig1 The concept lattice of context(U,A,I) 定理1.1[2]:設(U,A,I)是形式背景,可將屬性集A中的元素分為以下3種:絕對必要屬性(核心屬性)、相對必要屬性和絕對不必要屬性。其中,非核心中的屬性稱為不必要屬性,它要么是相對必要屬性,要么是絕對不必要屬性。坌a∈A,記Ga={g|g∈A,g*勱a*}.下列命題成立: 由此我們可以找到形式背景的約簡方法:首先根據上述定理對每一個屬性進行判別,如果沒有相對必要屬性,則背景對應的核心屬性就是唯一的約簡;如果有相對必要屬性,將其中屬性值相同的分成一組,從每組相對必要屬性中取一個屬性與核心屬性集取并集,這就是一個約簡,由此所有組合就是全部約簡。例如表1.1所示的背景中屬性可有如下判別: 其背景的約簡有兩個:D1={a,c,d},D2={b,c,d}.c,d為絕對必要屬性(核心屬性),a,b為相對必要屬性,e為絕對不要必要屬性。形式背景(U,D1,ID1)的概念格如圖2,顯然它與圖1所示的概念格同構。 圖2 背景(U,D1,ID1)的概念格Fig2 The concept lattice of context(U,D1,ID1) 多光譜遙感影像處理一般是針對多波段光譜信息的聯合處理,因此不但要考慮單個波段影像的統計特征,還要考慮波段間存在的相關性[7]。以下是常用的波段統計參量: 單波段圖像(M×N)Aij(i=1,2,3…M;j=1,2,3…N),A0表示整幅圖像的平均灰度值即: 標準差S定義為: 相關系數是描述波段影像間的相關程度的統計量,反映了兩個波段影像包含信息的重疊程度。即 美國查維茨提出最佳指數OIF的概念,該方法可以給出n個波段組合中最優的指數大小,定義為: 此節討論了基于概念格屬性約簡理論和離散化算法的多光譜遙感圖像的波段約簡的具體步驟。首先我們將每個波段作為一個屬性列,每個像素對應為形式對象行,此時多光譜圖像成為一個信息背景表,在此基礎上通過閾值離散化將該信息表中的數值離散化為形式概念分析可以處理的0-1形式,最后按照第1節中的定理1.1的方法提取出核心屬性(最佳波段)。該方法的優點是快速簡單,與其他方法相比不僅節省了人力和時間,而且初步實現波段的優化組合。以下是流程框圖: 圖3 波段選擇流程框圖Fig3 The flow chart of wave band selection 本實驗為了減少計算量,截取了一幅TM圖像的250×200的范圍進行實驗驗證。此實驗圖像的各個波段(1~6波段分別對應藍波段、綠波段、紅波段、近紅外波段、紅外波段和熱紅外波段)灰度圖像如圖4所示: 圖4 TM圖像的各波段原始影像Fig4 Original images of TM image 將6個波段的影像通過圖像處理獲取其灰度值,以每個波段為屬性,然后形成形如表1.1的信息系統表,由于數據太多,并且圖像左邊有黑邊,所以只從每個波段圖像第30列截取其中20個數據顯示如表4.1: 表4.1 原始TM遙感數據Tab4.1 The data of original TM image 由于表4.1內各個波段對應的值很繁雜,采用等間隔(閾值取110)的方法將其離散化,得到形式背景表4.2: 表4.2 形式背景Tab4.2 Formal context 根據定理1.1中的方法計算得出該背景的核心屬性為 (Band1、Band5), 相對必要屬性為(Band2、Band4、Band6),絕對不必要屬性為(Band3)。 因此約簡結果是波段{1,2,5}、波段{1,4,5}或波段{1,5,6}。但要綜合考慮到波段影像所包含的信息量,參考表4.3表示的由第2節中提出標準差方法排列的波段信息量: 表4.3 波段標準差Tab4.3 standard dispersion of every band 由上表得知波段的信息量按大小排列為:Band5>Band3>Band2>Band1>Band4>Band6,由此得出最佳波段選擇結果波段{1,2,5}。 實驗結果分析:根據本文提出的方法得到的三個最佳波段組合可以通過第2節中提到的參量來驗證其有效性。如表4.4和表4.5所示,波段組合的方式應按照下面順序選擇:{1,2,5}>{1,2,3}>{1,3,5}>{1,2,4}>…,而通過波段間相關系數比較,波段{1,2,5}優于波段{1,4,5}和波段{1,5,6}。通過綜上所述,波段約簡得出的結果是有效的。 表4.4 波段間相關系數Tab4.4 The correlation coefficient of bands 表4.5 波段組合的最佳指數Tab4.5 The OIF of bands 為了檢驗選擇出的最佳波段用于分類中的效果,利用K-mean分類法對不同的圖像分類,結果如圖5所示,圖5(a)為原始圖像,圖5(b)為本文方法選擇出的最佳波段合成的偽彩色圖像,5(c)為利用K-mean分類法對圖5(b)分類后的效果圖,圖5(d)為對全波段影像即圖(a)用K-mean分類后的效果圖。對比兩張效果圖,我們不難發現,本文提出的最佳波段分類效果要好于使用全波段參與分類的效果,因此,我們不僅驗證了在遙感影像處理中波段選擇和數據降維的必要性,也證明了本文提出的波段選擇方法是行之有效的。 (1)對于多光譜遙感影像,進行數據降維和波段選擇是必要的,這樣不僅可以縮短影像處理時間,減少計算量,而且很大程度上改善了光譜特征的應用效果。 (2)在多光譜遙感影像處理中引入形式概念分析的理論成果,應用屬性約簡的思想實現最優波段的組合選擇是可行的,而且本文方法的計算時間只消耗在核心屬性的提取上,相比其他方法節省了時間和人力。 (3)本文設計的波段選擇方法只是利用概念格理論成果到遙感影像處理中的一個初步嘗試,對于當前應用廣泛的高光譜影像,由于其波段眾多,本文方法的計算量就過于龐大,難于實現。在第4節中采用的閾值離散化方法中所選取的閾值110是通過人工干預選取的,并非機器學習后自動獲取的,這個問題還有待進一步更好地解決。本文力圖引進一種數據降維和最優波段組合的新方法,其相關應用還需進一步探索和開發。 [1]朱述龍,朱寶山,王紅衛.遙感圖像處理與應用[M].科學出[1]版社,2006(2). [2]張文修,魏玲,祁建軍.概念格的屬性約簡理論與方法.中[1]國科學E輯信息科學.2005,35(6):628-639. [3]Ganter B,Wille R.Formal concept analysis: mathecal[1]foundations.New York:Springer Verlag,1999. [4]Wille R.Restructuring lattice theory:an approach based on[1]hierarchies of concepts.In:Rival I.(ed.)Ordered sets.Reidel:[1]Dordrecht-Boston,1982,445-470. [5]Godin R.Incremental concept formation algorithm based on[1]Galois(concept)lattices.Computational Intelligence,1995,11[1](2):246-247. [6]張文修,姚一豫,梁怡.粗糙集與概念格[M].西安交通大學[1]出版社,2006(7). [7]錢樂祥等.遙感數字影像處理與地理特征提?。跰].科學出[1]版社,2004(7).



3 多光譜遙感影像波段統計參量
3.1 各波段影像標準差:


3.2 相關系數[7]:

3.3 最佳指數(Optimal Index Factor,OIF)[1]:

4 波段選擇的流程設計及相關計算


5 實驗







6 結論