王正海,方 臣,何鳳萍,祖玉川,王 磊,王 娟
(1.中山大學地球科學系,廣東 廣州 510275;2.廣東省地質(zhì)過程與礦產(chǎn)資源探查重點實驗室,廣東 廣州 510275;3.湖北省地質(zhì)調(diào)查院,湖北 武漢 430034)
高光譜遙感作為一種新興的遙感技術在地質(zhì)領域得到了廣泛的應用,特別是高光譜數(shù)據(jù)能以足夠高的波譜分辨率、豐富的波譜信息區(qū)分各種礦物和巖石在電磁波譜上顯示的診斷波譜特性,進而定量識別不同的礦物成份,因而在地質(zhì)礦物分類及制圖上具有良好的應用前景[1-2]。然而,高光譜數(shù)據(jù)量大、維數(shù)高的特點又使其在處理上具有特殊性。目前常用的多光譜遙感圖像的一些分類方法不能對高光譜數(shù)據(jù)進行有效處理,如人工神經(jīng)網(wǎng)絡分類、獨立成分分析等在高維問題中無法有效解決Hughes現(xiàn)象和保證小樣本下的分類精度問題[3-5]。
支持向量機(SVM)在1979年由Vapnik首先提出,算法的基本思想是為了尋找分離兩種類別的數(shù)據(jù)集之間的超平面,然后通過機器學習,在潛在高維空間中尋找最優(yōu)分類邊界,實現(xiàn)最優(yōu)分類[5-6]。作為小樣本統(tǒng)計學習的最佳理論,支持向量機應用于分類時具有適用于高維特征空間、小樣本統(tǒng)計學習及抗噪聲影響能力強等特點,正在成為人工智能和機器學習領域新的研究熱點。
由于支持向量機主要是解決兩類的分類問題,而野外實測巖石樣品有多種類型,因此需要對支持向量機算法加以改進來實現(xiàn)多類分類,為此,本文提出了一種基于決策樹的多分類的支持向量機算法(DT-SVMs),通過構(gòu)建多個兩類支持向量分類機來實現(xiàn)多分類,建立一種基于決策樹的多類分類支持向量機的野外實測巖性波譜分類模型。
本文首先對野外實測巖石波譜數(shù)據(jù)進行預處理,如波譜曲線光滑、水汽影響波段去除等,然后,對預處理后實測巖石波譜數(shù)據(jù)進行特征提取,找到巖石波譜差異信息,構(gòu)建巖性波譜特征參數(shù)空間。由于支持向量機主要是解決兩類的分類問題,而實測巖石波譜有多種類型,因此需要對支持向量機算法加以改進來實現(xiàn)多類分類。本文引入了一種基于決策樹的多分類的支持向量機算法,通過構(gòu)建多個兩類支持向量分類機來實現(xiàn)多分類,即巖石波譜預處理、特征提取、決策分類數(shù)構(gòu)建和支持向量機分類四個步驟來實現(xiàn)巖石樣品的分類識別。
地物波譜特征分析是高光譜遙感信息提取的基礎。區(qū)分和找到不同地物的波譜差異,是通過遙感技術識別地物的關鍵。本文利用野外波譜儀獲取巖石波譜信息,研究野外采集巖石波譜特征,選擇出能夠有效反映地物屬性的波段區(qū)間,從中發(fā)掘表征巖石特性的診斷波譜區(qū)間和特征參數(shù),進而實現(xiàn)巖石波譜分類。
1.1.1 包絡線去除 原始巖石波譜的譜形特征變化不明顯(圖1),包絡線去除法可以有效地增強巖石波譜的譜形特征變化[7-8]。包絡線直觀來看相當于波譜曲線的“外殼”,近似與曲線中各個波峰點連起來的折線,在求出包絡線后可以對波譜曲線進行包絡線去除,包絡線去除后的波譜曲線是原始波譜曲線與包絡線的比值[9]。

圖1 包絡線去除前后的波譜曲線
1.1.2 吸收谷特征參數(shù) 為了準確的表述波譜吸收波段的位置形態(tài),通過巖石波譜曲線吸收谷的特性分析,引入吸收波段波長位置(P)、深度(h)、寬度(w)、對稱度、面積(A)六個波譜吸收特征參量[7-9]。吸收波段位置是吸收峰反射率最小值處的波長;吸收深度為吸收谷點M到兩個肩部端點Ss、Se所組成的“非吸收基線”的距離;寬度指最大吸收深度一半處的波譜帶寬;對稱度可定義為以過吸收位置的垂線為界線,右邊區(qū)域面積與左邊區(qū)域面積比值,面積為寬度和深度的綜合參數(shù)(圖2)。

圖2 波譜吸收特征參量
由于水汽吸收的干擾,巖石波譜曲線被劃分為350~1 300、1 500~1 800、2 000~2 400 nm三個波段區(qū)間。在2 000~2 400 nm可以提取波譜的吸收特征,對該區(qū)間吸收谷計算吸收深度(h)、吸收寬度(w)、吸收面積(A)、吸收對稱性、吸收指數(shù)(SAI)。在1 500~1 800 nm巖石反射率曲線變化比較平緩,無法找到不同巖石類型的波譜差異,舍棄。實測巖石波譜在750~1 000 nm有比較明顯的上升趨勢,不同巖性的波譜曲線上升幅度有所差異。為此,通過多項式擬合的方法將該波段的曲線用多項式y(tǒng)=kx+b表達,這樣利用參數(shù)k和b就可以表達該波段曲線的上升特征(圖3)。

圖3 不同巖性的波譜曲線
1.2.1 支持向量機基本思想 支持向量機最開始是研究兩類的線性分類問題,核心思想就是把數(shù)據(jù)非線性映射到高維特征空間,在高維特征空間中構(gòu)造具有低 VC 維的最優(yōu)分類超平面,使分類風險上界最小。基本思想可以由圖4得出,圖4中,實心點和空心點代表兩類樣本,H為分類線。

圖4 線性可分情況下的最優(yōu)分類線
假定訓練樣本數(shù)據(jù)(x1 ,y1),…,(xi ,yi),x∈Rn,y∈{+1,-1},可以被一個超平面分開,進行正歸化后,此時分類間隔為2/‖w‖,為了使分類間隔最大,即‖w‖2最小。因此最優(yōu)分類問題可以表示成一個二次規(guī)劃問題,即求函數(shù)
s.t.yi((w·xi)+b)≥1,i=1,…,l
的最小值。我們可以通過尋求上式的對偶問題來求解最小值,為此可以引入Lagrange函數(shù)
其中,αi>0為Lagrange系數(shù),然后對w和b求Lagrange函數(shù)的極小值[10-13]。
1.2.2 核函數(shù) 上述介紹的是基于線性分類的支持向量機,而實際上分類問題更多是非線性分類,因此,需要把線性支持向量機推廣到一般的非線性支持向量機。通過樣本數(shù)據(jù)變換到高維空間中實現(xiàn)非線性分劃到線性分劃的轉(zhuǎn)化。為此,需要引入核函數(shù),其定義為:如果存在Rn到Hilbert空間H的變換
使得
K(x,x′)=(Φ(x)·Φ(x)′)
定義函數(shù)K(x,x′)為核函數(shù),常用的核函數(shù)有多項式核函數(shù)、徑向基(RBF)核函數(shù)、Sigmoid核函數(shù)等[14]。
支持向量機主要用于解決兩類的分類問題,巖石波譜數(shù)據(jù)有多種類別,因此需要對標準的支持向量機進行改進。本文探索研究引入基于決策樹的多類支持向量機,在訓練層的頂層結(jié)點構(gòu)建一個超平面把某一類和其他所有類分離,然后在剩下的類中繼續(xù)構(gòu)建一個超平面把其中一類分離出來,重復上述操作直到所有類都被一一分離出來。如何分析各個類別之間的關系是應用此方法的關鍵。本文采用了基于歐氏距離的決策樹。
對于兩個類i和j,兩個類之間的歐氏距離,首先計算每個類的中心位置
Xi是類i的所有樣本向量,ni是類i的樣本數(shù),類i和j的歐氏距離是
dij(=dji)=‖ci-cj‖
比較各個類別之間的歐氏距離來決定決策樹的構(gòu)建順序,其具體構(gòu)建步驟為(圖5)。
1)依次計算一類樣本Xi的中心與其他所有類別Xj的中心的歐氏距離dij;
2)對于類i,定義它與其他類的歐氏距離的最小值為i的距離li
將(i=1,…,N)按從大到小的順序排列,有最大的那一類將被首先分離,以此可以構(gòu)建該類與剩下所有類的超平面;
3)如果遇到多個類的的值是相等的,可以比較這些類第二最小距離的大小,然后按照(2)中的方法處理,如果也出現(xiàn)相等的情況則按上述方法繼續(xù)比較下去,直到所有類別都能分離出來;
4)最后,各類按順序依次構(gòu)建N-1個支持向量分類機,將所有類別分離出來。

圖5 決策樹示意圖
FieldSpectr Fr野外波譜儀測量的數(shù)據(jù)是在350~ 2 500 nm范圍內(nèi)地物波譜的反射率。為了避免水汽吸收對波譜整體形態(tài)和數(shù)據(jù)處理的影響,通過分析具體數(shù)據(jù)和借鑒有關文獻的結(jié)論,剔除了3個水汽吸收峰影響嚴重的波段區(qū)域,具體的剔除范圍為1 350~1 416、1 800~1 970、2 470~2 500 nm。剔除水汽吸收波段后對剔除的部分采用插值方法處理,本文采用的是三次多項式擬合的插值方法。
本文使用的巖石波譜采集自云南北衙地區(qū),該地區(qū)有大型金礦床,因此主要采集與礦化有關的蝕變巖和圍巖,包括鐵化白云質(zhì)灰?guī)r、鐵化白云質(zhì)泥灰?guī)r、灰?guī)r角礫巖、斑巖和微晶灰?guī)r等。選取了6類巖石波譜數(shù)據(jù),共48個波譜數(shù)據(jù),首先對波譜中噪聲比較大的兩個波段區(qū)進行過濾并重新插值,然后對整個波譜進行平滑處理以消除鋸齒,再使用包絡線去除找到波譜曲線中比較明顯的波峰波谷位置的波長。對350~1 000 nm波段的曲線進行多項式擬合提取參數(shù)k和b;對2 000~2 400 nm波段的吸收谷計算吸收深度、吸收寬度、吸收面積、吸收對稱性、吸收指數(shù)。表1是部分巖石波譜曲線通過計算提取的11個特征參量。
對于研究的48個巖石樣品波譜數(shù)據(jù),選取32個樣品作為訓練樣本,其余16個樣品作為測試樣本用來檢測分類機的分類精度。首先,對32個訓練樣本的變量進行歸一化處理,以消除各參量之間的差異,便于對比分析。通過各類中心計算各類別之間的歐氏距離(表2)。該6類巖石的分類順序依次為類2、類1、類5、類3、類6、類4。這樣就需要構(gòu)造5個支持向量分類機,每個分類機的懲罰因子C通過網(wǎng)格遍歷和交叉驗證的方法獲得最優(yōu)值,經(jīng)過測試C的最優(yōu)值分別為C1=2、C2=32、C3=2、C4=512、C5=2,最終的分類結(jié)果如表3。由表3中可以看出:16個測試樣品有1個樣品被錯誤分類,分類精度為93.75%。有一個深灰色鐵化白云質(zhì)泥灰?guī)r錯分成鐵化白云質(zhì)灰?guī)r。
針對地面巖石波譜的高維、多類特點,本文首先詳細研究了巖石波譜的曲線特征,根據(jù)吸收特征提取了吸收位置、吸收深度、吸收寬度、吸收對稱性、吸收面積和吸收指數(shù)等特征參數(shù),結(jié)果表明提取的特征參數(shù)可以很好地保留巖石波譜的特征信息;其次,在分析SVM分類方法的基礎上,引入決策樹思想(即根據(jù)各類樣本中心的歐氏距離的大小依次分離),構(gòu)建了一種基于決策樹的多分類支持向量機的地面巖石高光譜遙感分類模型。結(jié)果表明在巖石波譜分類有很好的推廣性。
基于決策樹的多分類支持向量機的地面巖石高光譜遙感分類模型,在以下方面還有待進一步深入研究:①巖石波譜特征并沒有出現(xiàn)與礦物波譜完全對應特征吸收帶,原因可能是巖石混合波譜的成像機理不明或波譜預處理不當,如何有效實現(xiàn)巖石波譜分解,建立相應的巖石波譜與礦物波譜的量化對應模型,礦物波譜與元素含量的對應模型是進一步推動遙感地質(zhì)發(fā)展的契機;②決策樹判別準則的選取以及SVM核函數(shù)的選擇和改進是進一步提高分類精度的研究方向。
表1 部分巖石波譜的特征參量1)
Table 1 Descriptive characteristic spectrum parameters from a part of rocks

類別編號K1K2K3K4K5K6K7K8K9K10K111by1 0190 3480-0 00230 4930 5770 6792 3210 08880 2380 0163-0 52581 0493by1 0210 12920 08380 4830 5890 6772 3310 07540 2380 0082-0 64301 0694wlp 0340 2902-0 01060 5360 5770 6862 3280 14500 2590 0163-0 21871 14592wds 0460 2360-0 06800 4220 9951 1302 2000 17500 1120 0114-0 22261 1865wds 0490 2527-0 05560 4120 9961 1262 2060 18070 1180 0137-0 45401 1761wds 0500 2757-0 07020 4200 9991 1282 2060 15110 1200 0093-0 47671 16683by2 0160 2421-0 04520 5030 5660 6842 3190 04380 1240 0026-0 22511 0370by3 0000 3951-0 08710 5070 5680 6862 3140 05320 1230 0034-0 14451 0523by3 0040 5789-0 10150 5100 5630 7222 3150 07260 1220 0043-0 10541 06674wds 0300 22790 10200 4950 5610 6812 3100 20890 1320 0129-0 00561 2125wds 0360 4621-0 09890 5250 5650 6922 3130 16560 1430 0107-0 11651 1741wds 0620 2853-0 08070 4890 5600 6722 3270 11360 1290 0107-0 39811 10255by1 0060 2505-0 00460 4970 5620 7432 3060 12460 1310 0134-0 06251 0509by2 0480 4214-0 09460 4970 5700 6822 3160 08410 1490 0054-0 26431 0789jgb 0060 3201-0 11410 5070 5480 6752 3190 11180 1230 0114-0 36401 06806hnp 0300 2786-0 07070 4980 5800 6772 3100 06760 1610 0058-0 09081 0725by2 0460 3821-0 12500 4920 5830 6762 3190 07680 1630 0052-0 26791 0782wds 0000 2508-0 01970 4820 5860 6922 3140 30110 1600 0513-0 09611 0693
1)1表示灰黃色蠕蟲狀泥灰?guī)r;2表示紫紅色含礫粘土砂礫巖;3表示灰色白云質(zhì)砂屑灰?guī)r;4表示灰色泥砂膠結(jié)灰?guī)r角礫巖;5表示深灰色鐵化白云質(zhì)泥灰?guī)r;6表示紅色鐵化白云質(zhì)灰?guī)r;K1:多項式擬合系數(shù)k;K2:多項式擬合系數(shù)b;K3:吸收谷位置λ1/μm;K4:吸收峰位置λ2/μm;K5:吸收谷位置λ3/μm;K6:吸收谷位置λ4/μm;K7:吸收深度H;K8:吸收寬度D/μm;K9:吸收面積S;K10:吸收對稱性K;K11:吸收指數(shù)SAI

表2 樣本間歐氏距離

表3 巖石波譜分類結(jié)果
參考文獻:
[1]張宗貴,王潤生,郭小方,等. 基于地物光譜特征的成像光譜遙感礦物識別方法[J]. 地學前緣, 2003,10(2):437-443.
[2]陳文霞,陳安升,蔡之華. 基于高光譜吸收特征參數(shù)的分類研究[J].計算機工程與應用,2008,44(28):230-232.
[3]ZHU Guobin, BLUMBERG Dan G. Classification using ASTER data and SVM algorithms: The case study of Beer Sheva, Israel[J]. Remote Sensing of Environment,2002,80(2):233-240.
[4]ANDERS Knudby, ELLSWORTH LeDrew, ALEXANDER Brenning. Predictive mapping of reef fish species richness, diversity and biomass in Zanzibar using IKONOS imagery and machine-learning techniques[J]. Remote Sensing of Environment,2010,114(6):1230-1241.
[5]BJOM Waske, JON Atli Benediktsson. Fusion of support vector machines for classification of multisensor data,Geoscience and Remote Sensing[J]. IEEE Transactions on,2007,45(12):3858-3866.
[6]MATTIA Marconcini, GUSTAVO Camps-Valls, LORENZO Bruzzone. A composite semisupervised SVM for classification of hyperspectral images[J]. Geoscience and Remote Sensing Letters, IEEE,2009,6(2):234-238.
[7]梁亮,楊敏華,李英芳. 基于ICA與SVM算法的高光譜遙感影像分類[J]. 光譜學與光譜分析,2010,30(10):2724-2728.
[8]楊佳佳,姜琦剛,趙靜,等. 基于改進的SVM技術和高光譜遙感的標準礦物定量計算[J]. 吉林大學學報:地球科學版,2012,42(3):864-871.
[9]徐元進,胡光道,張振飛. 包絡線消除法及其在野外光譜分類中的應用[J]. 地理與地理信息科學,2005,21(6):11-14.
[10]黃婷婷,韋志輝,修連存,等. 基于吸收峰加權(quán)的巖礦光譜匹配方法研究[J]. 巖礦測試,2011,30(5):584-589.
[11]Vladimir Naumovich Vapnik. The nature of statistical learning theory[M]. 北京:淸華大學出版社,2000.
[12]譚琨,杜培軍. 基于支持向量機的高光譜遙感圖像分類[J]. 紅外與毫米波學報,2008,27(2): 123-128 .
[13]唐發(fā)明. 基于統(tǒng)計學習理論的支撐向量機算法 [D]. 武漢:華中科技大學, 2005.
[14]張學工. 關于統(tǒng)計學習理論與支持向量機[J]. 自動化學報,2000,26(1):36-46.