張輝遠
(中鐵第四勘察設計院集團有限公司,湖北武漢 430063)
基于高光譜影像的流形學習降維方法近鄰畸變分析
張輝遠
(中鐵第四勘察設計院集團有限公司,湖北武漢 430063)
為了驗證高光譜遙感影像數據經流形學習方法降維后數據之間關系的變化,提出了一種新的流形學習降維效果評估方法:近鄰畸變參數分析。該方法簡單直觀,不需先驗知識,能直觀顯示降維后數據在地理空間中產生的變化,通過參數統計顯示降維效果的好壞。
流形學習 高光譜遙感 降維 評估
高光譜分辨率遙感是采集和處理可見光、近紅外以及短波熱紅外波段范圍內窄波段“連續”電磁光譜信息的遙感成像及分析技術。目前,高光譜遙感領域已形成了由地面測量到星載平臺的完整觀測體系,是國家地理國情監測的重要數據來源。但是光譜維度觀測的大幅提升加重了其處理過程的存儲負擔與計算復雜度,其中非線性的相關性特征更降低了傳統高光譜遙感影像數據分析的精度。高光譜遙感影像的降維,尤其是非線性降維方法是解決這些問題的必要手段,也是目前遙感數據解譯領域的研究熱點問題之一。
流形學習方法是一種新型的非線性降維方法,已在模式識別領域建立了完整的理論體系,取得了豐富的應用成果,在遙感土地覆蓋與利用中的應用也越來越多。流形學習算法降維效果的評估是實踐流形學習方法的一個重要環節。好的評估方法不僅可以檢驗具體流形學習算法模型的特征提取能力,也能為流形學習算法參數的選擇提供必要參考。目前,針對流形學習特征提取算法的研究中涉及降維效果評估方法的研究內容不多。標準化模型數據演算方法評估流形學習算法的降維效果是最常用的方法,該類方法能直觀反映理想狀況下流形學習算法模型提取非線性特征的能力,但是無法驗證在真實數據集(如高光譜遙感影像)上流形學習算法模型的降維效果。由于流形學習方法將嵌入在高維空間中的非線性空間投影到低維的歐式空間中,以歐式距離為度量的聚類方法成為了檢驗流形學習方法在真實數據集上降維結果的自然選擇。Mohan[1]使用局部線性嵌入方法與等角特征映射算法對AVIRIS影像降維時采用K近鄰聚類方法對降維結果進行聚類分析;Talwalkar等[2]采用K均值聚類算法分析流形學習方法在CMU-PIE與Webfaces-18M臉譜數據庫上的降維效果,優化了評價聚類精度的參數;最終通過精確度(Accuracy)與純凈度(Purity)兩個參數衡量流形學習算法的降維效果。Kokiopoulou等[3]、曾恒等[4]以及徐蓉等[5]同樣采用聚類方法驗證在臉譜數據庫、筆跡數據庫、語音數據庫等各類真實數據集中流形學習算法的降維效果。聚類方法雖然能夠較好的反映低維歐式空間中數據的分布規律以及離散程度,但是其初始參數較多,無法保證算法收斂等問題,使其難以保證評估結果的一致性。使用聚類方法對流形學習降維效果的評估必須建立在具備測試數據先驗知識或標記(labeled)的基礎上,這些因素導致聚類方法在解決高光譜遙感影像降維效果評估時存在局限性。
提出一個基于高光譜遙感影像的流形學習降維效果評估方法。該方法利用遙感影像圖譜雙重性的特點,采用近鄰畸變參數衡量流形學習降維前后對影像特征的影響,該方法僅需少量預設參數,在無先驗知識的前提下能取得與聚類評估方法相似的評估結果。

等角特征映射法利用流形極小鄰域滿足歐式空間性質這一特點求算原數據集中任意兩點間測地線距離,并通過多位排列方法(Multi-dimensional Scale)在低維空間中找到一組數據集,使其任意兩點間相對距離關系與原始數據集中兩點測地線距離關系一致,從而得到原始數據集非線性特征在低維歐式空間中的表達。為了得到兩點間測地線距離,只需設定原始數據空間中任意點的近鄰大小,并有
其中xi與xj為原始空間中任意一點,Ki為xi的近鄰集合,dij為xi與xj的距離。以dij為邊長建立原始數據點的距離圖,并計算點間在距離圖上的最小距離既為兩點之間的測地線距離。
拉普拉斯特征映射算法同樣也是尋求原始數據集的非線性特征與低維歐式空間的等角映射。但是,等角特征映射方法利用測地線距離保留全局特征,而拉普拉斯特征映射算法則尋求在局部保持空間點與近鄰點幾何關系的同胚映射。拉普拉斯特征映射算法同樣需構件近鄰關系,并建立權陣

目前在以上兩種方法的基礎上衍生出的流形學習算法模型逐日增多。但是,如前文中所述,在使用一個流形學習方法模型時,必須對其基本參數進行設置,如輸入數據點的近鄰集大小等。因此,一個可靠且便捷的流形學習算法評估模型是使用流形學習算法時的必要工具。
對于一個理想的特征提取方法,其降維結果中性質相同的點間分布更密集,距離更近;而性質不同的點間分布更稀疏,距離更遠,這也是使用聚類方法評估流形學習算法降維效果的依據。對于高光譜遙感影像而言,其在譜空間降維后的變化也能體現在地理空間中,即經過特征提取降維后,高光譜遙感影像中性質相同的像素之間差異應當變小,性質相異的像素之間差異應當變大。
近鄰畸變參數則利用高光譜遙感影像這種圖譜二重性的特點,通過檢驗在地理空間上,降維后數據的點間相關性變化來反映其在光譜空間中的變化。如圖1,高光譜遙感影像中任意像素a,對應原光譜空間中的向量Va以及降維后的嵌入空間中的向量Va。令{bi}(i=1,2,…,n)為a在影像中的n個鄰像元集,并對應光譜空間中的向量集{Vbj}以及降維后的嵌入空間中的向量集{Vbj}。則像素a的近鄰畸變參數為
(1)
其中ωi為權重系數,即像素a相鄰像素bi的相關系數距離變化占像素a近鄰畸變參數的比例;根據具體情況的不同,可選擇不同的相鄰像素窗口大小以及權重系數的分布。當相鄰像素窗口為1階窗口時(即3×3窗口),ωi的選擇通常有如圖2中的三種方式:式(1)中的corr(·,·)為向量間的相關性系數。由于流形學習算法過程中的歸一化過程,像元間的一些度量關系會有較大的變化。例如:因縮放關系,降維后像元間的歐式距離單位往往和原空間相差很遠(如圖1右上圖中,向量元素的最大值不超過1,而圖1右下圖中,降維后的向量元素取值區間在-50到10之間);同樣,由于平移變化,降維后空間原點位置往往改變很大,因此光譜角投影距離也無法用于比較降維前后空間點分布的變化關系。相關系數距離是唯一能衡量高維空間中點間關系相對變化關系的度量。

圖1 近鄰畸變參數原理

圖2 近鄰畸變參數中權重系數的分布方法
在流形學習算法降維效果評估實驗中,采用了Indian Pine 數據集。該數據集截取于AVIRIS機載高光譜成像傳感器在美國印第安納州獲取的影像,是最常用的基準測試數據集之一。該影像的空間分辨率為30 m,影像大小為145像素×145像素, 共21 025個高光譜數據點。該影像包含由400到2 500 nm共220個有效波段,在去掉水氣吸收帶與噪聲較大的波段,保留有158個波段,該數據集主要覆蓋農業用地。如圖3所示,圖3(a)為高光譜影像假彩色圖,該影像包含158個光譜波段,并利用FLAASH大氣校正模型得到每個波段的反射率值。圖3(b)為流形學習算法降維后得到的由近鄰畸變參數構成的灰度圖,顏色由白至黑代表近鄰畸變程度由低變高。圖3(c)為以像素近鄰畸變參數值為Z軸,影像空間坐標為X,Y軸的近鄰畸變參數三維重建圖。通過計算整幅影像的近鄰畸變參數,可以直觀的得到高光譜遙感影像降維前后在地理空間鄰近像素之間發生的變化。
通過圖3(b)和3(c),可以直接觀察到高光譜影像降維后與原始影像相比發生的變化。在影像中不同地物鄰接區域內產生了較大的畸變;而在同類型地物內部,則畸變小,且畸變程度相同。這符合前文中對特征提取方法降維結果的分析,即:性質相同的點間分布更密集,距離更近;而性質不同的點間分布更稀疏,距離更遠。性質不同的像素點多分布于影像中不同地物的邊緣,而性質相同的像素點分布于同一地物內部。為了區分這兩種變化,引入一個邊緣掩膜分割近鄰畸變參數結果,該邊緣掩膜即可通過邊緣提取算法獲得,如canny算子、sobel算子等;也可通過人工操作從影像中標注出地物的邊緣信息。掩膜內部像素上的畸變參數為良性近鄰畸變,掩膜外部像素上的畸變參數為惡性近鄰畸變參數。通過對良性近鄰畸變參數和惡性近鄰畸變參數的統計分析,可以得到特征提取方法降維結果的定量數值。良性近鄰畸變參數均值越高則表明特征提取方法提取特征的能力越強,反之則越弱;而惡性近鄰畸變參數均值越高則表明特征提取方法保留原有數據信息的能力越弱,反之則越強。

圖3 近鄰畸變參數
本實驗分別考察了本征緯度(即降維后數據集的維數),最小近鄰大小,以及采用度量方法對流形學習算法降維效果的影響。在圖4的每個分圖中,由上自下分別為使用歐式距離時的良性畸變,使用光譜角度量時的良性畸變,使用歐式距離時的惡性畸變,以及使用光譜角度量時的惡性畸變。四個分圖由(a)至(d),分別為本征維數變化時等角特征映射算法的近鄰畸變變化,最小近鄰數變化時等角特征映射算法的近鄰畸變變化,本征維數變化時的拉普拉斯特征映射算法的近鄰畸變變化,以及最小近鄰數變化時的拉普拉斯特征映射算法的近鄰畸變變化。
其中,使用光譜角度量時的近鄰畸變整體要小于歐式距離;等角特征映射算法的良性畸變參數與拉普拉斯特征映射算法基本相同,但拉普拉斯特征映射算法的惡性畸變參數要小于等角特征映射算法。隨著本征維度的上升,兩種算法的近鄰畸變參數同樣會升高,等角特征映射算法的近鄰畸變參數始終隨著本征維度的上升而升高,而拉普拉斯特征映射算法的近鄰畸變參數在本征維度超過15以后上升幅度趨緩。當原數據近鄰數小于5時,兩種流形學習算法的近鄰畸變參數都有明顯的下降。從實驗結果可以看出,近鄰畸變參數的變化與流形學習原理聯系緊密。例如,由于拉普拉斯特征映射算法更注重保留局部信息,因此能得到跟低的惡性畸變參數;并且拉普拉斯特征映射采用熱核函數估算數據點間關系,距離較遠的點間權重極小,因此該算法受近鄰數量設置影響較小。

圖4 流形學習方法的近鄰畸變參數分析
提出了一種新的評估流形學習降維效果方法,利用該方法并結合高光譜遙感影像,即可直觀的顯示流形學習方法在降維前后對遙感數據地理空間上的影響,也能通過參數統計反映降維方法對數據的影響的定量統計。
[1] A. Mohan, G. Sapiro, and E. Bosch, “Spatially Coherent Nonlinear Dimensionality Reduction and Segmentation of Hyperspectral Images,” IEEE Geosci. Remote Sensing Lett., 2007,4:206-210
[2] A. Talwalkar, S. Kumar, and H. Rowley, “Large-scale manifold learning,” presented at the Computer Vision and Pattern Recognition, 2008. IEEE Conference on, pp. 1-8
[3] E. Kokiopoulou and P. Frossard, “Semantic Coding by Supervised Dimensionality Reduction,” Multimedia, IEEE Transactions on, 2008,10(5):806-818
[4] 曾恒.流形學習在高速列車安全性態評估數據分析中的應用[D].成都:西南交通大學,2007
[5] 徐蓉.流形學習概述[J].智能系統學報,2006(1)
[6] 殷興青,韓巖,張忠良.遙感融合影像在攝影測量應用中的質量評價[J].鐵道勘察,2008(6)
[7] 余峰,余潔,簡驍.基于Hough變換的高分辨率遙感影像道路提取方法研究[J].鐵道勘察,2011(5)
[8] 譚偉.基于圖像的鐵軌缺陷檢測系統的算法研究及軟件設計[D].大連:大連海事大學,2004
[9] 李渝勤,孫麗華.基于規則的自動分類在文本分類中的應用[J].中文信息學報,2004(4)
[10]鄭麗,潘建平.基于數學形態學的遙感圖像道路提取[J].鐵道勘察,2010(1)
AnalyzeofManifoldLearningDescendingDimensionMethodNeighbourDistortionDependonHyperspectralVideo
ZHANG Hui-yuan
2014-01-21
張輝遠(1961—),男,1982年畢業于上海鐵道學院鐵道工程專業,高級工程師。
1672-7479(2014)02-0037-04
P237
: A