999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于特征選擇的遙感影像分類研究

2020-01-08 02:22:44李佳城
現代信息科技 2020年15期
關鍵詞:數據挖掘

摘 ?要:遙感圖像分類的準確性很大程度取決于特征選擇。為了解決遙感圖像數據量大而導致的分類識別處理時間長,對系統資源要求高的問題,文章提出了使用屬性子集評估器和最佳優先向前搜索方法,并結合無監督過濾器剔除掉冗余和不相關特征,最后使用J48算法構建遙感影像分類器模型。通過實驗對比證明,選擇對于建立分類器貢獻率高的特征不僅可以降低分類的建模時間,而且節省系統處理數據的資源,對于實時性要求高的遙感圖像應用尤為重要。

關鍵詞:遙感影像;特征選擇;分類器;數據挖掘

中圖分類號:TP751;P237.4 ? ? ?文獻標識碼:A 文章編號:2096-4706(2020)15-0061-03

Abstract:The accuracy of remote sensing image classification depends largely on feature selection. In order to solve the problem of long processing time and high requirements for system resources caused by the large amount of remote sensing image data,this paper proposes the use of attribute subset evaluator and the best priority forward search method,combined with unsupervised filter to eliminate redundant and irrelevant features,and finally uses J48 algorithm to build remote sensing image classifier model. The experimental results show that the selection of features with high contribution rate can not only reduce the modeling time of classification,but also save the system data processing resources,which is particularly important for remote sensing image applications with high real-time requirements.

Keywords:sensing image;feature selection;classifier;data mining

0 ?引 ?言

遙感探測獲取的重要遙感信息是遙感影像,對遙感影像的判讀和各種目標地物的分類與識別在城市規劃、土地利用及環境監測等國民經濟建設領域有著廣泛的應用[1],為此人們不斷利用先進技術對其進行分類和識別的研究[2-5]。其中遙感圖像的特征選擇是遙感影像分類的重要環節,特征選擇的有效性對于提高分類器處理數據的速率和減少系統資源的消耗至關重要。目前越來越多的數據挖掘和機器學習算法應用在遙感領域中,且使得對遙感影像的分類和識別更加快速和智能化。在上述背景下,本文基于遼寧工程技術大學“大學生創新創業訓練計劃項目”,重點研究特征選擇對于各種目標地物的分類建模時間和分類準確性的影響,該研究成果可以應用于土地利用分類,選題具有理論意義和應用價值。

1 ?特征選擇

數據預處理是使用數據挖掘和機器學習建立分類器的重要步驟,而特征選擇又是其中較為重要的一步。特征選擇是從給定的一組特征集中選擇一組能為分類起良好作用的特征子集,同時特征選擇也可以有效地減少特征空間的維度。特征選擇屬于機器學習的算法預處理步驟,優秀的特征集可以提高機器學習的準確性并且縮短分類器建模的時間。相反,有些算法如果使用不相關的、冗余的特征屬性會使得學習結果大打折扣。

給定一個特征子集F={f1,f2,…,fn},n是特征集的大小。特征選擇用二進制向量表示:D={D1,D2,…,Dn},Dt={0,1}(t=1,2,…,n),D中的每一位1和0分別表示F中相應位置的特征被選中與否,即Dt=1表示第t個特征ft被選中。反之Dt=0,表示第t個特征ft不被選擇。特征選擇優化目標函數值問題可描述為 。

特征選擇是組合優化和搜索過程,是遙感影像進行前期數據預處理的關鍵技術之一,它在執行過程中包含兩個最重要的階段,即搜索策略和評價函數。

1.1 ?搜索策略

由于搜索空間大小不同,可以使用不同搜索策略,包括啟發式搜索、窮舉搜索、不確定搜索。

啟發式搜索是根據某種特征選擇方向找到近似最優解的特征子集。通常它只是對搜索空間局部進行的搜索,一般是在空集和全集之間的一條路徑。因為它能夠快速地搜索到一個可行解,因此可以解決大規模搜索問題,但它搜索的解不能夠保證為最優解。在特征選擇研究領域啟發式搜索廣泛采用的算法可以歸納為兩大類,即最佳優先搜索(Best-first Search)和集束搜索(Beam Search)。Jain等人提出正向搜索和反向搜索及雙向搜索[6]。為了克服局部極小,出現了隨機性地對屬性增加和刪除的隨機搜索。

窮舉搜索目的是找到符合選擇判據的最優特征子集,不丟失最優解。常用窮舉搜索的算法有分支界限法、Focus算法和ABB算法。這種搜索方法當特征數目多時,必將導致搜索空間過大,算法運行時間增加,因此窮舉搜索會變得困難。

不確定性搜索是被評估的子集隨機生成,而不是順序生成。只要新產生的子集在維度、準確性等方面比當前最佳子集更好,就會被記錄下來。不確定搜索方法適用于大規模數據集的特征選擇。一般情況下,這種搜索需要的計算資源較多,收斂速度較慢,并且在很多情況下得到的是局部最優解。典型的不確定搜索算法是Kudo等人提出的遺傳算法[7]。

1.2 ?評價函數

對于一個新的特征子集,需要根據一定的條件對其進行評估,評估值決定下一個搜索方向或者停止搜索。特征選擇的評價函數用來幫助選擇對于分類器模型建立有用的特征,在評估特征時需要使用數學上的度量標準來確定,即適應度函數。根據評估函數與分類器的關系,特征選擇方法分成過濾器模式和封裝器模式。其中過濾器模式的評價函數與分類器無關,特征選擇度量上主要采用距離度量、信息度量(如信息增益和信息增益率)、相關性度量和一致性度量。封裝器模式的評價函數與分類器相關,采用分類正確率作為評價函數。其思想是通過不斷增加或減少屬性集合,觀察分類預測準確性的變化,最終選擇維數最小且分類準確性最高的屬性集合。為了綜合過濾器和封裝器兩種模式的算法各自的優點,也出現了混合型算法。過濾器模式的特征選擇在算法上保留度量簡單,計算代價小和效率高的優點,不依賴機器學習算法,但是其降維效果一般。封裝器模式的特征選擇在算法上封裝了學習算法,使用某一歸納算法結合重復統計抽樣技術來評價特征的準確性,所以其計算復雜度非常大,但是降維效果非常好。

2 ?遙感影像分類器的設計

2.1 ?遙感影像數據集

本實驗圖像數據集為遙感圖像公共數據集UC Merced Land-Use Dataset[8],該數據集由UC Merced計算機視覺實驗室于2010年發布,均提取自USGS National Map Urban Area Imagery系列。如圖1所示,此數據集公共領域圖像的像素分辨率約為0.3米(1英尺),圖像大小為256×256像素。此數據集包含21類土地利用遙感圖像,其中每類包含各100張TIFF格式圖像,共計2 100張。

實驗使用WEKA 3.8.2軟件,WEKA是懷卡托智能分析環境,使用Java語言編寫的數據挖掘機器學習軟件,是GNU協議下分發的開源軟件[9,10]。ARFF格式是WEKA軟件專用的格式,為此需要將遙感圖像公共數據集中的擴展名為TIFF格式的文件轉換為擴展名為ARFF格式的文件,再使用WEKA軟件進行后續的數據處理和分類。本實驗中是先使用Python把TIFF格式文件轉換成mat文件,再把mat文件轉換成ARFF格式文件。

2.2 ?特征選擇

遙感圖像公共數據集中的TIFF格式文件轉化成ARFF格式文件后,每類遙感圖像中的每個圖像的每條記錄由768個屬性(包含最后一個標簽屬性)組成,且每個屬性均為數值型(numeric)。實驗進行特征選擇前先使用ARFF格式文件加載器讀取ARFF格式的源數據文件,然后使用屬性子集評估器選取屬性的一個子集,并返回一個指導搜索的度量數值。實驗中我們選擇CfsSubsetEval評估器,評估數據集每個屬性的預測能力和其相互之間的冗余度。此評估器會根據算法選擇與類別屬性相關度高,但相互之間相關度低的屬性。在搜索方法上,根據屬性子集評估器CfsSubsetEval選擇Best-First Search。該方法執行帶回溯的貪婪爬山法,這里采用向前搜索,為了提高效率,緩存已評估的子集。最后使用過濾器模式中的無監督過濾器刪除遙感影像數據集中冗余或不相關屬性,為后續建立分類模型做準備。

實驗從21類遙感圖像隨機選擇5類進行特征選擇。從這5類遙感圖像中每類再隨機選擇15張遙感圖像,共計75張。按照上述使用的評估器和搜索方法,對每張圖像的256個實例進行統計,統計767個屬性中每個屬性的貢獻率,匯總統計得到表1所示的屬性貢獻率最高的前6個屬性。前6種特征屬性在分類預測中的貢獻率數值根據實驗結果從大到小依次為att_512、att_256、att_767、att_511、att_255、att_766,如表1所示。

2.3 ?實驗驗證分析

數據挖掘分類算法中的決策樹是一顆由多個判斷節點組成的樹。該算法選擇增益值最大的屬性作為判斷節點進行分類。利用屬性對當前分支節點進行相應樣本的集合劃分,所獲得的信息增益表示為Gain(A),如式(1)所示。

Gain(A)=I(S1,S2,…,Sm)-E(A) ? ? ? (1)

設屬性A={a1,a2,…,ai},且a1,a2,…,ai互不相等。集合S被屬性劃分為V個子集{S1,S2,…,Sj,…Sv},其中Sj包含了S集合中屬性A取aj值的數據樣本。屬性A被選為測試屬性用于對當前樣本集進行劃分,設Sij是子集Sj中類Ci的樣本數。根據A劃分子集的熵或期望信息E(A)如式(2)所示。

E(A)=(Sij+…+Smj)/S×I(Sij,…,Smj) ? ?(2)

設S是數據樣本集合,S1到Sm是m個不同值的屬性A分隔S而形成的V個樣本子集。類別屬性對應于m個不同類別Ci,i∈{1,2,3,…,m}。假設Si為Ci類別中的樣本數。I(S1,S2,…,Sm)為給定樣本分類的期望信息如式(3)所示。

I(S1,S2,…,Sm)=-(Si/S)×log2(Si/S) ? (3)

本實驗使用對于分類器形成貢獻率最高的前12種特征屬性att_248、att_255、att_256、att_495、att_499、att_508、att_510、att_511、att_512、att_765、att_766、att_767進行決策樹的J48算法實驗。實驗中隨機使用了21類遙感圖像中的agricultural、baseballdiamond、overpass、golfcourse、tenniscourt類,并從中再次隨機選取每類中的遙感圖像進行分類識別。對特征選擇前后使用J48算法的分類模型建模時間與分類準確率對比,如表2所示。

從表2中的實驗數據可以看到,特征屬性由767個減到12個關鍵特征屬性后,在使用J48算法作為分類器的情況下,得到的建模時間均大大縮減,而分類的準確率略低于使用全部特征屬性的效果,因此證明這12種特征在進行分類時可以滿足正確分類的要求,且分類速度提升均在10倍以上,證明所進行特征選擇的有效性。在使用特征選擇建立分類模型時,所使用的數據量大幅減少,但仍然具有較高的分類準確率,同時建模時間也大幅縮短。通過特征選擇,去除不相關和冗余信息,可有效減少存儲和處理的數據量,提高后續數據分析的效率。

3 ?結 ?論

正確地選擇出重要的特征屬性,既可以約簡數據,壓縮數據量,降低建立分類模型所需的時間,同時又能保證所建立的分類模型具有較高的分類準確性。本文根據屬性子集中每一個特征的預測能力以及它們之間的關聯性進行評估,采用啟發式搜索算法,并使用無監督過濾器刪除冗余和不相關特征屬性進行特征選擇,從而降低數據維度,減少需要處理的數據量。通過使用數據挖掘軟件進行實驗證明,經過特征選擇后建立的分類模型仍舊具有較高的分類準確率,同時極大地縮減了建模時間,節省了系統資源。

參考文獻:

[1] 李曉斌,江碧濤,王生進.光學遙感圖像場景分類技術綜述和比較 [J].無線電工程,2019,49(4):265-271.

[2] 何婧媛,阿茹罕.基于卷積神經網絡的遙感圖像分類 [J].電子設計工程,2020,28(12):109-113.

[3] 王鑫,李可,寧晨,等.基于深度卷積神經網絡和多核學習的遙感圖像分類方法 [J].電子與信息學報,2019,41(5):1098-1105.

[4] 王晨安,李浩,李靖.基于改進自組織神經網絡的遙感圖像分類研究 [J].地理空間信息,2019,17(2):51-53+86+10.

[5] 李曉斌,江碧濤,王生進.光學遙感圖像場景分類技術綜述和比較 [J].無線電工程,2019,49(4):265-271.

[6] JAIN A K,DUIN R P W,MAO J C. Statistical pattern recognition:a review [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2000,22(1):4-37.

[7] KUDO M,SKLANSKY J. Comparison of Algorithms That Select Features for Pattern Classifiers [J]. 2000,33(1):25-41.

[8] YANG Y,NEWSAM S. Bag-of-Visual-Words and Spatial Extensions for Land-Use Classification [C]//18th ACM SIGSPATIAL International Symposium on Advances in Geographic Information Systems,ACM-GIS 2010.New York:Association for Computing Machinery,2010:270-279.

[9] 曹洪濤,張拯寧,李明,等.基于C4.5決策樹的多特征遙感分類方法 [J].測繪工程,2016,25(3):73-76.

[10] 馬晶,蒲倫,徐月,等.基于Weka平臺的C4.5算法在影像分類中的應用 [J].測繪與空間地理信息,2017,40(5):52-55.

作者簡介:李佳城(2001—),男,漢族,遼寧鞍山人,本科在讀,研究方向:計算機技術在遙感測繪領域的應用。

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 亚洲va在线∨a天堂va欧美va| 午夜国产小视频| 999国产精品永久免费视频精品久久| 91国内在线观看| a毛片免费在线观看| 四虎影视库国产精品一区| 国产欧美视频一区二区三区| 日韩精品一区二区三区swag| 欧美日韩91| 精品黑人一区二区三区| 久久99蜜桃精品久久久久小说| 国产理论精品| 日本手机在线视频| 日韩在线网址| 久久亚洲天堂| 国产在线精彩视频二区| 成人免费一区二区三区| 成人国内精品久久久久影院| 亚洲床戏一区| 日韩无码视频播放| 国产欧美日韩91| 成人精品视频一区二区在线| 中文成人无码国产亚洲| 97国产成人无码精品久久久| 亚洲精品777| 视频一本大道香蕉久在线播放| 日韩福利视频导航| 岛国精品一区免费视频在线观看| 国产成年女人特黄特色大片免费| 亚洲av日韩av制服丝袜| 国产精品污污在线观看网站| 国产区免费| 色婷婷狠狠干| 亚洲日韩精品综合在线一区二区 | 国产91精品久久| 国产亚洲精品自在久久不卡| 夜夜操狠狠操| 国产综合精品日本亚洲777| 91福利一区二区三区| 97国产在线播放| 亚洲综合婷婷激情| 99精品国产自在现线观看| 国产又粗又猛又爽| 久久久久国色AV免费观看性色| 激情乱人伦| 99资源在线| 日韩精品无码一级毛片免费| 国产爽爽视频| 国产精品九九视频| 久久亚洲综合伊人| 18禁黄无遮挡网站| 午夜精品一区二区蜜桃| 亚洲第一精品福利| 五月天久久综合| 人人爽人人爽人人片| 成人午夜精品一级毛片| 久久精品人人做人人| 国产色图在线观看| 国产美女精品人人做人人爽| 国产成在线观看免费视频| 黄色网站在线观看无码| 欧美日韩国产精品va| 六月婷婷精品视频在线观看| 国产视频入口| 伊人成人在线| 一本视频精品中文字幕| 天堂成人在线| 欧洲亚洲欧美国产日本高清| 高清不卡一区二区三区香蕉| 亚洲精品你懂的| 日韩欧美综合在线制服| 国产精品视频a| 亚洲精品大秀视频| 香蕉久久国产精品免| 国产成人免费视频精品一区二区| 激情综合五月网| 久久永久免费人妻精品| 伦精品一区二区三区视频| 免费一看一级毛片| 少妇极品熟妇人妻专区视频| 亚卅精品无码久久毛片乌克兰| 伊人91在线|