999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Matlab仿真的數據降維實驗設計

2016-11-16 08:10:48張文盛劉忠寶
實驗技術與管理 2016年9期
關鍵詞:實驗方法

張文盛, 劉忠寶

(1. 山西大學商務學院 信息中心, 山西 太原 030031;2. 中北大學 計算機與控制工程學院, 山西 太原 030051)

?

基于Matlab仿真的數據降維實驗設計

張文盛1, 劉忠寶2

(1. 山西大學商務學院 信息中心, 山西 太原030031;2. 中北大學 計算機與控制工程學院, 山西 太原030051)

在Matlab的基礎上,以3種經典的數據降維方法——主成分分析(PCA)、線性判別分析(LDA)和保局投影算法(LPP)為例,給出3種降維方法的最優化比較結果,對數據降維實驗方法進行了探討和設計。通過UCI標準數據集和ORL、Yale人臉數據集的比較實驗表明:3種降維方法均能較好地完成降維任務,其中LPP和LDA數據降維方法效率較優,但在不同的實驗條件下,表現略有不同。

數據降維; Matlab仿真; 主成分分析; 線性判別分析; 保局投影算法

隨著互聯網的飛速發展,產生了海量數據,如何從海量數據中挖掘有用知識成為一個熱點問題。數據挖掘是從大量的數據中提取知識的處理過程,研究數據挖掘技術具有重要的現實意義。數據降維是數據挖掘的重點問題之一。數據降維指從高維數據獲取一個能真實反映原始數據固有特性的低維表示[1]。本文以3種經典的數據降維方法——主成分分析(principal component analysis,PCA)[2]、線性判別分析(linear discriminant analysis,LDA)[3]和保局投影算法(locally preserving projections,LPP)[4]為例,對數據降維實驗方法進行深入探討。鑒于Matlab優良的數據處理能力及其在分析統計和圖形繪制方面具的優勢,筆者提出基于Matlab仿真的數據降維實驗設計方法。學生在學習數據降維的基本理論后,利用Matlab實現上述3種降維算法,通過對標準UCI數據集和人臉數據集實驗的深入分析,加深對數據降維知識的理解。

1 數據降維方法

假設x=(x1,x2,…,xN)T為由N個d維樣本xi(i=1,2,…,N)組成的數據集,Ni(i=1,2,…,c)為各類樣本數,其中c為類別數。

1.1主成分分析(PCA)

主成分分析的基本思想是通過對高維數據進行壓縮,從而獲得一組具有代表性的統計特征。主成分分析能夠用較少的特征來描述原始數據,并且保證在降維的同時盡量保持數據的原始特征。本質上,主成分分析可以轉化為計算數據矩陣x協方差的特征值和特征向量問題[5]。對數據矩陣x中的各行向量進行零均值處理后可得x的協方差矩陣:

(1)

對上式中C進行正交分解有

(2)

其中λ=diag(λ1,λ2,…,λN),λi(i=1,2,…,N)為C的特征值且按降序排列;V=[V1,V2,…,VN],Vi(i=1,2,…,N)為與特征值λi對應的特征向量,將其稱為第i個主成分方向。

數據集x在前n個主成分方向上降維后的信息保留率θ為

(3)

在實際應用中,一般取θ>0.85。

1.2線性判別分析(LDA)

線性判別分析保證樣本在其找到的降維方向上具有較好的可分度,即同類樣本盡可能緊密,而異類樣本盡可能遠離[6]。上述思想可由如下優化問題表示:

(4)

其中,WLDA為線性判別分析找到的降維方向,SB是類間離散度,表示異類樣本之間的距離;SW是類內離散度,表示同類樣本之間的距離。SB和SW的定義如下:

(5)

(6)

1.3保局投影算法(LPP)

保局投影算法的基本思想是保持高維數據在降維過程中相對關系不變,該思想可由如下最優化問題表示:

(7)

(8)

其中WLPP為降維方向,Dii=∑jSij,權重函數Sij用來表征樣本之間的相似度,其定義如下:

(9)

其中t為常數。

上述最優化問題經代數變換可得如下形式:

(10)

(11)

其中L=D-S。

保局投影算法的降維方向WLPP可由方程XLXTWLPP=λXDXTWLPP的特征向量得到。

2 實驗設計

實驗的軟硬件環境是IntelCorei3CPU,4GRAM,Windows7和Matlab7.0。實驗的基本步驟如下:

(1) 將實驗數據集按照一定比例劃分為訓練數據集和測試數據集;

(2) 在訓練數據集上分別運行PCA、LPP、LDA等降維方法,得到相應的降維方向WPCA、WLPP、WLDA;

(3) 將測試數據集中的樣本依次投影到降維方向WPCA、WLPP、WLDA上;

(4) 將降維后的測試樣本通過支持向量機(supportvectormachine,SVM)與訓練樣本進行比較,得到識別結果。

2.1UCI數據集上的實驗

選取UCI標準數據集中的Wine數據集[9],該數據集中樣本數為178,類別數為3,維度為13。在上述數據集上分別運行PCA、LPP、LDA等降維方法,降維數為2,支持向量機算法的參數為

實驗結果如圖1所示,其中class1、class2、class3分別表示3類樣本。

由圖1可以看出:通過PCA降維后的3類樣本重疊率較高,而且數據分布很不規律,降維效率較低;LPP和LDA均能較好地完成降維,但兩者表現略有不同。通過LPP降維后的樣本分布較為松散,并在各類邊界有一定的重疊,但基本上能將3類樣本分開;通過LDA降維后的樣本分布緊湊,特別是3類樣本沒有重疊,與PCA和LPP相比,LDA降維能力較優。這是因為LDA在降維時保證同類樣本距離盡可能近,而異類樣本盡可能遠,因此,通過LDA降維后的樣本具有良好的可分性。

圖1 UCI數據集上的實驗結果

2.2人臉數據集上的實驗

實驗選取ORL人臉數據集和Yale人臉數據集,其中ORL人臉數據集包括40個人、每人10幅圖像、共400幅圖像,Yale人臉數據集包括15個人的165幅圖像。上述人臉數據集的部分人臉圖像如圖2所示。實驗分別選取ORL人臉數據集每人前m(m=4,5,6,7)幅圖像以及Yale人臉數據集每人前n(n=5,6,7,8)幅圖像為訓練數據集,剩余樣本用作測試。支持向量機的實驗參數和在ORL、Yale數據集上分別運行PCA、LPP、LDA等降維方法,得到的實驗結果如表1所示。

圖2 人臉數據集部分人臉圖像

數據集參數kPCALPPLDAORLδ2=x-2,C=0.540.8167(30)0.8458(28)0.8875(30)50.8550(20)0.8950(24)0.9150(28)60.8563(18)0.9563(28)0.9188(28)70.8917(22)0.9167(20)0.9333(28)Yaleδ2=4x-2,C=0.150.6778(12)0.7556(14)0.7889(14)60.6533(14)0.6933(14)0.7467(12)70.7667(12)0.8500(12)0.9000(14)80.8222(10)0.8889(12)0.8667(12)

注:括號外的值表示算法的識別率,括號內的值表示取得相應識別率時的維數。

由表1可以看出:與PCA和LPP相比,LDA在大多數情況下均能得到最優的降維效率。當訓練樣本選取ORL人臉數據集每人前m(m=4,5,7)幅圖像以及Yale人臉數據集每人前n(n=5,6,7)幅圖像為訓練數據集時,LDA具有最優的降維效率;當訓練樣本選取ORL人臉數據集每人前6幅圖像以及Yale人臉數據集每人前8幅圖像為訓練數據集時,LPP的降維效率最優,LDA次之,但兩者相差不大。PCA在上述ORL和Yale人臉數據集上基本能完成降維,但降維效率較LPP和LDA低。

2.3進一步的實驗

另外,LDA和LPP分別基于樣本的全局特征和局部特征進行降維。需要研究一種兼顧樣本的全局特征和局部特征的新的降維方法,以進一步提高降維效率。

3 結語

本文在Matlab的基礎上,對PCA、LDA、LPP數據降維方法進行了實驗研究。通過UCI標準數據集以及人臉數據集的降維實驗表明,LPP和LDA數據降維方法效率較優,但在不同的實驗條件下表現略有不同。該實驗有助于學生深入理解數據降維的基本理論,為后續分類和聚類方法的學習奠定基礎。

References)

[1] 劉忠寶.基于核的降維和分類方法及其應用研究[D].無錫:江南大學,2012.

[2] Du M J,Ding S F,Jia H J. Study on density peaks clustering based on k-nearest neighbors and principal component analysis[J].Knowledge-Based Systems,2016,99:135-145.

[3] Belhumeur P N, Hespanha J P, Kriegman D J. Eigenfaces vs. Fisherfaces:recognition Using Class Specific Linear Projection[J].IEEE Trans on Pattern Analysis and Machine Intelligence,1997,19(7):711-720.

[4] He X F,Niyogi P. Locality Preserving Projections[C]//Advances in Neural Information Processing Systems (NIPS).Vancouver,2003:153-160.

[5] Nobi A,Lee J W. State and group dynamics of world stock market by principal component analysis[J].Physica A:Statistical Mechanics and its Applications,2016,450:85-94.

[6] 王明合,張二華,唐振民,等.基于Fisher線性判別分析的語音信號端點檢測方法[J].電子與信息學報,2015,37(6):1343-1349.

[7] Zhao Y,Wang K. Fast cross validation for regularized extreme learning machine[J].Journal of Systems Engineering and Electronics,2014,25(5):895-900.

[8] 郭美麗,覃錫忠,賈振紅,等.基于改進的網格搜索SVR的話務預測模型[J].計算機工程與科學,2014,36(4):707-712.

[9] University of California Irvine. UCI Machine Learning Repository[EB/OL].http://archive. ics.uci.edu/ml/datasets/Wine.

[10] Alibeigi M,Hashemi S,Hamzeh A. DBFS:an effective density based feature selection scheme for small sample size and high dimensional imbalanced data sets[J].Data & Knowledge Engineering,2012,81/82(4):67-103.

Design of dimension reduction experiments based on Matlab simulation

Zhang Wensheng1, Liu Zhongbao2

(1. Information Center,Business College of Shanxi University,Taiyuan 030031,China;2. School of Computer and Control Engineering,North University of China,Taiyuan 030051,China)

The dimension reduction experiments based on Matlab simulation are designed. The performances of several traditional dimension reduction methods such as the principal component analysis (PCA), the linear discriminant analysis (LDA), the locally preserving projection (LPP) algorithm are compared in the standard datasets,and it can be concluded that the above methods can complete the dimension reduction task while their performances are slightly different from each other in different cases.

dimension reduction; Matlab simulation; principal component analysis (PCA); linear discriminant analysis (LDA); locally preserving projection(LPP)algorithm

10.16791/j.cnki.sjg.2016.09.030

2016-03-31

山西省高等學??萍紕撔马椖?2014142)

張文盛(1974—),男,山西曲沃,碩士,實驗師,主要研究領域為實驗室信息化建設

E-mail:hello811120@sina.com

劉忠寶(1981—),男,山西太谷,博士,副教授,主要研究領域為智能信息處理.

E-mail:liu_zhongbao@hotmail.com

TP391

A

1002-4956(2016)9-0119-03

猜你喜歡
實驗方法
記一次有趣的實驗
微型實驗里看“燃燒”
做個怪怪長實驗
學習方法
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 国产高清毛片| 日本精品视频| 国产黑丝一区| 久久影院一区二区h| 国产欧美另类| 日韩欧美高清视频| 国产大片黄在线观看| 亚洲va欧美va国产综合下载| 欧美一区福利| 在线亚洲精品福利网址导航| 亚洲国产欧美中日韩成人综合视频| 91极品美女高潮叫床在线观看| 国产精品极品美女自在线| 中文字幕无线码一区| 国产内射一区亚洲| 久久精品一品道久久精品 | 免费人成又黄又爽的视频网站| 特级毛片8级毛片免费观看| 欧美午夜理伦三级在线观看| 国产青青草视频| 尤物视频一区| 国产97视频在线| 久草青青在线视频| 国产亚洲高清视频| 国产精品永久久久久| 女人一级毛片| 精品午夜国产福利观看| 毛片视频网| 国产中文一区二区苍井空| 毛片基地视频| 国产乱子伦无码精品小说| 色综合成人| 亚洲国产在一区二区三区| 精品国产免费观看| 国产91成人| 中日韩一区二区三区中文免费视频| 狠狠色噜噜狠狠狠狠色综合久| 国产精品深爱在线| 久久青草精品一区二区三区 | 熟女成人国产精品视频| 亚洲AV无码乱码在线观看裸奔 | 欧美成人午夜影院| 中文字幕第1页在线播| 四虎亚洲精品| 在线看片免费人成视久网下载| 99热这里只有成人精品国产| 97国产成人无码精品久久久| 午夜毛片免费观看视频 | 成人毛片免费观看| 免费一级无码在线网站| 真实国产乱子伦高清| 中文字幕在线视频免费| 88国产经典欧美一区二区三区| 一区二区三区四区在线| 老司机aⅴ在线精品导航| 国产精品所毛片视频| 久草网视频在线| 手机在线免费毛片| 免费A∨中文乱码专区| 性欧美精品xxxx| 无码精品一区二区久久久| 亚洲欧美自拍中文| a级毛片一区二区免费视频| 亚国产欧美在线人成| 尤物特级无码毛片免费| 亚洲欧美一区二区三区图片| 91精品人妻互换| 无码一区中文字幕| 亚洲午夜综合网| 亚洲黄网在线| 亚洲乱码精品久久久久..| 人妻丰满熟妇AV无码区| 91青青草视频在线观看的| 国产永久无码观看在线| 日韩欧美国产区| 一级一毛片a级毛片| 欧美日韩精品一区二区视频| 国产精品不卡永久免费| 国产在线精品99一区不卡| 亚洲国产天堂在线观看| yjizz国产在线视频网| AV在线天堂进入|