詹鵬偉 謝小姣
摘 要:高維數據將會給數據分析帶來極大的困難,因其所導致的數據分布稀疏化和數據組織效果的下降將會大大影響模型的性能。降維就是用于解決“維度災難”的方法之一。文章從PCA、LLE、Isomap三種常見的降維方法入手,首先介紹了它們的實現原理,進一步結合KNN、SVM、RandomForest、Naive Bayes以及Logistics Regression模型構建了用于評價三種降維方法的綜合交叉模型。結果表明,在文章所使用的數據集中,經過PCA方法與Isomap方法降維后的數據在可視的2維空間上分布較為均勻,而LLE方法分布則較為集中。且使用了PCA與Isomap方法的分類模型訓練后的平均準確率高達96.44%與96.90%,高于LLE方法處理后所得的90.74%,PCA與Isomap具有較優的降維效果。本研究中所采用的方法與所得的結果為降維方法的選擇提供了有益的參考。
關鍵詞:降維;PCA;LLE;Isomap;效果評估
中圖分類號:TP311.13 文獻標志碼:A 文章編號:2095-2945(2018)21-0022-03
Abstract: High-dimensional data will bring great difficulties to data analysis, and the sparse distribution of data and the decline of data organization effect it causes will greatly affect the performance of the model. Dimensionality reduction is one of the ways to solve the "dimension disaster". Starting with three common dimensionality reduction methods, i.e., PCA, LLE and Isomap, this paper introduces their implementation principles, and then constructs a comprehensive cross model for evaluating the three dimensionality reduction methods based on the models of KNN, SVM, RandomForest, Naive Bayes and Logistics Regression. The results show that in the data set used in this paper, after dimensionality reduction by PCA method and Isomap method, the distribution of the data is uniform in the visible two-dimensional space, while the distribution of LLE method is more concentrated. The average accuracy of the classification model trained with PCA and Isomap is 96.44% and 96.90%, which is higher than 90.74% with Isomap and 90.74% with LLE. The methods used in this study and the results obtained provide a useful reference for the choice of dimensionality reduction methods.
Keywords: dimensionality reduction; PCA; LLE; Isomap; effect evaluation
引言
隨著計算機和互聯網的發展,數據呈現爆炸式的增長,高維數據已經越來越常見。但是隨著數據維度的增加,數據利用的難度也越來越高。因“維度災難”而導致模型的參數估計困難,模型結果下降的情況已經影響到了包括機器學習、模式識別、自然語言處理在內的諸多領域。隨著數據維度的增高,會導致數據的分布越來越稀疏、數據的組織效果下降,且對計算機硬件的要求也更高,這些問題都會導致模型性能下降、效率下降,給數據分析帶來了極大的挑戰。
為了解決“維度災難”的問題,研究者們提出了一系列用于數據降維的方法,本文將從包括PCA(主成分分析)、LLE(局部線性嵌入)、Isomap(等距特征映射)在內的三種常用的降維方法入手,介紹它們的實現原理,并分別搭配KNN、SVM、RandomForest、Naive Bayes、Logistic Regression分類模型在Collagen spectroscopy數據集上綜合探究不同降維方法與分類器組合的性能與效果。
1 數據與材料
1.1 數據集
本文采用了Collagen spectroscopy數據集,該數據集通過使用傅里葉變換紅外光譜(FTIR)測量細胞數據并對細胞中不同部位的化合物含量進行標注。數據一共有731例樣本,每個樣本包含234個特征,樣本被分為四類:膠原、糖原、血脂及DNA。
1.2 數據預處理
為了消除量綱對降維與分類結果的影響,首先對數據進行標準化處理,將每個特征集合X={x1,x2,…,xN},映射到[0,1]區間,方法為:
2.3 Isomap(等距特征映射)
Isomap(Isometric Mapping)是由Tenenbaum于2000年提出的[3],其認為高維空間中的直線距離在低維空間中是不可達的,并引入了“測地線”距離來代替直線距離進行計算。其算法過程為:
(1)確定領域,對xi的領域進行搜索,找到K個最鄰近的樣本點。(2)計算xi與K個最鄰近的樣本點之間的歐氏距離,其余點認為無窮遠,構造距離矩陣。(3)利用Dijkstra算法或Floyd算法計算任意樣本點之間的距離,并將該距離作為MDS(Multiple DimensionalScaling,多維縮放)算法的輸入,MDS所返回的結果的集合即為X在低維空間的映射。
3 建立模型
為了比較上述的三種降維算法的效果,本文選擇了五種常見的分類算法(KNN、SVM、RandomForest、Naive Bayes、Logistic Regression)來使用降維之后的數據進行分類預測,構建交叉模型,將三種不同的降維方法與以上五種分類模型分別組合,組成用于評價降維方法性能的綜合交叉模型,可通過不同模型分類結果的投票評分找出性能最優的降維算法,如圖1所示。
4 實驗結果與分析
為了方便可視化,我們將三種降維方法的目標維度d'都設置為2,于是在三種不同的降維方法下,原始數據集的731個樣本被映射到2維空間后的分布如圖2所示。
可見經過三種降維方法的映射之后,數據的投影在2維空間內呈現不同的分布。其中經過PCA與Isomap處理之后的數據分散的較為均勻,而LLE處理之后的數據則集中分布在幾條線上。在這樣的降維結果下,為了探究降維算法對最終分類結果的影響,進一步將降維之后的2維數據分別輸入如圖1所示的五種分類模型中,并將數據集分為10等份,采用10倍交叉驗證方法來驗證模型的準確性,每次使用九個子集作為訓練集,剩余的一個作為測試集,最終得到的預測情況如表1所示。
表中的數值為同種情況下運算了三次之后所取得的平均值,可見,三種降維方法在不同的分類模型下表現十分不同。其中在經過LLE算法降維之后的數據分類的結果要比PCA以及Isomap處理之后的結果普遍要差,各模型準確率的下降程度最高可達12%,但也偶有上升的情況。最終的平均準確率PCA高達96.44%,LLE高達90.74%,而Isomap高達96.90%。不光是準確率,PCA與Isomap處理后結果的F1值也普遍高于LLE,說明不管是查全率還是查準率在PCA與Isomap方法下都能有較好的結果。
5 結束語
在本文的數據集中,PCA與Isomap方法取得了較好的性能,但是在不同的數據集中出現的結果可能會有所不同。本文所用到的綜合交叉模型可以方便的對算法的選擇提供幫助,通過多種模型結合的投票評分可以選擇出最適合于當前數據集的降維方法,從而在最大程度上改善數據高維問題,提高模型的性能,為降維方法的選擇提供了一定的參考。
參考文獻:
[1]林海明,杜子芳.主成分分析綜合評價應該注意的問題[J].統計研究,2013,30(08):25-31.
[2]白俊卿,閆桂榮,王成.利用局部線性嵌入的模態識別[J].西安交通大學學報,2013,47(01):85-89+100.
[3]Tenenbaum J B, de Silva V, Langford J. A global geometric framework for nonlinear dimensionality reduction[J]. Science, 2000, 290(5500): 2319-338.
[4]周頌洋,譚琨,吳立新.基于鄰域距離ISOMAP算法的高光譜遙感降維算法[J].遙感技術與應用,2014,29(04):695-700.
[5]余肖生,周寧.高維數據降維方法研究[J].情報科學,2007(08):1248-1251.
[6]吳曉婷,閆德勤.數據降維方法分析與研究[J].計算機應用研究,2009,26(08):2832-2835.
[7]張少龍,鞏知樂,廖海斌.融合LLE和ISOMAP的非線性降維方法[J].計算機應用研究,2014,31(01):277-280.