999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

幾種降維技術(shù)在分類問(wèn)題中的效果評(píng)估

2018-09-14 10:54:24詹鵬偉謝小姣
科技創(chuàng)新與應(yīng)用 2018年21期

詹鵬偉 謝小姣

摘 要:高維數(shù)據(jù)將會(huì)給數(shù)據(jù)分析帶來(lái)極大的困難,因其所導(dǎo)致的數(shù)據(jù)分布稀疏化和數(shù)據(jù)組織效果的下降將會(huì)大大影響模型的性能。降維就是用于解決“維度災(zāi)難”的方法之一。文章從PCA、LLE、Isomap三種常見(jiàn)的降維方法入手,首先介紹了它們的實(shí)現(xiàn)原理,進(jìn)一步結(jié)合KNN、SVM、RandomForest、Naive Bayes以及Logistics Regression模型構(gòu)建了用于評(píng)價(jià)三種降維方法的綜合交叉模型。結(jié)果表明,在文章所使用的數(shù)據(jù)集中,經(jīng)過(guò)PCA方法與Isomap方法降維后的數(shù)據(jù)在可視的2維空間上分布較為均勻,而LLE方法分布則較為集中。且使用了PCA與Isomap方法的分類模型訓(xùn)練后的平均準(zhǔn)確率高達(dá)96.44%與96.90%,高于LLE方法處理后所得的90.74%,PCA與Isomap具有較優(yōu)的降維效果。本研究中所采用的方法與所得的結(jié)果為降維方法的選擇提供了有益的參考。

關(guān)鍵詞:降維;PCA;LLE;Isomap;效果評(píng)估

中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):2095-2945(2018)21-0022-03

Abstract: High-dimensional data will bring great difficulties to data analysis, and the sparse distribution of data and the decline of data organization effect it causes will greatly affect the performance of the model. Dimensionality reduction is one of the ways to solve the "dimension disaster". Starting with three common dimensionality reduction methods, i.e., PCA, LLE and Isomap, this paper introduces their implementation principles, and then constructs a comprehensive cross model for evaluating the three dimensionality reduction methods based on the models of KNN, SVM, RandomForest, Naive Bayes and Logistics Regression. The results show that in the data set used in this paper, after dimensionality reduction by PCA method and Isomap method, the distribution of the data is uniform in the visible two-dimensional space, while the distribution of LLE method is more concentrated. The average accuracy of the classification model trained with PCA and Isomap is 96.44% and 96.90%, which is higher than 90.74% with Isomap and 90.74% with LLE. The methods used in this study and the results obtained provide a useful reference for the choice of dimensionality reduction methods.

Keywords: dimensionality reduction; PCA; LLE; Isomap; effect evaluation

引言

隨著計(jì)算機(jī)和互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)呈現(xiàn)爆炸式的增長(zhǎng),高維數(shù)據(jù)已經(jīng)越來(lái)越常見(jiàn)。但是隨著數(shù)據(jù)維度的增加,數(shù)據(jù)利用的難度也越來(lái)越高。因“維度災(zāi)難”而導(dǎo)致模型的參數(shù)估計(jì)困難,模型結(jié)果下降的情況已經(jīng)影響到了包括機(jī)器學(xué)習(xí)、模式識(shí)別、自然語(yǔ)言處理在內(nèi)的諸多領(lǐng)域。隨著數(shù)據(jù)維度的增高,會(huì)導(dǎo)致數(shù)據(jù)的分布越來(lái)越稀疏、數(shù)據(jù)的組織效果下降,且對(duì)計(jì)算機(jī)硬件的要求也更高,這些問(wèn)題都會(huì)導(dǎo)致模型性能下降、效率下降,給數(shù)據(jù)分析帶來(lái)了極大的挑戰(zhàn)。

為了解決“維度災(zāi)難”的問(wèn)題,研究者們提出了一系列用于數(shù)據(jù)降維的方法,本文將從包括PCA(主成分分析)、LLE(局部線性嵌入)、Isomap(等距特征映射)在內(nèi)的三種常用的降維方法入手,介紹它們的實(shí)現(xiàn)原理,并分別搭配KNN、SVM、RandomForest、Naive Bayes、Logistic Regression分類模型在Collagen spectroscopy數(shù)據(jù)集上綜合探究不同降維方法與分類器組合的性能與效果。

1 數(shù)據(jù)與材料

1.1 數(shù)據(jù)集

本文采用了Collagen spectroscopy數(shù)據(jù)集,該數(shù)據(jù)集通過(guò)使用傅里葉變換紅外光譜(FTIR)測(cè)量細(xì)胞數(shù)據(jù)并對(duì)細(xì)胞中不同部位的化合物含量進(jìn)行標(biāo)注。數(shù)據(jù)一共有731例樣本,每個(gè)樣本包含234個(gè)特征,樣本被分為四類:膠原、糖原、血脂及DNA。

1.2 數(shù)據(jù)預(yù)處理

為了消除量綱對(duì)降維與分類結(jié)果的影響,首先對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,將每個(gè)特征集合X={x1,x2,…,xN},映射到[0,1]區(qū)間,方法為:

2.3 Isomap(等距特征映射)

Isomap(Isometric Mapping)是由Tenenbaum于2000年提出的[3],其認(rèn)為高維空間中的直線距離在低維空間中是不可達(dá)的,并引入了“測(cè)地線”距離來(lái)代替直線距離進(jìn)行計(jì)算。其算法過(guò)程為:

(1)確定領(lǐng)域,對(duì)xi的領(lǐng)域進(jìn)行搜索,找到K個(gè)最鄰近的樣本點(diǎn)。(2)計(jì)算xi與K個(gè)最鄰近的樣本點(diǎn)之間的歐氏距離,其余點(diǎn)認(rèn)為無(wú)窮遠(yuǎn),構(gòu)造距離矩陣。(3)利用Dijkstra算法或Floyd算法計(jì)算任意樣本點(diǎn)之間的距離,并將該距離作為MDS(Multiple DimensionalScaling,多維縮放)算法的輸入,MDS所返回的結(jié)果的集合即為X在低維空間的映射。

3 建立模型

為了比較上述的三種降維算法的效果,本文選擇了五種常見(jiàn)的分類算法(KNN、SVM、RandomForest、Naive Bayes、Logistic Regression)來(lái)使用降維之后的數(shù)據(jù)進(jìn)行分類預(yù)測(cè),構(gòu)建交叉模型,將三種不同的降維方法與以上五種分類模型分別組合,組成用于評(píng)價(jià)降維方法性能的綜合交叉模型,可通過(guò)不同模型分類結(jié)果的投票評(píng)分找出性能最優(yōu)的降維算法,如圖1所示。

4 實(shí)驗(yàn)結(jié)果與分析

為了方便可視化,我們將三種降維方法的目標(biāo)維度d'都設(shè)置為2,于是在三種不同的降維方法下,原始數(shù)據(jù)集的731個(gè)樣本被映射到2維空間后的分布如圖2所示。

可見(jiàn)經(jīng)過(guò)三種降維方法的映射之后,數(shù)據(jù)的投影在2維空間內(nèi)呈現(xiàn)不同的分布。其中經(jīng)過(guò)PCA與Isomap處理之后的數(shù)據(jù)分散的較為均勻,而LLE處理之后的數(shù)據(jù)則集中分布在幾條線上。在這樣的降維結(jié)果下,為了探究降維算法對(duì)最終分類結(jié)果的影響,進(jìn)一步將降維之后的2維數(shù)據(jù)分別輸入如圖1所示的五種分類模型中,并將數(shù)據(jù)集分為10等份,采用10倍交叉驗(yàn)證方法來(lái)驗(yàn)證模型的準(zhǔn)確性,每次使用九個(gè)子集作為訓(xùn)練集,剩余的一個(gè)作為測(cè)試集,最終得到的預(yù)測(cè)情況如表1所示。

表中的數(shù)值為同種情況下運(yùn)算了三次之后所取得的平均值,可見(jiàn),三種降維方法在不同的分類模型下表現(xiàn)十分不同。其中在經(jīng)過(guò)LLE算法降維之后的數(shù)據(jù)分類的結(jié)果要比PCA以及Isomap處理之后的結(jié)果普遍要差,各模型準(zhǔn)確率的下降程度最高可達(dá)12%,但也偶有上升的情況。最終的平均準(zhǔn)確率PCA高達(dá)96.44%,LLE高達(dá)90.74%,而Isomap高達(dá)96.90%。不光是準(zhǔn)確率,PCA與Isomap處理后結(jié)果的F1值也普遍高于LLE,說(shuō)明不管是查全率還是查準(zhǔn)率在PCA與Isomap方法下都能有較好的結(jié)果。

5 結(jié)束語(yǔ)

在本文的數(shù)據(jù)集中,PCA與Isomap方法取得了較好的性能,但是在不同的數(shù)據(jù)集中出現(xiàn)的結(jié)果可能會(huì)有所不同。本文所用到的綜合交叉模型可以方便的對(duì)算法的選擇提供幫助,通過(guò)多種模型結(jié)合的投票評(píng)分可以選擇出最適合于當(dāng)前數(shù)據(jù)集的降維方法,從而在最大程度上改善數(shù)據(jù)高維問(wèn)題,提高模型的性能,為降維方法的選擇提供了一定的參考。

參考文獻(xiàn):

[1]林海明,杜子芳.主成分分析綜合評(píng)價(jià)應(yīng)該注意的問(wèn)題[J].統(tǒng)計(jì)研究,2013,30(08):25-31.

[2]白俊卿,閆桂榮,王成.利用局部線性嵌入的模態(tài)識(shí)別[J].西安交通大學(xué)學(xué)報(bào),2013,47(01):85-89+100.

[3]Tenenbaum J B, de Silva V, Langford J. A global geometric framework for nonlinear dimensionality reduction[J]. Science, 2000, 290(5500): 2319-338.

[4]周頌洋,譚琨,吳立新.基于鄰域距離ISOMAP算法的高光譜遙感降維算法[J].遙感技術(shù)與應(yīng)用,2014,29(04):695-700.

[5]余肖生,周寧.高維數(shù)據(jù)降維方法研究[J].情報(bào)科學(xué),2007(08):1248-1251.

[6]吳曉婷,閆德勤.數(shù)據(jù)降維方法分析與研究[J].計(jì)算機(jī)應(yīng)用研究,2009,26(08):2832-2835.

[7]張少龍,鞏知樂(lè),廖海斌.融合LLE和ISOMAP的非線性降維方法[J].計(jì)算機(jī)應(yīng)用研究,2014,31(01):277-280.

主站蜘蛛池模板: 国产欧美日韩另类精彩视频| 亚洲一区二区约美女探花| 免费三A级毛片视频| 麻豆精品视频在线原创| 58av国产精品| 又粗又硬又大又爽免费视频播放| 欧美色视频日本| 国产精品尤物在线| 国产成人在线无码免费视频| 精品一區二區久久久久久久網站 | 午夜毛片免费看| 欧美日韩另类在线| 五月天丁香婷婷综合久久| 国产永久无码观看在线| 国产青榴视频在线观看网站| 亚洲高清在线播放| а∨天堂一区中文字幕| 国内精品久久久久鸭| av在线人妻熟妇| 无码综合天天久久综合网| 五月婷婷综合在线视频| 色视频久久| 99热国产在线精品99| 成人午夜精品一级毛片| 97免费在线观看视频| 毛片免费在线| 免费欧美一级| 97在线观看视频免费| 亚洲人在线| 黄色网在线| 九九九精品成人免费视频7| 亚洲无码37.| 欧美成人精品高清在线下载| av一区二区无码在线| 另类综合视频| a级毛片网| 日韩无码白| 日韩在线播放欧美字幕| 国产精品久久久久久久久久98| 动漫精品中文字幕无码| 日韩精品毛片| 中文字幕人成乱码熟女免费| 久久综合结合久久狠狠狠97色| 国产精品女熟高潮视频| 中国特黄美女一级视频| 亚洲AV无码久久精品色欲| a免费毛片在线播放| 中文字幕在线日韩91| 波多野结衣中文字幕久久| 色色中文字幕| 无码日韩人妻精品久久蜜桃| 2021精品国产自在现线看| 欧美色视频在线| 国产亚洲精久久久久久久91| 亚洲第一区精品日韩在线播放| www.youjizz.com久久| 制服丝袜无码每日更新| 欧美综合成人| 亚洲精品不卡午夜精品| 免费毛片全部不收费的| 日韩一级二级三级| 亚洲毛片网站| 国产第八页| 东京热高清无码精品| 国产成人精品无码一区二| 91视频日本| 999国产精品| 久久久久久尹人网香蕉| 热九九精品| 麻豆国产原创视频在线播放 | 欧美性色综合网| 国产精品欧美激情| 成人福利在线视频免费观看| 婷婷亚洲视频| 国产a v无码专区亚洲av| 自拍中文字幕| 波多野结衣中文字幕一区| 国产成人无码AV在线播放动漫 | 国产xx在线观看| 99伊人精品| 国产综合欧美| 国产精品毛片一区|