999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

小樣本類不平衡數(shù)據(jù)的一致性分析流特征選擇

2021-11-22 09:48:40林培榕曾海亮王晨曦林耀進
小型微型計算機系統(tǒng) 2021年11期
關(guān)鍵詞:分類特征分析

林培榕,曾海亮,王晨曦,盧 舜,林耀進

(閩南師范大學(xué) 計算機學(xué)院,福建 漳州 363000)

(數(shù)據(jù)科學(xué)與智能應(yīng)用福建省高等學(xué)校重點實驗室,福建 漳州 363000)

1 引 言

在語義分析[1]、人臉識別[2]、基因檢測[3]等應(yīng)用研究領(lǐng)域,產(chǎn)生了海量高維小樣本數(shù)據(jù).此類數(shù)據(jù)的特點主要表現(xiàn)為數(shù)據(jù)的樣本數(shù)比起特征維度數(shù)少了一個量級以上.當(dāng)前,面向高維小樣本數(shù)據(jù)的分類學(xué)習(xí)任務(wù)存在著樣本類別分布偏斜問題,即數(shù)據(jù)中至少一個類別代表了樣本很少的數(shù)量,而其它類別的樣本組成了大多數(shù).特征選擇是數(shù)據(jù)分類學(xué)習(xí)過程中重要的預(yù)處理技術(shù).傳統(tǒng)的特征選擇技術(shù)傾向于學(xué)習(xí)大類而忽略小類,而在實際應(yīng)用中,人們往往更關(guān)注小類樣本的分類正確與否[4].例如,醫(yī)療診斷中因漏診而判斷為假陰性的代價比誤診為假陽性的代價更高;安全檢測中漏檢掉一個攜帶炸彈上飛機的恐怖分子要比搜查一個無辜的人代價大得多.因此,針對類別不平衡問題設(shè)計能正確識別小類樣本的分類模型具有重要意義.此外,隨著大數(shù)據(jù)技術(shù)的蓬勃發(fā)展,數(shù)據(jù)的形態(tài)日新月異.在真實場景中,作為動態(tài)數(shù)據(jù)的一種表現(xiàn)形態(tài),數(shù)據(jù)流廣泛存在于動態(tài)監(jiān)測[5]、社交網(wǎng)絡(luò)[6]和標(biāo)簽推薦[7]等領(lǐng)域.例如,在火星隕石坑檢測中動態(tài)提取紋理特征;新浪微博熱門話題的出現(xiàn)通常伴隨著新關(guān)鍵詞的產(chǎn)生.數(shù)據(jù)流蘊含的知識是時間的函數(shù),由于數(shù)據(jù)的動態(tài)性和演化性,必然導(dǎo)致已有的學(xué)習(xí)模型帶有滯后性.因此,設(shè)計具有實時性功能的學(xué)習(xí)模型已是迫在眉睫[8].

當(dāng)數(shù)據(jù)的特征空間動態(tài)變化,傳統(tǒng)的特征選擇算法在流知識學(xué)習(xí)中顯得捉襟見肘[9,10].為此,研究人員提出了許多在線流特征選擇算法[11-16].文獻[11]提出了一種基于逐步回歸的在線特征選擇算法,但該算法需要根據(jù)預(yù)知的候選特征構(gòu)成來對初始特征進行變換;為了彌補上述算法的不足,文獻[12]提出了流特征的概念,基于流特征設(shè)計了可以直接對初始特征進行處理的在線特征選擇框架,并給出了兩個有效的在線算法;文獻[13]通過對特征之間兩兩相關(guān)的界限進行理論分析,提出了一個隨時間變化的簡約模型;文獻[14]以特征組的方式對上述算法進行擴展,提出了在特征與特征組上稀疏的分組在線特征選擇算法.然而,面向高維小樣本數(shù)據(jù)的在線分類學(xué)習(xí)算法中依然存在著類別不平衡問題.于是,文獻[15]針對小類樣本重新定義鄰域粗糙集下近似公式和依賴度公式,提出了基于特征和標(biāo)記之間依賴關(guān)系的在線特征選擇算法,旨在處理流特征環(huán)境下的類不平衡問題;文獻[16]對上述算法進一步改進鄰域粗糙集的下近似算子,運用了基于小類依賴度的在線特征選擇模型.

在很多實際場景中,數(shù)據(jù)的特征空間具有動態(tài)性和演化性,主要表現(xiàn)為隨著時間的流逝新的特征不斷地流入數(shù)據(jù)的特征空間,導(dǎo)致傳統(tǒng)的特征選擇算法失效.在高維小樣本在線分類學(xué)習(xí)任務(wù)中,若數(shù)據(jù)中樣本的類別分布傾斜得十分厲害,那么無論在線分類學(xué)習(xí)算法選擇什么樣的特征,分類器只要簡單地將所有樣本都標(biāo)記為大類,依然可以獲得很高的預(yù)測精度.然而,卻忽略了至關(guān)重要的小類樣本,失去了實際意義[17].此外,有些在線分類學(xué)習(xí)算法[16]傾向于將數(shù)據(jù)中某一類別的樣本設(shè)置成小類樣本,而其余類別的樣本全部設(shè)置成大類樣本,人為地設(shè)置數(shù)據(jù)的大類樣本和小類樣本,該方法具有一定主觀性,無法準(zhǔn)確地體現(xiàn)出數(shù)據(jù)的復(fù)雜性與多樣性.

從認知角度出發(fā),樣本在論域空間的分布是由特征決定的,分離性高的特征應(yīng)使樣本的分布在類內(nèi)分散度盡量小,類間分散度盡量大.基于此,選擇重要的特征更有利于分類.基于最近鄰思想,相同特征空間下越相近的樣本其類別往往越一致.于是,本文通過定義樣本一致性概念來設(shè)計高維小樣本類不平衡數(shù)據(jù)在線流特征選擇算法.首先,利用均值定義同類樣本的類中心,通過樣本在特征與標(biāo)記類別的信息定義類中心的近鄰.其次,針對類別不平衡問題構(gòu)建高維小樣本一致性分析度量模型.再次,設(shè)計流特征環(huán)境下的高維小樣本類不平衡數(shù)據(jù)在線特征選擇算法;最后,實驗驗證所提算法的有效性.

綜上,本文內(nèi)容安排如下:第2節(jié)構(gòu)建小樣本類不平衡數(shù)據(jù)的一致性分析度量模型;第3節(jié)設(shè)計流特征環(huán)境下的類不平衡一致性分析的在線特征選擇算法;第4節(jié)對算法進行實驗驗證與結(jié)果分析;第5節(jié)總結(jié)全文.

2 一致性分析度量模型

在真實場景中,類不平衡數(shù)據(jù)的樣本類別呈現(xiàn)多類及類別分布偏斜等特點,其中數(shù)量較少的小類樣本在眾多樣本中占據(jù)著舉足輕重的地位,準(zhǔn)確識別出類不平衡數(shù)據(jù)中的小類樣本面臨著嚴(yán)峻挑戰(zhàn).為此,本節(jié)簡單介紹由特定特征誘導(dǎo)出的樣本分布與標(biāo)記的一致性概念來進行的特征選擇[18].首先,利用均值定義同類樣本的類中心;其次,基于特征空間的樣本距離定義類中心的近鄰,并根據(jù)類中心所在類別的樣本數(shù)量定義近鄰的大小;最后,定義近鄰空間內(nèi)樣本類別和類中心類別一致的近鄰樣本與論域中和類中心同類的樣本的數(shù)量比例為包含度.包含度反映特征對樣本的區(qū)分與標(biāo)記對樣本的區(qū)分的一致性,不存在無法判斷小類樣本的情況.

定義1.定義決策系統(tǒng)〈U,F(xiàn),L〉,樣本集合U={x1,x2,…,xn},特征空間F={f1,f2,…,fm},標(biāo)記L={X1,X2,…,Xc}將樣本集合U劃分成c個類別.對于?Xj?L,nj是第j類樣本的數(shù)量,?xi∈Xj,定義Xj在特定特征空間條件下的類中心為:

(1)

表1 小樣本類不平衡數(shù)據(jù)示例表

(2)

圖1 同類樣本類中心的近鄰

(3)

(4)

3 類不平衡一致性分析的在線特征選擇算法

在很多實際應(yīng)用中,數(shù)據(jù)的特征空間具有動態(tài)性和演化性,使需要提前獲取數(shù)據(jù)全部特征空間的分類算法面臨著功能滯后的風(fēng)險.為此,本節(jié)將構(gòu)建流特征環(huán)境下的小樣本類不平衡數(shù)據(jù)的一致性分析在線流特征選擇模型,并設(shè)計一種特征依次有序逐個流入決策系統(tǒng)的在線特征選擇算法.首先,定義流特征決策系統(tǒng)數(shù)據(jù)特征的在線相關(guān)性分析;其次,定義流特征決策系統(tǒng)數(shù)據(jù)特征的在線冗余性分析;最后,提出類不平衡一致性分析的在線特征選擇算法.

定義5.假設(shè)有流特征決策系統(tǒng),樣本集合U={x1,x2,…,xn},T表示時間序列,特征空間Ft為在t時刻決策系統(tǒng)的特征空間,標(biāo)記L={X1,X2,…,Xc}將樣本集合U劃分成c個類別.假定在t時刻,有新特征ft到達,對于?f∈Ft,定義特征ft與標(biāo)記的相關(guān)性為:

CONf∪ft(L)>CONf(L)

(5)

CONf∪ft(L)表示t時刻決策系統(tǒng)特征空間中任意特征f與新特征ft聯(lián)合一致性值,CONf(L)表示t時刻決策系統(tǒng)特征空間中任意特征f的一致性值,若式(5)成立,說明在t時刻到達決策系統(tǒng)的新特征ft與標(biāo)記高度相關(guān).此時,將新特征ft加入流特征決策系統(tǒng),啟動冗余性分析,否則,丟棄新特征ft,相關(guān)性分析掛起,繼續(xù)等待新特征到達決策系統(tǒng).

定義6.假設(shè)有流特征決策系統(tǒng),樣本集合U={x1,x2,…,xn},T表示時間序列,特征空間Ft為在t時刻決策系統(tǒng)的特征空間,標(biāo)記L={X1,X2,…,Xc}將樣本集合U劃分成c個類別.假定在t時刻,有新特征ft流入決策系統(tǒng),對于?f∈Ft,定義特征f與ft的冗余性為:

CONf∪ft(L)

(6)

CONf∪ft(L)表示t時刻決策系統(tǒng)特征空間中任意特征f與ft聯(lián)合一致性值,CONft(L)表示在t時刻到達并流入決策系統(tǒng)的新特征ft的一致性值,若式(6)成立,說明t時刻決策系統(tǒng)中的特征f因新特征ft加入變成了冗余特征.此時,將特征f從決策系統(tǒng)的特征空間中刪除.當(dāng)t時刻決策系統(tǒng)中不再有冗余特征時,冗余性分析掛起,等待新特征流入決策系統(tǒng).

根據(jù)定義5和定義6對流特征決策系統(tǒng)中的特征空間進行相關(guān)性分析和冗余性分析,可以有效丟棄冗余、噪聲,以及不相關(guān)特征,從而選擇出當(dāng)前時刻流特征決策系統(tǒng)中的最優(yōu)特征子集.基于此,本文將利用一致性度量模型構(gòu)建一種流特征環(huán)境下的在線相關(guān)性分析與在線冗余性分析算法.該算法假定流特征決策系統(tǒng)初始特征空間為空集,新特征依次有序逐個流入決策系統(tǒng).首先,當(dāng)t時刻有新特征到達決策系統(tǒng),觸發(fā)相關(guān)性分析,啟動相關(guān)性分析過程;其次,若新到達的特征流入決策系統(tǒng),則觸發(fā)冗余性分析,啟動冗余性分析過程;最后,算法掛起,繼續(xù)等待新特征到達系統(tǒng).由此可見,流特征決策系統(tǒng)實時保持著最優(yōu)特征子集.

根據(jù)以上分析,類不平衡一致性分析的在線特征選擇算法具體描述如算法1所示.

算法1.類不平衡一致性分析的在線特征選擇算法

(Online Feature Selection algorithm for Consistency analysis of class-imbalance,簡稱OFSC)

輸入:流特征決策系統(tǒng)

輸出:t時刻流特征決策系統(tǒng)的最優(yōu)特征子集Ft

1.?→Ft/*特征空間初始為空集*/

2.while(true) /*算法掛起,等待新特征到達系統(tǒng)*/

3. ifftarrive /*t時刻ft到達,觸發(fā)相關(guān)性分析*/

4. ifFt=?

5.Ft=Ft∪ft/*第一個特征直接加入系統(tǒng)*/

6. else

7. ?f∈Ft/*t時刻系統(tǒng)Ft中的任意特征*/

8. ifCONf∪ft(L)>CONf(L) /*相關(guān)性分析*/

9.Ft=Ft∪ft/*ft流入,觸發(fā)冗余性分析*/

10. ifCONf∪ft(L)

11.Ft=Ft-f/*刪除系統(tǒng)的冗余特征*/

12. end if /*完成冗余性分析*/

13. end if /*完成相關(guān)性分析*/

14. end if

15. end if

16.end while

算法1中第1步表示初始特征空間為空集,新特征依次有序到達系統(tǒng);第2步和第16步表示系統(tǒng)等待新特征到達;第3-15步表示當(dāng)新特征到達系統(tǒng)時啟動在線相關(guān)性分析,完成相關(guān)性分析后,若新到達的特征符合條件流入決策系統(tǒng),則啟動在線冗余性分析,其中,第一個特征到達時直接加入系統(tǒng),不作相關(guān)性分析與冗余性分析.假設(shè)流特征決策系統(tǒng)標(biāo)記有c個類別,在t時刻特征空間Ft有f個特征,則該算法的時間復(fù)雜度為O(c·f2).

4 實驗結(jié)果與分析

4.1 實驗數(shù)據(jù)

為了驗證OFSC算法的有效性,選取7個高維小樣本類不平衡數(shù)據(jù)進行實驗,分別為漫大B細胞淋巴瘤(dlbcl)、淋巴瘤(lymphoma)、小圓藍細胞瘤(srbct)、膠質(zhì)瘤(glioma)、腦(brain)、肺二(lung2)、腫瘤(carcinomas),詳見表2[15].

表2 小樣本類不平衡數(shù)據(jù)集

1)漫大B細胞淋巴瘤包含2個類別共77例樣本,分為19和58例,每例均由6285個基因組成.

2)淋巴瘤包含3個類別共62例樣本,分為9、11和42例,每例均由4026個基因組成.

3)膠質(zhì)瘤包含4個類別共50例樣本,分為7、14、14和15例,每例均由4434個基因組成.

4)小圓藍細胞瘤包含4個類別共83例樣本,分為11、18、25和29例,每例均由2308個基因組成.

5)腦包含5個類別共42例樣本,分為4、8、10、10和10例,每例均由5597個基因組成[19].

6)肺二包含5個類別共203例樣本,分為6、17、20、21和139例,每例均由3312個基因組成.

7)腫瘤包含11個類別共174例樣本,分為6、7、8、11、12、14、14、23、26、26和27例,每例均由9182個基因組成.

如表2所示,數(shù)據(jù)集的特征空間是靜態(tài)的,為了仿真流特征,算法設(shè)定數(shù)據(jù)集的特征空間是未知的,并且特征從第一個開始依次有序逐個到達流特征決策系統(tǒng),當(dāng)最后一個特征到達流特征決策系統(tǒng)完成在線分析時,算法掛起,表示當(dāng)前沒有新特征到達.

4.2 評價指標(biāo)

分類精度是分類學(xué)習(xí)算法最常用的評價指標(biāo),然而,在類不平衡數(shù)據(jù)分類學(xué)習(xí)任務(wù)中,無法識別小類樣本的算法依然可以有很高的精度.因此,本文采用F-Score、G-Mean、分類精度和弗里德曼統(tǒng)計量綜合評價算法的分類性能,其中,F(xiàn)-Score和G-Mean是兩個評價算法對于類不平衡數(shù)據(jù)集分類性能的重要指標(biāo),弗里德曼檢驗則統(tǒng)計分析所有算法的性能.

關(guān)于F-Score和G-Mean評價指標(biāo)的正負例樣本的劃分,本章算法采用依次遍歷數(shù)據(jù)的樣本類別.假設(shè)當(dāng)前遍歷到的類別為正類,則其余類別為負類,屬于正類的樣本為正例樣本,屬于負類的樣本為負例樣本.然后分別求各類別的F-Score值和G-Mean值,再求均值作為最終的F-Score值和G-Mean值.

設(shè)TP為真正例,TN為真負例,F(xiàn)P為假正例,F(xiàn)N為假負例,則查準(zhǔn)率為P=TP/(TP+FP),查全率為R=TP/(TP+FN),F(xiàn)-Score定義為:

(7)

G-Mean定義為:

(8)

為了顯示算法的統(tǒng)計顯著性,使用基于算法排序的Friedman檢驗,假定在N個數(shù)據(jù)集上比較k個算法,令ri表示第i個算法的平均序值,定義Friedman統(tǒng)計量為:

(9)

其中,

(10)

若“所有算法的性能相同”的假設(shè)被拒絕,則表明算法的性能顯著不同,此時以Nemenyi后續(xù)檢驗進一步區(qū)分,Nemenyi檢驗計算出平均序值差別的臨界值域為:

(11)

4.3 實驗設(shè)置

本文實驗全部運行在3.10GHz處理器,4.00GB內(nèi)存,windows7系統(tǒng)和Matlab2013的實驗平臺上.為了避免數(shù)據(jù)特征因量綱不一致干擾實驗過程,采用離差標(biāo)準(zhǔn)化將所有數(shù)據(jù)的特征值歸一化到數(shù)值[0,1]區(qū)間.

多分類數(shù)據(jù)的類別存在對立的關(guān)系,只要類別足夠多樣,某一類樣本對其余類全部樣本來說即可視為小類樣本,假設(shè)此類樣本為正類樣本,其余類樣本即可統(tǒng)一視為負類樣本.同理,遍歷其余類別樣本亦如此.

為了檢驗在線算法OFSC的有效性,選用Alpha-investing[11]、OSFS[12]、Fast-OSFS[12]、SAOLA[13]、group-SAOLA[14]、K-OFSD[15]、OFS[16]在線特征選擇算法作為對比算法.其中,K-OFSD和OFS為面向高維小樣本類不平衡數(shù)據(jù)的在線特征選擇算法.

基分類器采用高斯核函數(shù)支持向量機RBF-SVM,驗證方式采用5折交叉驗證.因為數(shù)據(jù)集均為數(shù)值型數(shù)據(jù),由文獻[20]可知,算法OSFS、Fast-OSFS、SAOLA、group-SAOLA采用Fisher′s Z test度量方法,顯著性水平的參數(shù)α=0.01,其中,算法group-SAOLA中的group=5.由文獻[15]可知,算法K-OFSD的近鄰參數(shù)k=7,特征與標(biāo)記的相關(guān)性閾值β=0.5,以類別包含數(shù)量最少的樣本為小類.由文獻[16]可知,算法OFS中的近鄰參數(shù)k=7,特征與標(biāo)記的相關(guān)性閾值β=0.5,n=4,以類別包含數(shù)量最少的樣本為小類.

4.4 實驗分析

4.4.1 預(yù)測精度分析

1)關(guān)于實驗數(shù)據(jù)表的說明

實驗數(shù)據(jù)表3-表5分別給出了各算法在各數(shù)據(jù)集上特征選擇子集的平均F-Score值與算法比較序值表、平均G-Mean值與算法比較序值表,以及平均分類精度和標(biāo)準(zhǔn)差與分類精度的算法比較序值表.其中,圓括弧內(nèi)的值為算法的比較序值,末行為算法在數(shù)據(jù)集上的平均序值,加粗部分的數(shù)據(jù)代表該算法在此數(shù)據(jù)集上的性能最優(yōu).

2)算法OFSC與對比算法的比較情況

由表3-表5可見,在數(shù)據(jù)集glioma、lung2、carcinomas上算法OFSC的分類性能均優(yōu)于對比算法.在數(shù)據(jù)集dlbcl、lymphoma上算法OFSC的分類性能遜于算法SAOLA、group-SAOLA.在數(shù)據(jù)集srbct上算法OFSC的分類性能遜于算法K-OFSD.在數(shù)據(jù)集brain上算法OFSC的分類性能遜于算法OFS.

表3 平均F-Score值與算法比較序值表

表4 平均G-Mean值與算法比較序值表

表5 平均分類精度和標(biāo)準(zhǔn)差與算法比較序值表

3)算法OFSC與類不平衡算法的比較情況

易知,作為旨在處理類別不平衡問題的在線特征選擇算法,OFSC只在數(shù)據(jù)集srbct上遜于對比算法K-OFSD,在數(shù)據(jù)集brain上遜于對比算法OFS,而在其它所選數(shù)據(jù)集上均優(yōu)于面向類別不平衡問題的算法K-OFSD、OFS.

4)關(guān)于小類樣本算法分類性能的結(jié)論

F-Score和G-Mean評價指標(biāo)對于評價算法的小類樣本分類性能的作用至關(guān)重要,OFSC算法在這兩個評價指標(biāo)上都獲得了很高的值,由此可見,類不平衡一致性分析的在線流特征選擇算法在處理高維小樣本數(shù)據(jù)分類學(xué)習(xí)任務(wù)中的類別不平衡問題具有高效的表現(xiàn)能力.

4.4.2 統(tǒng)計性分析

1)計算評價指標(biāo)的弗里德曼統(tǒng)計量

查找F檢驗參數(shù)alpha=0.05的常用臨界值表可知,8個算法7個數(shù)據(jù)集的臨界值為2.237,如表3-表5末行中算法的平均序值所示,由Friedman統(tǒng)計量公式計算出F-Score、G-Mean、分類精度的τF值分別為5.356、5.215、4,均大于F檢驗臨界值2.237,因此拒絕“所有算法性能相同”的假設(shè),進行Nemenyi后續(xù)檢驗.查找Nemenyi檢驗參數(shù)alpha=0.05的常用qα值表可知,8個比較算法的qα=3.031,由Nemenyi檢驗的臨界值域公式得到臨界值域CD=3.969.

2)根據(jù)平均序值差距是否超出臨界值域比較算法的性能

由表3和表4末行中的平均序值可知,算法OFSC與算法Alpha-investing、OSFS的差距超過了臨界值域,說明算法OFSC顯著優(yōu)于算法Alpha-investing、OSFS.由表5末行中的平均序值可知,算法OFSC與算法Alpha-investing的差距超過了臨界值域,說明算法OFSC顯著優(yōu)于算法Alpha-investing.而算法OFSC與其它算法的差距沒有超過臨界值域,說明它們沒有顯著差別.

3)繪制弗里德曼檢驗圖描述算法性能的差異

上述分析可以直觀地用Friedman檢驗圖顯示,圖2(a)-圖2(c)的Friedman檢驗圖分別由表3-表5中的算法比較序值導(dǎo)出,橫軸刻度表示平均序值,縱軸刻度表示算法,和表3表頭的算法一一對應(yīng).其中,第8號直線表示算法OFSC的平均序值和臨界值域.用圓點顯示算法的平均序值,以圓點為中心的橫線段表示算法臨界值域的大小,若兩個算法的橫線段有交疊,說明這兩個算法的分類性能沒有顯著差別,否則說明其性能有顯著差別.由圖2可見,圖2(a)、圖2(b)中直線8號算法OFSC與虛線1算法Alpha-investing、2號算法OSFS的橫線段沒有交疊區(qū)域,說明算法OFSC顯著優(yōu)于算法Alpha-investing、OSFS.子圖c中直線8號算法OFSC與虛線1號算法Alpha-investing的橫線段沒有交疊區(qū)域,說明算法OFSC顯著優(yōu)于算法Alpha-investing.而算法OFSC與其它點劃線算法的橫線段有交疊區(qū)域,說明它們沒有顯著差別.顯然,算法OFSC的平均序值均高于對比算法,說明OFSC的綜合分類性能均優(yōu)于對比算法.

圖2 OFSC算法與對比算法的弗里德曼檢驗圖

4.4.3 穩(wěn)定性分析

為了驗證算法的穩(wěn)定性,繪制雷達圖來表示多數(shù)據(jù)集多算法在評價指標(biāo)上的穩(wěn)定性指數(shù).圖3(a)-圖3(c)分別給出了算法在F-Score、G-Mean和分類精度評價指標(biāo)上的穩(wěn)定性指數(shù).其中,純黑直線代表算法OFSC的穩(wěn)定性值.由圖3可見,OFSC在4個數(shù)據(jù)集上接近穩(wěn)定解,在數(shù)據(jù)集brain、glioma上穩(wěn)定性較弱.

圖3 OFSC算法與對比算法的雷達圖

5 結(jié)束語

鑒于大數(shù)據(jù)本身的動態(tài)特性,數(shù)據(jù)的初始特征集合可能是未知的,甚至可能是空的,隨著數(shù)據(jù)流的到達而引入新的特征.此外,高維小樣本中存在著類別不平衡問題在概念發(fā)生漂移情形下并沒有消失.因此,本文以高維小樣本類不平衡數(shù)據(jù)為研究內(nèi)容,圍繞數(shù)據(jù)分類學(xué)習(xí)過程中面臨著大類覆蓋小類的挑戰(zhàn),提出了在流特征環(huán)境下的小樣本類不平衡數(shù)據(jù)的一致性分析在線特征選擇算法.該算法利用均值定義了同類樣本的類中心,并通過融合類別信息來定義類中心的近鄰及其在特征空間的一致性,由此設(shè)計了流特征環(huán)境下的在線特征選擇算法.雖然類中心的定義有效地加速了算法的計算過程,但是,模型只訓(xùn)練了類中心,導(dǎo)致學(xué)習(xí)模型訓(xùn)練不充分,分類精度有所下降,下一步工作可考慮加強學(xué)習(xí)模型訓(xùn)練的充分性.

猜你喜歡
分類特征分析
分類算一算
隱蔽失效適航要求符合性驗證分析
如何表達“特征”
不忠誠的四個特征
分類討論求坐標(biāo)
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
電力系統(tǒng)及其自動化發(fā)展趨勢分析
主站蜘蛛池模板: 五月婷婷丁香综合| 亚洲天堂日韩在线| 色婷婷视频在线| 免费在线国产一区二区三区精品| 日本高清在线看免费观看| 热伊人99re久久精品最新地| 国产精品亚洲va在线观看| 国产精品视频久| 欧美日本在线观看| 亚洲综合婷婷激情| 精品一區二區久久久久久久網站| 中文字幕在线观看日本| 久久这里只有精品66| 国产精欧美一区二区三区| 五月天久久婷婷| av一区二区三区高清久久| 亚洲视频二| 伊人蕉久影院| 黄色三级毛片网站| 国产精品3p视频| 国产不卡在线看| 亚洲不卡影院| 欧美日韩在线成人| 国产激情无码一区二区免费| 高清无码一本到东京热| 热99re99首页精品亚洲五月天| 青青青亚洲精品国产| 青青青草国产| 97影院午夜在线观看视频| 免费一极毛片| 亚洲成人在线网| 精品欧美一区二区三区久久久| 亚洲一级毛片| 色成人亚洲| 五月婷婷综合色| 成人欧美日韩| 亚洲无码电影| 亚洲熟妇AV日韩熟妇在线| 亚洲欧美日韩精品专区| 亚洲经典在线中文字幕| 色婷婷成人| 国产成人三级在线观看视频| 国产高潮流白浆视频| 无码内射在线| 色国产视频| 亚洲国产中文在线二区三区免| 久久久久免费看成人影片| AV天堂资源福利在线观看| 香蕉综合在线视频91| 日韩AV手机在线观看蜜芽| 国产美女在线免费观看| 色婷婷电影网| 九九视频免费在线观看| JIZZ亚洲国产| 国产亚洲精品自在线| 色老二精品视频在线观看| 国产精品成人免费综合| 欧美一区二区啪啪| 久久美女精品国产精品亚洲| 欧美人与动牲交a欧美精品| AV片亚洲国产男人的天堂| 四虎成人免费毛片| 妇女自拍偷自拍亚洲精品| 久久久四虎成人永久免费网站| 国产真实乱了在线播放| 国产91熟女高潮一区二区| 亚洲精品动漫| 国产精品欧美亚洲韩国日本不卡| 男人天堂亚洲天堂| 国产日韩精品欧美一区喷| 在线色国产| 在线观看无码a∨| 成人伊人色一区二区三区| 亚洲色图欧美一区| 再看日本中文字幕在线观看| 青青久久91| 久久久久久久久久国产精品| 国产亚洲视频中文字幕视频| 亚洲无码视频图片| 久久www视频| 日本成人精品视频| 免费在线国产一区二区三区精品 |