,2*
(1.中國礦業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇徐州 221116;2.中國礦業(yè)大學(xué)災(zāi)害智能防控與應(yīng)急救援創(chuàng)新研究中心,江蘇徐州 221116)
時(shí)間序列分類和不平衡數(shù)據(jù)分布是實(shí)際應(yīng)用中普遍存在的問題。時(shí)間序列存在數(shù)據(jù)維度高、數(shù)據(jù)之間相關(guān)性強(qiáng)和噪聲干擾多等特點(diǎn),而不平衡數(shù)據(jù)學(xué)習(xí)則更加強(qiáng)調(diào)分類器對(duì)少數(shù)類樣本的識(shí)別能力。一方面時(shí)間序列數(shù)據(jù)的特殊性使得不平衡學(xué)習(xí)領(lǐng)域的方法不能完全適用,時(shí)間序列的高維度、時(shí)間相關(guān)性和序列數(shù)據(jù)存在先后邏輯順序的特點(diǎn)使不平衡問題在時(shí)間序列條件下變得更加復(fù)雜。例如序列數(shù)據(jù)中的少數(shù)類和噪聲的判別會(huì)更加艱難,類重疊會(huì)更難以處理等;同時(shí),現(xiàn)有的解決時(shí)間序列不平衡的方案以重采樣為主,其中又是以生成少數(shù)類合成樣本的過采樣方法為重點(diǎn),而時(shí)間序列較一般數(shù)據(jù)更難合成合適的人工樣本,這導(dǎo)致合成的樣本效果往往并不理想。
進(jìn)一步,已有的解決時(shí)間序列不平衡的方案大多只適用于二分類問題,如果通過將多分類轉(zhuǎn)換為二分類的問題分解方式,則會(huì)造成整體數(shù)據(jù)分布的變化,仍會(huì)影響最終的分類效果。綜上所述,直至目前時(shí)間序列不平衡分類仍然是亟待解決的重要實(shí)際應(yīng)用問題。集成學(xué)習(xí)方法在時(shí)間序列分類問題中取得了顯著的精度優(yōu)勢(shì),但是其對(duì)數(shù)據(jù)集分布的不均衡性不敏感。
基于變換的集合的層次投票集合(Hierarchical Vote Collective of Transformation-based Ensembles,HIVE-COTE)[1]是目前表現(xiàn)最為出色的時(shí)間序列集成分類框架,但其中的組件沒有考慮數(shù)據(jù)集分布的不均衡問題,屬于不平衡時(shí)間序列的弱分類器。由集成學(xué)習(xí)理論可以得知,組件算法中若是不存在強(qiáng)分類器會(huì)嚴(yán)重影響到集成算法的能力上限。其中,HIVE-COTE 針對(duì)shapelet 特征設(shè)計(jì)了算法組件ST-HESCA(Shapelet Transformation-Heterogeneous Ensembles of Standard Classification Algorithm),該算法由于存在子序列評(píng)價(jià)指標(biāo)對(duì)不平衡數(shù)據(jù)不敏感問題,成為影響HIVE-COTE 集成框架的弱分類器組件。
本文首先提出了一個(gè)結(jié)合提升方法(Boosting)和基于K最近鄰(K-NearestNeighbor,K-NN)的多類不平衡問題的合成少數(shù)過采樣算法(K-NN-based Synthetic Minority Oversampling algorithm for Multiclass imbalance problems,SMOM)的改進(jìn)集成分類算法SBST-HESCA(SMOM &Boosting into ST-HESCA algorithm),提高ST-HESCA 算法組件針對(duì)不平衡時(shí)序數(shù)據(jù)的分類準(zhǔn)確率;同時(shí)結(jié)合SBST-HESCA 組件對(duì)HIVE-COTE 計(jì)算框架進(jìn)行改進(jìn),提出IMHIVE-COTE(Imbalanced Hierarchical Vote Collective of Transformation-based Ensembles)集成算法,通過優(yōu)化結(jié)果的集成策略,增強(qiáng)集成算法對(duì)少數(shù)類樣本識(shí)別精度的傾斜力度。
本章對(duì)兩個(gè)涉及到的基礎(chǔ)算法進(jìn)行介紹,方便理解后續(xù)本章提出算法的設(shè)計(jì)意義和動(dòng)機(jī)。
SMOM 是一個(gè)基于K最近鄰(K-NN)思想的綜合少數(shù)類過采樣算法,與典型基于K-NN的過采樣算法不同,SMOM為每個(gè)近鄰的方向分配一個(gè)選擇權(quán)值;同時(shí),對(duì)可能產(chǎn)生嚴(yán)重泛化的相鄰方向賦予較小的選擇權(quán)值,從而使SMOM形成了一種避免過度泛化的機(jī)制。
為了實(shí)現(xiàn)這一目的,SMOM算法在分配少數(shù)類K個(gè)方向上的權(quán)值之前,應(yīng)用不平衡數(shù)據(jù)上的聚類方法對(duì)少數(shù)類樣本進(jìn)行劃分,從少數(shù)類樣本集中界定出了突出集群和困境集群:突出集群中由少數(shù)類占據(jù)主導(dǎo)地位,有明確的類邊界;困境集群中則會(huì)包含很多其他類樣本,難以界定類邊界,這個(gè)區(qū)域的少數(shù)類會(huì)更需要在近鄰的方向分配合適的選擇權(quán)值。此外,聚類方法還起到了減少權(quán)值計(jì)算量的作用,因?yàn)橥怀黾褐械纳贁?shù)類樣本的近鄰權(quán)值無需計(jì)算。
在文獻(xiàn)[2]中,已經(jīng)證明SMOM 算法的運(yùn)行效率優(yōu)于現(xiàn)有簡(jiǎn)單過采樣方法,同時(shí)在G-means、曲線下面積(Area Under Curve,AUC)和召回率(Recall)等不平衡指標(biāo)方面,SMOM在統(tǒng)計(jì)學(xué)上優(yōu)于其他采樣方法。在本文4.2 節(jié)的實(shí)驗(yàn)部分還可以證明該算法在不平衡時(shí)間序列方面有很好的適應(yīng)能力,優(yōu)于通用的SMOTE(Synthetic Minority Oversampling Technique)方法。
HESCA(HeterogeneousEnsemblesofStandard Classification Algorithm),最先在文獻(xiàn)[3]出現(xiàn),和傳統(tǒng)的集成分類方法相比,該方法更注重基礎(chǔ)分類器的多樣性,為了達(dá)成這一目的,它采用了異構(gòu)集成的構(gòu)成模式,異構(gòu)集成方法較原始集成方法泛化能力更強(qiáng),是目前時(shí)間序列分類中整體分類效果最好的集成分類策略,下面對(duì)它的算法構(gòu)成進(jìn)行簡(jiǎn)單介紹。
HESCA 由八個(gè)分類器組成,其中:兩個(gè)自身也是集成分類算法:分別是隨機(jī)森林(500棵樹)和旋轉(zhuǎn)森林(50棵樹);其余6個(gè)為K近鄰、樸素貝葉斯、C4.5 決策樹、具有線性和多項(xiàng)式核函數(shù)的支持向量機(jī)和貝葉斯網(wǎng)絡(luò)。這些選擇囊括了基于概率、基于序列個(gè)體實(shí)例和基于樹的分類器3類,確保了集成分類器整體的泛化能力。算法通過10折交叉驗(yàn)證獲得其中每個(gè)組成算法的準(zhǔn)確度估計(jì)值,作為后來預(yù)測(cè)測(cè)試集類別的加權(quán)指標(biāo)。
在文獻(xiàn)[4]中,Bagnall和Lines等進(jìn)行了一個(gè)當(dāng)前主流時(shí)間序列分類算法的對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)數(shù)據(jù)集采樣UCR標(biāo)準(zhǔn)時(shí)間序列數(shù)據(jù),在精度上取勝的分別是HIVE-COTE、FLAT-COTE[5]和shapelet變換算法,這其中的shapelet變換算法就是shapelet變換結(jié)合HESCA來實(shí)現(xiàn)的(ST-HESCA),這一方法同時(shí)也被運(yùn)用于HIVE-COTE,F(xiàn)LAT-COTE之中作為shapelet分類模塊的核心算法,即ST-HESCA算法,因?yàn)樗兄壳皊hapelet分類方法中最高的平均精度[6]。為了保證shapelet 集合的完整性,在shapelet計(jì)算部分,ST-HESCA采用一對(duì)多(one vs all)編碼方案簡(jiǎn)化了質(zhì)量評(píng)估計(jì)算,在選取shapelet方面通過更頻繁的早期放棄策略提高了執(zhí)行速度,并提高了多類問題的準(zhǔn)確性[7]。這使得該過程較蠻力shapelet計(jì)算相比有較大效率提升,但是整體效率還是偏低,不能用來處理大規(guī)模時(shí)間序列數(shù)據(jù)集。
已有的時(shí)間序列分類算法中,對(duì)子序列的評(píng)價(jià)標(biāo)準(zhǔn)大部分以信息增益為主。本節(jié)給出兩種基于不平衡分類指標(biāo)的子序列評(píng)價(jià)標(biāo)準(zhǔn),分別是基于AUC 值和F(F-measure)值的評(píng)價(jià)指標(biāo)(簡(jiǎn)稱AF指標(biāo)),以及基于AUCPR(Area Under Curve-Precision Recall)值和AUC值的評(píng)價(jià)指標(biāo)(簡(jiǎn)稱AR指標(biāo)),兩個(gè)指標(biāo)均是在傳統(tǒng)質(zhì)量評(píng)價(jià)指標(biāo)的基礎(chǔ)上,引入不平衡率(Imbalance Rate,IR)來調(diào)和傳統(tǒng)指標(biāo)和不平衡數(shù)據(jù)指標(biāo)之間的權(quán)重比例,滿足“數(shù)據(jù)分布的IR值越大,不平衡數(shù)據(jù)指標(biāo)作用越大”的條件,從而更加準(zhǔn)確地評(píng)價(jià)分類結(jié)果,對(duì)不平衡分類的適用性更高,比常用指標(biāo)對(duì)不平衡時(shí)序類別的代表能力更強(qiáng)。
定義1AF 指標(biāo)。多分類情況下計(jì)算AUC 值時(shí),引入不平衡率作為權(quán)值,這里不平衡率指的是當(dāng)前數(shù)據(jù)集中,多數(shù)類數(shù)量與少數(shù)類數(shù)量的比值,數(shù)量相差越懸殊,不平衡率越大。在不平衡率較小時(shí),評(píng)價(jià)指標(biāo)中根據(jù)IR值增加AUC值的比例,改進(jìn)AF指標(biāo),如式(1)所示:

定義2AR 指標(biāo)。評(píng)價(jià)指標(biāo)AR 值的定義和AF 指標(biāo)類似,引入不平衡率作為權(quán)值,如式(2)所示:

傳統(tǒng)基于Boosting 的集成模型的流程如圖1,可以看出Boosting方法會(huì)迭代多次地訓(xùn)練一個(gè)分類器,通過不同分布的訓(xùn)練子集反復(fù)對(duì)分類模型進(jìn)行訓(xùn)練達(dá)到增強(qiáng)模型泛化能力的目的,最終達(dá)成將弱分類器變?yōu)閺?qiáng)分類器的效果[8]。在不平衡問題的解決思路中,利用重采樣結(jié)合Boosting集成算法被證實(shí)是有效的[9],可以根據(jù)分類結(jié)果迭代更新樣本的權(quán)重,更準(zhǔn)確地評(píng)估重采樣樣本的質(zhì)量,平衡不均衡數(shù)據(jù)分布的同時(shí),更有利于提升少數(shù)類樣本的分類質(zhì)量。

圖1 Boosting 集成算法訓(xùn)練流程Fig.1 Training flowchart of Boosting-based ensemble algorithm
Boosting算法的弱可學(xué)習(xí)理論表明,有限的迭代次數(shù)將弱學(xué)習(xí)算法經(jīng)過多次訓(xùn)練,可以組合為強(qiáng)學(xué)習(xí)算法[10]。在HIVECOTE 中,ST-HESCA 算法是一個(gè)對(duì)不平衡時(shí)間序列數(shù)據(jù)不敏感的弱學(xué)習(xí)算法組件[11],本文的優(yōu)化思路是:將SMOM 采樣算法結(jié)合Boosting 算法思想在每輪迭代過程中對(duì)不平衡數(shù)據(jù)集進(jìn)行重采樣,在每輪ST-HESCA算法模型的訓(xùn)練過程中將不平衡分類指標(biāo)G-means、AUC值、AUCPR 值作為分類模型的評(píng)價(jià)標(biāo)準(zhǔn),并根據(jù)交叉驗(yàn)證預(yù)測(cè)結(jié)果更新當(dāng)次訓(xùn)練所得ST-HESCA算法模型的樣本權(quán)重,然后通過有限度的多次迭代過程實(shí)現(xiàn)對(duì)ST-HESCA算法模型的不平衡數(shù)據(jù)學(xué)習(xí)能力的反復(fù)訓(xùn)練提升,最后組合所有迭代過程所得到的分類模型構(gòu)成一個(gè)完備訓(xùn)練的SBST-HESCA 集成分類算法模型,提高了SBST-HESCA 算法組件針對(duì)不平衡時(shí)序數(shù)據(jù)的分類準(zhǔn)確率。
SBST-HESCA 算法的實(shí)現(xiàn)流程如圖2,算法訓(xùn)練測(cè)試數(shù)據(jù)為采用AR指標(biāo)得到的shapelet進(jìn)行轉(zhuǎn)換后的數(shù)據(jù)集,采用AR指標(biāo)是由于實(shí)驗(yàn)中AR 指標(biāo)相對(duì)于AF 指標(biāo)對(duì)shapelet 候選集質(zhì)量的提升更加穩(wěn)定。

圖2 SBST-HESCA算法流程Fig.2 Flowchart of SBST-HESCA algorithm
迭代處理過程中,首先給每個(gè)訓(xùn)練樣本初始化一個(gè)權(quán)重系數(shù),其值為本輪迭代開始時(shí)所有少數(shù)類樣本的權(quán)重均值,然后每一輪迭代利用SMOM 算法人工合成少數(shù)類樣本,交給STHESCA 算法進(jìn)行多次交叉預(yù)測(cè),最后根據(jù)這些預(yù)測(cè)結(jié)果更新合成樣本的權(quán)重,在本過程中HESCA算法更新權(quán)重的判斷依據(jù)為通過交叉預(yù)測(cè)結(jié)果計(jì)算出的不平衡分類指標(biāo)綜合值,這個(gè)綜合值由AUC、AUCPR 和G-means 值共同判定,而不是STHESCA算法所使用的分類精度。由該過程訓(xùn)練得到的分類器為對(duì)應(yīng)迭代流程的基分類器,訓(xùn)練樣本的決策權(quán)重在本輪迭代過程被更新后用于下一次迭代訓(xùn)練過程。相對(duì)于ST-HESCA,SBST-HESCA算法采用本文給出的AR指標(biāo)對(duì)子序列質(zhì)量進(jìn)行評(píng)價(jià),該指標(biāo)比原算法中的“信息增益值”更能準(zhǔn)確度量不平衡數(shù)據(jù)集中shapelets的質(zhì)量。同時(shí),引入Boosting結(jié)合重采樣的思路,通過交叉驗(yàn)證預(yù)測(cè)結(jié)果更新樣本權(quán)重,使數(shù)據(jù)集的重采樣過程更有利于提升少數(shù)類樣本的分類質(zhì)量。
算法1 SBST-HESCA 迭代集成算法。

SBST-HESCA 算法在第1)~2)行對(duì)訓(xùn)練樣本權(quán)值進(jìn)行初始化,第4)行對(duì)訓(xùn)練樣本進(jìn)行SMOM 采樣處理,第5)~7)行新建一個(gè)HESCA 算法模型,然后設(shè)定評(píng)價(jià)指標(biāo)為AUC 值,AUCPR 和G-means 值,最后采樣后的數(shù)據(jù)導(dǎo)入模型進(jìn)行交叉驗(yàn)證,得到當(dāng)次迭代后的集成分類模型。第8)~10)行對(duì)樣本權(quán)值進(jìn)行更新,更新依據(jù)為本次迭代訓(xùn)練獲得的算法模型得到的交叉驗(yàn)證結(jié)果。最后在第11)行保存本次迭代獲得的集成分類模型和樣本權(quán)值,當(dāng)次迭代結(jié)束。第13)~16)行組合所有迭代所得的集成模型和樣本權(quán)值,依據(jù)不平衡分類指標(biāo)構(gòu)建SBST-HESCA 分類模型,最后對(duì)測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè)得到分類結(jié)果。
HIVE-COTE 算法的權(quán)值計(jì)算相對(duì)于其前身FLAT-COTE算法的權(quán)值計(jì)算有了一個(gè)很大的調(diào)整,F(xiàn)LAT-COTE 算法的權(quán)值計(jì)算是一個(gè)扁平(flat)的結(jié)構(gòu),即所有組件算法不受模塊化限制,一同參與最后的集成分類決策[12],存在的問題是:同類型數(shù)量多的算法往往占有投票的優(yōu)勢(shì)。HIVE-COTE 算法對(duì)組件算法的模塊化和分層化解決了這一問題[13]。本節(jié)對(duì)HIVE-COTE 算法集成策略進(jìn)行優(yōu)化,重點(diǎn)在于對(duì)每個(gè)組件算法的投票權(quán)重進(jìn)行優(yōu)化,而對(duì)算法自身內(nèi)容并不進(jìn)行變動(dòng)。
HIVE-COTE 算法在訓(xùn)練分類器的過程中,先由各模塊對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行模塊內(nèi)部的集成分類器的訓(xùn)練,然后HIVECOTE以不同模塊為單位進(jìn)行訓(xùn)練數(shù)據(jù)的交叉分類訓(xùn)練,在這個(gè)過程中確定HIVE-COTE 算法賦予每個(gè)模塊在分類模型中的投票權(quán)重。HIVE-COTE 算法的權(quán)值計(jì)算方法為式(3),集成學(xué)習(xí)算法中存在g個(gè)集成算法模塊,對(duì)c個(gè)類的數(shù)據(jù)進(jìn)行分類預(yù)測(cè),集成算法給出這個(gè)類為i的可信度為所有模塊算法對(duì)這個(gè)序列類標(biāo)簽為i的置信度與集成算法模塊對(duì)應(yīng)的決策權(quán)值乘積的和,除以當(dāng)前集成算法所有的權(quán)值與預(yù)測(cè)置信度的乘積和,其中w權(quán)值的確定根據(jù)交叉訓(xùn)練獲得的分類精度來估算。則權(quán)值w的計(jì)算公式(3)可以簡(jiǎn)寫為w=f(accuracy)。

本文繼續(xù)沿用式(3)的權(quán)值計(jì)算方法,但是在權(quán)值w的計(jì)算過程中,原算法是根據(jù)交叉訓(xùn)練過程中該集成模塊得到的分類精度計(jì)算得到,本文算法則基于交叉訓(xùn)練結(jié)果的AUC 值、AUCPR值和G-means值(G)進(jìn)行權(quán)值計(jì)算,將三者的算術(shù)平均值作為集成算法模塊的權(quán)值判斷依據(jù),確定權(quán)值的方法如式(4)所示:

在SBST-HESCA 算法對(duì)ST-HESCA 組件進(jìn)行優(yōu)化的基礎(chǔ)上,針對(duì)HIVE-COTE 集成算法,提出不平衡時(shí)間序列的集成分類方法IMHIVE-COTE。該算法從以下三個(gè)方面對(duì)HIVECOTE進(jìn)行了優(yōu)化。
1)在shapelet 選擇算法和時(shí)間序列森林(Time Series Forest,TSF)算法部分,原算法采用的是信息增益值對(duì)子序列質(zhì)量進(jìn)行評(píng)價(jià)[14],IMHIVE-COTE 算法將采用提出的AR 指標(biāo)進(jìn)行替換。
2)將第2 章提出的SBST-HESCA 算法加入shapelet 模塊,與原有的ST-HESCA算法組件進(jìn)行競(jìng)爭(zhēng),這部分的算法決策權(quán)值由式(4)來決定,即不平衡集成算法參與異構(gòu)集成的分類決策,改善現(xiàn)有組件算法對(duì)不平衡時(shí)間序列數(shù)據(jù)的學(xué)習(xí)能力。
3)由于HIVE-COTE 是平衡時(shí)間序列下的分類算法,組件算法的投票比重計(jì)算依據(jù)的是整體精度這準(zhǔn),IMHIVE-COTE算法則采用式(4)作為集成算法模塊的權(quán)值判斷依據(jù),從整體上提升集成算法對(duì)不平衡時(shí)間序列數(shù)據(jù)集的分類精度。
實(shí)驗(yàn)采用了F 值、G/MG(G-means/MG)值、AUC 值、AUCPR值作為評(píng)價(jià)指標(biāo)。
二元分類問題中真陽性率被稱為召回率(Recall)它代表分類器正確識(shí)別出的少數(shù)類占所有少數(shù)類數(shù)量的比值,與其對(duì)應(yīng)的精確率如式(5)所示:

其中:TP是被分類模型正確預(yù)測(cè)的正樣本數(shù),F(xiàn)P是被分類模型錯(cuò)誤預(yù)測(cè)為正類的負(fù)樣本數(shù)。精確率代表分類器正確識(shí)別出的多數(shù)類占所有多數(shù)類數(shù)量的比值。在不平衡分類的環(huán)境中,一般需要優(yōu)先保證召回率足夠高,其次是精確率。這兩個(gè)數(shù)值調(diào)和起來就出現(xiàn)了F-measure值,其β系數(shù)通常取1,這個(gè)情況下它的表達(dá)式可以簡(jiǎn)寫成式(6):

F 值能相對(duì)較好地反映出不平衡數(shù)據(jù)分類結(jié)果的好壞。但是不平衡分類關(guān)注的重點(diǎn)在于召回率,比如同樣的F 值下的兩種分類結(jié)果中,不平衡分類效果上而言Recall 值更高的分類結(jié)果更應(yīng)該得到較好的評(píng)價(jià)。此外G-means 值也是一個(gè)不平衡分類算法的通用評(píng)價(jià)指標(biāo),其公式為:

只有在召回率和精確率都比較大時(shí)才比較高,較F值更難達(dá)成,對(duì)不平衡分類算法在少數(shù)類樣本上的學(xué)習(xí)能力要求更高。多分類對(duì)比指標(biāo)MG值公式如下:

AUC值的確認(rèn)方法如式(9)所示:

ranki表示第i條樣本的序號(hào),M、N分別是正樣本數(shù)和負(fù)樣本數(shù)。PR 曲線以召回率為x軸,精確率為y軸,在不同閾值下得到對(duì)應(yīng)坐標(biāo)點(diǎn),進(jìn)而完成曲線的繪制。其曲線下面積值即為AUCPR。AUCPR值由于其來源的橫縱坐標(biāo)都是正類樣本的分類指標(biāo),以及在正負(fù)樣本數(shù)量相差懸殊時(shí)會(huì)受到較大影響,被認(rèn)為更適合于在不平衡程度更夸張的情況下考察不平衡分類算法的分類性能,而AUC 值能夠不受數(shù)據(jù)的不平衡率給出整體上的分類效果評(píng)價(jià)。上述值越大,說明模型的性能越好。
將2.1 節(jié)提出的AF 指標(biāo)和AR 指標(biāo)運(yùn)用在DIMS(Dimensions)算法中,這里DIMS算法是在二分類數(shù)據(jù)上使用的Binary_DIMS算法和在多分類數(shù)據(jù)上使用的Multi_DIMS[15]算法的總稱,實(shí)驗(yàn)中為了區(qū)分兩個(gè)評(píng)價(jià)指標(biāo),應(yīng)用了AF指標(biāo)的算法稱為AF_DIMS,應(yīng)用了AR指標(biāo)的算法稱為AR_DIMS。本節(jié)對(duì)提出的兩個(gè)算法:SBST-HESCA算法和IMHIVE-COTE算法進(jìn)行分類效果驗(yàn)證。數(shù)據(jù)集為公共數(shù)據(jù)集UCR上的不平衡二分類和多分類時(shí)間序列數(shù)據(jù)集[16]。對(duì)比算法選取了時(shí)間序列分類算法HIVE-COTE、重采樣算法Influential Neighbourhood for Over-Sampling(INOS)和時(shí)間序列不平衡分類算法SMOM 和AdakNN2+GIHS、shapelets方法AF_DIMS和AR_DIMS。
觀察表1的實(shí)驗(yàn)數(shù)據(jù),可以發(fā)現(xiàn)除和平衡分類關(guān)系較近的F值指標(biāo)外,本文提出的有關(guān)算法在G/MG值、AUC值2個(gè)不平衡指標(biāo)中獲得了最大的指標(biāo)領(lǐng)先數(shù),其中G/MG 值IMHIVECOTE算法性能最好,其次是HIVE-COTE算法;在AUC值分類結(jié)果上,IMHIVE-COTE 算法領(lǐng)先,其次是SMOM 算法;針對(duì)F指標(biāo)和AUCPR 指標(biāo),IMHIVE-COTE 算法效果不及AR_DIMS。總體來說,IMHIVE-COTE算法的優(yōu)勢(shì)體現(xiàn)在以下兩個(gè)方面:
1)在不平衡指標(biāo)值(G/MG,AUC,AUCPR)上,本文提出的IMHIVE-COTE 集成算法比HIVE-COTE 集成算法得到的評(píng)價(jià)值更好,證明IMHIVE-COTE更適用于不平衡分類問題。
2)在4 個(gè)評(píng)價(jià)指標(biāo)中,本文提出的IMHIVE-COTE 集成算法比未采用AR 和AF 子序列評(píng)價(jià)指標(biāo)的單一分類算法,評(píng)價(jià)值更好;在F 值和AUCPR 值上效果不及AR_DIMS,并與AF_DIMS 效果接近,說明兩個(gè)子序列評(píng)價(jià)指標(biāo)的改進(jìn)對(duì)于shapelets 分類算法非常有效,但是由于HIVE-COTE 集成框架中還包括其他組件算法,沒有針對(duì)不平衡數(shù)據(jù)進(jìn)行改進(jìn),因此影響了IMHIVE-COTE 的整體性能。但上述兩點(diǎn)也說明,IMHIVE-COTE 為集成學(xué)習(xí)方法針對(duì)不平衡數(shù)據(jù)分類問題,提出了一個(gè)有效的優(yōu)化思路。

表1 不同分類算法的F值、G/MG值、AUC值、AUCPR值Tab.1 F values,G/MG values,AUC values and AUCPR values of different classification algorithms
總結(jié)實(shí)驗(yàn)結(jié)果,可以得出如下結(jié)論:
1)本文提出的兩個(gè)子序列質(zhì)量評(píng)價(jià)指標(biāo)AF 值和AR 值,在不平衡時(shí)間序列數(shù)據(jù)集中,對(duì)于SBST-HESCA 組件中shapelets的選擇起到了重要作用。
2)改進(jìn)算法SBST-HESCA 在不平衡數(shù)據(jù)的分類上有了更好的分類效果,顯著增強(qiáng)了IMHIVE-COTE 集成算法的對(duì)不平衡時(shí)間序列數(shù)據(jù)的泛化能力。
3)相較于表1中基于平衡分類的評(píng)價(jià)指標(biāo)F值,在不平衡指標(biāo)值中,IMHIVE-COTE 算法得到的評(píng)價(jià)值更好,證明IMHIVE-COTE更適應(yīng)于不平衡時(shí)間序列數(shù)據(jù)分類。
本文給出了一個(gè)新的不平衡時(shí)間序列分類方法SBSTHESCA,分析并驗(yàn)證了該算法在不平衡分類方面的能力,然后總結(jié)本文實(shí)驗(yàn)成果之后,給出了一個(gè)完善的不平衡時(shí)間序列上的異構(gòu)集成分類算法IMHIVE-COTE。最后經(jīng)過實(shí)驗(yàn)驗(yàn)證,表明了IMHIVE-COTE算法能很好地總結(jié)時(shí)間序列的不平衡分類特點(diǎn),保持異構(gòu)集成方法在不平衡時(shí)間序列數(shù)據(jù)上的分類優(yōu)勢(shì)。