曹瑞陽(yáng),郭佑民,牛滿宇
(蘭州交通大學(xué) 機(jī)電技術(shù)研究所,蘭州 730070)
隨著大數(shù)據(jù)技術(shù)的快速發(fā)展,以大數(shù)據(jù)為基礎(chǔ)的數(shù)據(jù)分析方法進(jìn)入了一個(gè)全新階段[1]。在大數(shù)據(jù)環(huán)境下構(gòu)建并訓(xùn)練的深度學(xué)習(xí)模型具有較優(yōu)的性能。然而,數(shù)據(jù)量的缺乏[2-3]使得深度學(xué)習(xí)模型訓(xùn)練不充分,導(dǎo)致模型的泛化性能降低[4]。對(duì)于這種過(guò)擬合現(xiàn)象的發(fā)生[5],正則化方法或簡(jiǎn)單收集更多的標(biāo)記數(shù)據(jù)[6]能夠增加數(shù)據(jù)量。此外,數(shù)據(jù)增強(qiáng)技術(shù)[7-8]通過(guò)特定的方法生成合成數(shù)據(jù),通過(guò)對(duì)圖像進(jìn)行翻轉(zhuǎn)[9-11]、旋轉(zhuǎn)[12]、鏡像[13]、高斯白噪聲等技巧,實(shí)現(xiàn)數(shù)據(jù)增強(qiáng),廣泛應(yīng)用于圖像領(lǐng)域[14-15]。
在其他領(lǐng)域中也有相應(yīng)的數(shù)據(jù)增強(qiáng)方法[16-17]。文獻(xiàn)[18]采用隨機(jī)設(shè)置部分信息缺失和增加噪聲的方式對(duì)原有數(shù)據(jù)集進(jìn)行擴(kuò)充,在信息缺失和含噪聲的情況下提高模型的魯棒性,但是填充的數(shù)據(jù)量不好控制。如果填充的數(shù)據(jù)太少,則幾乎不會(huì)改變?cè)袛?shù)據(jù)集的分布,如果被擴(kuò)充得太多,模型在該增強(qiáng)數(shù)據(jù)集下的檢測(cè)效果呈現(xiàn)降低的趨勢(shì)。文獻(xiàn)[19]采用合成少數(shù)類過(guò)采樣技術(shù)(Synthetic Minority Oversampling Technique,SMOTE)對(duì)少數(shù)類樣本進(jìn)行過(guò)采樣操作,通過(guò)ENN(Edited Nearest Neighbor)算法剔除不符合要求的噪聲數(shù)據(jù)。該方法能夠有效解決數(shù)據(jù)不平衡所帶來(lái)的問(wèn)題。因SMOTE 算法存在一定的不足,多數(shù)類樣本和少數(shù)類樣本的邊界出現(xiàn)模糊現(xiàn)象,使得檢測(cè)的難度加大,甚至存在數(shù)據(jù)生成越界的問(wèn)題。文獻(xiàn)[20]通過(guò)時(shí)域重采樣、能量變化、隨機(jī)零填充這3 個(gè)步驟模擬數(shù)據(jù),以提高模型的精確率,但是因?qū)刂诡l率和重采樣率有所限制,導(dǎo)致所產(chǎn)生模擬信號(hào)的多樣性也受到了一定的限制。
現(xiàn)有的數(shù)據(jù)增強(qiáng)方法在時(shí)間序列分類方面的數(shù)據(jù)增強(qiáng)有限。文獻(xiàn)[21]提出時(shí)間序列數(shù)據(jù)增強(qiáng)技術(shù),能夠有效解決數(shù)據(jù)增強(qiáng)在深度學(xué)習(xí)模型分類中存在的問(wèn)題。在數(shù)據(jù)增強(qiáng)過(guò)程中,將所有訓(xùn)練集作為中心數(shù)據(jù),延長(zhǎng)模型的計(jì)算時(shí)間,同時(shí)由于某些中心數(shù)據(jù)選取不合適造成生成的新數(shù)據(jù)樣本類別存在偏差,或者生成數(shù)據(jù)中心靠近邊界,易受離散點(diǎn)的影響,導(dǎo)致生成數(shù)據(jù)越界現(xiàn)象的發(fā)生。在整個(gè)過(guò)程中固定近鄰數(shù)k及權(quán)重函數(shù),即生成數(shù)據(jù)所用樣本的權(quán)重不變,在生成樣本數(shù)據(jù)的多樣性方面存在一定不足。
本文提出一種基于最大最小距離的多中心數(shù)據(jù)增強(qiáng)方法。通過(guò)加權(quán)密度減少離群點(diǎn)對(duì)最終結(jié)果的影響,將抽樣方法與最大最小距離算法相結(jié)合得到多生成中心,避免了生成結(jié)果出現(xiàn)樣本類別越界的情況。在此基礎(chǔ)上,根據(jù)樣本的相似性構(gòu)建權(quán)重函數(shù),計(jì)算加權(quán)平均得到新的樣本,拓展樣本數(shù)據(jù)的多樣性。
最大最小距離準(zhǔn)則[22]是基于歐氏距離,在最大程度上選取盡可能遠(yuǎn)的樣本點(diǎn)作為生成中心,從而避免產(chǎn)生初始中心過(guò)于近鄰的情況。數(shù)據(jù)生成類別越界示意圖如圖1 所示。

圖1 數(shù)據(jù)生成類別越界示意圖Fig.1 Schematic diagram of data generation categories transgression
最大最小距離算法的基本原理是首先從樣本中選擇1個(gè)任意樣本點(diǎn)v1,并將其作為數(shù)據(jù)生成中心,選擇距離v1最遠(yuǎn)的樣本點(diǎn)v2作為另一個(gè)生成中心,然后再選擇剩余l(xiāng)(l>2)時(shí)的中心點(diǎn),分別計(jì)算剩余樣本點(diǎn)到之前中心點(diǎn)的歐氏距離,將距離最小值依次放入集合中,同時(shí)下一個(gè)中心點(diǎn)為集合中最大值所對(duì)應(yīng)的樣本點(diǎn),以此重復(fù)計(jì)算剩余所需要的中心點(diǎn),過(guò)程如式(1)所示:

其中:disti1和disti2分別為樣本i到v1和v2的歐氏距離。
最大最小距離算法可以有效地解決數(shù)據(jù)生成中心處于邊界的問(wèn)題,從而避免出現(xiàn)生成樣本越界的情況。傳統(tǒng)SMOTE 算法對(duì)少數(shù)類樣本進(jìn)行分析和模擬后,在其近鄰進(jìn)行隨機(jī)線性插值。如果該少數(shù)類樣本位于邊界處,那么隨機(jī)生成的新樣本就有可能出現(xiàn)越界的情況,而引入最大最小距離準(zhǔn)則會(huì)重新選擇生成中心。在第1 次計(jì)算過(guò)程中選取了最大的距離,在之后的計(jì)算過(guò)程中生成中心會(huì)向更小的距離接近,使得最遠(yuǎn)少數(shù)類樣本點(diǎn)成為生成中心范圍的邊界,從而將最遠(yuǎn)邊界控制在最遠(yuǎn)的少數(shù)類樣本點(diǎn)之內(nèi),使得生成中心始終不會(huì)出現(xiàn)越界的情況,同時(shí)也帶來(lái)了最大最小距離算法自身的缺點(diǎn)。最大最小距離算法在運(yùn)行過(guò)程中要遍歷兩遍數(shù)據(jù)庫(kù),如果數(shù)據(jù)庫(kù)很大,那么需要的計(jì)算時(shí)間將會(huì)延長(zhǎng)。針對(duì)上述問(wèn)題,本文考慮將抽樣方法與最大最小距離算法相結(jié)合,通過(guò)簡(jiǎn)單隨機(jī)抽樣方法[23]提取原始數(shù)據(jù)庫(kù)的主要特征,采用最大最小距離算法從抽樣后的數(shù)據(jù)集中選取數(shù)據(jù)生成中心G1,重復(fù)該步驟得到生成中心G1,G2,…,Gn,經(jīng)過(guò)多次抽樣后得到多中心的數(shù)據(jù)生成中心集合G。原始數(shù)據(jù)集采樣過(guò)程示意圖如圖2 所示。

圖2 原始數(shù)據(jù)集采樣過(guò)程Fig.2 Sampling process of original dataset
設(shè)數(shù)據(jù)庫(kù)的規(guī)模個(gè)數(shù)為105,直接采用最大最小距離算法對(duì)數(shù)據(jù)庫(kù)進(jìn)行計(jì)算,所需計(jì)算次數(shù)為2k×105。假設(shè)樣本集的大小為103,采用最大最小距離算法對(duì)單個(gè)樣本集進(jìn)行計(jì)算,計(jì)算次數(shù)為2k×103。如果進(jìn)行10次抽樣,則共需的計(jì)算次數(shù)為2k×104,計(jì)算次數(shù)僅為前者的1/10。
簡(jiǎn)單隨機(jī)抽樣使得每個(gè)對(duì)象在總體中被抽到的概率相等,且每個(gè)樣本集的數(shù)據(jù)生成中心點(diǎn)集都不同,極大豐富了數(shù)據(jù)的隨機(jī)性和多樣性。如果隨機(jī)性過(guò)高會(huì)導(dǎo)致抽樣樣本分布不均勻。為保證一定的抽樣精度,簡(jiǎn)單隨機(jī)抽樣必須進(jìn)行多次抽樣。
動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping,DTW)算法是一個(gè)典型的優(yōu)化問(wèn)題,可以衡量2 個(gè)不同長(zhǎng)度的時(shí)間序列相似度。
DTW 對(duì)序列A和B定義為A=(a1,a2,…,am)和B=(b1,b2,…,bn)。動(dòng)態(tài)規(guī)整路徑W=(w1,w2,…,wk),max(m,n)≤K≤m+n-1。其中:wk對(duì)應(yīng)同步點(diǎn)(x,y)k,k=1,2,…,k;x表示序列A元素的索引;y表示序列B元素的索引。動(dòng)態(tài)規(guī)整路徑需滿足A和B序列上所有元素的索引與規(guī)整路徑相一致,且w1=(1,1),wk=(m,n)。假如某路徑已經(jīng)處于同步點(diǎn)(x,y)之后,那么該路徑下一步只能通過(guò)點(diǎn)(x+1,y)、(x,y+1)、(x+1,y+1),滿足條件的路徑個(gè)數(shù)為指數(shù)。動(dòng)態(tài)時(shí)間規(guī)整的目的是用最少的代價(jià)找出與目標(biāo)最相近的路徑,其表達(dá)式如式(2)所示:

最小代價(jià)路徑可以通過(guò)累計(jì)距離來(lái)計(jì)算得到,累積距離如式(3)所示:

其中:d(x,y)為ax與by之間的距離。在該約束條件下最短的規(guī)整路徑所對(duì)應(yīng)的累計(jì)距離,便是所求2 個(gè)序列之間的DTW 距離。
本文提出一種基于最大最小距離的數(shù)據(jù)增強(qiáng)方法MCA,基本原理是首先計(jì)算所有樣本的加權(quán)密度,以排除離群點(diǎn)的影響,通過(guò)改進(jìn)的最大最小距離算法得到中心點(diǎn)集G,盡可能保留有效特征;其次在每個(gè)備選中心點(diǎn)集中找出中心數(shù)據(jù)的k個(gè)近鄰對(duì)近鄰樣本和非近鄰樣本進(jìn)行賦權(quán);最后利用加權(quán)算法計(jì)算選取樣本的加權(quán),以得到新的合成數(shù)據(jù)。
本文需要對(duì)各樣本點(diǎn)的密度進(jìn)行從大到小的排序,以減少M(fèi)CA 方法的時(shí)間復(fù)雜度。樣本xi的密度計(jì)算如式(4)和式(5)所示:

其中:dij為樣本xi與樣本xj之間的距離;dc為設(shè)置的閾值;ρi為落入以xi為圓心和以dc為半徑的圓內(nèi)樣本數(shù)量。
加權(quán)的歐氏距離如式(6)所示:

其中:distw(xi,xj)為樣本xi和xj在m維空間下的加權(quán)歐氏距離;xil和xjl分別為在空間l維下的樣本xi和xj;m、l為空間維數(shù)。
所有樣本點(diǎn)的平均歐氏距離如式(7)所示:

本文從總體樣本中抽取具有代表性的樣本[24],使得統(tǒng)計(jì)推斷更加可靠。表1 是樣本容量選取的參數(shù)。

表1 樣本容量選取的參數(shù)Table 1 Parameters of sample size selection
在估算樣本容量時(shí)需要給定抽樣精度,一般用(α,ε)精度來(lái)表示,即在置信概率1-α下總體平均數(shù)的置信區(qū)間長(zhǎng)度不超過(guò)2ε。在總體平均數(shù)的置信區(qū)間中,當(dāng)n無(wú)限大時(shí),近似服從正態(tài)分布,如式(8)和式(9)所示:

因此,當(dāng)0<α<1 時(shí),置信概率如式(10)所示:


uα定義為:

其中:φ為標(biāo)準(zhǔn)正態(tài)分布N(0,1)的分布函數(shù)。
由式(11)可知,(α,ε)精度等價(jià)于:


由式(13)和式(14)可得:

因此,樣本容量n的取值如式(16)所示:

在相同的總體容量中,用戶可根據(jù)需求設(shè)定不同的置信區(qū)間和抽樣誤差。抽樣誤差和置信區(qū)間設(shè)置越小,所需的樣本容量就越大。當(dāng)總體容量增加超過(guò)一定閾值時(shí),總體對(duì)樣本容量的影響基本可以忽略不計(jì)。
本文對(duì)權(quán)重進(jìn)行賦值,選定時(shí)間序列T*和其最近鄰,如果時(shí)間序列數(shù)據(jù)相對(duì)遠(yuǎn)離T*及其最近鄰,則權(quán)重相對(duì)較低。本文隨機(jī)選擇一個(gè)中心時(shí)間序列T*,構(gòu)建近鄰相似權(quán)重,如式(17)所示:

雖然式(17)描述了連接Ti與T*的權(quán)重,但是未考慮Ti與T*的相關(guān)性,因此,相關(guān)權(quán)重的計(jì)算如式(18)所示:

其中:ne(T*)為Ti的k近鄰。剩余樣本權(quán)重的計(jì)算如式(19)所示:

其中:d*NN為T*與其近鄰之間的最小距離。
MCA 方法將樣本集X 作為輸入,數(shù)據(jù)增強(qiáng)后的數(shù)據(jù)集作為輸出。MCA 方法流程如圖3 所示,通過(guò)計(jì)算所有點(diǎn)的密度,剔除離群點(diǎn),利用簡(jiǎn)單隨機(jī)抽樣獲得小樣本數(shù)據(jù)集,同時(shí)對(duì)小樣本集運(yùn)用最大最小距離算法得到生成中心,根據(jù)樣本相似性構(gòu)建權(quán)重函數(shù),得到新的生成樣本。

圖3 MCA 方法流程Fig.3 Procedure of MCA method
深度神經(jīng)網(wǎng)絡(luò)層數(shù)的加深不僅會(huì)導(dǎo)致出現(xiàn)過(guò)量的參數(shù),還會(huì)引起網(wǎng)絡(luò)退化。然而殘差模塊的引入就是為了解決網(wǎng)絡(luò)退化的問(wèn)題。深度殘差網(wǎng)絡(luò)[25]包括卷積層、池化層和全連接層等,其結(jié)構(gòu)與深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)類似。卷積層由含有若干可學(xué)習(xí)參數(shù)的卷積核構(gòu)成,主要對(duì)局部信息進(jìn)行計(jì)算,因此降低了計(jì)算量。池化層對(duì)主要信息進(jìn)行降維處理,使原本高維計(jì)算變?yōu)榈途S數(shù)據(jù)的計(jì)算,有效地降低了計(jì)算量,在一定程度上避免了過(guò)擬合現(xiàn)象的發(fā)生。全連接層經(jīng)過(guò)分類計(jì)算后,全連接層會(huì)對(duì)結(jié)果進(jìn)行分類處理。
殘差網(wǎng)絡(luò)通過(guò)添加快捷連接作為恒等映射,使得網(wǎng)絡(luò)性能不會(huì)退化。殘差單元的示意圖如圖4所示。

圖4 殘差單元示意圖Fig.4 Schematic diagram of residual unit
圖4 中殘差單元的輸入為x,殘差單元中各層的參數(shù)為W。殘差單元主要由2 個(gè)卷積層組成,這2 個(gè)卷積層的輸出F()表示需要學(xué)習(xí)的殘差函數(shù)。跨層快捷連接和殘差函數(shù)則共同構(gòu)成殘差單元的輸出y,如式(20)和式(21)所示:

其中:σ()為激活函數(shù),選用線性整流單元(Rectified Linear Unit,ReLU)作為激活函數(shù)。激活函數(shù)使輸入的線性組合變?yōu)榉蔷€性組合,從而解決模型梯度消失的問(wèn)題,如式(22)所示:

ReLU 的輸入為r,對(duì)應(yīng)上一層網(wǎng)絡(luò)的輸出,ReLU 輸出結(jié)果為r與0 的相對(duì)最大值。本文構(gòu)建的深度殘差網(wǎng)絡(luò)用于檢測(cè)生成數(shù)據(jù)的分類結(jié)果,其結(jié)構(gòu)如圖5 所示。

圖5 深度殘差網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Structure of deep residual network
從圖5 可以看出,深度殘差網(wǎng)絡(luò)由卷積層、池化層和全連接層構(gòu)成,激活函數(shù)為ReLU 函數(shù),在一定程度上避免出現(xiàn)梯度消失的現(xiàn)象,且使得特征在層間傳遞時(shí)取值范圍不變。深度殘差網(wǎng)絡(luò)采用Adma算法優(yōu)化目標(biāo)損失函數(shù),其中基礎(chǔ)學(xué)習(xí)率設(shè)置為0.1,衰減率為0.9,損失函數(shù)如式(23)所示:

其中:p為softmax 函數(shù)的輸出概率值;y為樣本的真實(shí)標(biāo)簽。在本文中,少數(shù)類樣本標(biāo)簽為1,多數(shù)類樣本標(biāo)簽為0。在實(shí)測(cè)數(shù)據(jù)集中軸箱振動(dòng)異常樣本的真實(shí)標(biāo)簽為1,無(wú)異常狀態(tài)樣本的真實(shí)標(biāo)簽為0。
為檢測(cè)MCA 方法的性能,本文選取UCR 數(shù)據(jù)庫(kù)中的SwedishLeaf 數(shù)據(jù)集和某高鐵軸箱振動(dòng)實(shí)測(cè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。實(shí)測(cè)數(shù)據(jù)集為安裝在高鐵軸箱上振動(dòng)傳感器采集的數(shù)據(jù),用于分析檢測(cè)軌道平整度,同時(shí)選取領(lǐng)域內(nèi)常用的過(guò)采樣合成數(shù)據(jù)方法(SMOTE)、下采樣的代表方法(Easy Ensemble)、隨機(jī)簡(jiǎn)單復(fù)制樣本(RR)、保結(jié)構(gòu)過(guò)采樣(INOS)、模型空間學(xué)習(xí)過(guò)采樣(MK)及DTW 數(shù)據(jù)增強(qiáng)方法進(jìn)行對(duì)比。數(shù)據(jù)集描述如表2 所示。

表2 數(shù)據(jù)集描述Table 2 Dataset description
本文實(shí)驗(yàn)采用的軟件配置為64 位window10 的操作系統(tǒng),開發(fā)工具采用PyCharm 運(yùn)行所提出的算法,運(yùn)行環(huán)境為Intel?CoreTMi5-7200U CPU,2.50 GHz,8.00 GB。
樣本容量是決定數(shù)據(jù)信息正確和計(jì)算效率的重要因素之一。樣本容量越大,正確率越高,但效率會(huì)降低;樣本容量越小,正確率越低,但效率會(huì)提高。本文對(duì)2.3節(jié)提出的公式進(jìn)行定量分析,從SwedishLeaf 數(shù)據(jù)集中任選1 000 條數(shù)據(jù),設(shè)置抽樣誤差為0.1,計(jì)算總體方差為0.368 2,利用式(16)計(jì)算在不同總體個(gè)數(shù)N發(fā)生變化時(shí)所對(duì)應(yīng)的樣本容量n的變化情況。樣本容量計(jì)算結(jié)果如表3 所示。

表3 樣本容量計(jì)算結(jié)果Table 3 Calculation results of sample size
從表3 可以看出,在確定方差和抽樣精度后,總體個(gè)數(shù)N越大,所需的樣本容量n所占總體的比例越小。在置信度設(shè)置為90%的情況下,當(dāng)N為100 時(shí),n所占的比例約為51%;當(dāng)N為600時(shí),n所占的比例約為15%;當(dāng)N為10 000 時(shí),n所占的比例約為1%。在置信度設(shè)為95 的情況下,當(dāng)N為100 時(shí),n所占的比例約為60%;當(dāng)N為600時(shí),n所占的比例約為20%;當(dāng)N為10 000時(shí),n所占的比例約為1.5%。當(dāng)置信度設(shè)置更高時(shí),需要更多的樣本容量來(lái)支持,抽樣精度也需要相應(yīng)的提高。當(dāng)N達(dá)到一定閾值時(shí),再增加N的量,n的增長(zhǎng)呈現(xiàn)緩慢趨勢(shì)。因此,超過(guò)一定閾值的總體個(gè)數(shù)對(duì)樣本容量的影響趨向于0。
本文對(duì)不同的數(shù)據(jù)增強(qiáng)方法進(jìn)行可視化分析,直觀地展示采樣后樣本的分布情況。由于本文所采用的數(shù)據(jù)集維度較高,難以直接可視化,因此采取主成分分析(Principal Component Analysis,PCA)方法進(jìn)行降維處理,選取貢獻(xiàn)率排前2 的主成分,并在平面空間上進(jìn)行結(jié)果可視化。在SwedishLeaf 數(shù)據(jù)集上時(shí)序采樣可視化結(jié)果如圖6 所示。實(shí)心點(diǎn)表示多數(shù)類樣本,空心點(diǎn)表示少數(shù)類樣本。

圖6 時(shí)序采樣可視化結(jié)果Fig.6 Visualization results of timing sampling
從圖6 可以看出,SwedishLeaf 訓(xùn)練集由1 個(gè)少數(shù)類樣本和14 個(gè)多數(shù)類樣本組成,按照少數(shù)類和多數(shù)類1∶14 的關(guān)系隨機(jī)選取30 條樣本數(shù)據(jù),并采用不同方法均生成15 個(gè)樣本。不同方法的采樣結(jié)果分析如下:
1)RR 方法僅通過(guò)隨機(jī)復(fù)制少數(shù)類樣本來(lái)平衡數(shù)據(jù)集,導(dǎo)致新生成的少數(shù)類樣本與原少數(shù)類樣本幾乎完全重合。該方法對(duì)數(shù)據(jù)集信息量的擴(kuò)充沒有作用。
2)SMOTE 方法在原少數(shù)類樣本周邊均勻生成新的樣本,生成的樣本容易靠近邊界,且在近鄰選擇時(shí)多數(shù)類樣本和少數(shù)類樣本的區(qū)別較模糊。
3)Easy Ensemble 方法剔除了信息量較少的數(shù)據(jù),盡可能保留更多的有效信息,由于未考慮一些偏遠(yuǎn)點(diǎn)對(duì)結(jié)果的影響,生成的樣本較原數(shù)據(jù)集中,缺少隨機(jī)性。
4)本文提出的MCA 方法首先計(jì)算樣本密度,排除噪聲點(diǎn)的干擾,同時(shí)將最大最小距離算法與抽樣方法相結(jié)合確定多生成中心,使得生成中心也遠(yuǎn)離邊界,不會(huì)造成生成樣本邊緣化的問(wèn)題,同時(shí)通過(guò)多次抽樣提高樣本的隨機(jī)性,采用樣本加權(quán)隨機(jī)分配權(quán)重,使得生成樣本序列多樣性更豐富。
在SwedishLeaf 數(shù)據(jù)集的少數(shù)類樣本和多數(shù)類樣本不平衡率(IR)下,不同方法的分類精度、召回率對(duì)比如圖7 和圖8 所示。

圖7 在SwedishLeaf 數(shù)據(jù)集上不同方法的精確率對(duì)比Fig.7 Precision comparison among different methods on SwedishLeaf dataset

圖8 在SwedishLeaf 數(shù)據(jù)集上不同方法的召回率對(duì)比Fig.8 Recall comparison among different methods on SwedishLeaf dataset
從圖7 和圖8 可以看出,在SwedishLeaf 數(shù)據(jù)集上,MCA 方法的精確率相較于其他6 種數(shù)據(jù)增強(qiáng)方法提高了7%~18%,召回率提高了4%~15%。MCA 數(shù)據(jù)增強(qiáng)方法較未進(jìn)行增強(qiáng)前相比,精確度和召回率分別提高18%和15%,說(shuō)明數(shù)據(jù)增強(qiáng)可以有效地提高數(shù)據(jù)集的分類準(zhǔn)確度。相比SMOTE 方法,MCA 方法的精確率和召回率分別提高約6.7%和6%。SMOTE 方法只是在少數(shù)類樣本周邊生成新樣本,未考慮整體樣本的信息,在少數(shù)類樣本的周圍增加無(wú)用的噪聲點(diǎn),且可能出現(xiàn)樣本越界的情況,從而影響分類結(jié)果。與Easy Ensemble方法相比,MCA 方法的精確率和召回率分別提高了約8.9%和8%。Easy Ensemble 方法采用降采樣選取有效的樣本子集,減少了整體數(shù)據(jù)量,導(dǎo)致模型訓(xùn)練量不夠充分且整體數(shù)據(jù)量越小,降低了分類效果。相比RR、INOS、MK 方法,MCA 方法的精確率和召回率分別提高了5.9%和7%。RR 方法通過(guò)簡(jiǎn)單復(fù)制樣本,生成的數(shù)據(jù)多樣性較差,因此分類精度提升幅度較小。相比DTW 方法,MCA 方法精確率和召回率分別提高了約1.17%和2%。
為進(jìn)一步驗(yàn)證MCA方法的有效性,在SwedishLeaf數(shù)據(jù)集上不同增強(qiáng)方法的F1 值對(duì)比如圖9 所示。在相同的不平衡率下,MCA 方法的F1 值最高。在不平衡率較高的情況下,MCA 方法與其他方法相比提高了2%左右。

圖9 在SwedishLeaf 數(shù)據(jù)集上不同方法的F1 值對(duì)比Fig.9 F1 values comparison among different methods on SwedishLeaf dataset
在實(shí)測(cè)數(shù)據(jù)集上MCA 方法與其他6 種方法的精確率和召回率對(duì)比如圖10 和圖11 所示。從圖10和圖11 可以看出,在實(shí)測(cè)數(shù)據(jù)集上MCA 方法與6 種數(shù)據(jù)增強(qiáng)方法相比,精確率、召回率均有大幅提升。相比Easy Ensemble、SMOTE 和RR 方法,MCA 方法的精確率提高5%左右,由于MCA 方法解決了生成數(shù)據(jù)樣本類別越界的問(wèn)題,提高了模型的訓(xùn)練準(zhǔn)確率。MCA 方法與其他方法相比分類效果有很大提升,尤其是召回率提高了2%~6%。

圖10 在實(shí)測(cè)數(shù)據(jù)集上不同方法的精確率對(duì)比Fig.10 Precision comparison among different methods on measured dataset

圖11 在實(shí)測(cè)數(shù)據(jù)集上不同方法的召回率對(duì)比Fig.11 Recall comparison among different methods on measured dataset
在實(shí)測(cè)數(shù)據(jù)集上不同方法F1 值對(duì)比如圖12 所示。從圖12 可以看出,MCA 方法與其他方法相比F1 值提高了2%~5%,當(dāng)不平衡率較大時(shí),F(xiàn)1 值的提升速度最快,說(shuō)明MCA 方法在不平衡率較大的數(shù)據(jù)集上仍具有較優(yōu)的分類結(jié)果,適應(yīng)不平衡數(shù)據(jù)的分類。

圖12 在實(shí)測(cè)數(shù)據(jù)集上不同方法的F1 值對(duì)比Fig.12 F1 values comparison among different methods on measured dataset
本文提出一種基于最大最小距離的數(shù)據(jù)增強(qiáng)方法,通過(guò)考慮加權(quán)密度對(duì)排除離群點(diǎn)的影響,將抽樣方法與最大最小距離算法相結(jié)合選取多中心,優(yōu)化生成數(shù)據(jù)的中心,同時(shí)結(jié)合樣本加權(quán)對(duì)多中心樣本重新賦權(quán),有效地增加生成數(shù)據(jù)的隨機(jī)性。在UCR數(shù)據(jù)集和實(shí)測(cè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,相比SMOTE、Easy Ensemble、RR 等方法,本文方法具有較高的精確率,并且在不平衡率較高的情況下具有較優(yōu)的分類效果。下一步將通過(guò)對(duì)抽樣方法和原始數(shù)據(jù)信息提取的問(wèn)題進(jìn)行研究,提高增強(qiáng)后數(shù)據(jù)集的分類精確度。