999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于混合神經網絡的時序不平衡分類研究

2022-10-26 13:37:00毛玉明楊留方曹偉嘉謝宗效
關鍵詞:分類模型

毛玉明,楊留方,曹偉嘉,謝宗效

(云南民族大學 電氣信息工程學院,云南 昆明 650500)

對于傳統分類任務,屬性的值是獨立于屬性的發生順序的,而對于時間序列,正是屬性的發生順序使得樣本具有獨特性,其難點就是怎樣挖掘出數據樣本前后所隱藏的特殊邏輯關系,這些邏輯關系包括數據點的先后,局部子序列的特征,數據維度高以及噪聲節點等.目前,針對時間序列分類有以下幾種分類方式.①采用計量距離的全序列的分類方法,如DTW[1]、WDTW[2]、TWE[3](time warp edit)等算法,這類方法是計算整個時間序列間的相似度來判斷所屬類別的.②基于區間的分類方法,其中具有代表的算法是TSF[4](time series forest)和TSBF[5](time series bag of forest),其都采用了隨機森林的思想,并通過隨機采樣來減少選取的復雜度.③采用shapelets分類方法,代表算法有將shapelets發現過程融入二叉決策樹的Shapelets發現算法[6-8](shapelet discovery algorithms),將shapelets的提取與分類的構建相分離的Shapelets變換算法[9](shapelet transform algorithms).④深度學習的方法,近幾年深度學習、機器學習的快速發展,也逐漸被用來解決時間序列分類問題,文獻[10-14]展示了深度學習方法對于時間序列分類的可行性,但在實際應用中也受到了一定限制,因為其需要大量的數據和復雜的計算量.

現實生活中大多數分類問題都屬于不平衡分類的范疇,不平衡問題的研究來源于生活中現實問題的稀有事件,其難以發現但往往問題發生后又會產生嚴重的后果.如疾病診斷[15],詐騙檢測[16],異常識別[17],自然災害[18],癌癥基因表達[19]等.解決不平衡問題有兩個方向,一個是進行重采樣,代表的有SMOTE(synthetic minority over-sampling technique)[20]算法.另一個是集成學習,boosting是其具有代表性的串行迭代方法.其中重采樣只是單純解決的數據不平衡的問題,忽略了數據空間時間關系,結果往往不理想.集成學習是將多個分類器集成在一起,每個分類器都對數據樣本分類,用一定的規則來提高分類的精確性.

時間序列分類和不平衡數據常常會出現在同一個問題中,但將二者結合起來的研究成果還較少.隨著深度學習的快速發展,出現了一批用深度學習來解決時序不平衡分類的方法,如論文[21]提出了一種自適應代價敏感卷積神經網絡來解決時序不平衡,文中采用代價敏感網絡(CS-CNN),用類相關矩陣對錯分類樣本進行懲罰.論文[22]提出一種基于對抗網絡的異常序列檢測方法,訓練了一個編碼器-解碼器-編碼器三子網發生器,該發生器只會從正常樣本中提取特征,忽略了樣本不均衡的問題. 因而,文中采用LSTM全卷積網絡結合混合采樣算法(SKLF算法)來對時序不平衡問題進行處理,此方法兼顧了時間序列和類不平衡的問題.

1 SKLF模型

1.1 SKLF混合模型

SKLF(SMOTE and K-means LSTM-FCN(并行))模型由混合采樣和LSTM全卷積網絡構成,模型訓練流程框圖如圖1所示.混合采樣由K-means和SMOTE組成,分別對多樣本類進行欠采樣和少樣本類進行插值處理.

圖1 SKLF模型訓練流程框圖

全卷積塊由濾波器個數分別為128、256、128的3個堆疊時間卷積塊組成.每個卷積塊與王等[23]提出的CNN體系結構中的卷積塊相同.每個塊由一個時間卷積層組成,它伴隨著批量歸一化[24],隨后是ReLU激活函數.最后,應用全局池化可以減少過擬合.

1.1.1 SKLF參數設置

SKLF網絡中的超參數會對模型的訓練和泛化能力有較大的影響.因此對超參數的設置比較重要,常見的參數設置方法一般有試驗法、網格搜索法、遺傳算法[25]等.基于一些通用的設計準則[26-28]利用試驗法找到最佳參數并使 SKLF 網絡穩定,具體參數設置如表1.其中,Nfilters表示卷積層濾波器的個數,Cs表示卷積核的尺寸,a表示激活函數,Nunits表示神經元數量.采用 Adam 優化算法,訓練階段損失函數采用mse,準確率使用binary_accuracy函數,一共訓練20輪,每批次訓練32個樣本.

表1 SKLF網絡參數設置

1.1.2 SKLF模型評價方法

在二分類問題中常用混淆矩陣來對模型進行評估,將真實類別與預測的類別劃分成真正例(TP),假正例(FP),真反例(TN),假反例(FN)這4種情況,分類指標定義如下:

F-measure值(F):是精確率和召回率的調和均值.

(1)

G-mean值(G):同時考慮了正例和反例的準確率.

(2)

AUC值:表示ROC曲線下的面積大小,值越大,代表分類器性能越好.

(3)

其中,ranki表示第i個樣本的序號(按從小到大排列),M和N分別表示正負樣本的個數.

統計假設檢驗可以對幾個分類器性能的優劣提出一個判斷依據,因此在對比實驗是可以采用假設檢驗來判斷分類器模型的優劣,文中采用wilcoxon秩和檢驗,其相關原理如下:

記假設檢驗:

H0:算法A和算法B相近,沒有統計意義上的顯著差異

H1:算法A和算法B相近,有統計意義上的顯著差異.

根據上述R的觀察值r1,在給定的顯著水平α下(α為0.05),H的拒絕域為:

r1≤C-U(α).

(4)

式中,臨界點C_U(α)滿足P{R_1≤C_U(α)≤α}的最大整數,只要知道R的分布,式子C_U(α)的臨界點便可以求出,這里采用仿真法來獲得R的分布,用python中的scipy包的stats.mannwhitneye()來計算秩和檢驗.通過對界值α比較來判斷是否拒絕原假設H0

1.2 不平衡數據處理——混合采樣

1.2.1SMOTE算法

SMOTE算法[20]是一種基于線性直插的方法,合成的主要方式是選取某個少數類樣本和這個少數樣本鄰近樣本的差值,并將差值與(0,1)間的某個隨機數相乘,將所得結果累積在先前選定的樣本上,此過程將少數類樣本與其鄰近連線的某點作為生成樣本,可以有效的解決因簡單復制少數類帶來的過擬合問題.

SMOTE的基本原理為:取出訓練樣本S中少數類樣本元素xi,先計算這個少類樣本的同類k-鄰近集pi,一般SMOTE算法中k的取值不超過10.然后,從pi中隨機選擇一個樣本,設為xa,則少數類樣本xi與同類樣本k-鄰近集合pi中的對應屬性q上的差值記為diff(q)=xaq-xiq.最后,新合成的少數類樣本fiq的數學表達式如下所示.

fiq=xi+(xaq-xiq)×rand(0,1).

(5)

式子中,rand(0,1)表示區域(0,1)中的隨機數.

1.2.2 基于K-means的欠采樣

時間序列是有順序的一串單維或多維的數據,因此在處理時序不平衡數據時,不能簡單的進行隨機采樣,要使用能保持其邏輯順序的采樣方式.因此采取基于聚類的不等比例欠采樣的方法.首先采用K-means算法將多類數據聚合成K個類,這個K是一個超參數,可以用肘部法則(SSE)尋找一個最優的K值.然后根據這K個類中數據量的大小進行不等比例欠采樣,這樣既可以保留這些數據潛在的前后邏輯關系,又可以不破壞數據的結構.

SSE的核心指標是誤差平方合,其計算公式如下:

(6)

上面式子中的i表示的是第i個簇,p是中的樣本點,是的質心.

1.3 全卷積網絡(FCN)和長短期記憶網絡 (LSTM)

時間全卷積網絡的輸入是時間序列信號.如Lea等[29]所述,設Xt∈R^(Fo)是0

考慮L層一維卷積層.在這每一層上應用一組1D濾波器來查看輸入信號如何演變的.根據Lea等[29]每個層的濾波器由張量(W^l∈R^(Fl×d×F_(l-1)))和偏差b_(l∈)∈R^(Fl)參數化,其中l∈{1,…,L}是層索引,d是過濾持續時間.對于第l層,(非標準化)激活(E_(i,t)^((l))∈R^(Fl))的第l個分量是來自前一層的輸入(標準化)激活矩陣(E^((l-1))∈R^(F_(l-1)×T_(l-1)))的函數.

LSTM[30]模型是循環神經網絡(recur-rent neural networks,RNN) 結構中一種,可以對時間序列(TS)進行建模,通過一個記憶單元來儲存任意時刻的值,便能記憶TS前后的關系.同時LSTM也具有刪除和添加信息到細胞狀態的能力,可以決RNN中存在的梯度消失或者梯度爆炸的問題.LSTM網絡中記憶單元的結構如圖2.

圖2 LSTM神經單元結構圖

記憶單元主要由輸入門,遺忘門,輸出門構成,輸入門it是來決定添加信息的過程,遺忘門ft是決定失去一些信息,輸出門ot是根據判斷條件來輸出當前記憶單元的一些狀態特征.其計算公式如下:

ft=σ(Wf[ht-1,xt]+bf)

(7)

it=σ(Wi[ht-1,xt]+bi)

(8)

(9)

(10)

ot=σ(Wo[ht-1,xt]+bo)

(11)

ht=ot×tanh(Ct)

(12)

2 實驗結果分析

為驗證本文所提算法SKLF的性能,采用2個數據集來進行實驗并與單獨LSTM、CNN和LSTM-FCN算法進行比較,一個數據集是來自實驗室火災數據集.該數據集包含8個受控火災實驗相關的時間系列數據,對于每個實驗,都會記錄濕度、溫度、MQ139、TVOC 和 eCO2的傳感器測量結果,文中采用其中4個電火源數據進行試驗.另一個數據集是occupancy_data[31]數據,這個數據集描述的是一個房間內是否被占用的一個二分類問題.以下是2個數據集的描述.

在Indoor Laboratory Fire Dataset數據集中,采用electrical_3做訓練集,其余數據做測試集.在Occupancy_data數據中,datatraining做訓練集,其余數據做測試集,對測試的結果取10次平均值并分別和CNN、LSTM、FCN-LSTM比較.

表格3~5展示了4種算法分別在Indoor Laboratory Fire Dataset和 Occupancy_data數據集上的F-mean,G-mean,AUC分數,分析可以得到以下幾條結論.

1) 表3中可以發現,SKLF算法在以上5個數據集上的F-means得分總體比較穩定,最高98.5%,最低為91.0%,平均得分為96.8%.F-means是精準率和召回率的調和平均數,可以看出SKLF模型在精準率和召回率上的性能都優于其他幾種模型.

2) 從表4中可以發現,在5個數據集的不平衡率相差很大的情況下,SKLF算法模型在G-meas指標上波動很小,更加平穩.可以看出,模型的魯棒性較高,在不同的不平衡率下也有不錯的性能,適用性較強.

3) 從表5中總體來看,幾種算法在5個數據集上的表現都還不錯,得分基本上都達到了90%以上,但平穩度不如SKLF算法,其中CNN模型的波動最大,LSTM次之,FCN-LSTM稍次之.這是因為采用的5個數據集在樣本的數量有較大的差別.因此,SKLF算法在數據量差異較大的情況下,也有不錯的表現.

表2 數據集信息描述

表3 算法“SKLF”和其他算法的F-mean

表4 算法“SKLF”和其他算法的G-mean

表5 算法“SKLF”和其他算法的AUC

圖3 SKLF算法相對其他算法的性能增加率和不平衡率的關系

從表6中的Wilcoxon檢驗可以看出,SKLF算法相對LSTM可以提高上述3種指標的分數,說明SKLF模型在處理時間序列不平衡分類上的性能要優于LSTM模型.對于CNN,SKLF算法在保持F-means值不變的情況下,提高了G-means和AUC的值.相對于FCN-LSTM算法,SKLF算法與其的區別在于FCN和LSTM的結構上,FCN-LSTM是串行結構,而SKLF模型中FCN和LSTM為并行結構,可以得到模型的網絡結構對其性能也有一定的影響,并行的SKLF模型在處理時序不平衡分類時要優于串行的FCN-LSTM.

表6 算法“SKLF”和其他算法的Wilcoxon檢驗

通過分析圖3與圖4可以得到以下結論:

圖4 SKLF算法和其他算法的指標平均值

1) 算法SKLF相對CNN,LSTM,FCN-LSTM,能夠顯著提高平均AUC,F-means和G-means 的值.

2) 當不平衡率大于38.3時,SKLF算法能顯著提升所有數據集的評價指標,特別是F-means和G-means的值.

3) 從評價指標的平均值來看,4種算法對時序不平衡分類的處理能力由大到小依次為SKLF>FCN-LSTM>LSTM>CNN.由此可以看出,SKLF組合算法,實現了幾種算法的優勢互補,對問題的處理能力相較于單個算法要強,魯棒性要高.

3 結語

文中提出了集時序不平衡和時空特征提取為一體的SKLF算法解決了結構復雜、高噪音、不平衡的時間序列分類問題,相較于傳統的分類算法有一個較好的分類結果.通過結合過采樣和欠采樣,將不平衡數據中的多類樣本采用K-means不等比采樣,保證了多類數據前后的結構關系,將少類數據采用SMOTE過采樣,使2類數據的不平衡率降低,然后組成訓練數據,并將FCN和LSTM算法的優勢相結合,將訓練數據分別導入全卷積網絡和長短時記憶網絡,讓其各自進行訓練,在送入sigmoid函數輸出前將二者結合,得到最終的分類結果.通過在Indoor Laboratory Fire Dataset和Occupancy_data數據集上的對比實驗,表明 SKLF 算法對時序不平衡的分類精度達到了98.5%,且性能比較穩定,有較好的魯棒性.相較于CNN,SKLF算法將評價指標的平均值提高了4%~10%.相較于LSTM和FCN-LSTM,SKLF算法將評價指標的平均值分別提高了1%~5%和1%~3%.

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 久久国产高清视频| 国产黄色免费看| 国产91熟女高潮一区二区| 国产精品亚洲一区二区三区z| AV老司机AV天堂| 国产呦视频免费视频在线观看| 黄色一级视频欧美| 在线播放国产一区| 亚洲日韩在线满18点击进入| 2022国产无码在线| 成年人福利视频| 国产成人一区免费观看| 黄色福利在线| 国产96在线 | 国产高清在线丝袜精品一区| 国产乱人伦偷精品视频AAA| 欧美激情视频二区三区| 精品1区2区3区| 伊人网址在线| 91视频区| 91精品伊人久久大香线蕉| 四虎在线观看视频高清无码 | 99中文字幕亚洲一区二区| 国产99视频精品免费视频7| 国产一区亚洲一区| 日韩欧美国产区| 国产一级片网址| 99在线观看精品视频| 久久精品人人做人人综合试看| 国产午夜无码片在线观看网站| 18禁黄无遮挡网站| 欧美国产日本高清不卡| 日韩资源站| 国模在线视频一区二区三区| 永久免费精品视频| 伊人久久综在合线亚洲2019| 视频二区中文无码| 亚洲精品欧美重口| 免费人成视网站在线不卡| 亚洲中文字幕97久久精品少妇| 午夜在线不卡| 日韩精品一区二区三区中文无码| 欧美日韩导航| 成年看免费观看视频拍拍| 992tv国产人成在线观看| 久久国产精品77777| 五月婷婷丁香综合| 国产一区二区三区在线无码| 成人国产一区二区三区| 她的性爱视频| 97在线国产视频| 丁香五月亚洲综合在线| 亚洲系列中文字幕一区二区| 高潮毛片免费观看| 国产区福利小视频在线观看尤物| 亚洲欧美日韩另类在线一| 国产一区二区福利| 国产乱子伦无码精品小说| 成年av福利永久免费观看| 性视频一区| 四虎永久在线视频| 亚洲AV无码不卡无码| 国产91精品调教在线播放| 久久久久国产一级毛片高清板| 国产激爽大片高清在线观看| 亚洲欧美在线精品一区二区| 日韩在线1| 亚洲精品第1页| 青草视频久久| 久久精品人妻中文系列| 国产高清国内精品福利| 国产粉嫩粉嫩的18在线播放91| 国产XXXX做受性欧美88| 国产成人免费高清AⅤ| 欧美亚洲综合免费精品高清在线观看| 日本午夜影院| 在线观看免费AV网| 伊人久久精品亚洲午夜| 亚洲中文字幕日产无码2021| 扒开粉嫩的小缝隙喷白浆视频| a在线亚洲男人的天堂试看| 日本午夜影院|