999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向不平衡工業大數據集的SVM-tree分類算法研究

2022-03-16 03:04:26林君萍
長春師范大學學報 2022年2期
關鍵詞:分類故障模型

林君萍

(福建船政交通職業學院,福建 福州 350007)

0 引言

伴隨大數據時代的到來,工業大數據集呈現出海量性[1]、多源異構性[2]和不平衡[3]等特征。數據的不平衡性表現為數據集中一類樣本的數量遠多于另一類樣本的數量,給數據的預處理、分類、特征提取和數據挖掘帶來更大的難度[4]。以故障大數據分類和特征提取為例,如果少數類的故障數據樣本僅占1%或更低,少數類樣本容易被多數類樣本所忽略,但少數類樣本中往往也包含關鍵的和有價值的特征信息,由于數據集中多數數據樣本和少數數據樣本的比例失調,增加了數據誤分類和特征提取錯誤的風險[5]。針對于不平衡工業故障大數據的分類問題,張玉征等[6]提出一種截斷梯度特征法,通過對不同類別故障數據的梯度特征提取和分類,判斷故障數據的不平衡率并提出少數樣本的故障特征;曹鵬等[7]提出基于數據優化與指標評價的算法,預測少數樣本的比例、重要性并識別出少數樣的核心特征。現有算法能夠從一定程度上優化不同類別數據之間的比例,提升數據分類的準確性,但在實際操作中難度較大,例如梯度的確定和評價指標的選取依賴于多種因素,且具有一定的主觀性,當不平衡率過高時數據分類的準確率會隨之降低,給特征提取和識別造成更大的難度。徐毅等[8]提出基于深度置信網絡的數據訓練模型,當數據維度較低時不平衡數據分類準確率尚且能夠得到保證,但隨著輸入模型的非線性數據維數的提高,數據訓練中易引起過擬合進而降低分類精度。為提升對不平衡大數據的分類精度,本文在借助K-means分類的基礎上,構建了SVM-tree模型,并通過數據中心聚類和最優超平面分類的方式,選取相關性更優的數據樣本,并以此改善數據集的不平衡性,提升數據分類性能。

1 不平衡數據集的噪聲過濾與預處理

導致工業故障數據集中不同類別數據不平衡的原因,是存在數據小的劃分或數據不相交的情況,例如,數據集中如果有含噪數據[9],那么有用數據就容易被湮沒在噪聲環境之中。不平衡率(Imbalance Rate)[10-11]是衡量大數據集不平衡程度的指標(假定故障集中只有兩種數據),記為IR。

(1)

其中,N1max為第一類數據的最大值,N2min為第二類數據的最小值,且滿足N=N1+N2,N是數據集中總體數據量。

工業大數據通常利用布置在機器周圍的傳感器采集獲取,來自環境的噪聲和系統的噪聲,會進一步加劇少數樣本的稀缺性[12],因此濾除噪聲干擾是不平衡數據集分類處理和特征提取的重要步驟之一。本文選擇Tomek-links算法清除原始樣本中的噪聲,原始工業故障數據樣本集中的兩個不同類別的樣本點,分別表示為ai和bj,樣本點之間的歐式距離描述為d(ai,bi),如果不存在第三個樣本點ak或bq,滿足條件d(ai,ak)

Step1 在采集的數據集中標定已知樣本和待測樣本,其中待測樣本中含有噪聲源。

Step2 計算全部待測樣本和標定樣本之間的歐式距離,并基于距離的遠近做升序排列。

Step3 基于KNN算法的規則從待測樣本選定K個樣本,并利用多數投票規則確定待測樣本的類別和屬性。

Step4 需要考慮不同類別數據屬性對樣本類別的影響[13-14],引入數據屬性的權重系數ωi,并計算與第三個樣本點之間的距離(以樣本點xk為例進行說明)。

(2)

加權計算之后再比較d(ai,ak)和d(ai,bj)之間值的大小,以判斷樣本點ak是否為噪聲數據樣本點。受KNN算法優化的影響,K值為噪聲濾除算法的重要參數,K值的選定要與輸入數據集的規模和不平衡率相匹配。如果K值過高,則會降低算法的噪聲濾除性能;如果K值過低,則會提升真實樣本的誤判率。

2 基于SVM-tree的不平衡數據集分類算法

在處理不平衡數據集時,需要重點關注數據集的非線性特征[15]和數據維數[16],支持向量機(Support Vector Machine,SVM)在解決數據高維問題上具有較明顯的優勢。由于SVM模型能夠將數據從低維映射到高維,可解釋性更強,且對數據的差距較為敏感,適用于解決高維不平衡數據集的分類問題。

2.1 K-means聚類

利用SVM模型將去噪后的樣本映射到高維空間,先要將故障數據樣本集劃分為訓練集和測試集,其中訓練集的任務是訓練分類模型并確定模型的參數,測試集主要用于對不平衡數據樣本的的分類。SVM分類器無論是用于數據訓練,還是數據分類,都需要對目標樣本做初始化處理,降低不平衡數據集分類的復雜程度,并提高不平衡數據分類的效率。本文選用K均值聚類算法(K-means clustering algorithm)進行迭代求解,設去噪后的不平衡數據集為Z,數據集中包含了n個有效樣本對象,即Z={z1,z2,…,zi,…,zn},每個樣本都包含了p維屬性,滿足條件zi∈Rp。K-means聚類指按照樣本的特征將n個樣本劃分成m個簇,每個簇的簇心為ck,k=1,2,…,m,K-means算法在分簇時仍然基于歐式距離法確定樣本之間的相似性程度,為避免在計算中出現負值,以樣本對象到簇心之間的距離平方和作為目標函數E(ck)。

(3)

簇心通常為樣本集中處于最優位置的數據樣本,目標函數E(ck)值的大小對應樣本到簇心距離值的大小,按照距離從小到大將全部樣本條件到距離最近的簇排序。受噪聲數據和新采集數據的影響,不平衡數據集的規模處于動態變化之中,因此數據分簇過程和簇心的選擇都會發生變化。當需要重新選擇新的簇心和計算樣本到簇心的目標函數值時,重復執行上述步驟直到滿足終止迭代的條件為止。

2.2 SVM-tree模型構建與不平衡數據分類的實現

基于K-means算法進行樣本聚類后,極大地降低了SVM分類的復雜度,使SVM分類器具備了處理大規模故障數據集的能力。SVM分類器從三維視角利用超平面解決二分類問題。將不平衡數據集中的每一個樣本點都用一個二維坐標表示:

Z={(x1,y1),(x2,y2),…,(xk,yk),…,(xn,yn)}.

(4)

(5)

yk(ωTxk+h)≥1.

(6)

SVM分類器模型需要借助核函數將低維數據映射到高維,并達到數據分類的目的。能成為核函數的條件是,其矩陣必須滿足對稱性的半正定矩陣條件,本文選用高斯函數G作為SVM分類器的核函數:

其中,ζ是高斯核函數的帶寬,當數據集的不平衡率值較大時,如數量多的樣本與數量少的樣本比值超過10 000,SVM的模型分類準確率會出現嚴重的衰減。

為提高模型在高不平衡率模式下的分類準確率,本文對經典的SVM分類器進行優化,構建SVM-tree模型。基于K-means聚類算法根據不平衡數據集的樣本特征將樣本集劃分為m個簇,SVM-tree算法模型的數據訓練以簇為單位展開,簇心的集合也就是訓練集中心點的集合為C={c1,c2,…,cj,…,cm},按照簇數量的多少和規模的大小,將C分為若干子類,為了算法簡便本文假定將C分為兩個子類C1和C2,X1和X2是與子類C1和C2對應的訓練子集。劃分多個子集以后即使不平衡率再高,例如超過了10 000,仍舊可以在X1和X2之間建立一個超平面,SVM-tree分類器樹型結構設計見圖1。

圖1 SVM-tree分類器樹型結構

將C分為兩個子類C1和C2,每個子類再向下細分,根據數據集的規模和不平衡數據集的比例劃分為若干個層次,子類劃分得越細,SVM分類器的數據處理能力越強。在樹型結構構建過程中,以簇心集合C作為SVM-tree模型的根節點,兩個子類C1和C2作為第二層節點,節點可以繼續向上細化,樹狀模型的復雜度越高,節點子集的細化程度就越高。當SVM-tree的葉節點不可再分,僅包含一個類別時,葉節點對應的標簽就是其所含類別的標簽。在進行樣本測試訓練時,由于樣本的不平衡性會提升故障數據測試與分類的難度,此時從根節點出發,利用SVM分類器的超平面判斷對全部數據分類,并判定下一層次子節點的歸屬問題。經過多次的迭代和細化,直到葉節點不可再分就可以得到分類問題的最終結果。SVM-tree分類器訓練完成以后,基于臨時樣本測試集檢測分類器的數據分類效果,如果能夠滿足相關額測試要求,則停止計算完成迭代;如果仍未達到不平衡數據集的檢測要求,則繼續細化分類器的結構,提升分類器的數據分類與檢測性能。

3 實驗結果與分析

3.1 實驗環境與數據集的選擇

為保證實驗的可變性和可靠性,本文全部實驗均在相同環境下進行,其中硬件參數的選擇和軟件工具的選擇分別見表1和表2。

表1 實驗硬件環境

表2 實驗用到軟件工具與版本

實驗用的數據集來自于UCI和KEEL的8組公開數據,以體現出模型的泛化性能和適用性能,數據集的相關信息見表3。

表3 實驗數據集描述

3.2 實驗結果與分析

SVM-tree不平衡大數據算法模型的構建以K-means數據聚類為研究基礎。本文首先檢驗SVM-tree算法的數據聚類性能,數據聚類的誤差值越小,表明算法的穩定性越強。以樣本數據集中的Pblock和Letter為例(這兩個數據集的規模較大,數據聚類的難度更大),分析SVM-tree算法的聚類誤差變化波動情況,借助Matlab工具軟件得到的統計仿真結果,見圖2和圖3。

圖2 Pblock數據集聚類結果仿真

圖3 Letter數據集聚類結果仿真

仿真結果顯示,SVM-tree算法對Pblock數據集和Letter數據集的聚類誤差值,均保持在較低的水平。在相同的實驗參數和實驗環境下,基于文獻[6]、文獻[7]和文獻[8]三種傳統算法和本文提出的SVM-tree算法,分別計算各分類算法針對不平衡數據集的分類準確率值,數值統計結果見圖4至圖6。

圖4 文獻[6]算法下不平衡數據集分類準確率統計

圖5 文獻[7]算法下不平衡數據集分類準確率統計

在三種傳統不平衡數據算法下,不平衡率較低的數據集如Pima、haberman等,均能保持較高的數據分類準確率;而當工業大數據集的不平衡率較高時,如Flare、Yeast、Letter等,其數據分類準確率出現了較為明顯的降低。尤其是不平衡率高且數據集規模大,算法分類性能的衰減較為明顯。而本文提出的SVM-tree算法模型,就是要改善大規模數據集和高不平衡率條件下的數據分類性能。由于SVM-tree樹狀模型的層次和復雜結構可調,因此模式的適應性較強,在不平衡數據分類過程中成本代價也能夠得到較好的控制,針對8個數據集的分類準確性統計見圖7。

圖7 本文算法下不平衡數據集分類準確率統計

實驗數據統計結果顯示,針對于Flare、Yeast、Letter等不平衡率較高的工業大數據集,SVM-tree樹狀模型和分類算法,依然能夠獲得較高的分類準確率。算法的運行效率也是評價不平衡大數據分類算法的重要指標之一,最后對比驗證不同算法的數據分類運行時間,數據統計結果見表4。

表4 各分類算法的運行時間對比

統計數據結果顯示,SVM-tree分類算法在大規模數據集和不平衡率較高的數據集分類時的優勢更加明顯,運行時間更短,算法運行效率相對于三種傳統分類算法優明顯的提升和改善。

4 結語

工業大數據集具有不平衡性特征,如果不平衡率過高會直接影響數據分類的準確性。本文在經典SVM算法的基礎上,利用K-means算法和子類劃分方式,對經典SVM算法進行優化,并構建了SVM-tree分類算法模型,提升了模型對不平衡率較高數據集數據處理能力。實驗結果表明,SVM-tree算法在數據聚類性能、不平衡數據集分類性能以及數據處理運行時間上具有優勢。

猜你喜歡
分類故障模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
故障一點通
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
奔馳R320車ABS、ESP故障燈異常點亮
主站蜘蛛池模板: 99re热精品视频中文字幕不卡| 女同国产精品一区二区| 亚洲国产一成久久精品国产成人综合| 国产真实乱子伦视频播放| 97国内精品久久久久不卡| 91精品视频在线播放| 国产福利2021最新在线观看| 久久久久久高潮白浆| 亚洲无码37.| 国产精品hd在线播放| 欧美精品xx| 亚洲乱亚洲乱妇24p| 中文字幕av一区二区三区欲色| 国产亚洲精品无码专| 午夜无码一区二区三区在线app| 波多野结衣在线一区二区| 91精品国产自产91精品资源| 国产香蕉在线| 六月婷婷综合| 91精品国产情侣高潮露脸| 亚洲第七页| 中文字幕免费播放| 国产成人av大片在线播放| 四虎影视无码永久免费观看| 精品伊人久久久香线蕉| 国产精品极品美女自在线| 午夜啪啪网| 丁香六月综合网| 国产成年无码AⅤ片在线| 狠狠综合久久| 亚洲国产中文综合专区在| 久草中文网| 色网站在线视频| 秋霞午夜国产精品成人片| 国产情精品嫩草影院88av| 久久精品中文字幕免费| 久久免费观看视频| 久久精品只有这里有| 国产又爽又黄无遮挡免费观看| 欧美自慰一级看片免费| 欧美97欧美综合色伦图| 国产欧美精品专区一区二区| 2022精品国偷自产免费观看| 国产女人在线| 国产精品v欧美| 免费人成在线观看成人片 | 亚洲成在人线av品善网好看| 国产精品一区二区不卡的视频| 一区二区三区毛片无码| 午夜国产理论| 亚洲精品中文字幕无乱码| 国产成人精品免费视频大全五级| 欧美精品v日韩精品v国产精品| 亚洲午夜福利在线| 国产成人福利在线视老湿机| 99久久精品免费看国产免费软件| 久久国产亚洲欧美日韩精品| 久久99国产乱子伦精品免| 免费人欧美成又黄又爽的视频| 99久久无色码中文字幕| 国产福利大秀91| 亚洲欧美成人综合| 99ri精品视频在线观看播放| P尤物久久99国产综合精品| 一级毛片网| 在线中文字幕网| 漂亮人妻被中出中文字幕久久| 久久综合婷婷| 亚洲欧美h| 亚洲最新网址| 四虎影院国产| 午夜电影在线观看国产1区| h视频在线播放| 99这里只有精品免费视频| 伊人激情综合| 国产手机在线小视频免费观看 | 91成人在线观看视频| 一本色道久久88综合日韩精品| 国产精品hd在线播放| 色视频国产| 无码区日韩专区免费系列| 久久精品日日躁夜夜躁欧美|