999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種集成式Beta過程最大間隔一類分類方法

2021-05-30 07:22:18
電子與信息學報 2021年5期
關鍵詞:分類方法模型

張 維 杜 蘭

(西安電子科技大學雷達信號處理國家重點實驗室 西安710071)

1 引言

一類分類是一種將感興趣的目標類樣本和其他所有不感興趣的非目標樣本區分開的分類方法[1]。和傳統兩類分類需要完備的兩類訓練樣本不同,一類分類器在訓練時只需要目標類樣本,因此可以解決在類樣本數據不均衡或某一類樣本缺失時,兩類分類器無法訓練的問題。近年來,一類分類器廣泛用于各種任務中,如數據異常檢測[2]、機場異物檢測[3]、網絡流量異常檢測[4]、異常行為檢測[5]、虛擬網絡切片異常檢測[6]以及高光譜圖像異常檢測[7]等。

一般來說,目前常見的一類分類方法可以劃分為5類[8]:(1)基于概率的方法;(2)基于距離的方法;(3)基于重構的方法;(4)基于域的方法;(5)基于信息論的方法。基于概率的方法假設目標類樣本服從某一種概率分布,并利用訓練樣本估計目標類樣本的概率密度函數。當測試樣本的概率密度函數值大于某一閾值時,就認為該測試樣本是目標類樣本。常見的概率密度函數有高斯分布、混合高斯分布和學生氏分布等。基于距離的方法一般通過定義一個距離度量函數來衡量兩個樣本之間的相似度,當測試樣本和訓練樣本集的最小距離度量小于某個閾值時,認為該測試樣本是目標類樣本。均值聚類[9]( K-means clustering)就是一種典型的基于距離的一類分類方法。基于重構的方法首先利用訓練樣本學習一個目標類樣本的表示模型,然后將樣本在該表示模型下的重構誤差作為判斷準則,即重構誤差小于某一閾值時,樣本屬于目標類。自編碼(Auto-Encoder,AE)模型[9]就是一種常用的基于重構的一類分類方法。基于域的方法通過訓練目標樣本學習了目標類樣本的分布邊界,即目標類樣本的分布范圍,當測試樣本位于該范圍之內時,該樣本為目標類,反之則為非目標類。一類支持向量機[10](One-Class Sup p or t Vect or Machine,OCSVM)和一類支持向量數據描述[11](One-Class Support Vector Data Description,OC-SVDD)就是兩種經典的基于域的一類分類方法。基于信息論的方法通過定義一個信息量,如熵、相對熵,來度量兩個樣本之間的相似度,且信息量越大,兩個樣本之間的相似度越小。當測試樣本與訓練目標樣本集的最大信息量小于某個閾值時,該樣本是目標類樣本。

雖然上述的一類分類方法在很多應用中都取得了不錯的效果,但是這些方法針對整個訓練樣本集僅僅建立了一個分類器,在樣本分布復雜時,例如樣本分布為多模分布,這些分類器的分類性能會不同程度地下降。為了提升復雜分布下的分類性能,本文提出了一種基于Beta過程最大間隔一類分類器的集成式一類分類方法。該方法利用Dirichlet過程混合模型(Dirichlet Process Mixture,DPM)對訓練樣本聚類,并在每個聚類學習一個Beta過程最大間隔一類分類器。通過多個分類器的集成,可以構造一個描述能力更強的分類器,從而提升復雜分布下的一類分類性能。DPM聚類模型和分類模型在同一個貝葉斯框架下聯合優化,保證了每一個聚類的可分性。此外,在Beta過程最大間隔一類分類器中,加入了服從Beta過程先驗分布的特征選擇因子,從而可以選擇可分性最好的特征,降低特征冗余度以及提升鑒別效果。仿真數據、公共數據集和實測SAR圖像數據的實驗結果證明:相比于其他相關的一類分類器,所提方法具有更好的分類效果。

2 集成式Beta過程最大間隔一類分類器

2.1 Dirichlet過程(DP)和DPM模型

DP是在文獻[12]中于1973年提出的一種用于非參數貝葉斯模型的隨機過程。若G服從DP,那么G可以表示成

其中,Beta(v c;1,α)表示vc是服從參數為1和α的Beta分布的隨機變量,Θc是服從基分布G0的隨機變量,z i是樣本xi的聚類指示因子, M ulti(z i;π)表示z i是服從參數為π的多項式分布,F(x i;Θz i)表示第z i個聚類樣本xi服從參數為Θz i的F分布,C表示最大的聚類個數。

2.2 Beta過程最大間隔一類分類器

2.3 集成式Beta過程最大間隔一類分類器

集成式Beta過程最大間隔一類分類器是DPM模型和Beta過程最大間隔一類分類器的結合。在集成式Beta過程最大間隔一類分類器中,訓練樣本首先通過DPM模型聚類,然后在每個聚類學習一個Beta過程最大間隔一類分類器。在DPM模型中,假設每個聚類的數據服從高斯分布F(x i;Θc)=N(x i;u c,Σc),根據共軛先驗的思想,基分布G0為Norm-Wishart(NW)分布{u c,Σc}~NW(u c,Σc;u0,Σ0,β0,γ0)。因此集成的Beta過程最大間隔一類分類器的模型可以表示為

其中,式(9)是DPM聚類模型,式(10)是Beta過程最大間隔一類分類器模型。圖1給出了集成的Beta過程最大間隔一類分類器的圖模型,其中紅色虛線框表示聚類模型,藍色虛線框表示貝葉斯最大間隔一類分類器模型。從圖1可以看出,聚類模型和分類模型通過聚類標號聯系在一起,從而實現聯合優化。圖2給出了集成式Beta過程最大間隔一類分類器流程圖。

根據式(9)和式(10),可以得到全數據的偽后驗分布形式為

圖1 集成式Beta過程最大間隔一類分類器的概率圖模型

根據式(11),可以得到各個參數的條件后驗分布,然后利用MCMC算法結合吉布斯采樣,就可以得到最終的模型參數。

2.4 測試過程

3 實驗結果

3.1 仿真toy-data數據集

為了更好地可視化聚類以及分類界面,本文從混合高斯分布中采樣了一些2維訓練樣本。訓練樣本的分布如圖3所示。圖4給出了基于DMP模型的聚類結果以及每個聚類的鑒別邊界,圖中黑色的實線表示每個聚類的鑒別邊界。從圖4可以看出訓練樣本自動聚成了6類,這說明DPM模型確實可以自動確定聚類個數且很好地將服從相同分布的樣本聚為一類。另外,從6個黑色實線圈可以看出,每個聚類學到的鑒別邊界完整地包裹了這個聚類的目標樣本。因此,提出模型可以很好地區分屬于每個聚類的目標樣本和非目標樣本,證明了該方法的有效性。

3.2 公共數據集

本節實驗采用的數據集為從UCI Machine Learning Repository中獲取的Benchmark數據集,該數據集包含了多種不同特征維數、不同規模的數據。實驗所用數據集如表1所示。

圖2 集成式Beta過程最大間隔一類分類器流程圖

實驗采用了9種現存的對比方法:主成分分析(PCA)[17], K 均值聚類( K-means)[9],線性SVDD(L-SVDD)[11],高斯核形式的一類SVM(KOCSVM)[10],最小生成樹(MST)[18],自組織映射(SOM)[19],自編碼網絡(AE)[9],MPM[20]和LPDD[21]。另外為了分析提出方法中特征選擇因子的影響,我們去掉提出方法中的特征選擇因子變量,并將去掉特征選擇因子變量后的方法命名為集成式最大間隔一類分類器,簡稱En-MMOCC。通過比較En-MMOCC和提出方法,來分析特征選擇對實驗結果的影響。

圖3 訓練樣本2維分布圖

圖4 聚類結果和每個聚類鑒別界面可視圖

表1 實驗所用公共數據集介紹

表2 不同方法在Waveform數據集上的3個指標平均值(%)

表3 不同方法在Landsat數據集上的3個指標平均值(%)

表4 不同方法在Australia數據集上的3個指標平均值(%)

表5 不同方法在Pageblocks數據集上的3個指標平均值(%)

本文采用3個指標來描述分類器的性能:鑒別準確率,F1分數和AUC值。通過對訓練數據和測試數據進行20次數據劃分,然后給出20次隨機試驗的平均結果。不同方法在5組公共數據集上的實驗結果如表2—表5所示。從表2—表5可以看出:在相同特征下,本文提出的分類器在4個數據集上都獲得了最高的準確率,F1分數和AUC值,證明所提分類器確實能提高目標鑒別的效果。另外,本文方法可以看作基于聚類的一類分類方法和基于域的一類分類方法的結合,相比于基于聚類的一類分類方法 K-means以及基于域的一類分類方法KOCSVM,本文方法的分類性能要遠遠好于上述兩種方法,也說明了這種結合可以很好地提升一類分類性能。最后,從表2—表5可以明顯看出,En-MMOCC的3個分類指標要明顯低于本文方法,特別是在訓練樣本數較多的數據集上,說明了特征選擇因子在提出方法中的重要性。

3.3 實測SAR圖像數據

在本節用實測SAR圖像數據來驗證所提方法的有效性。實測SAR圖像來自Sandia MiniSAR數據集。該數據集包含9幅SAR圖像。通過CFAR技術,在9幅SAR圖像中一共獲得了248個目標切片以及98個雜波切片。圖5給出了部分目標切片和雜波切片的示意圖,其中第1行是目標切片,第2行是雜波切片。在248個目標切片中,隨機選取150個目標切片作為訓練樣本集,剩下的98個目標切片和98個雜波切片構造測試樣本集。

圖5 CFAR之后的一些目標和雜波切片示例

和3.2節一樣,隨機進行20次實驗,然后計算20次實驗平均的鑒別準確率、F1分數和AUC值,實驗結果如表6所示。本文方法的鑒別準確率相比于對比方法的最高值大約有2%的提升,F1分數和AUC值也是最好的,說明相比于對比方法,本文方法不僅有好的鑒別性能,同時也具有較強的泛化能力。另外,和UCI數據集上的實驗類似,本文方法的3個指標值也要高于En-MMOCC,證明了特征選擇因子在提出方法中的重要性。

3.4 模型超參數分析

(1)吉布斯采樣中的超參數:吉布斯采樣的超參數設置是為了保證算法收斂,為了驗證本文方法中算法的收斂性,以Australia數據集為例,在圖6中分別給出了分類正確率隨超參數Tburn?in,Tnum和Tspace的變化曲線圖。從圖6(a)可以看出,在burnin階段的迭代次數Tburn?in>2000后,訓練樣本的分類正確率已經穩定,基本不再變化,說明模型參數已經穩定。因此,在實驗中將超參數Tburn?in設置為3000就能保證在所有數據集上吉布斯采樣算法均已收斂。從圖6(b)可以看出,在collection階段,當采樣次數Tnum>250后,測試分類正確率收斂到一個穩定的值,基本不再變化,說明模型參數已經穩定。因此,當超參數Tnum>250時,算法已經收斂,在實驗中將超參數Tnum設置為300。從圖6(c)可以看出,隨著采樣間隔Tspace的變化,測試分類正確率基本不變。因此,超參數Tspace對實驗結果基本沒有影響。采樣間隔Tspace的作用是消除collection階段相鄰兩次采樣值之間的相關性,一般設置為一個大于1的常數即可。

表6 不同方法在實測SAR數據集上的3個指標平均值(%)

圖6 Australia數據集上分類正確率隨超參數T burn?in, T num 和T space的變化曲線圖

(2)DPM聚類模型的超參數:根據文獻[22]的理論指導,Normal-Wishart分布的超參數NW(u c,Σc;u0,Σ0,β0,γ0)設 置為N W(u c,Σc;u x,Σx,1,d)是最合適的,其中u x和Σx為訓練樣本的均值向量和協方差矩陣,d為訓練樣本的原始維度。因此,該分布的超參數也是隨數據集變化的。對于Beta分布中的超參數α,取值范圍為[ 0,1]。由于缺乏關于該參數的先驗信息,因此根據相關經驗,本文將α的取值設置為其對應的中間值,即α=0.5。文獻[23]的研究表明,在分層貝葉斯模型中,一些超參數的取值對最終的實驗結果影響很小。為了驗證該理論,本文以Australia數據集數據集為例,在圖7給出了不同α取值下的測試分類正確率變化曲線。可以看出,超參數α的取值對實驗結果基本沒有影響,從而驗證了文獻[23]中理論的正確性。一般來說,DPM中的最大聚類個數C可以設置為大于數據實際聚類個數的任意值。不同的數據集的實際聚類個數是不同的,因此對于不同數據,可以根據經驗設置不同的最大聚類個數C。

圖7 不同α 取值下的測試分類正確率變化曲線

(3)Beta過程最大間隔一類分類器的超參數:在該部分,需要設置的超參數是變量πk的先驗分布πk~Beta(a0,b0)中的a0和b0。理論表明:a0的值越小,b0的值越大,對應的特征選擇因子變量γ中0的個數越多,因此選擇的特征越少;反之,a0的值越大,b0的值越小,對應的特征選擇因子變量γ中1的個數越多,即選擇的特征越多。若選擇的特征太稀疏,會去掉一些可分性強的特征,降低分類性能;若保留的特征太多,會造成特征冗余,導致“維度災難”。因此,我們需要設置合適的a0和b0值,既能保留可分性的特征,又能去除冗余的特征。為了分析超參數a0和b0對實驗結果的影響,本文以Australia數據集為例,在圖8分別給出了a0和b0不同取值下測試分類正確率的曲線圖。從圖8可以看出,當a0和b0過小或者過大時,都會造成識別率的下降。在實驗中,通過交叉驗證來確定這兩個模型超參數。

3.5 時間復雜度分析

本節從訓練和測試兩個方面比較不同一類分類方法所需的計算時間。以Australia數據集和Landsat數據集為例,表7給出了不同一類分類方法在這兩個數據集上所需的計算時間。整體來說,相比于Australia數據集,Landsat數據集訓練樣本數更多,樣本維度也更高,因此,所有一類分類器在Landsat數據集上的計算時間要大于在Australia數據集上的。在訓練階段,L-SVDD,KOCSVM,PCA,K-means,MST,MPM和LPDD的計算時間要小于AE,SOM和本文方法。換句話說,本文方法的計算復雜度和AE以及SOM在同一數量級上。在測試階段,本文方法和AE的計算復雜度也要大于其他對比方法。由于本文使用的是吉布斯采樣來估計后驗分布的參數,因此,本文方法的計算負擔要大于一些對比方法,這是本文方法的一個不足之處。

圖8 不同和a 0和 b0取值下,本文方法在Australia數據集的測試分類正確率曲線

表7 不同一類分類方法所需的計算時間(s)

4 結束語

為了提升復雜分布下的一類分類性能,本文提出了一種集成的Beta過程最大間隔一類分類器。所提方法通過DPM模型對訓練樣本聚類,同時在每個聚類學習一個Beta過程最大間隔一類分類器。通過多個分類器的集成,可以構造出一個描述能力更強的強分類器,從而提升復雜分布下的一類分類性能。DPM模型和Beta過程最大間隔一類分類器在同一個貝葉斯框架下聯合優化,保證每一個聚類的可分性。在一類分類器中,加入了1個服從Beta過程先驗分布的特征選擇因子,選擇出最具有可分性的特征,降低特征冗余度以及提升鑒別效果。仿真數據、公共數據集和實測雷達數據的實驗結果表明了本文方法的有效性。

猜你喜歡
分類方法模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 91在线精品麻豆欧美在线| 日韩欧美中文在线| 国产门事件在线| 在线国产你懂的| 亚洲午夜国产精品无卡| 欧美啪啪一区| 国产精品九九视频| 国产精品对白刺激| 国产在线精彩视频二区| 亚洲男人天堂2020| 免费AV在线播放观看18禁强制| 最新国产麻豆aⅴ精品无| 四虎在线高清无码| 尤物视频一区| 超级碰免费视频91| 免费不卡在线观看av| 71pao成人国产永久免费视频| 好紧好深好大乳无码中文字幕| 色呦呦手机在线精品| 91九色国产在线| 国产精品美女自慰喷水| 国产精品尤物在线| 日韩在线第三页| 亚洲日韩精品无码专区| 国产成人啪视频一区二区三区| 色婷婷综合激情视频免费看| 国产美女主播一级成人毛片| 免费国产在线精品一区| 真人高潮娇喘嗯啊在线观看| 欧美日韩精品在线播放| 丁香婷婷激情网| 日韩毛片免费| 亚洲色精品国产一区二区三区| 免费毛片在线| 亚洲三级色| 中文国产成人精品久久| 亚洲成a人片| 欧美亚洲第一页| 欧美劲爆第一页| 五月综合色婷婷| 亚洲精品视频在线观看视频| 在线另类稀缺国产呦| 韩国v欧美v亚洲v日本v| 精品视频在线观看你懂的一区| 日韩在线播放中文字幕| 精品久久人人爽人人玩人人妻| 九色视频一区| 免费国产一级 片内射老| 成人福利在线视频免费观看| 婷婷激情五月网| 伊人色天堂| a免费毛片在线播放| 亚洲欧美另类日本| 萌白酱国产一区二区| 中文字幕调教一区二区视频| 中国国产A一级毛片| 57pao国产成视频免费播放| 五月婷婷丁香综合| 在线观看视频99| 亚洲人成成无码网WWW| 2021国产乱人伦在线播放| 久久中文电影| 超清人妻系列无码专区| 久久精品只有这里有| 中文字幕 欧美日韩| 97在线免费视频| 国产乱子伦视频在线播放| 欧美福利在线| 欧美在线黄| 久久久久免费看成人影片| 国产成人1024精品下载| 国产精品第一区| 婷婷六月天激情| 国产一区自拍视频| 美女国产在线| 一级在线毛片| 无码人妻免费| 国产一级毛片高清完整视频版| 中文字幕无码电影| 在线另类稀缺国产呦| 国产婬乱a一级毛片多女| 日本免费福利视频|