999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于截斷Pinball損失的支持向量機多類別概率估計

2023-06-07 09:43:22劉恒源倪中新陸貴斌
計算機應用與軟件 2023年5期
關鍵詞:分類

劉恒源 倪中新 陸貴斌

(上海大學經濟學院 上海 201800)

0 引 言

多類別概率估計不僅提供了分類結果,還提供了分類結果的可信度信息,因此在數據挖掘和實際應用中具有重要作用。例如,在癌癥診斷中,為調整治療方法和藥物劑量達到更好的效果,除了需要根據腫瘤的表型特征和基因組信息將患者標記為“A型”或“B型”之外,通常還希望報告一些有關分類決策的不確定性度量。一般來說,概率估計功能比分類功能更全面,也使分類任務更加靈活,體現在利用得到的條件概率pk(x)=p[Y=k|X=x],可以根據實際需求制定決策規則進行類別判斷(二分類決策規則等價于以閾值0.5為界進行分類)。另外,概率估計結果可用于ROC、AUC等指標的計算,為學習器的性能評估提供方面。

傳統上,對概率pk(x)=p[Y=k|X=x]的估計問題通常是通過多元logistic回歸之類的回歸技術或線性判別分析(LDA)和二次判別分析(QDA)之類的密度估計方法來解決。這些方法通常會對pk的函數形式(或其轉換形式)做出某些模型假設。例如,多元logistic回歸假設對數比率和X符合線性關系,LDA和QDA假設與每個子類關聯的協變量X服從多元高斯分布。因此,這些方法雖然被廣泛使用,但很難證明多元logistic回歸中協變量線性關系的假設是正確的,此外,通常多元數據的高斯分布假設也存在爭議。

支持向量機(SVM)由Vapnik等[1]提出,它不對數據分布進行假設,在文本分析[2-3]、生物醫藥[4-5]、圖像處理[6-7]和垃圾郵件檢測[8-9]等各種應用中顯示出較高的預測準確性,但標準的SVM(C-SVM)的限制在于它直接關注分類,而不提供類別的估計概率。為解決這一問題,Platt[10]假設二分類正類條件概率p(x)=p[Y=+1|X=x]與SVM輸出y∈0,1之間存在sigmoid連接函數,形式為p(x)=1/(1+exp(ay+b)),但是這種較強線性的假設在實際應用中很難滿足。Wang等[11]提出了一種無模型的SVM概率估計方法,即沒有對pk(x)的形式或每個子類的數據分布進行任何假設。他們通過訓練一系列不同權重的二分類加權SVM(WSVM),然后結合所有WSVM的分類結果來構造p1(x),完成了二分類的SVM概率估計。Wu等[12]通過直接解決一系列多分類WSVM問題,將Wang等[11]的方案從二分類擴展應用到多分類。但由于直接求解多分類問題會增加復雜度,并且計算成本將隨類別數K指數增加。為了降低復雜度和計算成本,Wang等[13]將K分類任務分解為K(K-1)個一對一二分類任務,應用Wang等[11]的方法進行二分類概率估計,然后利用公式耦合得到多類別的概率估計。

盡管這些方法實現了SVM的概率估計功能,但由于標準的SVM基于無界的Hinge損失函數,當某些樣本點遠離所屬類時(即訓練數據中的異常點或噪聲點),會造成較大的損失,因此SVM往往會受到這類樣本的強烈影響,導致分類和概率估計性能下降[14]。本文通過限制無邊界的Pinball損失提出一種穩健的截斷Pinball損失并應用于SVM(T-Pin-SVM)以提高概率估計和分類的準確度。數值模擬表明所提出的T-Pin-SVM一定程度上彌補了C-SVM噪聲敏感的缺點,可以提供比C-SVM更高的概率估計精度。同時,相對于Pin-SVM,截斷也使得T-Pin-SVM的稀疏性增強,降低了測試階段的計算成本。另一方面,T-Pin-SVM涉及非凸優化,這比C-SVM的二次凸規劃求解更具挑戰性,本文應用Difference Convex(DC)算法,通過求解一系列凸子問題解決非凸優化。

1 方法和理論

本節提出了一種截斷Pinball損失函數應用于SVM(T-Pin-SVM),討論了它的噪聲魯棒性、稀疏性和Fisher一致性,并且給出了T-Pin-SVM應用于多分類概率估計的算法流程。

1.1 T-Pin-SVM模型

Pinball損失與分位數有關,其應用于SVM的合理性已在[15]中進行了全面的討論。我們提出了Pinball損失的改進版本,即截斷Pinball損失(見圖1),可以表示為:

式中:l1(u)=max{u-a,0},當α→+∞時,截斷Pinball等價于Pinball損失;當α→+∞且τ=0時,等價于Hinge損失,因此本文提出的截斷Pinball是Hinge和Pinball的廣義形式。

考慮K=2的二分類問題,標簽y被編碼為-1、1,SVM分類器表示為f(x)=wTφ(x)+b,其中φ(·)∈HK表示可再生內核希爾伯特空間(RKHS),它可以將低維空間映射到高維空間,為解決線性不可分問題提供了可能。應用截斷Pinball損失的SVM稱為T-Pin-SVM,可以表示為:

(1)

某個權重πm(m=1,2,…,M)下的加權T-Pinball-SVM可以表示為:

(2)

式中:1-πm、πm(0≤π≤1)分別表示類別1、-1的權重。

1.1.1噪聲魯棒性和稀疏性

一般不要超過兩行。在二分類任務中,基于Hinge損失(l(u)=max{0,u})的C-SVM模型求解等價于兩類點到超平面的最小距離之和取最大,這意味著最終影響超平面的僅與少數具有最小距離的點有關,并且這些點通常位于超平面附近,因此C-SVM對超平面附近的噪聲敏感。另一方面,注意到當u≥0且遞增時,Hinge損失線性增長且無界的,這意味著當某些異常點完全偏離本身類別而混入其他類別時(如標簽錯誤),對其的懲罰較大而影響整體的損失函數,因此C-SVM對這些位置的點同樣敏感。

基于Pinball損失(lτ(u)=max{u,-τu},0≤τ≤1)的Pin-SVM模型求解等價于兩類點到超平面的q分位數距離之和取最大。圖1顯示了基于兩種SVM的分類差異。在Pin-SVM中,由于某一類樣本點到超平面距離的集合取q分位數的點才會影響到超平面,因此即使超平面附近有噪聲點,其占比也相對較少,這使得Pin-SVM本身就具有一定的噪聲不敏感性,然而和Hinge損失相似,Pinball損失對錯誤分類的樣本懲罰是無界的。因此,為了增強噪聲魯棒性,本文利用參數a截斷Pinball損失以避免錯分類樣本的無界懲罰。a的取值決定了截斷的位置并影響了SVM的表現,更多細節將會在實驗部分介紹。另外它與左側截斷不同[16],右側截斷更關注那些嚴重偏離所屬類的樣本點。

圖1 基于Hinge和Pinball的SVM分類差異

由于Pinball損失沒有水平區域,其次梯度在任何地方都不等于零,因此Pin-SVM失去了稀疏性,這將導致測試階段較高的計算成本。而對于T-Pin-SVM而言,式(1)的最優化條件可以表示為:

0∈w-∑?L(1-yif(xi))

式中:0表示全0向量;?L(·)定義為次梯度函數。

結合圖2可以發現,當a減小,更多的樣本點傾向于落入損失函數水平,次梯度為0,意味著w的分量為0,稀疏性增強。反之,a增大,稀疏性降低。因此,本文定義w的分量不等于0的樣本為支持向量(SVs),并用支持向量占訓練樣本的比例(SVs%)衡量稀疏性(在概率估計中通過平均所有權重下的支持向量比例后再平均K(K-1)個二分類任務的比例得到)。由于Pinball損失沒有水平區域,所以Pin-SVM的支持向量比例為常數。

圖2 Hinge、Pinball和截斷Pinball三種損失函數

1.1.2Fisher一致性

當0

當1

當a>2時:

1.2 T-Pinball-SVM多分類概率估計

1.2.1T-Pinball-SVM二分類概率估計

(3)

輸入:C,σ,a,τ,πm,max_iter

(1) 初始化β0=0;

(2) for t=1 tomax_iterdo

(6) 通過yi(wTφ(xi)+b)=1求解b*;

(7) 平均所有b*得到b;

(9) 利用式(6)更新βi;

(10) ifβt=βt-1then

(11) Break;

具體過程如下:

對于式(2)的非凸問題,可以表示為min(Qvex+Qcav),其中:

(4)

(5)

定義:

(6)

式中:s=1-a;Iyif(xi)

(7)

構建拉格朗日函數:

∑αi(ξi-1+yif(xi))

求導得到:

將解得的w代入拉格朗日函數得到對偶方程:

(8)

1.2.2概率耦合

在得到K(K-1)個二分類的成對條件概率估計后,可以通過概率耦合得到K個類別的概率估計,其中類別概率定義為pj(x)=p(Y=j|X=x),j=1,2,…,k。由于qj|(j,j′)(x)+qj′|(j,j′)(x)=1,可以得到:

(9)

從而對于任意類別j∈{1,2,…,K},j′≠j,可以通過式(9)完成多類別的概率值估計。

2 實驗與結果分析

為了衡量三種SVM概率估計性能,我們使用l1范數誤差和l2范數誤差以評估對比模型差異,由于實際數據沒有真實的概率值,本文使用準確率ACC評估分類結果以反映概率估計的表現,其中分類結果根據概率值最大的標簽確定。對于每一數據集,我們測試了不同參數組合下T-Pin-SVM的表現,其中τ∈{0.2,0.5,0.8},a∈{1.5,2,2.5}。每組參數下的性能評估結果均利用隨機訓練集訓練,對同一測試集重復測試50次得到,括號中數值為標準差,結果均乘以100展示。

ACC=(TP+TN)/(TP+FN+TN+FP)

式中:TP和TN表示真陽和真陰數;FN和FP表示假陰和假陽數。

(1) 模擬數據1生成:定義任意樣本點(x1,x2)滿足方程:

對于模擬數據,均隨機抽取500個樣本,其中30%作為測試集,其余70%作為調整集和訓練集用于C的選擇和模型訓練。另外,對于500個樣本,隨機選擇20%將其標簽以相等概率的更改為其他任意類別以增加噪聲。

2.1 截斷位置a的影響

T-Pin-SVM和Pin-SVM的主要區別在于T-Pin-SVM通過截斷位置a對損失進行截斷以限制錯誤分類樣本的無界損失,因此a影響了T-Pin-SVM概率估計的性能,另外a的取值也影響了落入損失函數水平區域樣本的數量,決定了T-Pin-SVM的稀疏性。表1顯示了T-Pin-SVM和Pin-SVM模型的概率估計結果。可以發現,當固定相同的τ值,a的不同設定,5個數據集的大多數概率估計誤差指標(l1和l2)均會下降,這表明截斷會提升Pin-SVM的噪聲魯棒性,顯示了T-Pin-ball在概率估計中的良好表現。另外,在模擬數據和實際數據Pima中,T-Pin-SVM的SVs均小于Pin-SVM,且隨a減少而降低,稀疏性增強。同樣,在實際數據Vote和Ionosphere中,相比后兩種a的取值,a=1.5也會引起稀疏性增強。而在a=2和a=2.5參數條件下,T-Pin-SVM的稀疏性指標SVs均與Pin-SVM無差異,表明在這兩個數據集中,損失均小于2,截斷不起作用。

表1 不同參數組合下T-Pin-SVM和Pin-SVM模型的

續表1

2.2 不同SVM模型的性能評估

表2顯示了T-Pin-SVM、Pin-SVM和C-SVM在5個數據集中的概率估計對比結果。可以發現,C-SVM在稀疏性指標SVs上的表現明顯優于T-Pin-SVM,這是由于在C-SVM中,對于正確分類的點Hinge損失梯度為0,且在所有數據集中,正確分類的點顯然多于噪聲點,在T-Pin-SVM中,高于某一損失值的噪聲點(取決于a)才對應零梯度,而在Pin-SVM不存在零梯度。C-SVM這種強稀疏性也使得測試和調整參數階段較少的計算成本,T-Pin-SVM的計算成本也少于Pin-SVM。對于類別概率的估計,除Pima數據集外,T-Pin-SVM的結果均優于其他兩個模型。

表2 T-Pin-SVM、Pin-SVM和C-SVM概率估計性能對比

3 結 語

針對SVM在多類別概率估計中存在的噪聲敏感問題,本文提出了一種截斷的Pinball損失,討論了它的噪聲魯棒性和稀疏性,并證明了基于該損失的T-Pin-SVM具有Fisher一致性。另外,為降低求解復雜度和計算成本,本文將K類別概率估計任務劃分為K(K-1)個二分類任務,利用Fisher一致性得到二分類概率估計后,再利用耦合公式實現了多類別概率估計。對于截斷Pinball損失導致的非凸問題,本文應用了DC算法求解。模擬數據和實際數據表明,相比于C-SVM、Pin-SVM,本文所提出的T-Pin-SVM可以降低概率估計的誤差,提高分類準確性,并且相對于無邊界的Pinball損失,它的稀疏性更強。

另外,類不平衡對SVM也有較大影響,進一步的研究可以結合類不平衡提高SVM概率估計準確性。

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準備好了嗎
學生天地(2019年32期)2019-08-25 08:55:22
分類討論求坐標
數據分析中的分類討論
按需分類
教你一招:數的分類
主站蜘蛛池模板: 亚洲天堂2014| 91麻豆精品国产高清在线| 欧美精品在线看| 国产三区二区| 亚洲毛片在线看| 国产欧美在线观看精品一区污| 99在线观看精品视频| 四虎精品国产AV二区| 99久久精彩视频| 久久精品一品道久久精品| 亚洲天堂网站在线| 又大又硬又爽免费视频| 久久精品国产免费观看频道| a毛片免费看| 日韩午夜伦| 一本大道无码高清| 久久精品丝袜| 2019年国产精品自拍不卡| 97视频在线观看免费视频| 最新亚洲av女人的天堂| 亚洲av无码人妻| 成年人福利视频| jijzzizz老师出水喷水喷出| 91在线一9|永久视频在线| 无码又爽又刺激的高潮视频| 超碰91免费人妻| 亚洲日韩国产精品无码专区| 国产一区二区三区精品久久呦| 在线精品视频成人网| 国产精品一区在线麻豆| 国产91丝袜在线观看| 手机精品福利在线观看| 日韩av电影一区二区三区四区| 婷婷激情亚洲| 一级毛片基地| 午夜国产精品视频| 亚洲欧美另类色图| 99国产精品一区二区| 99无码中文字幕视频| 亚洲日韩精品无码专区97| 欧美日韩专区| 精品国产aⅴ一区二区三区| 国产精品无码在线看| 天堂成人在线视频| 韩国自拍偷自拍亚洲精品| 在线播放精品一区二区啪视频| 国产亚洲精久久久久久无码AV| 国产精品原创不卡在线| 亚洲av日韩av制服丝袜| 欧美午夜理伦三级在线观看| 亚洲国产综合精品中文第一| 精品中文字幕一区在线| 99久久无色码中文字幕| 国产成人禁片在线观看| 国产美女无遮挡免费视频网站| 精品欧美日韩国产日漫一区不卡| 亚洲国产成人超福利久久精品| www.精品国产| 黄色片中文字幕| 99视频在线免费| 尤物国产在线| 日本三级精品| 有专无码视频| 亚洲AV人人澡人人双人| 精品免费在线视频| 亚洲中文无码av永久伊人| 亚洲一区二区三区麻豆| 欧美一级夜夜爽www| 青青国产在线| 国产aⅴ无码专区亚洲av综合网| 国产91麻豆免费观看| 国产交换配偶在线视频| 久久国产成人精品国产成人亚洲| 亚洲欧洲自拍拍偷午夜色| 色偷偷综合网| 久草视频一区| 亚洲欧洲自拍拍偷午夜色无码| 九九热这里只有国产精品| 99热这里只有精品免费国产| 亚洲小视频网站| 久久黄色影院| 五月天福利视频|