999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

價值樣本選取的不均衡分類*

2020-03-19 13:48:06王馨月才子昕沈啟航景麗萍
計算機與生活 2020年3期
關鍵詞:分類價值方法

徐 劍,王馨月,才子昕,沈啟航,景麗萍

北京交通大學 計算機與信息技術學院,北京100044

1 引言

在許多場景和應用領域中,不均衡學習是一個常見并且長期存在的問題[1-2]。當不均衡數據分布存在于二分類問題時,其中一類(多數類)樣本數量遠遠超過另外一類(少數類)樣本數量。在許多重要的現實分類問題中,不均衡率,即多數類樣本和少數類樣本數量的比例是非常高的。例如診斷數據中的罕見疾病[3]、信用卡欺詐檢測[4]、技術設備故障檢測、不合格產品分類[5]等。由于樣本的不均衡性,傳統分類器更多地偏向于多數類樣本。如圖1 所示,星形表示多數類,圓圈表示少數類。首先,當少數類數目很少時,由于決策面更多地偏向于多數類,因此導致少數類被分類錯誤。同時,一些有噪聲的樣本(如圖1 中的A、B樣本點)和多數類中冗余樣本點(虛線圈中樣本)也會對分類造成困擾。因此,有必要對少數類自適應地分配更高的權重來改變決策面的偏移,其次要選擇那些更有價值的樣本,以避免冗余樣本和噪聲樣本對分類的影響。

Fig.1 Illustration of impact of imbalance distribution for decision boundary圖1 不均衡分布對決策面影響展示圖

近年來,關于不均衡分類研究的問題越來越受到重視,并提出了一系列處理不均衡的方法[1,6]。為了解決不均衡問題,像欠采樣和過采樣等方法廣泛用于處理不均衡數據集。其中欠采樣需要刪除一些多數類樣本以平衡數據集,但是這類方法會存在刪除有價值和有代表性樣本的風險;過采樣是另一種在少數類中添加新樣本的采樣方法,但是過采樣方法仍可能會產生不準確的樣本,導致過擬合和重疊問題。

與此同時,代價敏感度學習是另外一種處理平衡問題的方法,該方法考慮了在算法層面上錯誤分類樣本和代價成本的關系。代價敏感的學習方法的設計理念是當少數類樣本錯誤分類時,會對其增加昂貴的成本,從而強調對少數樣本的任何正確分類或錯誤分類的代價差異性。最近幾年關于不均衡類分布的代價敏感學習的研究主要包括由Shao等人[7]提出的一種有效的加權拉格朗日雙SVM(support vector machine),Cao 等人[8]提出的一種優化的代價敏感SVM,Katsumata 等人[9]提出應用SVM 作為穩健的代價敏感分類技術。

本文主要處理不均衡數據為圖像數據集,以此需要考慮特征提取對以后分類的影響,從而本文選取了新的特征提取器壓縮激勵網絡,以此來提取更有價值的特征信息。同時為了避免冗余樣本和噪聲樣本對分類的影響,通過支持向量機來自適應地選取有價值的樣本點。與此同時,為了處理最終選取的不均衡價值樣本集,應用與以往不同的代價敏感學習機制,不僅針對類之間樣本點的不同,而且針對類內樣本點的不同來自適應地分配不同的權重,以此來提升最終分類的性能。

因此,為了選擇有價值的樣本信息并針對少數類樣本自適應分配不同的權重,本文提出了一種結合價值樣本選擇器和自適應樣本的代價敏感學習的新框架SSIC 來處理二分類中不均衡圖像數據。該框架首先考慮到數據的統計特性,將數據中多數類分成多塊和少數類數量相同的數據。然后每塊多數類樣本分別和少數類樣本結合作為輸入,之后使用壓縮和激勵網絡[10]作為特征提取器組件來更好地提取特征信息。隨后應用支持向量機自適應地從每塊數據集中選擇有價值的樣本。此外,為了處理最終選取的不均衡價值樣本,本文使用改進的代價敏感SVM 作為最終分類器。本文提出的框架可以最小化訓練數據中不均衡分布的影響,并提高代價敏感學習的分類性能。

2 相關工作

現有研究的不均衡數據處理方法可以分為兩種類型,即基于數據層面方法和基于算法層面方法。基于數據層面方法通過對少數類進行過采樣或對多數類進行欠采樣來均衡訓練數據集中的樣本數。而后者主要修改現有算法以更多地強調少數類樣本的重要性[6,11],其中一種策略是代價敏感學習[1,12],它在區分少數類的同時可以保持原始類的分布。

2.1 采樣方法

采樣方法被認為是一種在數據層面對不均衡處理的數據預處理技術。在以往的文獻中,總體來說有兩種不同類型的采樣方法被提出:欠采樣和過采樣。它們通過減少多數類樣本或增加少數類樣本來將不均衡數據轉換為均衡數據,然后應用傳統分類器訓練最終的均衡數據集。

隨機欠采樣是一種流行并且很直接的方法,這種方法通過隨機減少多數類樣本來均衡不同類之間的樣本數量,然而這種隨機欠采樣方法往往會導致大量有價值信息的丟失。因此為了更合理地對多數類樣本進行欠采樣,許多欠采樣方法引入了數據清理策略,從而刪除多數類中的重疊樣本并提高分類性能,如精簡的最近鄰規則Tomek Links[13](CNN+Tomek Links)集成方法[14],以及基于編輯的最近鄰清理規則(edited nearest neighbor,ENN)[15]等。但是,如上改進的欠采樣方法還是會導致改變多數類樣本的結構信息,并且會失去一部分有價值的信息。

過采樣是另外一種處理不均衡數據的策略。過采樣主要包括隨機復制少數類樣本或者生成新樣本來增加少數類數量。通過隨機復制得到的樣本與原始樣本具有高度相似性,這容易導致過度擬合問題。為了克服隨機過采樣問題,初始考慮樣本分布的SMOTE[16](synthetic minority over-sampling technique)算法被提出,但SMOTE算法也有其缺點,包括出現過度泛化和方差[1]問題。隨后如何選擇過采樣參考樣本以及如何設計生成新樣本的生成器成為過采樣研究的核心問題。例如,一些代表性工作包括Borderline-SMOTE[17]、自適應生成采樣ADASYN[18]和Kernel-ADASYN[19]算法。但是,所有過采樣方法都會改變原始數據的分布,并可能生成導致過度擬合和重疊問題的不準確樣本。

2.2 代價敏感學習

除了通過不同的采樣策略來生成均衡的數據分布外,代價敏感學習是不均衡分類中另一個最重要的技術,并且近年來引起了極大的關注[1]。代價敏感學習通過使用不同的代價矩陣來描述任何錯誤分類的樣本的代價,從而解決不均衡學習問題。代價敏感的目標是在不改變類分布的情況下為錯誤分類樣本分配更大權重值[20]。

如今針對不均衡分類問題已經提出了許多不同的代價敏感學習的方法。在文獻[21]中提出zSVM 是針對SVM 從不均衡數據集學習中修改算法之一,這是一種典型的閾值調整方法,通過將z的值從0 逐漸增加到某個少數值來優化z值。在文獻[7]中,Shao等人通過使用基于圖的欠采樣策略來保留鄰近信息并將權重偏差嵌入拉格朗日TWSVM(weighted Lagrangian twin support vector machine)公式中。在文獻[22]中,Cheng 等人引入了指數參數來加強權衡參數的影響。Yan 等人[23]提出了一種新的代價敏感方法,其懲罰參數C基于聚類概率密度函數(probability density function,PDF)進行優化。但是,上述方法都沒有考慮同一類中樣本之間的差異性。

基于以上的采樣方法和代價敏感學習,首先并沒有考慮到有價值樣本選取問題,其次也沒有考慮到同類別的樣本之間的差異性問題。因此,本文將價值樣本選取與自適應樣本的代價敏感學習用于處理不均衡框架中,從而在數據和模型層面上來處理不均衡問題。

3 SSIC 框架

本章提出了一個新的結合特征提取器壓縮激勵網絡[10],價值樣本選擇器SVM 和代價敏感學習來處理不均衡數據的框架SSIC。在該框架中本文首先考慮到數據的統計特性,先將多數類樣本分成多塊與少數類樣本數量相同的數據集,分別和少數類樣本結合作為輸入的訓練集。與此同時本文為實現之后的高效訓練,使用壓縮激勵網絡從每塊均衡數據中提取高級特征。然后本文使用SVM 自適應地從每塊提取特征的數據集中選取有價值的樣本。最后將最終選取的價值樣本用改進的代價敏感SVM 來進行最終的分類。最終提出的整體框架SSIC 如圖2 所示。SSIC 的主要貢獻是同時在數據和模型的層面上來處理類不均衡問題。另一方面,本文使用SVM 來選擇價值樣本數據也一步簡化復雜的學習任務。

Fig.2 Illustration of proposed SSIC framework圖2 提出的SSIC 框架展示圖

給定二分類數據集,其中訓練數據集S={(xi,yi)|,yi∈{+1,-1,i=1,2,…,n},xi指第i個樣本的特征向量,Smin與Smax分別為少數類和多數類樣本集,其中S=Smin∪Smax。

3.1 價值樣本選擇器

為了選取更有價值的樣本點,如圖2 所示,本文充分考慮了數據的統計特性,首先從多數類樣本Smax中分別選取多塊子集Ni,使與少數類樣本點數量相等,即|Ni|=|Smin|,之后將每塊子集Ni分別與P(即Smin)組成多塊子集Si,Si=P∪Ni。然后本文對每塊子集Si使用壓縮激勵網絡來提取更高級特征,與以往特征提取技術不同,壓縮激勵網絡對圖像數據的信道信息進行考慮,針對不同信道賦予不同的權重,從而壓縮激勵網絡作為特征提取器不僅考慮了空間信息而且考慮到了信道之間的關聯信息,以此獲得原始輸入數據更好的結構化特征表示。

在此特征提取的基礎上,為了避免一些噪聲或者冗余數據的存在,本文要從提取特征的每塊數據集中自適應地選取有價值的樣本。如圖2 所示,由于樣本的信息差異性和其與超平面的距離是同義的,如果樣本越遠離超平面,則分類器對其類標簽信任度越大,因此這部分數據對分類器的影響很小。而另一方面,靠近超平面的樣本卻能向分類器提供最多有價值的信息[1]。因此,本文訓練具有這些特征的SVM 分類器以自適應地檢測每塊數據集中每個樣本與超平面的距離并關注最接近超平面的樣本,這對于最終分類來說是至關重要的。圖2 總結了選擇有價值樣本過程。

3.2 價值樣本權重賦值

為了解決不均衡分類問題,以往的代價敏感策略為正類樣本賦予較高的權重C+,為負類樣本賦予較低的權重C-,通常令C+/C-=ratio[12],以使得在提升少數類誤分代價的同時,保證多數類樣本的權重總和與少數類相等。然而,這種權重的設置只考慮到不同類間樣本重要性的差異,沒有考慮到同一類內樣本之間重要性的差異。因此,作為前期工作的延續,本文依然通過K近鄰的方式來評估同一類樣本的重要性差異。然而此時處理的樣本為已經選定好的價值樣本,此時需要針對價值樣本的近鄰個數來進行權重的設定,如針對少數類樣本,近鄰中多數類樣本數越多,則賦予的權重更高些。基于這種權重的設置,不僅可以保證多數類樣本的權重高于少數類樣本,同時也為相同類別中更重要的樣本賦予了更高的權重,以此提升模型對不均衡數據的分類性能。

為了使代價敏感SVM 能夠更有效地應用于不均衡分類,自適應成本敏感學習通過為每個樣本引入θi得到自適應不均衡分類器,目標函數如下:

其中,xi表示第i個樣本的特征向量,yi表示相應的標簽,m表示最終選擇的價值樣本的個數。同時,考慮到少數類樣本的預測結果比多數類樣本重要性更高些,為了簡化模型復雜度并降低計算復雜度,本文只仔細區分少數類樣本的權重。因此本文在式(2)中重新為每個樣本定義了θi。

為了能夠針對不同少數類樣本計算不同的權重值,本文將K近鄰方法引入到模型中,如式(3)所示,其中定義為少數類樣本近鄰為多數類樣本的個數,k定義為近鄰樣本的個數。m-為有價值的多數類樣本個數,為有價值少數類樣本中noise 樣本。如果少數類近鄰都為多數類,即為noise 點,本文將其權重值設為0。

4 實驗與分析

為了驗證本文提出的新框架在不均衡分類問題中的有效性,本章提出了廣泛的實驗研究來證明本文算法的性能提升和有效性。

4.1 數據集

MNIST 被認為是簡單且解決了涉及數字圖像分類的問題。數據集由尺寸為28×28 的灰度圖像組成。有10個類對應于從0 到9 的數字。原始訓練數據集中每個類的樣本數量從第5 類中的5 421 到第1類中的6 742。CIFAR-10和CIFAR-100是比MNIST更復雜的圖像分類問題。CIFAR-10包含10類32×32的自然物體彩色圖像。初始數據集中每個類都有5 000個訓練樣本和1 000個測試樣本。CIFAR-100 包含屬于100個類(600個圖像/類)的60 000個圖像,這些圖像進一步分為20個超類。每個類別的標準訓練/測試分組包含500/100圖像。Tiny ImageNet數據集是ILSV—RC2014 數據集中的一個標準子集,具有200個類。每個類別有500個訓練圖像,50個驗證圖像和50個測試圖像。每個圖像已經下采樣到64×64 像素。

為了評估本文的框架在各種尺度數據集上性能提升情況,本文從上面的數據集中分別選取了兩類不同的數據集。用隨機抽取樣本的方式在兩類樣本中分別抽取樣本數有差距的兩類樣本,同時為了使數據具有不同程度的不均衡度,本文將每個提取的數據集中兩類中的一類分別減少到與另外一類不同比例的圖像數量,如1∶10,1∶100 等,根據后邊實驗來提取不同比例的數據。

4.2 方法與指標設定

為了測試本文提出的方法的有效性,本文將提出的方法與其他方法進行了對比。在對比方法中,本文采用SMOTE和ADASYN(adaptive synthetic sampling approach)作為過采樣方法,由Python Imbalanced-Learn Library(版本0.4.3)實現。以上兩種采樣方法在通過壓縮激勵網絡選取樣本特征后,分別和價值樣本選擇器結合(SMOTE_SS 和ADASYN_SS)以及不與價值樣本選擇器結合(SMOTE_S 和ADASYN_S)作為最終的對比方法。在此過程中,本文將SVM 作為最終的分類器。同時,本文還將SSIC 框架與RCSSVM(robust cost sensitive support vector machine)[9]進行比較,以展示本文的方法的優勢。

在本實驗中,本文使用第4.1 節中描述的數據集來評估SSIC 框架性能。在不均衡分類中,準確性不是評估方法性能的適當措施,因此本文使用以下常用于不均衡數據分類的性能度量指標來評價不同分類器的分類性能,分別為負類查準率(Precision_N),正類查全率(Recall_P)以及宏觀F1 度量(F_macro)。

4.3 結果與分析

為了在不均衡學習中用其他方法評估本文提出的框架的性能,進行了不同類型實驗來展示所提出框架的有效性。首先,本文評估了針對具有不同不均衡率的CIFAR-10 數據集來展示框架的敏感性能。然后,本文比較了在CIFAR-100 數據集的特定比率下SSIC 和其他方法的柱狀圖的性能展示。最后,本文研究了MNIST 數據集與Tiny ImageNet 數據集中不同指標下提出框架與其他方法的性能改進。

首先本文將提出的框架在不同不均衡率的CIFAR-10 數據集上性能變化情況的對比圖以及選取不同類別的CIFAR-100 數據集與其他方法的性能進行展示。通過圖3 與圖4 中顯示的性能對比結果,圖3 中(a)、(b)圖分別表示在類別為(2,6)兩類不均衡數據和(5,9)兩類不均衡數據在Recall 指標上性能對比。圖4 中(a)、(b)圖表示在類別為(2,6)兩類不均衡數據和(5,9)兩類不均衡數據在F_macro指標上性能對比。通過本文可以發現SSIC 框架幾乎是所有情況下的最佳方法。隨著不均衡率的逐漸增加,曲線圖上也顯示出在大多數情況下,SSIC 性能都有所提升,并且從曲線圖中分析,SSIC 在CIFAR-10 數據集的性能未顯著下降。特別是對于少數類的召回率值,SSIC 對少數類的性能有所提高,這表明在選取有價值樣本后并自適應地為不同的少數類樣本分配權重是非常有效的。

Fig.3 Comparison of methods with respect to Recall_P on CIFAR-10圖3 不同對比方法在CIFAR-10 上Recall_P 性能

Fig.4 Comparison of methods with respect to F_macro on CIFAR-10圖4 不同對比方法在CIFAR-10 上F_macro 性能

圖5 中展示了CIFAR-100 數據集中不同類別和固定不均衡比率的性能對比結果。對于少數類中每個類的召回率和F_macro值的情況,SSIC 和其他方法相比性能得到提升。從柱狀圖中看出SSIC 框架針對少數類可以獲得更好的召回率,F_macro值也有很好的提升效果,從而也說明該框架對于更多的關注有價值的樣本是有效的,與此同時針對不同少數類樣本賦予不同的權重值也能針對不均衡數據增強分類器的性能。

除以上兩個數據集的性能展示外,在MNIST 和Tiny ImageNet 數據集上進行的實驗同樣證實SSIC在不均衡數據分類的有效性。表1 和表2 分別比較不同類別MNIST 和Tiny ImageNet 數據集的負類查準率(Precision_N)、正類查全率(Recall_P)以及宏觀F1 度量(F_macro)這三個指標的提升狀況。MNIST數據集與Tiny ImageNet 數據集不均衡比分別定義為100 和10。結果證實提出的框架在所有數據集的表現優于任何其他方法,以此證明SSIC框架的優異性能。

此外,本文還展示SSIC 與以往不選取價值樣本的樣本自適應的代價敏感分類器(SA-SVM)[24]進行對比,并展示在F_macro上的提升值,提升值定義如下:

Table 1 Comparison of SSIC with other methods on MNIST dataset表1 在MINIST 數據集上SSIC 與其他方法的對比

Table 2 Comparison of SSIC with other methods on Tiny ImageNet dataset表2 在Tiny ImageNet數據集上SSIC 與其他方法的對比

其中,Rec1代表SSIC 的F_macro值,Rec2代表SASVM 的F_macro值,用CIFAR-10 與CIFAR-100 分別選取不均衡兩類數據進行對比,其中不均衡率分別為100和10。

從圖6 中可以看出,相比于SA-SVM,SSIC 框架在這兩種指標上都有所提升。從Recall_P上的提升看,自適應地選取有價值的樣本是非常有必要的。從F_macro的指標提升上來看,選取有價值的樣本針對于多數類樣本點的性能也有所提升,因為選取價值樣本過程也避免了部分冗余和噪音的樣本對分類器的一些困擾,以此使性能有了提升。

5 結束語

Fig.6 Relative improvement of Recall_P and F_macro made by SSIC related to SA-SVM圖6 SSIC 與SA-SVM 在Recall_P 和F_macro 上的相對提升值

隨著大數據時代的發展,不均衡數據分類問題的研究受到了廣泛關注,然而由于數據集在數量上嚴重失衡,傳統的學習方法不能有效地對其進行學習。為了處理不均衡分類問題,本文提出了一種新的框架SSIC。首先SSIC 框架充分考慮數據統計特性,將數據集中的多數類分成與少數類樣本數目相同的幾塊數據集,分別與少數類樣本結合作為初始的訓練集,同時結合壓縮激勵網絡從每塊數據集分別提取高級特征。在提取特征的基礎上,SSIC 從每塊提取特征中自適應地選取一些更有價值的樣本來作為最終的輸入,以此減少部分噪音或者冗余樣本的影響。通過選取價值樣本,本文使用自適應權重分配的分類器來進行最終分類,此分類考慮少數類中不同樣本的差異性,從而更好地處理不均衡問題。而在現實生活中,存在更復雜的數據集,例如:多類數據集、多標簽數據集和更高維數據集等。因此,本文后續的工作會擴展所提出的框架并使其能夠處理這些復雜的情況。

猜你喜歡
分類價值方法
分類算一算
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
一粒米的價值
“給”的價值
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 亚洲免费黄色网| 国产视频只有无码精品| 国产欧美自拍视频| 91视频免费观看网站| 成人日韩视频| 国产精品 欧美激情 在线播放 | 国产精品香蕉在线| 欧美三级视频在线播放| 秋霞国产在线| 亚洲欧洲国产成人综合不卡| 亚卅精品无码久久毛片乌克兰| 日本在线欧美在线| 久久久久无码精品国产免费| 亚卅精品无码久久毛片乌克兰| 欧美精品在线看| 欧美一区二区自偷自拍视频| 日韩色图在线观看| 久久久亚洲色| 怡春院欧美一区二区三区免费| 国产经典免费播放视频| 亚洲swag精品自拍一区| 国产91在线|日本| 日韩亚洲高清一区二区| 亚洲电影天堂在线国语对白| 国产视频大全| 成年人视频一区二区| 亚洲精品另类| 亚洲成肉网| 天天综合天天综合| 欧美性猛交xxxx乱大交极品| 中文天堂在线视频| 91www在线观看| 国产午夜精品一区二区三| 国内精品小视频在线| 精品人妻AV区| 国产精品jizz在线观看软件| 婷婷午夜影院| 综合社区亚洲熟妇p| 国产手机在线观看| 免费观看成人久久网免费观看| 精品国产aⅴ一区二区三区| 日韩成人在线一区二区| 国产 在线视频无码| 亚洲swag精品自拍一区| 日本人妻一区二区三区不卡影院 | 午夜国产小视频| 国产高清不卡视频| 久久不卡国产精品无码| 亚洲成人播放| 精品色综合| 在线观看免费人成视频色快速| 精品久久久久久久久久久| 熟女视频91| 国产欧美日韩va另类在线播放| 手机成人午夜在线视频| 91成人免费观看| 欧美狠狠干| 色噜噜综合网| 四虎亚洲国产成人久久精品| 婷婷综合在线观看丁香| 91精品视频在线播放| 免费可以看的无遮挡av无码 | 老司机精品99在线播放| 免费AV在线播放观看18禁强制| 97精品国产高清久久久久蜜芽| 99成人在线观看| 人妻无码AⅤ中文字| 国产香蕉国产精品偷在线观看 | 老司机午夜精品网站在线观看| 亚洲色成人www在线观看| 免费a在线观看播放| 激情无码字幕综合| 久久婷婷色综合老司机| 精品精品国产高清A毛片| 久久免费视频6| 香蕉国产精品视频| 国产99在线| 一级爆乳无码av| 亚洲欧美日本国产专区一区| 国产资源免费观看| 日韩精品一区二区三区swag| 国产门事件在线|