張燕
(商洛學院 數學與計算機應用學院,陜西商洛726000)
基于二次SVM的不均衡數據算法
張燕
(商洛學院 數學與計算機應用學院,陜西商洛726000)
為減少不均衡數據對支持向量機分類性能的影響,提出一種基于二次支持向量機的欠取樣分類算法,該算法依據樣本的分類超平面貢獻大小對多數類樣本進行欠取樣,并對少數類樣本進行過取樣,重構訓練數據集。該算法能夠刪除樣本中的噪聲數據,用控制參數控制刪除樣本的規模,實驗表明,該算法能夠提高支持向量機在不均衡數據集下的分類性能。
支持向量機;不均衡數據;欠取樣;分類超平面
支持向量機(Support Vector Machine,簡稱SVM)[1]是在統計學習理論基礎上發展起來的一種新的機器學習方法,它基于結構風險最小化原則,在解決小樣本、非線性及高維模式識別問題中表現出許多特有的優勢。傳統SVM在均衡訓練樣本下有較好的分類性能,然而在樣本數量不均衡的情況下SVM對多數類樣本的過于擬合,而對少數類樣本則是欠學習。均衡化方法可以分為兩類:數據層面的方法和算法層面的方法。數據層面的方法主要是通過一定策略刪除多數類的樣本或者增加少數類的樣本使數據集均衡化,進而提高分類器在不均衡數據集下的分類性能,常采用的方法有過采樣[3-7]和欠采樣[8-13]。算法層面的方法主要有代價敏感學習、核方法、集成方法如boosting等。
楊智明等[10]在核空間中對多數類樣本進行譜聚類,然后依據聚類大小及聚類與少數類樣本間的距離選擇有代表性的樣本;……