劉毅鵬 高 尚
(江蘇科技大學 鎮江 212000)
通過利用代價敏感學習,研究人員已解決許多類別不平衡問題。在訓練集訓練分類模型時保證誤分代價最小化,而不是保證樣本的整體誤差最小化,此為代價敏感學習的思想,是代價敏感學習從算法層解決類別不平衡問題的體現。若要獲得無偏的分類面,就需要對少數類樣本的誤差施以更大的懲罰,也就是賦予其更大的代價權重,而對于多數類樣本,則反其道而行之。
極限學習機(ELM)[1]有以下兩個優點,一是泛化能力強,二是訓練速度快[2-3],但其分類性能會因數據集中樣本分布不平衡而下降。Zong 等[4]利用代價敏感學習技術,為突出少數類,給不同類別的訓練錯誤設置不同的懲罰代價,綜上提出了加權極限學習機(WELM);Zhang和Ji[5]通過插入一個模糊矩陣來對懲罰因子的分布進行調整,由此提出模糊極限學習機(FELM),但研究人員并未給模糊矩陣提供統一的設計規則;Xia 等[6]為解決類別不平衡問題[7],將核聚類與FELM相結合,提出基于核聚類的可能性模糊極限學習機(PFELM);Li 等[8]借鑒Boosting 框架可以自動更新訓練樣本的權重,將其與WELM 結合;Vong 等[9]提出一種解決方案,為提高對懸浮顆粒物水平的識別率,利用一種改進的隨機過采樣;Sun 等[10]為更好預測公司的生命周期,將合成少數類過采樣技術(SMOTE)[11]集成到ELM中;Mirza 等[12]提出了子集在線順序極限學習機(ESOS-ELM)的集成算法,以實現增量式類別不平衡學習,其中使用了變化檢測機制來檢測概念漂移。楊澤平[13]通過研究量子行為粒子群優化算法,發現其有助于提升極限學習機的性能,提出了量子行為粒子群優化極限學習機;唐曉芬[14]所提出的基于自適應差分進化算法優化加權極限學習機,提升了加權極限學習機的泛化性能和穩定性。但是,以上算法對ELM 在類別不平衡數據上的分類性能提升并不明顯。
在本文中,基于加權極限學習機,融合模糊加權的理念,提出一種魯棒性更強的新概念——相對密度信息,該方法是通過K近鄰概率密度估計策略計算各訓練樣本間的相對密度,可以避免在高維空間下直接進行概率密度的計算,然后進行隸屬函數的設計,模糊化和個性化設置每個樣本的權重,通過以上方法生成的權重矩陣來代替加權極限學習機中的權重矩陣,從而設計出基于類內相對密度信息的模糊代價敏感極限學習機和基于類間相對密度信息的模糊代價敏感極限學習機。最后通過從Keel 數據庫[15]隨機獲取的20 個二元不平衡數據集,對所提兩種算法是否有效及可行進行驗證。根據實驗結果,與流行的類別不平衡學習算法相比,所提算法在G-mean 等評價指標上具有較優表現,因此所提算法構造的預測模型具有更好的預測性能。
在本節中,首先介紹相對密度估計策略,然后介紹如何利用它來設計模糊隸屬函數,最后描述所提出算法的流程。
在本節中,提出了一種方法,這種方法不必精確地測量每個訓練樣本的概率密度,只需要提取任意兩個訓練樣本之間的概率密度的比例關系,把反映比例關系的信息稱為相對密度。
K 近鄰的概率密度估計(KNN-PDE)是一種非參數概率密度估計方法,為了估計多維連續空間中的概率密度分布,可以通過測量每個訓練樣本的K近鄰距離,并且當訓練樣本數達到無窮大,獲得結果可近似收斂到實際概率密度分布。基于以上策略,可獲得需要的相對密度。
假設有一個包含N個樣本的數據集,則對于每個樣本xi,都可以找到第K個近鄰并將它們之間的距離記錄為。越大,樣本xi的密度就越低。同時,在低密度區域中會出現噪聲或離群值,可以使用作為評估每個樣本重要性的度量。要為高密度樣本提供較大的值,為低密度樣本提供較低的值(例如,噪聲和離群值),應將轉換為其倒數,即。而相對密度就是樣本的K近鄰距離的倒數。因此,隨機選取兩個樣本,它們相對密度的比例關系恰好和它們K近鄰距離的比例關系相等,如
同樣,對于相對密度,參數K的選擇非常重要。如果K值太小,則無法將某些噪聲和離群值與那些正常樣本區分開,倘若K值過大,那么重要樣本與噪聲或離群值將很難被區分,有些很小析取也不會被捕獲。因此,建議為參數K分配一個適當的值。在本文中,根據經驗,K默認設置為,其中N表示訓練樣本的數量。
基于相對密度,本文設計了基于類內相對密度信息的模糊隸屬函數和基于類間相對密度信息的模糊隸屬函數。
其中Nc表示xi所屬的類的樣本數。通過上述模糊隸屬函數計算所得的模糊隸屬值,它不需要考慮樣本數,也能反映類內的相對密度。因此,它將對數據分布規模的方差魯棒性更強。另外,由于每個類別都是獨立處理的,因此適應類別不平衡問題。
2)基于類間的相對密度信息。在此方法中,f(xi)與估計的類邊界聯系緊密,較高的隸屬值將被分配給更加接近估計的類邊界的樣本。根據不同的密度分布情況及樣本特征,將樣本分為四種,以此來更加精確地估計類邊界。樣本分為正類值,臨界值,噪聲和離群值。圖1 是以上四種樣本的可視化描述,其特征如下:
(1)正類值:該樣本主要出現在自身所屬類別密度較高的區域,也有部分在其它類別密度較低的區域出現;
(2)臨界值:該樣本出現在兩個類別的中低密度區域中,而在其自身所屬類別中的密度較另一個類別的密度更高;
(3)噪聲:該樣本出現在同類別密度較低區域,或者出現在不同類別密度較高區域;
(4)離群值:該樣本在兩類別密度都較低的區域中出現。
依據上述特征,邊界可被定位。首先,針對不同的情況,可以將其類內相對密度與類間相對密度進行比較,以找到可以用判別器檢測到的噪聲。如果樣本xi來自正類,則其判別描述如下:
其中d′ 表示僅使用其它類別中的樣本計算的距離,N+和N-分別表示正類別和負類別的樣本數,提供了向上取整運算,IR是等于的類別不平衡比率。如果xi來自負類,則判別式修改為
提取滿足式(3)和式(4)中判別式條件的所有樣本,稱其為噪聲,并為這些噪聲分配隸屬值λ,λ的值很小。
然后,為其它樣本的隸屬值分配類間相對密度信息。下列分段函數可表示模糊隸屬函數:
其中Nc1和Nc2分別表示屬于同一類別xi內屬于無噪聲和噪聲的樣本數,有Nc1+Nc2=N。
本節描述分別基于兩種不同的模糊隸屬函數構建的算法的流程,即基于類內相對密度信息的算法(FWELM-ID)和基于類間相對密度信息的算法(FWELM-TD),它們的流程簡要描述如下。
2.3.1 FWELM-ID
輸入:訓練集θ={(x1,y1),(x2,y2),…,(xN,yN)},其中yi?{+,-},懲罰因子C,隱藏層神經元數L
步驟:
1)將θ分成θ+和θ-,這兩個數據集分別只包含正類樣本和負類樣本;
2)計算兩個數據集的樣本數,將θ+的樣本數記為N+,將θ-的樣本數記為N-,滿足N++N-=N;
3)計算正類樣本的參數K+,記作K+=,計算負類樣本的參數K-,記作K-=
5)通過式(1)計算θ里的每個樣本xi的相對密度,然后通過式(2)計算它的隸屬函數值f(xi) ;6)將隸屬函數值f(xi) 嵌入到WELM 的加權矩陣Wii中;
7)用懲罰因子C,隱藏層神經元數L 訓練WELM,獲得新的權值矩陣。
2.3.2 FWELM-TD
輸入:訓練集θ={(x1,y1),(x2,y2),…,(xN,yN)},其中yi?{+,-},懲罰因子C,隱藏層神經元數L
步驟:
1)將θ分成θ+和θ-,這兩個數據集分別只包含正類樣本和負類樣本;
2)計算兩個數據集的樣本數,將θ+的樣本數記 為N+,將θ-的樣本數記為N-,滿 足N++N-=N;
4)計算正類樣本的參數K+,記作,計算負類樣本的參數K-,記作
5)對于θ+里的每個樣本,計算它在θ+里的K+近鄰距離及在θ-里的K-近鄰距離并分別記為,同樣地,對于θ-里的每個樣本,計算它在θ-里的K-近鄰距離及在θ+里的K+近鄰距離并分別記為;
6)計算每個樣本的相對密度并分別通過式(3)和式(4)找出兩種不同類內的噪聲樣本;
7)通過式(5)計算每個樣本xi的隸屬函數值Si;
8)將隸屬函數值f(xi) 嵌入到WELM 的加權矩陣Wii中;
9)用懲罰因子C,隱藏層神經元數L 訓練WELM,獲得新的權值矩陣。
本文采用5 折交叉驗證,將提出的FWELM-ID、FWELM-TD 與其它十種算法在從Keel 倉庫隨機獲取的20 個二元不平衡數據集上進行了比較,數據集信息如表1所列。

表1 數據集信息
在實驗中,本文對所有和ELM 相關算法中的隱藏層節點數L定為100,懲罰因子C 定為212,以此使得實驗對比結果公正。
本文采用了G-mean 指標[16]來衡量算法的性能。表2 列出了12 種算法在20 個數據集上的G-mean的平均值,粗體表示最佳結果,下劃線表示次優,斜體表示最差。根據表3,我們得出如下結論:

表2 各類算法的G-mean測度比較
1)ELM 的表現最差,在11 個數據集中提供了最低的G-mean值。與ELM相比,其它11種算法能夠或多或少地提高分類性能。
2)與其它算法相比,WELM2和RUS-ELM都缺少穩定性。WELM2 傾向于過度調整分類,而RUS-ELM 則傾向于丟棄一些重要的分類信息,導致學習分類邊界的隨機性。。
3)SMOTE-ELM 和RWOS-ELM 的性能都比ROS-ELM 好,ROS傾向于使分類器過度擬合,因為它只是簡單地復制了原始分類器樣本,SMOTE 和RWOS 使得分類器的泛化能力提高,均可以采取合成泛化能力的方法。另外,RWOS 讓少數類的分類邊界擴大。然而,與SMOTE 相比,RWOS 沒有優勢。
4)對于兩種復雜的加權ELM,BWELM 明顯比PFELM 表現出色,因為PFELM 只考慮原始數據分布的信息,但是BWELM 可以專注于那些易犯錯誤的樣本,采用boosting 集成學習框架可以在很大程度上提高分類器的泛化能力。
5)FWELM-ID取得了6次最佳G-mean值,4次次最佳G-mean 值。FWELM-TD 取得了2 次最佳G-mean 值,7 次最佳G-mean 值。和ODOC-相比,FWELM-ID 和FWELM-TD 嵌入了更復雜的優化技術,可以明顯提高分類性能。兩種算法均精確地提取任意兩個訓練樣本間的概率密度的比例關系,而不必按照原來的方法,即精確地測量每個訓練樣本的概率密度。
此外,本文用Friedman檢驗來對各算法在所有數據集上的性能,按G-mean 計算它們的排序值、P值、Holm 值和假設,其中,顯著性水平α設為0.05。統計分析結果如表3所列。
從表3 可以看出,FWELM-ID 的排序值最小,即排名為1,這表明在所有算法中,該算法的預測性能最好。FWELM-TD 的排序值第三小,即排名為3,這表明在所有算法中,該算法的預測性能較好。從普遍性上看,本文所提的兩種算法與ROS-ELM、SMOTE-ELM、BWELM 和ODOC-ELM之間的差異并不明顯。
考慮到代價敏感學習存在未考慮樣本在特征空間中的具體分布情況的缺陷,本文提出了兩種基于相對密度信息的模糊代價敏感極限學習機。所提算法基于加權極限學習機,融合模糊加權的理念,提出一種魯棒性更強的新概念——相對密度信息,該方法是通過K近鄰概率密度估計策略計算各訓練樣本間的相對密度,可以避免在高維空間下直接進行概率密度的計算,然后進行隸屬函數的設計,模糊化和個性化設置每個樣本的權重,通過以上方法生成的權重矩陣來代替加權極限學習機中的權重矩陣。最后通過從Keel 倉庫隨機獲取的20個二元不平衡數據集,對所提兩種算法是否有效及可行進行驗證。根據實驗結果,與流行的類別不平衡學習算法相比,所提算法在G-mean 等評價指標上具有較優表現,因此所提算法構造的預測模型具有更好的預測性能。
此外,如何進行參數K 的選擇以及降低算法的時間復雜度,需要在今后的研究工作中繼續探索。