楊忠誠
(重慶財經職業學院,重慶 402160)
近期科學技術的發展使原始數據的增長和可用性以爆炸性的速度發生。這為知識發現和數據工程研究創造了巨大的機會,在從日常平民生活到國家安全,從企業信息處理到政府決策支持系統,從微觀數據分析到宏觀規模等各種應用中發揮重要作用知識發現。近年來,不平衡的學習問題引起了學術界、工業界和政府資助機構的極大興趣。不平衡學習問題的根本問題是不平衡數據的能力嚴重影響大多數標準學習算法的性能。大多數標準算法假定或期望均衡的類別分布或相等的錯誤分類成本。因此,當出現復雜的不平衡數據集時,這些算法無法正確表示數據的分布特征,從而導致數據類別之間的不準確精度。當翻譯成現實世界的領域時,不平衡的學習問題代表了一個重要問題,具有廣泛的影響,值得不斷探索。
從技術上講,任何在其類別之間呈現不均等分布的數據集都可能被認為是不平衡的。學術圈的共識是,不平衡數據對應的數據集表現出顯著的,有時甚至是極端的不平衡。具體來說,這種失衡形式被稱為一種“類間失衡”,兩類數據的比例為100:1、1000:1甚至10000:1的失衡情況并不少見,在每種情況下,一類數據量嚴重超出另一類。雖然這種描述似乎暗示所有階級間的不平衡本質上是二元的(或兩類的),但我們注意到存在多類數據,其中各類之間存在不平衡。在本文中,我們只簡要介紹多類不平衡學習問題,重點討論兩類不均衡學習問題。
如果不平衡是數據空間性質的直接結果,則稱這種形式的不平衡內在的。但是,不平衡的數據并不完全限于固有品種,時間和存儲等可變因素也會產生不平衡的數據集。這種不平衡被認為是外在的,即不平衡不直接與數據空間的性質有關。外在的不平衡與內在的不平衡同樣有趣,因為很可能出現外部不平衡數據集所達到的數據空間可能完全不平衡的情況。
當將標準學習算法應用于不平衡數據時,描述少數群體概念的歸納規則通常比大多數概念的歸納規則更少且更弱,因為少數群體類別往往數量多或者數量少。為了提供對不平衡學習問題對標準學習算法的直接影響的具體理解,我們觀察了流行決策樹學習算法的案例研究。
不平衡數據集利用了決策樹每個節點處分裂標準的不足之處。決策樹使用遞歸的,自上而下的貪婪搜索算法,該算法使用特征選擇方案來選擇最佳特征作為樹的每個節點處的分割準則;然后為與分割特征對應的每個可能值創建后繼(葉)。結果,訓練集被連續分割成更小的子集,最終用于形成與類概念有關的不相交規則。這些規則最終結合起來,以便最終假設最小化每個類別的總錯誤率。在存在不平衡數據的情況下,這個過程的問題是雙重的。首先,數據空間的連續分區導致少數類例子的觀察次數越來越少,導致描述少數概念的葉子越來越少,并且可信度估計值也越來越弱。其次,依賴于不同特征空間連詞的概念可能沒有通過分區引入的稀疏性來解決。第一個問題與相對和絕對不平衡問題相關,而第二個問題與類間不平衡和高維問題相關。在這兩種情況下,不平衡數據對決策樹分類性能的影響都是有害的。下面我們將評估所提出的解決不平衡數據影響的解決方案。
通常,在不平衡學習應用中使用抽樣方法包括通過一些機制修改不平衡數據集以提供均衡分布。研究表明,對于多個基本分類器,與不平衡數據集相比,平衡數據集提供了改進的整體分類性能。這些結果證明采用不平衡學習的抽樣方法是合理的。但是,它們并不意味著分類器不能從不平衡的數據集中學習;相反,研究還表明,由某些不平衡數據集引發的分類器與由采樣技術平衡的相同數據集引起的分類器相當。然而,對于大多數不平衡的數據集,抽樣技術的應用的確有助于提高分類器的準確性。
雖然抽樣方法試圖通過考慮分配中類別示例的代表性比例來平衡分配,但成本敏感的學習方法會考慮與錯誤分類示例相關的成本。通過使用不同的成本矩陣來描述對任何特定數據示例進行錯誤分類的成本,而不是通過不同的抽樣策略來創建均衡的數據分布,而成本敏感的學習則針對不平衡的學習問題。最近的研究表明,成本敏感型學習與從不平衡數據中學習有密切聯系。成本敏感方法的理論基礎和算法可以自然地應用于不平衡的學習問題。此外,各種實證研究表明,在某些應用領域,包括某些特定的不平衡學習領域,成本敏感學習優于抽樣方法。因此,成本敏感技術為不平衡學習領域的抽樣方法提供了可行的替代方案。
雖然抽樣方法和成本敏感的學習方法似乎主導了當前在不平衡學習方面的研究工作,但社區也采取了許多其他方法。由于基于內核的學習方法為當今的許多數據工程應用提供了最先進的技術,因此使用基于內核的方法來理解不平衡學習最近自然引起了越來越多的關注。
在本文中,我們討論了知識發現和數據工程領域中一個具有挑戰性和關鍵性的問題,即不平衡學習問題。我們討論了不平衡學習問題的基本性質,解決這個問題的最先進的解決方案,以及用于評估這個問題的幾種主要評估技術,為知識發現和數據工程研究人員和從業人員提供參考。