999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

不平衡信息處理技術與研究現狀

2018-03-27 04:42:34楊忠誠
數字通信世界 2018年9期
關鍵詞:成本方法研究

楊忠誠

(重慶財經職業學院,重慶 402160)

1 引言

近期科學技術的發展使原始數據的增長和可用性以爆炸性的速度發生。這為知識發現和數據工程研究創造了巨大的機會,在從日常平民生活到國家安全,從企業信息處理到政府決策支持系統,從微觀數據分析到宏觀規模等各種應用中發揮重要作用知識發現。近年來,不平衡的學習問題引起了學術界、工業界和政府資助機構的極大興趣。不平衡學習問題的根本問題是不平衡數據的能力嚴重影響大多數標準學習算法的性能。大多數標準算法假定或期望均衡的類別分布或相等的錯誤分類成本。因此,當出現復雜的不平衡數據集時,這些算法無法正確表示數據的分布特征,從而導致數據類別之間的不準確精度。當翻譯成現實世界的領域時,不平衡的學習問題代表了一個重要問題,具有廣泛的影響,值得不斷探索。

2 不平衡學習問題

從技術上講,任何在其類別之間呈現不均等分布的數據集都可能被認為是不平衡的。學術圈的共識是,不平衡數據對應的數據集表現出顯著的,有時甚至是極端的不平衡。具體來說,這種失衡形式被稱為一種“類間失衡”,兩類數據的比例為100:1、1000:1甚至10000:1的失衡情況并不少見,在每種情況下,一類數據量嚴重超出另一類。雖然這種描述似乎暗示所有階級間的不平衡本質上是二元的(或兩類的),但我們注意到存在多類數據,其中各類之間存在不平衡。在本文中,我們只簡要介紹多類不平衡學習問題,重點討論兩類不均衡學習問題。

如果不平衡是數據空間性質的直接結果,則稱這種形式的不平衡內在的。但是,不平衡的數據并不完全限于固有品種,時間和存儲等可變因素也會產生不平衡的數據集。這種不平衡被認為是外在的,即不平衡不直接與數據空間的性質有關。外在的不平衡與內在的不平衡同樣有趣,因為很可能出現外部不平衡數據集所達到的數據空間可能完全不平衡的情況。

3 不平衡學習問題研究現狀

當將標準學習算法應用于不平衡數據時,描述少數群體概念的歸納規則通常比大多數概念的歸納規則更少且更弱,因為少數群體類別往往數量多或者數量少。為了提供對不平衡學習問題對標準學習算法的直接影響的具體理解,我們觀察了流行決策樹學習算法的案例研究。

不平衡數據集利用了決策樹每個節點處分裂標準的不足之處。決策樹使用遞歸的,自上而下的貪婪搜索算法,該算法使用特征選擇方案來選擇最佳特征作為樹的每個節點處的分割準則;然后為與分割特征對應的每個可能值創建后繼(葉)。結果,訓練集被連續分割成更小的子集,最終用于形成與類概念有關的不相交規則。這些規則最終結合起來,以便最終假設最小化每個類別的總錯誤率。在存在不平衡數據的情況下,這個過程的問題是雙重的。首先,數據空間的連續分區導致少數類例子的觀察次數越來越少,導致描述少數概念的葉子越來越少,并且可信度估計值也越來越弱。其次,依賴于不同特征空間連詞的概念可能沒有通過分區引入的稀疏性來解決。第一個問題與相對和絕對不平衡問題相關,而第二個問題與類間不平衡和高維問題相關。在這兩種情況下,不平衡數據對決策樹分類性能的影響都是有害的。下面我們將評估所提出的解決不平衡數據影響的解決方案。

3.1 非平衡學習的采樣方法

通常,在不平衡學習應用中使用抽樣方法包括通過一些機制修改不平衡數據集以提供均衡分布。研究表明,對于多個基本分類器,與不平衡數據集相比,平衡數據集提供了改進的整體分類性能。這些結果證明采用不平衡學習的抽樣方法是合理的。但是,它們并不意味著分類器不能從不平衡的數據集中學習;相反,研究還表明,由某些不平衡數據集引發的分類器與由采樣技術平衡的相同數據集引起的分類器相當。然而,對于大多數不平衡的數據集,抽樣技術的應用的確有助于提高分類器的準確性。

3.2 代價敏感的方法

雖然抽樣方法試圖通過考慮分配中類別示例的代表性比例來平衡分配,但成本敏感的學習方法會考慮與錯誤分類示例相關的成本。通過使用不同的成本矩陣來描述對任何特定數據示例進行錯誤分類的成本,而不是通過不同的抽樣策略來創建均衡的數據分布,而成本敏感的學習則針對不平衡的學習問題。最近的研究表明,成本敏感型學習與從不平衡數據中學習有密切聯系。成本敏感方法的理論基礎和算法可以自然地應用于不平衡的學習問題。此外,各種實證研究表明,在某些應用領域,包括某些特定的不平衡學習領域,成本敏感學習優于抽樣方法。因此,成本敏感技術為不平衡學習領域的抽樣方法提供了可行的替代方案。

3.3 基于核方法的主動學習方法

雖然抽樣方法和成本敏感的學習方法似乎主導了當前在不平衡學習方面的研究工作,但社區也采取了許多其他方法。由于基于內核的學習方法為當今的許多數據工程應用提供了最先進的技術,因此使用基于內核的方法來理解不平衡學習最近自然引起了越來越多的關注。

4 結束語

在本文中,我們討論了知識發現和數據工程領域中一個具有挑戰性和關鍵性的問題,即不平衡學習問題。我們討論了不平衡學習問題的基本性質,解決這個問題的最先進的解決方案,以及用于評估這個問題的幾種主要評估技術,為知識發現和數據工程研究人員和從業人員提供參考。

猜你喜歡
成本方法研究
FMS與YBT相關性的實證研究
遼代千人邑研究述論
2021年最新酒駕成本清單
河南電力(2021年5期)2021-05-29 02:10:00
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
溫子仁,你還是適合拍小成本
電影(2018年12期)2018-12-23 02:18:48
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
獨聯體各國的勞動力成本
主站蜘蛛池模板: 日韩黄色大片免费看| 免费三A级毛片视频| 国产一区二区三区在线无码| 97成人在线视频| 亚洲第一成年网| 日本草草视频在线观看| 蜜桃视频一区二区| 大陆精大陆国产国语精品1024| 欧美成在线视频| 97国产在线播放| 91黄视频在线观看| 中日韩一区二区三区中文免费视频| 91美女在线| 日韩经典精品无码一区二区| 色窝窝免费一区二区三区 | 18禁影院亚洲专区| 免费看美女毛片| 婷婷色中文网| 欧美一级一级做性视频| 香蕉久人久人青草青草| 狠狠五月天中文字幕| 亚洲综合天堂网| 久久精品中文字幕少妇| 一本一道波多野结衣一区二区| 这里只有精品在线| aaa国产一级毛片| 99久久国产自偷自偷免费一区| 国产亚洲欧美日韩在线一区| 国产丰满成熟女性性满足视频| 18禁黄无遮挡免费动漫网站| 91久久精品国产| 国产一区二区视频在线| 亚洲国产亚洲综合在线尤物| 成人午夜久久| 欧美成人免费午夜全| 人妻精品全国免费视频| 天天综合色网| 国产玖玖视频| 亚洲成A人V欧美综合| 欧美日韩中文国产va另类| 亚洲第一成年网| 亚洲免费播放| 国产在线视频福利资源站| 日本久久免费| 激情综合婷婷丁香五月尤物| 久久久久亚洲AV成人网站软件| 精品三级在线| AV在线麻免费观看网站| 亚洲永久精品ww47国产| 国产偷倩视频| 亚洲精品午夜天堂网页| 精品国产黑色丝袜高跟鞋| 国产一区亚洲一区| 99这里精品| 日本色综合网| 亚洲国产欧美中日韩成人综合视频| 国产精品爆乳99久久| 中国丰满人妻无码束缚啪啪| 91精品国产综合久久不国产大片| 国产亚洲精久久久久久无码AV| 天堂成人在线视频| 精品国产99久久| 狠狠亚洲五月天| 国产va免费精品观看| 亚洲AV电影不卡在线观看| 日韩精品一区二区三区大桥未久| 国产精品成人啪精品视频| 99视频在线免费观看| 免费一级毛片| 亚洲欧洲日韩综合色天使| 欧美国产综合视频| 亚洲男女天堂| 试看120秒男女啪啪免费| 国产区免费| 手机在线国产精品| 国产不卡一级毛片视频| 97视频在线精品国自产拍| 欧美一区二区福利视频| AV熟女乱| 日本久久网站| 青青草原国产免费av观看| 台湾AV国片精品女同性|