999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BLT 方法的樣本不平衡分類研究

2021-03-25 04:06:00白新宇
現(xiàn)代計(jì)算機(jī) 2021年4期
關(guān)鍵詞:分類方法

白新宇

(貴州師范大學(xué),貴陽550000)

0 引言

隨著大數(shù)據(jù)時代的來臨,生活中無時無刻都在產(chǎn)生著數(shù)據(jù),同時也產(chǎn)生了很多不平衡的數(shù)據(jù):如癌癥數(shù)據(jù)、網(wǎng)絡(luò)詐騙數(shù)據(jù)等。數(shù)據(jù)集中各類別數(shù)量分布不均衡,將導(dǎo)致個別類占支配地位,我們將這種現(xiàn)象稱為數(shù)據(jù)不平衡。不平衡數(shù)據(jù)集的分類問題在我們的現(xiàn)實(shí)生活種隨處可見。例如:如癌癥的檢測,通常人們患癌癥的概率是很低的,因此正常人與癌癥患者的比例嚴(yán)重不平衡。而現(xiàn)實(shí)生活中,大家往往更關(guān)心的是數(shù)據(jù)集中的少數(shù)類,對少數(shù)類的誤分可能造成的損失是十分嚴(yán)重的,如:將癌癥患者判別為正常,將會耽誤患者的最佳治療時機(jī)。但在不平衡的數(shù)據(jù)集上進(jìn)行分類,往往使得多數(shù)類分類精度較高,而對于少數(shù)的分類效果卻很差。對于某些特定的領(lǐng)域而言,通常只關(guān)注樣本中少數(shù)類的分類結(jié)果。因此,研究樣本數(shù)量不平衡的分類方法具有十分重要的意義。

1 相關(guān)工作

樣本分布不平衡在數(shù)據(jù)科學(xué)中十分常見,主要表現(xiàn)為不同類別間的規(guī)模差異較大[1]。Weiss GM 通過實(shí)驗(yàn)明確提出,相對平衡的樣本分布可以取得更好的分類效果[2]。而傳統(tǒng)的分類算法在處理不平衡樣本分類問題中,效果表現(xiàn)較差,其主要原因?yàn)樵诜诸惸P偷挠?xùn)練過程中,樣本的不平衡分布會導(dǎo)致不同類別的樣本被用于訓(xùn)練的次數(shù)不均等,往往會使分類結(jié)果傾向于多數(shù)類[3]。針對樣本分布不平衡的分類問題的解決方法可概括為三類[4]:①數(shù)據(jù)層面的方法;②算法層面的方法;③數(shù)據(jù)和算法相結(jié)合的方法。

數(shù)據(jù)層面解決數(shù)據(jù)不平衡問題包括數(shù)據(jù)過采樣和降采樣。過采樣技術(shù)是增加少數(shù)類樣本的方法,SMOTE(Synthetic Minority Oversampling Technique)[5]和Borderline-SMOTE[6]是常用的兩種過采樣方法,這兩種方法的特點(diǎn)是通過給予真實(shí)樣本的鄰居節(jié)點(diǎn)一個隨機(jī)權(quán)重,再結(jié)合真實(shí)樣本來生成新的樣本。但由于需要預(yù)先確定鄰居節(jié)點(diǎn)的數(shù)量k,因此k 值的選擇對結(jié)果影響相對較大。和過采樣相反,降采樣是一種減少多數(shù)類來達(dá)到樣本平衡的方法[7],由于該過程容易丟失重要信息因此實(shí)際應(yīng)用中使用較少。

改變類分布并非是解決類不平衡問題的唯一途徑,從算法層面解決數(shù)據(jù)不平衡問題也行之有效[8]。Boosting[9]是一種集成分類器,可以在每次訓(xùn)練后調(diào)整各類的權(quán)重,達(dá)到更好的學(xué)習(xí)效果。而后出現(xiàn)了一系列關(guān)于Boosting 方法的改進(jìn),如:AdaBoost[10]、SMOTEBoost[11]等都在一定程度提高了分類的精準(zhǔn)程度。

綜合以上兩類方法的特點(diǎn),本文提出了一種對數(shù)據(jù)進(jìn)行多次劃分,然后逐步分類的學(xué)習(xí)方法,為了方便描述記為“分支學(xué)習(xí)樹(Branch Learning Tree,BLT)”。

2 研究方法

2.1 數(shù)據(jù)來源

癌癥基因圖譜(The Cancer Genome Atlas,TCGA)計(jì)劃是美國國家癌癥研究所和美國人類基因組研究所共同監(jiān)督的一個項(xiàng)目,同時TCGA 也是目前最大的癌癥基因信息數(shù)據(jù)庫之一[12]。本實(shí)驗(yàn)使用數(shù)據(jù)集源于TCGA 平臺,由Vesteinn Thorsson 針對TCGA 平臺33 種癌癥樣本進(jìn)行研究,結(jié)合6 種分子平臺數(shù)據(jù)來計(jì)算160 種免疫特征間的相關(guān)系數(shù)[13],通過聚類分析最終得到5 個免疫表達(dá)特征,再根據(jù)這五種免疫表達(dá)特征將所有非血液腫瘤聚類為6 種免疫亞型[14](傷口愈合型、IFN-γ主導(dǎo)型、炎癥型,淋巴細(xì)胞殆盡型、免疫靜默型和TGF-β主導(dǎo)型)。為了方便描述將六種免疫類型記為:C1、C2、C3、C4、C5、C6,六種免疫類型的數(shù)量分布如表1 所示。

表1 六種免疫類型數(shù)量統(tǒng)計(jì)

2.2 BLT

分類模型在不平衡數(shù)據(jù)集上進(jìn)行分類任務(wù)時,分類效果較差,其根本原因是,在少數(shù)類樣本上獲得的學(xué)習(xí)機(jī)會更少。Boost 算法可以重點(diǎn)關(guān)注分類錯誤的樣本,以保證被錯分的樣本可以獲得更多的學(xué)習(xí)機(jī)會。

假設(shè)可以在每次分類前將不平衡的數(shù)據(jù)劃分為兩個規(guī)模相近的子集,再進(jìn)行多次二分類,便可以減少類別間規(guī)模差異較大造成的誤分問題。基于此想法,本文設(shè)計(jì)了一種基于“多次劃分”、“逐步分類”的分支學(xué)習(xí)樹結(jié)構(gòu)。首先依據(jù)數(shù)據(jù)集中各個樣本的分布構(gòu)造BLT,再對BLT 中的分類器進(jìn)行訓(xùn)練,最終實(shí)現(xiàn)對所有類的準(zhǔn)確分類。

BLT 的構(gòu)建思想源于數(shù)據(jù)結(jié)構(gòu)中哈夫曼樹,主要構(gòu)建過程如下:

(1)將每一個類別視為一棵樹,將該類別的數(shù)量看作其權(quán)重。

(2)選擇根節(jié)點(diǎn)權(quán)重最小的兩棵樹構(gòu)造成一顆新的樹,新樹的權(quán)值為兩個子樹權(quán)值之和。

(3)將新生成的樹代替被選中的兩棵樹。

重復(fù)步驟(2)、(3)直到只有一棵樹為止,如此便構(gòu)造出了BLT,與哈夫曼樹不同的是BLT 中的每個分支節(jié)點(diǎn)是一個二分類的分類器。

圖1 腫瘤免疫亞型數(shù)據(jù)構(gòu)建的分支學(xué)習(xí)樹

如圖1 所示為由腫瘤的免疫亞型數(shù)據(jù)所構(gòu)造的BLT,C1、C2、C3、C4、C5、C6 為待分類樣本的類別,A、B、C、D、E 為二分類分類器。將數(shù)據(jù)集DATA 作為BLT的輸入,由BLT 對該數(shù)據(jù)集進(jìn)行自頂向下逐步分類。結(jié)合表1 觀察可知,這樣的結(jié)構(gòu)可以優(yōu)先將多數(shù)類進(jìn)行分類,再逐步對少數(shù)類進(jìn)行分類。因此,在模型的訓(xùn)練過程中,可以保證待分類的兩類數(shù)據(jù)規(guī)模相近,同時可以避免某一類別占主導(dǎo)地位情況的出現(xiàn)。對于圖1中的分類器,本文分別使用了KNN、SVM、決策樹和隨機(jī)森林等四種傳統(tǒng)分類器,詳見表2。

3 分析討論

3.1 評價(jià)指標(biāo)

Micro 是一項(xiàng)宏觀的評價(jià)指標(biāo),通過統(tǒng)計(jì)總體數(shù)據(jù)來計(jì)算,將所有的類的True Positive(TP)除以所有類別的TP 與False Positive(FP)的加和。因此micro 方法下的precision 和recall 都等于accuracy。

Macro 是一項(xiàng)微觀的評價(jià)指標(biāo),通過統(tǒng)計(jì)各個類別數(shù)據(jù)來計(jì)算,分別求出每一個類別的precision 再求其算數(shù)平均(公式2 中ClassNum為總類別數(shù))。

Weighted 是一項(xiàng)綜合的評價(jià)指標(biāo),macro 算法是對各類的precision 和取算術(shù)平均,weighted 算法是對macro 算法的一種改進(jìn),weighted 算法以每個類別的占比為權(quán)重,重新計(jì)算得到加權(quán)precision。

其中,TP 表示正樣本被正確的預(yù)測為正;FN 表示正樣本被錯誤的預(yù)測為負(fù);FP 表示負(fù)樣本被錯誤的預(yù)測為正;TN 表示負(fù)樣本被正確的預(yù)測為負(fù)。

3.2 實(shí)驗(yàn)結(jié)果分析

本實(shí)驗(yàn)所使用的數(shù)據(jù)集公開于GitHub①https://github.com/bxy123456/Sample-imbalance-Tumor-immune-subtype-data,數(shù)據(jù)集按照訓(xùn)練集:測試集為4:1 的比例進(jìn)行劃分,如下每一個指標(biāo)的取值均是五次重復(fù)試驗(yàn)得到的平均結(jié)果。

表2 整體分為兩個部分,其一為由四個傳統(tǒng)分類(KNN、SVM、決策樹、隨機(jī)森林)模型的分類結(jié)果,其二為由常規(guī)分類器作為基本分類單元構(gòu)成的BLT 的分類結(jié)果。對比傳統(tǒng)分類器和BLT 的分類結(jié)果,BLT 的分類準(zhǔn)確率高于常規(guī)分類器約1.5%左右,圖2 展示了BLT 對分類性能提升的百分比,觀察可知,BLT 方法在樣本量較少類別性能提升可達(dá)11%-79%。分析其主要原因有以下兩點(diǎn):①BLT 可以減少學(xué)習(xí)過程中各類別樣本數(shù)量不平衡帶來的影響。②BIT 在自上向下分類的過程中,待分類的樣本類別數(shù)是逐漸減少,因此受到其他類別數(shù)據(jù)的干擾更少。

表2 傳統(tǒng)分類器與BLT 分類結(jié)果對比

4 結(jié)語

面向樣本數(shù)量不平衡的分類問題,本文提出了一種改進(jìn)傳統(tǒng)分類器的方法,并在腫瘤免疫亞型分類的數(shù)據(jù)進(jìn)行驗(yàn)證,均使得傳統(tǒng)分類器的分類性能有所提高。由于該方法在少數(shù)類的分類中取得提升尤為明顯,因此可應(yīng)用一些特殊的應(yīng)用領(lǐng)域,來解決部分技術(shù)難題。盡管本實(shí)驗(yàn)取得了不錯的效果,但仍有需要探究的方向,主要總結(jié)為一下兩點(diǎn):①本文中用于構(gòu)建BLT 的分類器為同一種分類器,未探究不同分類組合的分類效果。②BLT 樹雖然可以減少了樣本不平帶來的影響,但是不能完全消除,未來的工作可以考慮結(jié)合過采樣技術(shù)來獲得更好的效果。

圖2 多種BLT分類結(jié)果對比

猜你喜歡
分類方法
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
學(xué)習(xí)方法
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
給塑料分分類吧
主站蜘蛛池模板: 国产精品内射视频| 伊人久久婷婷五月综合97色| 国产精品免费p区| 亚洲av无码片一区二区三区| 亚洲欧美一区在线| 欧美a在线| 精品一区二区三区视频免费观看| 亚洲国产亚洲综合在线尤物| 亚洲综合色婷婷| 国产91丝袜在线播放动漫| 人与鲁专区| 天堂亚洲网| 国产在线视频二区| 精品91自产拍在线| 麻豆精品视频在线原创| 999精品视频在线| 一级看片免费视频| 国产美女精品在线| 国产人碰人摸人爱免费视频| 2020最新国产精品视频| 九色91在线视频| 免费观看国产小粉嫩喷水 | 日韩欧美高清视频| 日韩第九页| 亚洲男人的天堂在线观看| 老色鬼久久亚洲AV综合| 强奷白丝美女在线观看| 中文无码毛片又爽又刺激| 视频一区亚洲| 国产91视频观看| 欧美另类视频一区二区三区| 天天躁日日躁狠狠躁中文字幕| 妇女自拍偷自拍亚洲精品| 无码中文字幕乱码免费2| 欧美性精品| 国产美女免费| 福利片91| 四虎影视国产精品| 国产成人精品一区二区不卡 | 国产av剧情无码精品色午夜| 中文字幕亚洲精品2页| 狠狠色丁婷婷综合久久| 精品一区二区三区四区五区| 午夜激情福利视频| 黄色网站在线观看无码| 亚洲成A人V欧美综合| 日本黄色不卡视频| 久久婷婷人人澡人人爱91| 亚洲精品麻豆| 亚洲av无码成人专区| 91久久青青草原精品国产| 五月六月伊人狠狠丁香网| 国产屁屁影院| 国产95在线 | 2020最新国产精品视频| 老司机久久99久久精品播放| 精品久久蜜桃| 亚洲一区免费看| 丝袜高跟美脚国产1区| 91美女视频在线观看| 毛片久久久| 自拍亚洲欧美精品| 极品私人尤物在线精品首页| 国产青榴视频在线观看网站| 欧美日本在线一区二区三区| 老熟妇喷水一区二区三区| 国产成人综合亚洲欧美在| 午夜视频免费试看| 在线看片国产| 欧美日韩高清| 国产午夜无码片在线观看网站| 成人年鲁鲁在线观看视频| 成人精品免费视频| 国产99视频免费精品是看6| 中文字幕 91| 色香蕉网站| 国产精品亚欧美一区二区 | 亚洲伊人久久精品影院| 91久久精品国产| 热99精品视频| 亚洲午夜福利在线| 亚洲综合色区在线播放2019|