白新宇
(貴州師范大學(xué),貴陽550000)
隨著大數(shù)據(jù)時代的來臨,生活中無時無刻都在產(chǎn)生著數(shù)據(jù),同時也產(chǎn)生了很多不平衡的數(shù)據(jù):如癌癥數(shù)據(jù)、網(wǎng)絡(luò)詐騙數(shù)據(jù)等。數(shù)據(jù)集中各類別數(shù)量分布不均衡,將導(dǎo)致個別類占支配地位,我們將這種現(xiàn)象稱為數(shù)據(jù)不平衡。不平衡數(shù)據(jù)集的分類問題在我們的現(xiàn)實(shí)生活種隨處可見。例如:如癌癥的檢測,通常人們患癌癥的概率是很低的,因此正常人與癌癥患者的比例嚴(yán)重不平衡。而現(xiàn)實(shí)生活中,大家往往更關(guān)心的是數(shù)據(jù)集中的少數(shù)類,對少數(shù)類的誤分可能造成的損失是十分嚴(yán)重的,如:將癌癥患者判別為正常,將會耽誤患者的最佳治療時機(jī)。但在不平衡的數(shù)據(jù)集上進(jìn)行分類,往往使得多數(shù)類分類精度較高,而對于少數(shù)的分類效果卻很差。對于某些特定的領(lǐng)域而言,通常只關(guān)注樣本中少數(shù)類的分類結(jié)果。因此,研究樣本數(shù)量不平衡的分類方法具有十分重要的意義。
樣本分布不平衡在數(shù)據(jù)科學(xué)中十分常見,主要表現(xiàn)為不同類別間的規(guī)模差異較大[1]。Weiss GM 通過實(shí)驗(yàn)明確提出,相對平衡的樣本分布可以取得更好的分類效果[2]。而傳統(tǒng)的分類算法在處理不平衡樣本分類問題中,效果表現(xiàn)較差,其主要原因?yàn)樵诜诸惸P偷挠?xùn)練過程中,樣本的不平衡分布會導(dǎo)致不同類別的樣本被用于訓(xùn)練的次數(shù)不均等,往往會使分類結(jié)果傾向于多數(shù)類[3]。針對樣本分布不平衡的分類問題的解決方法可概括為三類[4]:①數(shù)據(jù)層面的方法;②算法層面的方法;③數(shù)據(jù)和算法相結(jié)合的方法。
數(shù)據(jù)層面解決數(shù)據(jù)不平衡問題包括數(shù)據(jù)過采樣和降采樣。過采樣技術(shù)是增加少數(shù)類樣本的方法,SMOTE(Synthetic Minority Oversampling Technique)[5]和Borderline-SMOTE[6]是常用的兩種過采樣方法,這兩種方法的特點(diǎn)是通過給予真實(shí)樣本的鄰居節(jié)點(diǎn)一個隨機(jī)權(quán)重,再結(jié)合真實(shí)樣本來生成新的樣本。但由于需要預(yù)先確定鄰居節(jié)點(diǎn)的數(shù)量k,因此k 值的選擇對結(jié)果影響相對較大。和過采樣相反,降采樣是一種減少多數(shù)類來達(dá)到樣本平衡的方法[7],由于該過程容易丟失重要信息因此實(shí)際應(yīng)用中使用較少。
改變類分布并非是解決類不平衡問題的唯一途徑,從算法層面解決數(shù)據(jù)不平衡問題也行之有效[8]。Boosting[9]是一種集成分類器,可以在每次訓(xùn)練后調(diào)整各類的權(quán)重,達(dá)到更好的學(xué)習(xí)效果。而后出現(xiàn)了一系列關(guān)于Boosting 方法的改進(jìn),如:AdaBoost[10]、SMOTEBoost[11]等都在一定程度提高了分類的精準(zhǔn)程度。
綜合以上兩類方法的特點(diǎn),本文提出了一種對數(shù)據(jù)進(jìn)行多次劃分,然后逐步分類的學(xué)習(xí)方法,為了方便描述記為“分支學(xué)習(xí)樹(Branch Learning Tree,BLT)”。
癌癥基因圖譜(The Cancer Genome Atlas,TCGA)計(jì)劃是美國國家癌癥研究所和美國人類基因組研究所共同監(jiān)督的一個項(xiàng)目,同時TCGA 也是目前最大的癌癥基因信息數(shù)據(jù)庫之一[12]。本實(shí)驗(yàn)使用數(shù)據(jù)集源于TCGA 平臺,由Vesteinn Thorsson 針對TCGA 平臺33 種癌癥樣本進(jìn)行研究,結(jié)合6 種分子平臺數(shù)據(jù)來計(jì)算160 種免疫特征間的相關(guān)系數(shù)[13],通過聚類分析最終得到5 個免疫表達(dá)特征,再根據(jù)這五種免疫表達(dá)特征將所有非血液腫瘤聚類為6 種免疫亞型[14](傷口愈合型、IFN-γ主導(dǎo)型、炎癥型,淋巴細(xì)胞殆盡型、免疫靜默型和TGF-β主導(dǎo)型)。為了方便描述將六種免疫類型記為:C1、C2、C3、C4、C5、C6,六種免疫類型的數(shù)量分布如表1 所示。

表1 六種免疫類型數(shù)量統(tǒng)計(jì)
分類模型在不平衡數(shù)據(jù)集上進(jìn)行分類任務(wù)時,分類效果較差,其根本原因是,在少數(shù)類樣本上獲得的學(xué)習(xí)機(jī)會更少。Boost 算法可以重點(diǎn)關(guān)注分類錯誤的樣本,以保證被錯分的樣本可以獲得更多的學(xué)習(xí)機(jī)會。
假設(shè)可以在每次分類前將不平衡的數(shù)據(jù)劃分為兩個規(guī)模相近的子集,再進(jìn)行多次二分類,便可以減少類別間規(guī)模差異較大造成的誤分問題。基于此想法,本文設(shè)計(jì)了一種基于“多次劃分”、“逐步分類”的分支學(xué)習(xí)樹結(jié)構(gòu)。首先依據(jù)數(shù)據(jù)集中各個樣本的分布構(gòu)造BLT,再對BLT 中的分類器進(jìn)行訓(xùn)練,最終實(shí)現(xiàn)對所有類的準(zhǔn)確分類。
BLT 的構(gòu)建思想源于數(shù)據(jù)結(jié)構(gòu)中哈夫曼樹,主要構(gòu)建過程如下:
(1)將每一個類別視為一棵樹,將該類別的數(shù)量看作其權(quán)重。
(2)選擇根節(jié)點(diǎn)權(quán)重最小的兩棵樹構(gòu)造成一顆新的樹,新樹的權(quán)值為兩個子樹權(quán)值之和。
(3)將新生成的樹代替被選中的兩棵樹。
重復(fù)步驟(2)、(3)直到只有一棵樹為止,如此便構(gòu)造出了BLT,與哈夫曼樹不同的是BLT 中的每個分支節(jié)點(diǎn)是一個二分類的分類器。

圖1 腫瘤免疫亞型數(shù)據(jù)構(gòu)建的分支學(xué)習(xí)樹
如圖1 所示為由腫瘤的免疫亞型數(shù)據(jù)所構(gòu)造的BLT,C1、C2、C3、C4、C5、C6 為待分類樣本的類別,A、B、C、D、E 為二分類分類器。將數(shù)據(jù)集DATA 作為BLT的輸入,由BLT 對該數(shù)據(jù)集進(jìn)行自頂向下逐步分類。結(jié)合表1 觀察可知,這樣的結(jié)構(gòu)可以優(yōu)先將多數(shù)類進(jìn)行分類,再逐步對少數(shù)類進(jìn)行分類。因此,在模型的訓(xùn)練過程中,可以保證待分類的兩類數(shù)據(jù)規(guī)模相近,同時可以避免某一類別占主導(dǎo)地位情況的出現(xiàn)。對于圖1中的分類器,本文分別使用了KNN、SVM、決策樹和隨機(jī)森林等四種傳統(tǒng)分類器,詳見表2。
Micro 是一項(xiàng)宏觀的評價(jià)指標(biāo),通過統(tǒng)計(jì)總體數(shù)據(jù)來計(jì)算,將所有的類的True Positive(TP)除以所有類別的TP 與False Positive(FP)的加和。因此micro 方法下的precision 和recall 都等于accuracy。

Macro 是一項(xiàng)微觀的評價(jià)指標(biāo),通過統(tǒng)計(jì)各個類別數(shù)據(jù)來計(jì)算,分別求出每一個類別的precision 再求其算數(shù)平均(公式2 中ClassNum為總類別數(shù))。

Weighted 是一項(xiàng)綜合的評價(jià)指標(biāo),macro 算法是對各類的precision 和取算術(shù)平均,weighted 算法是對macro 算法的一種改進(jìn),weighted 算法以每個類別的占比為權(quán)重,重新計(jì)算得到加權(quán)precision。

其中,TP 表示正樣本被正確的預(yù)測為正;FN 表示正樣本被錯誤的預(yù)測為負(fù);FP 表示負(fù)樣本被錯誤的預(yù)測為正;TN 表示負(fù)樣本被正確的預(yù)測為負(fù)。
本實(shí)驗(yàn)所使用的數(shù)據(jù)集公開于GitHub①https://github.com/bxy123456/Sample-imbalance-Tumor-immune-subtype-data,數(shù)據(jù)集按照訓(xùn)練集:測試集為4:1 的比例進(jìn)行劃分,如下每一個指標(biāo)的取值均是五次重復(fù)試驗(yàn)得到的平均結(jié)果。
表2 整體分為兩個部分,其一為由四個傳統(tǒng)分類(KNN、SVM、決策樹、隨機(jī)森林)模型的分類結(jié)果,其二為由常規(guī)分類器作為基本分類單元構(gòu)成的BLT 的分類結(jié)果。對比傳統(tǒng)分類器和BLT 的分類結(jié)果,BLT 的分類準(zhǔn)確率高于常規(guī)分類器約1.5%左右,圖2 展示了BLT 對分類性能提升的百分比,觀察可知,BLT 方法在樣本量較少類別性能提升可達(dá)11%-79%。分析其主要原因有以下兩點(diǎn):①BLT 可以減少學(xué)習(xí)過程中各類別樣本數(shù)量不平衡帶來的影響。②BIT 在自上向下分類的過程中,待分類的樣本類別數(shù)是逐漸減少,因此受到其他類別數(shù)據(jù)的干擾更少。

表2 傳統(tǒng)分類器與BLT 分類結(jié)果對比
面向樣本數(shù)量不平衡的分類問題,本文提出了一種改進(jìn)傳統(tǒng)分類器的方法,并在腫瘤免疫亞型分類的數(shù)據(jù)進(jìn)行驗(yàn)證,均使得傳統(tǒng)分類器的分類性能有所提高。由于該方法在少數(shù)類的分類中取得提升尤為明顯,因此可應(yīng)用一些特殊的應(yīng)用領(lǐng)域,來解決部分技術(shù)難題。盡管本實(shí)驗(yàn)取得了不錯的效果,但仍有需要探究的方向,主要總結(jié)為一下兩點(diǎn):①本文中用于構(gòu)建BLT 的分類器為同一種分類器,未探究不同分類組合的分類效果。②BLT 樹雖然可以減少了樣本不平帶來的影響,但是不能完全消除,未來的工作可以考慮結(jié)合過采樣技術(shù)來獲得更好的效果。

圖2 多種BLT分類結(jié)果對比