邊 婧,孔令珠,張 海
(1.山西職工醫學院,山西 太原 030012;2.中國農業銀行山西省分行,山西 太原 030024)
·教學與管理·
代價敏感分類在腫瘤基因數據集的應用
邊 婧1,孔令珠1,張 海2
(1.山西職工醫學院,山西 太原 030012;2.中國農業銀行山西省分行,山西 太原 030024)
本文對代價敏感分類算法及傳統分類算法進行了比較研究,并應用于小兒白血病腫瘤數據集。針對現實生活中腫瘤基因表達數據高維、不平衡等特點,引入誤分類代價因子,改進代價敏感分類算法MetaCost。通過實驗手段分析代價敏感算法的行為及較之傳統分類算法的優勢所在,提高了腫瘤基因數據中腫瘤類別數據的識別率及精確度。
代價敏感分類;腫瘤基因表達數據;誤分類代價
科技進步給科技工作者帶來問題與挑戰的同時,也帶來了希望和曙光。隨著基因微陣列技術的發展,為腫瘤專家帶來了更為客觀的腫瘤數據分析方法及診斷依據,亦為廣大腫瘤患者帶來了福音。然而,腫瘤基因表達數據往往具有高維、高噪聲、小樣本及分布不平衡等等特點,影響了腫瘤分類的準確性并增加了算法復雜性[1]。因此,機器學習和數據挖掘各類方法仍在探索如何改善算法性能,提高算法效率。
通常情況下,訓練數據集并不是完全平衡的,亦即兩種類別數目不完全相等,總是一種多于另一種。傳統分類器關注的是數據集中平均分類精確度,由于多數類數目多包含充分的信息,所以分類器精確度偏向于多數類。而現實生活中往往并非如此,關注的某種類很可能是少數類。同時,分類時訓練數據集中信息的冗余、缺失、錯誤則往往導致誤分類,如誤診,癌癥患者被誤診為其他疾病或沒病的情況和其他疾病或沒病被誤診為癌癥患者的情況,患者所承受的痛苦和代價卻截然不同,這也是所有醫療工作者最不愿意看到的情況。而傳統分類器對所有類別等同對待,甚至基于訓練集數據分布偏重于多數類,實際變向減少了少數類的分類精確度。
針對上述情況,本文引入誤分類代價因子,改進代價敏感分類算法MetaCost并將其應用于腫瘤基因數據集的分類問題上。充分發揮代價敏感學習優勢,增加少數類權重,重點提升少數類分類性能,針對不平衡的白血病數據集與傳統分類算法進行對比進而并驗證其有效性。
2.1 數據集
實驗數據集采用小兒急性淋巴細胞白血病亞型分類數據集,該數據集公共獲取鏈接為可以在http://www.stjuderesearch.org/data/ALL1/[2]。數據被分為6個診斷組,每個組中類標為“OTHERS”的為健康樣本。其包含12 558個特征,每組樣本隨機分為訓練和測試數據集,見表1。很明顯疾病樣本占樣本總數20%以內,數據集屬于典型的高維不平衡數據集。

表1 數據集Table 1 Dataset
2.2 代價敏感分類算法
研究表明,代價敏感學習方法能夠有效解決數據不平衡所帶來的一系列問題。代價敏感學習分為兩類:一類是直接代價敏感學習,一類是代價敏感元學習[3]。兩者均要使用代價矩陣(又叫混淆矩陣),即表示樣本誤分類所需付出代價的數值形式[3]。假設數據集有t個類別,則有C(i,j)表示將一個類標為i的樣本誤分類為類標為j的樣本代價,通常有C(i,i)=0,以二分類為例,則有FN>FP,見表2。代價敏感學習的目標是最小化所有誤分類代價,即最小化誤分類代價總和TCost(i,j):

TCost(i,j)=argmin{} (1) 表2 混淆矩陣Table 2 Confusion Matrix
本文所選用的代價敏感分類算法MetaCost是一種基于貝葉斯最優預測理論的分類算法[4]。在訓練集中多次取樣,再根據由此生成的多個模型得到每個樣本x屬于類別i的概率P(i|x),使得訓練集中每個類別期望代價R(i|x)最小,即:

樣本x屬于類別i的的誤分類代價期望為:

2.3 與傳統分類方法的對比實驗
傳統分類方法中有許多實用性比較強、應用廣泛的分類方法,如:決策樹、k-最近鄰、貝葉斯、神經網絡等等。本文選擇C4.5,KNN,NaiveBayes,AdaBoost,MetaCost算法進行實驗對比研究,并以具有代表性的決策樹算法C4.5算法為基礎算法。代價因子取FN/FP=2,本文使用分類精確度和誤分類樣本個數為評估指標。見表3。

表3 分類精確度及誤分類樣本個數(FP/FN)Table 3 Classification Accuracy and the Misclassification Sample Number(FP/FN)
由表可知,盡管存在少量異常值,從表中大體可以看到代價敏感分類算法有助于分類模型從已知類別數據中檢測出異常類別數據,大多數分類算法在腫瘤基因數據的分類效果上都比較高。由表中每個數據集下第一列和第二列數據可以看到,雖然根據使用數據集不同,最終分類精確度及誤分類樣本個數均有所不同,但仍然可以很明顯的看到代價敏感算法整體分類性能優于傳統分類算法,尤其將少數類即腫瘤類數據錯分為正常數據明顯少于同等情況下的傳統算法。另外,從最后兩行可以看到,最后一行每種數據集的分類精確度均高于倒數第二行;同時,總誤分類樣本個數尤其腫瘤類別數據錯誤分類樣本個數小于倒數第二行。改進后使用裝袋提升方法的算法MetaCostB分類效果略優于原始MetaCost算法。這對于關注點是小樣本數據類別的情況下,顯得尤為重要。
代價敏感學習是機器學習和模式識別的一個重要研究課題。代價敏感分類算法較之傳統分類方法,在分類時盡量不產生高代價錯誤且使總代價最低。本文選取4種傳統分類算法與代價敏感分類算法相比較,應用于不平衡腫瘤基因數據集中。結果證明,本文提出的代價敏感分類策略能夠有效提高腫瘤數據分類精確度并有針對性地降低少數類誤分類的可能性,從而對臨床腫瘤診斷提供一種可供參考的方法。
[1] V. Bolón-Canedo, N. Sánchez-Maro, A. Alonso-Betanzos. J.M. Benítez.A Review of Microarray Datasets and Applied Feature Selection[J]. Information Sciences, 2014(282):111-135.
[2] Eng-Juh Yeoh.Classification, Subtype Discovery, and Prediction of Outcome in Pediatric Acute Lymphoblastic Leukemia by Gene Expression Profiling[J].Cancer Cell, 2002(1):133-143.
[3] 邊 婧, 彭新光, 閆建紅. 入侵檢測大數據集代價敏感重平衡分類策略[J].小型微型計算機系統,2012, 33(11): 2026-2030.
[4] 閆明松,周志華.代價敏感分類算法的實驗比較[J].模式識別與人工智能,2005, 18(5): 628-635.
本文編輯:王立鈞
Application of Cost-Sensitive Classification Algorithm for Tumor Gene Expression Data
BIAN Jing1,KONG Lingzhu1, ZHANG Hai2
(1.ShanxiMedicalCollegeofContinuingEducation,Taiyuan030012,Shanxi,China;2.ShanxiBranchofAgriculturalBankofChina,Taiyuan030024,Shanxi,China)
This paper has conducted a comparative study of the original and cost-sensitive classification algorithms on the children's leukemia datasets,which is usually with high dimension feature space and imbalanced problem. Aiming at the intrinsic characteristic of gene, cost factors has been introduced to improve the cost-sensitive classification algorithm,MetaCost. Experimental results have shown that the cost-sensitive classification algorithm have their own advantages compared with original ones.The recognition rate and accuracy of the tumor class form tumor gene datasets have been raised.
cost-sensitive classification;tumor gene expression data;misclassification cost
山西省衛生和計劃生育委員會科研項目(201301006 );山西省研究生優秀創新項目(20123030)
邊 婧,女,講師,從事數據挖掘、網絡安全、大數據研究
G47
A
1671-0126(2016)03-0076-03