999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

代價敏感分類在腫瘤基因數據集的應用

2016-03-24 11:41:22孔令珠
山西衛生健康職業學院學報 2016年3期
關鍵詞:精確度分類

邊 婧,孔令珠,張 海

(1.山西職工醫學院,山西 太原 030012;2.中國農業銀行山西省分行,山西 太原 030024)

·教學與管理·

代價敏感分類在腫瘤基因數據集的應用

邊 婧1,孔令珠1,張 海2

(1.山西職工醫學院,山西 太原 030012;2.中國農業銀行山西省分行,山西 太原 030024)

本文對代價敏感分類算法及傳統分類算法進行了比較研究,并應用于小兒白血病腫瘤數據集。針對現實生活中腫瘤基因表達數據高維、不平衡等特點,引入誤分類代價因子,改進代價敏感分類算法MetaCost。通過實驗手段分析代價敏感算法的行為及較之傳統分類算法的優勢所在,提高了腫瘤基因數據中腫瘤類別數據的識別率及精確度。

代價敏感分類;腫瘤基因表達數據;誤分類代價

1 引言

科技進步給科技工作者帶來問題與挑戰的同時,也帶來了希望和曙光。隨著基因微陣列技術的發展,為腫瘤專家帶來了更為客觀的腫瘤數據分析方法及診斷依據,亦為廣大腫瘤患者帶來了福音。然而,腫瘤基因表達數據往往具有高維、高噪聲、小樣本及分布不平衡等等特點,影響了腫瘤分類的準確性并增加了算法復雜性[1]。因此,機器學習和數據挖掘各類方法仍在探索如何改善算法性能,提高算法效率。

通常情況下,訓練數據集并不是完全平衡的,亦即兩種類別數目不完全相等,總是一種多于另一種。傳統分類器關注的是數據集中平均分類精確度,由于多數類數目多包含充分的信息,所以分類器精確度偏向于多數類。而現實生活中往往并非如此,關注的某種類很可能是少數類。同時,分類時訓練數據集中信息的冗余、缺失、錯誤則往往導致誤分類,如誤診,癌癥患者被誤診為其他疾病或沒病的情況和其他疾病或沒病被誤診為癌癥患者的情況,患者所承受的痛苦和代價卻截然不同,這也是所有醫療工作者最不愿意看到的情況。而傳統分類器對所有類別等同對待,甚至基于訓練集數據分布偏重于多數類,實際變向減少了少數類的分類精確度。

針對上述情況,本文引入誤分類代價因子,改進代價敏感分類算法MetaCost并將其應用于腫瘤基因數據集的分類問題上。充分發揮代價敏感學習優勢,增加少數類權重,重點提升少數類分類性能,針對不平衡的白血病數據集與傳統分類算法進行對比進而并驗證其有效性。

2 數據集與方法

2.1 數據集

實驗數據集采用小兒急性淋巴細胞白血病亞型分類數據集,該數據集公共獲取鏈接為可以在http://www.stjuderesearch.org/data/ALL1/[2]。數據被分為6個診斷組,每個組中類標為“OTHERS”的為健康樣本。其包含12 558個特征,每組樣本隨機分為訓練和測試數據集,見表1。很明顯疾病樣本占樣本總數20%以內,數據集屬于典型的高維不平衡數據集。

表1 數據集Table 1 Dataset

2.2 代價敏感分類算法

研究表明,代價敏感學習方法能夠有效解決數據不平衡所帶來的一系列問題。代價敏感學習分為兩類:一類是直接代價敏感學習,一類是代價敏感元學習[3]。兩者均要使用代價矩陣(又叫混淆矩陣),即表示樣本誤分類所需付出代價的數值形式[3]。假設數據集有t個類別,則有C(i,j)表示將一個類標為i的樣本誤分類為類標為j的樣本代價,通常有C(i,i)=0,以二分類為例,則有FN>FP,見表2。代價敏感學習的目標是最小化所有誤分類代價,即最小化誤分類代價總和TCost(i,j):

TCost(i,j)=argmin{} (1) 表2 混淆矩陣Table 2 Confusion Matrix

本文所選用的代價敏感分類算法MetaCost是一種基于貝葉斯最優預測理論的分類算法[4]。在訓練集中多次取樣,再根據由此生成的多個模型得到每個樣本x屬于類別i的概率P(i|x),使得訓練集中每個類別期望代價R(i|x)最小,即:

樣本x屬于類別i的的誤分類代價期望為:

2.3 與傳統分類方法的對比實驗

傳統分類方法中有許多實用性比較強、應用廣泛的分類方法,如:決策樹、k-最近鄰、貝葉斯、神經網絡等等。本文選擇C4.5,KNN,NaiveBayes,AdaBoost,MetaCost算法進行實驗對比研究,并以具有代表性的決策樹算法C4.5算法為基礎算法。代價因子取FN/FP=2,本文使用分類精確度和誤分類樣本個數為評估指標。見表3。

表3 分類精確度及誤分類樣本個數(FP/FN)Table 3 Classification Accuracy and the Misclassification Sample Number(FP/FN)

由表可知,盡管存在少量異常值,從表中大體可以看到代價敏感分類算法有助于分類模型從已知類別數據中檢測出異常類別數據,大多數分類算法在腫瘤基因數據的分類效果上都比較高。由表中每個數據集下第一列和第二列數據可以看到,雖然根據使用數據集不同,最終分類精確度及誤分類樣本個數均有所不同,但仍然可以很明顯的看到代價敏感算法整體分類性能優于傳統分類算法,尤其將少數類即腫瘤類數據錯分為正常數據明顯少于同等情況下的傳統算法。另外,從最后兩行可以看到,最后一行每種數據集的分類精確度均高于倒數第二行;同時,總誤分類樣本個數尤其腫瘤類別數據錯誤分類樣本個數小于倒數第二行。改進后使用裝袋提升方法的算法MetaCostB分類效果略優于原始MetaCost算法。這對于關注點是小樣本數據類別的情況下,顯得尤為重要。

3 討論

代價敏感學習是機器學習和模式識別的一個重要研究課題。代價敏感分類算法較之傳統分類方法,在分類時盡量不產生高代價錯誤且使總代價最低。本文選取4種傳統分類算法與代價敏感分類算法相比較,應用于不平衡腫瘤基因數據集中。結果證明,本文提出的代價敏感分類策略能夠有效提高腫瘤數據分類精確度并有針對性地降低少數類誤分類的可能性,從而對臨床腫瘤診斷提供一種可供參考的方法。

[1] V. Bolón-Canedo, N. Sánchez-Maro, A. Alonso-Betanzos. J.M. Benítez.A Review of Microarray Datasets and Applied Feature Selection[J]. Information Sciences, 2014(282):111-135.

[2] Eng-Juh Yeoh.Classification, Subtype Discovery, and Prediction of Outcome in Pediatric Acute Lymphoblastic Leukemia by Gene Expression Profiling[J].Cancer Cell, 2002(1):133-143.

[3] 邊 婧, 彭新光, 閆建紅. 入侵檢測大數據集代價敏感重平衡分類策略[J].小型微型計算機系統,2012, 33(11): 2026-2030.

[4] 閆明松,周志華.代價敏感分類算法的實驗比較[J].模式識別與人工智能,2005, 18(5): 628-635.

本文編輯:王立鈞

Application of Cost-Sensitive Classification Algorithm for Tumor Gene Expression Data

BIAN Jing1,KONG Lingzhu1, ZHANG Hai2

(1.ShanxiMedicalCollegeofContinuingEducation,Taiyuan030012,Shanxi,China;2.ShanxiBranchofAgriculturalBankofChina,Taiyuan030024,Shanxi,China)

This paper has conducted a comparative study of the original and cost-sensitive classification algorithms on the children's leukemia datasets,which is usually with high dimension feature space and imbalanced problem. Aiming at the intrinsic characteristic of gene, cost factors has been introduced to improve the cost-sensitive classification algorithm,MetaCost. Experimental results have shown that the cost-sensitive classification algorithm have their own advantages compared with original ones.The recognition rate and accuracy of the tumor class form tumor gene datasets have been raised.

cost-sensitive classification;tumor gene expression data;misclassification cost

山西省衛生和計劃生育委員會科研項目(201301006 );山西省研究生優秀創新項目(20123030)

邊 婧,女,講師,從事數據挖掘、網絡安全、大數據研究

G47

A

1671-0126(2016)03-0076-03

猜你喜歡
精確度分類
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
研究核心素養呈現特征提高復習教學精確度
“硬核”定位系統入駐兗礦集團,精確度以厘米計算
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
放縮法在遞推數列中的再探究
給塑料分分類吧
易錯題突破:提高語言精確度
主站蜘蛛池模板: 久精品色妇丰满人妻| 天堂亚洲网| 欧美一道本| 亚洲色图综合在线| 一级毛片基地| 91在线精品免费免费播放| 欧美第九页| 精品国产亚洲人成在线| 国产小视频免费观看| 看av免费毛片手机播放| 久久精品亚洲热综合一区二区| 午夜视频日本| 91黄色在线观看| 国产精品污视频| 日本日韩欧美| 3p叠罗汉国产精品久久| 中文字幕亚洲无线码一区女同| 欧美日韩导航| 久996视频精品免费观看| 午夜免费视频网站| 丁香亚洲综合五月天婷婷| 大乳丰满人妻中文字幕日本| 青青久视频| 亚洲精品福利视频| 美女内射视频WWW网站午夜 | 国产精品自拍露脸视频| 久久久久中文字幕精品视频| 青青草一区| 欧美成人一级| 亚洲第七页| 国产极品粉嫩小泬免费看| 99久久国产综合精品女同| 女同国产精品一区二区| 国产在线98福利播放视频免费| 国产va在线| 嫩草国产在线| 无码aaa视频| 欧美成人精品一级在线观看| 丝袜无码一区二区三区| 国产麻豆另类AV| 亚洲国产欧洲精品路线久久| 日韩在线第三页| 亚洲色无码专线精品观看| 亚洲香蕉在线| 国产精品吹潮在线观看中文| av一区二区三区高清久久| 精品夜恋影院亚洲欧洲| 欧美另类图片视频无弹跳第一页| 九九免费观看全部免费视频| 久久青草精品一区二区三区| 91精品亚洲| 国产自无码视频在线观看| 激情综合网激情综合| 欧美成人午夜影院| 中文无码毛片又爽又刺激| 97久久精品人人做人人爽| 伊人久久精品无码麻豆精品| 天堂在线www网亚洲| 国产极品嫩模在线观看91| 中文字幕色在线| 波多野结衣一区二区三区四区视频| 日本一区高清| 女人18毛片水真多国产| 国产va免费精品观看| 欧美三级视频网站| 国产午夜一级毛片| 亚洲愉拍一区二区精品| 第一页亚洲| 91探花国产综合在线精品| 国产特级毛片aaaaaaa高清| 无码AV动漫| 2022国产91精品久久久久久| 一本综合久久| 欧美在线导航| 国产一级精品毛片基地| 免费观看亚洲人成网站| 成人午夜网址| 国产特一级毛片| 五月激情综合网| 欧美精品二区| 国产传媒一区二区三区四区五区| 日本色综合网|