999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Weka平臺和代價敏感特征選擇的基因表達數據分類研究

2022-08-31 03:44:44韓磊黃瑞龍范文靜葉明全
智慧健康 2022年17期
關鍵詞:分類實驗方法

韓磊,黃瑞龍,范文靜,葉明全

皖南醫學院 醫學信息學院,安徽 蕪湖 241002

0 引言

腫瘤是目前人類在疾病面前面臨的主要威脅之一。據2014年的《世界癌癥》報告[1]顯示,僅2012年一年就有超過1000萬的癌癥新發病例。腫瘤不是瞬間產生的[2],腫瘤細胞的分類增殖存在一個相對較長的演變時期。因此,這種在基因層面對腫瘤進行早期識別的研究[3],對患者的治療具有重大意義[4-5]。

由于腫瘤基因表達數據是一種典型的不平衡數據[6-7],使之很難直接應用于腫瘤的分類診斷[8-9]。因此本文提出了一種基于Weka平臺和代價敏感特征選擇的基因表達數據分類方法[10]用于解決這類基因表達數據分布不平衡的分類問題[11-12]。該方法彌補了分類器只注重分類精度的片面性,并且它的合理性在于通過引入代價敏感而尋求總體的最小代價,而不是僅僅擁有精度最高這個特性。通常在代價敏感學習中,對于一個N分類問題,用表示訓練樣本,x表示樣本屬性,y∈{1,2,…,N}表示類標,P(j|x)是樣本x的后驗概率,Cij表示將第i類樣本錯誤地分類為第j類時產生的代價,R(x,i)表示將樣本x分為i類的誤分類代價。基于此,本研究基于Weka平臺,將基于代價敏感特征選擇的基因表達數據分類方法應用于腫瘤基因表達數據的分類中,現總結如下。

1 資料與方法

1.1 資料來源

本文實驗從Kent Ridge Biomedical Data Set數據庫中選取兩個類別,共計六個小組的腫瘤樣本數據,分別為神經系統疾病NervSys(central nervous system embryonal tumor)、結腸癌(colon cancer)、彌漫性大B細胞瘤(DLBCL)、卵巢癌(ovarian cancer)、前列腺癌(prostate cancer)和肺癌(lung cancer)。數據集的詳細描述見表1。

表1 實驗數據集描述

1.2 實驗方法

本文實驗基于Windows 平臺完成和實現。為了消除不同量綱對實驗結果的影響,實驗過程中,我們首先通過Weka平臺[13-14]對實驗數據集進行標準化預處理,使數據分析更加準確,然后選擇本文提出的代價敏感特征選擇方法(cost sensitive attribute eval),使用特征選擇的搜索函數Ranker來調整信息基因個數,并且通過支持向量機(SVM)、K近鄰(IBK)、樸素貝葉斯(NB)和隨機森林(RF)這4種分類器對數據進行分類得到的分類準確率來評估該方法的有效性。在實驗過程中均使用Weka平臺中分類器的默認參數。具體實驗流程見圖1。

圖1 實驗流程圖

2 實驗結果及分析

表2為4種分類器在6組兩類別的腫瘤樣本數據的分類準確率,表中Std表示在原始實驗數據[15]上只執行標準化處理后就進行4種分類器的分類建模,本文方法即通過代價敏感特征選擇[16]處理后再進行4種分類器的分類建模。

表2 4 種分類器在6 個數據集上的分類準確率對比

為了方便對比,本文實驗選擇的信息基因數分別為3、4、5、6,選擇4種分類器中最高分類準確率作為最終評價值。具體實驗結果見表2。

從圖2可以看出,六組數據直接在只進行標準化預處理后,在SVM、IBK、NB和RF分類器評估分類性能時,大部分分類準確率較低。但是通過本文實驗方法得到的分類準確率大部分高于只進行標準化預處理的分類準確率,這在一定程度上說明了本文提出的代價敏感特征選擇方法的有效性。

圖2 4 種分類器在6 個數據集上的分類準確率對比

為了更直觀地表明本文方法在提高分類準確率上的優良性能,實驗還對比分析了其他兩種流行特征選擇方法的分類準確率。包括SUAE(symmetrical uncert atrribute eval)根據屬性的對稱不確定性評估屬性和CA(correlation attribute)通過測量特征與類別之間的皮爾遜(Pearson's)相關性評估基因的價值。具體實驗結果見表3。

表3 3 種方法在6 個數據集上的最優分類準確率

從圖3可以看出,對比SUAE和CA的特征選擇方法在六組數據的最優分類準確率,本方法也獲得了相對更好的分類準確率,進一步有力地證明了該方法具有良好的特征選擇效果,能夠針對腫瘤基因表達數據獲取較高的分類性能。

圖3 3 種方法在6 個數據集上的最優分類準確率

3 結論

本文提出的基于Weka平臺和代價敏感特征選擇的基因表達數據分類方法可以有效地解決腫瘤基因表達數據不平衡數據的分類問題,大幅度提高分類準確率,但仍存在一些不足和缺陷[17],如分類過程中真實的誤分類代價很難通過人為經驗進行準確估計。由于此方法本身的性能指標與代價參數設置等方面存在一定空缺,可能會導致其最終的分類結果存在相對較強的主觀性而不夠客觀,因此代價敏感算法[18]仍有繼續完善優化的空間。通過改變一些相關代價參數從而進一步改進本文方法等方式,都是今后的研究方向。

猜你喜歡
分類實驗方法
記一次有趣的實驗
分類算一算
做個怪怪長實驗
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 69视频国产| 亚洲综合精品香蕉久久网| 亚洲最新在线| 亚洲天堂777| 全部免费特黄特色大片视频| 国产大全韩国亚洲一区二区三区| 无码一区18禁| 久久亚洲中文字幕精品一区 | 久久不卡精品| 久久国产精品77777| 亚洲精品色AV无码看| 97se亚洲综合不卡| 尤物视频一区| 日韩视频免费| 色婷婷视频在线| 99热这里只有免费国产精品| 国产成人综合久久精品下载| 国内精自视频品线一二区| 久久黄色小视频| 在线一级毛片| 欧美a√在线| 国产日韩欧美在线视频免费观看| a在线观看免费| 99福利视频导航| 欧美中文字幕无线码视频| 国产情侣一区二区三区| 日韩二区三区| 国产一区二区三区在线观看免费| 日本一区二区三区精品视频| 最新亚洲人成无码网站欣赏网 | 91蜜芽尤物福利在线观看| 国产无人区一区二区三区| 国产高清精品在线91| 在线播放真实国产乱子伦| 亚洲永久色| 亚洲视频免| 91探花在线观看国产最新| 国产性生交xxxxx免费| 女人18毛片久久| 日韩欧美在线观看| 尤物亚洲最大AV无码网站| 欧美成人h精品网站| 91日本在线观看亚洲精品| 国产18在线| 国产精品99一区不卡| 久久综合九色综合97网| 2018日日摸夜夜添狠狠躁| 国产va免费精品观看| 亚洲天堂网在线播放| 国产精选小视频在线观看| 色综合久久88色综合天天提莫 | 日韩无码精品人妻| 色国产视频| 亚洲欧美一区二区三区麻豆| 国产拍揄自揄精品视频网站| 国产欧美日韩18| 在线观看国产精美视频| 毛片一区二区在线看| 国产综合日韩另类一区二区| 亚洲欧美在线综合图区| 色婷婷久久| 国产精品香蕉在线| 欧美一级爱操视频| 在线看AV天堂| 久久香蕉国产线看观看亚洲片| 亚洲国产清纯| 中文字幕永久视频| 亚洲色图另类| 日韩在线1| 国产在线拍偷自揄拍精品| 秋霞一区二区三区| 亚洲Va中文字幕久久一区| 欧美成人日韩| 国产欧美日韩免费| 国产成人av一区二区三区| 国产高潮视频在线观看| 久久无码免费束人妻| 成人国产精品一级毛片天堂 | 欧美色亚洲| 国产剧情伊人| 欧美天堂久久| 一级全黄毛片|