999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于生物學通路的癌癥分類研究

2019-03-11 07:29:31張巧生李杰
智能計算機與應用 2019年6期
關鍵詞:分類

張巧生 李杰

摘要:盡管基因標志物已廣泛成功應用,但是仍存在很多問題。其一是在疾病的發展和治療反應中識別出的很多基因標志物缺乏合理的生物學功能解釋,其二是針對癌癥這種異質性疾病,基因標志物的可重復性是一大挑戰?;诖耍疚奶岢隽艘粋€以生物學通路為特征的分類方法。實驗結果表明該方法在分類性能上優于基于以基因為特征的分類算法。

關鍵詞:生物學通路;分類;癌癥

0引言

隨著用于全基因組表達譜分析的高通量技術的出現,研究人員提出了許多方法來發現癌癥相關驅動基因作為指導癌癥診斷和預后的生物標志物。然而,對于癌癥這種高度異質性疾病,這些基因特征往往是不具有可重復性的。此外,諸如噪聲、測量誤差和大量的基因假說等等因素也會阻礙實驗結果的可重復性。同時,發現的這些癌癥相關驅動基因列表與疾病進展或治療反應相關的生物學過程往往很難建立聯系,生物學意義不清晰。隨著研究的深入,人們越來越認識到基于通路的分析可以克服上述缺陷。通過將基因水平數據折疊成緊湊、功能性的通路水平數據,不但可以壓縮特征,還可以減少過擬合,提高概括性,同時保持生物可解釋性。

1算法描述

本文提出了一種基于生物學通路的癌癥分類方法。首先通過Pathifier算法把基因水平數據轉換成通路水平數據,然后基于相關特征選擇(correlation feature selection.CFS)進行特征選擇,最后基于選擇后的特征使用SVM分類模型在測試集上進行分類效果評價。為了驗證本文方法的有效性,文中方法與基于基因生物學標記的癌癥分類方法進行了比較分析。

1.1Pathifier算法

Pathifier算法通過單個癌癥樣本下通路對所有控制樣本下通路中值的偏離程度來計算單個癌癥樣本下的通路分數。下面詳細描述Pathifier算法原理。

假設給定通路基因列表K(|K|≥3)?;虮磉_數據根據通路基因列表構建|K|維空間,每個基因代表一個維度,空間中的每個點代表一個樣本。所有的樣本點構成|K|維空間中的點云,設樣本點個數為n。然后根據Hastie and Stuetzle算法在點云中尋找主曲線f(λ),其中λ為主曲線的點,如圖1A所示,不同顏色的點代表不同表型下的樣本。假設x為空間中的點,其對應的λ由公式(1)求得。

找到主曲線f(λ)后,樣本X投影到曲線,f(λ)上最近的點就代表該樣本在主曲線上位置,如圖1B所示。由部分正常(Normal)樣本形成的質心為主曲線的起始點,如圖1A所示。則每個樣本下的通路分數就等于該樣本在主曲線上的位置沿曲線到起始點的距離,

基于Pathifier算法,基因水平數據就可以轉換成通路水平數據。

1.2特征選擇

通過把基因表達值轉換為通路水平得分,基因表達矩陣轉化為通路得分矩陣。為了優化預測模型,本文采用一種基于關聯的特征選擇(Correlationbased Feature Selection.CFS)方法。CFS是一種過濾型(Filter)特征選擇算法,其啟發式的篩選與表型高度相關且彼此不相關的特征子集作為預測特征。不相關的特征被忽略,因為其與表型具有很低的相關性。冗余特征應被剔除,因為其與一個或多個剩余特征高度相關。

1.3算法評價

本文選用SVM算法構建分類模型。數據集根據表型分層隨機抽樣分成3部分,三分之二用于特征選擇和訓練,三分之一用于測試。評價指標為評價分類性能的常用指標,分別為準確率(Accuracy)、召回率(Recall)、精確率(Precision)、F值(F-score)、ROC曲線下面積(AUC)。

其中,TP(Trile Positive)即真陽性,是指屬于類別C被分類成類別C的樣本個數、TN(TrueNegative)即真陰性,是指非類別C而被分成非類別C的樣本個數;FP(False Positive)即假陽性,是指非類別C被分成類別C的樣本個數:FN(FalseNegative)即假陰性,是指屬于類別C而被分成非類別C的樣本個數,

2數據集

實驗中的驗證數據集(ID=GSE25066)下載自GEO。GSE25066數據集共包含488個樣本,其中病理完全緩解(pathologic conplete response.PCR)樣本99個,殘留病灶(residual disease.RD)樣本389個。這個數據集是乳腺癌關于新輔助化療(neoadiuvantchemotherapy.NAC)效果的數據集。PCR樣本通過新輔助化療達到病理完全緩解的患者,RD樣本是對新輔助化療不敏感的患者。研究表明通過新輔助化療達到PCR的患者,無病生存(disease freesurvival.DFS)以及總生存(overall survival.OS)均得到顯著的提高。

實驗中通路數據來自KEGG(Kvot0Encyclopedia0f Genes and Genomes)通路數據庫(PA7HWAYdatabase)。1995年,日本京都大學生物信息學中心的Kanehisa實驗室人工構建了KEGG數據庫,是基于使用一種可計算的形式捕捉和組織實驗得到的知識而形成的系統功能知識庫。KEGG通路基因集下載自ConsensusPathDB網站(http://consensuspathdb.org/)。經過篩選,選出281個Homo sapiens(hsa)通路作為本文實驗用通路數據。

3實驗結果與結論分析

Pathifier算法在基因表達矩陣轉化為通路得分矩陣時,由于有3個通路包含的基因個數少于3個,所以實際應用中只有278個通路成功轉化?;虮磉_數據中,PCR樣本往往比RD少很多,存在著類別不平衡現象。為了消除類別不平衡對基分類器的影響,在類別多的RD樣本中隨機抽取PCR樣本個數的RD樣本來平衡數據集,即從RD樣本中隨機抽取99個樣本。通過CFS算法最終篩選出32個特征用于訓練模型,最后在測試集上評估算法性能。為了驗證方法的有效性,本文所提方法與文獻[7]中基于基因特征方法進行了比較分析,實驗結果如圖2、圖3所示。本文基于通路(pathway)方法的準確率、召回率、精確率、F值和AUC分別為65.15%,78.78%,61.90%,69.33%,69.74%。由圖2、圖3可以看出,本文方法整體性能要優于基于基因的方法。

4結束語

針對以基因為特征分類算法的特征不可重復性和相關特征的生物學意義不明確,本文提出了一個以通路為組學特征,結合相關特征選擇(CFS)和分類算法預測乳腺癌用藥反應的方法。實驗結果表明,本文方法的分類性能優于基于基因為特征的分類算法,而且生物學通路的生物學意義明確,為在功能機制上深入了解癌癥致病機理提供了新的途徑。

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準備好了嗎
學生天地(2019年32期)2019-08-25 08:55:22
分類討論求坐標
數據分析中的分類討論
按需分類
教你一招:數的分類
主站蜘蛛池模板: 国产成人亚洲无码淙合青草| 免费在线一区| 本亚洲精品网站| 亚洲天堂日韩在线| 国产精品va| 日韩精品无码免费一区二区三区| 免费人成视频在线观看网站| 四虎国产永久在线观看| 久久久久88色偷偷| 在线观看亚洲精品福利片 | 国产麻豆aⅴ精品无码| 国产成人凹凸视频在线| 麻豆国产精品视频| 国产亚洲成AⅤ人片在线观看| 囯产av无码片毛片一级| 在线网站18禁| 国产成人精品午夜视频'| 欧美黑人欧美精品刺激| 亚洲日韩精品欧美中文字幕| 波多野结衣无码视频在线观看| 第一区免费在线观看| 国产人成午夜免费看| 色综合中文| 成人免费视频一区| 少妇被粗大的猛烈进出免费视频| 亚洲第一综合天堂另类专| 国产不卡一级毛片视频| 少妇精品在线| 无码一区二区波多野结衣播放搜索| 幺女国产一级毛片| 国产福利影院在线观看| 色婷婷电影网| 99在线观看免费视频| 97一区二区在线播放| av大片在线无码免费| 日韩免费毛片视频| 亚洲va欧美va国产综合下载| 久久精品人人做人人爽97| 欧美人在线一区二区三区| 欧美午夜视频在线| 一级毛片在线免费视频| 蝴蝶伊人久久中文娱乐网| 手机永久AV在线播放| 色哟哟国产精品| 国产18在线| 91精品啪在线观看国产91| 青草91视频免费观看| 亚洲欧洲一区二区三区| 国产第一页免费浮力影院| 欧美国产在线看| 亚洲第一区精品日韩在线播放| 91网址在线播放| 久久五月视频| 午夜久久影院| 欧美色视频日本| 日韩一级二级三级| 9啪在线视频| 国产成人综合亚洲欧洲色就色| 亚洲人成人伊人成综合网无码| 亚洲天堂福利视频| 在线99视频| 久久久久国产一级毛片高清板| 亚洲第一在线播放| 91精品国产麻豆国产自产在线| 久久精品亚洲专区| 中国特黄美女一级视频| 美臀人妻中出中文字幕在线| 99热国产在线精品99| 青青青国产免费线在| 在线国产综合一区二区三区| 激情五月婷婷综合网| 国产成人无码AV在线播放动漫 | 波多野结衣一二三| 亚洲日本www| 日本久久网站| 2022国产无码在线| 国产成人调教在线视频| 五月激激激综合网色播免费| 精品国产女同疯狂摩擦2| 中字无码精油按摩中出视频| 国产成人精品亚洲77美色| 中字无码精油按摩中出视频|