張巧生 李杰



摘要:盡管基因標志物已廣泛成功應用,但是仍存在很多問題。其一是在疾病的發展和治療反應中識別出的很多基因標志物缺乏合理的生物學功能解釋,其二是針對癌癥這種異質性疾病,基因標志物的可重復性是一大挑戰?;诖耍疚奶岢隽艘粋€以生物學通路為特征的分類方法。實驗結果表明該方法在分類性能上優于基于以基因為特征的分類算法。
關鍵詞:生物學通路;分類;癌癥
0引言
隨著用于全基因組表達譜分析的高通量技術的出現,研究人員提出了許多方法來發現癌癥相關驅動基因作為指導癌癥診斷和預后的生物標志物。然而,對于癌癥這種高度異質性疾病,這些基因特征往往是不具有可重復性的。此外,諸如噪聲、測量誤差和大量的基因假說等等因素也會阻礙實驗結果的可重復性。同時,發現的這些癌癥相關驅動基因列表與疾病進展或治療反應相關的生物學過程往往很難建立聯系,生物學意義不清晰。隨著研究的深入,人們越來越認識到基于通路的分析可以克服上述缺陷。通過將基因水平數據折疊成緊湊、功能性的通路水平數據,不但可以壓縮特征,還可以減少過擬合,提高概括性,同時保持生物可解釋性。
1算法描述
本文提出了一種基于生物學通路的癌癥分類方法。首先通過Pathifier算法把基因水平數據轉換成通路水平數據,然后基于相關特征選擇(correlation feature selection.CFS)進行特征選擇,最后基于選擇后的特征使用SVM分類模型在測試集上進行分類效果評價。為了驗證本文方法的有效性,文中方法與基于基因生物學標記的癌癥分類方法進行了比較分析。
1.1Pathifier算法
Pathifier算法通過單個癌癥樣本下通路對所有控制樣本下通路中值的偏離程度來計算單個癌癥樣本下的通路分數。下面詳細描述Pathifier算法原理。
假設給定通路基因列表K(|K|≥3)?;虮磉_數據根據通路基因列表構建|K|維空間,每個基因代表一個維度,空間中的每個點代表一個樣本。所有的樣本點構成|K|維空間中的點云,設樣本點個數為n。然后根據Hastie and Stuetzle算法在點云中尋找主曲線f(λ),其中λ為主曲線的點,如圖1A所示,不同顏色的點代表不同表型下的樣本。假設x為空間中的點,其對應的λ由公式(1)求得。
找到主曲線f(λ)后,樣本X投影到曲線,f(λ)上最近的點就代表該樣本在主曲線上位置,如圖1B所示。由部分正常(Normal)樣本形成的質心為主曲線的起始點,如圖1A所示。則每個樣本下的通路分數就等于該樣本在主曲線上的位置沿曲線到起始點的距離,
基于Pathifier算法,基因水平數據就可以轉換成通路水平數據。
1.2特征選擇
通過把基因表達值轉換為通路水平得分,基因表達矩陣轉化為通路得分矩陣。為了優化預測模型,本文采用一種基于關聯的特征選擇(Correlationbased Feature Selection.CFS)方法。CFS是一種過濾型(Filter)特征選擇算法,其啟發式的篩選與表型高度相關且彼此不相關的特征子集作為預測特征。不相關的特征被忽略,因為其與表型具有很低的相關性。冗余特征應被剔除,因為其與一個或多個剩余特征高度相關。
1.3算法評價
本文選用SVM算法構建分類模型。數據集根據表型分層隨機抽樣分成3部分,三分之二用于特征選擇和訓練,三分之一用于測試。評價指標為評價分類性能的常用指標,分別為準確率(Accuracy)、召回率(Recall)、精確率(Precision)、F值(F-score)、ROC曲線下面積(AUC)。
其中,TP(Trile Positive)即真陽性,是指屬于類別C被分類成類別C的樣本個數、TN(TrueNegative)即真陰性,是指非類別C而被分成非類別C的樣本個數;FP(False Positive)即假陽性,是指非類別C被分成類別C的樣本個數:FN(FalseNegative)即假陰性,是指屬于類別C而被分成非類別C的樣本個數,
2數據集
實驗中的驗證數據集(ID=GSE25066)下載自GEO。GSE25066數據集共包含488個樣本,其中病理完全緩解(pathologic conplete response.PCR)樣本99個,殘留病灶(residual disease.RD)樣本389個。這個數據集是乳腺癌關于新輔助化療(neoadiuvantchemotherapy.NAC)效果的數據集。PCR樣本通過新輔助化療達到病理完全緩解的患者,RD樣本是對新輔助化療不敏感的患者。研究表明通過新輔助化療達到PCR的患者,無病生存(disease freesurvival.DFS)以及總生存(overall survival.OS)均得到顯著的提高。
實驗中通路數據來自KEGG(Kvot0Encyclopedia0f Genes and Genomes)通路數據庫(PA7HWAYdatabase)。1995年,日本京都大學生物信息學中心的Kanehisa實驗室人工構建了KEGG數據庫,是基于使用一種可計算的形式捕捉和組織實驗得到的知識而形成的系統功能知識庫。KEGG通路基因集下載自ConsensusPathDB網站(http://consensuspathdb.org/)。經過篩選,選出281個Homo sapiens(hsa)通路作為本文實驗用通路數據。
3實驗結果與結論分析
Pathifier算法在基因表達矩陣轉化為通路得分矩陣時,由于有3個通路包含的基因個數少于3個,所以實際應用中只有278個通路成功轉化?;虮磉_數據中,PCR樣本往往比RD少很多,存在著類別不平衡現象。為了消除類別不平衡對基分類器的影響,在類別多的RD樣本中隨機抽取PCR樣本個數的RD樣本來平衡數據集,即從RD樣本中隨機抽取99個樣本。通過CFS算法最終篩選出32個特征用于訓練模型,最后在測試集上評估算法性能。為了驗證方法的有效性,本文所提方法與文獻[7]中基于基因特征方法進行了比較分析,實驗結果如圖2、圖3所示。本文基于通路(pathway)方法的準確率、召回率、精確率、F值和AUC分別為65.15%,78.78%,61.90%,69.33%,69.74%。由圖2、圖3可以看出,本文方法整體性能要優于基于基因的方法。
4結束語
針對以基因為特征分類算法的特征不可重復性和相關特征的生物學意義不明確,本文提出了一個以通路為組學特征,結合相關特征選擇(CFS)和分類算法預測乳腺癌用藥反應的方法。實驗結果表明,本文方法的分類性能優于基于基因為特征的分類算法,而且生物學通路的生物學意義明確,為在功能機制上深入了解癌癥致病機理提供了新的途徑。