







摘要:提出了高級別漿液性卵巢癌(HGSOC)分子亞型分類模型MMDNN-HGSOC,該模型將miRNA 表達、DNA 甲基化、拷貝數變異( CNV)與mRNA 表達數據進行集成,構建多組學特征空間;基于LASSO(Least Absolute Shrinkage and Selection Operator)回歸算法,提出疊加式LASSO(S-LASSO)回歸算法,充分獲得每個組學數據中與HGSOC 分子亞型關聯的基因子集;引入多組學數據晚期集成策略,利用多模態深度神經網絡學習不同組學數據的高級特征表示。實驗結果表明,MMDNN-HGSOC 在HGSOC 分子亞型分類中表現出較好性能。此外,對特征選擇過程中發現的重要基因進行了GO( Gene Ontology)和KEGG( Kyoto EncyclopedGenomes)富集分析,為HGSOC 分子亞型鑒定和發病機制的研究提供有力支持。
關鍵詞:高級別漿液性卵巢癌;多組學數據;晚期集成;深度神經網絡;LASSO
中圖分類號:TP391 文獻標志碼:A
高級別漿液性卵巢癌(HGSOC) 是一種起源于卵巢表面上皮、輸卵管上皮和腹膜的卵巢癌,具有高度侵襲性,占卵巢癌相關死亡的70%~80%[1-2]。HGSOC由間充質型(MES)、免疫反應型(IMM)、分化型(DIF)和增殖型(PRO) 4 種轉錄分子亞型組成[3]。Bowtell等[4] 指出識別HGSOC 分子亞型可以實現早期預測的目的,輔助臨床診斷。研究表明,HGSOC 不同分子亞型具有顯著不同的預后表現和分子特征,通過鑒定HGSOC 的分子亞型能夠幫助評估患者的預后,并且能夠揭示 HGSOC 分子亞型不同的靶向治療方法[5-8]。因此,準確識別HGSOC 分子亞型進行分類有助于了解發病機制,更好地指導患者預后預測和臨床靶向治療。
癌癥基因組圖譜(TCGA)為HGSOC 的研究提供了mRNA 表達、DNA 甲基化、miRNA 表達、拷貝數變異(CNV)等組學數據。不同分子水平的數據可以為HGSOC 研究提供不同角度的信息。Hira 等[9]將DNA 甲基化、CNV 與mRNA 表達數據進行集成,對HGSOC分子亞型進行分類。Qi 等[10] 集成miRNA表達與mRNA 表達數據,對HGSOC 分子亞型進行聚類分析。然而上述研究僅將DNA 甲基化、CNV與mRNA 表達數據集成或者miRNA 表達與mRNA表達數據進行集成,用于HGSOC 或其分子亞型的研究,造成部分信息缺失,不利于對HGSOC 或其分子亞型的精準分類。miRNA表達通過補充mRNA 和mRNA 沉默或降解,在癌癥進展中發揮重要作用;DNA 甲基化會影響基因轉錄, 它可以在不改變DNA 序列的情況下改變遺傳性能;基因CNV 會導致基因表達改變,因此,miRNA 表達、DNA 甲基化、CNV均與mRNA 表達有密切關聯[11-14]。本文將miRNA表達、DNA 甲基化、CNV與mRNA 表達數據進行聯合分析,挖掘不同分子層面的關鍵因子,對HGSOC分子亞型進行分類研究。
癌癥的多組學數據具有低樣本量高維度特征的特點,在高維度多組學數據中包含著大量與表型無關的基因,造成信息冗余,降低深度學習模型的分類性能。利用特征選擇算法可以去除明顯不相關和冗余的基因,提高模型的性能。Lin 等[15] 利用卡方檢驗進行特征基因選擇,在一定程度上解決了信息冗余的問題。卡方檢驗單變量統計檢驗對特征進行評分,僅考慮了單個特征與樣本之間的相關性,導致部分重要基因被剔除[16]。Mohammed 等[17] 在泛癌亞型分類的研究中, 引入多變量分析LASSO( LeastAbsolute Shrinkage and Selection Operator)回歸算法作為特征選擇方法減少基因的數量,同時考慮多個基因和類別標簽的關系,以提高模型的分類性能。然而,LASSO 回歸算法在處理關聯性較強的基因時,只保留關聯基因中的一個基因,導致與HGSOC 分子亞型有關聯的基因丟失[18]。因此,本文在LASSO 回歸算法的基礎上,提出疊加式LASSO(S-LASSO),將多組學數據平均分為K 組,通過多次疊加的方式,從未被選擇的基因中關注與HGSOC 相關的基因,獲得更加全面的、與HGSOC 有關聯的基因子集。