于文帥
摘要:海量的生物醫學數據為癌癥的機制發現和治療提供了機遇,越來越多的工作集中于癌癥亞型的鑒定。基于深度學習的方法能夠提取生物醫學數據的深層特征,提高亞型鑒定的準確性。該文主要分析了多種基于深度學習的癌癥亞型鑒定方法,對研究更加靈活地亞型分析方法具有借鑒意義。
關鍵詞:深度學習;癌癥亞型;CNN;DBN;DBM
中圖分類號:TP301 文獻標識碼:A 文章編號:1009-3044(2018)06-0172-02
1引言
隨著生物醫學技術的快速發展,有超過100種癌癥被發現,在世界范圍內癌癥被認為是發病和死亡的主要原因之一。據世界衛生組織統計,全世界在2012年有1400萬新生癌癥病例,在2015年有880萬人死于癌癥。準確的癌癥預后和治療變得特別重要,而亞型鑒定則是個性化預后治療癌癥的關鍵。癌癥亞型是根據單種癌細胞的一些特征所得到的特定種類的癌癥。癌細胞的特征既有細胞水平的形態特征,也有分子水平的表達特征。
現有的癌癥亞型鑒定通過統計學方法對病理圖像,基因表達和臨床信息等數據進行分析,從而完成單種癌癥亞型的鑒定任務。這些鑒定方法對單種數據或者多種類型數據進行建模。例如,基于基因表達特征的支持向量機方法,基于整合多種分子數據的矩陣分解方法,以及基于分子和臨床數據的多元比例風險回歸方法。但是這些方法已經不能解決大量積累的生物分子數據所帶來的挑戰。此外,積累的醫學圖像數據集對準確快速地處理大規模圖像數據帶來了新的問題。深度學習的出現能夠解決上述問題。
深度學習現在已經廣泛應用在計算機視覺、自然語言處理和生物信息學等領域。深度學習在癌癥亞型鑒定方面根據數據特點選擇合適的網絡結構,還可以結合不同的預處理方法構造功能特異的架構。現在使用的網絡主要有全連接深度神經網絡,卷積神經網絡,深度信念網絡和深度波爾茲曼機。本文對基于以上四個深度學習網絡的癌癥亞型鑒定方法進行了分析。
2癌癥亞型鑒定方法
2.1深度神經網絡
深度神經網絡(DNN)廣義上是多種深度學習網絡的統稱,狹義上是指全連接的多層神經網絡結構。與簡單的人工神經網絡相比,DNN的多個隱層用來提取深層抽象特征。DNN的輸入層、中間隱層和輸出層可以使用全連接方式構建網絡。
Yuan等人使用基于全連接的DNN方法,對多種癌癥進行分類。該方法主要有三個步驟:過濾集合基因,減少稀疏性和建立全連接DNN分類器。集合基因的過濾是基于突變頻率來確定有判別性的基因子集。該步驟的特點是使用全部癌癥數據來反映基因之間的關聯性,以及不需要突變數據分布的先驗條件。減少稀疏性作為一種和集合基因過濾并列的預處理方法,將基因數據轉為非零的索引值來降低稀疏性。然后將過濾的基因和非零索引相級連作為DNN的輸入,從而完成對DNN分類器的訓練。這種基于全連接的DNN分類器有著比支持向量機、K-近鄰和樸素貝葉斯更好地分類能力。
2.2卷積神經網絡
卷積神經網絡(CNN)是一種用于滿足最小化數據預處理要求的多層感知器,常常作為圖像分類器。CNN一般有輸入層,轉化層和輸出層,但其中轉化層常由卷積層,池化層,全連接層和歸一化層組成。CNN還需要選擇合適的超參數,一般包括濾波器個數,濾波器的滑動步長和濾波器的形狀等參數。在訓練模型時,卷積神經網絡使用反向傳播算法。
Hou等人提出基于圖像塊的CNN方法,對全切片組織圖像進行細胞水平的癌癥分類。這個分類方法由圖像塊水平的模型和決策融合模型組成。圖像塊水平的模型是一種基于期望最大(EM)的方法,并與CNN相結合來輸出圖像塊的預測。該模型先假設有二值隱變量來表示圖像塊是否有判別性,并初始化所有圖像塊為有判別性,接著訓練CNN用于輸出每個圖像塊的類別概率,然后選擇具有較高概率的塊作為有判別性的塊,使用得到的判別性塊作為輸入直到EM迭代收斂結束。在圖像塊選擇完成后,判別性塊的直方圖作為決策融合模型的輸入。決策融合模型可以作為一種基于計數的兩級多實例學習方法,具有比標準多實例學習假設更一般的假設。該模型使用多類邏輯回歸方法或者支持向量機來預測圖像的癌癥類別。在非癌癥的小尺寸圖集上,這個基于圖像塊的CNN方法比基于圖像的CNN方法有更好的結果。
Ertosun等人使用兩級CNN完成對兩種癌癥的分類和分級任務。兩級CNN先完成對癌癥的分類任務,再完成對癌癥的分級任務。該CNN架構導致網絡層數變多,從而難以選擇最優的CNN架構。一般的解決方法是每個CNN獨立地訓練,并通過評估多種類型的CNN結構,進而選擇合適的CNN架構。
2.3深度信念網絡
深度信念網絡(DBN)本質是堆疊的受限玻爾茲曼機(RBM),即每個RBM的隱層輸出作為下一個RBM的可視輸入。學習DBN的過程主要有以下兩個階段。在預訓練階段,DBN循環所有層的RBM,逐層學習RBM的權重變量。在微調階段,DBN用預處理階段的權重來初始化深度自動編碼器,獲取全局最優的權重。DBN模型可以分為單模DBN和多模DBN。
Young等人構造單模DBN,選取DBN的頂層特征對所有類型的癌癥樣本進行一致性聚類,進而得到組織特異的集合。該方法采用改進的8倍交叉驗證方法選擇模型。為了同時實現最小重建錯誤和防止過擬合,這種方法使用隨機網格搜索方法來選擇最優超參數。在模型選擇后,開始訓練模型并對頂層特征進行一致性聚類。和直接使用基因特征相比,DBN的頂層特征取得更好的聚類結果。更進一步,使用DBN的頂層特征對單一癌癥進行亞型分析(聚類),DBN頂層特征能夠反映通路水平上潛在的疾病機制。該單模DBN方法獲取基因表達數據的隱層結構,進而建立癌癥機制和病人生存之間的聯系。
Liang等人提出用于整合多種平臺數據的多模DBNtSl。該模型由多個單獨的DBN和融合層組成,單獨的DBN挖掘特異的模態特征,而融合層獲取多個單獨DBN的聯合特征。該模型主要使用兩個原則選擇隱層變量個數,第一個原則是使用隱層變量個數的經驗值,即隱層變量個數約為可視層變量的十分之一;第二個是根據最小重建錯誤選擇隱層變量個數。該模型沒有使用平均場推理和馬爾可夫鏈蒙特卡爾等常用方法去學習RBM參數,而是使用對比散度方法來快速學習深度模型的參數。由于模型頂層隱變量的二值性,每種隱變量組合可以作為一個集合。例如,有3個頂層隱變量,就表示有至多8種癌癥亞型。多模DBN的良好伸縮性可以方便處理具有大規模數據的生物問題。此外,與普通的K-means方法相比,這個多模DBN作為一個概率模型,在隨機選擇初始狀態后仍能保持結果的穩定性。
2.4深度波爾茲曼機
深度波爾茲曼機(DBM)是全鏈接的多層玻爾茲曼機。DBM一般采用基于改進RBM的預訓練算法。DBM和DBN的預訓練算法不完全相同。在預訓練過程里,DBM在底層上自底向上的權重是自頂向下的兩倍,中間層RBM的權重在兩個方向上均減半,而在頂層上自頂向下的權重是自底向上的兩倍。直觀上來看,兩倍權重是為了補償初始自頂向下或者自底向上的反饋。DBM多模構造的責任分散在整個網路里,而DBN的責任則全部在頂層完成。在數據重構時,多模DBM比多模DBN有更好的結果。
Syafiandini等人使用多模DBM整合基因表達數據和臨床數據l圳,獲取頂層特征作為RBM輸入,最終得到癌癥亞型。該模型同樣使用對比散發方法學習參數。癌癥亞型的鑒定僅使用只有一個隱層的受限波爾茲曼機,即多模DBM的頂層作為RBM的可視層,而隱層變量的數量則根據最小重建錯誤確定。
3結論
本文分析了對癌癥亞型鑒定的多種深度學習方法,其優點是減少傳統診斷的不確定性并能快速進行亞型分析,但其難點仍是模型結構的選擇,訓練速度的加快和準確性的提高。這些問題迫使研究更加實用有效的亞型分析方法,來促進精準醫療的發展。