薛艷鋒 李 春 高永強
1(山西大學復雜系統研究所 山西 太原 030006) 2(呂梁學院計算機科學與技術系 山西 呂梁 033000) 3(太原理工大學信息與計算機學院 山西 太原 030024)
基因表達譜數據可被用于基因功能預測、作物優化、疾病相關基因發現和藥物篩選等[1-4],但獲取過程繁雜、成本極高,難以開展大規模全基因組表達譜分析。人類基因組中包含約2萬到2.5萬個基因,利用表達之間的關聯性,可確定調節因子和target基因構建基因調控網絡[5]。由于大約有1 000個基因擁有80%CMap 數據的信息,所以測量這1 000個基因(命名為landmark基因)的表達譜可以預測剩余基因(命名為target基因)的表達[6]。文獻[6]采用線性回歸(LR)預測模型,雖然LR具有極高的泛化性能,但無法建模landmark和target基因之間固有的非線性關系[7]。核函數方法已被應用于非線性模型的構建中[8],然而隨著數據維度升高及數據增加,其泛化性能急劇下降。
深度神經網絡可以建模非線性關系[9]。Peng等[10]在傳統神經網絡的基礎上增加了輸入層與輸出層的直接連接建模了兩者之間的線性和非線性映射關系。Pao等[11]在輸入層與輸出層之間增加隨機向量可迭代獲得最優解。
基于此,本文首先提出一種基于直連輸入輸出的深度神經網絡和遷移學習的基因表達回歸預測模型——直連輸入輸出的深度神經網絡基因預測模型(Direct Connect Input and Output-Deep Neural Network Gene predict Model,DCIO-DNN_GM),直連輸入輸出的具體含義為在經典神經網絡的基礎結構上,輸入層與輸出層之間有連邊連接。該模型可同時建模landmark和target基因的線性和非線性映射關系,利用遷移學習和正則化技術在GTEx小數據集上訓練模型,并驗證和比較DCIO-DNN_GM模型的跨平臺預測能力。最后以多指標、多角度分析不同模型的預測效果;結果表明:DCIO-DNN_GM模型的各項指標更高。
深度神經網絡(DNN)的層與層之間是全連接的,第k層第j個神經元的計算公式為:
(1)

遷移學習[12-13]的思想是為任務A開發的模型MA被重用為任務B模型的起點,具體在深度學習中,固定模型MA前面部分權重或參數再利用任務B的數據繼續訓練,其核心是找到任務A與B的相似性或某種映射關系[14]。
Gene Expression Omnibus(GEO)數據集[15]和Genotype-Tissue Expression(GTEx)數據集[16]來自不同的平臺,如表1所示,且兩平臺測量的單位及量綱不同,因此調用Python庫Sklearn[17]的MinMaxScaler方法進行數據歸一化預處理,進而達到相同的表達水平。

表1 數據集信息

傳統的DNN網絡模型包括輸入層、輸出層和若干隱藏層,其中輸入層的節點取決于數據的特征個數,輸出層的節點取決于問題本身,隱藏層通過調整權重實現特征數據到標簽數據的逼近。本文提出的DCIO-DNN_GM模型,如圖1所示。其輸出層的結果不但經過了隱藏層的非線性映射,而且融入了輸入層的線性組合。所以DCIO-DNN_GM可以建模輸入數據與輸出數據的線性和非線性映射。

圖1 DCIO-DNN_GM的網絡結構
DCIO-DNN_GM模型的學習過程為隱含層的輸出C和輸出層的輸出O:
C=f(∑W1X+α)
(2)
O=∑W3X+∑W2C+γ
(3)
式中:f表示隱藏層的雙曲正切激活函數;W1表示隱藏層與輸入層的權重;X表示輸入數據;α表示隱藏層的偏置向量;W3表示輸入層與輸出層權重(圖1中虛線部分);W2表示輸出層與隱藏層權重;γ表示輸出層的偏置向量。
本文所有實驗都采用損失函數為均方誤差(MSE),性能指標包括平均絕對值誤差(MAE)、歸一化均方根誤差(NRMSE)以及決定系數(R2),計算公式分別如下:
(4)
(5)
(6)
(7)

本文實驗分別對應線性模型(LR)、傳統深度神經網絡模型(D-GM)、本文模型(DCIO-DNN_GM)在誤差性能、跨平臺預測能力和擬合效果三方面的對比分析。
實驗一:對比LR、D-GM和DCIO-DNN_GM在GEO數據上的MAE和NRMSE,結果如表2所示。本文模型不同參數組在GEO驗證集的誤差如表3所示。

表2 不同回歸模型在GEO驗證集的誤差

表3 DCIO-DNN_GM模型不同參數組在GEO驗證集的誤差
“±”后的值是所有target基因MAE的標準偏差。如表2所示,LR模型分別采用L1和L2正則化技術,D-GM和DCIO-DNN_GM模型采用Dropout技術且參數配置相同(只包含一層隱藏層)。如表3所示,依據MAE和NRMSE最小的原則,選擇神經元數量與Dropout率的最優組合進行后續比較分析,結果如表4所示。

表4 不同回歸預測模型在GEO測試集上的實驗誤差
由表4可知,相比于LR-L1和D-GM,DCIO-DNN_GM在兩個指標上都有所降低,提升了誤差性能。
實驗二:采用遷移學習方法解決GTEx數據集小樣本(如表1所示)無法直接訓練模型的難題。
表5給出了不同模型在GTEx測試集上的實驗結果,其中LR-L1模型僅使用GTEx數據擬合,D-GM和DCIO-DNN_GM模型使用遷移學習技術。具體方法為:首先將GTEx數據分成GTEx訓練集和GTEx測試集,在實驗一的基礎上結合遷移學習的微調策略,將D-GM和DCIO-DNN_GM模型隱藏層的前兩層權重參數固定,然后使用GTEx訓練集數據訓練D-GM和DCIO-DNN_GM模型,最后使用GTEx測試集數據檢驗不同模型在GTEx數據集上的預測能力。相比于LR-L1和D-GM,DCIO-DNN_GM在MAE指標上有所降低,提升了跨平臺預測能力。

表5 不同模型在GTEx測試集數據上的實驗誤差
綜上,本文提出的DCIO-DNN_GM模型誤差更小,可遷移性更高,通過5組GEO測試集中target基因表達值的真實值和預測值的箱線圖對比(如圖2所示),證明了DCIO-DNN_GM模型可以預測target基因表達值。

圖2 target基因真實表達值與預測表達值對比箱線圖
實驗三:使用決定系數(R2)比較LR-L1、D-GM和DCIO-DNN_GM模型的擬合能力。
表6給出了三種回歸模型預測9 520個探針的target基因R2分布情況。由表6可知,在[0.8,1.0)區間內,DCIO-DNN_GM模型分別是LR-L1和D-GM模型的1.92倍和1.74倍。在[0,0.6) 區間內,LR-L1和D-GM模型分別是DCIO-DNN_GM模型的1.57倍和1.49倍。結果證明DCIO-DNN_GM擬合效果更好。

表6 決定系數R2分布情況
針對基因表達譜數據高維度、少樣本和非線性的現實問題,本文提出DCIO-DNN模型并獲得更低的MAE和NRMSE,然后提出DCIO-DNN_GM解決了GTEx數據集小樣本無法訓練的問題。再通過箱線圖比較了該模型可以預測target基因表達值,最后通過R2分布區間說明該模型的擬合數據能力更強。
然而該模型是數據驅動建模,整個過程都是利用深度神經網絡擬合數據的能力而未考慮基因表達本身的機理,結合基因表達本身的機理與神經網絡擬合數據的能力建模是未來研究的方向。