李自臣 田生偉 劉江越 高雙印
1(烏魯木齊職業大學信息工程學院 新疆 烏魯木齊 830002)2(新疆大學軟件學院 新疆 烏魯木齊 830008)
基于深度學習的PD致病基因活性預測
李自臣1,2田生偉2*劉江越1高雙印2
1(烏魯木齊職業大學信息工程學院 新疆 烏魯木齊 830002)2(新疆大學軟件學院 新疆 烏魯木齊 830008)
帕金森病PD(Parkinson’s disease)是一種神經性系統疾病,多發于中老年人。目前,該病情的病因和發病機制尚不明確,但根據多國臨床試驗數據統計與分析,PINKs基因是影響整個PD發病的重要原因之一。針對該基因的活性結構數據進行研究,提出基于深度學習的深度信念網絡(DBN)與稀疏自編碼(SAE)預測方法。該算法能通過深層網絡特征單元自動學習到適合分類器分類的高層非線性組合特征,并將這些高層次特征輸入到分類器中進行數據分析。實驗結果表明,DBN算法的平均預測精度較SVM與ANN分別提高了28.04%、18.84%;SAE算法的平均預測精度較SVM與ANN分別提高了23.51%、14.31%。所以,提出的基于深度學習的PINKs活性預測方法具有較高的預測精度和穩定性,與理論分布也較為相吻合,適用于該基因活性的研究與探討。
活性 深度學習 SAE 預測 研究
帕金森病是一種常見的神經系統變性疾病,多發于老年人。臨床癥狀主要表現為禁止性震顫、肌強直、運動遲緩和平衡失調障礙,同時患者可伴有抑郁、 便秘和睡眠障礙等非運動癥狀[1-2]。帕金森病最主要的病理改變是中腦黑質多巴胺DA(dopamine)能神經元的變性死亡,從而引起紋狀體DA含量顯著性減少。目前,導致這一病理改變的確切病因仍不清楚,遺傳因素、環境因素、年齡老化、氧化應激等均可能參與PD多巴胺能神經元的變性死亡過程[3-5]。
在帕金森病綜合征治療方式中,最常用的是小干擾RNA療法。小干擾RNA(Small interfering RNA;siRNA)有時稱為短干擾RNA(short interfering RNA)或沉默RNA(silencing RNA),是一個長20到25個核苷酸的雙股RNA,在生物學上有許多的用途。在抗病毒治療方面,帕金森病綜合征采用RNA干擾療法效果出色[6-8]。
在小干擾RNA療法的就診過程中,越來越多的證據表明線粒體自噬功能障礙是導致帕金森綜合癥產生的最關鍵因素[9-11]。已經確定的有PD聯合基因組PINKs對阻止機能失調的線粒體的積累有很大的促進作用。PINKs基因在腦組織中廣泛表達,其功效有助于緩解帕金森綜合癥產生的神經性損傷。
本文利用計算機信息科學,結合相關的理論計算方法來獲得PINKs基因的結構參數和理化參數,再將這些參數用統計學方法建立數學模型,從而描述化合物結構與其活性之間的定量關系。目前,尚未發現利用深度學習算法針對PINKs基因進行研究。
本文提出基于稀疏自編碼(SAE) 和深度信念網絡(DBN)模型的PINKs基因活性預測方法,并設計實驗對模型進行訓練及驗證。實驗結果表明,與其他模型相比,基于SAE與DBN模型的PINKs基因活性預測能取得良好的測試效果。
1.1 SAE
SAE是深度學習領域中廣泛采用的無監督特征學習技術,是一種模仿人工神經網絡特征而建立的網絡結構,其利用逐層訓練的思想主動提取輸入數據中深層次的特征。SAE的結構分為輸入層、隱藏層和輸出層,其結構簡圖如圖1。

圖1 SAE結構圖

h=fθ(x)=sigm(Wx+b)
(1)
(2)

SAE采用隨機梯度算法進行訓練,其代價函數的定義為:


(4)
其中,?是學習率。θ={W,b,c},W∈RM×N,b∈RM,c∈RN。
為了獲得PINKs基因活性數據的深層特征,利用優化參數θ′,通過式(5)對活性數據的網絡結構進行進一步學習:
(5)

1.2 DBN
DBN也是深度學習算法中被廣泛是用的一種方法,其通過組合較低層的特征來計算出較高層的具有代表性的特征,從而挖掘出輸入數據的優化分布結構。從網絡組成上可以看出,DBN是由多個無監督學習的受限玻爾茲曼機和一個有監督學習的反向傳播網絡合成。其拓撲結構如圖2所示。

圖2 DBN結構圖
RBM是一種基于能量的網絡模型,其結構與普通神經網絡相似,但僅是由一層可視層和一層隱藏層組成,無輸出層。假設可視層的可見節點和隱藏層的隱含節點皆為二值變量,如式(6):
?i,jVi∈{0,1}Hj∈{0,1}
(6)
其中,Vi表示第i個可見節點的狀態。Hj表示第j個隱含節點的狀態,則對于給定狀態(V,H), RBM具備的能量定義為:
(7)
(8)
其中,θ={Wij,Bi,Cj}是RBM的參數。Wij是可見層節點Vi與隱藏層節點Hj的聯結權值,Bi和Cj分別表示Vi和Hj的偏置量(bias),其均為實數。基于以上定義,我們可以得到(V,H)的聯合概率分布:
(9)
對于現實問題,RBM更常用的是聯合概率的邊緣分布P(V|θ),又稱為似然函數:
(10)
RBM采用層層迭代的方式進行訓練,最終獲得學習參數θ=(Wij,Bi,Cj)的值,以擬合給定的訓練數據。參數θ通過在訓練集上的極大對數似然函數得到,即:

(11)
最后,將經過RBM擇優后的參數θ,輸入BP神經網絡進行微調,再反復計算,最終得到最優DBN拓撲結構。
2.1 數據源
PubChem是美國國家生物技術信息中心的一個公共分子信息庫,提供了分子生物活性的信息并提供免費下載。在本實驗中,分別隨機選取了PINKs基因的活性化合物和非活性化合物各8 000條數據進行研究。為了充分驗證本文實驗的實用性,采用MOE分析工具對PINKs基因的化學分子結構進行計算,并使用四折交叉算法對測試結果進行驗證。
2.2 實 驗
本文將實驗數據劃分為訓練集和測試集,分別建立了基于ANN、SVM、SAE和DBN的PINKs活性預測模型,表1為實驗數據分配細則。

表1 數據分配
在測試模型中,不同的預設參數對實驗效果會產生一定的影響。經過大量實驗,本文選擇出較優異且較穩定的設定值作為各個模型的首選參數,如表2所示。

表2 各個模型參數設定
基于上述設定值,本文對PINKs基因的化學結構數據進行了大量的測試和驗證,以下就是實驗的具體內容:
1) 數據量對各個算法性能的影響
隨著PINKs活性數據的不斷增多,不同模型的測試結果也產生了明顯的差異。在本組實驗中,為了對不同算法進行客觀檢測,本文設定參與對比的算法皆輸入特征數為150,網絡模型的網絡層數皆為1層。圖3是檢測結果。

圖3 不同模型受數量級的影響
由圖3可以看出,SVM的測試效果最差,平均預測精度僅為50.01%;DBN的測試效果最佳,平均預測精度可達78.05%。SAE與ANN的測試效果保持中間水平,SAE的平均預測精度為73.52%, ANN的平均預測精度為59.21%。相比較而言,深度學習模型的預測效果明顯高于淺層模型的預測效果。
2) 輸入數據的維度大小和深度大小對各個算法性能的影響
對于不同算法的性能檢測,輸入數據的維度和深度也會對實驗效果產生重要影響。當輸入數據的維度逐漸增大,各個算法的性能也會面臨更大的考驗。圖4是特征數從30遞增到150時不同預測模型的檢測結果。

圖4 不同模型受特征數的影響
從圖4可知,隨著特征數的增多,ANN與SVM的預測精度產生了明顯波動。ANN預測精度最高為65.41%,最低為44.31%;SVM預測精度最高為72.01%,最低為50.10%。對于SAE而言,實驗結果也出現了些許浮動,最高的預測精度為76.55%,最低為60.05%。DBN的預測效果最好,最高預測精度可達83.55%,最低也能達74.91%。綜合分析,SAE與DBN皆優越于淺層學習算法ANN與SVM。
基于上組實驗,為了更有利于后續模型的性能檢測,本研究對具有網絡結構的SAE和DBN作了層數分析,從中挑選出最佳網絡層數,測試結果如圖5所示。從圖5可知,SAE與DBN的網絡結構皆為2層時預測精度最高,預測精度分別可達到86.11%和83.55%。

圖5 SAE和DBN模型受層數的影響
3) 各個性能指標對不同算法的檢測結果分析
繼承上述檢測結果,本文又選擇出幾項極具代表性的性能檢測指標對不同算法進行了更深一步的探討和研究。
(1) 馬修斯相關系數
馬修斯相關系數常常被用作二分類檢測的核心,目的在于驗證測試結果是否平衡。由圖6可知,隨著數據集的遞增,DBN的馬修斯相關系數呈一條平穩上升的光滑曲線,其值平均范圍在0.5。SAE的馬修斯相關系數出現稍許波動,但較其他模型優勢也很明顯,其值平均范圍在0.46。SVM與ANN的馬修斯相關系數皆呈明顯下滑趨勢,浮動也較為明顯,其值平均范圍在0.39和0.24。故知DBN與SAE對PINKs基因活性檢測具有良好的效果,其穩定性較高,較符合于理論值分布。

圖6 不同模型馬修斯相關系數對比
(2) 敏感度
敏感度SEN(sensitivity):又稱真陽性率TPR(true positive rate),即實際為真且被診斷為真獲得的百分比。本文關于PINKs活性分子,在不同的數量級情況下分別應用SVM、ANN、SAE和DBN模型針對其敏感度進行了研究,實驗結果如圖7所示。

圖7 不同模型敏感度對比
由圖7可知,DBN與SAE的敏感度較高,曲線走勢相對緩和,DBN的平均敏感度為75.44%,SAE為70.64%。SVM和ANN的敏感度較低,曲線走勢相對陡峭,SVM的平均敏感度為60.12%,ANN為68.71%。
(3) 特異度
特異度SPE(specificity),又稱真陰性率TNR(true negative rate),即實際為假且被診斷為假獲得的百分比。本文針對PINKs基因活性分子,在不同模型算法中進行了特異度分析,分析結果如圖8所示。

圖8 不同模型特異度對比
由圖8可知,DBN的特異度最高,平均預測值為82.33%;SAE預測結果出現一定浮動,平均預測值75.47%。 SVM與ANN的特異度曲線浮動相對較大,SVM平均預測值為55.03%,ANN平均預測值為57.28%。
綜上所述,基于PINKs基因活性分子的DBN和SAE算法模型較其他算法模型體現出明顯的優勢,這是因為深度學習算法在學習過程中,可以自發挖掘出數據結構中的深層特征,再根據網絡權值和閾值的優化處理,使得測試結果優良。
本文基于深度學習算法,提出了PINKs活性預測深度模型。實驗結果表明,與淺層學習方法比較,深度檢測模型預測值和真實值吻合效果明顯,預測精度高,穩定性高,是有效預防帕金森綜合征病發的方式之一。本文所提及的DBN與SAE算法是深度學習中較常用的方法。今后,我們將對該算法進行改進,使其預測結果更加精準,同時,也可考慮其他更有效的算法模型進行該病癥的深層次研究和探討。
[1] 張淑靜,高譽珊,孫紅梅,等.慢病毒介導的小鼠pink1基因rnai載體的構建及在nih3t3細胞中的篩選[J].現代生物醫學進展,2015,15(23):4401-4405.
[2] 李晉芳,林松俊,劉紅敏.補腎活血疏肝湯對帕金森病伴抑郁癥的臨床療效研究[J].湖北中醫雜志,2016,38(7):34-35.
[3] 馮霄.8型腺相關病毒所介導的GDNF與產酶基因對6-OHDA損傷帕金森大鼠模型的保護與恢復性研究[D].吉林大學,2013.
[4] 于曉俊.帕金森病鐵代謝異常的腦區差異和細胞易感性差異研究[D].青島大學,2013.
[5] 王思,李秀華,杜鵑.側腦室注射腺病毒介導的GDNF基因對帕金森病的保護作用[J].山東大學學報(醫學版),2016,54(4):32-36.
[6] 鐘建斌,范勝諾,肖頌華,等.沉默Nogo-A對脂多糖誘導的PC12細胞TNF-α、IL-6分泌及TH下調的影響[J].中山大學學報(醫學科學版),2015,14(2):391-397.
[7] Li Z,Wang H,Song B,et al.Silencing HMGB1 expression by lentivirus-mediated small interfering RNA (siRNA) inhibits the proliferation and invasion of colorectal cancer LoVo cells in vitro and in vivo[J].Zhonghua Zhong Liu Za Zhi,2015,37(9):664.
[8] 李三黨,景化忠,韓曉鵬,等.小干擾RNA靶向沉默β-catenin基因對胃癌AGS細胞人端粒酶逆轉錄酶的影響[J].現代生物醫學進展,2015,15(11):2014-2017.
[9] 柏杖勇,李清華.PINK1/parkin,線粒體自噬與帕金森病[J].中國老年學雜志,2014(9):2609-2614.
[10] 郭涌斐,孫懿,趙欣,等.DJ-1蛋白對線粒體的功能調節在帕金森病中的作用[J].中國藥理學通報,2016(1):22-26.
[11] 王蘇,馮艷玲.線粒體功能障礙和帕金森病[J].腦與神經疾病雜志,2003,11(6):384-385.
PREDICTIONOFPDDISEASEGENEACTIVITYBASEDONDEEPLEARNING
Li Zichen1,2Tian Shengwei2*Liu Jiangyue1Gao Shuangyin21
(SchoolofInformationEngineering,UrumqiVocationalUniversity,Urumqi830002,Xinjiang,China)2(SchoolofSoftware,XinjiangUniversity,Urumqi830008,Xinjiang,China)
Parkinson’s disease (PD) is a kind of nerve system disease, more common in the elderly. At present, the condition of the etiology and pathogenesis is not clear, but according to multinational clinical trial data statistics and analysis, PINKs gene is one of the important reason to influence the whole PD pathogenesis. This paper study for the structure of activity gene, and the DBN and SAE are proposed for the PINKs activity prediction. The proposed algorithm can learn automatically by the characteristics of deep web unit is suitable for the high nonlinear combination classifier classification feature, and will these high-level features inputs to the classifier for data analysis. The experimental results show that the DBN algorithm the average prediction accuracy of SVM with ANN respectively increased by 28.04%, 18.84%; SAE algorithm the average prediction accuracy of the SVM and ANN respectively increased by 23.51%, 14.31%. In this paper, based on the deep study of PINKs activity prediction method has higher prediction accuracy and stability, in conformity with the theory of distribution are, also is applicable to the activity of research and discussion.
Activity Deep learning SAE Prediction Research
TP3
A
10.3969/j.issn.1000-386x.2017.09.037
2016-10-13。新疆研究生科研創新基金項目(XJGRI2015034)。李自臣,高工,主研領域:大數據分析。田生偉,教授。劉江越,講師。高雙印,碩士生。