劉曉燕,陳希,郭茂祖,2,車凱,王春宇
(1. 哈爾濱工業大學 計算機科學與技術學院,黑龍江 哈爾濱 150001; 2. 北京建筑大學 電氣與信息工程學院,北京 100044)
MicroRNAs(miRNAs)是一類很小的內源性非編碼RNA,長度約為20~24個核苷酸,通過堿基配對與其靶向的mRNA的3'端非編碼區相結合,導致靶mRNA的降解或翻譯抑制,從而在轉錄后水平上調控基因表達[1-3]。越來越多的證據表明,miRNA在免疫反應、轉錄、增殖、分化、信號傳導和胚胎發育等[4-7]生物過程中起著重要的作用,miRNA突變、miRNA的生物合成和miRNA與其靶mRNA的功能失調可能會導致各種疾病。因此,識別miRNA與疾病之間的互作關系至關重要。早期研究采用生物學實驗方法確定miRNA與特定疾病的關系,然而生物學實驗方法實驗周期長、成本高。因此計算生物學方法分析、預測miRNAs和疾病的關聯問題成為了當前的研究熱點。
目前,miRNA和疾病的關聯預測主要分為基于網絡拓撲結構的方法和機器學習的方法。
基于網絡拓撲結構的研究方法建立在“功能相似的miRNA調控的疾病也比較相似,反之亦然[8-9]”這個假設基礎上,文獻[10-19]就此展開了一系列研究工作。2010年,Jiang等[10]首次提出一種計算方法,構建功能相關miRNA網絡和人類疾病表型-miRNA網絡,將人類的miRNA組按照與疾病關聯得分的大小排序,預測miRNA與疾病的關聯。這是以前用基于網絡的方法預測與疾病相關的編碼蛋白基因的合理延伸。2010年,Jiang等[11]又提出一種基于基因組數據融合的新方法,用樸素貝葉斯模型融合多種來源的數據,構建一個模型預測基因之間的功能相關性。分別用兩個向量表示疾病與基因之間的關聯、miRNA與靶基因之間的關聯。對于給定的疾病,計算其與每個miRNA的相似得分,并從高到低排序,最高得分為與該疾病相關的miRNA。Chen等[12]將隨機游走算法應用到miRNA-miRNA功能相似網絡,在給定的種子結點處開始,將已知的關聯關系的大小作為轉移概率,模擬網絡中當前結點擴散到其鄰結點的過程,以此來挖掘網絡中可能潛在的關聯關系。Chen等[13]在2013年又提出一種基于相似度的方法,分為3個策略:基于miRNA的相似度推斷 (miRNA-based similarity inference,MBSI)、基于表型的相似度推斷(phenotype-based similarity inference,PBSI)和基于網絡一致性的推斷(networkconsistency-based inference,NetCBI);Shi等[14]于2013年提出一種基于可重啟的隨機游走 (random walk with restart,RWR)算法的新方法,將疾病基因和miRNA靶基因映射到蛋白質?蛋白質互作(protein-protein interaction,PPI)網絡上,設置不同的種子應用RWR算法;Xuan等[15]后又提出名為HDMP的方法——基于加權最相似k近鄰的方法,預測與疾病相關的miRNA;Xu等[16]主要通過比對miRNA與mRNA表達譜融合多種疾病的表型關聯,預測與癌癥相關的miRNA;2013年,Mork等[17]提出一種蛋白質介導的預測方法,通過miRNA與蛋白質之間的關聯、蛋白質與疾病之間的關聯預測miRNA與疾病之間的關系;2016年,Sun等[19]提出了基于已知的miRNA-疾病網絡拓撲相似性,以挖掘更多潛在的與疾病相關的miRNA,利用二分投影的方法,來完成miRNA與疾病的關聯預測工作。
到目前為止,基于網絡拓撲結構的研究方法處理miRNAs和疾病的關聯預測問題上,更多的傾向于基于已知的關聯關系來挖掘其中潛在的關系,而對缺少已知關聯信息的miRNAs和疾病,其結果往往呈現隨機化。
在機器學習方法研究上。2012年,Xu等[20]首先使用機器學習方法預測miRNA與疾病之間的關系。這種方法旨在從大規模的反例中分辨出正例關聯,核心是從miRNA-疾病網絡中提取特征,訓練一個SVM分類器。2013年,Jiang等[21]又通過構建不同于Xu的特征集——一個關于miRNA信息的特征集和一個關于疾病表型信息的特征集,應用此方法得到相近的結果。2014年,Chen等[22]提出一種半監督的全局化方法(regularized least squares for mirna-disease association,RLSMDA),在沒有負例集的情況下預測miRNA與疾病的關聯。用正則化最小二乘法構建一個連續的分類函數,表示每個miRNA與給定疾病相關的概率,對于未知相關miRNA的疾病,該方法也適用。
基于機器學習的方法能夠取得與“基于網絡拓撲結構方法”相近或者更好結果,有的甚至很好地處理未知miRNA的疾病,例如RLSMDA。而機器學習主要受制于miRNAs與疾病特征的表示,以及對如何處理有正樣本數據的模型設計。
基于矩陣分解的算法用高維空間的向量解決了特征表示的問題,算法同時構建miRNAs和疾病在高維空間的表示,并以此為基礎獲得其關聯關系,用迭代最小二乘法求解出最終的miRNA-疾病關聯關系的概率。這個求解思路來源于推薦系統中當前所流行的矩陣分解方法,對解決類似的關聯關系預測問題在近年來也被證明非常有效。Shen[23]在2017年首次提出基于矩陣分解的方法對miRNAs和疾病的關聯關系進行預測,并取得了比Chen[22]更好的效果,但在其迭代求解的過程中,受到其損失函數的影響無法使用最小二乘法,導致其每個變量都需要迭代求解,這在同時要求多個變量迭代求解的情況下,其結果很大程度上依賴于初始解的選擇,在很多的情況下甚至無法收斂,算法的穩定性難以保證。
本文提出的LMFMDA算法,首先構建miRNAs相似性網絡、疾病相似性網絡和miRNA-疾病關聯網絡;進而構建矩陣分解算法模型,算法在利用迭代最小二乘法優化求解的過程中,通過引入輔助miRNAs和疾病變量的方法,提高計算速度,解決收斂結果最優的問題,確保算法的穩定性。
在本節介紹LMFMDA算法所使用的數據和處理方法。數據來源如表1所示。

表 1 數據材料及其來源表題Table 1 Data materials and the sources
直接從MISIM數據庫獲得miRNAs的功能相似度網絡MS,網絡中miRNA之間的相似度被表示為[0, 1]的實數。
疾病的語義相似性通過MeSH得到,計算方法來自Wang[24],假設疾病t是疾病d的一個祖先,或者 d=t,令:

疾病1和疾病2之間的語義相似性DS(d1,d2)即

在HMDD數據庫下載了現有的miRNAs-疾病關聯關系網絡。網絡包含了378個疾病、571個miRNAs及其構成的10 381個關聯關系。關聯矩陣R中,如果miRNA m(i)和疾病 d(j)被認為有關,則 R(m(i)、d(j))為 1,否則,為 0。
將上述3個數據庫的數據進行融合,最終得到了重合的446個miRNAs和322個疾病,和已經確認的5 152條miRNAs-疾病關聯關系。
在疾病上的分布如圖1所示。

圖1 miRNAs-疾病關聯關系在疾病中的分布圖Fig. 1 Distribution map of the miRNAs-disease association in diseases
在miRNA上的分布如圖2所示。

圖2 miRNAs-疾病關聯關系在miRNA中的分布圖Fig. 2 Distribution map of the miRNAs-disease association in miRNAs
本文中,引入了矩陣分解的思想來解決miRNAs-疾病關聯關系預測問題。
首先,通過整合miRNAs功能相似度網絡和疾病語義相似性網絡得到最終的miRNAs相似度矩陣MS和疾病相似度矩陣DS,以及已經被實驗驗證的miRNAs-疾病關聯網絡R。

首先,對每個miRNA和疾病,給定它們在固定長度為k的維度空間的初始化投影向量,并以其內積來表示miRNAs和疾病的關聯關系,可以用式(3)表示:式中:M是由m(本文中m=446)個k維列向量組成的k行m列的矩陣,同樣的,D是k行d列(本文中d=322)的矩陣。我們的目標即是通過求解合適的M和D來最小化R′和真實關系R的距離,即

考慮到這樣的函數是二次的形式,在迭代優化時很難化簡為不含有自身變量的等式,這會使得在迭代的過程中無法取得最優解,我們引入了輔助矩陣X和Y來進行優化,式(4)可以變形為

經驗性地,我們對需要約束的M、D加入二范數的約束,以防止模型陷入過擬合。最終的損失函數如式(6)所示:

我們采用迭代最小二乘的方式來優化這個問題,先固定D、X、Y,求解M。對M求導,有

同樣,固定其他參數,分別求解D、X、Y,有:

具體算法步驟如下:
1) 初始化miRNAs和疾病的向量矩陣M、D,以及輔助向量X、Y,并構建損失函數;
2) 用迭代最小二乘法求解M和D;
3)根據M和D預測miRNAs-疾病的關聯關系。

算法框架如圖3所示。

圖3 LMFMDA算法模型框圖Fig. 3 The flow chat of LMFMDA algorithm model
空間復雜度上,LMFMDA要求MS、DS、R、M、D、X和Y的存儲空間,其空間復雜度為
實驗采用留一交叉驗證方式進行,對每個關系,將同一疾病下的未知關聯視為負例,當前關聯視為正例,最終得到的AUC作為評價結果。
miRNAs與疾病的向量矩陣M與D初始化為取值在[0, 1]上的隨機向量,X與Y分別初始化為等同于M和D。
在第1節得到的446個miRNAs和322個疾病上分別實驗了 RWRMDA[13]、RLSMDA[22]、CMFMDA[23]以及本文提出的LMFMDA算法。實驗結果如圖4所示,LMFMDA的效果明顯好于其他3種方法。

圖4 RWRMDA、CMFMDA、RLSMDA和LMFMDA的AUC結果Fig. 4 The AUC results of RWRMDA, CMFMDA, RLSMDA and LMFMDA
我們分別記錄了已知關聯數>60的21個疾病的實驗結果(見表2、表3),以及已知關聯數=1的部分疾病的實驗結果。已知關聯數為1的疾病在進行留一法實驗時,會將唯一一個已知的關聯miRNA抹去,此時其已知關聯數變為0,可以用于考察算法在新疾病中的應用效果。

表 2 高關聯疾病在不同算法下的AUC結果Table 2 The AUC results of high association diseases on different algorithm

續表2

表 3 新疾病在不同算法下的AUC結果Table 3 The AUC results of new diseases on different algorithm
可以看到,不論是在關聯數較多的疾病或關聯數極少的疾病上,LMFMDA均表現出了優異的效果。
在提出LMFMDA的損失函數前,曾試圖對每個miRNA和疾病標注一個先驗關聯值,作為第k+1維,也是不參與運算的常數維。即:

然而其k值和AUC關聯關系如圖5所示。

圖5 帶常數維模型中k與AUC關系圖Fig. 5 The relation diagram of k and AUC in a model with constant dimensional
可以看到,在k>100時,AUC值基本趨于穩定。而對k=100維這樣的子空間來說,單獨的常數維并不會對結果有很大的影響,于是刪除了假設的先驗關聯值,最終確定了預測模型。
本文基于矩陣分解和迭代最小二乘的方法(LMFMDA)對miRNAs和疾病的關聯關系進行預測。首先對miRNAs相似度矩陣、疾病相似度矩陣和miRNAs-疾病關聯關系進行數據融合,采用迭代最小二乘法求解miRNAs和疾病的表達向量,最后利用miRNAs和疾病的表達向量完成對miRNA與疾病關聯關系的預測。同時,通過引入輔助miRNAs和疾病變量的方法,解決了收斂結果的最優問題。實驗顯示,LMFMDA在高關聯疾病和新疾病預測中相對于其他方法均取了較優的結果。
綜上,本文提出的miRNA與疾病關聯預測算法LMFMDA,一方面可以處理未知相關miRNAs的疾病、或者未知相關疾病的miRNAs;另一方面,實驗結果也表明,LMFMDA算法在miRNAs和疾病的關聯關系預測上相較其他算法有更好的效果。