基于全連接自動編碼器的疾病相關microRNA預測

2022-09-28 07:30:34徐春旭

智能計算機與應用 2022年9期

徐春旭，玄萍

（黑龍江大學計算機科學技術學院，哈爾濱 150080）

0 引言

MicroRNA（miRNA）是一種內源的非編碼RNA，具體長度約為22～24個核苷酸。miRNA通過靶向信使RNA進行剪接或抑制其翻譯，進而在動物和植物中發揮重要的調節作用。越來越多的證據表明，miRNA參與了許多疾病的發生和發展進程。因此，識別可能與疾病相關的候選miRNA，有助于探索疾病的發生機理。

早期的研究主要通過生物實驗獲得準確度高的實驗結果，但實驗成本高、耗時長、成功率低。近年來，研究人員越來越多地利用基于信息學的方法來預測與疾病相關的miRNA，并取得了良好的效果。這些方法可以分成2類。第一類方法主要基于具有相似功能的miRNA，這些miRNA通常與相似的疾病相關。例如，Wang等人基于與miRNA相關的疾病來計算miRNA的相似性。Xuan等人提出了一種基于最相似miRNA節點加權近鄰信息的預測方法。這些方法只適用于與已知miRNA相關的特定疾病，無法預測無已知相關miRNA的新疾病的候選。為了解決這個問題，第二類方法引入了疾病的相似信息。Chen等人提出了結合近鄰和支持向量機的方法，來預測潛在的miRNA-疾病關聯。但上述方法均沒有充分整合異構圖中蘊含的拓撲信息和miRNA所屬的家族和聚簇信息。

RFam和miRBase等數據庫已收錄了miRNA的家族信息。同一家族中的同源miRNA通常具有幾乎相同的種子區，同一家族的miRNA通常具有類似的功能，比如調節相同的目標，因此就更有可能與相似的疾病相關。此外，許多miRNA雖然可能不屬于同一家族，但都位于鄰近的基因組位點上，形成了miRNA聚簇。同一聚簇的miRNA通常同步轉錄并協調表達，并很可能參與了相似的生物過程。因此，miRNA的家族和聚簇信息可以表示為miRNA的節點屬性，以構建更完善的miRNA-疾病異構圖，從而更準確地預測miRNA-疾病關聯。

1 miRNA-疾病關聯預測方法

本文的主要目的是預測潛在的miRNA-疾病關聯候選。為了整合多種連接和節點屬性的信息，首先構建了一個miRNA-疾病異構圖；其次，設計了一個基于全連接自動編碼器的預測模型（Fullyconnected autoencoders MicroRNA-Disease Associations prediction，FMDA）；根據模型可以得到某個miRNA與特定疾病之間的關聯得分，分數越高，兩者之間關聯的可能性就越大。

1.1 相關數據集

本文從人類miRNA-疾病數據庫中提取了miRNA與疾病的關聯，該數據庫包含7 908個經過實驗驗證的miRNA-疾病關聯，覆蓋7 93個miRNA和341個疾病。本文基于美國國家醫學圖書館的疾病術語信息構建相應疾病的有向無環圖（DAG），來計算疾病的語義相似性。530個miRNA家族的信息是從miRNA數據庫miRBase中提取的，miRNA的基因組位點信息也來自miRBase。將2個miRNA之間的距離閾值設置為不超過20 kb，從而提取了1 309個聚簇。

1.2 建立miRNA-疾病異構圖

本文構建了疾病相似圖、miRNA相似圖和miRNA-疾病關聯圖，結合miRNA家族和聚簇屬性建立miRNA-疾病異構圖，如圖1所示。由圖1可知，對其中各重要部分擬展開研究分述如下。

圖1 miRNA-疾病異構圖的建立及矩陣表示Fig.1 Construction and matrix representation of miRNA-disease heterogeneous graph

（1）疾病相似圖：計算疾病之間的相似度是構建疾病相似圖的基礎，可以從疾病語義的角度來量化相互間的相似程度。Wang等人根據疾病的有向無環圖計算了疾病的語義相似度。疾病的DAG由與其相關的所有術語組成。2個疾病的DAG中包含越多相似的術語，彼此間就越相似。本文依據該方法計算了第個疾病與第個疾病間的相似度S。對此可表示為：

其中，，()為與第個疾病d相關的第個術語的語義值，∑ φ i，()( )是與疾病d相關的術語的語義值之和。，()的計算公式可寫為：

其中，是連接了及其子節點t的邊的貢獻調整因子，M是的所有子節點的集合。

疾病相似圖是通過連接所有相似度大于0的疾病對來構建的。相似度是一個介于0和1之間的數，一對疾病之間的相似度就是在圖中連接對應的邊的權重。該圖可以用相似度矩陣[A]∈R來表示，其中是疾病和之間的相似

度，N表示疾病的數量。

每兩個miRNA節點之間的相似度就是miRNA相似圖中兩點間邊的權重。miRNA相似圖可以用相似度矩陣[B]∈R來表示，其中B是miRNA m和m之間的相似度，N表示miRNA的數量。

（3）miRNA-疾病關聯圖：當miRNA和疾病節點之間存在已知的關聯時，通過連接miRNA和疾病節點來構建二分圖。根據該二分圖，以邊來連接中的N個miRNA節點和中的N個疾病節點，邊的集合表示為［E］∈R。如果miRNA m與疾病d相關，則E的值為1；如果沒有觀察到這個關聯，則E的值為0。

（4）miRNA節點屬性：當miRNA m和m屬于相同的家族或聚簇，就更可能與相似的疾病相關。因此，miRNA的家族和聚簇信息在預測miRNA-疾病關聯中起著重要的作用。矩陣∈R用于表示miRNA家族和聚簇的信息，C是矩陣的第行，表明第個miRNA所屬的家族和聚簇信息，C＝1表示miRNA屬于某個家族（或聚簇）。

1.3 miRNA-疾病關聯預測模型

建立的miRNA-疾病異構圖的鄰接矩陣，可表示為式（4）：

其中，是miRNA相似矩陣；是疾病相似矩陣；是miRNA-疾病關聯矩陣。

本文將的第行，即W作為相應miRNA或疾病節點的拓撲嵌入向量。此前已經得到了miRNA節點屬性矩陣，本文將的第行、即C作為miRNA m的節點屬性嵌入向量。

為了捕捉miRNA和疾病節點之間的多種連接形成的拓撲信息，并整合miRNA的家族和聚簇屬性，本文將miRNA m的拓撲嵌入向量e、m的節點屬性嵌入向量c和疾病d的拓撲嵌入向量e，分別輸入到3個全連接自動編碼器中，以學習低維的拓撲表示和節點屬性表示。以e為例，本文將編碼器中全連接層的權重矩陣定義為W和W，偏置向量定義為b和b，可以根據公式（5）得到編碼后的低維特征表示y：

其中，表示激活函數。

通過解碼器去解碼還原得到與輸入向量盡可能相似的輸出向量，解碼器的權重矩陣和偏置分別記作W、W、b和b。特別地，本文將權重W和W與W和W綁定，即W，W以加快訓練速度，避免模型過擬合。解碼器的輸出em可以根據公式（6）得到：

其中，表示激活函數。

自動編碼器的損失函數是均方誤差（），數學定義式見如下：

其中，是樣本數。

FMDA模型的框架示意圖如圖2所示。得到m的低維拓撲表示y和低維節點屬性表示y后，使用另一個全連接自動編碼器來得到m的融合表示z，并使用來預測m與疾病d的關聯得分；將z與y橫向拼接以得到節點對m-d的向量表示，并將作為LightGBM的輸入，以得到m-d關聯的預測評分。

圖2 FMDA模型的框架示意圖Fig.2 Framework of the proposed FMDA

2 實驗結果與分析

2.1 評價指標

本文進行了五倍交叉驗證以充分評估FMDA的預測性能。所有已知的miRNA-疾病關聯都被視為正樣本，并被隨機分成5個子集，其中4個子集用于訓練，1個子集用于測試。所有未知的miRNA-疾病關聯均被視為負樣本。隨機選取與正樣本數量相同的負樣本，并隨機分成5個子集，其中4個用于訓練，1個用于測試。

評估指標包括真陽性率（）、假陽性率（）、受試者工作特征曲線（）下面積（）、精確率（）召回率（）曲線下面積（）。給定閾值，若樣本的預測得分大于，則認為該樣本是正樣本，否則認為是負樣本。和的計算公式，具體如下：

其中，和分別為正確識別的正樣本和負樣本的數量，和分別為錯誤識別的正樣本和負樣本的數量。

計算出不同值所對應的和后，可以畫出曲線，并以曲線下面積作為評價性能的標準。

已知的miRNA-疾病關聯（正樣本）和尚未被觀察到的關聯（負樣本）的比例約為1：33，正樣本和負樣本之間存在著嚴重的不平衡。在不同類別不平衡的情況下，曲線比曲線更具有參考價值。精確率衡量的是被判定為正樣本的樣本中真正的正樣本的占比，召回率是被正確識別的正樣本占所有正樣本總數的比例。因此，本文也用曲線和對應面積來評估模型的預測性能，數學定義公式具體如下：

2.2 與其他方法的比較

為了更好地評估FMDA的預測性能，本文將該模型與GSTRW、NCMCMDA、PBMDA和DBNMDA進行對比。通過五倍交叉驗證，得到了這5個模型的曲線和曲線，如圖3所示。在所有341個被測試的疾病中，FMDA取得了最高的平均值（0929），比NCMCMDA高了2.4%，比PBMDA高7.2%，比GSTRW高12.2%，比DBNMDA高2.2%。在所有被測試的疾病中，FMDA的曲線下面積高于其他方法（0.236），比NCMCMDA、PBMDA、GSTRW和DBNMDA分別高7.0%、14.6%、18.6%和4.9%。

圖3 不同預測方法的ROC曲線與PR曲線Fig.3 ROC curves and PR curves of different methods for prediction

此外，對于16個常見疾病，本文列出了這5個模型的預測性能，見表1和表2。在這16個疾病中，FMDA取得了12個疾病的最高；在16個常見疾病中，FMDA取得了10個疾病的最高。

表1 所有疾病的平均AUC與16個常見疾病的AUCTab.1 Average AUC over all the diseases and AUCs of 16 common diseases

表2 所有疾病的平均AUPR與16個常見疾病的AUPRTab.2 Average AUPR over all the diseases and AUPRs of 16 common diseases

3 結束語

本文提出了整合多源數據的相似性、關聯以及miRNA的家族和聚簇屬性的miRNA-疾病關聯預測模型（給出模型的名稱），構建了一個異構圖以形成拓撲嵌入和節點屬性嵌入，并建立了基于全連接自動編碼器的框架來編碼拓撲表示和miRNA節點屬性表示。與其他4個預測模型比較表明本文的模型在和方面均取得了更好的預測性能。