999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于全連接自動編碼器的疾病相關microRNA預測

2022-09-28 07:30:34徐春旭
智能計算機與應用 2022年9期
關鍵詞:關聯模型

徐春旭,玄 萍

(黑龍江大學 計算機科學技術學院,哈爾濱 150080)

0 引 言

MicroRNA(miRNA)是一種內源的非編碼RNA,具體長度約為22~24個核苷酸。miRNA通過靶向信使RNA進行剪接或抑制其翻譯,進而在動物和植物中發揮重要的調節作用。越來越多的證據表明,miRNA參與了許多疾病的發生和發展進程。因此,識別可能與疾病相關的候選miRNA,有助于探索疾病的發生機理。

早期的研究主要通過生物實驗獲得準確度高的實驗結果,但實驗成本高、耗時長、成功率低。近年來,研究人員越來越多地利用基于信息學的方法來預測與疾病相關的miRNA,并取得了良好的效果。這些方法可以分成2類。第一類方法主要基于具有相似功能的miRNA,這些miRNA通常與相似的疾病相關。例如,Wang等人基于與miRNA相關的疾病來計算miRNA的相似性。Xuan等人提出了一種基于最相似miRNA節點加權近鄰信息的預測方法。這些方法只適用于與已知miRNA相關的特定疾病,無法預測無已知相關miRNA的新疾病的候選。為了解決這個問題,第二類方法引入了疾病的相似信息。Chen等人提出了結合近鄰和支持向量機的方法,來預測潛在的miRNA-疾病關聯。但上述方法均沒有充分整合異構圖中蘊含的拓撲信息和miRNA所屬的家族和聚簇信息。

RFam和miRBase等數據庫已收錄了miRNA的家族信息。同一家族中的同源miRNA通常具有幾乎相同的種子區,同一家族的miRNA通常具有類似的功能,比如調節相同的目標,因此就更有可能與相似的疾病相關。此外,許多miRNA雖然可能不屬于同一家族,但都位于鄰近的基因組位點上,形成了miRNA聚簇。同一聚簇的miRNA通常同步轉錄并協調表達,并很可能參與了相似的生物過程。因此,miRNA的家族和聚簇信息可以表示為miRNA的節點屬性,以構建更完善的miRNA-疾病異構圖,從而更準確地預測miRNA-疾病關聯。

1 miRNA-疾病關聯預測方法

本文的主要目的是預測潛在的miRNA-疾病關聯候選。為了整合多種連接和節點屬性的信息,首先構建了一個miRNA-疾病異構圖;其次,設計了一個基于全連接自動編碼器的預測模型(Fullyconnected autoencoders MicroRNA-Disease Associations prediction,FMDA);根據模型可以得到某個miRNA與特定疾病之間的關聯得分,分數越高,兩者之間關聯的可能性就越大。

1.1 相關數據集

本文從人類miRNA-疾病數據庫中提取了miRNA與疾病的關聯,該數據庫包含7 908個經過實驗驗證的miRNA-疾病關聯,覆蓋7 93個miRNA和341個疾病。本文基于美國國家醫學圖書館的疾病術語信息構建相應疾病的有向無環圖(DAG),來計算疾病的語義相似性。530個miRNA家族的信息是從miRNA數據庫miRBase中提取的,miRNA的基因組位點信息也來自miRBase。將2個miRNA之間的距離閾值設置為不超過20 kb,從而提取了1 309個聚簇。

1.2 建立miRNA-疾病異構圖

本文構建了疾病相似圖、miRNA相似圖和miRNA-疾病關聯圖,結合miRNA家族和聚簇屬性建立miRNA-疾病異構圖,如圖1所示。由圖1可知,對其中各重要部分擬展開研究分述如下。

圖1 miRNA-疾病異構圖的建立及矩陣表示Fig.1 Construction and matrix representation of miRNA-disease heterogeneous graph

(1)疾病相似圖:計算疾病之間的相似度是構建疾病相似圖的基礎,可以從疾病語義的角度來量化相互間的相似程度。Wang等人根據疾病的有向無環圖計算了疾病的語義相似度。疾病的DAG由與其相關的所有術語組成。2個疾病的DAG中包含越多相似的術語,彼此間就越相似。本文依據該方法計算了第個疾病與第個疾病間的相似度S。 對此可表示為:

其中,,()為與第個疾病d相關的第個術語的語義值,∑ φ i,()( )是與疾病d相關的術語的語義值之和。,()的計算公式可寫為:

其中,是連接了及其子節點t的邊的貢獻調整因子,M是的所有子節點的集合。

疾病相似圖是通過連接所有相似度大于0的疾病對來構建的。相似度是一個介于0和1之間的數,一對疾病之間的相似度就是在圖中連接對應的邊的權重。該圖可以用相似度矩陣[A]∈R來表示,其中是疾病和之間的相似

度,N表示疾病的數量。

每兩個miRNA節點之間的相似度就是miRNA相似圖中兩點間邊的權重。miRNA相似圖可以用相似度矩陣[B]∈R來表示,其中B是miRNA mm之間的相似度,N表示miRNA的數量。

(3)miRNA-疾病關聯圖:當miRNA和疾病節點之間存在已知的關聯時,通過連接miRNA和疾病節點來構建二分圖。根據該二分圖,以邊來連接中的N個miRNA節點和中的N個疾病節點,邊的集合表示為[E]∈R。如果miRNA m與疾病d相關,則E的值為1;如果沒有觀察到這個關聯,則E的值為0。

(4)miRNA節點屬性:當miRNA mm屬于相同的家族或聚簇,就更可能與相似的疾病相關。因此,miRNA的家族和聚簇信息在預測miRNA-疾病關聯中起著重要的作用。矩陣∈R用于表示miRNA家族和聚簇的信息,C是矩陣的第行,表明第個miRNA所屬的家族和聚簇信息,C=1表示miRNA屬于某個家族(或聚簇)。

1.3 miRNA-疾病關聯預測模型

建立的miRNA-疾病異構圖的鄰接矩陣,可表示為式(4):

其中,是miRNA相似矩陣;是疾病相似矩陣;是miRNA-疾病關聯矩陣。

本文將的第行,即W作為相應miRNA或疾病節點的拓撲嵌入向量。此前已經得到了miRNA節點屬性矩陣,本文將的第行、即C作為miRNA m的節點屬性嵌入向量。

為了捕捉miRNA和疾病節點之間的多種連接形成的拓撲信息,并整合miRNA的家族和聚簇屬性,本文將miRNA m的拓撲嵌入向量em的節點屬性嵌入向量c和疾病d的拓撲嵌入向量e,分別輸入到3個全連接自動編碼器中,以學習低維的拓撲表示和節點屬性表示。以e為例,本文將編碼器中全連接層的權重矩陣定義為WW,偏置向量定義為bb,可以根據公式(5)得到編碼后的低維特征表示y

其中,表示激活函數。

通過解碼器去解碼還原得到與輸入向量盡可能相似的輸出向量,解碼器的權重矩陣和偏置分別記作WWbb。 特別地,本文將權重WWWW綁定,即WW以加快訓練速度,避免模型過擬合。解碼器的輸出em可以根據公式(6)得到:

其中,表示激活函數。

自動編碼器的損失函數是均方誤差(),數學定義式見如下:

其中,是樣本數。

FMDA模型的框架示意圖如圖2所示。得到m的低維拓撲表示y和低維節點屬性表示y后,使用另一個全連接自動編碼器來得到m的融合表示z,并使用來預測m與疾病d的關聯得分;將zy橫向拼接以得到節點對m-d的向量表示,并將作為LightGBM的輸入,以得到m-d關聯的預測評分。

圖2 FMDA模型的框架示意圖Fig.2 Framework of the proposed FMDA

2 實驗結果與分析

2.1 評價指標

本文進行了五倍交叉驗證以充分評估FMDA的預測性能。所有已知的miRNA-疾病關聯都被視為正樣本,并被隨機分成5個子集,其中4個子集用于訓練,1個子集用于測試。所有未知的miRNA-疾病關聯均被視為負樣本。隨機選取與正樣本數量相同的負樣本,并隨機分成5個子集,其中4個用于訓練,1個用于測試。

評估指標包括真陽性率()、假陽性率()、受試者工作 特征曲線()下 面積()、精確率()召回率()曲線下面積()。給定閾值,若樣本的預測得分大于,則認為該樣本是正樣本,否則認為是負樣本。和的計算公式,具體如下:

其中,和分別為正確識別的正樣本和負樣本的數量,和分別為錯誤識別的正樣本和負樣本的數量。

計算出不同值所對應的和后,可以畫出曲線,并以曲線下面積作為評價性能的標準。

已知的miRNA-疾病關聯(正樣本)和尚未被觀察到的關聯(負樣本)的比例約為1:33,正樣本和負樣本之間存在著嚴重的不平衡。在不同類別不平衡的情況下,曲線比曲線更具有參考價值。精確率衡量的是被判定為正樣本的樣本中真正的正樣本的占比,召回率是被正確識別的正樣本占所有正樣本總數的比例。因此,本文也用曲線和對應面積來評估模型的預測性能,數學定義公式具體如下:

2.2 與其他方法的比較

為了更好地評估FMDA的預測性能,本文將該模 型 與GSTRW、NCMCMDA、PBMDA和DBNMDA進行對比。通過五倍交叉驗證,得到了這5個模型的曲線和曲線,如圖3所示。在所有341個被測試的疾病中,FMDA取得了最高的平均值(0929),比NCMCMDA高了2.4%,比PBMDA高7.2%,比GSTRW高12.2%,比DBNMDA高2.2%。在所有被測試的疾病中,FMDA的曲線下面積高于其他方法(0.236),比NCMCMDA、PBMDA、GSTRW和DBNMDA分別高7.0%、14.6%、18.6%和4.9%。

圖3 不同預測方法的ROC曲線與PR曲線Fig.3 ROC curves and PR curves of different methods for prediction

此外,對于16個常見疾病,本文列出了這5個模型的預測性能,見表1和表2。在這16個疾病中,FMDA取得了12個疾病的最高;在16個常見疾病中,FMDA取得了10個疾病的最高。

表1 所有疾病的平均AUC與16個常見疾病的AUCTab.1 Average AUC over all the diseases and AUCs of 16 common diseases

表2 所有疾病的平均AUPR與16個常見疾病的AUPRTab.2 Average AUPR over all the diseases and AUPRs of 16 common diseases

3 結束語

本文提出了整合多源數據的相似性、關聯以及miRNA的家族和聚簇屬性的miRNA-疾病關聯預測模型(給出模型的名稱),構建了一個異構圖以形成拓撲嵌入和節點屬性嵌入,并建立了基于全連接自動編碼器的框架來編碼拓撲表示和miRNA節點屬性表示。與其他4個預測模型比較表明本文的模型在和方面均取得了更好的預測性能。

猜你喜歡
關聯模型
一半模型
不懼于新,不困于形——一道函數“關聯”題的剖析與拓展
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
“一帶一路”遞進,關聯民生更緊
當代陜西(2019年15期)2019-09-02 01:52:00
奇趣搭配
智趣
讀者(2017年5期)2017-02-15 18:04:18
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 波多野结衣一区二区三视频| 欧美成人影院亚洲综合图| 91色在线视频| 亚洲综合日韩精品| 亚洲欧美日韩综合二区三区| 成人在线观看不卡| 中文无码精品a∨在线观看| 农村乱人伦一区二区| 国产精品无码作爱| 亚洲人免费视频| 免费a级毛片视频| 妇女自拍偷自拍亚洲精品| 麻豆国产在线观看一区二区| 日韩精品久久久久久久电影蜜臀| 日本日韩欧美| 午夜日b视频| 欧美日韩国产精品综合| 国模沟沟一区二区三区| 操国产美女| 国产精品美女自慰喷水| 无码免费视频| 亚洲国产成人在线| 国产成人在线无码免费视频| 欧美啪啪精品| 欧美激情第一欧美在线| 国产成人精品亚洲日本对白优播| 亚洲男女在线| 亚洲午夜综合网| 亚洲看片网| 国产色偷丝袜婷婷无码麻豆制服| 国产鲁鲁视频在线观看| 国产色爱av资源综合区| 日韩国产精品无码一区二区三区| 秋霞一区二区三区| 亚洲成人精品在线| 中文字幕在线播放不卡| 99偷拍视频精品一区二区| 亚洲国产一成久久精品国产成人综合| 在线免费看片a| 欧美日韩免费在线视频| 亚洲一区无码在线| 91福利免费| 久久鸭综合久久国产| 99久久亚洲综合精品TS| 亚洲人成网站色7799在线播放| 日韩欧美一区在线观看| 五月婷婷丁香综合| 国产精品页| 日韩欧美视频第一区在线观看| 成人在线综合| 精品成人一区二区| 国产精品福利社| 亚洲最大看欧美片网站地址| 特级aaaaaaaaa毛片免费视频| 国产欧美视频一区二区三区| 色综合中文综合网| 青草视频久久| 国产成本人片免费a∨短片| 久久99国产精品成人欧美| 国产成人av大片在线播放| 欧美性色综合网| www.91中文字幕| 国产偷国产偷在线高清| 中文字幕无线码一区| 精品小视频在线观看| 91人妻日韩人妻无码专区精品| 91伊人国产| 亚洲国产天堂久久九九九| 国产欧美亚洲精品第3页在线| 美女无遮挡被啪啪到高潮免费| 成年人久久黄色网站| 久久精品嫩草研究院| 18禁黄无遮挡免费动漫网站| 日本www在线视频| 国产欧美成人不卡视频| 岛国精品一区免费视频在线观看 | 欧美福利在线| 久久黄色毛片| 白浆视频在线观看| 日本免费精品| 国产成人免费| 亚洲天堂网在线观看视频|