999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于神經(jīng)網(wǎng)絡(luò)的LncRNA 與蛋白質(zhì)互作關(guān)系預(yù)測算法*

2022-04-07 03:43:00李巧君李江岱王愛菊
計算機(jī)與數(shù)字工程 2022年3期
關(guān)鍵詞:特征融合方法

李巧君 李江岱 王愛菊

(1.河南工業(yè)職業(yè)技術(shù)學(xué)院電子信息工程學(xué)院 南陽 473000)(2.鄭州工程技術(shù)學(xué)院信息工程學(xué)院 鄭州 450000)

1 引言

長鏈非編碼RNA(Long non-coding RNA,LncRNA)是一種不具有顯著開放性讀碼框而長度大于200 個核苷酸的非編碼功能細(xì)胞內(nèi)源性RNA[1]。與信使RNA(mRNA)相比,由于LncRNA 拼接效率較低常被認(rèn)為是轉(zhuǎn)錄噪聲,然而,實驗證明LncRNA 在植物的發(fā)育、激素依賴性信號傳導(dǎo)和脅迫反應(yīng)中具有不可或缺的作用[2],特別是LncRNA 與蛋白相互作用與基因表達(dá)調(diào)控和植物抗病等細(xì)胞過程有關(guān)。LncRNA 均是通過與相應(yīng)的RNA 結(jié)合蛋白的相互作用而發(fā)揮作用的,RNA 結(jié)合蛋白也可以與不同的LncRNA 相互作用,調(diào)節(jié)不同的細(xì)胞過程[3]。因此,識別潛在的LncRNA 與蛋白質(zhì)相互作用對于理解LncRNA功能至關(guān)重要。

目前,對于LncRNA 和蛋白質(zhì)相互調(diào)控機(jī)制的研究大多集中在動物和人類癌癥方面,在植物中還沒有廣泛的研究,為深入探索LncRNA 和蛋白質(zhì)的相互作用,本文借鑒PLRPIM[4]方法,使用K-mer 和One-hot 分別提取LncRNA 和蛋白質(zhì)的數(shù)字向量,利用棧式自編碼器(Autoencoder,AE)[5]和融合神經(jīng)網(wǎng)絡(luò)分別提取特征向量,對特征向量進(jìn)行點(diǎn)乘方法形成整體特征的融合矩陣,最后通過訓(xùn)練以整體特征為輸入并且融合了注意力機(jī)制[6]的深層網(wǎng)絡(luò)結(jié)構(gòu),獲得了具有期望功能的預(yù)測模型。該模型結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(ConvoLutionaL NeuraL Networks,CNN)[7]和長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)[8]的不同優(yōu)勢,充分獲得具有時間依賴和參數(shù)共享特點(diǎn)的更加高級的特征,實現(xiàn)了對LncRNA和蛋白質(zhì)互作關(guān)系的關(guān)聯(lián)預(yù)測。通過以玉米和擬南芥為樣本的試驗,可以看出本方法具有較為穩(wěn)定且良好的表現(xiàn)。

2 相關(guān)工作

預(yù)測LncRNA與蛋白質(zhì)的相互作用研究一般分為實驗法和計算預(yù)測兩種方法。2015年Marinbejar和Huarte 提出RNA 下拉法(RNA-puLLdown)[9],2016 年GagLiardi 和Matarazzo 提出RNA 結(jié) 合蛋 白免疫共沉淀技術(shù)(RIP)[10]等,這些均是通過實驗方法獲取相互作用,傳統(tǒng)的濕實驗方法不僅耗時費(fèi)力,在實驗過程中僅有少量的LncRNA 與蛋白質(zhì)相互作用關(guān)系被證實,所以使用計算預(yù)測的方法來作為LncRNA-蛋白質(zhì)互作研究的補(bǔ)充機(jī)制顯得尤為重要。

深度學(xué)習(xí)(Deep Learning,DL)方法已被研究人員廣泛應(yīng)用于人類和植物疾病中的分子機(jī)制[11]。2011 年,MuppiraLa 等提出了一種名為RPISeq 的方法,該方法提取了3-mer 和4-mer 序列特征來訓(xùn)練RF和SVM模型,用于預(yù)測蛋白質(zhì)-RNA相互作用[12]。2013年,王等基于樸素貝葉斯(NB)和擴(kuò)展的NB分類器,提出了一種預(yù)測蛋白質(zhì)和RNA 之間相互作用的模型[13]。2016 年,Pan 等開發(fā)了一種基于序列的方法IPMiner,基于堆疊式自動編碼器預(yù)測LncRNA-蛋白質(zhì)相互作用[14]。2018 年Yi等提出了基于堆疊式自動編碼器和RF 的RPI-SAN 用于LncRNA-蛋白質(zhì)相互作用的方法[15],同年,Hu 等提出了一種新的工具HLPI-EnsembLe,該工具基于SVM、極端梯度增強(qiáng)(XGB)和RF 來預(yù)測人類LncRNA-蛋白質(zhì)相互作用[16]。

以上的方法均與序列的生物學(xué)或理化性質(zhì)有關(guān),但是通常不同物種中的生物性質(zhì)和特點(diǎn)會有所不同,因此,利用生物特性作為特征用于預(yù)測是蛋白質(zhì)和LncRNA 否具有關(guān)聯(lián)性的方法可能在不同物種中的性能會有較大差異,所以尋找一個以大部分物種共性為特征的新方法,可能有助于預(yù)測模型獲得更好的泛化性能。本文提出了一種基于學(xué)習(xí)的混合方法,使用融合神經(jīng)網(wǎng)絡(luò)預(yù)測LncRNA 和蛋白質(zhì)關(guān)聯(lián)作用,稱為PIPAFNN,在擬南芥和玉米兩個數(shù)據(jù)集上的實驗結(jié)果表明,我們的方法優(yōu)于RPISeq-RF、RPI-SAN和IPMiner方法。

3 數(shù)據(jù)預(yù)處理

3.1 數(shù)據(jù)集與實驗環(huán)境

本模型在Python 3.7.3 環(huán)境下利用Keras 2.3.1實現(xiàn),選取擬南芥和玉米的LncRNA 及其結(jié)合蛋白質(zhì)的序列數(shù)據(jù)作為樣本數(shù)據(jù)集。數(shù)據(jù)集源自植物L(fēng)ncRNA 數(shù)據(jù)庫(PLncRNADB),網(wǎng)站:http://bis.zju.edu.cn/PLncRNADB。擬南芥擁有390 個LncRNA和163 個RNA 結(jié)合蛋白,包含948 個陽性樣本(互動對),玉米擁有1107 個LncRNA 和190 個RNA 結(jié)合蛋白,包含22,133 個陽性樣本。通過將蛋白質(zhì)與LncRNA 隨機(jī)配對并進(jìn)一步去除現(xiàn)有的陽性對,擬南芥包含2867 個陰性樣本,玉米包含24361 個陰性樣本。

表1 擬南芥和玉米樣本數(shù)據(jù)集統(tǒng)計

3.2 數(shù)據(jù)預(yù)處理及特征編碼

1)K-mer 矩陣

特征是LncRNA 和蛋白質(zhì)的基于序列的整合屬性,這些屬性編碼為用于預(yù)測的數(shù)字載體。本文選擇k-mer 模型從LncRNA 和蛋白質(zhì)中提取特征,其中遺傳序列子集S的長度用一個整數(shù)k表示。為了獲得高效的特征,我們從由LncRNAs 和蛋白質(zhì)的各種性質(zhì)編碼的特征向量中提取了一組599 個描述子。從LncRNA 序列中共獲得256 個特征,從蛋白質(zhì)序列中獲得343個氨基酸描述符。

我們通過從左到右搜索每個序列提取RNA 序列(A,C,G,T)的4聚體稀疏矩陣,得到256(4×4×4×4)特征圖。對于蛋白質(zhì)序列,我們根據(jù)它們的化學(xué)相似性來劃分氨基酸組成。根據(jù)偶極矩(<1.0,<1.0,(1.0,2.0),(2.0,3.0),>3.0,>3.0,and<1.0)和鏈體積(<50,>50,>50,>50,>50,>50,>50,>50和<50)對蛋白質(zhì)序列的7 組物理化學(xué)性質(zhì){VaL,GLy,ALa},{Phe,Pro,Leu,ILe},{Ser,Tyr,Met,Thr},{His,Asn,Tpr,GLn},{Arg,Lys},{GLu,Asp}和{Cys}進(jìn)行編號,提取3聚體標(biāo)記,形成343個(7×7×7)稀疏矩陣特征圖。

2)One-hot 編碼

本文除K-mer 矩陣外,還使用One-hot 方法來獲取序列的可計算特征。One-hot 就是每個位點(diǎn)只具有一個熱點(diǎn)的信息提取方法。本文的每個LncRNA 和蛋白質(zhì)樣本數(shù)據(jù),在One-hot 編碼后可分別得到大小為4 × L 和20 × L 的特征矩陣。由于相互作用的LncRNA 和蛋白質(zhì)片段均為不定長的序列,這給后續(xù)的模型計算和預(yù)測研究造成了很大阻力,我們通過利用K-mer 和One-hot 補(bǔ)0 的方法對序列文本信息進(jìn)行編碼,即可將變長的序列轉(zhuǎn)化為定長的特征矩陣,以便輸入到后續(xù)的特征提取和模型學(xué)習(xí)。

4 PIPAFNN模型

本文提出的PIPAFNN 模型由特征提取、特征融合、注意力機(jī)制和評分預(yù)測四個階段組成。模型的整體結(jié)構(gòu)如圖1所示。

圖1 模型整體結(jié)構(gòu)圖

4.1 特征提取階段

本文使用棧式自編碼器和融合神經(jīng)網(wǎng)絡(luò)分別對兩種特征向量進(jìn)行特征提取。我們采用單層棧式自編碼器將LncRNA 和蛋白質(zhì)由K-mer 特征編碼得到的稀疏矩陣進(jìn)行壓縮,得到大小為32 維的特征矩陣。為了便于區(qū)分,此處將壓縮LncRNA 得到的特征矩陣記為θu,而對于蛋白質(zhì)得到的特征矩陣記為φi。其中θu代表樣本中第u 條LncRNA 的自編碼器特征矩陣,φi代表樣本中第i 條蛋白質(zhì)經(jīng)自編碼器提取出的特征矩陣。

本文運(yùn)用CNN-LSTM 融合神經(jīng)網(wǎng)絡(luò)對經(jīng)過One-hot 處理的特征矩陣進(jìn)行特征提取,結(jié)合CNN和LSTM 的不同優(yōu)勢,獲得具有時間依賴和參數(shù)共享特點(diǎn)的更加高級的特征。在模型中,對LncRNA用大小為3×3,步長為1 的卷積核進(jìn)行卷積,并用最大池化對數(shù)據(jù)降維,一共經(jīng)過三次卷積層和池化層交替得到更加顯著的深層信息,并且在經(jīng)過展開后接入到到LSTM 層中,進(jìn)行以ReLU 為激活函數(shù)的更加精確學(xué)習(xí),最后再加入全連接層將其展開為32 維,以對應(yīng)用自編碼器提取出的特征大小,便于后續(xù)的特征融合。對于蛋白質(zhì)也采用同樣的流程,有所不同的是蛋白質(zhì)中對應(yīng)的卷積核大小為5×5。

4.2 特征融合階段

特征融合部分將嵌入的特征和基于回顧的特征進(jìn)行融合,以便更好地進(jìn)行表征學(xué)習(xí)。在以往的研究中,將基于評分和基于評論的特征相結(jié)合的策略被廣泛采用來提高推薦性能。加法融合方法已經(jīng)在RBLT 和ITLFM 中得到應(yīng)用,為了獲取更佳的預(yù)測效果,我們在加法融合之后直接添加一個全連接神經(jīng)層,全連接層采用非線性ReLU 激活函數(shù)。在實驗過程中,我們發(fā)現(xiàn)附加層可以有效地提高性能。

在經(jīng)過兩種不同的管道分別對LncRNA 和蛋白進(jìn)行特征提取后,它們均得到兩個類別的特征。分別將兩者的兩個特征進(jìn)行融合,得到LncRNA 的整體特征pu以及蛋白質(zhì)的組合特征qi,pu代表第u個LncRNA 樣本的特征矩陣,qi代表第i 個蛋白質(zhì)樣本的特征矩陣。最后再將LncRNA 和蛋白質(zhì)的特征矩陣都結(jié)合起來,形成一個總體的樣本特征矩陣。

4.3 注意力機(jī)制階段

Mnih 等在2014 年提出了注意力機(jī)制,以觀察使用者在其關(guān)注項目中更加注重的特征,同時對關(guān)注度有所差異的屬性賦予不同的關(guān)注向量。

本文將注意力機(jī)制應(yīng)用于LncRNA 與蛋白質(zhì)互作的預(yù)測模型中,通過將在歷史學(xué)習(xí)中得到的信息添加到模型里,以識別在預(yù)測中對于不同樣本具有突出貢獻(xiàn)的特征空間中的不同主要屬性,并對其賦予不同的關(guān)注度,形成具有特征偏好的模型,獲得更優(yōu)的預(yù)測效果。注意向量是在將自編碼器得到的LncRNA 和蛋白質(zhì)特征加上融合后的特征矩陣作為注意向量的輸入后,經(jīng)過權(quán)重和偏置運(yùn)算,在經(jīng)過激活層后被賦予輸出權(quán)重得到的,詳見式(1)。其中au,i即為期望的注意向量,θu、φi、pu、qi四者的聯(lián)合向量是輸入層的輸入,Wa為輸入層的權(quán)重矩陣,ba則為偏置向量,激活函數(shù)為ReLU,vT為輸出權(quán)重。而含有棧式自編碼器特征和含有歷史信息的CNN-LSTM 提取特征的樣本融合特征矩陣也作為感知器的輸入,將學(xué)習(xí)到的注意力加權(quán)到樣本的特征屬性中去,最終得到模型的預(yù)測打分,見式(2)。F 為互作特征,由注意向量點(diǎn)乘對應(yīng)樣本的LncRNA 和蛋白質(zhì)融合特征向量得到。

4.4 評分預(yù)測階段

評分預(yù)測部分本質(zhì)上是一個多層感知機(jī)(MuLti-Layer Perceptorn,MLP)。該部分將得到的交互特征向量F按如下方式饋入全連接層。

L為隱藏層數(shù),WL,bL和σL分別是第L層的權(quán)值矩陣、偏置向量和激活函數(shù)。我們對所有層采用ReLU激活函數(shù)。預(yù)測等級r?u,i通過回歸層得到。

其中W和b分別為權(quán)值矩陣和偏差向量。

4.5 模型實現(xiàn)

PIPAFNN 模型首先將K-mer 的向量矩陣輸入到棧式自編碼器中進(jìn)行特征提取,獲得一個大小為32 維的特征矩陣,而One-hot 矩陣則運(yùn)用CNN-LSTM 融合神經(jīng)網(wǎng)絡(luò)來獲得特征向量,對LncRNA 用大小為3 × 3,步長為1 的卷積核進(jìn)行卷積,經(jīng)過3 次卷積層和池化層交替得到更加顯著的深層信息,展開后接入到LSTM 層中,進(jìn)行以ReLU為激活函數(shù)的更加精確學(xué)習(xí),再加入全連接層將其展開為32 維,對蛋白質(zhì)設(shè)置卷積核大小為5 × 5。將LncRNA 和蛋白質(zhì)分別通過兩個途徑獲得的特征進(jìn)行融合,經(jīng)過ReLU激活層后,把LncRNA 和蛋白質(zhì)的特征向量進(jìn)行點(diǎn)乘,得到一個包含LncRNA和蛋白質(zhì)整體特征的融合矩陣,最后通過訓(xùn)練以整體特征為輸入且融合注意力機(jī)制的深層網(wǎng)絡(luò)結(jié)構(gòu),獲得具有期望功能的預(yù)測模型。

5 結(jié)果分析及對比

為了驗證模型預(yù)測的結(jié)果是否準(zhǔn)確可靠,本算法運(yùn)用五折交叉驗證方法:通過隨機(jī)函數(shù)得到互不相交的5 個子數(shù)據(jù)集,將其中4 個子集用于模型訓(xùn)練,而剩余未用于訓(xùn)練的一個集合,即為常說的測試集,用于預(yù)測模型的運(yùn)行結(jié)果,此過程重復(fù)五次,最終得到五次驗證結(jié)果的平均值,即可視為是較為穩(wěn)定且可靠的評估數(shù)據(jù)。通過多次重復(fù)實驗,模型對擬南芥和玉米正負(fù)樣本比按照1∶1 的比例進(jìn)行實驗并得到相應(yīng)結(jié)果,選取準(zhǔn)確率(ACC)、精確率(PRE)、召回率(RecaLL)、特效度(SPE)、接受者操作特征曲線(ROC)下的面積(AUC)作為評價指標(biāo)。

我們將PIPAFNN 模型與另外三種基于序列的計算模型RPISeq-RF,RPI-SAN 和IPMiner 進(jìn)行比較,比較各種模型在準(zhǔn)確率、精確率、召回率、特效度和AUC 方面的表現(xiàn),見表2。在準(zhǔn)確率方面,PIPLPFNN 表現(xiàn)較好,對兩種植物的準(zhǔn)確率分別為91.61%和85.72%。如圖2(a)所示,擬南芥在PIPLPFNN,IPMiner,RPISeq-RF 和RPI-SAN 的AUC 值分別為0.9582,0.8823,0.8761 和0.8164。對于玉米數(shù)據(jù)集,AUC 值分別為0.9251,0.9034,0.8980和0.8792,如圖2(b)所示。

圖2 不同方法在擬南芥和玉米數(shù)據(jù)集上的ROC曲線

通過利用稀疏約束的性能優(yōu)勢,PIPAFNN 模型學(xué)習(xí)了最豐富的序列特征信息。在表2 中,本方法在擬南芥和玉米數(shù)據(jù)集的準(zhǔn)確率、精確率、召回率、特效度和曲線下面積(AUC)方面都優(yōu)于其他方法。

表2 其他方法和PIPAFNN方法的預(yù)測性能(%)

圖2(a)顯示本方法在擬南芥數(shù)據(jù)集上的AUC方面有更好的性能,與其他方法相比,AUC 提升了7%。圖2(b)顯示我們的方法在玉米數(shù)據(jù)集上AUC方面具有更好的性能,與其他方法相比,該方法的AUC提高了2%,表明模型的分類效果十分顯著。

6 結(jié)語

本文提出了一種預(yù)測LncRNA 和蛋白質(zhì)相互作用的新方法PIPAFNN,該方法利用CNN-LSTM融合神經(jīng)網(wǎng)絡(luò)應(yīng)用于特征提取,將注意力機(jī)制應(yīng)用于模型預(yù)測,提升了模型的學(xué)習(xí)性能,與其他方法相比,預(yù)測性能得到明顯提升。通過充分利用多個分類器,該方法對基于基因組序列的LncRNA-蛋白質(zhì)相互作用預(yù)測具有很高的成功率。但是,該方法仍有一些潛在的限制需要解決,首先,由于已知LncRNA-蛋白質(zhì)互作關(guān)系稀疏,因此不同物種的植物L(fēng)ncRNA 相關(guān)蛋白的研究程度受到限制;其次,數(shù)據(jù)集數(shù)據(jù)的偏差可能會影響植物中LncRNA 與蛋白質(zhì)之間相互作用概率的測量,因此,掌握具有更多經(jīng)過實驗驗證的數(shù)據(jù)源會進(jìn)一步提高模型性能。

猜你喜歡
特征融合方法
村企黨建聯(lián)建融合共贏
融合菜
從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
《融合》
如何表達(dá)“特征”
不忠誠的四個特征
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: AV天堂资源福利在线观看| a毛片免费在线观看| 亚洲欧美综合精品久久成人网| 99中文字幕亚洲一区二区| 欧美、日韩、国产综合一区| 夜精品a一区二区三区| 人禽伦免费交视频网页播放| 97视频免费在线观看| 午夜精品一区二区蜜桃| 婷婷午夜影院| 国产精品无码一二三视频| 日韩久草视频| 国产成人综合日韩精品无码不卡| 喷潮白浆直流在线播放| 亚洲成年网站在线观看| 日本一区二区不卡视频| 国产97区一区二区三区无码| 国产xx在线观看| 亚洲福利视频一区二区| 国产成人综合在线观看| 国产主播一区二区三区| 四虎影视永久在线精品| 国产区福利小视频在线观看尤物| 亚洲人妖在线| 制服丝袜一区| 伊人狠狠丁香婷婷综合色| 欧美日韩福利| 亚洲天堂视频在线播放| 四虎影视库国产精品一区| 在线中文字幕网| 国产无遮挡裸体免费视频| 91尤物国产尤物福利在线| 国产欧美在线观看精品一区污| 亚洲国产中文精品va在线播放| 欧美成a人片在线观看| 国产正在播放| 免费Aⅴ片在线观看蜜芽Tⅴ| 在线网站18禁| 蝴蝶伊人久久中文娱乐网| 日韩 欧美 小说 综合网 另类| 少妇露出福利视频| 亚洲免费福利视频| 国产自在线拍| 久久国产拍爱| 无码视频国产精品一区二区| 国产区免费| 538精品在线观看| 国模粉嫩小泬视频在线观看| 国产日韩欧美成人| 一级做a爰片久久免费| 97国产在线视频| 又爽又大又光又色的午夜视频| 欧美日韩高清在线| 成年人午夜免费视频| www.99在线观看| 九色91在线视频| 一本大道AV人久久综合| 亚洲色图另类| AV不卡在线永久免费观看| 国产精品部在线观看| 色爽网免费视频| 欧美日韩国产在线观看一区二区三区| 免费精品一区二区h| 国产成年无码AⅤ片在线| 第一区免费在线观看| 日韩午夜福利在线观看| 99成人在线观看| 日韩欧美一区在线观看| h网站在线播放| 色婷婷国产精品视频| 91精品国产综合久久香蕉922 | 欧美国产视频| 欧美成在线视频| 无遮挡国产高潮视频免费观看| 666精品国产精品亚洲| a级毛片免费看| 性视频久久| 精品国产自| 在线播放真实国产乱子伦| 伦精品一区二区三区视频| 国产精品9| 国产欧美日韩va另类在线播放|