999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學(xué)習(xí)和支持向量機(jī)的基因結(jié)合蛋白預(yù)測(cè)

2021-09-03 09:41:26陳佐瓚丁小軍甘井中
關(guān)鍵詞:特征方法

陳佐瓚, 徐 兵, 丁小軍, 甘井中

(1. 玉林師范學(xué)院 計(jì)算機(jī)科學(xué)與工程學(xué)院, 廣西 玉林 537000; 2. 南京師范大學(xué) 地理科學(xué)學(xué)院, 江蘇 南京 210023;3. 中南大學(xué) 計(jì)算機(jī)學(xué)院, 湖南 長(zhǎng)沙 410083)

基因與蛋白質(zhì)的結(jié)合是生物體的重要功能。隨著科技的進(jìn)步,基因測(cè)序技術(shù)不斷完善,諸多專家學(xué)者致力于挖掘基因序列,探索蛋白質(zhì)在生物學(xué)上的意義[1-3]。每個(gè)生物都有蛋白質(zhì),預(yù)測(cè)蛋白質(zhì)原始序列是當(dāng)今生物信息學(xué)領(lǐng)域的研究熱點(diǎn)[4-6]。蛋白質(zhì)與脫氧核糖核酸(DNA)結(jié)合的能力稱為DNA結(jié)合蛋白(DBP)。 DNA通過(guò)與蛋白質(zhì)結(jié)合,可以實(shí)現(xiàn)多種功能, 調(diào)節(jié)生物體的機(jī)制[7]。 生物信息學(xué)領(lǐng)域的熱點(diǎn)問(wèn)題集中在計(jì)算機(jī)資源和一些分類算法的集成上[8-9],其中蛋白質(zhì)數(shù)據(jù)的積累、人工計(jì)算工作量以及人力物力成本等都是需要考慮的問(wèn)題。

近年來(lái),一些學(xué)者認(rèn)為DNA結(jié)合蛋白預(yù)測(cè)是一個(gè)分類任務(wù),因此諸多基于統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)方法應(yīng)用于DNA結(jié)合蛋白研究[10-13]。以上方法確實(shí)比人工分類方法的效率有所提升,但是在預(yù)測(cè)精度和速度方面還需要提升和改進(jìn)。基于統(tǒng)計(jì)學(xué)的生物實(shí)驗(yàn)預(yù)測(cè)方法的優(yōu)點(diǎn)是預(yù)測(cè)效果好,準(zhǔn)確性極高,但也存在成本高、預(yù)測(cè)時(shí)間長(zhǎng)的缺點(diǎn)。基于機(jī)器學(xué)習(xí)算法通過(guò)蛋白質(zhì)的結(jié)構(gòu)以及功能特性來(lái)學(xué)習(xí)其特征集合,采用機(jī)器學(xué)習(xí)中非線性映射方法,根據(jù)集合特征實(shí)現(xiàn)分類,但是如何保持集合向量分類,獲得可以有效輸出特征分類的結(jié)果還需要重點(diǎn)研究[14]。目前,人工智能中的深度學(xué)習(xí)方法已成為DNA結(jié)合蛋白預(yù)測(cè)方向上生物學(xué)信息的研究熱點(diǎn), 并取得了顯著成果[15],但是,在當(dāng)今日益增長(zhǎng)的生物數(shù)據(jù)中,如何使用當(dāng)前的深度模型來(lái)解釋生物信息甚至生物問(wèn)題,是一個(gè)很有意義的研究課題。基于此,本文中提出一種基于深度學(xué)習(xí)和支持向量機(jī)(SVM)的DNA結(jié)合蛋白預(yù)測(cè)算法(簡(jiǎn)稱本文算法)。

1 DNA結(jié)合蛋白預(yù)測(cè)方法

1.1 模型框架

給定結(jié)構(gòu)序列A1A2A3A4A5A6A7…AL,該結(jié)構(gòu)序列包含20個(gè)堿性氨基酸和噪聲蛋白,長(zhǎng)度為L(zhǎng)。通過(guò)嵌入操作,采用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)和門控循環(huán)單元 (gated recurrent unit, GRU)深度學(xué)習(xí)方法構(gòu)建模型(見圖1),構(gòu)建深層神經(jīng)網(wǎng)絡(luò)對(duì)原始氨基酸序列進(jìn)行編碼和解碼,得到氨基酸序列預(yù)測(cè)結(jié)果。通過(guò)特定的氨基酸序列的預(yù)測(cè)實(shí)例,分析模型各個(gè)模塊的功能。

GRU—門控循環(huán)單元。

在圖1所示的模型框架結(jié)構(gòu)中,輸入流為模擬氨基酸序列“MSFMVPT”特征的工作流程,主要包括4個(gè)階段: 1)原始氨基酸序列成為固定長(zhǎng)度的整數(shù)序列,需要進(jìn)行編碼; 2)通過(guò)嵌入操作將特征序列進(jìn)行向量化表示; 3)將經(jīng)過(guò)編碼標(biāo)注后的特征序列轉(zhuǎn)化得到的特征向量饋入Convolution(卷積)中,進(jìn)行特征提取; 4)不同于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)常用的Softmax分類器方法,本文中將提取后的特征序列饋入到GRU中進(jìn)行解碼輸出,該輸出為一個(gè)定長(zhǎng)的向量,然后通過(guò)SVM進(jìn)行分類輸出。

1.2 序列編碼

本文算法的一個(gè)顯著特點(diǎn)是需要對(duì)原始的蛋白質(zhì)序列進(jìn)行饋入,將原始蛋白質(zhì)序列編碼為可由計(jì)算機(jī)處理、分析的數(shù)據(jù)。在生物信息學(xué)領(lǐng)域,特征的擴(kuò)展需要通過(guò)嵌入進(jìn)行擴(kuò)展,從而構(gòu)建氨基酸詞典,如表1所示。每個(gè)氨基酸都是一一對(duì)應(yīng)于從小到大的整數(shù),其順序不會(huì)影響實(shí)驗(yàn)效果,只是完成字符到整數(shù)的轉(zhuǎn)換[16]。由于輸入深度學(xué)習(xí)模型所需的數(shù)據(jù)規(guī)模是固定的,因此必須要進(jìn)行序列填充。當(dāng)氨基酸序列“MSFMVPT”的長(zhǎng)度為7時(shí),輸入長(zhǎng)度設(shè)置為閾值8,該序列用“X”填充并變?yōu)椤癤MSFMVPT”。

表1 氨基酸詞典

2 實(shí)驗(yàn)結(jié)果與分析

2.1 數(shù)據(jù)集

使用Zhang等[16]設(shè)計(jì)的蛋白質(zhì)資料庫(kù)PDB14189基準(zhǔn)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。該數(shù)據(jù)集是通過(guò)搜索“DNA結(jié)合”關(guān)鍵字,并使用UniProt數(shù)據(jù)庫(kù)[17]篩選和收集得到的DNA結(jié)合蛋白的集合。為了使數(shù)據(jù)集的品質(zhì)更加高效,必須篩去全部氨基酸序號(hào)小于50且大于6 000的蛋白質(zhì)序列,還要?jiǎng)h除全部不規(guī)則氨基酸,如表1中的“X”和“Z”等序列蛋白質(zhì)。最后,使用BLAST軟件對(duì)相似程度超40%的序列進(jìn)行冗余過(guò)濾操作[18]。

2.2 評(píng)價(jià)指標(biāo)

通過(guò)在基準(zhǔn)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),根據(jù)實(shí)驗(yàn)指標(biāo)來(lái)評(píng)估本文算法的優(yōu)越性,衡量模型的預(yù)測(cè)效果。由于單一的準(zhǔn)確率σacc指標(biāo)不能完全表征本文算法的預(yù)測(cè)效果,因此還需要引入其他評(píng)估指標(biāo),如靈敏度σsen、 特異性σspe等[19-21]。其中,準(zhǔn)確率σacc表征算法正確預(yù)測(cè)的樣本的能力,靈敏度σsen表征算法正確預(yù)測(cè)的陽(yáng)性樣本的能力,特異性σspe表征算法正確預(yù)測(cè)的陰性樣本的能力。評(píng)估指標(biāo)的計(jì)算公式分別為

(1)

(2)

(3)

式中:NTP為正確預(yù)測(cè)的陽(yáng)性樣本的數(shù)量;NTN為正確預(yù)測(cè)的陰性樣本的數(shù)量;NFP為錯(cuò)誤預(yù)測(cè)的陽(yáng)性樣本的數(shù)量;NFN為錯(cuò)誤預(yù)測(cè)的陰性樣本的數(shù)量。

2.3 對(duì)比實(shí)驗(yàn)

2.3.1 蛋白質(zhì)不同尺度特征對(duì)比

蛋白質(zhì)不同尺度特征在PDB14189基準(zhǔn)數(shù)據(jù)上的表現(xiàn)如表2所示。 由表可以看出, 本文算法獲得的準(zhǔn)確率、 靈敏度、 特異性數(shù)值均大于前4個(gè)序列的, 表明該算法對(duì)基準(zhǔn)數(shù)據(jù)的識(shí)別能力更強(qiáng)。為了評(píng)估本文算法的預(yù)測(cè)能力,分別繪制了不同方法(文獻(xiàn)[2]、 [22]、 [23]中的方法)的受試者工作特征曲線(ROC)和召回率(PR)曲線,如圖2所示。由圖可以得出,本文算法在單尺度特征的基礎(chǔ)上結(jié)合了不同尺度的特征,得到了更有意義的結(jié)果。

(a) ROC曲線

表2 蛋白質(zhì)不同尺度特征在基準(zhǔn)數(shù)據(jù)上的表現(xiàn)

2.3.2 與傳統(tǒng)方法的比較

為了檢驗(yàn)本文算法的穩(wěn)健性,在獨(dú)立數(shù)據(jù)集PDB2272上對(duì)其進(jìn)行了評(píng)估,結(jié)果見表3。由表可以看出,與文獻(xiàn)[2]、 [22]、 [23]中的方法相比,本文算法的準(zhǔn)確率為66.88%,靈敏度為69.93%, 特異性為65.95%, 3個(gè)數(shù)值都為最大值, 可見本文算法優(yōu)于的其他傳統(tǒng)方法的, 表現(xiàn)了本文算法的優(yōu)越性。

表3 不同算法在3個(gè)評(píng)估指標(biāo)上的對(duì)比

實(shí)際上,非DNA結(jié)合蛋白的數(shù)量遠(yuǎn)比DNA結(jié)合蛋白的多。本文中基于PDB2272基準(zhǔn)數(shù)據(jù)集進(jìn)行仿真實(shí)驗(yàn),測(cè)試了本文算法的性能,并使用不同的陰性樣本與陽(yáng)性樣本的數(shù)量比率來(lái)進(jìn)行驗(yàn)證,結(jié)果如圖3所示。從圖可以看出,隨著陰性樣本數(shù)與陽(yáng)性樣本數(shù)比率的減小,準(zhǔn)確率緩慢增大。在不平衡測(cè)試集的情況下,本文算法的性能仍然穩(wěn)定,并且在DNA結(jié)合蛋白的預(yù)測(cè)中表現(xiàn)良好。

圖3 本文算法在PDB2272上的預(yù)測(cè)準(zhǔn)確率

2.3.3 本文算法的應(yīng)用

為了測(cè)試模型的魯棒性,張戈[7]收集了2 859個(gè)蛋白質(zhì)編號(hào)(identity document,ID)。經(jīng)分析發(fā)現(xiàn),果蠅的2種不同蛋白質(zhì)的ID對(duì)應(yīng)了相同的蛋白質(zhì)序列。經(jīng)過(guò)預(yù)收集和排序后,獲得了2 858個(gè)DBP(即DBP2858數(shù)據(jù)集)。DBP2858數(shù)據(jù)集中包含人類DBP 的樣本數(shù)量為1 049,擬南芥(A.thaliana)的為929,小鼠(mouse)的為424,啤酒酵母(S.cerevisiae)的為314,而果蠅(D.melanogaster)的為142。使用PDB14189基準(zhǔn)數(shù)據(jù)集來(lái)訓(xùn)練模型,結(jié)果如表4所示。在DBP數(shù)據(jù)集中,本文算法可以正確識(shí)別57.83%的蛋白質(zhì)序列。

表4 本文算法對(duì)不同生物物種的預(yù)測(cè)性能

3 結(jié)論

由于DNA結(jié)合蛋白在對(duì)生物體的調(diào)控機(jī)制中具有重要作用, 因此本文中提出了一種基于深度學(xué)習(xí)和支持向量機(jī)的算法用來(lái)預(yù)測(cè)DNA結(jié)合蛋白。 在同一數(shù)據(jù)集上, 分別對(duì)本文中提出的深度學(xué)習(xí)模型和其他傳統(tǒng)預(yù)測(cè)方法進(jìn)行了訓(xùn)練和實(shí)驗(yàn)對(duì)比。 實(shí)驗(yàn)結(jié)果表明, 本文算法對(duì)平衡數(shù)據(jù)集和不平衡數(shù)據(jù)集都有較好的預(yù)測(cè)效果, 并且具有較高的預(yù)測(cè)精度和效率。

猜你喜歡
特征方法
抓住特征巧觀察
新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
學(xué)習(xí)方法
抓住特征巧觀察
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 国产欧美在线视频免费| 日韩成人午夜| 在线人成精品免费视频| 亚洲精选无码久久久| 国产成人免费高清AⅤ| 久无码久无码av无码| 国产va在线观看| 五月天香蕉视频国产亚| 日韩福利在线视频| 天天躁狠狠躁| 欧美不卡在线视频| 99热精品久久| 亚洲福利网址| 狠狠干综合| 欧亚日韩Av| 国产幂在线无码精品| 欧美亚洲第一页| 美女免费精品高清毛片在线视| 国产成人精品2021欧美日韩 | 婷婷成人综合| 国产成人精品亚洲77美色| 4虎影视国产在线观看精品| 成人福利在线免费观看| 色婷婷亚洲十月十月色天| 91精品国产麻豆国产自产在线| 国产乱人伦精品一区二区| 成人国产精品一级毛片天堂 | 91久久偷偷做嫩草影院免费看| 久久这里只有精品8| 国产福利2021最新在线观看| 青青草欧美| 国产黄色视频综合| jizz国产视频| 久久精品嫩草研究院| 欧美亚洲国产一区| 亚洲第一成年网| 国产亚洲欧美另类一区二区| 国产高清不卡| 欧美日韩资源| 国产成人喷潮在线观看| AV无码无在线观看免费| 免费无遮挡AV| 中文天堂在线视频| 欧美日本二区| 欧美a级在线| 日韩欧美中文在线| 无码久看视频| 国内丰满少妇猛烈精品播| 国产精品lululu在线观看| 91小视频在线观看| 自拍偷拍欧美日韩| 欧美日本中文| 曰AV在线无码| 欧美精品亚洲日韩a| 亚洲午夜18| 亚洲啪啪网| 成人免费一级片| 国产91丝袜在线播放动漫 | 久久久亚洲色| 成年女人18毛片毛片免费| 天堂在线www网亚洲| 日韩无码黄色网站| 国产精品免费露脸视频| 久久精品国产免费观看频道| 免费看a级毛片| 久久窝窝国产精品午夜看片| 国产激情无码一区二区三区免费| 激情综合激情| 国产亚洲欧美日韩在线观看一区二区| 亚洲天天更新| 国产簧片免费在线播放| 亚洲天堂精品视频| 欧美国产精品不卡在线观看| 日韩高清一区 | 综合五月天网| 國產尤物AV尤物在線觀看| 91九色最新地址| 精品久久久久久成人AV| 欧美一区二区三区不卡免费| 精品无码视频在线观看| 婷婷综合亚洲| 91青青在线视频|