999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基因變異鑒定的深度學(xué)習(xí)方法與研究展望

2021-04-25 05:24:12張倩
現(xiàn)代計(jì)算機(jī) 2021年6期
關(guān)鍵詞:深度特征

張倩

(四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)

0 引言

作為一種重要的生物實(shí)驗(yàn)技術(shù)手段,DNA 測(cè)序(DNA sequencing)在生物學(xué)研究中有著廣泛的應(yīng)用,伴隨著第二代測(cè)序技術(shù)的日趨完善,許多物種已經(jīng)完成了全基因組的從頭測(cè)序。并且近年來(lái),單分子測(cè)序(SMS)技術(shù)已經(jīng)出現(xiàn)了各種重要的應(yīng)用。這些技術(shù)也被稱(chēng)為第三代測(cè)序技術(shù),產(chǎn)生的測(cè)序讀數(shù)比Illumina的讀數(shù)長(zhǎng)2 到3 個(gè)數(shù)量級(jí)(10-100kbp 對(duì)100-250bp)。較長(zhǎng)的讀數(shù)長(zhǎng)度使得包括Pacific Biosciences(PacBio)和Oxford Nanopore Technology(ONT)在內(nèi)的新的SMS 技術(shù)在解決復(fù)雜的基因組組裝問(wèn)題和檢測(cè)大型結(jié)構(gòu)變異方面具有前所未有的強(qiáng)大功能。

常用的群體遺傳變異鑒定工具有DNSTAR、GATK、samtools、freebayes、SOAPsnp、Varscan2、sambam?ba 等軟件。其中最常用的為GATK、samtools、sambam?ba 和freebayes。這四個(gè)工具中,sambamba 軟件在單樣本數(shù)據(jù)以及多樣本數(shù)據(jù)中,在速度方面均具備顯著優(yōu)勢(shì)。而gatk 軟件只在多樣本數(shù)據(jù)分析上有一定的檢測(cè)速度優(yōu)勢(shì)。而在變異鑒定結(jié)果準(zhǔn)確性方面,samtools 和sambamba 軟件傾向于尋找比較全面的變異,而gatk 和freebayes 軟件則更傾向于尋找準(zhǔn)確性較高的變異[1]。

現(xiàn)在在基因組數(shù)據(jù)中有兩個(gè)比較具體的挑戰(zhàn):新型測(cè)序技術(shù)產(chǎn)生基因數(shù)據(jù)的高特異性和高靈敏度的SNPs 鑒定及indels 鑒定。這兩項(xiàng)任務(wù)對(duì)研究罕見(jiàn)變異、等位基因特異性轉(zhuǎn)錄和翻譯以及剪接位點(diǎn)突變至關(guān)重要。目前的方法對(duì)于Illumina 短read 數(shù)據(jù)中的SNPs 和indel 的精度均在99%以上,然而這些方法會(huì)留下大量潛在的假陽(yáng)性和假陰性。這些方法都依靠專(zhuān)家建立可靠的將信號(hào)與噪聲分開(kāi)的概率模型,這個(gè)過(guò)程是很耗時(shí)的,從本質(zhì)上講是受限于我們對(duì)于導(dǎo)致噪聲的因素的理解與建模能力。

所以在傳統(tǒng)基因鑒定工具愈發(fā)成熟的加持下,研究人員將目光投向了近些年大展身手的深度學(xué)習(xí)之上,利用深度學(xué)習(xí)來(lái)構(gòu)造由數(shù)據(jù)驅(qū)動(dòng)的無(wú)偏噪聲模型。

1 核心思想

深度學(xué)習(xí)是一種機(jī)器學(xué)習(xí)技術(shù),深度學(xué)習(xí)受到了越來(lái)越多研究者的關(guān)注,它在特征提取和建模上都有著相較于淺層模型顯然的優(yōu)勢(shì)。深度學(xué)習(xí)善于從原始輸入數(shù)據(jù)中挖掘越來(lái)越抽象的特征表示,而這些表示具有良好的泛化能力。它克服了過(guò)去人工智能中被認(rèn)為難以解決的一些問(wèn)題。且隨著訓(xùn)練數(shù)據(jù)集數(shù)量的顯著增長(zhǎng)以及芯片處理能力的劇增[2]。它應(yīng)用于多種領(lǐng)域,包括圖像分類(lèi)、翻譯、游戲和生命科學(xué)。

深層神經(jīng)網(wǎng)絡(luò)是目前的主要形式,其神經(jīng)元間的連接模式受啟發(fā)于動(dòng)物視覺(jué)皮層組織,而卷積神經(jīng)網(wǎng)絡(luò)則是其中一種經(jīng)典而廣泛應(yīng)用的結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)的局部連接、權(quán)值共享及池化操作等特性使之可以有效地降低網(wǎng)絡(luò)的復(fù)雜度,減少訓(xùn)練參數(shù)的數(shù)目,使模型對(duì)平移、扭曲、縮放具有一定程度的不變性,并具有強(qiáng)魯棒性和容錯(cuò)能力,且也易于訓(xùn)練和優(yōu)化。基于這些優(yōu)越的特性,它在各種信號(hào)和信息處理任務(wù)中的性能優(yōu)于標(biāo)準(zhǔn)的全連接神經(jīng)網(wǎng)絡(luò)。

采用深度學(xué)習(xí)的算法來(lái)處理基因數(shù)據(jù)并用于基因變異鑒定的核心思想是:基因變異鑒定問(wèn)題也可以轉(zhuǎn)換為分類(lèi)問(wèn)題,對(duì)于一個(gè)變異候選位點(diǎn)來(lái)說(shuō),其variant call 就是在對(duì)這個(gè)數(shù)據(jù)進(jìn)行分類(lèi);因此從基因數(shù)據(jù)中訓(xùn)練出概率模型,再用概率模型去判斷后續(xù)數(shù)據(jù)。

本文中介紹這一核心思想下的兩種深度學(xué)習(xí)使用方法,第一種將格式為bam 的變異基因數(shù)據(jù)和格式為fa 文件的參考序列轉(zhuǎn)換為堆積張量,將堆積張量用于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和測(cè)試。第二種采用工具尋找基因數(shù)據(jù)中的特征,并將這些特征矢量化為適合訓(xùn)練網(wǎng)絡(luò)的特征,再用于概率模型的訓(xùn)練。

2 DeepVariant

2016 年12 月Google 旗下的子公司Verily 發(fā)了一篇文章描述了一個(gè)針對(duì)全基因組測(cè)序變異位點(diǎn)(SNP和small indel)檢測(cè)的新算法,這個(gè)算法不同于一般基于統(tǒng)計(jì)方法的軟件,而是利用了卷積神經(jīng)網(wǎng)絡(luò)識(shí)別變異位點(diǎn)[3]。DeepVariant 利用谷歌大腦為圖像分類(lèi)而訓(xùn)練的神經(jīng)網(wǎng)絡(luò)架構(gòu)Inception v2,將候選SNP 周?chē)膔eads 編碼為221×100 位圖圖像,其中每列是一個(gè)核苷酸,每行是一個(gè)從樣本庫(kù)中讀取的reads 序列。前五行代表參考序列,后95 行代表隨機(jī)抽樣覆蓋了這個(gè)變異候選位點(diǎn)的reads 序列。每個(gè)RGBA 類(lèi)型的圖像像素將堿基A、C、G、T 編碼為不同的紅色值,質(zhì)量分?jǐn)?shù)編碼為綠色值,正負(fù)鏈信息編碼為藍(lán)色值,與參考序列的變異編碼為alpha 值。

堆積圖選取的編碼信息如下:

(1)base:序列堿基

(2)base quality:堿基質(zhì)量分?jǐn)?shù)

(3)mapping quality:序列比對(duì)質(zhì)量

(4)strand 正反向鏈

(5)supports variant:是否支持alternative allele

(6)supports reference:是否支持reference allele

帶有明確變異位點(diǎn)標(biāo)簽的編碼堆積圖放入13 層網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,此網(wǎng)絡(luò)采用Inception v2 網(wǎng)絡(luò)架構(gòu)。訓(xùn)練好網(wǎng)絡(luò)之后,將沒(méi)有標(biāo)簽的變異候選位點(diǎn)堆積圖放入網(wǎng)絡(luò)中,即可進(jìn)行變異鑒定。

神經(jīng)網(wǎng)絡(luò)輸出的結(jié)果為每個(gè)變異候選位點(diǎn)的基因型概率。

圖1 DeepVariant整體過(guò)程

3 Matcha

同樣是使用深度學(xué)習(xí)來(lái)處理基因變異鑒定,Remi Torracinta[4]的方法與DeepVariant 卻不一樣。Remi Tor?racinta 設(shè)計(jì)的方法采用Goby 框架來(lái)找到reads 比對(duì)序列和參考序列的特征,并且將這些特征矢量化為適合訓(xùn)練前饋神經(jīng)網(wǎng)絡(luò)的特征和標(biāo)簽。

Matcha 的神經(jīng)網(wǎng)絡(luò)中最核心的是特征映射器,特征映射器將樣本中的對(duì)齊序列轉(zhuǎn)換為一組適合訓(xùn)練神經(jīng)網(wǎng)絡(luò)的固定特征集。不論在基因組上有多少對(duì)齊的reads 序列,映射器都會(huì)產(chǎn)生一個(gè)固定長(zhǎng)度的輸出,這些輸出可以一致性的轉(zhuǎn)換為一個(gè)固定長(zhǎng)度的用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的輸入向量。再每個(gè)基因組位點(diǎn),映射器都會(huì)生成每種基因型的reads 序列的讀數(shù)和reads 序列中支持這個(gè)基因型的不同位置的數(shù)量。每一個(gè)基因組位點(diǎn)會(huì)衍生出數(shù)百個(gè)特征。

對(duì)于標(biāo)簽映射器來(lái)說(shuō),有兩種不同的方法,一種是單獨(dú)調(diào)用等位基因,并對(duì)等位基因的數(shù)量進(jìn)行編碼,另一種類(lèi)似于DeepVariant。這兩種方法分別適用于任意倍體基因組和二倍體基因組。

模型采用DeepLearning4 框架,并于Goby 框架進(jìn)行集成,網(wǎng)絡(luò)結(jié)構(gòu)為五層網(wǎng)絡(luò)。將對(duì)齊后的基因文件輸入特征和標(biāo)簽映射器,選擇特征映射器,會(huì)在訓(xùn)練集上產(chǎn)生用映射器訓(xùn)練的模型,這個(gè)模型可以用于在測(cè)試集上的基因變異鑒定。

4 對(duì)比分析

通過(guò)現(xiàn)在出現(xiàn)的兩種不同的用深度學(xué)習(xí)方法來(lái)進(jìn)行基因變異鑒定方法的介紹,筆者對(duì)他們?cè)谧儺愯b定效果和范圍上的優(yōu)缺點(diǎn)做出如表1 對(duì)比分析。

表1 兩種深度學(xué)習(xí)應(yīng)用方法的比較

5 深度學(xué)習(xí)下基因變異鑒定方法分析研究

兩種方式使用了不同的思路來(lái)使用深度學(xué)習(xí)對(duì)基因數(shù)據(jù)進(jìn)行變異鑒定。兩者既有相似之處也有不同之處。兩個(gè)方法最核心的思想是一樣的:從數(shù)據(jù)中訓(xùn)練概率模型,并用這個(gè)概率模型進(jìn)行后續(xù)判斷。不同之處在于:DeepVariant 是將基因數(shù)據(jù)經(jīng)過(guò)編碼轉(zhuǎn)換為堆積圖,再將堆積圖用圖像分類(lèi)網(wǎng)絡(luò)進(jìn)行訓(xùn)練和鑒定;Matcha 是利用Goby 框架從數(shù)據(jù)中尋找特征,然后手動(dòng)將特征放入網(wǎng)絡(luò)。

DeepVariant 只適用于二倍體生物,而Matcha 可以用于任意倍體生物的基因變異鑒定;DeepVariant 能夠?qū)ふ易儺愵?lèi)型中的SNPs 和INDEL,而Matcha 專(zhuān)門(mén)用于尋找SNPs。

同時(shí)計(jì)算效率上兩者也有較大差異。將數(shù)據(jù)轉(zhuǎn)換為堆積圖,DeepVariant 至少需要使用300 萬(wàn)像素,而Matcha 使用了642 個(gè)浮點(diǎn)表示特征與標(biāo)簽,所以Mat?cha 的數(shù)量級(jí)較小,對(duì)硬件的要求也比較低。

6 結(jié)語(yǔ)

隨著深度學(xué)習(xí)的火熱,基因數(shù)據(jù)研究者也將自己的目光放在了深度學(xué)習(xí)之上。本文對(duì)兩種不同類(lèi)型的采用深度學(xué)習(xí)進(jìn)行基因變異鑒定的方法進(jìn)行了介紹與對(duì)比,深度學(xué)習(xí)算法有時(shí)是比GTAK 等工具性能更好的。結(jié)合發(fā)展趨勢(shì)與需求,未來(lái)研究工作地重點(diǎn)可能主要包括:

(1)Matcha 類(lèi)似的需要手動(dòng)尋找特征的方法,雖然有著更廣闊的應(yīng)用范圍,但由于這個(gè)特征集在開(kāi)發(fā)期間至少要經(jīng)過(guò)15 次的迭代微調(diào),所以這個(gè)模型并不會(huì)泛化。是否有更好地尋找特征集的方法,能夠減少微調(diào)過(guò)程及次數(shù),使這個(gè)模型能夠泛化。

(2)DeepVariant 對(duì)Illumina 數(shù)據(jù)的效果較好,但對(duì)于PacBio 等reads 序列較長(zhǎng)的數(shù)據(jù)來(lái)說(shuō),DeepVariant不是最佳選擇。下一步研究工作,可以著重考慮修改網(wǎng)絡(luò),使其能夠?qū)Φ谌驍?shù)據(jù)和PacBio 等基因數(shù)據(jù)有較好的效果。

(3)DeepVariant 所使用網(wǎng)絡(luò)較大,這導(dǎo)致計(jì)算效率較低,計(jì)算成本較大。今后的研究可以考慮使用不同大小的網(wǎng)絡(luò),使得計(jì)算效率能夠得到較大的提升。

(4)DeepVariant 因?yàn)槠渚幋a信息較多,導(dǎo)致堆積圖像素較大,DeepVariant 的堆積圖是一個(gè)七通道圖像。今后的研究可以考慮選擇編碼哪些關(guān)鍵信息來(lái)更改堆積圖的大小,使得其計(jì)算效率提升的同時(shí)準(zhǔn)確率不會(huì)大幅下降。

利用深度學(xué)習(xí)方法來(lái)進(jìn)行基因變異鑒定仍處于發(fā)展階段,其中還有很多問(wèn)題等待研究者們解決。

猜你喜歡
深度特征
抓住特征巧觀察
深度理解一元一次方程
新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
深度觀察
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
主站蜘蛛池模板: 在线无码av一区二区三区| 99青青青精品视频在线| 国产精品久久久久久影院| 国产va免费精品| 欧美成人区| 99热这里只有精品久久免费| 91久久精品国产| 亚洲天堂精品视频| 四虎影视8848永久精品| 国产视频入口| 国产成人综合久久精品下载| 国产精品黄色片| 国产精品成人观看视频国产 | 亚洲精品大秀视频| 天堂成人在线| 丰满人妻被猛烈进入无码| 日韩欧美视频第一区在线观看| 国产欧美又粗又猛又爽老| 视频二区欧美| 又爽又大又光又色的午夜视频| 久草视频福利在线观看| 免费国产小视频在线观看| 欧美国产精品拍自| 国产H片无码不卡在线视频 | 亚洲精品欧美日韩在线| 亚洲第一黄色网| 亚洲成人网在线观看| 99r在线精品视频在线播放| 欧美日韩一区二区三区在线视频| 国产高清在线观看91精品| 亚洲欧洲日韩久久狠狠爱| 久久国产香蕉| 伊在人亚洲香蕉精品播放| 日本人妻一区二区三区不卡影院| 国产精品久久久久久久久| 四虎永久在线| 亚洲第一页在线观看| 欧美日韩国产在线播放| 午夜在线不卡| 国产福利不卡视频| 亚洲精品成人片在线播放| 第一页亚洲| 久久黄色影院| 72种姿势欧美久久久久大黄蕉| 午夜国产不卡在线观看视频| 国产凹凸视频在线观看| 久久精品国产999大香线焦| 国内精品久久久久久久久久影视| 在线看免费无码av天堂的| 91福利免费视频| www.亚洲天堂| 亚洲a级在线观看| 99ri国产在线| 九九九精品视频| 欧美、日韩、国产综合一区| 国产成人无码久久久久毛片| 亚洲精品国偷自产在线91正片| 国产成人精品男人的天堂| 最新日韩AV网址在线观看| 国内精品久久久久鸭| 国产精品自在线天天看片| 三上悠亚一区二区| 国产白浆一区二区三区视频在线| 成色7777精品在线| 精品无码人妻一区二区| 国产精品手机在线观看你懂的| 天天色天天综合| 亚洲综合第一页| 人人爽人人爽人人片| 亚洲av无码久久无遮挡| 免费人成网站在线观看欧美| 午夜福利免费视频| 亚洲日韩国产精品综合在线观看| 国产三级毛片| 免费一级大毛片a一观看不卡| 亚洲天堂高清| 久久毛片网| 欧美人人干| 国产情精品嫩草影院88av| 色屁屁一区二区三区视频国产| 精品午夜国产福利观看| 99久久精品国产自免费|