999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

利用HMM算法確定重組自交系基因型

2016-03-10 02:54:58賈瑤麗

摘要:重組自交系是雜交一代經(jīng)過連續(xù)自交而獲得的自交系群體。隱形馬爾科夫模型(HMM)是一種極大似然估計(jì)算法,在很多生物信息研究中取得了理想的結(jié)果。文章提供了利用一階隱型馬爾科夫模型來確定重組自交系個(gè)體基因型的方法,并論述了其準(zhǔn)確性和時(shí)效性。該算法在模擬數(shù)據(jù)及小鼠基因型數(shù)據(jù)上取得了理想的結(jié)果。

關(guān)鍵詞:重組自交系;HMM算法;生物信息;隱形馬爾科夫模型;極大似然估計(jì)算法 文獻(xiàn)標(biāo)識(shí)碼:A

中圖分類號(hào):S511 文章編號(hào):1009-2374(2016)08-0022-02 DOI:10.13535/j.cnki.11-4406/n.2016.08.012

生物的基因組中蘊(yùn)含著豐富的遺傳信息。隨著測(cè)序技術(shù)的不斷發(fā)展,通過對(duì)不同生物的基因組測(cè)序,人們發(fā)現(xiàn),在不同個(gè)體的染色體上,99%的堿基信息都是相同的,而另外1%的差異造就了不同個(gè)體差異。這些單個(gè)堿基上的不同也叫單核苷酸多態(tài)性(SNP)。單核苷酸多態(tài)性也是主要的可遺傳變異。現(xiàn)如今,研究遺傳變異不僅限于單個(gè)的SNP。在遺傳的過程中,不同基因座位的基因并不是完全隨機(jī)地形成單體型,而是某些相鄰基因座位上的基因同時(shí)出現(xiàn)的概率總是比較大,這種現(xiàn)象叫做連鎖不平衡。現(xiàn)在越來越多的研究利用全基因組的SNP信息進(jìn)行關(guān)聯(lián)分析。通過全基因組關(guān)聯(lián)分析等研究,已經(jīng)在植物和動(dòng)物中發(fā)現(xiàn)了很多關(guān)鍵基因。

在全基因組關(guān)聯(lián)分析等諸多研究中,生物學(xué)家常常通過構(gòu)建重組自交系,然后對(duì)重組自交系進(jìn)行測(cè)序整理,確定重組自交系的基因型,為關(guān)聯(lián)分析提供輸入數(shù)據(jù)。隨著測(cè)序技術(shù)的發(fā)展,人們可以通過對(duì)DNA、RNA片段進(jìn)行測(cè)序而獲得重要的數(shù)據(jù)。然而由于測(cè)序成本昂貴,測(cè)序深度不足,導(dǎo)致測(cè)序存在一定的誤差,對(duì)測(cè)序數(shù)據(jù)處理并進(jìn)行基因分型得到的數(shù)據(jù)同樣也會(huì)存在一定誤差。為了減小這種誤差,并且不依賴于昂貴的測(cè)序成本費(fèi)用,文章利用隱形馬爾科夫模型(HMM)算法來提高測(cè)序數(shù)據(jù)的準(zhǔn)確性。

1 重組自交系

重組自交系是雜交一代結(jié)果連續(xù)自交獲得的。如果是二倍體生物,基因組由兩條染色體組成,其中一條來自父親,另一條來自母親。在遺傳的過程中,當(dāng)兩個(gè)個(gè)體進(jìn)行雜交時(shí),在減數(shù)分裂時(shí)期,同源染色體間會(huì)發(fā)生交換。通常根據(jù)研究的目標(biāo)及生物學(xué)意義選擇兩個(gè)親本,記為親本1和親本2,經(jīng)兩個(gè)親本進(jìn)行雜交,在后代中不斷選擇合適的個(gè)體進(jìn)行自交。進(jìn)過多代自交,并經(jīng)過培養(yǎng)環(huán)境或自然環(huán)境的選擇后,就會(huì)得到較好的純合自交系結(jié)果。當(dāng)染色體上存在不同的等位基因時(shí),其中一個(gè)等位基因作為遺傳信息遺傳給自交后代。

染色體上的等位基因一般只存在兩種,即A、C、G、T中的兩種。當(dāng)雜交后代經(jīng)過不斷自交后,絕大部分染色體區(qū)域?qū)⒈患兓泊嬖谏俨糠植灰妆患兓膮^(qū)域。在對(duì)基因型進(jìn)行基因分型之后,在每個(gè)座位上,一般的,當(dāng)基因型來自于親本1時(shí)被標(biāo)記為0,來自于親本2被標(biāo)記為2,如果是雜合的情況,該位置被標(biāo)記為1。有時(shí)也將基因型來自于親本1位點(diǎn)的標(biāo)記為AA,來自親本2的位點(diǎn)標(biāo)記為HH,雜合的位點(diǎn)標(biāo)記為AH。本文采用第一種標(biāo)記方法,并用此標(biāo)記方法來描述隱型馬爾科夫過程。

2 隱形馬爾科夫模型在重組自交系中的應(yīng)用

隱形馬爾科夫模型是加入隱含狀態(tài)的馬爾科夫模型,最早由Baum等人提出。隱型馬爾科夫模型的狀態(tài)值是隱藏的、不可見的。隱型馬爾科夫模型可以通過可觀測(cè)到的數(shù)據(jù)推測(cè)不可觀測(cè)的數(shù)據(jù)。隱形馬爾科夫模型是一個(gè)雙重自動(dòng)機(jī),它描述狀態(tài)之間的轉(zhuǎn)移過程,并描述狀態(tài)值與觀測(cè)值之間的對(duì)應(yīng)關(guān)系。通過概率分布將它們聯(lián)系在一起。

隱形馬爾科夫模型由五元組λ=(S,O,π,A,B)來描述,其中S為狀態(tài)值集合,O為觀測(cè)值集合,π為初始狀態(tài),A為狀態(tài)轉(zhuǎn)移概率矩陣,B為發(fā)散概率矩陣(特定狀態(tài)下產(chǎn)生每個(gè)觀測(cè)值的概率)。文章中采用一階馬爾科夫模型,即每一個(gè)狀態(tài)僅依賴于前一個(gè)狀態(tài)。在重組自交系中,狀態(tài)和觀測(cè)值均由基因型組成。對(duì)于每一個(gè)群體中的個(gè)體,包含三種狀態(tài)和三種觀測(cè)值,即S={0,1,2},O={0,1,2},樣本的SNP的序列為觀測(cè)序列,樣本SNP的待估計(jì)序列為狀態(tài)序列。

假設(shè)觀測(cè)序列X={},對(duì)于重組自交系首先要求參數(shù)A、B的最優(yōu)估計(jì)值。用給定的觀測(cè)序列X來優(yōu)化模型λ,使概率達(dá)到局部最大。本文優(yōu)化模型參考Baum-Welch。給定初始化參數(shù),在當(dāng)前參數(shù)情況下,在局部估計(jì)最優(yōu)狀態(tài)序列。在新的最有狀態(tài)序列下重新估計(jì)參數(shù),不斷迭代直到λ收斂。

當(dāng)獲得最優(yōu)的參數(shù)λ后,在所有的狀態(tài)路徑中,找出使觀測(cè)序列概率最大的狀態(tài)路徑R,即:

通過不斷迭代,更新轉(zhuǎn)移概率矩陣和發(fā)散矩陣,當(dāng)矩陣收斂時(shí),獲得概率似然最大的狀態(tài)序列。在重組自交系中,將隱馬爾科夫模型的學(xué)習(xí)問題和解碼問題結(jié)合起來,編寫了一個(gè)適合于重組自交系的軟件包。

3 算法運(yùn)行及結(jié)論總結(jié)

第一,為了驗(yàn)證程序的準(zhǔn)確性及其效率,文中模擬了不同樣本數(shù)量,不同SNP數(shù)量的重組自交系群體,模擬數(shù)據(jù)具體信息如表1所示。除模擬數(shù)據(jù)以外,從http://mouse.cs.ucla.edu/mousehapmap/獲得了小鼠已驗(yàn)證的自交系群體的單體型數(shù)據(jù),小鼠的數(shù)據(jù)中包含99個(gè)家系,每個(gè)家系包含大約10萬(wàn)個(gè)SNP。對(duì)于模擬數(shù)據(jù)和小鼠自交系的數(shù)據(jù),分別隨機(jī)修改其中5%、10%、15%、20%的位點(diǎn)。在模擬數(shù)據(jù)及小鼠數(shù)據(jù)上運(yùn)行HMM算法,將運(yùn)行結(jié)果與修改前的原始數(shù)據(jù)進(jìn)行比較。實(shí)驗(yàn)結(jié)果如表1和表2所示,表格中記載的為單個(gè)樣本的時(shí)間。如果運(yùn)行環(huán)境相同,每個(gè)樣本的迭代過程均一樣,耗時(shí)也一樣。從表中可以看出,結(jié)果的準(zhǔn)確性超過94%,當(dāng)樣本量增加時(shí),時(shí)間會(huì)線性增長(zhǎng)。

第二,重組自交系對(duì)于全基因組關(guān)聯(lián)研究、表達(dá)數(shù)量性狀研究等有重要意義。在很多研究中已通過相關(guān)研究確定了很多重要的位點(diǎn),找到了很多影響某些性狀的關(guān)鍵基因及一些重要的致病基因。隱型馬爾科夫模型在序列比對(duì)、識(shí)別CpG島等生物信息學(xué)方面也取得了顯著的成就。理想的重組自交系決定了之后的研究是否順利以及是否正確,文章提供的算法很好地解決了這個(gè)

問題。

參考文獻(xiàn)

[1]將紅敬.HMM及其在生物信息學(xué)中的應(yīng)用[D].中南大學(xué),2011.

[2]王子坤.隨機(jī)過程論[M].北京:科學(xué)出版社,1965.

[3]Birney E.Hidden Markov Models in biological sequence analysis[J].IBM Journal of Research and Development,2011,45(364).

[4]L.E.Baum.An Inequality and Associated Maximization Technique in Statistical Estimation of Probabilistic Functions of Markov Process[J].Inequalities,1972,3(1).

[5]Burke,C.J,M.Rosenblatt.A Markovian function of a Markov chain[J].Ann.Math.Stat,1958,(29).

作者簡(jiǎn)介:賈瑤麗(1989-),女,山西長(zhǎng)治人,北京交通大學(xué)碩士研究生,研究方向:數(shù)據(jù)挖掘。

(責(zé)任編輯:黃銀芳)

主站蜘蛛池模板: 国产欧美日韩另类精彩视频| 热re99久久精品国99热| 国产爽歪歪免费视频在线观看 | 无码AV日韩一二三区| 亚洲欧美日本国产综合在线| 国产午夜精品一区二区三| 噜噜噜久久| 亚洲三级色| 最新亚洲人成无码网站欣赏网 | 欧美人在线一区二区三区| 国产门事件在线| 五月激情综合网| 久久精品免费看一| 国产偷国产偷在线高清| 爆操波多野结衣| 五月激情综合网| 亚洲成人网在线观看| 日韩黄色在线| 伊人色综合久久天天| 99re精彩视频| 青青极品在线| 久久精品视频一| 亚洲高清无码精品| 亚洲成人www| 99久久精品免费看国产免费软件 | 国产亚洲欧美另类一区二区| 亚洲系列中文字幕一区二区| 老司机久久99久久精品播放| 99久久精品免费看国产电影| 无码粉嫩虎白一线天在线观看| 国产精品三级专区| 国产成人无码综合亚洲日韩不卡| 国产免费好大好硬视频| 中文无码精品A∨在线观看不卡 | 91黄视频在线观看| 亚洲天堂福利视频| 日韩欧美国产区| 国内精品九九久久久精品| 漂亮人妻被中出中文字幕久久 | 欧美一级在线看| 日韩在线成年视频人网站观看| 又大又硬又爽免费视频| 亚洲精品久综合蜜| 香蕉视频在线精品| 中文字幕免费在线视频| 亚洲高清国产拍精品26u| 国产精品久久久久久影院| 久久精品一卡日本电影 | 欧美午夜网站| 国产精品污污在线观看网站| 国产免费怡红院视频| 亚洲 欧美 日韩综合一区| 亚洲精品视频免费观看| 无码福利日韩神码福利片| 久久精品欧美一区二区| 成人国产免费| 99视频在线免费| 欧美激情视频二区三区| 国产精品黑色丝袜的老师| 欧美有码在线| 国产精品xxx| 四虎永久在线视频| 欧美在线导航| 国产极品美女在线观看| 国产成人精品无码一区二| 成人福利在线观看| 国产91九色在线播放| 五月婷婷综合网| 亚洲一区第一页| 青青青国产视频手机| 亚洲第一区欧美国产综合| 国产九九精品视频| 丰满的熟女一区二区三区l| 综合社区亚洲熟妇p| 欧美精品综合视频一区二区| 在线视频精品一区| 亚洲三级电影在线播放| 国产 在线视频无码| 免费人成网站在线高清| 亚瑟天堂久久一区二区影院| 欧美亚洲一区二区三区在线| 久久狠狠色噜噜狠狠狠狠97视色 |