

摘要:重組自交系是雜交一代經(jīng)過連續(xù)自交而獲得的自交系群體。隱形馬爾科夫模型(HMM)是一種極大似然估計(jì)算法,在很多生物信息研究中取得了理想的結(jié)果。文章提供了利用一階隱型馬爾科夫模型來確定重組自交系個(gè)體基因型的方法,并論述了其準(zhǔn)確性和時(shí)效性。該算法在模擬數(shù)據(jù)及小鼠基因型數(shù)據(jù)上取得了理想的結(jié)果。
關(guān)鍵詞:重組自交系;HMM算法;生物信息;隱形馬爾科夫模型;極大似然估計(jì)算法 文獻(xiàn)標(biāo)識(shí)碼:A
中圖分類號(hào):S511 文章編號(hào):1009-2374(2016)08-0022-02 DOI:10.13535/j.cnki.11-4406/n.2016.08.012
生物的基因組中蘊(yùn)含著豐富的遺傳信息。隨著測(cè)序技術(shù)的不斷發(fā)展,通過對(duì)不同生物的基因組測(cè)序,人們發(fā)現(xiàn),在不同個(gè)體的染色體上,99%的堿基信息都是相同的,而另外1%的差異造就了不同個(gè)體差異。這些單個(gè)堿基上的不同也叫單核苷酸多態(tài)性(SNP)。單核苷酸多態(tài)性也是主要的可遺傳變異。現(xiàn)如今,研究遺傳變異不僅限于單個(gè)的SNP。在遺傳的過程中,不同基因座位的基因并不是完全隨機(jī)地形成單體型,而是某些相鄰基因座位上的基因同時(shí)出現(xiàn)的概率總是比較大,這種現(xiàn)象叫做連鎖不平衡。現(xiàn)在越來越多的研究利用全基因組的SNP信息進(jìn)行關(guān)聯(lián)分析。通過全基因組關(guān)聯(lián)分析等研究,已經(jīng)在植物和動(dòng)物中發(fā)現(xiàn)了很多關(guān)鍵基因。
在全基因組關(guān)聯(lián)分析等諸多研究中,生物學(xué)家常常通過構(gòu)建重組自交系,然后對(duì)重組自交系進(jìn)行測(cè)序整理,確定重組自交系的基因型,為關(guān)聯(lián)分析提供輸入數(shù)據(jù)。隨著測(cè)序技術(shù)的發(fā)展,人們可以通過對(duì)DNA、RNA片段進(jìn)行測(cè)序而獲得重要的數(shù)據(jù)。然而由于測(cè)序成本昂貴,測(cè)序深度不足,導(dǎo)致測(cè)序存在一定的誤差,對(duì)測(cè)序數(shù)據(jù)處理并進(jìn)行基因分型得到的數(shù)據(jù)同樣也會(huì)存在一定誤差。為了減小這種誤差,并且不依賴于昂貴的測(cè)序成本費(fèi)用,文章利用隱形馬爾科夫模型(HMM)算法來提高測(cè)序數(shù)據(jù)的準(zhǔn)確性。
1 重組自交系
重組自交系是雜交一代結(jié)果連續(xù)自交獲得的。如果是二倍體生物,基因組由兩條染色體組成,其中一條來自父親,另一條來自母親。在遺傳的過程中,當(dāng)兩個(gè)個(gè)體進(jìn)行雜交時(shí),在減數(shù)分裂時(shí)期,同源染色體間會(huì)發(fā)生交換。通常根據(jù)研究的目標(biāo)及生物學(xué)意義選擇兩個(gè)親本,記為親本1和親本2,經(jīng)兩個(gè)親本進(jìn)行雜交,在后代中不斷選擇合適的個(gè)體進(jìn)行自交。進(jìn)過多代自交,并經(jīng)過培養(yǎng)環(huán)境或自然環(huán)境的選擇后,就會(huì)得到較好的純合自交系結(jié)果。當(dāng)染色體上存在不同的等位基因時(shí),其中一個(gè)等位基因作為遺傳信息遺傳給自交后代。
染色體上的等位基因一般只存在兩種,即A、C、G、T中的兩種。當(dāng)雜交后代經(jīng)過不斷自交后,絕大部分染色體區(qū)域?qū)⒈患兓泊嬖谏俨糠植灰妆患兓膮^(qū)域。在對(duì)基因型進(jìn)行基因分型之后,在每個(gè)座位上,一般的,當(dāng)基因型來自于親本1時(shí)被標(biāo)記為0,來自于親本2被標(biāo)記為2,如果是雜合的情況,該位置被標(biāo)記為1。有時(shí)也將基因型來自于親本1位點(diǎn)的標(biāo)記為AA,來自親本2的位點(diǎn)標(biāo)記為HH,雜合的位點(diǎn)標(biāo)記為AH。本文采用第一種標(biāo)記方法,并用此標(biāo)記方法來描述隱型馬爾科夫過程。
2 隱形馬爾科夫模型在重組自交系中的應(yīng)用
隱形馬爾科夫模型是加入隱含狀態(tài)的馬爾科夫模型,最早由Baum等人提出。隱型馬爾科夫模型的狀態(tài)值是隱藏的、不可見的。隱型馬爾科夫模型可以通過可觀測(cè)到的數(shù)據(jù)推測(cè)不可觀測(cè)的數(shù)據(jù)。隱形馬爾科夫模型是一個(gè)雙重自動(dòng)機(jī),它描述狀態(tài)之間的轉(zhuǎn)移過程,并描述狀態(tài)值與觀測(cè)值之間的對(duì)應(yīng)關(guān)系。通過概率分布將它們聯(lián)系在一起。
隱形馬爾科夫模型由五元組λ=(S,O,π,A,B)來描述,其中S為狀態(tài)值集合,O為觀測(cè)值集合,π為初始狀態(tài),A為狀態(tài)轉(zhuǎn)移概率矩陣,B為發(fā)散概率矩陣(特定狀態(tài)下產(chǎn)生每個(gè)觀測(cè)值的概率)。文章中采用一階馬爾科夫模型,即每一個(gè)狀態(tài)僅依賴于前一個(gè)狀態(tài)。在重組自交系中,狀態(tài)和觀測(cè)值均由基因型組成。對(duì)于每一個(gè)群體中的個(gè)體,包含三種狀態(tài)和三種觀測(cè)值,即S={0,1,2},O={0,1,2},樣本的SNP的序列為觀測(cè)序列,樣本SNP的待估計(jì)序列為狀態(tài)序列。
假設(shè)觀測(cè)序列X={},對(duì)于重組自交系首先要求參數(shù)A、B的最優(yōu)估計(jì)值。用給定的觀測(cè)序列X來優(yōu)化模型λ,使概率達(dá)到局部最大。本文優(yōu)化模型參考Baum-Welch。給定初始化參數(shù),在當(dāng)前參數(shù)情況下,在局部估計(jì)最優(yōu)狀態(tài)序列。在新的最有狀態(tài)序列下重新估計(jì)參數(shù),不斷迭代直到λ收斂。
當(dāng)獲得最優(yōu)的參數(shù)λ后,在所有的狀態(tài)路徑中,找出使觀測(cè)序列概率最大的狀態(tài)路徑R,即:
通過不斷迭代,更新轉(zhuǎn)移概率矩陣和發(fā)散矩陣,當(dāng)矩陣收斂時(shí),獲得概率似然最大的狀態(tài)序列。在重組自交系中,將隱馬爾科夫模型的學(xué)習(xí)問題和解碼問題結(jié)合起來,編寫了一個(gè)適合于重組自交系的軟件包。
3 算法運(yùn)行及結(jié)論總結(jié)
第一,為了驗(yàn)證程序的準(zhǔn)確性及其效率,文中模擬了不同樣本數(shù)量,不同SNP數(shù)量的重組自交系群體,模擬數(shù)據(jù)具體信息如表1所示。除模擬數(shù)據(jù)以外,從http://mouse.cs.ucla.edu/mousehapmap/獲得了小鼠已驗(yàn)證的自交系群體的單體型數(shù)據(jù),小鼠的數(shù)據(jù)中包含99個(gè)家系,每個(gè)家系包含大約10萬(wàn)個(gè)SNP。對(duì)于模擬數(shù)據(jù)和小鼠自交系的數(shù)據(jù),分別隨機(jī)修改其中5%、10%、15%、20%的位點(diǎn)。在模擬數(shù)據(jù)及小鼠數(shù)據(jù)上運(yùn)行HMM算法,將運(yùn)行結(jié)果與修改前的原始數(shù)據(jù)進(jìn)行比較。實(shí)驗(yàn)結(jié)果如表1和表2所示,表格中記載的為單個(gè)樣本的時(shí)間。如果運(yùn)行環(huán)境相同,每個(gè)樣本的迭代過程均一樣,耗時(shí)也一樣。從表中可以看出,結(jié)果的準(zhǔn)確性超過94%,當(dāng)樣本量增加時(shí),時(shí)間會(huì)線性增長(zhǎng)。
第二,重組自交系對(duì)于全基因組關(guān)聯(lián)研究、表達(dá)數(shù)量性狀研究等有重要意義。在很多研究中已通過相關(guān)研究確定了很多重要的位點(diǎn),找到了很多影響某些性狀的關(guān)鍵基因及一些重要的致病基因。隱型馬爾科夫模型在序列比對(duì)、識(shí)別CpG島等生物信息學(xué)方面也取得了顯著的成就。理想的重組自交系決定了之后的研究是否順利以及是否正確,文章提供的算法很好地解決了這個(gè)
問題。
參考文獻(xiàn)
[1]將紅敬.HMM及其在生物信息學(xué)中的應(yīng)用[D].中南大學(xué),2011.
[2]王子坤.隨機(jī)過程論[M].北京:科學(xué)出版社,1965.
[3]Birney E.Hidden Markov Models in biological sequence analysis[J].IBM Journal of Research and Development,2011,45(364).
[4]L.E.Baum.An Inequality and Associated Maximization Technique in Statistical Estimation of Probabilistic Functions of Markov Process[J].Inequalities,1972,3(1).
[5]Burke,C.J,M.Rosenblatt.A Markovian function of a Markov chain[J].Ann.Math.Stat,1958,(29).
作者簡(jiǎn)介:賈瑤麗(1989-),女,山西長(zhǎng)治人,北京交通大學(xué)碩士研究生,研究方向:數(shù)據(jù)挖掘。
(責(zé)任編輯:黃銀芳)