利用HMM算法確定重組自交系基因型

2016-03-10 02:54:58賈瑤麗

中國(guó)高新技術(shù)企業(yè) 2016年8期

摘要：重組自交系是雜交一代經(jīng)過連續(xù)自交而獲得的自交系群體。隱形馬爾科夫模型（HMM）是一種極大似然估計(jì)算法，在很多生物信息研究中取得了理想的結(jié)果。文章提供了利用一階隱型馬爾科夫模型來確定重組自交系個(gè)體基因型的方法，并論述了其準(zhǔn)確性和時(shí)效性。該算法在模擬數(shù)據(jù)及小鼠基因型數(shù)據(jù)上取得了理想的結(jié)果。

關(guān)鍵詞：重組自交系；HMM算法；生物信息；隱形馬爾科夫模型；極大似然估計(jì)算法文獻(xiàn)標(biāo)識(shí)碼：A

中圖分類號(hào)：S511 文章編號(hào)：1009-2374（2016）08-0022-02 DOI：10.13535/j.cnki.11-4406/n.2016.08.012

生物的基因組中蘊(yùn)含著豐富的遺傳信息。隨著測(cè)序技術(shù)的不斷發(fā)展，通過對(duì)不同生物的基因組測(cè)序，人們發(fā)現(xiàn)，在不同個(gè)體的染色體上，99%的堿基信息都是相同的，而另外1%的差異造就了不同個(gè)體差異。這些單個(gè)堿基上的不同也叫單核苷酸多態(tài)性（SNP）。單核苷酸多態(tài)性也是主要的可遺傳變異。現(xiàn)如今，研究遺傳變異不僅限于單個(gè)的SNP。在遺傳的過程中，不同基因座位的基因并不是完全隨機(jī)地形成單體型，而是某些相鄰基因座位上的基因同時(shí)出現(xiàn)的概率總是比較大，這種現(xiàn)象叫做連鎖不平衡。現(xiàn)在越來越多的研究利用全基因組的SNP信息進(jìn)行關(guān)聯(lián)分析。通過全基因組關(guān)聯(lián)分析等研究，已經(jīng)在植物和動(dòng)物中發(fā)現(xiàn)了很多關(guān)鍵基因。

在全基因組關(guān)聯(lián)分析等諸多研究中，生物學(xué)家常常通過構(gòu)建重組自交系，然后對(duì)重組自交系進(jìn)行測(cè)序整理，確定重組自交系的基因型，為關(guān)聯(lián)分析提供輸入數(shù)據(jù)。隨著測(cè)序技術(shù)的發(fā)展，人們可以通過對(duì)DNA、RNA片段進(jìn)行測(cè)序而獲得重要的數(shù)據(jù)。然而由于測(cè)序成本昂貴，測(cè)序深度不足，導(dǎo)致測(cè)序存在一定的誤差，對(duì)測(cè)序數(shù)據(jù)處理并進(jìn)行基因分型得到的數(shù)據(jù)同樣也會(huì)存在一定誤差。為了減小這種誤差，并且不依賴于昂貴的測(cè)序成本費(fèi)用，文章利用隱形馬爾科夫模型（HMM）算法來提高測(cè)序數(shù)據(jù)的準(zhǔn)確性。

1 重組自交系

重組自交系是雜交一代結(jié)果連續(xù)自交獲得的。如果是二倍體生物，基因組由兩條染色體組成，其中一條來自父親，另一條來自母親。在遺傳的過程中，當(dāng)兩個(gè)個(gè)體進(jìn)行雜交時(shí)，在減數(shù)分裂時(shí)期，同源染色體間會(huì)發(fā)生交換。通常根據(jù)研究的目標(biāo)及生物學(xué)意義選擇兩個(gè)親本，記為親本1和親本2，經(jīng)兩個(gè)親本進(jìn)行雜交，在后代中不斷選擇合適的個(gè)體進(jìn)行自交。進(jìn)過多代自交，并經(jīng)過培養(yǎng)環(huán)境或自然環(huán)境的選擇后，就會(huì)得到較好的純合自交系結(jié)果。當(dāng)染色體上存在不同的等位基因時(shí)，其中一個(gè)等位基因作為遺傳信息遺傳給自交后代。

染色體上的等位基因一般只存在兩種，即A、C、G、T中的兩種。當(dāng)雜交后代經(jīng)過不斷自交后，絕大部分染色體區(qū)域?qū)⒈患兓泊嬖谏俨糠植灰妆患兓膮^(qū)域。在對(duì)基因型進(jìn)行基因分型之后，在每個(gè)座位上，一般的，當(dāng)基因型來自于親本1時(shí)被標(biāo)記為0，來自于親本2被標(biāo)記為2，如果是雜合的情況，該位置被標(biāo)記為1。有時(shí)也將基因型來自于親本1位點(diǎn)的標(biāo)記為AA，來自親本2的位點(diǎn)標(biāo)記為HH，雜合的位點(diǎn)標(biāo)記為AH。本文采用第一種標(biāo)記方法，并用此標(biāo)記方法來描述隱型馬爾科夫過程。

2 隱形馬爾科夫模型在重組自交系中的應(yīng)用

隱形馬爾科夫模型是加入隱含狀態(tài)的馬爾科夫模型，最早由Baum等人提出。隱型馬爾科夫模型的狀態(tài)值是隱藏的、不可見的。隱型馬爾科夫模型可以通過可觀測(cè)到的數(shù)據(jù)推測(cè)不可觀測(cè)的數(shù)據(jù)。隱形馬爾科夫模型是一個(gè)雙重自動(dòng)機(jī)，它描述狀態(tài)之間的轉(zhuǎn)移過程，并描述狀態(tài)值與觀測(cè)值之間的對(duì)應(yīng)關(guān)系。通過概率分布將它們聯(lián)系在一起。

隱形馬爾科夫模型由五元組λ=（S，O，π，A，B）來描述，其中S為狀態(tài)值集合，O為觀測(cè)值集合，π為初始狀態(tài)，A為狀態(tài)轉(zhuǎn)移概率矩陣，B為發(fā)散概率矩陣（特定狀態(tài)下產(chǎn)生每個(gè)觀測(cè)值的概率）。文章中采用一階馬爾科夫模型，即每一個(gè)狀態(tài)僅依賴于前一個(gè)狀態(tài)。在重組自交系中，狀態(tài)和觀測(cè)值均由基因型組成。對(duì)于每一個(gè)群體中的個(gè)體，包含三種狀態(tài)和三種觀測(cè)值，即S={0，1，2}，O={0，1，2}，樣本的SNP的序列為觀測(cè)序列，樣本SNP的待估計(jì)序列為狀態(tài)序列。

假設(shè)觀測(cè)序列X={}，對(duì)于重組自交系首先要求參數(shù)A、B的最優(yōu)估計(jì)值。用給定的觀測(cè)序列X來優(yōu)化模型λ，使概率達(dá)到局部最大。本文優(yōu)化模型參考Baum-Welch。給定初始化參數(shù)，在當(dāng)前參數(shù)情況下，在局部估計(jì)最優(yōu)狀態(tài)序列。在新的最有狀態(tài)序列下重新估計(jì)參數(shù)，不斷迭代直到λ收斂。

當(dāng)獲得最優(yōu)的參數(shù)λ后，在所有的狀態(tài)路徑中，找出使觀測(cè)序列概率最大的狀態(tài)路徑R，即：

通過不斷迭代，更新轉(zhuǎn)移概率矩陣和發(fā)散矩陣，當(dāng)矩陣收斂時(shí)，獲得概率似然最大的狀態(tài)序列。在重組自交系中，將隱馬爾科夫模型的學(xué)習(xí)問題和解碼問題結(jié)合起來，編寫了一個(gè)適合于重組自交系的軟件包。

3 算法運(yùn)行及結(jié)論總結(jié)

第一，為了驗(yàn)證程序的準(zhǔn)確性及其效率，文中模擬了不同樣本數(shù)量，不同SNP數(shù)量的重組自交系群體，模擬數(shù)據(jù)具體信息如表1所示。除模擬數(shù)據(jù)以外，從http：//mouse.cs.ucla.edu/mousehapmap/獲得了小鼠已驗(yàn)證的自交系群體的單體型數(shù)據(jù)，小鼠的數(shù)據(jù)中包含99個(gè)家系，每個(gè)家系包含大約10萬(wàn)個(gè)SNP。對(duì)于模擬數(shù)據(jù)和小鼠自交系的數(shù)據(jù)，分別隨機(jī)修改其中5%、10%、15%、20%的位點(diǎn)。在模擬數(shù)據(jù)及小鼠數(shù)據(jù)上運(yùn)行HMM算法，將運(yùn)行結(jié)果與修改前的原始數(shù)據(jù)進(jìn)行比較。實(shí)驗(yàn)結(jié)果如表1和表2所示，表格中記載的為單個(gè)樣本的時(shí)間。如果運(yùn)行環(huán)境相同，每個(gè)樣本的迭代過程均一樣，耗時(shí)也一樣。從表中可以看出，結(jié)果的準(zhǔn)確性超過94%，當(dāng)樣本量增加時(shí)，時(shí)間會(huì)線性增長(zhǎng)。

第二，重組自交系對(duì)于全基因組關(guān)聯(lián)研究、表達(dá)數(shù)量性狀研究等有重要意義。在很多研究中已通過相關(guān)研究確定了很多重要的位點(diǎn)，找到了很多影響某些性狀的關(guān)鍵基因及一些重要的致病基因。隱型馬爾科夫模型在序列比對(duì)、識(shí)別CpG島等生物信息學(xué)方面也取得了顯著的成就。理想的重組自交系決定了之后的研究是否順利以及是否正確，文章提供的算法很好地解決了這個(gè)

問題。

參考文獻(xiàn)

[1]將紅敬.HMM及其在生物信息學(xué)中的應(yīng)用[D].中南大學(xué)，2011.

[2]王子坤.隨機(jī)過程論[M].北京：科學(xué)出版社，1965.

[3]Birney E.Hidden Markov Models in biological sequence analysis[J].IBM Journal of Research and Development，2011，45（364）.

[4]L.E.Baum.An Inequality and Associated Maximization Technique in Statistical Estimation of Probabilistic Functions of Markov Process[J].Inequalities，1972，3（1）.

[5]Burke，C.J，M.Rosenblatt.A Markovian function of a Markov chain[J].Ann.Math.Stat，1958，（29）.

作者簡(jiǎn)介：賈瑤麗（1989-），女，山西長(zhǎng)治人，北京交通大學(xué)碩士研究生，研究方向：數(shù)據(jù)挖掘。

（責(zé)任編輯：黃銀芳）

中國(guó)高新技術(shù)企業(yè)2016年8期

中國(guó)高新技術(shù)企業(yè)的其它文章: 城鄉(xiāng)規(guī)劃編制如何有效指導(dǎo)城市建設(shè)研究; 漁船安全管理中存在的問題與解決對(duì)策; 城鄉(xiāng)一體化背景下的新農(nóng)村建設(shè)研究; 淺談職業(yè)教育校企合作體制機(jī)制現(xiàn)狀及創(chuàng)新; 淺談城鄉(xiāng)規(guī)劃編制與審批在城鄉(xiāng)規(guī)劃中的問題; 淺談拓展眾創(chuàng)空間推動(dòng)創(chuàng)業(yè)創(chuàng)新的認(rèn)識(shí)和建議