萬力超 周小安
摘 要:針對傳統方法在分析DNA序列相似性方面的不足,提出了一種基于樣本熵的DNA序列相似性分析方法。以五種東亞鉗蝎神經毒素的基因序列作為分析對象,首先通過DNA序列的圖形表示把DNA序列轉換為時間序列,然后運用樣本熵算法計算出時間序列的樣本熵值,將樣本熵的互值大小作為分析序列之間相似性的依據,最后將樣本熵方法與DTW(Dynamic Time Warping,動態時間彎曲)方法的實驗結果進行比較。實驗結果表明,樣本熵分析方法能有效分析序列之間的相似性,與DTW分析方法相比較,顯示出更強的相似性和區別度,可將其進一步應用于生物序列的分析。
關 鍵 詞:樣本熵;DNA序列;序列相似性;DTW距離
中圖分類號: TP391文獻標識碼: A文章編號:2095-2163(2016)01-
Abstract:This paper studies the application of sample entropy for similarity analysis of DNA sequences. The gene sequences of five kinds of Buthus martensi Karsch neurotoxins are analyzed. The graphical representation of DNA sequences are converted into digital sequences, and their sample entropy are calculated based on sample entropy method. The mutual value between different sample entropy is used to analysis sequence similarity. Analysis result is compared with the method of DTW distance. The analysis result of the proposed method provides good analysis efficiency and higher sensitivity and distinction than the results of DTW distance method. The method of sample entropy can be used for further biological sequences analysis.
Key words: DNA sequence; similarity analysis; sample entropy; DTW distance
0 引 言
隨著生物序列測序技術的不斷進步,人們已經獲得了海量的生物序列信息,對于如何提取挖掘生物序列中的有用內容,解讀DNA序列中的遺傳信息和功能信息,DNA序列的相似性分析即已成為研究關注熱點和實施應用亮點。DNA序列的相似性是指兩條DNA序列的相似程度,相似程度越高表明兩物種“同源”的可能性越大,反之,兩物種的結構和功能差別越大。每當得到一個新物種的DNA序列,人們總是想通過比較該物種與其他已知序列的相似性,由此來分析其基因的功能,如果兩個基因序列相似程度越高,新物種的結構和功能就與已知物種越相似,對于預測新物種基因信息就越有利,如此將會大大降低基因檢測與測序的工程量,這在龐大的基因序列面前即顯得尤為重要。
目前國內外有關分析DNA相似性的方法已有很多[ - ],但其研究的基本思想都是:將DNA序列轉化為圖形表示,利用圖形構造矩陣,再利用矩陣的不變量進行DNA相似性分析,這種方法存在一定缺陷,有的計算過程比較復雜,有的容易丟失結構信息。基于此,后續研究則旨在尋找一種方法簡單、具有較高準確性以及更能從相關性角度反映序列的生物特性的相似性度量方法。
文獻[9]利用近似熵方法研究了DNA序列的相似性,該方法被證明是一種量化時間序列復雜度的方法,并在現實項目中成功應用于生物序列的相似性分析[ ]。但是,近似熵的值與數據長度有關,而且為防止出現ln(0),計算過程中特別比較了自身數據段,然而比較數據和其自身卻毫無關聯意義,而且還會產生誤差。為了顯著提高相似性分析方法的準確度和效率,本文引入了樣本熵算法,相比于近似熵算法,樣本熵在準確性、效率、以及理論建樹上更占獨有優勢,研究最后則通過與DTW方法[ ]的實驗結果進行比較后可知,樣本熵方法的分析結果顯示出更強的相似性,因而可將其進一步應用在生物序列的研究中。
1 分析方法
Richman等提出了一種有關時間序列復雜度的分析方法——樣本熵[ ],通過對近似熵算法實施一定改進,有效地消除了實驗中的誤差。樣本熵計算的是和的對數,計算過程中不包含自身數據段的比較,同時避免了近似熵算法過程中的ln(0)值的出現,在計算效率上占據明顯優勢,而且又減少了實驗中的誤差,其他算法過程兩者基本相似[ ]。樣本熵的物理意義與近似熵一致,樣本熵值越大,序列的復雜程度越高,產生出新模式的概率就越大;樣本熵值越小,序列的復雜程度越低,序列的自我相似性越高。樣本熵的具體算法實現過程如下:
4 實驗結果
4.1 DNA序列動態分析
基因序列可以轉換為時間序列,因此分析DNA相似性等同于時間序列相似性的比較,按照上述時間序列轉換方法,對各個時間序列采用20點的時間窗口分別計算其樣本熵,并將計算結果與序列BMTX1結果展開比對,實驗結果如圖1所示,由此即可分析DNA序列的動態信息和相似性[9]。
從圖1中可以看出,BMTX1和BMTX4的曲線覆蓋度較高,表明這兩者之間DNA相似度較高。其他圖像則表現出較少的覆蓋度,由此可知其與BMTX1相似度較低。從生物進化關系看出,分析結果與實際相符,表明樣本熵可用于分析DNA相似性。
4.2 樣本熵實驗結果
利用上述時間序列轉換方法,將5種東亞鉗蝎神經毒素基因序列轉換成時間序列,然后利用樣本熵算法分別求出五種時間序列的樣本熵,所得樣本熵則如表2所示。
觀察表4數據,BMTX1和BMTX4所對應的DTW距離較小,親緣關系非常接近,所得實驗結果與樣本熵方法基本一致。比較兩種方法的實驗結果,樣本熵方法得到的相對數值差異較大,例如,表3實比表4中的BMTX1與BMTX4、BMCT的相對數據差異明顯較大,顯示出較高的敏感性和區別度。
5 結束語
本文提出一種基于樣本熵算法的DNA相似性分析方法,并通過實例驗證了此方法的有效性和準確性,與DTW距離方法比較,樣本熵方法的分析結果顯示出更強的相似性和準確性。這有助于提高親緣關系較近的分析對象間的區別度,可將其進一步應用在生物序列的分析中,對更多物種的基因序列進行分析,發現更多未知的物種之間的關系,提高此方法的說服力和應用價值。