









摘"要:DNA復制發生在所有生物體內,是生物遺傳的基礎,它是從單個原始的DNA分子生成兩個相同復制品的過程。為了深入了解這一重要的生物學過程并將它應用于發展對抗遺傳病的新戰略,有必要對DNA復制的機制進行研究。在后基因組時代,隨著DNA序列數據的數量呈爆炸式的增長,急需發展高通量數據比對的工具,此工具能夠通過DNA序列數據即可識別DNA序列中的復制起始位點。文章中提出一個新型的預測器iROIPCM,將DNA序列樣本通過結合一系列自協方差和交叉協方差的物理化學屬性矩陣來表示,并使用支持向量機進行分類。經過嚴格的交叉驗證,結果表明,所提出的預測器在敏感性、特異性、準確性、穩定性等指標上都明顯優于已有的預測器,能在一定程度上對相關研究有所助益。
關鍵詞:復制起始位點;物理化學屬性;支持向量機;交叉驗證
中圖分類號:Q523""""""文獻標識碼:A"""""""文章編號:20959699(2024)03001806
基因組的復制對于任何細胞的繁殖都是必不可少的一步。盡管古細菌、細菌、真核生物的DNA復制過程不同,但它們復制機制的核心部分相同。基因組DNA合成的開始需要在復制機制可以加載的位點上,通過專門的引物使得蛋白質與核酸進行精準的相互作用。這類位點,定義為“復制起始位點”(Replication Origin,ORI),也被稱為“復制起點”(RO)。至今為止,經驗證,原核生物的染色體上通常只有一個復制起始位點。對于小的DNA,如細菌質粒和小病毒中的DNA,一個起始位點就足夠確保整個基因組中每個細胞周期的完整和適當的復制。相反,真核生物的基因組中明顯含有更多的起始位點,從酵母基因組中的300~400個到人類基因組中的30 000~50 000個,自然會在多個位置形成復制叉[1],才能及時復制它們較大的線性染色體。因此,從根本上來說,獲取復制起始位點的信息對于深入了解細胞繁殖的過程至關重要[2]。
釀酒酵母被最早應用于真核基因組復制起始位點的預測研究,在該領域的探索研究上,學者們已經取得了相當大的進展。基于相似性原理,Breier et al.[3]開發了一種預測酵母復制起始位點的算法。Chen et al.[4]提出將兩種DNA結構特性相結合的方法,即DNA彎曲[5]和羥基自由基裂解強度[67]來預測釀酒酵母基因組中的復制起始位點。MarsolierKergoat et al.[8]則通過分析復制起始位點附近GC和TA的偏移來做同樣的預測。以偽核苷酸組成(pseKNC)的方法為基礎[9], Li et al.[10]開發了新算法對酵母的復制起始位點進行了識別。Wu et al.[11]開發了一種基于卷積神經網絡的方法來識別釀酒酵母中不同長度的復制起始位點。也有學者結合多種特征來識別復制起始位點,Dao et al.[12]將基于表觀基因組的特征、基于序列的特征和基于3D基因組的特征相結合以提高預測的準確性。
上述方法各有其優點,并對該領域的發展起到了促進作用。但它們在準確性和實際應用價值方面仍存在一定的局限性:(1)主流的功能區識別方法多是統計學習識別方法,在預測精度上還有進一步的提升空間;(2)大多數功能區識別算法對較短序列的識別效果較差,且在特征提取時對信息挖掘得不夠透徹。識別方法的實際應用能力有待改善。
根據Chou提出的觀點[13],要建立一個真正有用的基于生物序列信息的預測器,應該遵守以下規則來具體而清晰地制定研究方案:(1)如何構建或選擇一個有效的基準數據集來訓練和測試預測器;(2)如何用一個能真實反映它們與目標之間相關性的有效數學表達式來描述生物序列樣本;(3)如何通過有效的算法來進行預測;(4)如何正確地進行交叉驗證測試,客觀地評估預測的準確度。
要構建有效的預測器,需先提取生物信息的特征,而對DNA復制起始位點序列特征提取的關鍵,在于將序列中某些關鍵信息轉化為向量來表達。由于單核苷酸包含的特異性信息較少,為能更多地包含信息,采用二聯核苷酸(即二核苷酸)組成來替代單核苷酸,并通過“物理化學屬性矩陣”和“自協方差和交叉協方差變換”的方法得到DNA樣本的特征表達,結合機器學習算法構建較高性能的預測器。精準預測DNA復制起始位點對于進一步研究DNA功能和相關新藥的開發都具有重要意義。在文章的其他部分,將逐步構建該預測器。
1"材料方法
1.1"基準數據集
從OriDB[14]數據庫(http://www.oridb.org/)中收集了740個釀酒酵母的DNA序列。為了構建一個覆蓋廣泛并較低同源性的基準數據集,構建過程嚴格按照以下程序。首先,剔除模棱兩可的數據,例如備注“可能”“可疑”的序列,因為這些序列的可靠性不強。其次,整理獲得410個經證實的長度為300 bp的復制起始位點DNA序列。然后,提取該410個樣本序列上游-600 bp到-300 bp段的序列,作為410個非復制起始位點的DNA序列樣本。為了減少冗余和同源性,使用CDHIT軟件[15]剔除了數據中相似度超過75%的序列。最后,得到了405個正樣本(即ORI)和406個負樣本(即非ORI)。
基準數據集可用下式表達:
O=Ο+∪Ο- ,(1)
其中,正集Ο+包含405個ORI樣本,負集Ο-包含406個非ORI樣本,符號∪是集合的意思。
給定一個含L個核苷酸殘基的DNA樣本D,最直接的樣本表達方式見如下序列模型:
D=N1N2N3N4N5N6N7…NL ,(2)
其中,L為300,N1表示第一個位置上的核苷酸殘基,N2表示第二個位置上的核苷酸殘基,……,以此類推,NL表示第L個位置上的核苷酸殘基。盡管式(2)中包含DNA樣本的完整信息,但它很難直接應用于統計預測。因為現有的學習器無法處理序列樣本,只能處理向量,如支持向量機、隨機森林等。因此,有必要構建特征向量來表達DNA樣本。
1.2"物理化學屬性矩陣
為了開發一個高性能的預測器,關鍵前提是如何找到一個準確的數學表達式去表達DNA樣本,且這個表達式必須能真實地反映預測結論與特征屬性間的內在聯系。
ORI(或非ORI)樣本可表達為:
D=Ψ1Ψ2Ψ3…ΨΩT,(3)
其中,T是轉置運算符,Ω是整數,反映向量的維數。Ω以及式(3)中ΨΩ的值取決于如何從DNA序列中提取到所需的信息。
由于每個樣本由300維的核苷酸組成,因此式(2)可表示為:
D=N1N2N3N4N5N6N7…N300 ,(4)
其中,Ni∈Aadenine,Ccytosine,Gguanine,Tthymine,(i=1,2,3,…,L),Ni表示DNA序列中的第i個核苷酸。
接著,用“物理化學屬性矩陣”和“自協方差和交叉協方差變換”的方法來表達式(2)中的DNA樣本序列。DNA中的每個二核苷酸都有許多物理化學屬性。因此,一個DNA序列能用一系列的物理化學屬性值進行編碼。
編碼過程中采用了以下12種物理化學屬性[16]:(1) HC1: Aphilicity; (2) HC2: base stacking; (3) HC3: BDNA twist ; (4) HC4: bendability ; (5) HC5: DNA bending stiffness ; (6) HC6: DNA denaturation ; (7) HC7: duplex disrupt energy ; (8) HC8: duplex free energy ; (9) HC9: propeller twist ;(10) HC10: protein deformation; (11) HC11: proteinDNA twist;
(12)HC12: ZDNA。每個二核苷酸12種屬性的初始值在表1中列出。
根據這12種物理化學屬性,式(3)中的DNA序列可以表示為一個12×L-1維的物理化學屬性矩陣:
D=HC1(N1N2)HC1(N2N3)…HC1(NL2NL1)HC2(N1N2)HC2(N2N3)…HC2(NL2NL1)HC12(N1N2)HC12(N2N3)…HC12(NL2NL1) (5)
其中,HCj(NiNi+1)是式(4)中二核苷酸NiNi+1的第j個 ( j=1, 2, …, 12 )物理化學屬性值。
在將這些物理化學屬性值轉化為式(5)前,表1中每個二核苷酸的12種物理化學屬性初始值都需要通過下式的轉換:
HCj(NiNi+1)=HCj(NiNi+1)-lt;HCjgt;SD(HCj)(6)
其中,lt; gt;意味著取16種原始二核苷酸中數量的平均值,SD則表示對應的標準偏差。
表2列出了標準化后表1的值。
因此,長度為L的DNA序列可表示為12×L-1維的物理化學矩陣。
接著,利用兩種協方差將矩陣變換為一個固定長度的特征向量。根據自協方差,樣本中λ個二核苷酸分隔的兩個子序列之間物理化學屬性的關系可以表示為:
AC ( j, "λ ) = ∑L1λi=1 [HCj(NiNi+1) - HCj][HCj(NiNi+1+λ) - HCj](L-1 -λ)(j=1,2,…,12)(7)
其中,λ=(1, 2, …, L-1)和HCj表示式(5)中第i條水平線的平均值,表達式如下:
HCj=∑L-1i=1HCj(NiNi+1)L-1
據此,根據式(7),使用式(5)中物理化學屬性上的自協方差,獲得了12×λ個自協方差成分。根據自協方差,對于不同的物理化學屬性,兩個子序列之間的關系可表示為:
CC ( j1, j2, λ )=∑L1λi=1[HCj1(NiNi+1)-HCj1][HCj2(NiNi+1+λ)-HCj2]L-1-λ( j1=1,2,…,12; "j2=1,2,…,12; "j1≠j2 ) (8)
故共有12×11×λ個交叉協方差成分。
綜上,生成了12×λ+12×11×λ=144×λ維的特征向量。
經過初步計算和分析,當λ=4時,效果更好。因此,一個DNA序列可以表達為:
D=[d1, d2, …, dμ, …, d144×λ]T"=[d1, d2, …, d576]T(9)
該式得到的DNA樣本特征表達,將作為支持向量機(SVM)分類器的輸入數據。
2"新型預測器
新型預測器iROIPCM將上述特征提取方法和機器學習分類算法相結合。選取的數據集中正負樣本均衡,采用支持向量機(SVM)來執行預測取得了較為理想的效果。支持向量機是一種流行的有監督的機器學習算法,被廣泛用于生物信息學和化學統計學,其基本原理是將輸入的向量轉化為一個高維的希爾伯特空間,然后在高維空間中找到一個能將待分類的點分開的“超平面”,并利用這些超平面,找到這兩類點之間的“最大間隔”。構建預測器過程中采用的支持向量機(SVM)算法可自LIBSVM軟件包[17]中獲得,通過選擇合適的內置參數來進行分類預測。
為了最大限度地提高支持向量機算法的性能,通過網格搜索對RBF核函數的兩個參數進行了初步優化。得出,當參數c = 3.031 4,g = 0.006 801 2 時,分類器效果最好,如圖1所示。
3"結果與討論
為了驗證該預測器的效果,還設計并進行了留一法交叉驗證實驗對預測器進行評估。采用敏感性(sensitivity,Sn)、特異性(specificity,Sp)、精確度(accuracy,Acc)、馬修斯相關系數(Mathew′s correlation coefficient,MCC)四個指標綜合評判該預測器的性能。
Sn=TPTP+FNSp=TNTN+FPAcc=TP+TNTP+TN+FP+FNMcc=TP×TN-FP×FNTP+FN×TN+FN×TP+FP×TN+FP
其中,TP表示預測正確的正樣本數量;TN表示預測正確的負樣本數量;FP表示預測為正樣本的負樣本數量;FN表示預測為負樣本的正樣本數量。
如表3所示,與Bendability+cleavage intensity[4]的方法相比較,該方法在各項指數上都有明顯的提高,說明所開發的預測器是一個行之有效的工具。
參考文獻:
[1]Leonard A C, Mechali M. DNA Replication Origins[J].Cold Spring Harbor Perspectives in Biology,2013,5(10):a010116.
[2]Chengcheng S, Shaocun Z, He H. Choosing a suitable method for the identification of replication origins in microbial genomes[J].Frontiers in Microbiology,2015,6:1049.
[3]Breier A M, Chatterji S, Cozzarelli N R. Prediction of Saccharomyces cerevisiae replication origins[J].Genome biology,2004,5(04):R22.
[4]Chen W, Feng P, Lin H. Prediction of replication origins by calculating DNA structural properties[J].FEBS letters,2012,586(06):934938.
[5]Brukner I, Sanchez R, Suck D,et al. Sequencedependent bending propensity of DNA as revealed by DNase I: parameters for trinucleotides[J].EMBO JOURNAL,1995,14(08):18121812.
[6]Kang J H, Kim S M. DNA cleavage by hydroxyl radicals generated in the Cu,Znsuperoxide dismutase and hydrogen peroxide system[J].Molecules amp; Cells,1997,7(06):777.
[7]Bishop E P, Rohs R, Parker S C J, et al. A map of minor groove shape and electrostatic potential from hydroxyl radical cleavage patterns of DNA[J].Acs Chemical Biology,2015,6(12):1314.
[8]MarieClaude M K, Nieduszynski C A. Asymmetry Indices for Analysis and Prediction of Replication Origins in Eukaryotic Genomes[J].Plos One,2012,7(09):e45050.
[9]Xu Y, Wen X, Shao X J,et al. iHydPseAAC: Predicting Hydroxyproline and Hydroxylysine in Proteins by Incorporating Dipeptide PositionSpecific Propensity into Pseudo Amino Acid Composition[J].International Journal of Molecular Sciences,2014, 15(05):75947610.
[10]Li W C, Deng E Z, Ding H,et al. IORIPseKNC: A predictor for identifying origin of replication with pseudo ktuple nucleotide composition[J].Chemometrics and Intelligent Laboratory Systems,2015,141:100106.
[11]Wu F,Yang R,Chen J, et al. A Convolutional Neural NetworkBased Approach to Identify the Origins of Replication in Saccharomyces Cerevisiae[C]//Technical Committee on Control Theory, Chinese Association of Automation, Chinese Association of Automation, Systems Engineering Society of China.2020 39th Chinese Control Conference (CCC)(6).School of Mechanical, Electrical and Information Engineering, Shandong University,2020:110115.
[12]Dao F Y, Lv H, Fullwooid M J,et al. Accurate Identification of DNA Replication Origin by Fusing Epigenomics and Chromatin Interaction Information[J].Research,2023(01):455468.
[13]Chou K C. Some remarks on protein attribute prediction and pseudo amino acid composition[J].Journal of Theoretical Biology,2011,273(01):236247.
[14]Nieduszynski C A, Hiraga S I, Ak P,et al. OriDB: a DNA replication origin database[J].Nucleic Acids Research,2007,35:D40.
[15]Li W, Godzik A. Cdhit: a fast program for clustering and comparing large sets of protein or nucleotide sequences[J].Bioinformatics,2006(22):16581659.
[16]Wei C, Hao L, PengMian F,et al. iNucPhysChem: A SequenceBased Predictor for Identifying Nucleosomes via Physicochemical Properties[J].Plos One,2012,7(10):e47843.
[17]Chang C C, Lin C J. LIBSVM: A library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology,2011,2(03):127.
責任編輯:肖祖銘
Research on the Identification of DNA Replication Origin Based on Machine Learning
YE Hanxiao1,2
(1. School of Mathematics and Information Science, Nanchang Normal University, Nanchang 330032, China;
2. School of Statistics and Data Science, Jiangxi University of Finance and Economics, Nanchang 330013, China)
Abstract:DNA replication occurs in all organisms, is the basis of biological inheritance, which is the process of generating two identical copies from a single original DNA molecule. In order to have a thorough understanding of this important biological process and then apply it to the development of the new strategy against genetic disorders, it is necessary to study the mechanism of DNA replication. In the postgenomic era, with the explosive growth of DNA sequence data, there is an urgent need to develop highthroughput data alignment tool that can identify DNA replication origin purely based on the sequence information. In the paper, a new predictor called iROIPCM was proposed to represent the physicochemical attribute matrix of DNA sequence samples by combining a series of autocovariance and cross covariance, and the support vector machine is used for classification. Through strict cross validation, the results show that the proposed predictor is significantly better than the existing predictor in sensitivity, specificity, accuracy, and stability indexes, which can be helpful for relevant research to a certain extent.
Keywords: replication origin; physicochemical attribute; support vector machine (SVM); cross validation