邢 鈺 馮慧喆
(1.西南林業大學林學院,云南 昆明 650224;2.棗莊學院,山東 棗莊 277160)
研究物種的進化關系不僅可以為分類學提供理論依據和發展方向,還可以通過揭示物種之間親緣關系的遠近和進化關系,從而精確地估計物種的進化地位,進而更好地理解和保護生物的多樣性。傳統物種分類學的研究主要是基于對物種各部分形態的比較分析,如植物的分類學中對根、莖、葉、花、果實、種子等形態的觀察判斷。現如今,通過分子系統發育分析結果的檢驗,證明了傳統物種分類學的很多結論都是錯誤的[1]。但是,由于形態學分析在野外采集初期中非常重要,且分子方面的分析研究耗時較長,所以傳統物種分類學仍不能被摒棄,并且將其與分子分析相結合,將會極大地提高物種系統發育學研究的準確性。以往對植物系統發育學研究的研究主要集中在核型分類學分析、花粉形態分析、葉柄和果實解剖學分析等,而目前對進化關系的研究,主要是結合形態學特性的分析結果與分子系統發育的關系,且后者的分析僅基于DNA序列的系統發育分析,特別是基于核基因組內核糖體DNA的內部轉錄間隔(ITS)區域。
真核細胞的細胞質基因是存在于一些細胞器中的DNA分子,這些基因只能在細胞器(如葉綠體、線粒體)的內部完成表達并控制某些性狀,而且子代細胞的細胞器全部來自母本(受精時,由于精子中的細胞質極少,所以可以認為受精卵中的細胞質全部來自母本)。因此,由細胞質基因控制的性狀都由母本傳給后代,即母系遺傳[2]。細胞質基因組(plasmon)是細胞質中基因的總稱,細胞質基因是細胞質中存在的支配遺傳性狀的基因。在細胞質基因中,存在于色素體中的基因稱為質體基因,存在于線粒體中的基因稱為線粒體基因。細胞質基因是雙螺旋結構,其以半保留的方式進行復制,具有與核基因相同的突變率,但是個別的遺傳密碼子與核基因不同。
細胞質基因和細胞核基因之間在結構上是沒有區別的,并且兩者均由編碼區和非編碼區組成。唯一的區別是兩者的載體不同,真核細胞細胞質基因的載體是葉綠體和線粒體,而細胞核基因的載體是染色體。就位置而言,質基因本質上是存在于細胞質中的基因,而核基因是位于真核生物的細胞核中染色體上的基因;在遺傳方式上,細胞核遺傳時正反交的結果沒有區別,即子一代均表現出顯性親本的性狀;而細胞質遺傳時,則結果相反,即子一代的性狀只與母本相同,即母系遺傳[3]。在基因組成上,所有與質基因相對應的細胞質基因構成一個細胞質基因組,其中包括線粒體基因組和葉綠體基因組等,而核基因組則只是一個簡單的DNA或RNA分子,通常也稱它為染色體。細胞核遺傳和細胞質遺傳都相對獨立,但這并不意味著兩者沒有關聯。核基因是主要的遺傳物質,但它們必須要在細胞質中才能表達;盡管細胞質控制著一些性狀,但它也受到細胞核的影響。因此,細胞質基因和核基因是相互依存、相互制約的。與核基因組構建的系統發育樹相比,質體基因組樹的大多數分支都具有較高的支持值。因此,基于物種的質體基因組重建系統發育關系至關重要,同時很有必要開發更有效的分子標記,可以更好地解決相關物種的種間關系。
葉綠體是植物光合作用和其他生化反應的關鍵細胞器。葉綠體基因組是植物中的三個DNA基因組之一,由于其相對穩定的基因組結構和完整的基因組序列,它已被生物學研究領域廣泛接受,為人們了解進化生物學提供了有價值的信息數據源,并已成為解決植物系統發育的有力工具[4]。
將野外現場考察采集的樣本通過形態學特征鑒定后,將其記錄保存起來。確保每次添加的新鮮葉子都立即用硅膠干燥,以進行進一步的DNA提取。利用試劑盒技術從每個樣本中提取總基因組DNA,評估其數量和質量后,將其分為平均大小的片段。通過對比數據庫的信息,使用Getorganelle和其他組裝軟件,不斷調整參數,對原始片段進行定性評估和組裝,然后進行手動修訂,以確認葉綠體基因組序列中模糊的核苷酸IRa、IRb、SSC和LSC四個連接區域。利用Bandange對組裝完成的fasta文件執行成環檢測,并將拼接出的成環文件在NCBI與公開數據庫中執行快速的局域對位排列算法,通過分析比對(blast)的結果來判斷目標序列與參考序列的匹配程度,從而得出不同序列相似性的比較說明。再使用PGA軟件對blast結果更好的一條序列進行注釋,并通過檢查注釋結果與參考基因組的數目、注釋結果中蛋白編碼基因的cds長度是不是3的倍數和蛋白編碼基因的cds是不是起始密碼子開頭ATG、是不是以終止密碼子結尾等,以避免潛在的注釋錯誤[5]。利用OGDRAW或者Chloroplast對葉綠體基因組進行繪制圈圖。最后,統計出葉綠體基因組的各個數據信息,包括葉綠體基因組大小,LSC、SSC、IR區域的大小和各區域的GC含量。通過對葉綠體基因組組裝和注釋結果的比較和分析,研究得出基因結構、GC含量、序列排列和核酸多樣性,目的是識別積極的選擇基因和理解進化關系。
被子植物中大多數葉綠體的基因組排列結構、基因組成和基因含量高度保守。葉綠體具有典型的圓形四分體結構,其四分體結構的大小范圍為115~165 kb,包括一個大單拷貝區域(LSC)、一個小單拷貝區域(SSC)和兩個編碼相同但方向相反的倒重復區域(IR)。其中LSC區域和SSC區域被兩個IR區域隔開,并且IR區域沒有完全丟失。無論系統發育的位置如何,葉綠體基因組都具有保守的性質。GC含量在基因組識別中起著重要作用,通過堿基組成的變化,可以看出不同物種的基因組差異。種子植物葉綠體基因組中GC含量的正常范圍是34%~40%,倒重復區域內的GC含量最高,這主要是因為該區域中有4個GC含量高的rRNA基因,而rRNA基因在SSC區域的含量最低[6]。GC含量的不均勻分布可能是LSC和SSC區域相對于倒重復區域的保守性的一個重要因素。倒重復區域邊界的收縮和擴張是改變葉綠體基因組長度的主要驅動因素之一。研究發現,蛋白編碼基因進化的速度受IRs收縮和擴張的影響,這很可能有助于研究進化模式。由于質體基因組體積緊湊、母系遺傳、無重組且進化率較低,所以通常被認為是研究瀕危物種保護的理想選擇。基因測序技術的發展,降低了質體基因組測序的成本,為基于質體基因組的相關分析提供了便利。學者們已經基于全質體基因開發了許多適用于種群遺傳學和系統發育學的分子標記。
在整理數據并對結果進行分析后,發現GC的含量在基因組識別中起著重要作用,通過研究堿基組成的變化,可以看出不同物種的基因組差異[7]。在被子植物中,質體基因組大小的變化歸因于倒重復區域和單拷貝(SC)邊界區域的擴張和收縮,這在進化中起著至關重要的作用。研究結果表明,質體基因組在基因組組成、順序和內容上具有高度的相似性,但是倒重復區域(IR)和單拷貝區域(SC)的邊界存在著略微不一致的現象。倒重復區域的擴張和收縮可能是質體基因組長度變化的主要機制,這種波動可能有助于確定物種之間的進化關系。