文/陳琦 吉嘉銘 徐逸卿
本研究以物種細胞器基因組數據為對象做分析,在不損壞原始數據的情況下大批量整合,提供一種完善且高效的基因數據獲取、分析方式。細胞器指細胞內具有特定功能的子單元。在真核細胞中有著不同種類的細胞器,而原核生物本身不具有細胞器,但有些則含有基于蛋白質的細菌微室,被認為是原始的細胞器。
葡萄Vitis vinifera是最古老的果樹種之一,與多個物種存在遺傳進化關系,對葡萄的基因分析有助于了解其進化發育和其他相近物種遺傳特征。國內外學者使用線粒體DNA和葉綠體DNA的分子生物學分析獲取細胞器基因組的特征,對細胞器基因組的分析是理解其遺傳進化的重要途徑。線粒體基因組具有高拷貝數、高替代率、母系遺傳等特點,線粒體DNA被廣泛用作許多領域的工具。葉綠體基因組編碼蛋白質對光合作用功能非常重要,人們在研究其基因序列的時候發現它在物種的進化、遺傳、系統發育關系等方面具有重要的作用。
基因組數據庫為基因研究提供所需的物種種屬、細胞器類別、基因序列等重要數據。隨著生產完整基因組序列的效率提高,難以使用原始文獻進行廣泛比較。現有的物種數據庫沒有標準化且存在錯誤數據導致沒有能夠承擔該任務的工具,通常還缺乏充分利用這些數據的描述符。曾被許多生物學家所使用的GOBASE數據庫,組織并整合了與細胞器相關的分子序列、RNA二級結構和遺傳圖譜,以及所有真核物種的分類信息,該數據庫于2010年8月停止維護更新。行業中缺少一個專用于細胞器基因組的數據庫,也缺乏對基于細胞器基因組相關研究的后續支持。
選用NCBI的Genome庫獲取物種的細胞器基因組數據,相應的數據文件以GenBank的格式被提供下載和訪問。NCBI自1992年以來一直負責提供GenBank DNA序列數據庫,并與個別實驗室和其他序列數據庫進行協調,為每種生物體分配了唯一的標識符以供識別。同時提供了一個序列相似性搜索程序用于在生物體中找到與查詢序列相似的序列,可在15秒內在數據庫內完成序列比較[8]。GenBank序列數據庫收集了所有公開可用的核苷酸序列、蛋白質序列和基因圖譜等信息。GenBank數據庫包含序列文件,索引文件等,對其所含的數據和基因序列進行分析、拆離和存儲是本研究的重點。
使用相關數據接口和爬蟲處理來自NCBI中細胞器基因組數據,對核苷酸序列和蛋白序列等序列進行特征識別和提取,最終構建物種的細胞器基因組數據庫,為做進一步的生物學相關研究提供了數據支持。細胞器基因組是NCBI參考序列項目的一部分,該項目為本研究提供了源數據。本研究的數據處理以葡萄的葉綠體基因組(NC_007957.1)和線粒體基因組(NC_012119.1)為例作為分析對象。每個物種的細胞器基因組都被分配了一個唯一可識別的索引編號。根據已獲得的編號序列,以統一資源定位符的格式獲取資源拼接出完整可訪問的資源路徑(http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=nuccore&id=“編號序列”&rettype=gb&retmode=text)。
設計爬蟲訪問拼接后的路徑地址,通過索引編號的檢索逐個獲取。再以同樣的方式下載線粒體基因組數據。分析文本特征之后將其中功能不同的數據和序列提取出來分別存儲,該特征模式適用于幾乎所有物種。以葡萄為例如下圖1所示,圖中左側字段的層級關系,將被程序分離處理轉換為數據庫中對應的鍵間關系。文件轉化為數組對象,利用不同區域的特征確定該字段所在層級。在此基礎上建立文本分析模型。使用程序將整個文本劃分為層次分明的數個字符串,提取字段為鍵,緊跟在后的字符串為值填充數據庫。枚舉空白字符數為0的鍵值,獲得一級目錄的最大深度。使用正則式匹配無縮進字符串,結果如圖1中紅框所示。以此類推,以縮進層次為特征分別枚舉出第二層級(圖1中藍框)和第三層級(圖1中綠框)的關鍵字和對應信息。第四層級到達了堿基序列和蛋白質序列的層次,單獨使用不同的算法對其進行處理,“/”后的字段是第四層的鍵值,遍歷所有文件,獲得第四級目錄字段出現的深度。從中再次提取出關鍵字如source下的/organism、/organelle、/mol_type等鍵值。
分塊取值并填充到鍵值樹,將結果插入數據庫。按照生成的鍵值樹結構建立數據庫,并根據字段和屬性自動生成數據表,編寫程序將各層級的鍵值插入到數據表中。一至三級存放文件索引字段及相對應的信息,第四級存放如核苷酸序列、蛋白質序列的長文本。分離層次后在數據庫中建立相對應的數據表。便于相關研究對不同序列的要求,對數據庫中的數據信息進行了分類和導出。分別生成相應的文本文件和基因示意圖,以文件樹的結構存放在服務器中供研究人員下載調取。整體目錄結構、文件信息、序列數據等將被自動化腳本定期更新后上傳至服務器供訪問。將分析結果用算法實現并與下載用的爬蟲程序整合,將流程自動化,使其能夠自動訪問NCBI下載并更新細胞器基因組的數據,按照特征分析、分類,生成對應的數據表及相應的字段,寫入數據庫。為相關基于細胞器基因組的研究,例如構建系統發育樹、基因共線性分析等提供了數據條件。
功能完備且便于使用的細胞器基因組數據庫的出現為相關生物學研究提供了極大的助力。至2019年初,本研究建立的數據庫共收錄相關細胞器基因組數據共12130組,其中線粒體基因組9185個,葉綠體基因組2374個,質體571個。如圖2自1990年以來各細胞器基因組通過測序收錄的數量,線粒體基因組的測序數量自2000年后數量大幅增長,自2005年至今新增加的通過測序的線粒體基因組數量已翻了十倍。葉綠體基因組和質體基因組自2005年起每年新增測序數量也有明顯增長。由于葉綠體僅出現在大部分高等植物細胞和藻類中、質體僅出現在植物細胞中,能獲取到葉綠體或質體樣本的物種有限,導致了葉綠體基因組和質體基因組測序數量增長速度受到了限制。
基因測序技術的發展是使測序數量大幅增長的原因之一。其中線粒體基因組的增長趨勢尤為突出,這是由線粒體的本身生物特性導致的。線粒體在生物體中分布廣泛,可輕松獲取大量樣本。動物線粒體DNA比核遺傳標記發展更快,同時也是系統發育和進化生物學的支柱。本研究結合了來自NCBI的細胞器基因組數據及相關計算機算法,設計構建了一個更易于研究使用的專業細胞器基因組數據庫,分析了不同細胞器基因組測序研究的組成與發展趨勢,為相關生物學研究提供了數據依據,為更好地發展如構建系統發育樹等研究項目打下了基礎。

圖1:基因文件四層級分級示意圖

圖2:不同年份細胞器基因組的總測序數量