李洪飛,孫大慶,曹龍奎,*
(1.黑龍江八一農墾大學 國家雜糧工程技術中心,黑龍江 大慶 163319;2.東北石油大學化學化工學院,黑龍江 大慶 163318)
甜菊糖甙是從甜葉菊中提取的無熱量、高甜度的四環二萜類化合物,甜度是蔗糖的20~300 倍,熱量僅為蔗糖的1/300,安全無毒,具有預防動脈硬化、肥胖、齲齒癥等疾病,以及抗高血糖、抗炎癥、抗腫瘤、利尿和免疫調節等功效,是天然、綠色且健康的第3代甜味劑,目前已在食品、醫藥、日化用品等行業廣泛應用。目前從甜葉菊中已檢測到的甜菊糖甙超過300 種。甜菊糖甙以甜菊醇為苷元,只是在C13和C19位連接的糖基數量和種類不同,其中萊鮑迪甙C(rebaudioside C,RC)含量位列第3,甜度低、后苦味重,因此嚴重影響了它在食品工業中的應用。
甜菊醇作為甜菊糖甙分解代謝的終產物,已被證明是甜菊糖甙發揮生理功能的主要結構基礎,也是許多藥物的重要原料或合成前體。然而,它在甜葉菊中含量很低,不足0.1%,因此通過直接提取法生產甜菊醇產量很低。目前甜菊醇的制備方法有化學合成法、酶催化法和微生物轉化法,其中微生物轉化法以產量高、反應條件溫和、收率高和成本低等特點受到研究者的青睞。
目前報道以RC為底物制備甜菊醇的微生物有霉菌、和細菌,以及人體腸道中的某些微生物。馬迎迎報道顯示,固體培養浸提酶液在45 ℃轉化1%甜菊糖甙,50 h后底物中RC轉化率達到100%,轉化產物為甜菊醇,該研究者還利用液體培養菌絲將RC轉化為甜茶苷,4 d后RC轉化率為97.9%。Jiang Huiling等采用對甜菊糖甙中RC進行轉化,甜菊糖甙底物質量分數1%,37 ℃、220 r/min培養144 h后,RC全部轉化為甜菊醇。Koyama等利用人體腸道菌群孵育甜菊糖甙,觀察到甜菊糖甙中RC明顯減少,孵育24 h后RC剩余7%,轉化產物為甜菊醇。整體而言,完全轉化RC時間最短,轉化效率最高。盡管人體腸道菌群可以更快地轉化RC,但24 h后RC并沒有完全轉化,而且報道中沒有證明具體哪種微生物具有RC轉化能力。
本課題組前期從甜葉菊種植土壤中分離篩選到1 株可以高效轉化RC的細菌,該菌株可以將1 mg/mL高純度RC和1 mg/mL甜菊糖甙分別在8 h和10 h完全轉化為甜菊醇。經16S rRNA(GenBank ID:MW926547)物種鑒定,該菌株命名為CR5301。以前稱為,Busse對菌屬進行了重新分類,增列了。目前菌株轉化RC的研究以往鮮見報道。NCBI數據庫顯示,截至2021年11月,全基因組測序菌株為31 株,其中6 個基因組為完成圖序列,物種收錄2 個基因組序列,但均為沒有組裝完整的草圖序列。為全面了解CR5301的遺傳背景,深入解析CR5301轉化RC的代謝途徑和關鍵酶,本研究采用二代Illumina HiSeq和三代Nanopore相結合的測序方式對CR5301進行基因組完成圖測序,以期得到物種第1個完成圖基因組序列,之后利用生物信息學軟件和公開數據庫對該基因組進行全面、深入的基因功能注釋、分類和預測分析,旨在為今后CR5301的RC轉化代謝機制研究提供清晰的遺傳背景和關鍵的候選酶基因信息。此外,CR5301完整基因組序列測定和解析將為今后物種的遺傳、進化、生理等廣泛生物學研究提供重要的遺傳信息基礎。
CR5301由本實驗室從甜葉菊種植土壤中分離、篩選獲得,該菌株已保藏于中國典型培養物保藏中心(CCTCC NO:M2021851)。
察氏培養基和察氏不含蔗糖培養基 青島高科技工業園海博生物技術有限公司;細菌基因組抽提試劑盒WizardGenomic DNA Purification Kit 美國Promega公司;測序文庫構建試劑盒NEXTflexRapid DNA-Seq Kit 美國Bioo Scientific公司;其他試劑均為分析純或生化試劑。
HZQ-Q型全溫振蕩器 哈爾濱市東聯電子技術開發有限公司;MLS-3751L-PC型高壓蒸汽滅菌器 松下健康醫療株式會社;H1850R型臺式高速冷凍離心機 湖南湘儀實驗室儀器開發有限公司;GeneAmp9700型聚合酶鏈式反應(polymerase chain reaction,PCR)儀美國ABI公司;NanoDrop ONE型微量紫外-可見分光光度計 美國Thermo公司;M220型Covaris超聲波破碎儀基因有限公司;TBS-380熒光儀、Illumina HiSeq測序儀美國Illumina公司;Nanopore測序儀 英國Oxford公司。
1.3.1 菌株活化與培養條件
從-80 ℃冰箱取出凍存的CR5301菌株,在察氏固體培養基平板上劃線,28 ℃恒溫培養箱中培養48 h,挑取單菌落接種于察氏液體培養基中,28 ℃、135 r/min條件下培養24 h。取2 次活化培養菌液,2%(/)接種于新鮮察氏液體培養基中,培養至對數末期,取樣用于后續實驗。
1.3.2 菌株基因組DNA的提取
取活化后菌液2 mL,按照Wizard細菌基因組抽提試劑盒說明書進行基因組DNA的提取。基因組DNA樣品利用微量紫外-可見分光光度計和熒光儀進行純度和濃度測定。DNA滿足質量濃度≥20 ng/μL和純度OD/OD=1.8~2.0的樣品用于后續建庫測序。
1.3.3 測序文庫的構建
Illumina測序文庫制備:取至少1 μg基因組DNA,利用超聲破碎儀Covaris進行基因組DNA片段化,將DNA樣本剪切成約400 bp的片段,按照NEXTflexRapid DNASeq試劑盒說明書進行Illumina測序文庫制備。Nanopore測序文庫制備:取至少15 μg基因組DNA,利用Covaris將基因組DNA處理成約10 kb的片段,然后進行片段純化,末端補平,兩端分別連接Nanopore測序接頭。
1.3.4 全基因組完成圖測序、組裝及數據質控分析
采用細菌基因組測序方法,利用二代Illumina HiSeq和三代Nanopore相結合的測序方式對CR5301基因組進行完成圖測序。制備的二代測序文庫在Illumina HiSeq×10測序儀上進行雙末端測序(2×150 bp)。制備的三代測序文庫在Nanopore測序儀上進行納米孔測序。二代測序數據原始數據以fastq格式儲存,為了使后續的組裝更加準確,會對原始數據進行質量剪切,去除測序質量較低、含N比例較高及質量修剪后長度較小的reads,得到高質量的clean data。利用Canu及HGAP軟件進行Nanopore數據組裝,將reads組裝成contigs,然后判斷是否成環,得到完整的染色體和質粒基因組。最后利用Illumina測序數據對組裝結果進行校正,并判斷環狀基因組的起始位點。基因組圈圖利用CGView軟件繪制。本次測序委托上海美吉生物醫藥科技有限公司完成。
1.3.5 基因預測及功能注釋
利用Glimmer對基因組中的基因進行預測,質粒基因采用GeneMarkS軟件預測,tRNAscan-SE進行tRNA預測,Barrnap進行rRNA預測,使用Tandem Repeats Finder軟件進行串聯重復序列預測。利用BLASTP、Diamond、HMMER等序列比對工具,從非冗余蛋白(Non-Redundant,NR)數據庫、歐洲蛋白質數據庫Swiss-Prot、蛋白質家族數據庫Pfam、基因本體論(Gene Ontology,GO)、直系同源聚類群(Clusters of Orthologous Groups,COG)、京都基因與基因組百科全書(Kyoto Encyclopedia of Genes and Genomes,KEGG)、碳水化合物活性酶(carbohydrate-active enzymes,CAZy)數據庫中對預測到的基因進行功能注釋。所有數據庫中序列比對閾值設置-value≤10。
1.3.6 基因組共線性和進化分析
檢索并下載NCBI下Genome數據庫(https://www.ncbi.nlm.nih.gov/genome/)中所有物種公布的完整基因組序列數據。利用Mauve 2.4軟件,將CR5301和所有已知基因組序列進行共線性比對分析。種子序列為默認值15 bp。Mauve計算獲得的基因組系統進化樹采用MEGA 7.0軟件進行可視化。
檢索并下載NCBI下RefSeq數據庫(https://www.ncbi.nlm.nih.gov/refseq/)中所有物種全長16S rRNA基因序列。利用MEGA 7.0軟件進行多序列比對,比對結果利用鄰接法構建CR5301和所有已知物種16S rRNA基因序列的系統進化樹。同為革蘭氏陽性菌且基因組高GC含量的長雙歧桿菌模式菌株ATCC 15707的16S rRNA基因(NR_044691.2)作為進化樹的外群對照。
1.3.7 關鍵糖苷酶預測、基本性質和結構分析
分 別 利 用 ProtParam、 SignalP 5.0、TMHMM 2.0、SOPMA軟件預測蛋白質的基本理化性質、信號肽序列、跨膜結構域和二級結構。
所有數據使用Excel 2019進行整理、篩選和統計分析。利用Prism 8軟件繪制柱狀圖。使用CGView(Version 2)繪制基因組圈圖。
經二代和三代測序數據聯合組裝,CR5301基因組獲得1 個完整閉合的染色體基因組序列,沒有獲得質粒序列。CR5301基因組序列全長4 748 281 bp,GC含量62.92%,共含有4 458 個編碼基因,包括54 個tRNA和18 個rRNA編碼基因,測序深度310.36 倍。CR5301基因組測序和基因預測詳細結果如表1所示。為了全面和直觀地展示CR5301全基因組的基本特征,通過CGView軟件繪制基因組圈圖,如圖1所示。
目前,GenBank數據庫中物種只有2 個菌株DSM 20138(3.97 Mb,Accession No. NZ_JAFBCD010000001.1)和CECT 4207(4.09 Mb,Accession No. NZ_JAAOZD010000001.1)基因組序列公布,但它們都沒有組裝完整,從基因組大小看,它們仍然缺失較多的遺傳信息。因此CR5301基因組完成圖的測定,不僅為CR5301的RC轉化功能研究提供了清晰、完整的遺傳信息,并且為物種的遺傳、進化、生理、代謝研究首次提供了完整、可靠的參考基因組序列,這對今后廣泛的生物學研究具有重要參考價值和普遍借鑒意義。

表1 P. ilicis CR5301基因組基本特征Table 1 General characteristics of P. ilicis CR5301’s genome

圖1 P. ilicis CR5301基因組圈圖Fig. 1 Graphical representation of P. ilicis CR5301’s genome
2.2.1 COG注釋分析
COG是進行蛋白質直系同源分類的數據庫。將測序基因的氨基酸序列與eggNOG數據庫進行比對,從而預測這些蛋白質的功能并進行功能分類統計。經COG注釋分析,CR5301共有21 類3 749 個基因得到了COG注釋,占基因總數84.1%,結果如圖2所示。未知功能的基因數量最多,共1 120 個,占注釋基因總數的29.87%。其次為碳水化合物轉運和代謝、氨基酸轉運和代謝以及轉錄相關的基因,分別為379、372 個和355 個,分別占注釋基因總數的10.11%、9.92%和9.47%。與無機離子轉運和代謝、能量產生與轉化功能相關的基因也得到較多的注釋,分別為208 個和204 個。
由于CR5301的RC轉化功能與碳水化合物代謝功能相關,因此對注釋為碳水化合物轉運和代謝的COG基因進行了分析。總共有379 個基因被注釋到該功能相關的169 個COG分類中,其中基因最多的是COG0395(依賴內膜轉運系統的結合蛋白,22 個)和ENOG410XP7I(轉運蛋白,21 個),基因不少于10的有COG1653(轉運蛋白活性,15 個)、COG1082(TIM桶結構域木糖異構酶,12 個)、COG1472(水解酶家族3,11 個)、COG1940(ROK家族蛋白,11 個)、COG0477(主要激活劑超家族蛋白,10 個)、COG0524(pfkb結構域蛋白,10 個)、COG1621(水解酶,10 個),唯一基因的COG有101 個。碳水化合物轉運和代謝功能高度多樣性表明,CR5301具有強大的碳水化合物代謝能力。

圖2 P. ilicis CR5301基因的COG注釋和分類Fig. 2 COG annotation and classification of P. ilicis CR5301’s genes
2.2.2 GO注釋分析
CR5301在GO數據庫中注釋到2 439 個基因,占基因總數54.71%。三大分類中,注釋到分子功能相關的基因最多,有1 987 個,注釋到細胞組成和生物過程相關的基因數相近,分別為1 051 個和1 044 個,GO注釋分析詳細結果見圖3。在生物學過程分類中,跨膜轉運(GO:0022857,125 個)、DNA模板的轉錄調控(GO:0006355,77 個)、碳水化合物代謝(GO:0005975,60 個)和翻譯(GO:0006412,58 個)基因數最多。在細胞成分分類中,膜成分(GO:0016021,692 個)、細胞質(GO:0005737,204 個)和(細胞膜GO:0005886,156 個)基因數明顯高于其他GO分類。在分子功能分類中,DNA結合(GO:0003677,272 個)和ATP結合(GO:0005524,257 個)基因數也明顯高于其他分類。此外,重點分析了可能參與RC生物轉化過程的基因,這些基因主要涉及水解酶活性(GO:0016787,99 個)、碳水化合物代謝(GO:0005975,60 個)、水解酶活性、水解-糖基化合物(GO:0004553,20 個)、碳水化合物結合(GO:0030246,11 個)等,去掉重疊,共發現163 個基因。
2.2.3 KEGG注釋分析
KEGG是系統分析基因產物在細胞網絡代謝通路以及這些基因產物功能的數據庫,利用KEGG 可以進一步解析基因產物在生物學上的復雜行為。經KEGG注釋分析,CR5301共有1 975 個基因得到了KEGG注釋,注釋基因占基因總數44.30%,如圖4所示。代謝通路第一層級共有6 個分類,獲得注釋基因由多到少的順序為:代謝(834 個,占注釋基因總數42.23%)、遺傳信息處理(165 個,8.35%)、環境信息處理(138 個,6.99%)、細胞過程(102 個,5.16%)、人類疾病(7 個,0.35%)和生物體系統(5 個,0.25%)。在第二層級中,除了全局和概覽圖,與碳水化合物代謝通路相關的注釋基因最多,注釋基因301 個,占注釋基因總數15.24%,明顯高于其他代謝通路。這一結果進一步表明,CR5301具有碳水化合物代謝高度多樣性的功能基因和代謝通路,從而對外界復雜碳水化合物的降解、轉化和利用提供了巨大潛力和可能性。

圖3 P. ilicis CR5301基因的GO注釋和分類Fig. 3 GO annotation and classification of P. ilicis CR5301’s genes

圖4 P. ilicis CR5301基因的Pathway注釋和分類Fig. 4 Pathway annotation and classification of P. ilicis CR5301’s genes
在漫長的進化過程中,為適應環境的變化或提高自身的生存競爭力,細菌基因組往往會攝入一些外源基因片段,并將其整合進自己的基因組中,這些片段上一般都含有某些特定功能的編碼基因,比如毒力基因、耐藥基因、代謝基因等,從而改變細菌的表型,協助細菌度過“困境”或占據優勢生態位,這些可在基因組內或基因組之間轉移遺傳信息的DNA片段統稱為可移動遺傳元件。細菌中可移動遺傳元件主要包括質粒、基因島、前噬菌體、CRISPR-Cas等。經分析,CR5301不含有質粒,含有4 個基因島、1 個前噬菌體和14 個CRISPR-Cas編碼序列,詳細信息見表2。
基因功能分析顯示,基因島GI01和GI03分別含有1 個和4 個噬菌體同源基因,推測它們由噬菌體整合而來。基因島GI04僅含有1 個重組酶基因,無噬菌體和質粒特有基因,無法確定其來源。3 個基因島均不含有碳水化合物代謝酶基因。但分析發現,最大基因島GI02不僅含有多個碳水化合物代謝酶基因,而且含有4 個-葡萄糖苷酶基因(gene1874、gene1875、gene1884、gene1887),它們是CR5301水解RC葡萄糖基側鏈的候選基因,也可能是CR5301將RC轉化為甜菊醇的關鍵酶基因。同時,基因島GI02編碼1 個釋放酶基因(gene1870),而該基因是接合質粒特有基因,因此推測GI02由1 個接合質粒整合而來。前噬菌體Ph01不含有碳水化合物代謝酶基因,與分枝桿菌噬菌體D29含有多個高度同源蛋白,因此推測Ph01可能來自分枝桿菌噬菌體D29。從基因組中定位看,前噬菌體Ph01與基因島GI03大部分區域重疊,這表明基因島GI03很可能也來自分枝桿菌噬菌體D29。CRISPR-Cas系統是一種原核生物的免疫系統,用來抵抗外源遺傳物質的入侵,如噬菌體、病毒和外源質粒。它可以識別出外源DNA,并且沉默外源基因的表達。注釋分析發現,CR5301基因組含有14 個CRISPR-Cas編碼序列,重復序列、間隔序列和重復次數具有豐富的多性樣,這表明它在演化過程中經受過復雜的外源質粒和噬菌體入侵,已經進化出比較健全的先天免疫機制。

表2 P. ilicis CR5301基因組中可移動元件Table 2 Mobile genetic elements in P. ilicis CR530’s genome
經檢索目前NCBI下Genome數據庫中共收錄31 個菌株基因組序列,分屬于6 個已知物種和未知物種,其中6 個菌株為完整基因組序列。雖然收錄2 個基因組序列,但2 個基因組測序均沒有組裝成完成圖,因此沒有用于基因組共線性分析。CR5301和6 個菌株基因組共線性分析結果如圖5A所示。基于基因組共線性,7 個菌株全基因組系統進化樹如圖5B所示。

圖5 P. ilicis CR5301基因組共線性和系統進化樹Fig. 5 Genome collinearity and phylogenetic tree of P. ilicis CR5301
由圖5A可知,CR5301基因組是所有完整測序的中基因組最大的菌株,CR5301基因組94%以上區域與其他基因組顯示高度同源性和良好共線性。在7 個基因組中,CR5301和TC1基因組之間只在中間發生局部的缺失和插入突變,沒有發生倒位突變,顯示最高的同源性和最好的共線性。CR5301和CZY1基因組大小差異最大,表明它們之間發生最大范圍的缺失和插入突變,同時兩個基因組之間還發生1 個145 kb大片段(1 217 961~1 363 587 bp)和3 個小片段的倒位突變,因此這兩個基因組具有最低的同源性和共線性。此外,全基因組比較分析發現,CR5301的基因島GI01與其他6 個菌株共有,而基因島GI02、GI03、GI04和前噬菌體Ph01均為菌株CR5301獨有,這些獨有的可移動元件,尤其是基因島GI02攜帶的碳水化合物活性酶很可能賦予CR5301獨特的碳水化合物代謝能力。圖5B可以更加直觀、清晰顯示7 個菌株基因組的系統進化關系,CR5301和TCI、YJN-D明顯聚類為一個分支,3 個菌株和YJN-5聚類為另一個分支,這表明在全基因組水平上CR5301與具有更近的親緣關系,而與的親緣關系較遠。
另一方面,CR5301和所有已知物種16S rRNA基因的系統進化樹(圖5C)分析顯示,所有物種形成3 個明顯聚類的進化分支,分支1由和聚類形成,分支2由單獨形成,分支3由、和聚類而成,CR5301明顯與的2 個菌株聚類。這些結果表明,在中,CR5301與親緣關系較近,與親緣關系較遠,這與全基因組系統進化樹(圖5B)分析結果一致,與Busse對菌屬分類定義時的研究結果一致。這進一步證明了基因組共線性分析結果的有效性和準確性,為CR5301的系統進化、分類鑒定和比較基因組學研究提供了可靠的佐證和依據。
CAZy數據庫是碳水化合物活性酶類專業數據庫。根據蛋白質結構域中氨基酸序列的相似性,可將不同來源的碳水化合物活性酶分成6大類。經CAZy注釋分析,CR5301共編碼174 個碳水化合物活性酶基因,這些基因的功能分類信息見圖6。綜合COG、GO、KEGG和CAZy數據庫注釋分析,分別找到379、163、301 個和174 個碳水化合物活性酶基因,去冗余分析后,CR5301基因組共含有523 個碳水化合物活性酶基因。

圖6 P. ilicis CR5301基因的CAZy注釋和分類Fig. 6 CAZy annotation and classification of P. ilicis CR5301’s genes
為進一步篩選和挖掘CR5301轉化RC功能的關鍵酶基因,對底物RC和終產物甜菊醇的分子結構進行比較分析。由圖7可知,RC轉化為終產物甜菊醇涉及4 個化學鍵的水解,包括C19位的-葡萄糖基酯鍵、C13位與槐糖基連接的糖苷鍵、-1,3-葡萄糖苷鍵和-1,2-鼠李糖苷鍵,因此可以水解這些化學鍵的糖苷酶很可能是CR5301轉化RC的關鍵酶。以往研究表明,少數-半乳糖苷酶具有水解甜菊糖甙C19位和C13位糖基側鏈的功能,因此,除了-葡萄糖苷酶和-鼠李糖苷酶,-半乳糖苷酶也可能是RC轉化的關鍵酶。經功能注釋檢索分析,綜合COG、GO、KEGG和CAZy數據庫注釋并去冗余獲得的523 個碳水化合物活性酶中,發現11 個-葡萄糖苷酶基因、5 個-半乳糖苷酶基因、1 個-鼠李糖苷酶基因和1 個同時注釋兩種糖苷酶活性基因(注釋信息見表3)。同時利用這3 個酶關鍵詞在NR、Swiss-Prot和Pfam數據庫注釋基因中進行檢索,沒有發現新的基因。因此,通過上述7 個數據庫綜合分析,發現CR5301含有18 個轉化RC關鍵糖苷酶候選基因。

圖7 RC和甜菊醇化學結構Fig. 7 Chemical structures of rebaudioside C and steviol

表3 P. ilicis CR5301轉化RC的關鍵酶候選基因Table 3 Candidate genes for key enzymes of strain CR5301 for transforming RC
為了進一步了解關鍵糖苷酶酶學性質,通過ProtParam等軟件對這些糖苷酶的物化性質和二級結構進行了預測分析,結果如表4所示。分析發現,4 個糖苷酶基因(gene0496、gene0759、gene3111、gene4409)具有信號肽序列,其中2 個基因(gene3111、gene4409)產物具有跨膜結構域,同時親水系數預測顯示只有這2 個基因產物為非水溶性蛋白,這表明gene0496和gene0759產物可能是分泌蛋白,gene3111和gene4409產物可能是膜蛋白,因此,這4 個基因對于研究CR5301胞外RC轉化能力更有針對性,而其他不含有信號肽和跨膜結構域基因,很可能負責CR5301細胞質中RC轉化功能。另一方面,蛋白質不穩定系數預測顯示,大多數基因產物不穩定系數小于40閾值,只有4 個基因產物稍大于40,這表明這些糖苷酶大多數穩定性較好,只有4 個蛋白穩定性較差,有利于今后的工業化應用。由表4可知,這些糖苷酶二級結構中主要以無規卷曲和-螺旋為主。酶的功能部位常常位于無規卷曲構象區域,因為無規卷曲可使空間結構中的自由能達到最大而促進蛋白質結構穩定。18 個糖苷酶中,gene0759的二級結構中無規卷曲含量最高55.10%,此外不穩定系數最低23.38,表明gene0759產物結構和耐熱穩定性可能最佳。

表4 關鍵酶基本物化性質和二級結構Table 4 General physicochemical properties and secondary structure composition of key enzymes
基因組裝和預測分析發現,CR5301基因組為一個閉合環狀染色體DNA分子,不含有質粒,染色體基因組序列全長4 748 281 bp,GC含量62.92%,共含有4 458 個編碼基因,包括18 個rRNA操縱子和54 個tRNA。同時,該基因組含有4 個基因島、1 個前噬菌體和14 個CRISPR-Cas編碼序列,基因島GI01可能來源于噬菌體,基因島GI02可能來源于接合性質粒,前噬菌體Ph01和基因島GI03可能起源于分枝桿菌噬菌體D29。
CR5301是物種第1個測定基因組完成圖的菌株,基因組共線性分析發現,也是屬已知基因組最大的菌株。全基因組系統進化分析發現,CR5301與具有更近的親緣關系,而與的親緣關系較遠。16S rRNA基因系統進化樹分析結果同樣支持這個結論。
基因注釋和功能分類分析發現,CR5301基因組在NR、Swiss-Prot、Pfam、COG、GO和KEGG數據庫中分別注釋到4 458、3 095、3 600、3 749、2 439 個和1 975 個功能基因。通過基因功能統計分類,在COG、GO、KEGG和CAZy數據庫中,分別找到379、163、301 個和174 個碳水化合物活性酶基因,去冗余分析后,CR5301基因組共含有523 個碳水化合物活性酶基因。之后通過底物RC和終產物甜菊醇分子結構比較,精準定位了RC轉化需要水解的化學鍵和對應的糖基水解酶,最終在7 個數據庫注釋基因中發現18 個轉化RC關鍵糖苷酶候選基因。最后,通過生物信息學分析,預測了18 個糖苷酶的物化性質和二級結構,為今后進一步縮小CR5301轉化RC的關鍵酶基因提供了非常重要的參考和基礎。
總之,CR5301基因組完成圖的測定,不僅為CR5301的RC轉化機制研究提供清晰、完整的遺傳信息,并且為物種的遺傳、進化、生理、代謝研究首次提供了完整、可靠的參考基因組序列,這對今后的生物學研究具有重要的參考價值和普遍的借鑒意義。