張正東 申鐵 周文衛 謝曉堯
摘要:茶樹體內的生化反應所生成的各種功能性化合物是茶葉具有營養和健康功能的物質基礎,也是茶葉品質的決定因素。這些生化反應由茶樹基因編碼的酶催化并組成復雜的代謝網絡。首先通過開源工具包jsoup開發異步數據采集程序,從布倫瑞克酶數據庫(braunschweig enzyme database,簡稱BRENDA)和美國國立生物技術信息中心(NCBI)網站上獲取酶序列及其催化反應、GI號、EC編碼對應關系等相關信息,建立本地酶數據庫;其次從NCBI上下載FASTA格式的茶樹表達序列標簽(expressed sequence tag,簡稱EST)序列數據,通過GI號查詢本地酶數據庫,得到酶催化反應信息,繼而基于超圖思想利用Cytoscape Web API重構茶代謝網絡;最后對EST序列信息進行統計分析,并從多個維度對構造的代謝網絡進行拓撲特性、KEGG路徑、生物意義的深入分析,對茶樹內生化反應的理解、新功能基因的挖掘、茶葉品質的提升、新茶產品的開發具有重要意義。
關鍵詞:Cytoscape Web;EST;超圖;代謝網絡;茶葉
中圖分類號: Q811.4文獻標志碼: A
文章編號:1002-1302(2017)11-0029-04[HS)][HT9.SS]
茶是世界上一種重要的飲料[1]。茶葉品質是茶葉具有營養和健康功能的物質基礎,其決定因素是茶葉中的各種功能性化合物[2]。研究表明,茶葉中蘊含的活性物質能夠促進身體健康和預防多種疾病。比如,茶葉中的多酚類物質有很強的抗氧化性和生理活性,具有很好的抗衰老效果[3]。茶多酚及其氧化物能夠吸收放射性物質鍶90、鈷60,具有一定的抗輻射作用[4]。此外,茶多酚(主要是兒茶素類化合物)具有預防多種器官癌癥、代謝綜合征、心血管疾病以及神經退行性疾病的作用[5-7]。
茶葉中的功能性化合物來源于茶樹基因編碼的酶[8]。酶是代謝反應的生物催化劑,其活性由基因轉錄和翻譯的特定氨基酸序列決定[9-12]。茶葉中的酶促反應組成復雜的生化反應網絡,即代謝網絡[13]。代謝網絡的基本功能是不停地與外界環境進行物質和能量交換,維持茶樹體的生命特征[14]。此外,代謝網絡對于茶葉中的物質合成至關重要,這些物質是決定茶葉品質和等級的關鍵要素[15-16]。研究茶葉中的酶及其催化的代謝反應,對于茶樹品種的開發、品質的提升、新型茶產品的研發加工具有重要作用。
茶葉酶的特性取決于氨基酸種類和線性排列,這些氨基酸由茶樹基因編碼[17]。因此,本研究通過異步數據采集程序從布倫瑞克酶數據庫(BRENDA)、美國國立生物技術信息中心(NCBI)網站上獲取酶序列及其催化反應、GI號、EC編碼等相關信息,建立本地酶數據庫;從NCBI上下載茶樹表達序列標簽(EST)序列數據,通過查詢本地酶數據庫鑒別出EST序列對應的茶葉酶,繼而構造茶代謝網絡,從多個維度對構造的代謝網絡進行拓撲特性和生物信息統計分析,并討論分析結果所蘊含的生物學意義。
1材料與方法
1.1EST數據采集
茶樹EST序列數據來源于NCBI數據庫。在NCBI首頁搜索“Camellia sinensis”,選擇“protein”,共獲得38 619 條FASTA格式的茶樹EST氨基酸序列數據。
1.2酶數據庫構建
酶及其催化反應信息來源于BRENDA[18]。BRENDA中共保存了6 759種酶EC編碼、推薦命名和催化反應等信息。由于數據量較大,本研究利用開源工具包jsoup開發異步數據采集程序,解析BRENDA中所有酶及其催化反應的底物和產物等相關信息。對于沒有催化反應信息的酶,如EC 1.1.1.5,將其過濾掉,最終共獲得5 221個酶及其催化反應數據。EST序列的GI號、酶EC編碼對應關系數據也來源于BRENDA。由于NCBI中序列數據會被不斷完善和修正,當EST序列信息被更新時,其GI號也將被賦予新值,而BRENDA中保留的仍然是舊的GI號,因此,將會出現1個EC編碼可能對應多個GI號的情況。這種情況下,首先判定EST序列數據是否被更新,若被更新,追蹤更新歷史信息并找到最近的GI號,此過程通過異步數據采集程序自動完成,采集到的數據保存在本地酶數據庫中。
1.3酶基因篩查
從NCBI上下載的FASTA格式文件的每個序列都有1個GI號作為唯一標識,以便于對序列進行監控和管理[19]。GI號位于FASTA文件序列描述信息的第1行(以“>”開始)。通過GI號查詢本地酶數據庫可以獲得酶的EC編碼,進而得到酶及其催化反應信息。
[HTK]1.4代謝網絡的構建和可視化[HT]
代謝網絡的可視化采用Cytoscape Web實現。Cytoscape Web是一款開源、交互式、高可定制的基于瀏覽器的網絡可視化工具,采用Flex/ActionScript實現,支持GraphML、XGMML、SIF等多種交互文本格式[20]。本研究采用GraphML格式與Cytoscape Web進行數據交互。Cytoscape Web提供非常豐富的JavaScript API,利用這些API可以設置點、邊的顏色、形狀、權重等各種網絡參數,也可實現各種回調方法與網絡交互。
代謝反應可能涉及到多個底物和產物,普通圖每條邊最多連接2個頂點,因此采用普通圖表示代謝網絡,無論是酶還是化合物作為頂點,都要作一些額外限制,很難完整地展現代謝網絡的全部信息。而超圖(hypergraph)的超邊可以連接多個頂點[21],普通圖可視為超邊最多連接2個頂點的超圖特例。超圖可以完整地表示網絡的全部信息,是代謝網絡等復雜網絡的最佳形式化表示方法。因此,本研究采用有向超圖作為代謝網絡的形式化表示方法。酶和化合物均作為超圖的頂點,菱形表示酶頂點,圓形表示化合物頂點。若化合物是酶催化反應的底物,在酶和化合物之間有1條有向超邊,方向指向酶;反之,有向超邊方向則指向化合物。構造的代謝網絡如圖1所示。[FL)]
2.2代謝網絡統計
在2 414條酶序列重構的代謝網絡中,共有297個酶促反應,包含297個酶和530個化合物。代謝網絡最大階為9,最小階為2,平均階為4,階頻數分布如圖2所示;最大度為101,最小度為1,平均度為2,度頻數分布如圖3所示。階定義為超邊所連接的點的個數,即酶促反應的化合物數量;度的定義和普通圖中一樣,為頂點關聯的超邊個數,即化合物參與的代謝反應數量(表2)。
2.3代謝網絡KEGG路徑分析
代謝網絡的一個重要特性是代謝路徑及其所涉及到的化合物,即KEGG路徑分析,這對于理解構建的代謝網絡在整個網絡中的位置和作用有重要意義。因此,本研究將所有的代謝反應映射到KEGG路徑。如圖4所示,2個最大的路徑是次生代謝物、抗生素的生物合成,分別包含44、16個反應,這種情況是合理的,因為這2個路徑位于高層次的分類,包含的反應較多;第二大路徑是嘌呤,包含11個反應;其他較大的路徑是氨酰-tRNA、半胱氨酸和蛋氨酸、乙醛酸和二甲酸、嘧啶和丙酮酸,每個均包含7個反應;色氨酸、淀粉和蔗糖路徑也包含5個以上反應,這些路徑主要是碳相關網絡并分布在中心碳代謝周圍。所以構造的代謝網絡主要分布在中心碳代謝周圍,并被單體生物合成路徑圍繞,同時也包含其他分散的網絡。
2.4代謝網絡詳述
整個代謝網絡由15個彼此間沒有交集的獨立子網絡組成,其中最大子網絡由282個反應構成,1個子網絡由2個反應構成,其余13個子網絡均由1個反應構成。
最大子網絡包含茶樹碳中心代謝系統的主要網絡,如糖酵解途徑、磷酸戊糖途徑、回補途徑、三羧酸循環的絕大部分;此外,該網絡還涵蓋部分氨基酸合成代謝途徑、核苷酸代謝、一碳單位代謝、糖類物質代謝、脂肪酸合成與分解代謝等重要代謝途徑,同時還覆蓋泛醌、NADPH、NADH、ATP、ADP、acetyl-CoA等各類輔因子及輔酶的生成與轉化途徑。這些途徑能夠實現茶樹主要物質分解、能量合成、能量轉移等主要的生化活動。
另外,該網絡還涉及相當數量的次生代謝網絡,存在與兒茶素類物質代謝相關的黃酮醇合成酶、苯丙氨酸解氨酶、花白素還原酶等,為將兒茶素類物質代謝放到基因組規模代謝網絡背景下進行研究提供便利;同時,該網絡還存在沒食子酸、花青素、二氫黃酮、原兒茶酸等具體物質的相關反應。
3結論
茶葉品質的決定因素是茶樹體內的生化反應所生成的各種功能性化合物,這些生化反應由茶樹基因編碼的酶催化并組成復雜的代謝網絡。研究茶樹的代謝網絡對于了解茶樹內的生化反應、挖掘茶樹的功能基因、提升茶葉的品質、開發新的茶產品具有基礎性與指導性的重要意義。本研究從NCBI上獲得茶樹的EST序列,通過GI號確定對應的酶及其催化反應,繼而基于超圖思想構造茶樹的代謝網絡,并作拓撲結構和生物意義的深入分析。后續筆者會不斷地完善數據和方法,增加新的功能,如本地BLAST序列比對。最終,希望提供[FL)]
[FK(W21][TPZZD4.tif][FK)]
[FL(2K2]一款普適工具,輸入任意來源的任意序列均可輕易解析出該序列對應的酶及其催化反應信息,構建代謝網絡。
參考文獻:
[1]Cabrera C,Artacho R,Giménez R.Beneficial effects of green tea:a review[J]. J Am Coll Nutr,2006,25(2):79-99.
[2]Abuajah C L,Ogbonna A C,Osuji C M.Functional components and medicinal properties of food:a review[J]. J Food Sci Technol,2015,52(5):2522-2529.
[3]Khan N,Mukhtar H.Tea and health:studies in humans[J]. Curr Pharm Des,2013,19(34):6141-6147.
[4]Chen H X,Zhang M,Qu Z H,et al.Antioxidant activities of different fractions of polysaccharide conjugates from green tea(Camellia Sinensis)[J]. Food Chem,2008,106(2):559-563.
[5]Yang C S,Wang X,Lu G,et al.Cancer prevention by tea:animal studies,molecular mechanisms and human relevance[J]. Nat Rev Cancer,2009,9(6):429-439.
[6]Kanwar J,Taskeen M,Mohammad I,et al.Recent advances on tea polyphenols[J]. Front Biosci,2012(4):111-131.
[7]Chen Z M,Lin Z.Tea and human health:biomedical functions of tea active components and current issues[J]. J Zhejiang Univ Sci B,2015,16(2):87-102.
[8]Bonnely S,Davis A L,Lewis J R,et al.A model oxidation system to study oxidised phenolic compounds present in black tea[J]. Food Chem,2003,83(4):485-492.
[9]Yun J,Kang S,Park S,et al.Characterization of a novel amylolytic enzyme encoded by a gene from a soil-derived metagenomic library[J]. Appl Environ Microbiol,2004,70(12):7229-7235.[ZK)]
[10]Annaluru N,Ramalingam S,Chandrasegaran S.Rewriting the blueprint of life by synthetic genomics and genome engineering[J]. Genome Biol,2015,16(1):1-12.
[11]Seelig B.mRNA display for the selection and evolution of enzymes from in vitro-translated protein libraries[J]. Nat Protoc,2011,6(4):540-552.
[12]Karigar C S,Rao S S.Role of microbial enzymes in the bioremediation of pollutants:a review[J]. Enzyme Res,2011(2011):805187.
[13]Caetano-Anollés G,Yafremava L S,Gee H,et al.The origin and evolution of modern metabolism[J]. Int J Biochem Cell Biol,2009,41(2):285-297.
[14]Wagner A,Fell D A.The small world inside large metabolic networks[J]. Proc Biol Sci,2001,268(1478):1803-1810.
[15]Nishikawa T,Gulbahce N,Motter A E.Spontaneous reaction silencing in metabolic optimization[J]. PLoS Comput Biol,2008,4(12):e1000236.
[16]Janga S C,Babu M M.Network-based approaches for linking metabolism with environment[J]. Genome Biol,2008,9(11):239-244.
[17]Griffiths A J F,Miller J H,Suzuki D T,et al.An introduction to genetic analysis:gene-protein relations[M]. 7th ed.New York:W H Freeman,2000.
[18]Scheer M,Grote A,Chang A,et al.BRENDA,the enzyme information system in 2011[J]. Nucleic Acids Res,2011(39):D670-D676.
[19]McGinnis S,Madden T L.BLAST:at the core of a powerful and diverse set of sequence analysis tools[J]. Nucleic Acids Res,2004(32):W20-W25.
[20]Lopes C T,Franz M,Kazi F,et al.Cytoscape web:an interactive web-based network browser[J]. Bioinformatics,2010,26(18):2347-2348.
[21]Berge C.Packing problems and hypergraph theory:a survey[J]. Ann Discrete Math,1979(4):3-37.
[22]Parkinson J,Blaxter M.Expressed sequence tags:an overview[J]. Methods Mol Biol,2009,533:1-12.[ZK)][HT][HJ][FL)]