楊啟航,王希胤
(華北理工大學,河北 唐山 063210)
禾本科(Gramineae)是單子葉開花植物中一個較大的類群,可以分為620 多個屬和1 萬多個種,覆蓋了地球20%的陸地面積,是高等植物中數量最多的類群之一。禾本科植物具有極高的經濟價值和研究價值,是人類主要的食物來源,提供了人類生命活動所需要的大部分熱量和蛋白質。
基因家族(Gene family)是來源于同一祖先,由一個基因經過不同重復類型產生的一組基因,在結構和功能上具有相似性[1]。不同的基因家族具有不同的表達調控模式,并可以行使不同的功能。例如WRKY 基因家族是植物前十大蛋白質家族之一,其許多成員參與調控植物的生長發育、形態建成與抗病蟲等[2],這些基因為基因家族功能進化提供了原材料。研究重要基因家族的變化規律對禾本科植物育種有重要的意義。
利用生物信息學方法對29 個禾本科物種62 個基因家族成員進行鑒定,并分析了其序列、系統進化、基因家族差異、基因結構,以揭示禾本科物種不同基因家族序列特點和表達特性。將研究結果分析匯總后構建禾本科植物基因家族數據庫,為進一步研究禾本科物種基因家族功能提供參考。
在確定GGFDB 中所包含的禾本科物種時,共選擇了來源于NCBI 數據庫(https://www.ncbi.nlm.nih.gov/)和JGI 數據庫(https://phytozome-next.jgi.doe.gov/)中的29個禾本科物種。
從Pfam 數據庫(http://pfam.xfam.org/)中獲得了這62 個基因家族的隱馬爾可夫模型,利用PF 號對應的隱馬爾可夫模型文件進行Hmmersearch 搜索,期望值設定為1e-5。
使用共線性比對工具MCScanX 推斷不同類型的復制基因,并將加倍事件產生的基因篩選出來[3]。使用Perl 程序統計各個基因家族中因不同重復類型擴增的基因,將統計所得的結果儲存在MySql 數據庫中。
將收集到的29 個禾本科物種62 個基因家族序列信息以壓縮文件的形式儲存在數據庫中,當接收到用戶的下載命令時,將結果以Zip 格式發送到瀏覽器。
將各物種中基因家族的信息以圖表的形式展現在頁面中。使用Java Script 中的Echart 插件實現用戶和動態圖的交互。在接受到用戶的查詢命令時,GGFDB會自動搜索所需物種的基因家族統計數據,將查詢結果儲存在PHP 腳本中,最終以交互式圖表的形式展現在HTML 頁面中。
使用R 程序中的gggens 包,利用基因位置文件,繪制各基因家族的基因結構分析圖。GGFDB 使用PHP程序調用R 語言程序包,實現在線繪制基因結構分析圖的功能。最終結果以PDF 格式的文件返回到網頁端。
數據庫調用了MEME 軟件中可本地分析的MEME-suite 模塊,對29 個禾本科物種中62 個基因家族進行保守基序分析,Motif 參數選擇10[4]。用戶選擇需要分析的物種和基因家族名稱,提交到數據庫中。在接收到查詢命令后,GGFBD 會直接跳轉到包含用戶所需要保守基序分析中全部結果的HTML 頁面。
通過開發的GGFDB 數據庫,提供禾本科植物的基因家族信息。該數據庫目前已安裝在CentOS 操作系統上,有一個3 層的體系結構,即客戶端層、中間層和數據庫層。用戶直接訪問的客戶端層是使用PHP 和Java Script 開發的。在數據庫層中,與GGFDB 相關的數據存儲在MySQL 數據庫中。中間層接收HTTP 請求,并由Apacheweb 服務器進行處理。
在GGFDB 的主頁上,提供了一個包括上述29 個禾本科物種的交互式進化樹。主頁上的菜單欄界面提供了網站所有功能模塊的鏈接,包括基因家族擴增信息展示模塊、基因家族序列下載模塊、基因家族圖表信息模塊、基因結構分析模塊和基因保守基序分析模塊,具體見圖1。

圖1 GGFDB 數據庫模塊結構
基因家族擴增類型模塊展示了不同基因家族在禾本科物種進化過程中的變化情況。用戶選擇禾本科物種并提交,可以獲得該物種62 個基因家族的擴增列表。列表總共分為7 列,分別為基因家族ID、非重復基因、其他類型重復基因、染色體附件重復基因、串聯重復基因、基因組加倍導致的重復基因和基因家族總基因數。用戶可以根據需要搜索基因家族的ID 查詢其基因的變化情況,生成的列表支持導出Excel、CSV 和PDF 格式。
基因家族下載界面有29 個禾本科物種中62 個基因家族的序列下載信息。用戶選擇特定的禾本科物種并提交,即可跳轉到物種基因家族信息下載界面。在該界面選擇想要下載的基因家族執行下載即可。
圖表主頁上的圖表界面提供了來自所有物種的染色體的交互式視圖,包括來自每個物種的染色體的數量和長度,以及每個物種中不同重復類型產生基因數量。主頁使用柱狀圖和折線圖顯示這些信息,用戶可以選擇添加或關閉某些物種來控制統計圖的生成,這使用戶更容易比較其差異。這些交互式圖表可以下載,也為每一個物種單獨制作了圖表界面,以圖表的形式展示了基因組中不同類型重復基因的比例、各基因家族中不同類型重復基因的比例、各基因家族的基因數量、各基因家族中不同氨基酸數量。
以二穗短柄草為例,統計了基因組中不同類型重復基因的比例,其中串聯重復基因的比例最多(49.41%),其次是全基因組加倍事件(20.25%)。在不同重復類型統計中可以發現,二穗短柄草基因家族擴增以全基因組加倍和串聯重復為主。
在基因家族基因數量統計中發現,大部分基因家族的基因個數在10~50 個,也有部分大型基因家族的基因數量比較多,達到了100 多個。在對基因家族氨基酸組成統計中發現,丙氨酸(A)在各個基因家族中最多,與丙氨酸可以增加葉綠素的合成、調節葉片氣孔、抵抗病菌入侵有關,具體見圖2。

圖2 二穗短柄草中基因家族圖表結果展示
在基因結構分析模塊中,提供了禾本科物種各基因家族中每個基因的基因結構圖。用戶通過選擇某一禾本科物種中的任意基因家族ID,即可獲得該基因家族成員的基因結構圖。在結構圖中可以看到基因家族中各基因所在的染色體位置、外顯子、內含子、基因長度、基因方向等信息。
在Motif 分析模塊中內嵌了MEME 插件。用戶通過選擇某一禾本科物種中的任意基因家族ID,即可跳轉至MEME 分析結果頁面。GGFBD 在服務器上已經將這些基因家族分析結果分類儲存,用戶可以直接以THML 的形式調用,減少用戶等待時間。
以二穗短柄草BES1 基因家族為例,通過保守基序分析檢測到了最保守的10 個基序(Motif 1~Motif 10),結果顯示,所有被檢測的基因都含有Motif 1,只有兩個基因沒有Motif 2 和Motif 10。Motif 3~Motif 9 是成組出現的,這些Motif 可能是由一次事件產生。
隨著高通量測序技術以及生物信息技術的發展,大量不同功能和特性的基因家族被不斷挖掘出來。這些基因家族在植物的生長發育過程中起著至關重要的作用。禾本科植物作為人類糧食的主要來源,研究其基因家族的結構與功能對禾本科植物育種可以起到指導作用。在此,通過收集29 個禾本科物種中62 個基因家族并對其結構和功能進行分析,構建了禾本科基因家族數據庫(GGFDB,www.ggfdb.com),為這些基因家族之間橫向與縱向的比較提供方法。
本數據庫為用戶提供了友好的工具,可以在物種水平顯示其各基因家族擴增的主要原因,為對其進化和功能創新進行深入研究提供了機會。數據庫中可以下載各基因家族序列、在線繪制不同物種間染色體信息圖譜、在線進行不同物種之間基因重復類型比較、在線繪制同一物種內不同基因家族比較圖譜、基因結構圖譜和在線進行基因保守結構分析。這些功能為研究人員分析禾本科物種基因家族的功能提供了便利。