陳嘉慧,劉文獻
(蘭州大學草種創新與草地農業生態系統全國重點實驗室,蘭州大學農業農村部草牧業創新重點實驗室,蘭州大學草地農業教育部工程研究中心,蘭州大學草地農業科技學院,甘肅 蘭州 730020)
隨著我國人民生活水平的提高和消費觀念的轉變,人們對于糧食的需求日漸減少,而對牛羊肉、雞蛋、牛羊奶等高蛋白產品需求則逐漸增加[1]。這一趨勢促進了飼草業的迅速發展,使得草業經濟在國民經濟中的占比越來越大,從而推動我國優質牧草產業的高質量發展。然而受到“以糧為綱”思想的影響,我國的牧草育種研究起步較晚,導致我國自主研發的牧草品種少,性狀不突出,與水稻(Oryza sativa)、玉米(Zea mays)等主要的糧食作物相比仍存在較大的差距;除此之外,牧草本身具有自交不親和、異花授粉、多倍體遺傳、近交退化等不利因素,導致牧草育種仍停留在以雜交育種為主的2.0 時代[2],在生理學和分子方面的研究遠遠落后于小麥(Triticum aestivum)、水稻以及擬南芥(Arabidopsis thaliana)等模式作物[3]。隨著高通量測序技術的快速發展,測序費用降低,牧草在組學研究、分子生物學和基因組測序方面取得了長足進展。目前,學者們相繼公布了部分牧草的基因組、轉錄組和代謝組的測序數據,如紫花苜蓿(Medicago sativa)[4-6]、蒺藜苜蓿(Medicago truncatula)[7-8]、黃花草木樨(Melilotus officinalis)[9]、霸王(Zygophyllum xanthoxylum)[10]、黑麥草(Lolium perenne)[11-12]、羊草(Leymus chinensis)[13-14]、燕麥(Avena sativa)[15]、箭筈豌豆(Vicia sativa)[16]、飼用玉米[17]、垂穗披堿草(Elymus nutans)[18-19]等。
隨著組學數據的公布,生物科學進入了后基因組時代,基因組學的研究重心也從基因組的結構轉向基因的挖掘和功能的驗證,而基因在不同組織的表達量對基因功能挖掘具有重要的指導作用。通過對牧草基因在不同組織的時空表達模式,干旱、鹽堿、低溫等逆境下的表達量變化的研究,可以進一步研究基因的功能以及響應脅迫的分子調控網絡及分子機制。然而,傳統的多組學數據通常采用柱狀圖、三線表或普通熱圖來展示,形式較為單一且結果不夠美觀直接。因此,開發一套更加直接、美觀、高效展示牧草多組學數據圖形可視化工具顯得愈加重要。
電子熒光象形圖(electronic fluorescent pictograph,eFP)瀏覽器是基于網絡分析基因表達的強大工具[20],它以不同的顏色代碼區分各種組織類型的卡通圖像,每種色調表示查詢基因在給定時間點的表達水平[21]。早在2007 年,Winter 等[20]就提出通過構建網站以實現數據的可視化,從而基于擬南芥的數據開發了電子熒光象形圖(eFP)瀏覽器(http://www.bar.utoronto.ca/),以方便可視化和解釋擬南芥發育過程中的基因表達。2016 年,Sateesh 等[22]對亞麻薺(Camelina sativa)的12 種不同組織的RNA 測序生成了全基因組發育轉錄組圖譜,并且通過構建eFP 瀏覽器實現了表達數據的交互式可視化(http://bar.utoronto.ca/efp_camelina/cgi-bin/efpWeb.cgi)。在2017 年,Waese 等[23]以eFP 瀏覽器為基礎開發了一個數據集成軟件工具ePlant(http://bar.utoronto.ca/eplant),并利用ePlant 框架為包括番茄(Solanum lycopersicum),玉米,小麥和大豆(Glycine max)的15 個重要農作物創建ePlant。同年,Hawkins 等[21]利用eFP 技術對野生草莓(Fragaria ananassa)42 個不同組織和發育階段的RNA 測序(RNA-Seq)數據進行了分析且生成了8 個額外的RNA-Seq 數據集來代表黃色和紅色野生草莓品種成熟期花托果實的組織,以研究草莓花和果實發育以及果實品質性狀。隨后,Mao 等[24]和Brian 等[25]分別開發了菠蘿(Ananas comosus)和獼猴桃(Actinidia chinensis)的eFP 瀏覽器。然而,由于eFP 瀏覽器構建難度大,要求熟練掌握一系列編程語言,因而這項技術并未得到快速發展,也尚無在牧草中應用的報道。因此,開發一套方便、易學、實用、美觀的牧草圖畫庫及可視化流程對牧草功能基因的深入挖掘和驗證十分重要。本研究提出基于TBtools eFP Browers 功能及Adobe Illustrator 繪制SVG 圖工具,科研人員能夠快速高效地展示多組學研究結果,為后續深入挖掘功能基因及其功能驗證提供依據。
1.1.1 TBtools 軟件 TBtools 是一款跨平臺本地運行的多功能生物信息軟件,覆蓋了高通量數據下游分析的常見功能,包括序列提取、序列比對、基因功能分析、表格篩選和數據的可視化。TBtools 作為本地工具,可以快速高效地對大文件進行文本操作,避免了在線工具受網速等因素影響造成的卡頓;此外,TBtools 中還開發了取色器功能,便于在繪圖過程中對顏色的更改和顏色代碼的獲得。本研究中所用的TBtools 版本為v 1.108。
1.1.2 Adobe Illustrator(AI)軟件 Illustrator 是一款專業的矢量繪圖工具,廣泛應用于插畫、海報、網頁制作等,該工具提供了鋼筆、曲線工具等多種功能,可用于靈活繪圖,且完成的圖稿可以保存為SVG 格式,以避免圖片失真或像素降低。本研究中所用到的AI 版本為Adobe Illustrator 2022。
通過百度圖片、谷歌圖片、植物通、中國植物志等網站下載紫花苜蓿、蒺藜苜蓿、羊草、黑麥草、霸王、垂穗披堿草、飼用玉米、箭筈豌豆、黃花草木樨、燕麥10 種牧草圖片或是現有卡通圖片作為繪制SVG 圖的參考。
打開Adobe Illustrator 并新建文件,將網上下載的紫花苜蓿等10 種牧草圖片導入Adobe Illustrator(“新建-打開-選擇圖片所在的文件夾”,或直接打開文件夾將圖片拖入AI 中),通過AI 的圖像描摹(“對象”-“圖像描摹”-“建立并擴展”)功能描繪出圖片的輪廓,利用直接選擇工具選擇圖片的邊緣并刪除不需要的要素。需要注意的是,直接選擇工具單擊通常選擇一個閉合路徑,實心的點表示該路徑下被選擇的點,空心的則為未選擇的點。
利用鋼筆工具對描摹好的路徑進行微調并整合各個植物器官繪制成一個整體,并依此畫出10 種植物的SVG圖。其中在選中鋼筆工具的情況下,通過Ctrl+鼠標左鍵可以將單個錨點進行移動,Alt+鼠標左鍵點擊控制手柄改變曲線弧度,從而繪制目標圖形。
圖形繪制完成后,利用實時上色工具對圖形進行上色。需要注意的是,上色前的圖形所形成的路徑必須為閉合路徑;若未閉合,可以通過“對象”-“實時上色”-“建立”等步驟,將繪制的曲線形成閉環,避免曲線有缺口導致不能進行上色。其中根、莖、葉等器官用不同的顏色表示,通過不同的顏色代碼來區分不同的器官;最后,利用直線工具和文字工具標出各個器官的名稱。
利用TBtools 中的“Graphics-Heatmap Illustrator”-“Super HeatMap Browser”-“eFP Browser”功能對SVG 圖中不同器官和組織進行取色。將SVG 圖導入彈出的eFP Browser 界面,點擊“Start”得到處理后的圖片,鼠標在不同器官上懸停,則可以得到一串用逗號隔開的顏色代碼,將每個器官的顏色代碼記錄在txt 文件中,其中器官名稱與顏色代碼之間用制表符隔開。
通過數據庫網站(NCBI 數據庫:http://www.ncbi.nlm.nih.gov/)或對目標作物進行測序以獲取目標作物表達矩陣的txt 文件。但需要注意的是,矩陣間的各個數據需要通過制表符進行間隔。本研究中的MsSAP基因在各組織中的表達量數據來源于苜蓿表達圖譜數據庫(https://modms.lzu.edu.cn/)[26]。
TBtools 構建組學圖形展示工具需要SVG 圖,表達矩陣和顏色代碼3 個文件。將繪制好的SVG 圖、顏色代碼和基因表達矩陣導入TBtools,利用“Graphics-Heatmap Illustrator”-“Super HeatMap Browser”-“eFP Browser”對圖片進行繪制。繪制完成后,通過搜索基因名稱可以得到不同組織、不同基因表達量的熱圖。
利用 Excel 2016 對紫花苜蓿表達量數據進行整理,利用TBtools,Origin 2023 軟件進行繪圖。
為了準確描繪各個器官的形態特征,本研究根據牧草形態特征下載包括根、莖、葉、花等不同器官的特征卡通熱圖和照片。通過在百度、植物通、中國植物志上的查找和篩選,最終獲得所繪制的10 種牧草的卡通圖和照片,對圖片下載整合獲得圖1。由圖1 可見,紫花苜蓿、羊草、黃花草木樨、燕麥、飼用玉米、箭筈豌豆等根系均為須根系,羊草有根莖,而蒺藜苜蓿、垂穗披堿草、霸王根系結構未在圖中展示,因此,本研究在繪制SVG 圖時,應通過查詢其根系結構,繪制完整植株;此外,紫花苜蓿、蒺藜苜蓿和黃花草木樨的葉片都是羽狀三出復葉,紫花苜蓿果莢呈螺旋緊閉,表皮有柔毛,蒺藜苜蓿莢果呈緊密螺旋狀,外被脊刺,呈蒺藜狀,黃花草木樨莢果呈卵形,表面具凹凸不平的橫向細網紋,棕黑色等。

圖1 用于繪制SVG 圖片的10 個物種參考圖Fig.1 10 species reference maps for drawing SVG images
基于上述參考圖片,結合各牧草形態特征繪制SVG 圖。SVG 圖作為一種矢量圖,不僅體積小,且不會隨著放大的倍數增加而失真。因此,SVG 圖在需要高清晰度的網絡平臺,如網站的建設[27]和電子地圖[28]的構建中被廣泛應用。為了更加清晰地可視化數據,本研究選擇繪制SVG 圖。在繪制時將參考圖片組織器官盡可能地在一株植株中體現,如圖2A 所示。繪制完成后,為其卡通圖片添加參考圖中未涉及的器官,以還原植株在生長過程中的細節,便于后續更全面地展示基因在各個器官中的表達情況(圖2B),例如紫花苜蓿是多年生豆科草本作物,有根瘤,則應該在繪制好的卡通圖中增加根瘤;對于大多數植物,其下載的參考圖中并沒有種子,可以再次通過百度搜索該植株種子形態的圖片并對其進行繪制。

圖2 紫花苜蓿SVG 圖繪制過程Fig.2 The process of drawing SVG diagram of alfalfa
為了后續結合基因表達矩陣展示時空表達模式,利用不同顏色表示不同組織,如圖2C。應用上述方法繪制10 種牧草的SVG 圖,繪制結果如圖3 所示。

圖3 10 種牧草SVG 圖繪制結果Fig.3 Results of SVG image generation for ten forage grasses
eFP Browser 通過不同的顏色代碼對不同器官進行區分,因而在繪制卡通熱圖時,需要顏色代碼作為紐帶,將基因表達量與器官聯系起來。本研究所提到的顏色代碼是由Red、Green、Blue 組合而成的RGB 色彩空間,代碼中的3 個數值分別是紅、綠、藍的通道變化以及它們之間的疊加比例。該代碼采用十進制,其整數值介于0~255。TBtools 中開發了取色器的功能,可以在eFP-Browers 界面中拖入繪制完成的SVG 圖(圖4A),“Start”后便將鼠標放置于器官附近則可以得到顏色代碼(圖4B),從而對不同器官中的顏色代碼進行取色并記錄,得到表 1。

圖4 顏色代碼的獲得Fig.4 Acquisition of color code
從苜蓿表達圖譜數據庫(https://modms.lzu.edu.cn/)獲取MsSAP基因在各組織中的表達量數據,選擇了其中在花、葉片、根瘤和根4 個組織的RNASeq 數據,如表2 所示。
將上述繪制完成的SVG 圖、顏色代碼和表達矩陣按順序拖入TBtools 的eFP-Browers 界面后(圖5),得到處理后的卡通熱圖,如圖6 所示。

圖5 eFP Browers 界面Fig.5 Interface of eFP Browers
在結果界面中,輸入基因名稱可以查看該基因在不同組織中的表達模式(圖6),通過在搜索框中輸入MsSAP2,可以得到MsSAP2基因在紫花苜蓿中的表達模式圖;通過“Show Control Dialog” 可以打開自定義窗口,更改標簽的最大值、最小值以及顏色,使得繪制的熱圖更加美觀。修改完成的圖片通過“Save Graph”將圖片保存為SVG、JPG、PNG 等格式,以滿足不同研究的個性化需求。
基于TBtools 構建的組學圖形化展示工具能夠更加美觀、直觀地比對出各個基因在不同組織和器官的時空表達模式。為了更全面地描述多組學圖形化展示工具,本研究以SAP 家族的6 個基因為示例,對SAP 家族基因在紫花苜蓿中表達情況進行可視化。如圖7A 所示,以SAP基因在紫花苜蓿花(flower),葉(leaf),根(root)和根瘤(nodule)4 個組織中的表達模式繪制熱圖,其中使用較深的紅色表示基因在該組織的表達量較高,較淺的藍色表示基因的表達量較低,綠色則表示無數據的莖的默認顏色。由圖7A 可以看出,MsSAP6/18、MsSAP14、MsSAP19/20這幾個基因在4 個組織中的表達量較高,其中MsSAP6/18在花中表達量最高,其次為根、葉,表達量最少的則是根瘤;MsSAP14基因也是在花中的表達量最高,其次是葉>根>根瘤;而MsSAP19/20基因在根中表達量最高,其次是葉,在花和根瘤中表達量無差異。從圖中也可以看出,MsSAP8/10/12基因在根瘤中特異性表達,MsSAP21/22基因在花中特異性表達,但表達量都較少。

圖7 紫花苜蓿SAP 成員組織表達模式分析Fig.7 Analysis of the tissue expression pattern of alfalfa SAP members
圖7B 中的柱狀圖是科研中廣泛應用于反映數據的重要圖形,其通過柱子的高低表示數據的差異。雖然柱狀圖也可以清晰直觀地描述SAP基因家族的不同基因的表達模式,但是缺少美感;而圖7A 的熱圖則能夠更加新穎、美觀地展示基因的表達情況,更能吸引讀者的注意。
該圖形展示工具不僅適用于描繪植物的空間表達模式,在生物科學研究中,也可以應用于表述逆境脅迫下組織的時間表達數據,以更美觀、豐富的形式展示各種組學數據。如圖8 所示,以不同鋁脅迫處理時長紫花苜蓿根系的表達量(http://modms.lzu.edu.cn/)為例,展示了不同基因的表達情況。由圖8 可以看出,MsG0480023786.01.T01在各個時長的表達量都較高,且未受到鋁脅迫時,藍色最深,表明鋁脅迫抑制該基因的表達。而MsG0880043918.01.T01在4 個處理時長中,根系均呈淺粉色,說明該基因在各個時長脅迫的表達量都較小。

圖8 不同時長鋁脅迫處理根系基因表達量Fig.8 Gene expression in root systems treated with different durations of aluminum stress
由此可見,該圖形展示工具可以與基因組學、轉錄組學、代謝組學等研究結合,從而最大化地利用各種組學數據。
牧草產業是現代生態草牧業的基礎[29],對國家的食品安全和生態安全至關重要。牧草基因在不同器官、組織及其發育過程中呈現表達多樣性,所體現的功能也各有差異[30]。牧草組織特異性基因在組織分化和維持組織特性方面發揮關鍵作用[31]。通過研究基因的時空表達模式,可以進一步地理解基因功能,為培育產量更高、抗逆性更強的牧草品種提供參考。
數據圖形化是揭示組學數據規律和闡釋其內涵的關鍵手段。然而,過去常常通過Excel、Origin、SPSS 等繪圖軟件繪制柱狀圖[32],或是通過R 語言繪制普通熱圖[33]等方式展示不同基因的時空表達規律。但是常規的繪圖軟件形式過于單一,且靈活性較低,無法充分挖掘數據信息;R 語言繪制的普通熱圖,雖然擴充了數據展示形式,但其作為一門編程語言,學習成本高,需要處理復雜的報錯信息。相比之下,這些方式均存在一定的局限。
隨著科學技術的發展,數據圖形展示方式日益多樣化,為了更直觀、美觀地展示數據,Winter 等[20]在2007 年首次提出通過構建擬南芥電子熒光象形圖(eFP)瀏覽器(http://www.bar.utoronto.ca/),以便于可視化和解釋擬南芥發育過程中的基因表達。此后,該技術運用于番茄,玉米,小麥和大豆等重要農作物以及草莓、菠蘿、葡萄(Vitis vinifera)、獼猴桃等水果中,進而直觀地展示不同組織的表達數據,這些網站的構建為組學數據的展示提供了新思路。但因牧草發展起步較晚,且本身具有自交不親和等客觀條件的限制,目前尚未開發相關的eFP 瀏覽器。此外,構建eFP 瀏覽器的難度大,要求精通多種編程語言并修復報錯。且該腳本只能從文檔中的一個工作表中讀取數據,描述多個表需重復運行,對繪圖的要求較高,因而這項技術并未得到快速發展。然而,在后基因組時代,與過去復雜的生物信息學軟件的開發技能相比,更需要直觀和可視的方式展示高通量數據。而基于TBtools軟件的eFP Browsers 功能,通過牧草的基因組和轉錄組的表達分析,可以構建不同發育階段不同組織的基因網絡,不僅可以清楚地展示基因在不同時期,不同組織器官中的表達情況,還可以直觀、高效地展示高通量測序的結果,無須精通各類編程語言和復雜的生物信息軟件,從而進一步地研究基因的各項功能。
通過上述圖形展示工具構建過程及結果展示,本研究發現該工具繪制熱圖操作簡便、清晰、直觀且美觀。利用下載的參考圖片繪制SVG 圖(圖3),避免了圖片失真、模糊等導致取色或顏色匹配不精確,準確實現數據可視化;獲取不同器官的顏色代碼(表1),使基因表達矩陣(表2)中的器官名稱與圖片中的器官一一對應,從而清晰、準確地展示組學數據。此外,通過將SAP 家族中6 個基因在紫花苜蓿上的表達模式圖(圖7)與普通柱狀圖進行比較,發現該圖形展示工具不僅準確、直觀地描述了組學數據,還呈現了植株的整體情況,充分展示了數據的統一性和差異性,方便科研人員更好地挖掘特異表達基因并進行深入研究;不同鋁脅迫時間下的紫花苜蓿不同基因在根系的表達量(圖8),說明該工具也可以應用于同一組織不同時間進行展示。證明了該工具能夠有效描述多樣的組學數據及相關信息并實現其功能。

表1 用于熱圖繪制的顏色代碼Table 1 Color code for heatmap generation

表2 紫花苜蓿不同組織的表達矩陣Table 2 Expression matrix of different tissues of alfalfa
綜上,基于TBtools 構建的多組學數據化展示工具可以作為建立特異性表達圖譜的手段,可為科研工作者提供便利,促進科學家們跨學科合作,從而促進牧草育種領域的深入研究,具有較強的推廣應用價值。詳細操作流程及SVG 圖源請于百度網盤下載(鏈接:https://pan.baidu.com/s/14og1UTUM05WHrK0-_mMe1Q,提取碼:bpvu)。
基于TBtools 構建的多組學數據化展示工具可以更美觀、直觀、高效地展示組學數據,為后續深入挖掘功能基因及功能驗證提供指導。