楊笑敏,謝業濤,李永旗,孫亮慶
(江西省棉花研究所,江西 九江 332105)
棉花是我國重要的經濟作物和戰略儲備物資,棉纖維是紡織工業的基本原料。衣食住行穿衣居于首位,隨著人民生活水平的不斷提高,人民對紡織品的需求達到了發達國家水平[1]。我國作為14億的人口大國,擁有960萬平方千米國土,可耕地面積為124.8萬平方千米,其中棉花的耕種面積為4.9萬平方千米,主要分布在長江流域、黃河流域及新疆。近幾年,由于棉花高投入,低收益,農民植棉積極性降低,內地植棉面積大幅度少,國產棉花產量難以滿足人們對棉花產量的需求,棉花的供求出現失衡,矛盾日益突出[2-3]。棉花纖維的品質,決定棉花的價格,決定農民的收益。隨著棉花全基因組測序的完成[4-7],挖掘功能基因,從分子層面提高棉花品質,培育優良品種已成為研究的熱點。
棉花品種布局、土壤和栽培技術等因素通過影響棉花生長發育而影響纖維品質[8]。研究發現SPL在植物的整個生命周期中都發揮著重要的調控作用,參與植株的形態建成[9],調控植株發育階段的轉變[10],調控葉片發育[11],促進植物開花[12-13],參與果實的發育成熟過程[14-15],應答生物與非生物脅迫[16-17],參與激素信號轉導[18]多個生理生化過程。SPL1基因是SPL(SQUAMOSA promoter-binding protein-like)家族中的一員,編碼植物中轉錄調控因子[19]。SPL蛋白具有高度保守的DNA結合結構域[20]。SPL轉錄因子最早是在金魚草中鑒定出來的,隨后在擬南芥[21]、玉米[22-23]、水稻[24-25]、小麥[26]、蘋果[27]、番茄[28]等植物中陸續被發現。植物間隔期的長短能夠反映其葉原基分化速率及其葉片形成的快慢。過表達AtSPL9和AtSPL10的擬南芥,葉片間隔期增加,葉片的生成速率降低,從而使植株整個生命周期中葉片總量減少,單個葉面積增加[29],過表達AtSPL13的擬南芥幼苗,與對照相比第1片真葉的形成所用時間更長[30]。玉米沉默LG1會使葉片不能正常發育,形成異常的葉舌與葉耳[31]。過表達OsSPL14的水稻,分蘗數減少,增加花序分枝、穗粒數、千粒重,通過調控水稻的株型提高產量[32]。過表達AtSPL3擬南芥開花期提前,如果受到光照增強、光照時間增加,擬南芥的花和花序無法正常發育[33-34]。過表達LeSPL3載體轉化煙草后,會導致花柄離區離層細胞層數增加,花容易從植株上脫落[35]。過表達OsSPL16的水稻,與對照相比籽粒更寬,單粒種增加,籽粒更加飽滿充實;降低OsSPL16的水稻,籽粒寬降低,變得細長,胚乳透明度增加,水稻堊白度降低,稻米外觀明顯改變[36-37]。沉默AtSPL8的擬南芥植株,主要是對植株花和果實產生影響,會導致花藥變小,花粉量減少,果莢變短小,出現半不育表型[38-39]。
通過比較GhSPL1在棉花生長發育過程中的FKPM值,發現GhSPL1在棉花胚珠形成過程中的數值較高,具有較高的表達,本研究對GhSPL1進行了基因結構分析,對GhSPL1進行了蛋白的親水性/疏水性分析、跨膜結構分析、信號肽預測、亞細胞位置預測、二級結構預測、同源建模,對物種之間的親緣關系進行分析,對棉花胚珠發育過程中的表達情況進行了分析,為進一步驗證GhSPL1的功能奠定了基礎。SPL參與調控棉花整個生長發育周期,但本課題沒有針對GhSPL1進行的深入研究和挖掘GhSPL1的功能,有特于以后進一步擴展。
從cottonFGD中下載GhSPL1的基因序列、蛋白序列、基因組序列。在Cell-PLoc2.0中進行亞細胞定預測;GhSPL1的蛋白序列在ExPASY、ProtScale、TMHMM、SignalP4.0、GOR IV、SMART、Phyre2中進行生物信息學分析。
分別以GhSPL1的CDS序列和氨基酸序列為目標序列,在cottonFGD網站用Blastn比對檢索,獲得海島棉、亞洲棉、雷蒙德氏棉三個棉種的同源序列,在Phytozome用Blastp比對檢索,得到柏樹、楊樹、可可、茄子、擬南芥、玉米、水稻、炭蘚中的同源序列,用SMART對比對獲得的基因進行基因結構域進行分析,留下含有一個SBP結構域,2個ANK結構域,1個跨膜區域的基因。把最終得到的氨基酸序列輸入Clustal W 軟件進行多重序列比對,在MEGA7. 0 軟件中選擇 Neighbor-Join 法,設定Bootstrap的值為1000,構建物種系統進化樹。
從Gossypium Resource And Network Database網站中的Expression Visualization中下載GhSPL1基因胚珠發育過程中的FPKM值(Fragments Per Kilobase Million)。
FRKM值越大,基因表達量越高,FRKM值越小,基因的轉錄水平越低。利用Excel工具得到基因表達柱形圖。
本研究在cottonFGD(https://cottonfgd.org/profiles/gene)網站中獲得GhSPL1基因序列和其編碼的蛋白序列,GhSPL1基因位于D12染色體上的43027984~43035100處,基因長度為7117 bp,CDS長度為2964 bp。利用GSDS軟件(http://gsds.gao-lab.org/)對繪SPL1基因結構進行分析,結果如圖1,GhSPL1基因含有10個外顯子。在Cell-PLoc2.0(http://www.csbio.sjtu.edu. cn/bioinf/Cell-PLoc-2/)中對GhSPL1蛋白進行亞細胞定位預測,結果顯示GhSPL1蛋白在細胞核上。

圖1 GhSPL1基因的結構分析
在ExPASY網站ProtParam(https://web.expasy.org/protparam/)程序中對GhSPL1基因編碼的蛋白質進行蛋白組分分析,結果顯示GhSPL1基因編碼987個氨基酸分子,其中精氨酸(arg)和賴氨酸(lys)是帶正電的氨基酸殘基有113個,天冬氨酸(asp)和谷氨酸(glu)是帶負電的氨基酸殘基有129個。
GhSPL1蛋白的相對分子質量是109667.79 kDa,預測的等電點(PI)是6.02,GhSPL1蛋白的分子式是C4783H7564N1380O1487S46,GhSPL1蛋白的不穩定系數是49.67,脂肪系數為81.80,總平均親水性是-0.425,預測該蛋白為不穩定蛋白。
利用在線網站ProtScale(http://web.expasy.org/protparam/)預測了GhSPL1蛋白的親疏水性,將GhSPL1的蛋白序列輸入ProtScale,選擇默認的Hphob. / Kyte & Doolittle,滑窗大小為9,線性加權模型,預測結果如圖2,結果表明:第227位精氨酸(R)的所測分值最低為-3.578,則S親水性最強,第960位纈氨酸(V)的所測分值最高為3.311,則F疏水性最強,GhSPL1蛋白序列中親水性氨基酸的總分大于疏水性氨基酸的總分,該蛋白為親水性蛋白。綜上所述,GhSPL1蛋白是一種親水性的不穩定蛋白。

圖2 GhSPL1蛋白的親水性/疏水性分析
通過在線網站TMHMM(http://www.cbs.dtu.dk/services/TMHMM/)對GhSPL1進行跨膜結構域預測分析(圖3),結果表明:1~964的氨基酸位于細胞膜外部,942~964的氨基酸為跨膜區,965~987的氨基酸位于細胞膜內部,該蛋白存在跨膜區域,屬于跨膜蛋白。

圖3 GhSPL1蛋白的跨膜結構分析
利用SignalP4.0網站(http://www.cbs.dtu. dk/services/SignalP-4.0/)預測GhSPL1蛋白的信號肽,結果如圖4所示:信號肽區域處,S值較高,GhSPL1蛋白的S值變化相對比較平穩,波動不大,在第1個蛋氨酸(Met)處是最大值,分值為0.168;GhSPL1蛋白的C值(剪切位點值)在第54位天冬氨酸(Asp)處是最大值,為0.453,GhSPL1蛋白的Y值(綜合剪切位點值)在第54位天冬氨酸(Asp)處是最大值,為0.212,D值為0.155。綜上所述,GhSPL1不是分泌蛋白。

圖4 GhSPL1蛋白的信號肽預測

利用GOR IV軟件(https://npsa-prabi.ibcp.fr/cgi-bin/)對GhSPL1的二級結構進行預測分析,結果如圖5所示,該蛋白主要由無規則卷曲、α螺旋、延伸連構成,其中α螺旋有297個氨基酸,占30.09%;延伸連有148個氨基酸,占14.99%;無規則卷曲有542個氨基酸,占54.91%。

圖5 GhSPL1蛋白的二級結構預測
利用在線軟件SMART(http://smart.embl-heidelberg.de/)對GhSPL1蛋白的結構域進行分析,結構如圖6:該蛋白從156位氨基酸開始到230為氨基酸結束,編碼植物蛋白中發現的序列特異性DNA結合結構域SBP,該結構域含有2個鋅指結構;從754位氨基酸開始到783位氨基酸,811位氨基酸到841位氨基酸,編碼兩個錨蛋白重復序列區域,即ANK結構域;從942位氨基酸開始到964為氨基酸是TMHMM程序檢測到的跨膜螺旋區域。
利用軟件Phyre2(http://www.sbg.bio.ic. ac.uk/phyre2)對GhSPL1蛋白的三維結構進行建模,結果如圖7所示,GhSPL1蛋白主要由無規則卷曲、α螺旋構成,預測分析結果與GhSPL1蛋白二級分析結果一致。

圖7 GhSPL1蛋白的三維建模
在cottonFGD網站中用Blastn程序檢索,獲得海島棉、亞洲棉、雷蒙德氏棉的同源序列,在Phytozome在Blastp程序中檢索,獲得柏樹、楊樹、可可、茄子、擬南芥、玉米、水稻、炭蘚的同源序列,用軟件SMART工具分析蛋白保守結構域,篩選出于GhSPL1基因所含有的結構域相同的基因序列,共獲得25個基因,其中海島棉有5個基因,亞洲棉有2個基因,雷蒙德氏棉有2個基因,柏樹有2個基因、楊樹有3個基因、可可有2個基因、茄子有1個基因、擬南芥有2個基因、玉米有2個基因、水稻有1個基因、炭蘚有3個基因。通過MEGA7.0構建進化樹如圖8所示:可可的基因與棉花中的基因在同一個分支上,所以可可與棉花的親緣關系較近,該基因在水稻、玉米、茄子等中都含有該類型的基因,所以基因出現在單子葉植物和雙子葉植物分化之前。

圖8 GhSPL1蛋白的三維建模
從網站Gossypium Resource And Network Database(http://grand.cricaas.com.cn/home)下載GhSPL1基因在胚珠發育過程中的FPKM值,該值可以代表基因的表達情況。如圖9所示:GhSPL1基因在整個胚珠形成過程都有較高的表達,在胚珠形成的第20天有較高的表達,在第25天表達量較低。
SPL是植物中特有的一類轉錄因子,參與調控植物的生長發育、次生代謝、響應生物與非生物脅迫。GhSPL1作為SPL家族中的一個成員,含有一個在進化上高度保守的SBP結構域,該區域是DNA結合區域。本研究在海島棉、亞洲棉、雷蒙德氏棉、柏樹、楊樹、可可、茄子、擬南芥、玉米、水稻、炭蘚中鑒定出GhSPL1的同源基因,但是由于很多的物種基因測序工作還沒有開展,所以GhSPL1基因的結構、數量、進化機制、生物學功能還不明確,有待進一步研究。
花是植物的繁殖器官,開花是植物營養生長與生殖生長的分水嶺,開花受到光照、溫度、植物激素、生物脅迫、非生物脅迫及自身內部情況等多種因素的影響。棉花開花的已知途徑有光周期誘導途徑,春花途徑,赤霉素途徑,自主途徑,GhSPL1在棉花胚珠發育過程中有較高的表達,由于GhSPL1在植株的開花過程中發揮重要的調控作用,猜測GhSPL1可能參與棉花開花誘導過程,但是其具體作用機制還不清楚,仍需進一步驗證挖掘GhSPL1的基因功能。