唐麗媛,蔡肖,王海濤,李興河,張素君,劉存敬,張建宏
棉花FLA基因家族的全基因組鑒定及在棉纖維發育中的功能分析
唐麗媛,蔡肖,王海濤,李興河,張素君,劉存敬,張建宏
河北省農林科學院棉花研究所/農業農村部黃淮海半干旱區棉花生物學與遺傳育種重點實驗室/國家棉花改良中心河北分中心,石家莊 050051
【背景】伴隨著棉紡織工藝水平的提升和人們對高品質紡織品的追求,提升棉花纖維品質日益重要。類成束阿拉伯半乳糖蛋白(fasciclin-like arabinogalactan proteins,FLAs)在棉纖維起始發育、次生壁合成等過程中可能具有重要作用。【目的】通過對棉花FLA基因家族進行全面鑒定與分析,研究該家族成員的共性特征及特異性表達模式,為FLA在棉纖維發育中的功能研究提供參考?!痉椒ā扛鶕藁ㄈ蚪M數據,使用HMMER 3.0對棉花FLA基因家族成員進行鑒定,并通過Pfam、Smart等軟件進一步確認。使用ExPASy、TMHMM分析蛋白理化性質及跨膜結構域,應用MEGA、MCScanX、GSDS、MEME、TBtools、Jalview等工具進行進化樹構建、染色體定位、共線性分析和蛋白保守結構域序列比對等。通過轉錄組數據分析陸地棉FLA基因在不同組織中的表達情況。利用實時熒光定量聚合酶鏈式反應(quantitative real-time polymerase chain reaction,qRT-PCR)檢測在不同纖維品質材料的胚珠及不同發育時期纖維中的表達差異。利用病毒誘導的基因沉默(virus induced gene silencing,VIGS)技術驗證的功能。【結果】在陸地棉、海島棉、亞洲棉和雷蒙德氏棉全基因組中分別鑒定出41、40、20和21個FLA家族成員,系統進化樹顯示,棉花FLA蛋白可以分為4個群組。進一步對陸地棉FLA家族蛋白進行分析,41個成員均具有1—2個AGP-like糖基化區域和1—2個類成束蛋白結構域(fasciclin-like domain,FAS),其中,37個含有信號肽(signal peptide,SP),25個含有糖基化磷脂酰肌醇(glycosylphosphatidy linositol anchored protein,GPI)錨定信號,基因結構和基序組成在各組中相對保守。亞細胞定位顯示,GhFLA05_D可能定位在細胞質的內質網,呈聚集狀顆粒,GhFLA18_A和GhFLA22在細胞膜/壁、細胞質和細胞核中均有表達。轉錄組測序結果表明,Group A和Group B中的FLA蛋白主要在纖維中高表達,可能參與了棉纖維發育伸長和次生壁加厚等過程。在纖維品質差異顯著的2個材料中,Group A和Group B成員具有相似的表達模式,并主要在纖維次生壁發育階段、尤其是20—25 DPA時期優勢表達;其中,在次生壁增厚期表現出特異性表達,兩材料間存在顯著差異,在高比強的RIL229的次生壁階段更早達到最大值,推測可能在調控纖維比強度差異形成中發揮作用。利用VIGS技術沉默后,使棉纖維斷裂比強度降低?!窘Y論】在陸地棉、海島棉、亞洲棉和雷蒙德氏棉中鑒定出122個FLA家族成員,可分為4個群組,不同群組成員間具有較高的結構和功能相似性,并從中鑒定了Group A和Group B成員,可能是主要與棉纖維發育相關的基因。明確家族中是次生壁合成階段優勢表達基因,并與陸地棉不同材料纖維比強度差異形成密切相關。
棉花;FLA;纖維發育;基因家族;表達分析
【研究意義】棉花是世界上最重要的天然纖維作物,棉纖維是紡織工業的重要原料[1]。因棉花產量和纖維品質呈負相關,傳統育種選擇上產量優于品質,育成品種的纖維品質很難適應當前日益提高的棉紡織工藝的需求和人們對高品質紡織品的追求[2],提升棉花纖維品質已成為當務之急。近年來,隨著棉花基因組學研究的迅猛發展[1],分子育種為提升棉花纖維品質、加速育種進程提供了有效的策略。部分研究表明,類成束阿拉伯半乳糖蛋白(fasciclin-like arabinogalactan proteins,FLAs)在棉纖維形成中發揮重要作用[3-8],因此,從全基因組水平鑒定分析棉花FLA基因家族,有助于快速鎖定基因家族內纖維發育相關基因,豐富棉花纖維發育研究的基因網絡,為優質棉精準育種提供基因資源和理論基礎?!厩叭搜芯窟M展】阿拉伯半乳聚糖蛋白(arabinogalactan-proteins,AGPs)是一類富含羥脯氨酸的細胞壁糖蛋白,影響植物生長、發育、繁殖和適應環境等多種生物進程[9]。根據核心蛋白骨架差異AGPs可分為6個亞類[10-11]。FLA蛋白是其中的一個亞類[12],不僅具有1—2個典型的AGP-like糖基化區域,還含有1—2個類成束蛋白結構域(fasciclin-like domain,FAS)[13],且大多數FLA基因具有N端信號肽(signal peptide,SP)和C末端糖基化磷脂酰肌醇(glycosylphosphatidy linositol anchored protein,GPI)錨定信號[3, 14]。其中,AGP-like糖基化區域主要是由脯氨酸(Pro)、丙氨酸(Ala)、絲氨酸(Ser)及蘇氨酸(Thr)形成的(Ser/Thr/Ala)-Hyp-(Ser/Thr/Ala)-Hyp和(Ser/Thr/Ala)-Hyp-Hyp重復序列區域(proline-alanine-serine-threonine,PAST),經典AGPs中PAST序列占比超過50%[15],而在FLA基因中PAST序列比例普遍低于35%[11]。FAS結構域一般由110—150個氨基酸組成,序列相似性較低,但所有的FAS都含有2個高度保守的H1、H2區域,且中間有1個[Phe/Tyr]-His Motif[16]。蛋白具有AGP-like糖基化區域可能參與細胞間相互作用、細胞黏附和細胞壁生物合成,具有FAS結構域通常在細胞外基質間起到黏連作用[17],SP可能促使分子進入內質網,而GPI錨定信號可以將分子錨定到細胞膜上[14]。FLA是一個復雜的蛋白聚糖多基因家族,在植物生長發育過程中可能發揮重要作用,受到發育和應激的共同調控[9]。利用生物信息學方法,目前,已經在擬南芥[18]、水稻[19]、小麥[20]、楊樹[21]、桉樹[22]、梨樹[23]、香蕉[24]、黃麻[25]、紡織大麻[14]和甘藍[26]等作物中分別鑒定出21、24、34、35、18、38、30、19、23和33個,He等[16]從藻類、苔類、苔蘚、石松類、裸子植物、雙子葉植物和單子葉植物的13種植物中鑒定出246個。FLA基因家族的鑒定加速了植物功能的解析。研究發現,擬南芥、楊樹、桉樹、大麻、棉花等多種作物中在纖維或其他組織細胞的起始及伸長發育、次生壁(secondary cell wall,SCW)合成方面發揮作用。擬南芥與根伸長基因共表達[27],和能夠在厚壁組織中高強度表達,在增加莖稈強度和彈性方面發揮作用[28],的H2區域密碼子突變會導致細胞壁變薄[29]。楊樹在成熟莖的木質部中特異性表達,并主要積累在莖木質部纖維中[30]。桉樹和與纖維素微纖絲角和莖稈強度相關[22]。大麻、和參與韌皮纖維細胞的起始和伸長,、、、和參與次生細胞壁的生物合成[14]。棉花中多個編碼FLA蛋白的基因在棉花纖維中優勢表達[3-4]。[5]和[6]與纖維伸長相關,會影響棉花細胞的延伸及次生細胞壁發育時期的胞間交流[4]。海島棉在棉纖維SCW沉積階段的表達量顯著高于陸地棉,最終影響纖維強度[31]。除上述功能外,還可能參與維管束的形成與發育[32]、細胞通訊及分子信號傳導[26]、聚糖穩定[33]和花粉育性[34-35]等過程,并可以響應各種生物和非生物脅迫,如鹽脅迫、冷脅迫、干旱脅迫、熱脅迫及外源激素脫落酸和氟啶酮等[20, 29, 36-38]?!颈狙芯壳腥朦c】Huang等[3]利用棉花纖維cDNA庫鑒定和分析了19個陸地棉FLA基因,但是,自棉花參考基因組公布后,對棉花FLA基因家族全面、系統地鑒定分析仍鮮見報道。【擬解決的關鍵問題】本研究擬通過生物信息學手段鑒定異源四倍體陸地棉、海島棉和二倍體亞洲棉、雷蒙德氏棉的FLA基因家族成員,并重點對陸地棉FLA基因家族進行特征分析,通過研究FLA基因在陸地棉不同組織中的表達特異性,挖掘該家族與纖維發育相關的基因;以前期利用優質雜交棉冀1518的親本構建的高代重組近交系(recombinant inbred lines,RILs)群體[39]中纖維品質性狀穩定分離的RIL131和RIL229為研究對象,檢測在不同纖維品質材料的胚珠及不同發育時期纖維中的表達差異,并對其中的進行克隆分析和基因沉默驗證,為研究棉花FLA基因的功能和在棉花纖維發育中的重要作用奠定基礎。
從Cottongen數據庫(https://www.cottongen.org/)下載異源四倍體陸地棉(,AD1)[40]、海島棉(,AD2)[40]和二倍體亞洲棉(,A2)[41]、雷蒙德氏棉(,D5)[41]的全基因組數據。從擬南芥TAIR數據庫(https:// www.arabidopsis.org/)下載擬南芥AtFLA蛋白序列信息。從Pfam數據庫(http://pfam.xfam.org/)[42]下載FLA蛋白的種子文件PF02469,并利用HMMER 3.0軟件的hmmsearch搜索程序鑒定含有FLA保守結構域的陸地棉氨基酸序列(value<0.0001),去除無AGP-like糖基化區域的基因,將所有獲得的棉花FLA氨基酸序列通過Pfam(https://pfam.xfam.org/)、Smart(https://smart.embl-heidelberg.de/)及NCBI網站CDD(https://www.ncbi.nlm.nih.gov/Structure/bwrpsb/bwrpsb.cgi)數據庫[42-45]進一步進行保守結構域確認,最后,將同時含有FAS結構域和AGP-like糖基化區域的序列鑒定為FLA蛋白。利用在線網頁工具Softberry(https://www.softberry.com/berry.phtml?topic =fgenesh&group=programs&subgroup=gfind)對具有明顯結構缺失基因重新預測基因模型,并對結構域進行校驗推測。
通過ExPASy(https://web.expasy.org/protparam/)在線軟件[46]分析FLA家族成員編碼蛋白的相對分子質量、理論等電點等。使用TMHMM Server v.2.0(https://services.healthtech.dtu.dk/service.php?TMHMM -2.0)[47]進行跨膜結構域預測。
利用MEGA7軟件[48]中的Muscle對陸地棉、海島棉、亞洲棉、雷蒙德氏棉、擬南芥FLA基因家族成員的蛋白序列進行比對分析。采用鄰接法(neighbor joining,NJ)構建系統發育進化樹,Bootstrap值為1 000。使用在線工具iTOL(https://itol.embl.de/)[49]對進化樹進行可視化。
從陸地棉參考基因組中獲取各染色體FLA基因位置等信息,利用軟件MCScanX[50]檢測陸地棉全基因組復制基因對,并利用TBtools繪制染色體定位和共線性分析的circos圖[51]。利用KaKs_CalculatorL2.0軟件計算陸地棉復制基因對的非同義突變率(non- synonymous mutation rate,Ka)、同義突變率(synonymous mutation rate,Ks)及Ka/Ks值。
利用基因組數據提取FLA基因內含子、外顯子位置信息,采用MEME(https://meme-suite.org/meme/ tools/meme)[52]在線分析保守基序,Motif數量設置為10,利用TBtools v1.105可視化FLA家族的基因結構和Motif分布[51]。利用GSDS2.0(https://gsds.gao- lab.org/)繪制保守結構域位置圖[53]。根據前人提出的“Hyp連續性假說”[54],提取陸地棉FLA家族成員中的FAS結構域,使用Clustal X進行多序列比對,并使用Jalview2.10.3對比對的結果進行可視化。
以前期利用優質雜交棉冀1518的親本構建的RIL群體[39]中RIL229家系的纖維、根、莖及葉的cDNA為模板,使用Ⅰ酶切,運用同源重組的方法,將、、、編碼區(coding sequence,CDS)區段構建到帶有35S CaMV啟動子和GFP(green fluorescent protein)標簽并改造過的pCAMBIA1302載體中(電子附圖1),載體購自武漢伯遠科技有限公司,在GFP標簽和目的基因C末端連有linker,減小直接連接GFP對GPI錨定序列定位可能存在的影響。引物設計相關信息見電子附表1,由金唯智生物科技有限公司合成。將構建好的載體轉化GV3101農桿菌,注射本氏煙葉片背面瞬時過表達,以空載體為對照。注射后弱光培養48 h,用激光共聚焦顯微鏡(Leica TCS SP8)觀察葉片GFP熒光分布。GFP熒光激發波長488 nm,葉綠體激發波長640 nm。
從NCBI的SRA數據庫(http://www.ncbi.nlm.nih. gov/sra/)下載陸地棉TM-1根、莖、葉、苞葉、花托、萼片、花瓣、雄蕊、花絲、花藥等10個組織和不同發育時期胚珠、纖維的轉錄組測序數據,序列號為PRJNA4906267,對FPKM(fragments per kilobase of transcript per million fragments mapped)數據進行log2(1+FPKM)標準化處理,使用TBtools v1.105生成熱圖。
以前期構建的RIL群體中纖維品質性狀穩定分離的RIL131和RIL229為研究對象,2017—2021年連續5年種植在河北省農林科學院棉花研究所石家莊小安舍試驗站進行鑒定。取兩材料開花后0天(day post-anthesis,DPA)胚珠及5、10、15、20和25 DPA纖維,提取樣品總RNA,反轉錄合成第一鏈cDNA,以第一鏈cDNA為模板進行實時熒光定量聚合酶鏈式反應(quantitative real-time polymerase chain reaction,qRT-PCR)鑒定基因在各組織中的表達情況。對Group A和Group B中的設計特異引物(電子附表1),其中,和未設計出特異性引物。以陸地棉組蛋白基因為內參,在CFX96定量PCR儀(Bio-Rad)上進行qRT-PCR。按照TB Green? Premix Ex Taq? II(Tli RNaseH Plus)推薦的反應體系進行PCR擴增,每個樣品進行3次生物學重復,采用2-△△CT法對基因相對表達量進行分析。
以RIL131和RIL229的20DPA纖維cDNA為模板,利用Primer Premier 5.0設計基因克隆引物(電子附表1),采用TaKaRa公司的PrimeSTAR HS高保真酶擴增、的CDS區段,連接到?-Blunt(全式金)克隆載體并轉入1-T1感受態細胞,篩選陽性克隆并送測序。
通過病毒誘導的基因沉默(virus induced gene silencing,VIGS)技術驗證的功能。利用SGN VIGS Tool(https://vigs.solgenomics.net/# opennewwindow)設計沉默片段,通過雙酶切(Ⅰ和Ⅰ)方法將中的目標片段構建到棉花葉皺縮病毒(cotton leaf crumple virus,CLCrV)載體[55]上,該體系經多項研究證明病毒活力能夠持續到棉花纖維發育的伸長和次生壁加厚等階段[56-57]。試驗所用引物見電子附表1。將構建好的載體轉化LBA4404農桿菌。試驗涉及到的菌液主要有輔助質粒CLCrVB、空載體CLCrVA、陽性對照載體CLCrVA-和目的基因載體CLCrVA-。
在河北省農林科學院溫室內,以RIL229種子為材料,播種7 d后,取子葉剛剛完全平展的棉花幼苗,分別用含pCLCrVB:CLCrVA-、pCLCrVB: CLCrVA-重組載體的菌液和含有pCLCrVB: CLCrVA空載體的菌液按1﹕1的比例混合均勻后侵染整個子葉,注射面積保證在98%以上。注射后的植株避光生長12 h后轉入正常光溫條件(光照/黑暗=14 h/10 h,28 ℃)下培養。以陽性對照出現白化現象作為侵染成功的參考。在棉花植株現蕾初期對主莖葉腋處進行二次注射以延長基因沉默時間、確保后期基因沉默效果。取試驗植株20 DPA的棉鈴進行qRT-PCR分析,計算沉默效率。待棉鈴成熟、自然吐絮后,單株收獲軋取棉纖維,因收獲單株纖維樣品量可能達不到測定重量,所以選取沉默效率高的6株,隨機將2株纖維樣品作為一組進行混合,使用USTER HVI1000 M700大容量棉花檢測儀測定棉花纖維品質指標,包括纖維的長度、斷裂比強度、馬克隆值、整齊度、伸長率等。
通過棉花全基因組蛋白序列信息分析,分別在陸地棉、海島棉、亞洲棉和雷蒙德氏棉中鑒定出41、40、20和21個FLA基因(表1,電子附表2—4)。按照其在染色體上的位置(圖1)排序進行命名,對于四倍體棉,先以A亞組染色體上位置排序,A、D亞組根據基因同源性以A、D區分命名,D亞組未命名到的基因再按染色體順序繼續編號。其中,陸地棉中有文獻命名報道過的有21個(電子附表2),其他3個棉種FLA基因報道較少,因此,未做統計。理化性質分析表明,棉花中FLA蛋白的氨基酸數量為239—515 aa,分子質量為25.42—57.29 kDa,等電點變化為5.11—9.41。穩定蛋白有65個(24.91—39.89),占53.28%,在陸地棉和海島棉中較二倍體棉比例高,分別為56.10%和55.00%。親水性平均系數表明,家族中疏水性蛋白75個(0.009—0.280),占61.48%。家族中跨膜結構域數量為0—3個,59.84%的FLA不存在跨膜結構域,37.70%有1個,僅GrFLA08有2個,同為A亞組的GhFLA13和GaFLA13存在3個跨膜結構域。
以122個棉花FLAs和21個擬南芥FLAs的氨基酸序列構建FLA家族成員的系統發育樹(圖2)。所有FLA家族成員可以分為Group A—Group D 4個亞群,其中,Group A成員最多,有59個成員,6個來源于擬南芥,陸地棉和海島棉各有18個,8個來自于亞洲棉,9個來自于雷蒙德氏棉;Group D成員最少,包含有9個成員,3個來自于擬南芥,陸地棉和海島棉各有2個,亞洲棉和雷蒙德氏棉各有1個;Group C中包含53個成員,內部分枝較多,暗示其功能可能具有多樣性。棉花與擬南芥親緣關系相對較遠,分析發現只有2組直系同源關系:和、、直系同源,和、、、直系同源。

表1 陸地棉FLA基因家族成員的特性分析

陸地棉A亞組、陸地棉D亞組、亞洲棉、雷蒙德氏棉、海島棉A亞組、海島棉D亞組的染色體分別用綠色、深藍色、黃色、紅色、天藍色、粉色表示
染色體定位(圖3-A)結果表明,二倍體亞洲棉和雷蒙德氏棉的FLA基因分別分布在9、10條染色體上,四倍體陸地棉和海島棉均分布在19條染色體上。每條染色體上有1—6個FLA基因,不同基因(亞)組中均為第7染色體上最多,均有6個FLA基因。在四倍體的陸地棉和海島棉中,A、D亞組均有19對對應拷貝基因,陸地棉在D亞組沒有拷貝,和在A亞組沒有拷貝,海島棉和在A亞組中沒有對應拷貝。
對4個棉種基因組內的FLA基因共線性分析(圖3-A)顯示,所有來自全基因組復制或片段復制,無串聯重復,亞洲棉、雷蒙德氏棉、陸地棉和海島棉種內分別有6、10、32和33對基因具有共線性關系。各個棉種內D基因組的共線性關系基因對數量多于A基因組。對4個棉種基因組間的FLA基因共線性分析(圖3-B),陸地棉A亞組與亞洲棉的共線性基因對為31對,比海島棉的多4對,D亞組與雷蒙德氏棉的共線性基因對有44對,比海島棉多7對,說明與同樣多倍化后的海島棉相比,陸地棉FLA基因與二倍體棉具有更高的同源性。亞洲棉在雷蒙德氏棉和2個四倍體棉中均無共線性基因對,推測該基因可能在3個棉種的進化中丟失。所有共線性關系中,的Ka/Ks=1,進化中主要經歷了中性選擇,、、、、的Ka/Ks>1,經歷了正向選擇,其余基因對Ka/Ks<1,說明棉花多數FLA基因經歷了純化選擇,進化較保守,暗示功能相對穩定。

圖2 擬南芥和棉花FLA蛋白的系統進化樹
外顯子-內含子排列方式可能在基因家族的多樣化過程中發揮重要作用。通過分析陸地棉FLA基因外顯子和內含子的排布情況(圖4-A)。發現與很多作物FLA基因相似,主要分為2種序列分布方式:一是僅有1個外顯子;二是有2個外顯子和1個內含子。Group A中1個基因、Group B中7個基因、Group C中4個基因的外顯子被中間一段內含子分隔,其他多數成員均只有1個外顯子。針對Group A中只有存在內含子,通過與Cottongen數據庫中TM-1標準系其他版本參考基因組(WHU v1、HAU v1)比對,發現該基因在這兩個參考基因組中的ID分別為和,與D組對應基因長度相同,不包含內含子,編碼263 aa,推測基因結構中前210 bp的CDS序列及內含子區域不屬于該基因編碼序列(圖4),需要矯正去掉。
進一步尋找陸地棉FLA蛋白的特異性區域,使用在線工具MEME預測其保守基序,鑒定了10個不同的基序,每個基序長度從21到50 aa不等,GhFLAs的基序數目從4到9不等(圖4-B)。不同群組包含的保守基序具有特異性,其中,Motif 2隸屬于FAS結構域,在所有GhFLAs中都存在。除此之外,Group A還包含Motif 1、Motif 3、Motif 4、Motif 5和Motif 9;Group B還包含Motif 1、Motif 4、Motif 6、Motif 7和Motif 9,其中,Motif 7為該組特有且保守性極高;Group C包含9個Motif,數量最多,Motif 10是該組中特有;Group D包含的Motif最少,僅有4個。以上結果表明,同組蛋白組成具有相同或相似的結構特征,特別是Group B、Group D成員具有完全相同的基序,Group A、Group C只在個別Motif上有差異,推測同一群組中的GhFLA蛋白可能在依賴于結構域/基序的生化等功能上具有保守性。

A:4個棉種基因組內FLA基因定位及共線性關系;B:不同棉種棉花基因組之間的FLA共線性關系
此外,通過保守基序分析,發現GhFLA13(GH_A11G0846)的氨基酸長度為234 aa,Motif結構與同組其他序列不同(圖4-B),缺少Motif 3、Motif 4、Motif 6和Motif 10。因此,調取該基因前后各5 000 bp序列,利用Softberry軟件進行預測矯正,預測該蛋白全長應為366 aa(表1),補充該基因序列信息后,基因全長由704 bp增加為1 959 bp,外顯子區域由1個變為2個(圖4-B),CDS長度由704 bp變為1 101 bp。但與該組其他基因相比,GhFLA13在矯正預測后仍然有Motif 3和Motif 4的缺失。

實線矩形框選部分為基因矯正后刪除的序列結構,虛線矩形框選部分為基因矯正后添加的序列結構;CDS:編碼區序列
FLA蛋白通常具有典型的AGP-like糖基化區域、FAS結構域,且多數FLA基因具有N端SP和(或)C末端GPI錨定信號。AGP-like和FAS結構域與細胞黏附、胞間作用和細胞壁生物合成有關,SP和GPI可分別促使FLA分子進入內質網腔和錨定到細胞膜。將陸地棉FLA蛋白序列按群組分析其典型結構域(圖5),挖掘不同群組的差異性特征。Group A成員均含有1個FAS結構域,兩側各有1個AGP-like糖基化區域,且至少在N端有SP或在C端有GPI錨定信號;Group B的FLA蛋白有2個FAS結構域,中間有1個AGP-like糖基化區域,N端均有SP,C端無GPI錨定信號;Group C為2個AGP-like糖基化區域中間有1個FAS結構域或2個FAS結構域的一側有一個AGP-like糖基化區域,Group A和Group C具有較相似的結構,但蛋白總長度和結構域的位置具有較大差異,因此,未歸為一類;Group D的FLA蛋白僅包含1個AGP-like糖基化區域和一個FAS結構域,且距離較遠,N端無SP,C端也無GPI錨定信號。FAS結構域長度分為2種:一種是較短的92—107 aa;另一種為較長的131—139 aa,其中,包含2個FAS結構域的8個蛋白均包含了這兩種類型。AGP-like糖基化區域則是5—49 aa長度不等,在Group B和Group D中比較一致,而在另外2組無明顯規律。37個(90.24%)GhFLAs蛋白含有SP,25個(60.98%)GhFLAs蛋白含有C端GPI錨定信號,5個(12.20%)GhFLAs蛋白信號肽SP和GPI錨定信號均不含。

Exon:外顯子,AGP:AGP-like糖基化區域,C-GPI:C末端糖基化磷脂酰肌醇錨定信號,N-SP:N端信號肽,FAS:類成束蛋白結構域
提取GhFLAs的FAS結構域序列進行比對(圖6),結果顯示,該結構域具有2個高度保守的區域H1和H2,并在兩區域間存在[Tyr-Phe]His([Y/F]H)基序。與擬南芥、楊樹、黃麻等多種作物一樣,GhFLA的H1區域Thr(五角星標注)是絕對保守的,Thr后的第6個氨基酸殘基大部分為Asp(D),少部分為Asn(N),H1區域其余氨基酸殘基主要由Ala(A)、Ile(I)、Phe(F)、Pro(P)和Val(V)組成。H2區域含有較多保守的疏水性氨基酸,如Val(V)、Ala(A)、Leu(L)和Ile(I),其他部分具有相對保守的特點。在H1和H2區域之間,還有一個絕對保守的氨基酸殘基Leu(L)(五角星標注),該位點在上述提到的其他物種中不存在如此高的保守性。陸地棉FLA的[Y/F]H基序保守性也較高,只有GhFLA01_ A/D、GhFLA08_A/D、GhFLA19_A/D這三組蛋白在此基序中His(H)變異為Phe(F)。GhFLA蛋白在FAS結構域的這三個區域均具有相對較高的保守性,同時在其他氨基酸位點,不同群組間具有明顯的特異性,暗示不同群組FLA蛋白可能從相同的祖先基因進化而來,隨著在不同物種中的分化功能可能不同。
為進一步研究陸地棉FLA家族蛋白的功能,在每個群組隨機選擇一個基因,進行煙草葉片瞬時表達,初步分析目的蛋白表達位置(圖7)。結果表明,GhFLA05_D為Group A成員,融合蛋白熒光分析其可能定位在細胞質內的內質網,并呈現聚集狀顆粒;GhFLA18_A為Group B成員,可能位于細胞核和細胞膜/壁,同時在細胞質中可能也有表達;GhFLA22為Group C成員,較廣泛的表達于細胞膜/壁、細胞質與細胞核;GhFLA02A/D是Group D的唯一成員,但由于其在各組織中表達量較低(圖7-A),利用棉花各組織cDNA均未克隆出該基因,因此,未能進行亞細胞定位。

圖6 陸地棉FLAs蛋白FAS結構域的多序列比對

圖7 陸地棉不同群組FLAs蛋白的亞細胞定位
為進一步分析陸地棉FLA基因在棉花纖維發育進程中的作用,利用轉錄組數據對41個在陸地棉TM-1根、莖、葉、苞葉、花托、萼片、花瓣、雄蕊、花絲、花藥等10個組織和不同發育時期胚珠、纖維的表達進行分析(圖8)。在4個群組中,大部分Group A、Group B的基因在纖維發育期較高或高表達,其中,、、、自纖維發育伸長期(3 DPA)已開始高表達,而、、、、、、主要在次生壁增厚期(15—25 DPA)高表達,在纖維發育起始階段(-3—1 DPA)相對較高表達,只有在纖維發育時期無特異表達;其他2組中,除在纖維起始、伸長時期(-3—10 DPA)相對高表達,其他基因在纖維發育時期無明顯特異性表達。
在家族的4個亞群中,Group A、Group B的基因主要在纖維發育期較高或高表達。因此,利用纖維比強度和馬克隆值性狀穩定分離的2個家系RIL131和RIL229(圖9-A),重點分析這兩個亞群成員在不同材料纖維中的基因表達情況(圖9-B)。因在A、D亞組對應拷貝CDS區堿基差異較少,在qRT-PCR表達量檢測種中無法嚴格區分,所以不再標注A、D區分。結果表明,兩亞群成員在不同品質的RIL131和RIL229纖維中總體具有相似的表達模式,并與TM-1轉錄組測序結果(圖8)一致。除在10—15 DPA相對較高表達,其他基因主要在SCW發育階段、尤其是20—25 DPA優勢表達;2個材料的20 DPA和25 DPA纖維中,、均極顯著差異表達,均顯著差異表達,且3個基因中,在SCW發育階段有較RIL229的20 DPA纖高的優勢表達,并在高比強材料纖維中的表達量最高,且極顯著高于同時期低比強材料RIL131,推測可能在調控纖維比強度中發揮作用。

圖8 陸地棉FLA基因在不同組織、不同發育時期胚珠和纖維中的表達分析

RIL131和RIL229:前期構建的RIL群體中纖維品質性狀穩定分離的2個家系,*:差異顯著(p<0.05),**:差異極顯著(p<0.01),n.s.:無顯著差異。下同
在RIL131和RIL229中分別克隆和,經比對,2個基因在2個材料中的序列一致,與參考基因組序列相同,無SNP差異,表明該組基因相對保守。和的CDS全長均為837 bp,2個基因間有21個SNP,序列相似性97.49%,造成14個氨基酸差異(電子附圖2)。
利用VIGS技術對功能進行驗證。以RIL229為材料,以為基因沉默對象,通過陽性對照組棉株的白化癥狀初步判斷沉默效果,取陰性對照和:植株20 DPA纖維,利用qRT-PCR檢測基因沉默效率。選擇家族中與其同源性最高的、(CDS比對相似性為55.02%—60.98%)(電子附圖2),分析基因沉默的特異性。結果(圖10-A)表明,陽性對照出現的白化癥狀會持續到棉鈴發育時期,使棉鈴苞葉、萼片、鈴殼等均出現白化現象,說明該病毒在棉鈴發育時期仍具有基因沉默作用。和植株在注射后的生長外部形態上與野生型(WT)無明顯差異。qRT-PCR結果(圖10-B)顯示,部分株系沉默效率為35.82%—68.60%,平均沉默效率53.19%,而對同源性最高的家族成員、的表達無顯著影響。纖維品質檢測結果(圖10-C)中,與陰性對照相比,棉纖維斷裂比強度顯著降低,馬克隆值有所降低但差異不顯著,其他3個性狀差異均不顯著。上述結果表明,沉默使棉花纖維斷裂比強度下降,同時可能對馬克隆值也有一定影響,暗示可能主要在棉花纖維發育中后期尤其是SCW加厚期具有調控作用。

圖10 GhFLA05沉默后植株表型(A)、在纖維中基因表達分析(B)及纖維品質性狀測定(C)
近年來,棉花基因組學研究飛速發展,基因組數據不斷完善[58],大大拓寬了育種者利用基因調控網絡提高育種效率的思路,而基于基因家族分析快速挖掘功能基因是豐富基因調控網絡的有效手段。FLA蛋白是一類廣泛分布于植物體內的富含羥脯氨酸的糖蛋白,在植物生長、形態構建等發育過程發揮著重要作用[59]。通過在全基因組水平系統的鑒定分析FLA蛋白,為更好地利用FLA蛋白奠定基礎。前人在擬南芥中鑒定出21個FLA蛋白[18],隨后陸續從小麥、水稻、楊樹等多種植物鑒定得到了FLA基因家族[19-26]。本研究在陸地棉、海島棉、亞洲棉和雷蒙德氏棉中共鑒定出122個FLA家族成員,其中,陸地棉41個。Huang等[3]曾基于棉花纖維cDNA庫鑒定和分析了19個陸地棉FLA基因,經比對,發現17個與本研究相同,而其鑒定的()和()在本研究中未納入該家族,主要因為該研究中的檢測評分較低,且在Smart驗證中未檢測出FAS結構域;的檢測閾值未達到本研究基因家族要求。
通過進化樹分析,棉花FLA蛋白與擬南芥[18]及楊樹[21]、黃麻[25]、紡織大麻[14]、甘藍[26]等其他作物相同,均可分為4組,每組的FLA具有相似的基因結構、基序和保守域。共線性分析顯示陸地棉的FLA基因比海島棉與二倍體棉種具有更多的同源基因對,推測在進化過程中海島棉的一些FLA基因序列結構可能產生更多的變異,并可能在形成優異纖維品質方面發揮作用。對陸地棉FLA蛋白的結構域分析,41個成員均具有1—2個AGP-like糖基化區域和1—2個FAS結構域,多數含有SP和(或)GPI錨定信號。在陸地棉FAS結構域的研究中發現,除了2個高度保守的區域H1、H2和兩區域之間的[Y/F]H基序這三段相對保守序列,與其他作物不同的是,在H1和[Y/F]H基序之間,有一個絕對保守的氨基酸殘基Leu,這在擬南芥[18]、楊樹[13]、香蕉[24]和黃麻[25]等物種FAS結構域序列比對中并不存在,是棉花的特異保守位點。由于FLA特殊保守結構域及SP信號肽、GPI錨定信號的存在,FLA經常被報道定位在內質網或細胞膜。Huang等[2]研究表明(本研究中的基因名稱為,下同)主要定位在細胞壁上,且在2個細胞連接處信號很強,可能這個蛋白對細胞間信息的交流有作用,而()可能定位于細胞壁和細胞質膜上,并可能分泌到細胞外。煙草和均只定位于細胞膜中[58]。本研究通過對進化樹不同組中3個蛋白的定位發現,FLA蛋白的表達范圍可能較廣,不止在細胞膜部位,相似的結果也在其他一些研究中有過報道,如楊樹、、、廣泛分布在細胞質和細胞膜,其中,、在細胞質也呈顆粒狀亮點分布[13, 30],煙草存在于細胞膜和細胞核[13, 58]。
此外,通過同一組內蛋白共性特征分析,可以發現結構異常的基因,并對可能存在問題的基因進行矯正。本研究通過對陸地棉FLA基因的結構分析,發現本研究參考基因組中多了210 bp CDS序列及490 bp內含子區域,經過與其他版本參考基因組比對分析進行矯正。通過對陸地棉FLA蛋白的保守基序分析發現,() Motif結構與同組其他序列相比,缺少部分Motif基序,因此,調取該基因上下游序列,進行預測矯正,但其在矯正后仍有Motif 3和Motif 4的缺失,同時發現,在陸地棉中D亞組無對應拷貝,在整個基因組內無同源基因,說明與家族中通常成對出現的其他成員相比,該基因在序列和結構上可能存在特異性,其具體序列結構仍需進一步驗證完善。通過對家族成員基因結構的分析,發現異常的序列進行預測矯正,對深入完善基因組信息具有一定意義。
棉花FLA的保守結構域與擬南芥[18]、楊樹[21]及黃麻[25]等物種FLA蛋白相同,推測生理功能可能相似。據研究,可能參與擬南芥根伸長[27],楊樹調控木質部纖維生長[30],桉樹和與纖維素微纖絲角和莖稈強度相關[22],大麻中多個FLA基因參與韌皮纖維細胞的起始、伸長和SCW的生物合成[14]。以上不同作物的研究均表明在植物木質部特異表達或與細胞壁發育相關。本研究通過NCBI的SRA數據庫獲得轉錄組數據,分析陸地棉在不同組織、不同發育時期胚珠和纖維中的表達情況,發現與纖維伸長、SCW加厚緊密關聯的FLA基因主要分布在Group A和Group B,暗示這兩組的FLA基因可能在陸地棉纖維發育中起到重要作用。在棉花中,該家族基因鑒定出、和(、和)在10 DPA棉纖維中優勢表達[3],()對纖維伸長具有正調控作用[5];()和()在棉花5—20 DPA纖維中大量積累,()在纖維中大量積累[4],以上鑒定的FLA基因與纖維起始、伸長及SCW成熟密切相關,與本研究轉錄組及基因定量表達分析鑒定結果一致,驗證了本研究對FLA基因家族中棉纖維發育相關基因表達分析的準確性。
前人分離克隆獲得海島棉,該基因CDS區為720 bp,編碼239個氨基酸,經比對,與本研究(CDS全長837 bp)為同一基因,研究發現此基因在海島棉纖維SCW沉積階段表達量顯著高于陸地棉[29],對海島棉形成高強纖維起重要作用。有研究分析(和)和(和)分別是擬南芥和在棉花中的直系同源基因[60],敲除和導致莖稈強度和彈性變弱[28]。本研究構建的進化樹顯示與為直系同源關系,與不是直系同源關系但在較近的分枝上,表明可能在陸地棉中也具有類似的功能。因此,本研究確定以陸地棉中未鑒定報道過的為對象,以陸地棉中纖維斷裂比強度和馬克隆值性狀差異顯著的RIL131和RIL229為試驗材料,克隆并分析其在不同發育時期棉纖維中的表達情況。和分別在2個材料中序列一致,與參考基因組序列相同,無SNP差異,表明該組基因相對保守,而在SCW合成期(15—25 DPA)均優勢表達并表現顯著差異,利用VIGS技術沉默后,棉纖維斷裂比強度顯著降低。根據以上研究結果分析是一個纖維SCW合成期相關的基因,尤其與陸地棉纖維品質中纖維強度密切相關。陸地棉與海島棉[29]、陸地棉不同材料間該基因具有差異表達,并調控纖維強度,但其編碼區序列在不同材料間保守,推測基因差異表達的主要原因不是由基因編碼序列本身造成,而主要受上游基因調控影響,進一步推測在海島棉和高比強的陸地棉RIL229中可能有相似的基因網絡調控模式,使所在調控通路通過提前SCW加厚的起始時間,延長了SCW加厚期的累積時長,有效促進纖維素合成,從而形成較高的棉纖維比強度。但該基因具體參與的調控途徑、作用方式和調控機制還有待進一步研究,本研究下步計劃:一方面通過對不同材料中基因啟動子調控區域分析,明確上游互作蛋白,分析差異表達原因;另一方面通過過表達和基因敲除進一步明確功能,解析其在棉纖維發育中所處的基因調控網絡及調控模式。
在四倍體陸地棉、海島棉和二倍體亞洲棉、雷蒙德氏棉中分別鑒定出了41、40、20和21個FLA家族成員,可分為4個群組,不同群組成員間具有較高的結構和功能相似性,并從中篩選了在纖維發育特定時期發揮作用的基因,明確家族中是SCW合成階段特異性表達基因,并與陸地棉不同材料纖維比強度差異形成密切相關。
[1] WANG M J, LI J Y, QI Z Y, LONG Y X, PEI L L, HUANG X H, GROVER C E, DU X M, XIA C J, WANG P C, LIU Z P, YOU J Q, TIAN X H, MA Y Z, WANG R P, CHEN X Y, HE X, FANG D D, Sun Y Q, Tu L L, JIN S X, ZHU L F, WENDEL J F, ZHANG X L. Genomic innovation and regulatory rewiring during evolution of the cotton genus. Nature Genetics, 2022, 54(12): 1959-1971.
[2] CHEN Q, WANG W, WANG C X, ZHANG M, YU J W, ZHANG Y F, YUAN B T, DING Y Y, JONES D C, PATERSON A H, CHEE P W, WANG B H. Validation of QTLs for fiber quality introgressed fromby selective genotyping. G3 Genes |Genomes|Genetics, 2020, 10(7): 2377-2384.
[3] HUANG G Q, XU W L, GONG S Y, LI B, WANG X L, XU D, LI X B. Characterization of 19 novel cottongenes and their expression profiling in fiber development and in response to phytohormones and salt stress. Physiologia Plantarum, 2008, 134(2): 348-359.
[4] LIU D Q, TU L L, LI Y J, WANG L, ZHU L F, ZHANG X L. Genes encoding fasciclin-like arabinogalactan proteins are specifically expressed during cotton fiber development. Plant Molecular Biology Reporter, 2008, 26(2): 98-113.
[5] HUANG G Q, GONG S Y, XU W L, LI W, LI P, ZHANG C J, LI D D, ZHENG Y, LI F G, LI X B. A fasciclin-like arabinogalactan protein,, is involved in fiber initiation and elongation of cotton. Plant Physiology, 2013, 161(3): 1278-1290.
[6] MA J J, JIANG Y F, PEI W F, WU M, MA Q F, LIU J, SONG J K, JIA B, LIU S, WU J Y, ZHANG J F, YU J W. Expressed genes and their new alleles identification during fibre elongation reveal the genetic factors underlying improvements of fibre length in cotton. Plant Biotechnology Journal, 2022, 20(10): 1940-1955.
[7] 王雅琴,李艷軍, 張新宇, 劉永昌, 石淼, 孫杰. 棉花基因的克隆及表達分析. 新疆農業科學, 2013, 50(5): 785-793.
WANG Y Q, LI Y J, ZHANG X Y, LIU Y C, SHI M, SUN J. Cloning and expression analysis of cottongene. Xinjiang Agricultural Sciences, 2013, 50(5): 785-793. (in Chinese)
[8] 胡海燕, 劉迪秋, 李允靜, 李陽, 涂禮莉. 一個棉花纖維伸長期優勢表達啟動子pGhFLA1的克隆與鑒定. 作物學報, 2017, 43(6): 849-854.
Hu H Y, LIU D Q, LI Y J, LI Y, TU L L. Identification of promoter GhFLA1 preferentially expressed during cotton fiber elongation. Acta Agronomica Sinica, 2017, 43(6): 849-854. (in Chinese)
[9] TAN L, SHOWALTER A M, EGELUND J, HERNANDEZ- SANCHEZ A, DOBLIN M S, BACIC A. Arabinogalactan-proteins and the research challenges for these enigmatic plant cell surface proteoglycans. Frontiers in Plant Science, 2012, 3: 140.
[10] SEIFERT G J, ROBERTS K. The biology of arabinogalactan proteins. Annual Review of Plant Biology, 2007, 58: 137-161.
[11] SHOWALTER A M, KEPPLER B, LICHTENBERG J, GU D Z, WELCH L R. A bioinformatics approach to the identification, classification, and analysis of hydroxyproline-rich glycoproteins. Plant Physiology, 2010, 153(2): 485-513.
[12] XU F, CHEN Q, HUANG L, LUO M. Advances about the roles of membranes in cotton fiber development. Membranes, 2021, 11(7): 471.
[13] ZANG L N, ZHENG T C, CHU Y G, DING C J, ZHANG W X, HUANG Q J, SU X H. Genome-wide analysis of the fasciclin-like arabinogalactan protein gene family reveals differential expression patterns, localization, and salt stress response in. Frontiers in Plant Science, 2015, 6: 1140.
[14] GUERRIERO G, MANGEOT-PETER L, LEGAY S, BEHR M, LUTTS S, SIDDIQUI K S, HAUSMAN J F. Identification of fasciclin-like arabinogalactan proteins in textile hemp (L.): in silico analyses and gene expression patterns in different tissues. BMC Genomics, 2017, 18(1): 741.
[15] TAN L, LEYKAM J F, KIELISZEWSKI M J. Glycosylation motifs that direct arabinogalactan addition to arabinogalactan-proteins. Plant Physiology, 2003, 132(3): 1362-1369.
[16] HE J D, ZHAO H, CHENG Z L, KE Y W, LIU J X, MA H L. Evolution analysis of the fasciclin-like arabinogalactan proteins in plants shows variable fasciclin-AGP domain constitutions. International Journal of Molecular Sciences, 2019, 20(8): 1945.
[17] KIM D, LANGMEAD B, SALZBERG S L. HISAT: a fast spliced aligner with low memory requirements. Nature Methods, 2015, 12(4): 357-360.
[18] JOHNSON K L, JONES B J, BACIC A, SCHULTZ C J. The fasciclin-like arabinogalactan proteins of. A multigene family of putative cell adhesion molecules. Plant Physiology, 2003, 133(4): 1911-1925.
[19] MA H L, ZHAO J. Genome-wide identification, classification, and expression analysis of the arabinogalactan protein gene family in rice (L.). Journal of Experimental Botany, 2010, 61(10): 2647-2668.
[20] FAIK A, ABOUZOUHAIR J, SARHAN F. Putative fasciclin-like arabinogalactan-proteins (FLA) in wheat () and rice (): identification and bioinformatic analyses. Molecular Genetics and Genomics, 2007, 277(1): 97.
[21] SHOWALTER A M, KEPPLER B D, LIU X, LICHTENBERG J, WELCH L R. Bioinformatic identification and analysis of hydroxyproline-rich glycoproteins in. BMC Plant Biology, 2016, 16(1): 229.
[22] MACMILLAN C P, TAYLOR L, BI Y D, SOUTHERTON S G, EVANS R, SPOKEVICIUS A. The fasciclin-like arabinogalactan protein family ofcontains members that impact wood biology and biomechanics. The New Phytologist, 2015, 206(4): 1314-1327.
[23] LI X Q, CHENG M Y, TANG C R, ZHU X X, QI K, ZHANG S L, WU J Y, WANG P. Identification and function analysis of fasciclin-like arabinogalactan protein family genes in pear (). Plant Systematics and Evolution, 2021, 307: 48.
[24] MENG J, HU B, YI G J, LI X Q, CHEN H B, WANG Y Y, YUAN W N, XING Y Q, SHENG Q M, SU Z X, XU C X. Genome-wide analyses of banana fasciclin-likegenes and their differential expression under low-temperature stress in chilling sensitive and tolerant cultivars. Plant Cell Reports, 2020, 39(6): 693-708.
[25] HOSSAIN M S, AHMED B, ULLAH M W, AKTAR N, HAQUE M S, ISLAM M S. Genome-wide identification of fasciclin-like arabinogalactan proteins in jute and their expression pattern during fiber formation. Molecular Biology Reports, 2020, 47(10): 7815-7829.
[26] LI J, WU X M. Genome-wide identification, classification and expression analysis of genes encoding putative fasciclin-like arabinogalactan proteins in chinese cabbage (L.). Molecular Biology Reports, 2012, 39(12): 10541-10555.
[27] AALLELIGN SHAGRE H, ZALTZMAN D, IDAN-MOLAKANDOV A, ROMANO H, TZFADIA O, HARPAZ-SAAD S. FASCICLIN-LIKE 18 is a new player regulating root elongation in. Frontiers in Plant Science, 2021, 12: 645286.
[28] MACMILLAN C P, MANSFIELD S D, STACHURSKI Z H, EVANS R, SOUTHERTON S G. Fasciclin-like arabinogalactan proteins: specialization for stem biomechanics and cell wall architecture in Arabidopsis and. The Plant Journal, 2010, 62(4): 689-703.
[29] SHI H Z, KIM Y, GUO Y, STEVENSON B, ZHU J K. Thelocus encodes a putative cell surface adhesion protein and is required for normal cell expansion. The Plant Cell, 2003, 15(1): 19-32.
[30] WANG H H, JIANG C M, WANG C T, YANG Y, YANG L, GAO X Y, ZHANG H X. Antisense expression of the fasciclin-like arabinogalactan proteingene ininhibits expression of its homologous genes and alters stem biomechanics and cell wall composition in transgenic trees. Journal of Experimental Botany, 2015, 66(5): 1291-1302.
[31] LIU H W, SHI R F, WANG X F, PAN Y X, LI Z K, YANG X L, ZHANG G Y, MA Z Y. Characterization and expression analysis of a fiber differentially expressed fasciclin-like arabinogalactan protein gene in sea island cotton fibers. PloS ONE, 2013, 8(7): e70185.
[32] MAJEWSKA-SAWKA A, NOTHNAGEL E A. The multiple roles of arabinogalactan proteins in plant development. Plant Physiology, 2000, 122(1): 3-10.
[33] XUE H, VEIT C, ABAS L, TRYFONA T, MARESCH D, RICARDI M M, ESTEVEZ J M, STRASSER R, SEIFERT G J.functions as a glycan-stabilized soluble factor via its carboxy-proximal Fasciclin 1 domain. The Plant Journal, 2017, 91(4): 613-630.
[34] ZHANG M, WEI H L, LIU J, BIAN Y J, MA Q, MAO G Z, WANG H T, WU A M, ZHANG J J, CHEN P Y, MA L, FU X K, YU S X. Non-functionalare responsible for the male sterility caused by hybrid breakdown in cotton (spp.). The Plant Journal, 2021, 107(4): 1198-1212.
[35] LI J, YU M, GENG L L, ZHAO J. The fasciclin-like arabinogalactan protein gene,, is involved in microspore development of. The Plant Journal, 2010, 64(3): 482-497.
[36] ZHANG Z Y, XIN W W, WANG S F, ZHANG X, DAI H F, SUN R R, FRAZIER T, ZHANG B H, WANG Q L. Xylem sap in cotton contains proteins that contribute to environmental stress response and cell wall development. Functional & Integrative Genomics, 2015, 15(1): 17-26.
[37] TAKAHASHI D, KAWAMURA Y, UEMURA M. Cold acclimation is accompanied by complex responses of glycosylphosphatidylinositol (GPI)-anchored proteins in. Journal of Experimental Botany, 2016, 67(17): 5203-5215.
[38] SEIFERT G J, XUE H, ACET T. Thefasciclin like arabinogalactan protein 4gene acts synergistically with abscisic acid signalling to control root growth. Annals of Botany, 2014, 114(6): 1125-1133.
[39] 張素君, 周曉棟, 唐麗媛, 李興河, 王海濤, 劉存敬, 蔡肖, 張香云, 張建宏. 雜交棉‘冀1518’纖維品質性狀的QTL定位及遺傳分析. 分子植物育種, 2021, 19(11): 3627-3637.
ZHANG S J, ZHOU X D, TANG L Y, LI X H, WANG H T, LIU C J, CAI X, ZHANG X Y, ZHANG J H. QTL Mapping and genetic analysis of fiber quality traits in hybrid cotton ‘Ji1518’. Molecular Plant Breeding, 2021, 19(11): 3627-3637. (in Chinese)
[40] HU Y, CHEN J D, FANG L, ZHANG Z Y, MA W, NIU Y C, JU L Z, DENG J Q, ZHAO T, LIAN J M, BARUCH K, FANG D, LIU X, RUAN Y L, RAHMAN M U, HAN J L, WANG K, WANG Q, WU H T, MEI G F, ZANG Y H, HAN Z G, XU C Y, SHEN W J, YANG D F, SI Z F, DAI F, ZOU L F, HUANG F, BAI Y L, ZHANG Y G, BRODT A, BEN-HAMO H, ZHU X F, ZHOU B L, GUAN X Y, ZHU S J, CHEN X Y, ZHANG T Z.andgenomes provide insights into the origin and evolution of allotetraploid cotton. Nature Genetics, 2019, 51(4): 739-748.
[41] WANG M J, LI J Y, WANG P C, LIU F, LIU Z P, ZHAO G N, XU Z P, PEI L L, GROVER C E, WENDEL J F, WANG K B, ZHANG X L. Comparative genome analyses highlight transposon-mediated genome expansion and the evolutionary architecture of 3D genomic folding in cotton. Molecular biology and evolution, 2021, 38(9): 3621-3636.
[42] FINN R D. Pfam: clans, web tools and services. Nucleic Acids Research, 2006, 34(90001): D247-D251.
[43] FINN R D, CLEMENTS J, EDDY S R. HMMER web server: interactive sequence similarity searching. Nucleic Acids Research, 2011, 39(suppl_2): W29-W37.
[44] LETUNIC I, DOERKS T, BORK P. SMART 7: recent updates to the protein domain annotation resource. Nucleic Acids Research, 2012, 40(D1): D302-D305.
[45] LU S N, WANG J Y, CHITSAZ F, DERBYSHIRE M K, GEER R C, GONZALES N R, GWADZ M, HURWITZ D I, MARCHLER G H, SONG J S, THANKI N, YAMASHITA R A, YANG M Z, ZHANG D C, ZHENG C J, LANCZYCKI C J, MARCHLER-BAUER A. CDD/SPARCLE: the conserved domain database in 2020. Nucleic Acids Research, 2020, 48(D1): D265-D268.
[46] GASTEIGER E, HOOGLAND C, GATTIKER A, DUVAUD S, WILKINS M R, APPEL R D, BAIROCH A. Protein Identification and Analysis Tools on the Expasy Server. The Proteomics Protocols Handbook, Humana Press, 2005: 571-607.
[47] EDDY S R. Profile hidden Markov models. Bioinformatics, 1998, 14(9): 755-763.
[48] KUMAR S, STECHER G, TAMURA K. MEGA7: Molecular evolutionary genetics analysis version 7.0 for bigger datasets. Molecular Biology and Evolution, 2016, 33(7): 1870-1874.
[49] LETUNIC I, BORK P. Interactive Tree Of Life (iTOL) v5: an online tool for phylogenetic tree display and annotation. Nucleic Acids Research, 2021, 49(W1): W293-W296.
[50] WANG Y P, TANG H B, DEBARRY J D, TAN X, LI J P, WANG X Y, LEE T H, JIN H Z, MARLER B, GUO H, KISSINGER J C, PATERSON A H. MCScanX: a toolkit for detection and evolutionary analysis of gene synteny and collinearity. Nucleic Acids Research, 2012, 40(7): e49,
[51] CHEN C J, CHEN H, ZHANG Y, THOMAS H R, FRANK M H, HE Y H, XIA R. TBtools: an integrative toolkit developed for interactive analyses of big biological data. Molecular Plant, 2020, 13(8): 1194-1202.
[52] BAILEY T L, JOHNSON J, GRANT C E, NOBLE W S. The MEME suite. Nucleic Acids Research, 2015, 43(W1): W39-W49.
[53] HU B, JIN J P, GUO A Y, ZHANG H, LUO J C, GAO G. GSDS 2.0: an upgraded gene feature visualization server. Bioinformatics, 2015, 31(8): 1296-1297.
[54] SCHULTZ C J, RUMSEWICZ M P, JOHNSON K L, JONES B J, GASPAR Y M, BACIC A. Using genomic resources to guide research directions. the arabinogalactan protein gene family as a test case. Plant Physiology, 2002, 129(4): 1448-1463.
[55] GU Z H, HUANG C J, LI F F, ZHOU X P. A versatile system for functional analysis of genes and microRNAs in cotton. Plant Biotechnology Journal, 2014, 12(5): 638-649.
[56] TIAN Z L, ZHANG Y Z, ZHU L P, JIANG B, WANG H Q, GAO R X, FRIML J, XIAO G H. Strigolactones act downstream of gibberellins to regulate fiber cell elongation and cell wall thickness in cotton ()., 2022, 34(12): 4816-4839.
[57] LIU G Y, LIU J, PEI W F, LI X H, WANG N H, MA J J, ZANG X S, ZHANG J F, YU S X, WU M, YU J W. Analysis of thegene family and the role ofPlanta, 2019, 250(6): 2147-2158.
[58] YANG Z E, GAO C X, ZHANG Y H, YAN Q D, HU W, YANG L, WANG Z, LI F G. Recent progression and future perspectives in cotton genomic breeding. Journal of Integrative Plant Biology, 2023, 65(2): 548-569.
[59] WU X Y, LAI Y C, LV L Q, JI M F, HAN K L, YAN D K, LU Y W, PENG J J, RAO S F, YAN F, ZHENG H Y, CHEN J P. Fasciclin-like arabinogalactan gene family in: genome-wide identification, classification and expression in response to pathogens. BMC Plant Biology, 2020, 20(1): 305.
[60] WANG C, LV Y D, XU W, ZHANG T Z, GUO W Z. Aberrant phenotype and transcriptome expression during fiber cell wall thickening caused by the mutation of the Im gene in immature fiber (im) mutant inL.. BMC genomics, 2014, 15: 94.
Genome-Wide Identification of Cotton FLA Gene Family and Functional Analysis of
TANG LiYuan, CAI Xiao, WANG HaiTao, LI XingHe, ZHANG SuJun, LIU CunJing, ZHANG JianHong
Institute of Cotton, Hebei Academy of Agriculture and Forestry Sciences/Key Laboratory of Cotton Biology and Genetic Breeding in Huanghuaihai Semiarid Area, Ministry of Agriculture and Rural Affairs/National Cotton Improvement Center Hebei Branch, Shijiazhuang 050051
【Background】It is of great importance to improve the quality of cotton fiber to meet the improvement of cotton textile production and the pursue of people for high quality cotton. Fasciclin-like arabinogalactan proteins (FLAs) play an important role in the initial development of cotton fibers and secondary wall synthesis. 【Objective】Comprehensive identification and analysis of cotton FLA gene family members to reveal their common characteristics and specific expression patterns, provided a reference for the function study of FLAs in cotton fiber development.【Method】According to the whole genome data of cotton, members of FLA gene family were identified by HMMER3.0 and further verified by online softwares of Pfam and Smart. Physical and chemical properties and transmembrane domains of these proteins were analyzed by ExPASy and TMHMM. Phylogenetic tree construction, chromosome localization, collinearity analysis and protein conserved domain sequence alignment were conducted and displayed using GSDS, MCScanX, MEGA, MEME, TBtools and Jalview. Expression of FLA genes in different tissues were analyzed by cotton transcriptome data. Expression differences ofin different developmental stages of ovules and fibers between different fiber quality materials was analyzed by quantitative real-time polymerase chain reaction (qRT-PCR). Function ofwas verified by virus induced gene silencing (VIGS). 【Result】A total of 41, 40, 20 and 21 FLA family members were identified in,,and, respectively. The phylogenetic tree showed that cotton FLA proteins could be divided into four groups. Gene structure and motif composition were relatively conserved in each group. Further analysis of FLA proteins inshowed that all 41 FLA members had 1-2 AGP-like glycosylation regions and 1-2 fasciclin-like domains (FAS), 37 of which contained signal peptide (SP) and 25 contained glycosylphosphatidylinositol anchored protein (GPI) anchoring signals. Subcellular localization showed that GhFLA05_D showing aggregated granules in the cytoplasm was probably localized in endoplasmic reticulum, and GhFLA18_A and GhFLA22 were expressed in cell membrane/wall, cytoplasm and nucleus. Transcriptome sequencing results showed that FLA proteins in Group A and B were mainly highly expressed in fibers, which may be involved in the process of cotton fiber elongation development and secondary wall thickening. In general, group A and B members had a similar expression pattern in two materials with significant differences in fiber quality and expressed mainly in the secondary wall development stage, especially in 20-25 DPA period.exhibited specific expression at the secondary wall thickening stage with significant differences between two materials, which expressed with a high maximum value in earlier stage of secondary wall thickening stage in high specific strength material RIL229, suggestingmay take a part in the regulation of cotton fiber strength difference formation. The fiber strength and micronaire value decreased ingene-silenced cotton plants by VIGS.【Conclusion】A sum of 122 FLA family members were identified in,,and, which could be divided into four groups. Members of different groups had high structural and functional similarities, and the genes related to cotton fiber development were identified. It was clarified thatspecifically expressed in the secondary wall synthesis stage, and closely related to the difference in fiber strength of different upland cotton materials.
cotton; FLA; fiber development; gene family; expression analysis

10.3864/j.issn.0578-1752.2023.23.004
2023-02-16;
2023-04-20
河北省農林科學院基本科研業務費(2021070205)、河北省農林科學院科技創新專項課題(2022KJCXZX-MHS-1,2023KJCXZX-MHS-11)
唐麗媛,E-mail:liyuaner05@163.com。通信作者張建宏,E-mail:mhszjh@126.com
(責任編輯 李莉)