孫正文, 谷淇深, 張艷, 王省芬, 馬峙英
(河北農業大學農學院,華北作物改良與調控國家重點實驗室,河北 保定 071001)
棉花是我國重要經濟作物和紡織工業原料,棉花全產業鏈涉及數千萬產業工人、棉農等從業人員。棉花產業發展事關國計民生,提升棉花生產水平對促進農民增收、農業增效和鄉村振興具有重要意義。優良品種是作物生產的第一要素,針對棉花生產自然資源限制和不利生產條件等問題,開展種源“卡脖子”技術攻關,創制多抗、高產、優質、早熟的突破性棉花重大新品種是推進棉花產業提質增效和區域經濟持續發展的重大需求。
種質資源和育種技術創新是培育突破性新品種的首要關口。目前,我國在棉花突破性種質資源重要經濟性狀精準鑒定和創新方面還有較大提升空間,育種上采用的大多還是2.0時代的雜交育種,3.0時代的分子育種在部分單位進行了研究和應用,亟需加快進入4.0時代的生物技術育種。本團隊近年來在種質鑒定和基因發掘等方面取得了一系列研究進展,本文重點對其進行梳理總結,以期為棉花生物技術育種提供參考。
種質資源是農業科技創新與現代種業發展的重要物質支撐,為豐富棉花育種的遺傳基礎,提高育成品種的產量、品質及抗性水平,有待對大量陸地棉種質資源農藝性狀和纖維品質性狀等進行多環境鑒定,并結合SNP(single nucleotide polymorphisms,單核苷酸多態性位點)芯片、重測序等多種分子技術手段,綜合評選優異種質資源。
Sun等[1]利用棉花SNP芯片對719份陸地棉種質進行了分子鑒定,獲得10 511個高質量SNPs并進行遺傳變異分析。這些SNPs 標記在整個基因組中分布不均勻,其中染色體Dt08 的SNP 最多(844),At04 的SNP 最少(97)。通過群體結構分析將這些種質資源分為2個亞群G1和G2,其中在G2 中有 360個獨特的 SNPs,在 G1 中只有 68個獨特的SNPs。這些結果表明,2個亞群體在分子水平上出現了遺傳分化。Ma 等[2]利用代表7 362個陸地棉種質的419份(5.7%)核心種質進行基因組重測序,鑒定到3 665 030個SNPs,其中224 201個位于17 446個蛋白質編碼基因內,70 959個位于上游或下游區域,其余3 369 870個位于基因間區域。這些SNPs位點為棉花重要性狀的分子改良提供了豐富的遺傳信息。群體結構分析表明,419份棉花分為 3個亞群,亞群之間 θπ 值為(3.13~3.72)×10-4,均高于已報道的地方品種(2.59×10-4)和改良品種(1.79×10-4),但低于水稻秈稻(1.6×10-3)、粳稻(0.6×10-3)和改良大豆(1.05×10-3),表明陸地棉種質總體上遺傳多樣性較低,這些種質資源為棉花育種提供了較為廣泛的遺傳基礎。在優異種質資源篩選上,Sun等[3]基于719份陸地棉多年多點表型數據的綜合評價,篩選出纖維長度(fiber length,FL)大于30.00 mm、纖維強度(fiber strength,FS)大于30.00 cn·tex-1的優異種質31 份,這些材料在至少6個環境中的品質達到了“雙30”,馬克隆值(fiber micronaire,FM)在3.5~4.9之間,其中W82-1的FL和FS在8種環境中均大于30.00。MSCO-12的FL平均值最高(33.74 mm);J02-508 的FS 平均值最高(33.94 cn·tex-1)。另外,Ma等[4]又通過對1 081份陸地棉種質進行重測序獲得了2 970 970個高質量SNPs,對該群體進行遺傳親緣關系分析發現可分為3個亞群,這些種質資源為棉花改良提供了分子基礎,也為優異親本組配提供重要理論參考。
協同提高陸地棉品種的產量、品質和抗逆性是生物技術育種的重大目標,而棉花現代栽培品種參考基因組的缺乏以及潛在的農藝性狀的基因組結構變異的遺傳效應有待探明。因此,我國自育陸地棉現代品種農大棉8 號(Nongdamian 8,NDM8)和海島棉Pima 90 的組裝以及品種間結構變異的鑒定[4]為棉花重要性狀改良提供了新的理論依據和資源。
基于單分子實時(single molecule real-time,SMRT)測序(覆蓋深度為180.38 倍)和Illumina 雙端數據校正(總覆蓋率為233.75倍),10×Genomics(基因組)鏈接數據(覆蓋深度232.90倍)以及Hi-C雙端數據(覆蓋深度125 倍)構建的基因組大小分別為2.29和2.21Gb,重疊群(contig)N50為13.15和9.24 Mb,染色體掛載率為99.57%和99.75%,編碼基因80 124和79 613個,其中1 499和1 267個為預測的新基因,比較發現在棉種進化中,Copia和Gypsy轉座子對農藝性狀的分化起著重要作用。將海陸基因組比對,檢測到31 296個變異/基因對在海島棉組織中顯著特異表達,5 815個插入缺失位于5 256個基因的外顯子區,其中蔗糖合酶基因GbM_D13G2394存在2 bp 的缺失,在海島棉品種Hai7124和3-79以及漸滲系NDM373-9和魯原343中得以驗證。發現NDM373-9 獲得了來自海島棉的171個外顯子區結構變異,其中分別有34 和12個基因與已報道的抗病性和纖維發育有關,證明了海島棉對改良陸地棉的育種價值。與已測序基因組TM-1進行比較,發現NDM8存在876 568個結構變異,其中28 626個變異能夠在10~1 081個重測序種質中檢測到。研究還發現,現代品種較早期品種獲得了1 128個NDM8型結構變異,表明現代育種改良發揮了重要作用[4]。
提升棉花產量一直是育種的重要目標,但是棉花產量以及纖維品質性狀均為數量性狀,且易受環境影響,同步改良這些性狀比較困難。利用分子標記結合關聯分析對產量性狀進行解析,可鑒定到大量相關的標記位點。
Sun 等[5]通過全基因組關聯分析(genome-wide association studies,GWAS)鑒定了不同環境下陸地棉產量相關性狀的SNP標記及候選基因。共鑒定出62個顯著相關的SNPs,其中8個與鈴重(boll weight,BW)關聯的SNPs,6個與衣分(lint percentage,LP)關聯,21個 SNPs 位點與籽指(seed index,SI),5個位點與衣指(lint index,LI)關聯,7個位點與結鈴數(boll number,BN)關聯,進一步確定了27個候選基因,且每個基因至少包含1個SNP。Ma等[?]鑒定到與BW、LP、SI、LI 和單鈴纖維重(fiber weight per boll,FWPB)5個產量相關性狀顯著關聯的1 816個SNPs 位點,在 842個與 LP 相關的基因和 743個與LI相關的基因中,分別有16和9個基因包含非同義SNPs。其中在Dt02染色體上的峰值區域包含5個與LP相關的非同義SNP,3個位于編碼四肽重復類超家族蛋白基因Gh_D02G0025內,富含TPR 結構域的蛋白在植物激素信號通路中發揮重要作用;轉錄組分析表明,Gh_D02G0025在 0 和 5 DPA(days post anthesis)纖維中具有較高的表達量,這些結果表明Gh_D02G0025可能會通過不同的激素信號通路參與纖維起始和快速伸長,并決定皮棉產量。Ma 等[4]通過重測序1 081 份陸地棉獲得了304 630個結構變異(structure variation,SV),包括141 145個 插 入 、156 234個 缺 失 、39個 倒 位 、6 384個易位和828個重復。而棉花重要農藝性狀結構變異的遺傳效應尚不清楚。因此,利用SV數據對產量性狀進行了GWAS 分析,共鑒定出97個與產量相關。產量性狀(BW、LP、SI)的結構變異主要位于At染色體(22個)。其中對于重要的皮棉產量性狀LP,Dt03的2個結構變異可顯著提高LP,分別由37.49%提高到39.69%,37.47%提高到40.00%。
棉花的長度、強度、馬克隆值等是評價棉花纖維品質的重要指標。利用大量的SNPs 標記對纖維品質性狀進行了連鎖分析及關聯分析,檢測到多個與棉花纖維品質性狀相關的分子標記位點。
Sun等[1]利用基因芯片對719份陸地棉材料在8個環境鑒定的纖維品質性狀進行關聯分析,檢測到20個與纖維長度相關的標記位點,其中染色體Dt11的i60962Gt位點可在6個環境下穩定檢測到;與纖維強度顯著相關SNPs標記18個,其中4個可在多環境下穩定檢測到;另外鑒定到4、4、11個SNPs位點分別與馬克隆值、整齊度和伸長率相關。在這些SNPs位點中,8個位點與纖維長度、強度同時關聯,3個位點同時與纖維長度和纖維伸長率關聯。Ma 等[2]利用重測序技術挖掘到366 萬個高質量SNPs位點,并對419份陸地棉核心種質在12個環境下的纖維品質性狀進行關聯分析,共檢測到3 136個與纖維長度、纖維強度、馬克隆值、整齊度和伸長率相關的標記,其中有778個SNPs 標記可在至少2個性狀上檢測到。染色體Dt11上23.93~24.10 Mb 區域的30個SNPs 位點與多個性狀同時關聯,說明該區域存在協同調控棉花纖維品質性狀的遺傳位點,可用于分子標記輔助選擇改良纖維品質。Gu等[6]以自育品種農大棉13號和農大601為親本,構建了1套含有588個株系的重組自交系群體,基于重測序數據對該群體在8個環境的5個纖維品質性狀進行QTL(quantitative trait locus)定位分析,共檢測到66個優異位點,16個QTLs 可在多環境下穩定檢測到,bin4537等13個標記與此16個位點緊密連鎖(表1)。

表1 與穩定QTL緊密連鎖的標記信息[6]Table 1 Marker information closely linked to stable QTL[6]
另外,通過重測序1 081份陸地棉材料獲得的304 630個結構變異對主要的纖維品質性狀進行了GWAS 分析[4],鑒定出160個與纖維品質性狀(FL、FS、M)關聯,其中139個位于Dt染色體,21個位于At 染色體。對于能夠顯著提高紗線經濟價值的FL 性狀,在Dt11 中檢測到最高的關聯峰,其中370 kb 區域(24.55~24.93 Mb)包含125個結構變異。在這些位點中,69個和56個分別使FL 顯著增加0.71~0.99 和1.00~1.19 mm,使纖維從27或28 mm級增加到29 mm級。
目前已克隆很多纖維發育的基因(表2),如轉錄因子[7-8]、激素[9-10]、骨架蛋白[11-13]、脂肪代謝[9,14]、細胞壁成分[11,15]等相關基因。本團隊利用連鎖分析和關聯分析也檢測到與纖維發育相關的基因,如糖代謝相關基因Gh_D07G1799[1],與細胞代謝相關的伴侶基因Gh_D13G1792[1],與細胞骨架蛋白相關的gyp1p 家族蛋白基因Gh_A10G1256[2]和Ghir_D02G-002580[6],與 擬 南芥細胞伸長相關的KRP 家族蛋白基因Gh_D11G1929[2],與植物激素信號途徑相關基因Gh_D02G0025[2]、Ghir_A03G020290[6];與 脂 質信號轉導相關,編碼棉花種子脂肪酸的基因Ghir_D02G010340[6],與細胞壁成分相關的基因Ghir_D02G011110[6]。

表2 纖維發育相關候選基因鑒定Table 2 Identification of candidate genes related to fiber development
黃萎病(Verticilliumwilt)是棉花生產上最重要的病害之一,嚴重影響著品質和產量。挖掘棉花抗病相關的分子標記和基因對棉花抗黃萎病遺傳改良具有重要意義。目前,已發表多篇與棉花抗黃萎病相關的研究結果[16-17]。本團隊以300多萬個SNPs位點對401 份陸地棉核心種質黃萎病抗性進行關聯分析[18],共檢測到352個與黃萎病抗性相關的標記位點,其中在染色體Dt11上發現13個穩定存在的核心SNP標記位點,可用于分子輔助選擇育種。
在棉花抗病相關基因報道中,內源激素介導的信號轉導[19-20]、R基因[17,21-22]、次級代謝產物[23]等在抗病反應中發揮著至關重要的作用。本團隊利用多組學、關聯分析等方法,鑒定到多個與黃萎病抗性相關的基因(表3),如涉及抗病信號傳導的脂肪酶基因GbEDS1[24-25]、蛋白激酶基因GbSTK[26]、親環素基因GhCYP-3[27]、編碼雜合的富含脯氨酸的細胞壁蛋白的GbHyPRP1[28]、G蛋白基因GhGPA[29]、編碼植物L 型凝集素類受體激酶的GhLecRKs-V.9[18];R基因GbVe[30]、GbRVd[31];參與木質素單體的聚合編碼漆酶的基因GhLAC15[32];影響苯丙烷途徑中木質素和類黃酮代謝流的基因GhnsLTPs[33];與活性氧相關的基因GhPAO[34];硬脂酰-ACP-去飽和酶家族成員GhSSI2[35],谷胱甘肽硫轉移酶簇GhGST[36],病程相關基因GhNCS[4]等。

表3 棉花抗黃萎病相關基因鑒定Table 3 Identification of cotton Verticillium Wilt resistance related genes
傳統育種方法改良作物性狀已獲得了巨大的成就,然而由于受到育種材料遺傳背景狹窄、選擇效率低等多因素約束,近年來我國重要作物品種選育工作已進入了平緩發展階段。因此,加快育種技術創新勢在必行。分子生物學催生的生物育種技術突破了傳統育種的局限,使農作物育種更精確、更高效。現代生物技術在育種中的應用,必將加快育種速度,縮短育種年限,提高育種水平,同時也為棉花品種改良開辟新的道路。但由于我國的生物技術研究水平與發達國家相比還有差距,所以,急需加強我國棉花生物育種的源頭創新,不斷促進我國棉花產業的發展和進步。