















摘要:【目的】對棉花衣分和鈴重進行全基因組關聯分析,挖掘相關的候選基因,為通過分子標記輔助選擇和分子設計育種提高棉花產量提供遺傳基礎。【方法】利用300份陸地棉種質資源重測序(10×)數據和3 055 642個高質量單核苷酸多態性(single nucleotide polymorphism, SNP)對2年5個環境及最佳線性無偏預測值(best linear unbiased predictive value, BLUP)的衣分和鈴重進行了全基因組關聯分析,檢測相關的顯著關聯位點和候選基因。【結果】衣分和鈴重在不同環境下存在較廣泛的變異,衣分平均變異系數為9.40%,遺傳力為92.81%;鈴重平均變異系數為11.96%,遺傳力為86.67%。不同環境間,群體的鈴重呈極顯著正相關關系,衣分也呈極顯著正相關關系。群體結構分析、主成分分析和系統發育分析將300份陸地棉分為6個亞群,全基因組關聯分析共檢測到223個數量性狀位點(quantitative trait locus, QTL)與衣分相關,89個QTL與鈴重相關。對衣分中篩選到的3個穩定的QTL qLP_Gh5.18、qLP_Gh12.43和qLP_Gh17.2進一步分析,發現17個相關候選基因;對鈴重中篩選到的2個穩定的QTL qBW_Gh7.5和qBW_Gh19.5進一步分析,發現8個相關候選基因。【結論】在300份陸地棉群體中鑒定到5個穩定的QTL與棉花衣分和鈴重關聯,挖掘到25個與衣分和鈴重相關的候選基因。
關鍵詞:陸地棉;衣分;鈴重;全基因組關聯分析
Genome-wide association study of cotton lint percentage and boll weight
Du Xiao1, Long Yilei1, Tan Yanping1, Li Lili2, Wang Yin1, Jin Shen1, Yang Yinan1, Ai Xiantao3*
(1." College of Life Science and Technology, Xinjiang University/Xinjiang Key Laboratory of Biological Resources and Genetic Engineering, Urumqi 830000, China; 2. Kuqa Modern Agricultural Science and Innovation Center, Kuqa, Xinjiang 842000, China; 3. College of Intelligent Agriculture (Research Institute), Xinjiang University, Urumqi 830000, China)
Abstract: [Objective] This study aims to perform genome-wide asscciation study of cotton yield traits, such as lint percentage (LP) and boll weight(BW), and to mine the candidate genes, and may be helpful for improving cotton yield through molecular marker-assisted selection and molecular design breeding. [Methods] Genome-wide association study was performed using 300 upland cotton germplasms resequencing (10×) data and 3 055 642 high-quality single nucleotide polymorphism (SNP) for LP and BW in five environments and best linear unbiased predictive value (BLUP) for two years to detect significant association loci and candidate genes. [Results] The cotton LP and BW showed wide variations in different environments, with an average coefficient of variation of 9.40% and heritability of 92.81% for LP, and an average coefficient of variation of 11.96% and heritability of 86.67% for BW. BW is significantly positively correlated in different environments. It’s the same with LP. Population structure analysis, principal component analysis, and phylogenetic analysis classified the 300 upland cotton lines into six subgroups. Genome-wide association study detected a total of 223 quantitative trait locus (QTL) associated with LP and 89 QTL associated with BW. The three stable QTL qLP_Gh5.18, qLP_Gh12.43, and qLP_Gh17.2 screened in LP were further analyzed, and 17 related candidate genes were found. Two stable QTL qBW_Gh7.5 and qBW_Gh19.5 related to BW were further analyzed, and 8 related candidate genes were identified. [Conclusion] Five stable QTL were identified in 300 up land cotton lines associated with cotton LP and BW, and a total of 25 candidate genes related to LP and BW were mined.
Keywords: Gossypium hirsutum L.; lint percentage; boll weight; genome-wide association study
棉花(Gossypium)是世界上重要的經濟作物和油料作物,為紡織品生產提供了天然纖維[1]。陸地棉具有高產、適應性強、分布廣的特點,是栽培最廣泛的棉種。隨著全球人口的增長和工業化的不斷發展,紡織工業對棉花的需求持續增長。培育高產的棉花品種是棉花育種者不懈追求的目標。由于長期人工選擇育種,陸地棉品種遺傳多樣性降低、遺傳背景狹窄[2],這無疑增加了通過常規育種手段提高棉花產量的難度。因此,通過全基因組關聯分析(genome-wide association study, GWAS)挖掘與產量性狀相關的優良基因或數量性狀位點(quantitative trait locus, QTL),對于加速棉花高產分子育種具有十分重要的意義。
鈴重(boll weight, BW)和衣分(lint percentage, LP)是重要的棉花產量性狀,也是典型的數量性狀,容易受到環境因素的影響[3]。大量學者通過分子標記技術和雙親連鎖作圖技術,鑒定了許多與棉花產量性狀相關的QTL[4-8],這些研究為解析棉花產量性狀的分子機理及分子標記輔助選擇(molecular marker-assisted selection, MAS)育種提供了基礎。然而,這些來自種間群體的QTL大多定位于非常大的遺傳區域,往往不穩定,因此不能直接應用于陸地棉改良[9]。GWAS是以連鎖不平衡(linkage disequilibrium, LD)為基礎,通過檢測成千上萬的分子標記,篩選出與目標性狀表型變異相關聯的分子標記,進而分析關聯分子標記對表型的遺傳效應[10]。因分辨率高、成本低、不需要系譜等優勢,GWAS已逐漸成為解析復雜數量性狀遺傳基礎的有效方法,利用該方法在棉花株型[11-12]、纖維品質[13-16]、抗性[17-18]等性狀的相關研究中挖掘了大量的QTL/基因。在棉花產量性狀的研究中,Zhu等[19]對13個不同地點的242個棉花種質進行GWAS分析,報道了95個產量相關的非冗余QTL,其中包括12個在6個及以上環境檢測到的穩定的QTL和1個重要基因Gh_A07G1389,該基因編碼四肽重復樣超家族蛋白,與超短纖維突變體(Liy)相關基因同源。Sun等[20]利用SNP63K陣列對719份棉花進行了基因分型,鑒定出2個提高皮棉產量的基因Gh_
D03G1064和Gh_D12G2354。Song等[21]利用SNP63K陣列對276份棉花進行基因分型,發現Gh_D05G0313和Gh_D05G1124在胚珠和纖維發育階段高表達。Wang等[22]利用SNP80K陣列對189個棉花進行基因分型,鑒定了與BW相關的候選基因Gh_A02G1473、Gh_A10G1765和Gh_
A02G1442。這些重要候選基因的發掘為棉花高產育種奠定了堅實的理論基礎。
單核苷酸多態性(single nucleotide polymorphism, SNP)的標記密度是影響GWAS準確性的主要因素之一[23],上述棉花產量性狀相關研究中由于受SNP標記密度的影響,導致挖掘的候選基因數量受限。本研究以300份不同來源的陸地棉重測序(10×)數據,對5個環境下的BW和LP進行全基因關聯分析,以確定遺傳位點與產量性狀的關系,研究結果可為棉花產量的分子育種提供理論依據。
1 材料與方法
1.1 材料
300份不同來源陸地棉種質資源材料由中國農業科學院棉花種質資源庫提供(表1),其中,國內種質274份,國外種質26份。
1.2 試驗設計
300份棉花材料于2022年4月10日種植在新疆庫車市烏恰鎮現代農業科創中心1號和2號試驗田,分別用E1、E2表示這2個環境;2023年4月9日種植在新疆庫車市烏恰鎮現代農業科創中心1號、2號和3號試驗田,用E3、E4、E5表示這3個環境。2號試驗田是2022年新開墾改良的試驗田,3號試驗田是2023年新開墾改良的試驗田,因3塊試驗田棉花長勢有明顯差異,可以視作不同的環境。每個試驗田設3個重復,采用隨機區組設計,行距配置為(66+10)cm,株距為10 cm,1膜6行,幅寬2.28 m,小區行長4 m。機械鋪膜打孔,人工膜上點播,膜下滴灌栽培,田間管理措施同常規大田生產一致。
1.3 表型測定方法
參照杜雄明等[24]編著的《棉花種質資源描述規范和數據標準》,在吐絮期,每個材料挑選10個連續單株,分別采收每株中部果枝吐絮暢的棉鈴1個,共采收10個棉鈴,隨后進行室內考種,考種項目包括BW和LP。
1.4 表型數據分析
采用SPSS Statistics 25和Prism 9進行相關數據的統計分析;采用軟件R 4.4.0對不同環境的表型數據進行相關分析,用lme4包對各環境各性狀表型的最佳線性無偏預測(best linear unbiased prediction, BLUP)值進行計算,并計算廣義遺傳力(H2),公式如下:
H 2=Vg/(Vg+++)
式中,Vg、Vge、Vgy、Ve、L、Y分別代表遺傳方差、基因型與環境間的交互方差、基因型與年份的交互方差、環境方差、環境數和年份數。
1.5 DNA提取和基因組重測序
對每個棉花種質的單株幼葉進行取樣,使用康為世紀的CWE9600 Magbead Blood DNA Kit試劑盒運用磁珠法進行DNA的提取;并通過隨機DNA片段化(300~350 bp)、末端修復、加PolyA并連接測序接頭,篩選300~350 bp的DNA片段,通過聚合酶鏈式反應擴增和純化,從而獲得測序文庫。隨后使用DNBSEQ-T7測序儀,采用雙末端(pair-end, PE)150 bp的測序方法上機測序。
1.6 測序讀長質量過濾和比對
使用fastp對原始數據進行一系列的質量控制,數據質控的標準包括:去除帶接頭的讀長;去除未知/不確定堿基含量超過1%的讀長;去除低質量(Q≤5)堿基數超過50%的讀長。使用BWA" 0.7.17(MEM算法)軟件將干凈讀長比對到陸地棉TM-1參考基因組(http://ibi.zju.edu.cn/cotton/source/TM-1_V2.1),使用GATK 4.1.8.0軟件自帶的模塊對Bam文件進行去重,然后基于Bam文件統計各樣品的測序深度、基因組覆蓋度等信息。
1.7 群體SNP檢測
使用軟件GATK 4.1.8.0 callSNP命令調取SNP,采用VariantFiltration模塊對SNP進行嚴格質控過濾,選擇標準:群體內個體缺失率≤1 %、SNP缺失率≤1 %、次要等位基因頻率(minor allele frequency, MAF)>0.05,最終保留3 055 642個高質量 SNP用于主成分分析(principal component analysis, PCA)、系統發育樹、群體結構分析和GWAS分析。
1.8 群體結構和LD分析
為了從全基因組的角度闡明系統發育關系,利用Tassel軟件中的鄰接法(neighbor-joining method)構建系統發育樹。使用軟件Admixture評估群體遺傳結構,假設K取值2~10,每次運行迭代10 000次。利用GCTA軟件進行PCA分析以評估群體的遺傳結構。使用軟件PopLDdecay計算成對高質量SNP之間的LD系數(r2),結果用于估計LD衰減。
1.9 GWAS
利用3 055 642個高質量SNP對2個性狀進行GWAS分析,利用全基因組高效混合模型關聯軟件包GEMMA 0.94.1[25](http://www.xzlab.org/
software.html),用以群體結構(Q)矩陣為協變量的一般線性模型GLM (Q)、以主成分(P)矩陣為協變量的一般線性模型GLM (P)、以群體結構(Q)和親緣關系(K)矩陣為協變量的混合線性模型MLM (Q + K)、以主成分(P)和親緣關系(K)矩陣為協變量的混合線性模型MLM (P + K)等4個模型進行關聯分析。根據-lg(1/N)計算閾值,N為有效SNP數。本研究中使用“plink--indep--pairwise 50 10 0.1”質控后獲得182 147個有效SNP,經計算閾值為5.26。
1.10 單倍型分析及候選基因的預測
GWAS分析后,對QTL進行命名,對所有環境及模型下檢測到的顯著SNP按照其位置進行排序,若相鄰2個SNP的距離大于LD衰減距離454.6 kb,則這2個SNP屬于不同的QTL,反之則視為是同1個QTL。對多環境重復檢測到的穩定QTL,選擇每個QTL中表型變異解釋率(phenotypic variation explained, PVE)最大的SNP做單倍型分析,利用曼-惠特尼檢驗對不同單倍型之間的差異顯著性進行檢驗。將棉花候選基因比對到擬南芥基因組(www.arabidopsis.org)同源基因并進行功能注釋。
2 結果與分析
2.1 表型分析
為了評估關聯群體中產量性狀的表型變異,對LP和BW在2年5個環境的表型值及BLUP值進行統計分析(表2)。結果表明,LP變化范圍為18.45%~58.54%;BW變化范圍為2.91~8.78 g。2個性狀在5個環境及BLUP值下均具有較廣泛的變異,LP的平均變異系數為9.40%,BW的平均變異系數為11.96%;LP的遺傳力為92.81%,BW的遺傳力為86.67%,表明這2個性狀主要受遺傳因素影響。LP的偏度為-0.65~
-0.24、峰度為0.10~1.36,BW的偏度為-0.37~
0.14、峰度在-0.22~0.57之間,兩者均呈近似正態分布,符合數量性狀特征。LP在5個環境下的表型值和BLUP值間均呈極顯著的正相關關系,BW類似,但是LP與BW在不同環境間呈現不同的相關關系,有呈正相關關系的,如LP_E1與BW_E1、BW_E2;也有呈負相關關系的,如LP_
E5與BW_E1、BW_E2(圖1)。
2.2 群體結構和LD分析
群體結構分析對后續研究不同亞群遺傳信息尤為重要,可以初步推斷亞群分化程度和親緣關系,反映群體內遺傳多樣性。利用Admixture對群體結構進行分析,當K為6時,交叉驗證誤差最小,從而確定K最佳取值為6(圖2A),即300份陸地棉材料分為6個亞群(圖2C)。系統發育分析(圖2B)和PCA分析(圖2D)也將這些材料劃分為6個亞群。根據PopLDdecay計算r2最大值為0.86,衰減一半時對應的距離為454.6 kb,即300份陸地棉材料的LD衰減距離為454.6 kb(圖2E),LD衰減距離中等,適合進行后續的GWAS。
2.3 全基因組關聯分析
利用3 055 642個高質量的SNP對2年5個環境的LP、BW表型數據及其BLUP值,使用GLM (Q)、MLM (Q+K)、GLM (P)和MLM (P+K) 4種模型進行GWAS分析。GLM (Q)模型檢測到8 358個與LP顯著關聯的SNP,MLM (Q+K)模型檢測到198個,GLM(P)模型檢測到17 355個,MLM (P+K)模型檢測到2 385個,共檢測到28 296個SNP與LP顯著關聯(包含不同模型重復檢測的SNP)。對于BW,GLM (Q)模型檢測到680個顯著關聯SNP,MLM (Q+K)模型檢測到34個,GLM (P)模型檢測到754個,MLM (P+K)模型檢測到36個,共檢測到1 504個SNP與BW顯著關聯。按照454.6 kb的LD衰減距離(圖2E),將與LP顯著關聯的SNP整合到223個QTL中,解釋了6.67%~14.35%的PVE,將與BW顯著關聯的1 504個SNP整合在89個QTL中,解釋了6.66%~10.24%的PVE。其中,被重復檢測的QTL共91個,88個與LP關聯、3個與BW關聯。圖3展示了這91個QTL在26條染色體上的分布情況,與LP關聯的QTL在除A01外的染色體均有分布,其中A02染色體上數量最多,為23個;A12次之,共7個;A03、A04、A09、A10、A13、D01和D09號染色體上各有1個QTL。A07、D06和D11號染色體上各有1個與BW關聯的穩定QTL。
2.4 候選基因的預測
為了篩選與LP和BW相關的穩定QTL,從上述91個QTL篩選在5個環境以及BLUP值中重復檢測到3次及以上的穩定QTL(表3),獲得3個與衣分相關的QTL:qLP_Gh5.18、qLP_Gh12.43、qLP_Gh17.2,2個與BW相關的QTL,分別是qBW_Gh7.5和qBW_Gh19.5。
對A05染色體上qLP-Gh5.18進行分析,該QTL在5個環境及BLUP值下在4種模型中均被檢測到(圖4A和表3)。其中,snp497745解釋14.35%的PVE,是qLP_Gh5.18中PVE最高的SNP位點,對該SNP進行后續分析(后文也是用QTL區間內PVE最高的SNP進行分析)。局部曼哈頓圖(圖4B)表明在A05染色體上108.85~109.11 Mb區間出現明顯峰值,對此區間內的LD程度進一步分析并結合LD熱圖,將候選區間縮小為160 kb(圖4D)。在此區間內共注釋了7個候選基因(表4),結合擬南芥注釋信息,推測GH_A05G4223與擬南芥基因AT5G-
05340.1同源,擬南芥AT5G05340.1編碼產物與參與木質素生物合成的過氧化物酶相似,其功能突變缺失導致木質部纖維發育異常以及木質素生物合成酶活性降低。GH_A05G4224編碼含有側器官邊界(lateral organ boundaries,LOB)結構域的蛋白,作為木質部細胞分化主調控因子VND7的調控因子,參與木質部分化調控。GH_A05G4226編碼WEB家族蛋白DUF827;GH_A05G4227編碼絨毛曲霉腺嘌呤-鳥嘌呤-次黃嘌呤轉運體AzgA的同源物;GH_A05G4228在擬南芥中的同源基因編碼Lung七跨膜受體家族蛋白;GH_A05G4229編碼DEAD-box解旋酶家族蛋白;GH_A05G4230編碼1種假定的二羥丙酮磷酸還原酶,參與葉綠體內甘油-3-磷酸的供應。單倍型分析發現攜帶AA單倍型的棉花品種的LP極顯著低于攜帶GG單倍型的品種(圖4C)。
對A12號染色體上qLP-Gh12.43進行分析,該QTL在GLM (P)和GLM (Q)模型下在5個環境及BLUP值均被檢測到(表3和圖5A),snp1691332解釋9.69%的PVE。局部曼哈頓圖表明A12號染色體上106.57~106.82 Mb區域有明顯峰值,結合LD熱圖(圖5B和5D)對該區間內的LD程度進行分析,將候選基因區域縮小至50 kb,在該候選區域內共注釋了6個候選基因(表4)。snp1691332在GH_A12G2883內,其擬南芥的同源基因編碼四肽重復樣超家族蛋白;GH_A12G2884編碼ARM重復超家族蛋白;GH_A12G2885編碼645個氨基酸的甲基胞嘧啶結合蛋白,包含1個PHD結構域、2個環指結構域和1個SRA結構域;GH_A12G2886編碼R2R3轉錄因子基因家族成員;GH_A12G2887編碼五肽重復蛋白;GH_A12G2888編碼1個與MAP激酶MAPK9相似的蛋白。單倍型分析發現攜帶AA單倍型的棉花品種的LP極顯著高于攜帶GG的單倍型品種(圖5C)。
對qLP-Gh17.2進行分析,該QTL位于D04染色體上,在4種模型下均被檢測到(表3和圖6A),snp2180718解釋10.69%的PVE。局部曼哈頓圖(圖6B)表明在D04號染色體上3.80~3.96 Mb區域出現明顯峰值,結合熱圖(圖6D)進一步分析該區間內的LD,將候選區域縮小至40 kb。在該候選區域內共包含4個候選基因(表4),GH_D04G0279的擬南芥同源基因編碼1種IAA-氨基合成酶,在體外將天冬氨酸和其他氨基酸結合到生長素上;GH_D04G0280編碼五肽重復超家族蛋白;GH_D04G0281編碼肌動蛋白基因家族成員;GH_D04G0282編碼GRIP卷曲蛋白(DUF1664)。單倍型分析發現攜帶TT單倍型的棉花品種的LP極顯著高于攜帶CC單倍型的品種(圖6C)。
對與BW相關的qBW_Gh7.5和qBW_19.5進行后續分析。qBW_Gh7.5位于A07號染色體上(圖7和表3),與Sun等[20]和Ma等[16]發現的相關位點共定位(表5)。該QTL在GLM (P)和GLM (Q)模型中被檢測到(表3),區間內的snp852852解釋8.89%的PVE,是A07號染色體中檢測到的QTL中PVE最大的位點。局部曼哈頓圖(圖7B)表明在A07號染色體上90. 83~91.18 Mb區域出現明顯峰值,結合熱圖(圖7D)對該區間內的LD程度進行分析,將候選區域縮小至170 kb,在該候選區域內共注釋了5個候選基因(表4)。其中,GH_A07G2234的擬南芥同源基因編碼RIN4-like/NOI家族成員;GH_A07G2235編碼1種富含半胱氨酸的多肽,該多肽是1種在葉肉細胞中產生的分泌因子,作用于表皮以促進氣孔的形成;GH_A07G2236編碼天冬酰-tRNA合成酶;GH_A07G2237編碼受體樣蛋白激酶相關家族蛋白;GH_A07G2243編碼AGC(cAMP依賴性、cGMP依賴性蛋白激酶C)激酶家族蛋白。單倍型分析發現攜帶GG單倍型的棉花品種的BW極顯著高于攜帶AA單倍型的品種(圖7C)。
對D06染色體上qBW-Gh19.5進行分析,該QTL在4個模型下被檢測到(圖8A和表3),snp2428027解釋7.89%的PVE。局部曼哈頓圖(圖8B)表明在D06號染色體上64.22~64.56 Mb區域出現明顯峰值,結合LD熱圖(圖8D)將候選區域縮小至14 kb。該候選區域內包含3個候選基因(表4),GH_D06G2300的擬南芥同源基因編碼GDSL酯酶/酰基轉移酶/脂肪酶;GH_D06G2301編碼花粉中參與脂滴生物形成的膜蛋白;GH_D06G2302編碼1個水通道蛋白同源物。單倍型分析發現攜帶GG單倍型的棉花品種的BW顯著高于攜帶AA單倍型的品種(圖8C)。
3 討論
3.1 影響GWAS結果的因素
GWAS是分析復雜性狀遺傳基礎的有效手段之一[27],表型數據準確性、SNP標記密度、群體結構和GWAS分析方法等都會對關聯分析最終結果產生很大影響。棉花的產量性狀是復雜的數量性狀,受多基因控制,還容易受栽培地氣候、土壤肥力、田間管理、病蟲害等的影響。為了減少環境對關聯結果的影響,本研究對2年5個地點的LP和BW進行BLUP值的計算,以BLUP值進行關聯分析,極大地減少了環境因素對遺傳評估的影響,提高了結果的準確性和可靠性[28]。LD分析是GWAS的基礎,受多種因素的影響,如遺傳衰減、自然選擇和種群結構,而群體結構被認為是影響GWAS結果的重要因素[29]。本研究中將300份陸地棉分為6個亞群,但可以看到亞群2與其他5個亞群明顯分開(圖2D),這可能是育種工作造成的種內漸滲[28]。研究表明所使用的群體存在較多亞群時,等位基因在基因組上的分布往往不平衡,可能造成標記與數量性狀相關位點的假陽性關聯,從而掩蓋了真正的信號,使關聯分析更加復雜[31]。PCA作協變量可以更有效地控制群體結構,同時降低過度校正的風險。所以本研究不僅使用GLM (Q)和MLM (Q+K),還使用GLM (P)和MLM (Q+ K),增加了GWAS結果的可靠性。
3.2 棉花產量性狀候選基因的預測
挖掘更多的棉花產量相關基因對加速棉花高產育種具有極其重要的作用。前人已定位到許多與棉花產量性狀相關的基因,如:Gh_D05G1960、Gh_D05G1965、Gh_D03G1064、Gh_D12G2354、Gh_D06G2161、Gh_A08G0716、Gh_A08G0783、Gh_A07G1389、Gh_A02G1473、Gh_A10G1765、Gh_A02G1442、Gh_D05G0313和Gh_D05G1124等都在纖維發育中起關鍵作用[19, 21-22, 28, 32],遺憾的是這些候選基因都未經過基因功能驗證,還不能直接用于棉花產量性狀的改良。
本研究在5個環境及BLUP下檢測到223個QTL與LP相關,89個QTL與BW相關。91個QTL被重復檢測到,88個與LP關聯的QTL中9個與前人研究中共定位(表5),79個為新定位到的QTL;3個與BW關聯的QTL中qBW_Gh7.5與Sun等[20]和Ma等[16]的相關研究結果共定位(表5),其余2個為新定位的QTL。
對在5個環境及BLUP下穩定檢測(3次及以上)到的3個穩定的LP相關QTL進行分析,共鑒定到17個候選基因。在qLP_Gh5.18分析中,共鑒定了7個候選基因。其中,GH_A05G4228編碼LUNG七跨膜受體家族蛋白,Sun等[20]在對LP的研究中定位了1個與GH_A05G4228功能相同的基因,該基因在纖維發育過程中高表達,推測GH_A05G4228可能與纖維發育有關。GH_A05G4223編碼蛋白的序列與參與木質素生物合成的過氧化物酶相似,功能突變缺失表現為木質部纖維發育異常和木質素生物合成酶活性降低,推測該基因可能與纖維發育相關。在qLP_Gh12.43分析中,共發現6個候選基因,GH_A12G2887編碼五肽重復超家族蛋白。TPR在棉纖維發育中的作用機制之一是與肌動蛋白形成復合物控制纖維生長[27],Zhu等[19]報道四肽重復樣超家族蛋白與短纖維突變體(Ligon-lintless)表型相關,并且在開花前3 d至開花后1 d的纖維中高表達,該基因可能與纖維細胞突起有關,進而影響LP性狀。GH_A12G2886編碼R2R3轉錄因子基因家族成員,R2R3轉錄因子家族包括AP2/EREBP家族、MYB家族等,這些轉錄因子在植物的生長發育、脅迫應答等過程中發揮著關鍵作用[34-36]。棉花R2R3-MYB轉錄因子GhMYB25-like和GhMYB3均已被證明調控纖維的發育[36-37]。在qLP_Gh17.2分析中,共定位到4個候選基因,GH_D04G0279編碼1種IAA-氨基合成酶,在體外將天冬氨酸和其他氨基酸結合到生長素上,目前還沒有關于該基因的任何報道。但眾所周知,生長素在植物生長發育過程中起著至關重要的作用,是植物生長的重要調節因子,生長素能促進植物生長,增強植物的抗逆性,提高產量和品質,故推測該基因可能通過影響棉花生長發育,從而影響LP性狀;GH_D04G0280編碼五肽重復超家族蛋白,棉花Gh_A03G0489編碼五肽重復超家族蛋白,該基因中22 bp的缺失突變會降低纖維細胞壁厚度[38],推測GH_D04G0280可能通過調控纖維發育影響LP。
在qBW-Gh7.5區間內定位到5個候選基因,其中GH_A07G2243被重點關注,其編碼AGC激酶家族蛋白,據報道其同源基因在植物中發揮多種功能,包括生長、免疫、細胞凋亡和應激反應。在水稻中AGC基因家族主要與光合作用相關,通過調控光合作用進而影響水稻產量[41]。擬南芥AGC蛋白激酶AGC1-4通過介導細胞增殖和胚胎發育進而影響種子的大小,AGC1-4過表達導致擬南芥種子變小,agc1-4突變體的種子明顯大于野生型[42],因此推測GH_A07G2243可能影響棉花種子發育進而影響鈴重。在qBW_
Gh19.5分析中發現3個候選基因,目前在棉花或其他作物中尚未發現關于這些基因或同源基因的報道。但我們發現GH_D06G2301編碼主要在花粉中參與脂滴生物形成的膜蛋白,因此推測該基因可能通過參與花粉的形成,影響棉花的授粉,進而對棉花的產量具有一定的影響。本研究鑒定的候選基因對產量性狀是否具有調控作用,還需進一步進行功能驗證,才能更有效地指導棉花的育種。
4 結論
利用5個環境下對300份陸地棉的衣分和鈴重及其BLUP值進行全基因組關聯分析,鑒定了3個穩定的衣分相關QTL,在對應區間內挖掘到17個候選基因;鑒定了2個鈴重相關QTL,挖掘到8個候選基因。
參考文獻:
[1] 中國農業科學院棉花研究所. 中國棉花遺傳育種學[M]. 濟南:山東科學技術出版社, 2003.
Institute of Cotton Research, Chinese Academy of Agricultural Sciences. Cotton genetics and breeding in China[M]. Jinan: Shandong Science and Technology Press, 2003.
[2] Zhang Hongbin, Li Yaning, Wang Baohua, et al. Recent advances in cotton genomics[J/OL]. International Journal of Plant Genomics, 2008, 2008: 1-20[2024-03-08]. https://doi.org/
10.1155/2008/742304.
[3] 喻樹迅, 范術麗, 王寒濤, 等. 中國棉花高產育種研究進展[J/OL]. 中國農業科學, 2016, 49(18): 3465-3476[2024-03-08]. https://doi.org/10.3864/j.issn.0578-1752.2016.18.001.
Yu Shuxun, Fan Shuli, Wang Hantao, et al. Progress of high-
yield cotton breeding research in China[J/OL]. Scientia Agricultura Sinica, 2016, 49(18): 3465-3476[2024-03-08]. https://doi.
org/10.3864/j.issn.0578-1752.2016.18.001.
[4] Guo Xian, Guo Yuping, Ma Jun, et al. Mapping heterotic loci for yield and agronomic traits using chromosome segment introgression lines in cotton[J/OL]. Journal of Integrative Plant Biology, 2013, 55(8): 759-774[2024-03-08]. https://doi.org/10.1111/
jipb.12054.
[5] Liu Rezhong, Ai Nijiang, Zhu Xinxia, et al. Genetic analysis of plant height using two immortalized populations of “CRI12×J8891” in Gossypium hirsutum L.[J/OL]. Euphytica, 2014, 196(1): 51-61[2024-03-08]. https://doi.org/10.1007/s10681-013-
1013-0.
[6] Shao Qianshun, Zhang Fengjiao, Tang Shiyi, et al. Identifying QTL for fiber quality traits with three upland cotton (Gossypium hirsutum L.) populations[J/OL]. Euphytica, 2014, 198(1): 43-58[2024-03-08]. https://doi.org/10.1007/s10681-014-1082-8.
[7] Yu Jiwen, Zhang Ke, Li Shuaiyan, et al. Mapping quantitative trait loci for lint yield and fiber quality across environments in a Gossypium hirsutum × Gossypium barbadense backcross inbred line population[J/OL]. Theoretical and Applied Genetics, 2013, 126: 275-287[2024-03-08]. https://doi.org/10.1007/s00122-012-
1980-x.
[8] Ning Zhiyuan, Zhao Rui, Chen Hong, et al. Molecular tagging of a major quantitative trait locus for broad-spectrum resistance to Verticillium wilt in upland cotton Cultivar prema[J/OL]. Crop Science, 2013, 53(6): 2304-2312[2024-03-08]. https://doi.org/
10.2135/cropsci2012.12.0694.
[9] Islam M S, Zeng LH, Thyssen G N, et al. Mapping by sequencing in cotton (Gossypium hirsutum) line MD52ne identified candidate genes for fiber strength and its related quality attributes[J/OL]. Theoretical and Applied Genetics, 2016, 129: 1071-1086[2024-
03-08]. https://doi.org/10.1007/s00122-016-2684-4.
[10] 張雁明, 邢國芳, 劉美桃, 等. 全基因組關聯分析: 基因組學研究的機遇與挑戰[J]. 生物技術通報, 2013(6): 1-6.
Zhang Yanming, Xing Guofang, Liu Meitao, et al. Genome wide association study: opportunities and challenges in genomic research[J]. Biotechnology Bulletin, 2013(6): 1-6.
[11] Shao Panxia, Peng Yabin, Wu Yuanlong, et al. Genome-wide association study and transcriptome analysis reveal key genes controlling fruit branch angle in cotton[J/OL]. Frontiers in Plant Science, 2022, 13: 9988647[2024-03-08]. https://doi.org/10.3389/fpls.2022.988647.
[12] Ye Yulu, Wang Peilin, Zhang Man, et al. UAV-based time series phenotyping reveals the genetic basis of plant height in upland cotton[J/OL]. The Plant Journal, 2023, 115(4): 937-951[2024-03-08]. https://doi.org/10.1111/TPJ.16272.
[13] Fang Lei, Wang Qiong, Hu Yan, et al. Genomic analyses in cotton identify signatures of selection and loci associated with fiber quality and yield traits[J/OL]. Nature Genetics, 2017, 49(7): 1089-1098[2024-03-08]. https://doi.org/10.1038/ng.3887.
[14] Sarfraz Zareen, Iqbal Muhammad Shahid, Geng Xiaoli, et al. GWAS mediated elucidation of heterosis for metric traits in cotton (Gossypium hirsutum L.) across multiple environments[J/OL]. Frontiers in Plant Science, 2021, 12: 565552[2024-03-
08]. https://doi.org/10.3389/fpls.2021.565552.
[15] Sun Zhengwen, Wang Xingfen, Liu Zhengwen, et al. Genome-
wide association study discovered genetic variation and candidate genes of fibre quality traits in Gossypium hirsutum L.[J/OL]. Plant Biotechnology Journal, 2017, 15(8): 982-996[2024-03-08]. https://doi.org/10.1111/pbi.12693.
[16] Ma Zhiying, He Shoupu, Wang Xingfen, et al. Resequencing a core collection of upland cotton identifies genomic variation and loci influencing fiber quality and yield[J/OL]. Nature Genetics, 2018, 50(6): 803-813[2024-03-08]. https://doi.org/10.1038/s41588-018-0119-7.
[17] Ulloa M, De Santiago L M, Hulse-Kemp A M, et al. Enhancing upland cotton for drought resilience, productivity, and fiber quality: comparative evaluation and genetic dissection[J/OL]. Molecular Genetics and Genomics, 2020, 295: 155-176[2024-
03-08]. https://doi.org/10.1007/s00438-019-01611-6.
[18] 韓貝, 王旭文, 李保奇, 等. 陸地棉種質資源抗旱性狀的關聯分析[J/OL]. 作物學報, 2021, 47(3): 438-450[2024-03-08]. https://doi.org/10.3724/SP.J.1006.2021.04063.
Han Bei, Wang Xuwen, Li Baoqi, et al. Association analysis of drought tolerance traits of upland cotton accessions (Gossypium hirsutum L.)[J/OL]. Acta Agronomica Sinica, 2021, 47(3): 438-450[2024-03-08]. https://doi.org/10.3724/SP.J.1006.2021.
04063.
[19] Zhu Guozhong, Hou Sen, Song Xiaohui, et al. Genome-wide association analysis reveals quantitative trait loci and candidate genes involved in yield components under multiple field environments in cotton (Gossypium hirsutum)[J/OL]. BMC Plant Biology, 2021, 21(1): 250-250[2024-03-08]. https://doi.org/10.1186/S12870-021-03009-2.
[20] Sun Zhengwen, Wang Xingfen, Liu Zhengwen, et al. A genome-
wide association study uncovers novel genomic regions and candidate genes of yield-related traits in upland cotton[J/OL]. Theoretical and Applied Genetics, 2018, 131: 2413-2425[2024-
03-08]. https://doi.org/10.1007/s00122-018-3162-y.
[21] Song Chengxiang, Li Wei, Pei Xiaoyu, et al. Dissection of the genetic variation and candidate genes of lint percentage by a genome-wide association study in upland cotton[J/OL]. Theoretical and Applied Genetics, 2019, 132: 1991-2002[2024-
03-08]. https://doi.org/10.1007/s00122-019-03333-0.
[22] Wang Yuanyuan, Guo Xinlei, Xu Yanchao, et al. Genome-wide association study for boll weight in Gossypium hirsutum races[J/OL]. Functional amp; Integrative Genomics, 2023, 23(4): 331[2024-03-08]. https://doi.org/10.1007/S10142-023-01261-3.
[23] Huang Cong, Nie Xinhui, Shen Chao, et al. Population structure and genetic basis of the agronomic traits of upland cotton in China revealed by a genome-wide association study using high-density SNPs[J/OL]. Plant Biotechnology Journal, 2017, 15(11): 1374-1386[2024-03-08]. https://doi.org/10.1111/pbi.
12722.
[24] 杜雄明, 周忠麗. 棉花種質資源描述規范和數據標準[M]. 北京: 中國農業出版社, 2005.
Du Xiongming, Zhou Zhongli. Cotton germplasm resources description specification and data standard[M]. Beijing: China Agricultural Press, 2005.
[25] Zhou Xiang, Stephens M. Genome-wide efficient mixed-model analysis for association studies[J/OL]. Nature Genetics, 2012, 44(7): 821-824[2024-03-08]. https://doi.org/10.1038/ng.2310.
[26] Li MX, Yeung J M Y, Cherny S S, et al. Evaluating the effective numbers of independent tests and significant p-value thresholds in commercial genotyping arrays and public imputation reference datasets[J/OL]. Human Genetics, 2012, 131(5): 747-756[2024-03-08]. https://doi.org/10.1007/s00439-011-
1118-2.
[27] Yasir M, Kanwal H H, Hussain Q, et al. Status and prospects of genome-wide association studies in cotton[J/OL]. Frontiers in Plant Science, 2022, 13: 1019347[2024-03-08]. https://doi.org/
10.3389/FPLS.2022.1019347.
[28] 王娟, 馬曉梅, 周小鳳, 等. 棉花產量構成因素性狀的全基因組關聯分析[J/OL]. 中國農業科學, 2022, 55(12): 2265-2277[2024-03-08]. https://doi.org/10.3864/j.issn.0578-1752.2022.
12.001.
Wang Juan, Ma Xiaomei, Zhou Xiaofeng, et al. Genome-wide association analysis of yield component traits in cotton[J/OL]. Scientia Agricultura Sinica, 2022, 55(12): 2265-2277[2024-
03-08]. https://doi.org/10.3864/j.issn.0578-1752.2022.12.001.
[29] Lon R C, Lyle J P. Population stratification and spurious allelic association[J/OL]. The Lancet, 2003, 361(9357): 598-604[2024-
03-08]. https://doi.org/10.1016/S0140-6736(03)12520-2.
[30] Zhao N, Wang W R, Grover C E, et al. Genomic and GWAS analyses demonstrate phylogenomic relationships of Gossypium barbadense in China and selection for fibre length, lint percentage and Fusarium wilt resistance[J/OL]. Plant Biotechnology Journal, 2021, 20(4): 691-710[2024-03-08]. https://doi.org/
10.1111/pbi.13747.
[31] 馬艷明, 婁鴻耀, 張勝軍, 等. 新疆冬小麥品種資源主要產量性狀全基因組關聯分析[J/OL]. 中國農業科學, 2023, 56(18): 3487-3499[2024-03-08]. https://doi.org/10.3864/j.issn.0578-
1752.2023.18.001.
Ma Yanming, Lou Hongyao, Zhang Shengjun, et al. Genome-
wide association analysis of major yield traits of winter wheat varietal resources in Xinjiang[J/OL]. Scientia Agricultura Sinica, 2023, 56(18): 3487-3499[2024-03-08]. https://doi.org/10.3864/
j.issn.0578-1752.2023.18.001.
[32] Su Junji, Wang Caixiang, Ma Qi, et al. An RTM-GWAS procedure reveals the QTL alleles and candidate genes for three yield-related traits in upland cotton[J/OL]. BMC Plant Biology, 2020, 20(1): 416-416[2024-03-08]. https://doi.org/10.1186/
s12870-020-02613-y.
[33] Zubair I, Muhammad S I, Salman A, et al. Genome-wide association study reveals novel genes on different chromosomal positions regulating boll weight in upland cotton (Gossypium hirsutum L.)[J/OL]. Genetic Resources and Crop Evolution, 2023, 71(2): 785-799[2024-03-08]. https://doi.org/10.1007/
s10722-023-01657-x.
[34] Liu Chunxiao, Zhang Tianzhen. Expansion and stress responses of the AP2/EREBP superfamily in cotton[J/OL]. BMC Genomics, 2017, 18(1): 118[2024-03-08]. https://doi.org/10.1186/s12864-
017-3517-9.
[35] Gates D J, Strickler S R, Mueller L A, et al. Diversification of R2R3-MYB transcription factors in the tomato family solanaceae[J/OL]. Journal of Molecular Evolution, 2016, 83(1/2): 26-37[2024-03-08]. https://doi.org/10.1007/s00239-016-9750-z.
[36] Shangguan X, Yang Q, Wu X, et al. Function analysis of a cotton R2R3 MYB transcription factor GhMYB3 in regulating plant trichome development[J/OL]. Plant Biology, 2021, 23(6): 1118-1127[2024-03-08]. https://doi.org/10.1111/PLB.13299.
[37] Hu Haiyan, He Xin, Tu Lili, et al. GhJAZ2 negatively regulates cotton fiber initiation by interacting with the R2R3-MYB transcription factor GhMYB25-like[J/OL]. The Plant Journal, 2016, 88(6): 921-935[2024-03-08]. https://doi.org/10.1111/tpj.13273.
[38] Thyssen G N, Fang D D, Zeng L H, et al. The immature fiber mutant phenotype of cotton (Gossypium hirsutum) is linked to a 22-bp frame-shift deletion in a mitochondria targeted pentatricopeptide repeat gene[J/OL]. G3: Genes, Genomes, Genetics, 2016, 6(6): 1627-1633[2024-03-08]. https://doi.org/10.1534/
g3.116.027649.
[39] Nazir M F, Jia Y H, Ahmed H, et al. Genomic insight into differentiation and selection sweeps in the improvement of upland cotton[J/OL]. Plants, 2020, 9(6): 711[2024-03-08]. https://doi.org/10.3390/plants9060711.
[40] 侯森. 陸地棉耐旱及產量相關性狀的全基因組關聯分析與優異等位變異挖掘[D]. 南京: 南京農業大學, 2021.
Hou Sen. Genome-wide association analysis and superior allelic variation mining for drought tolerance and yield-related traits in land cotton[D]. Nanjing: Nanjing Agricultural University, 2021.
[41] Jiang Yifei, Liu Xuhui, Zhou Mingao, et al. Genome-wide identification of the AGC protein kinase gene family related to photosynthesis in rice (Oryza sativa)[J/OL]. International Journal of Molecular Sciences, 2022, 23(20): 12557-12557[2024-03-08]. https://doi.org/10.3390/IJMS232012557.
[42] Zhang Yuying, Yao Wangjinsong, Wang Fang, et al. AGC protein kinase AGC1-4 mediates seed size in Arabidopsis[J/OL]. Plant Cell Reports, 2020, 39(6): 1-13[2024-03-08]. https://doi.org/10.1007/s00299-020-02533-z.
(責任編輯:王國鑫 責任校對:王小璐)