郭丹丹 李保云
(中國農業大學 農學院/北京市作物遺傳改良重點實驗室/教育部作物雜種優勢研究與利用重點實驗室,北京 100193)
小麥是世界上重要的三大糧食作物之一。小麥具有面筋蛋白,所以能夠被加工成面條、面包、饅頭和餅干等各種面食品。面筋蛋白主要由單體形式的醇溶蛋白和多聚體形式的谷蛋白組成。根據在酸性聚丙烯酰胺凝膠電泳(Acid polyacrylamide-gel electrophoresis,A-PAGE)中遷移率的不同,醇溶蛋白可分為α-、β-、γ-和ω-醇溶蛋白4種類型,其中α-、β-、γ-醇溶蛋白中脯氨酸、苯丙氨酸和谷氨酰胺的含量較少,但是含硫氨基酸較多,因此被稱為富硫醇溶蛋白,其中的半胱氨酸是維持單肽及肽鏈間二硫鍵的重要因素;而ω-醇溶蛋白通常不含半胱氨酸,無法參與鏈內或鏈間二硫鍵的形成,多數只含1個甲硫氨酸殘基,因此被稱為貧硫醇溶蛋白,有少數ω-醇溶蛋白含有奇數個半胱氨酸殘基,能夠參與谷蛋白聚合體的形成,導致面粉的品質變劣[1-3]。醇溶蛋白含有能夠誘發麩質不耐受人群乳糜瀉(Celiac disease,CD)疾病的肽段,主要類型是α-、β-和γ-醇溶蛋白,在ω-醇溶蛋白中也含有部分肽段[4]。通過RNAi介導使醇溶蛋白含量降低或沉默,能夠在不影響總蛋白和淀粉含量的前提下達到降低CD毒性的目的[5]。因此克隆ω-醇溶蛋白基因對小麥品質的遺傳改良具有重要意義。
ω-醇溶蛋白基因的基本結構,包括信號肽、N末端非重復區、占肽段90%~96%的中間重復區及C末端非重復區4部分[6]。六倍體小麥可能含有 15~18 個ω-醇溶蛋白基因[7],編碼基因位于第1部分同源染色體短臂上[8],由1A、1D染色體基因編碼的蛋白在A-PAGE上的遷移率較慢,稱為ω1,2-醇溶蛋白(46~58 ku),推導的氨基酸序列N末端前3個通常為ARE/Q或KEL;由1B染色體基因編碼的蛋白在A-PAGE上的遷移率較快,稱為ω5-醇溶蛋白(55~65 ku),N末端前3個氨基酸為SRL[9-10]。ω1,2-醇溶蛋白在中間重復區的重復單元類型與ω5-醇溶蛋白有明顯區別,這種差異也表現在氨基酸組成上,ω1,2-醇溶蛋白的谷氨酰胺與脯氨酸殘基個數比為4∶3,而ω5-醇溶蛋白的比值為5∶2[11]。
ω-醇溶蛋白基因最早被克隆,是由于與γ-醇溶蛋白具有交叉雜交的性質,才會在對γ-醇溶蛋白基因進行克隆時被鑒定到[12]。利用電泳或RP-UPLC等方法對醇溶蛋白分離后回收,再進行N末端測序或質譜鑒定也鑒定到一些醇溶蛋白[13-14]。通過免疫化學方法制備特定醇溶蛋白的單克隆抗體,對ω-醇溶蛋白的分離和鑒定也發揮了重要作用[14]。通過基因組水平、轉錄水平和蛋白水平相結合的方法在二倍體祖先種烏拉爾圖小麥中鑒定到2個ω-醇溶蛋白基因及其蛋白[4]。同樣,利用三代全長轉錄組測序技術結合質譜技術,也鑒定到六倍體普通小麥品種‘小偃81’中有5個能夠表達的ω-醇溶蛋白[15];通過將‘中國春’基因組進行De Novo BioNano組裝,結合RNA-seq數據同樣獲得19條ω-醇溶蛋白基因的序列信息[16]。目前對小麥高分子量谷蛋白亞基(High molecular weight glutenin subunit, HMW-GS)和低分子量谷蛋白亞基(Low molecular weight glutenin subunit, LMW-GS)基因的調控研究已經較為深入[17-20]。但是,ω-醇溶蛋白基因家族龐大,相似性較高,假基因比例高,基因中間重復區含有較多的重復單元,GC含量較高,這些因素導致相關研究更加困難。已有研究多數集中在區分不同ω-醇溶蛋白及其基因的差異,對不同ω-醇溶蛋白基因啟動子的差異比較研究報道較少,本研究以春小麥‘Fielder’為材料,通過PCR和克隆測序法分離ω-醇溶蛋白基因,分析編碼區和啟動子序列差異,旨在探明小麥中不同ω-醇溶蛋白基因的啟動子序列差異,以期為ω-醇溶蛋白基因的轉錄調控機理研究奠定基礎。
本試驗所用六倍體普通小麥(TriticumaestivumL.) 品種‘Fielder’和‘中國春’(CS)均由本實驗室保存。
1.2.1蛋白質提取
取1粒小麥種子充分碾碎,置于1.5 mL離心管中,加入800 μL 75%乙醇,室溫震蕩過夜,提取醇溶蛋白。
1.2.2A-PAGE的制備及電泳
采用FeSO4-Vc-H2O2催化系統制備A-PAGE[21],500 V穩壓電泳3.5 h,對醇溶蛋白進行分離。
1.2.3DNA提取
將小麥種子播種在培養皿上,暗培養1周左右,取4葉1心期的葉片,用CTAB法提取基因組DNA。
1.2.4引物設計及擴增
根據已經公布的‘CS’ω-醇溶蛋白基因上下游序列[16],分別設計能夠擴增不同基因組上的ω-醇溶蛋白基因及啟動子的引物,詳見表1。
其中上游引物位于ω-醇溶蛋白基因起始密碼子上游1 kb左右;下游引物位于終止密碼子下游100 bp左右。
采用大連寶生物(Takara)公司的Tks GflexTMDNA Polymerase高保真酶,按說明書進行PCR擴增。

表1 ω-醇溶蛋白基因編碼區和啟動子克隆引物及測序引物Table 1 The ω-gliadin genes cloning primers andsequencing primers
1.2.5目的片段回收與連接轉化
將擴增產物在1%瓊脂糖凝膠上進行分離,用瓊脂糖凝膠回收試劑盒(北京天根生化科技有限公司)回收目的條帶,與pEasy-Blunt Zero載體(北京全式金生物公司)連接,將連接產物轉化大腸桿菌Trans-T1感受態細胞(北京全式金生物公司),涂布于含卡那霉素(Kan)的LB培養基上,37 ℃倒置培養過夜。
1.2.6重組克隆篩選
挑取一定數量的單克隆,用M13引物進行菌落PCR檢測,將陽性克隆送北京擎科生物科技有限公司測序。首先用載體上的M13F和M13R引物進行測序,再根據ω-醇溶蛋白基因非重復區差異設計引物,對不同基因組的ω-醇溶蛋白基因進行測序,引物信息詳見表1。
1.2.7序列分析
采用NCBI(https:∥www.ncbi.nlm.nih.gov/)和DNAMAN軟件對測序結果進行比對、拼接及翻譯。利用MegaX軟件(https:∥www.megasoftware.net/)進行系統發生樹的構建,啟動子序列提交PlantCARE網站(http:∥bioinformatics.psb.ugent.be/webtools/plantcare/html/)進行motif分析。
提取‘CS’和‘Fielder’種子的醇溶蛋白進行A-PAGE。從圖1看出,2個材料的ω-醇溶蛋白譜帶差異較大。‘CS’在ω1,2-醇溶蛋白區有2條帶;在ω5-醇溶蛋白區有3條帶,其中有2條帶非常接近,共5條ω-醇溶蛋白條帶。‘Fielder’在ω1,2-醇溶蛋白區有2條帶,并且這2條帶的遷移率與‘CS’非常接近;在ω5-醇溶蛋白區有5條帶,其中有2條帶非常接近,共7條ω-醇溶蛋白條帶。

α-、β-、γ-和ω-分別表示按遷移率不同劃分的4組醇溶蛋白類型;ω1,2-和ω5-分別為ω-醇溶蛋白的2種類型。1和2分別為‘Fielder’和‘CS’。α-, β-, γ- and ω- are the four types of wheat gliadin;ω1,2- and ω5- are the two types of ω-gliadin. Lane 1 and 2 are ‘Fielder’ and ‘CS’.圖1 小麥種子醇溶蛋白的A-PAGEFig.1 The A-PAGE of wheat grain gliadin
利用3組ω-醇溶蛋白基因特異引物(表1),以‘Fielder’的基因組DNA為模板進行PCR擴增,得到約2 kb左右的目的條帶(圖2)。將目的條帶回收后,連接T載體并轉化至大腸桿菌中,挑選陽性單克隆進行序列測定,共獲得11種序列。將這些序列在NCBI網站進行Blast,相似性較高的是ω-醇溶蛋白基因,進一步分析發現這些序列含有ω-醇溶蛋白基因的基本結構,即均為ω-醇溶蛋白基因及其啟動子序列(GenBank登錄號:MN441496~MN441506)。
這些基因序列可以分為2組,ARE/Q和SRL型ω-醇溶蛋白基因。編碼區長度、推導的氨基酸數目以及重復單元種類和數量各不相同(表2)。
ARE/Q型ω-醇溶蛋白基因編碼區長度范圍在 972 ~1 158 bp,推導的氨基酸主要含有PQQPFP和PFPQQPQQ這2種類型的重復單元;SRL型ω-醇溶蛋白基因編碼區的長度變異范圍為1 303~1 419 bp,主要重復單元為FPQQQ和PQQQFP。

M,1 kb ladder,1、2和3分別為ωA、ωB和ωD引物的擴增產物。M is 1 kb ladder. Lane 1, 2 and 3 show the amplifications of primer pairs of ωA, ωB and ωD, respectively.圖2 ω-醇溶蛋白基因擴增產物Fig.2 The amplification of ω-gliadin genes

表2 ω-醇溶蛋白基因及推導的氨基酸序列比較Table 2 The comparison of gene and deduced amino acid sequences of ω-gliadin
2.2.1ω-醇溶蛋白基因編碼區分析
A和D基因組上的ω-醇溶蛋白基因相似性較高,從‘Fielder’中利用基因組特異性引物共擴增得到的ARE和ARQ型ω-醇溶蛋白基因序列分別有3種(表2),不同類型和數量的Indel是造成不同基因編碼區長度變異的主要因素。其中MN441497和MN441505的編碼區長度最長,為1 158 bp。在其余4種ARE/Q型基因序列中,共有5種類型的Indel,長度分別為15、18、24、48和123 bp(圖3)。MN441503中含有123、48和15 bp 3種類型Indel;MN441504中含有18、48和15 bp 3種類型Indel;MN441496中只含有18 bp的Indel;MN441506中只含有24 bp的Indel。共有70處SNP位點分布于這6種ω-醇溶蛋白基因序列之間,其中22個SNP為同義突變,48個SNP為非同義突變。這些Indel堿基數均為3的倍數,SNP變異也沒有引入額外的終止密碼子,因此6種ARE/Q型ω-醇溶蛋白基因序列均含有完整編碼框。不同長度和數量的Indel組合以及不同的SNP變異,使基因呈現多態性。其中MN441496和MN441497只有18 bp Indel的差異。

圖3 ARE/Q型和SRL型ω-醇溶蛋白基因模式圖Fig.3 The schematic diagram of ARE/Q and SRL type ω-gliadin genes
MN441499在135 bp處有1個18 bp的Indel,在151 bp處插入了1個堿基A,導致推導的氨基酸序列與醇溶蛋白相似性較低,推測其可能為移碼突變的假基因。在另外4種SRL型ω-醇溶蛋白基因的中間重復區共發現了3種類型的Indel(圖3)。MN441500和MN441502在303 bp處均有1個3 bp的Indel,MN441498、MN441499、MN441500和MN441501在相距12 bp后的位置有1個18 bp的Indel,MN441498、MN441499、MN441501和MN441502在相距552 bp后的位置有1個102 bp的Indel,這些Indel堿基數均是3的倍數,沒有引起移碼突變。在4種SRL型ω-醇溶蛋白基因中共發現27個SNP位點,其中有7個SNP為同義突變,17個為非同義突變。還有3個位點的SNP引入了提前終止密碼子,造成推導的氨基酸序列變短,其中1個SNP位點位于MN441498序列ATG下游1 260 bp處,三聯體密碼子TAC突變為TAA;另外2個位點位于MN441501序列編碼區274和 1 279 bp 處,編碼脯氨酸的密碼子CAG和CAA突變為終止密碼子TAG和TAA。
2.2.2ω-醇溶蛋白基因的進化樹分析
將克隆的ω-醇溶蛋白基因序列在NCBI的NR數據庫中進行Blast,并與44條來源于不同小麥屬具有完整編碼框的ω-醇溶蛋白基因構建Neighbor-joining系統發生樹。從圖4可知,系統發生樹被分成2個分支,6種ARE/Q型ω-醇溶蛋白基因主要與普通小麥(TriticumaestivumL.)、山羊草屬(AegilopstauschiiL.)、烏拉爾圖小麥(TriticumurartuL.)及圓錐小麥(TriticumturgidumL.)中的ω-醇溶蛋白基因聚類在1個大分支上,而4種SRL型ω-醇溶蛋白基因主要與普通小麥(TriticumaestivumL.)和二粒小麥(TriticumdicoccoidesL.)中的ω-醇溶蛋白基因聚在1個分支上。通過進化樹分析可以看到ARE/Q型ω-醇溶蛋白基因在進化上與SRL型ω-醇溶蛋白基因相對獨立。
2.2.3ω-醇溶蛋白基因啟動子分析
ω-醇溶蛋白基因與小麥中其他儲藏蛋白基因啟動子區類似[17-18,22],ATG上游序列包含有許多保守的motif,其中ARE/Q型ω-醇溶蛋白基因啟動子含有29種motif;SRL型ω-醇溶蛋白基因啟動子含有27種motif(表3),相同的motif有19種,但是分布的位置不同,這些motif是SPA、MYB、DOF和B3等重要轉錄因子的識別序列。
在ARE/Q型ω-醇溶蛋白基因中,MN441496和MN441497、MN441503和MN441504以及MN441505和MN441506的啟動子序列分別相同,SRL型ω-醇溶蛋白基因的5種啟動子序列均不相同。ARE/Q和SRL型基因啟動子序列差異較大(表3),但是存在保守的motif組合,比如P-box和N-motif組成的endosperm box只出現在ARE/Q型醇溶蛋白基因啟動子序列的-300 bp處,但出現在SRL型醇溶蛋白基因啟動子序列的-300 bp和 -600 bp 處。有些motif只特定出現在1種序列中,比如ARE/Q型ω-醇溶蛋白基因-137、-172、-389、-498、-499、-675、-946和-968 bp處的motif,SRL型-187、-367、-626和-933 bp處的motif。這些motif出現在不同基因啟動子的不同位置,可能會對基因的表達產生不同的影響。

數字表示可信度。The numbers in the figure indicate the credibility.圖4 克隆的ω-醇溶蛋白基因與非冗余ω-醇溶蛋白基因進化樹分析Fig.4 Phylogenic tree analysis based on the cloned genes and non-redundant ω-gliadins

表3 ARE/Q和SRL型醇溶蛋白基因啟動子區保守motif分布Table 3 The distribution of conserved motif in ARE/Q and SRL type ω-gliadin genes promoter region

表3(續)
不同小麥材料中的ω-醇溶蛋白基因拷貝數不同,研究表明,六倍體普通小麥中的ω-醇溶蛋白基因數量在15~18個[7]。根據重新組裝的基因組信息、2-DE(雙向蛋白電泳)和RNA-seq信息,‘CS’共有5種能夠轉錄并且表達的ω-醇溶蛋白基因[16],因此在A-PAGE上可以看到5條清晰的ω-醇溶蛋白條帶(圖1)。‘Fielder’在A-PAGE上共有7條ω-醇溶蛋白條帶,推測至少應有7種能夠表達的ω-醇溶蛋白,因此根據‘CS’中ω-醇溶蛋白基因的上下游序列信息,對‘Fielder’中的ω-醇溶蛋白基因的編碼區和啟動子序列進行克隆,共得到了11條序列,其中1條為移碼突變的假基因,2條含有提前終止密碼子,8條具有完整編碼框。由于ω-醇溶蛋白有限的水解位點,質譜分析相對困難[23],更為重要的是ω-醇溶蛋白基因等位變異廣泛,但數據庫中完整的基因數量較少,大部分預測的蛋白分子量較小,可能是丟失了一部分中間重復區[10]。本研究采用單克隆測序的方法,能夠準確知道每條DNA序列的長度,并且通過拼接不同位置的測序結果,大大降低了缺失中間重復區的可能。這種通過簡單的PCR進行克隆的方法,避免了2-DE和質譜等繁瑣的試驗過程,即可獲得ω-醇溶蛋白基因序列,簡單易行且成本較低。缺點是需要避開高GC含量的中間重復區設計出合適的引物進行測序,并且由于重復單元較多,需要設計多對引物對測序結果反復驗證,避免拼接結果缺失部分重復單元,另外得到的基因序列并不能與A-PAGE上的條帶一一對應。
含奇數個半胱氨酸的醇溶蛋白可能作為鏈內終止劑,參與谷蛋白大聚體的形成[3]。本研究克隆的ω-醇溶蛋白基因中,MN441506推導的氨基酸序列含有1個半胱氨酸和甲硫氨酸,MN441502在C末端含有1個半胱氨酸,這2個ω-醇溶蛋白可能通過分子間二硫鍵對谷蛋白大聚體的形成及穩定性產生影響,進而影響小麥品質性狀。
Glu-1基因啟動子中的順式作用元件可以組成保守的順式作用調控模塊(conserved cis-regulatory modules,CCRM)對基因表達進行精確調控,并且表達量較高的x-型HMW-GS除了保守的CCRM外,還含有能夠被R2R3-MYB轉錄因子識別的motif[16,22]。LMW-GS基因啟動子也含有保守的非編碼調控元件,大部分的s-和i-型LMW-GS基因呈現逐漸增加的表達模式,而m-型LMW-GS基因則呈先升高再降低的表達模式,不同基因表達模式的差異與啟動子區motif的數量和分布密切相關[17]。本研究克隆的ω-醇溶蛋白基因啟動子區也含有大量保守的motif,不同種類基因之間motif的數量和分布不同(表3),相同種類基因之間也在一些motif上有差異。其中由GCN4和P-box這2種motif組成的endosperm box對儲藏蛋白基因的表達起到非常重要的作用,LMW-GS基因啟動子區GCN4和P-box motif的數量和組合多態性使同一類型的基因呈現不同的表達模式[17]。在本研究克隆的ω-醇溶蛋白基因中也發現了類似的現象,ω1,2-醇溶蛋白基因啟動子區含有這2種motif組成的3種組合類型,每種類型所含的motif種類和數量不同。ω1,2-醇溶蛋白基因啟動子只含有1個典型的endosperm box,而ω5-醇溶蛋白基因則含有2個。這些motif的組合形式也可能會造成ω-醇溶蛋白基因之間的差異表達,有待進一步研究。