陳 渏,楊雅麗, 陳 旭, 王 杰, 周嘉裕, 廖 海
(西南交通大學 生命科學與工程學院,四川 成都 610031)
新型冠狀病毒(SARS-CoV-2)是繼重癥急性呼吸綜合征冠狀病毒(SARS-CoV)與中東呼吸綜合征冠狀病毒(MERS-CoV)之后出現的又一種高傳染性冠狀病毒。SARS-CoV-2的基因組中至少含有6個開放閱讀框,分別編碼S-蛋白(spike protein)、M膜蛋白、E包膜蛋白、N核衣殼蛋白以及多種復制轉錄酶。其中,S-蛋白能夠與人體細胞表面的血管緊張素轉換酶2(ACE2)發生特異性相互作用,決定了SARS-CoV-2入侵宿主的親和能力及組織特異性[1-2]。由于ACE2廣泛分布于人類呼吸道、心臟、腎臟、睪丸與胃腸道,推測SARS-CoV-2的作用靶器官可能多樣化[3-5]。相較于SARS-CoV,SARS-CoV-2傳染性更強,推測其與S-蛋白和ACE2的親和力更高[6-7]。比較SARS-CoV-2與SARS-CoV的S-蛋白,發現有27處氨基酸殘基發生了改變,其中有6個氨基酸位于受體結合區(Receptor binding domain,RBD)。這些改變有可能賦予新型冠狀病毒的S-蛋白獨特的三維結構特性,進而影響(或增強)其與ACE2 的相互作用。與此同時,由于S-蛋白在侵染過程中的核心地位,其成為預防及治療新型冠狀病毒的單抗或疫苗開發的重要靶點。例如,Yang等[8]獲得了靶向RBD(位于S-蛋白的319~545位氨基酸殘基)的重組疫苗,能夠有效抑制RBD與ACE2的結合,從而阻斷SARS-Cov-2假病毒和SARS-Cov-2活病毒的感染。Zhu等[9]利用攜帶S-蛋白基因的腺病毒載體,注射入人體后,誘導產生S-蛋白抗體。為了更好地開展S-蛋白的結構與功能研究,篩選更有效的SARS-CoV-2疫苗與抗體,急需建立S-蛋白的高效表達體系,確??蒲腥藛T獲得足量的S-蛋白。然而,不同生物常常具有不同的密碼子偏好性,往往傾向于使用一種或幾種特定的同義密碼子。分析密碼子偏好性,從中篩選最優密碼子,對于提高重組蛋白質的表達效率是不可或缺的。此外,密碼子的偏好性分析對揭示物種間或某一物種家族間的基因進化規律也具有指導價值[10]。本研究從NCBI中收集包括SARS-CoV-2在內的71條(51條SARS-CoV-2,20條其他類型的冠狀病毒)S-蛋白的CDS序列,對其開展密碼子偏好性分析,最后進行了初步的密碼子優化與表達驗證,旨在為S-蛋白基因的重組表達篩選最適表達系統,并從密碼子偏好性的角度,對SARS-CoV-2開展系統進化分析。
數據來源 S-蛋白基因來源于GenBank(http://www.ncbi.nlm.nih.gov/genbank/),登錄序號見表1。大腸埃希菌(Escherichiacoli)、酵母菌(Saccharomycescerevisiae)等模式生物的基因組密碼子偏好性數據來源于密碼子使用數據庫(Codon Usage Database)(http://www.kazusa.or.jp/codon/)。分析51條SARS-CoV-2病毒的S-蛋白基因序列,發現其核苷酸序列高度相似(大于99%),因此選取1條具有代表性的序列(如2019新冠病毒MN908947.3)開展后續分析。

表1 冠狀病毒S-蛋白基因序列編號
1.2.1 S-蛋白基因的密碼子偏好性分析 采用 CodonW 軟件和EMBOSS在線程序對冠狀病毒S-蛋白的RSCU、有效密碼子數(Effective Number of Codon, ENc)、密碼子 G/C 含量 GC、密碼子第三位 G/C 含量 GC3s、密碼子適應指數(Codon adaptation index,CAI)等密碼子偏好性參數進行了統計分析。RSCU被定義為在編碼氨基酸的若干同義密碼子中,某一特定密碼子的相對使用概率。若RSCU 為1,則表明該密碼子無偏好性;若其值大于1,則表明其相對使用頻率較高;若其值小于1,則說明其相對使用頻率較低[11-12]。ENc 值能夠反映密碼子家族中同義密碼子非均衡使用的偏好程度,其值介于 20~61 之間,越接近于 20,說明偏好性越強。用各個冠狀病毒基因的ENc及GC3s值構建散點圖和ENc-GC3s期望曲線(ENc=2+GC3s+29/[GC3s2+(1-GC3s)2]),各點與期望曲線的相對位置可以反映出密碼子偏好性的形成是由于堿基突變還是自然選擇[13-15]。若某一基因的密碼子偏好性受堿基突變影響較大時,其 ENc-GC3s 點將分布于期望曲線附近;若其受自然選擇影響較大時,則會分布在偏離期望曲線較遠的位置[16-18]。
1.2.2 S-蛋白基因的系統進化樹及基于RSCU值的相關聚類分析 通過MEGA軟件,采用鄰接法(Neighbor-joining)構建冠狀病毒S-蛋白基因的系統進化樹,重復次數設為1 000。利用SPSS軟件組間聯結法對各基因的RSCU值進行系統聚類分析。
1.2.3 適合S-蛋白基因表達的外源宿主 利用Codon W計算大腸埃希菌、酵母、λ噬菌體等模式生物基因組的密碼子使用頻率,并利用SPSS軟件與SARS-CoV-2的S-蛋白基因的密碼子使用頻率進行比較,確定其合適的外源表達系統和遺傳轉化受體。
1.2.4 新冠病毒S-蛋白的RBD區域的原核表達 參考大腸埃希菌基因組的密碼子偏好性,對S-蛋白的RBD(Arg128至Pro398,共271個氨基酸殘基)區域進行密碼子優化,同時在RBD區域的5′-端引入EcoR Ⅰ酶切位點,3′-端引入TAA終止密碼與XhoⅠ酶切位點,由南京集思慧遠生物科技有限公司完成該RBD片段全合成。合成的RBD片段與pGEX-4T-1載體經EcoR Ⅰ與XhoⅠ雙酶切、連接形成pGEX-4T-1-RBD重組載體。提取pGEX-4T-1-RBD重組載體,轉化大腸埃希菌Arctic-Express,37 ℃、200 r/min培養至菌液OD值0.6~0.7,加入IPTG 使其終濃度為0.5 mmol/L,11 ℃、160 r/min誘導表達12 h。表達完成后,培養物在室溫條件下,10 000 r/min,10 min離心2次,棄上清,用 PBS重懸菌體沉淀。重懸液進行超聲波破碎后,分別取上清液(10 μL)與沉淀液加入上樣緩沖液重懸。最后采用12% SDS-PAGE和考馬斯亮藍染色檢測。
基于21條冠狀病毒S-蛋白基因的RSCU值制作熱圖(圖1)。結果顯示有28個密碼子具有偏好性,分別為UUU、UUA、UUG、UCU、UCA、UAU、UAA、UGU、CUU、CCU、CCA、CAU、CAA、CGU、AUU、ACU、ACA、AAU、AAA、AGU、AGA、AGG、GUU、GCU、GCA、GAU、GAA和GGU。其中RSCU≥2的有CCU、GUU與GGU,最優密碼子為UAA,其RSCU值為3.00,表明冠狀病毒傾向于UAA作為終止密碼子。RSCU≤0.5的密碼子有17個,分別為UUC、UCG、CUA、CCC、CAC、CGC、CGG、ACC、ACG、AGC、GCC、GCG、GGG、UGA、UAG、CGA和CCG,表明以上17個密碼子使用頻率較低。

圖1 冠狀病毒S-蛋白基因的RSCU熱圖
由表2可知,大部分冠狀病毒的ENc值低于50,其中扁顱蝠冠狀病毒的ENc值最低,僅為40.97;僅有β、文鳥、知更鳥、麻雀和伏翼蝠冠狀病毒的ENc值高于50,表明冠狀病毒S-蛋白基因的密碼子偏好性較弱。不同冠狀病毒的CAI值相差不大,均處在0.2~0.3之間,說明冠狀病毒的S-蛋白基因的表達強度偏低。除知更鳥冠狀病毒GC含量46.6%,GC3s值47.6%較高外,其他冠狀病毒GC含量介于36.0%~42.3%之間,GC3s值介于22.0%~37.6%之間,表明冠狀病毒S-蛋白基因對堿基A和T有更強的偏好性。

表2 S-蛋白基因偏好性相關參數
相較于冠狀病毒的密碼子偏好性整體分析結果,SARS-CoV-2具有偏好性的密碼子有28個,偏好性極強(RSCU>2)的密碼子有7個(增加了UCU、UAA、CUU、AGA與GCU),最優密碼子也為UAA。SARS-CoV-2的GC、GC3s、CAI與ENc值等密碼子偏好性參數與SARS的S-蛋白較為接近。其GC含量與GC3s值分別為37.3%與25.1%,CAI與ENc值分別為0.226與44.15,表明SARS-CoV-2的S-蛋白基因偏向于A/U編碼,且密碼子偏好性較弱。
ENc-plot圖(圖2)顯示,除知更鳥冠狀病毒S-蛋白基因遠離期望曲線,其余冠狀病毒的S-蛋白基因均分布于期望曲線附近,表明冠狀病毒的S-蛋白基因密碼子偏好性的形成主要受到堿基突變的影響,自然選擇的影響較小。進一步分析發現,SARS-CoV-2和SARS不僅位于期望曲線較近,且緊密靠近,表明兩者密碼子偏好性形成具有高度相似性。

圖2 冠狀病毒S-蛋白基因的ENc-plot分析
通過鄰接法構建了冠狀病毒S-蛋白基因的系統進化樹,該進化樹具有較高的自展值,可信度較高,能夠用于分析冠狀病毒S-蛋白基因的系統進化關系(圖3A)。21種不同來源的冠狀病毒聚類為二簇,第一簇由哺乳動物為宿主的冠狀病毒組成,第二簇包括了鳥類與部分以哺乳動物為宿主的冠狀病毒。MERS、SARS與SARS-CoV-2聚類在第一簇中較近的位置,其中SARS-CoV-2與SARS在系統進化樹中靠得最近,表明SARS-CoV-2與SARS具有最近的親緣關系,而與MERS親緣關系稍遠。
在基于RSCU值的SPSS聚類(圖3B)中,21條冠狀病毒S-蛋白基因被聚為兩類。其中,第一類由畫眉等4種鳥類冠狀病毒和雪貂冠狀病毒組成,第二類由SARS-CoV-2等13種哺乳動物冠狀病毒和火雞冠狀病毒組成,相較于CDS序列,基于RSCU的聚類更適合用于冠狀病毒的系統發育分析。兩種聚類結果中,SARS-CoV-2、SARS與MERS表現出相似的聚類結果,表明SARS-CoV-2與SARS的親緣關系最近,可能來源于同一個祖先冠狀病毒,這為 SARS-CoV-2的系統發育與溯源提供了參考。

圖3 冠狀病毒S-蛋白基因RSCU值聚類和系統進化樹分析結果
比較不同模式生物基因組與SARS-CoV-2的S-蛋白基因的密碼子使用頻率,將比值<0.5和>2的密碼子視為使用頻率差異較大的密碼子。結果顯示,SARS-CoV-2的S-蛋白基因密碼子與大腸埃希菌、噬菌體與釀酒酵母相比,使用頻率差異較大的密碼子數分別為28、27與15,表明釀酒酵母更適合作為新冠病毒S-蛋白基因的外源表達載體。
由于SARS-CoV-2的S-蛋白與大腸埃希菌有較多的差異密碼子,若以大腸埃希菌為表達宿主,需要進行密碼子優化。根據本研究的分析結果,對S-蛋白的RBD區域密碼子完成了優化、改造及全基因合成,成功構建了pGEX-4T-1-RBD重組載體。pGEX-4T-1載體帶有GST標簽,因此重組蛋白的理論分子量為57.89 kDa。由圖4可知,相較于未誘導的大腸埃希菌,含有pGEX-4T-1-RBD的重組菌經IPTG誘導后,產生了一條較明顯的蛋白條帶(57 kDa),與預期分子量一致,表明RBD片段獲得了成功誘導表達。

圖4 RBD區域表達的SDS-PAGE
密碼子作為基因密碼的基本單位和進化單位,對于其偏好特點的分析與計算需要依賴生物信息學的發展。本研究使用一些常用的生物信息軟件圍繞密碼子使用模式,對51條SARS-CoV-2的S-蛋白基因密碼子偏好性及其與以往報道的20條其他物種的冠狀病毒S-蛋白基因的進化關系進行分析。結果發現,冠狀病毒S-蛋白基因中有17個非優勢密碼子,這些密碼子即成為未來密碼子改造的重點區域。ENc值是評判密碼子偏好強弱的通用指標,本研究發現,冠狀病毒S-蛋白基因的ENc值在44左右,密碼子偏好性總體一般。這種現象可能與冠狀病毒的多宿主性有關,以往報道多種哺乳動物及鳥類為其宿主,因此低偏好性可能有利于冠狀病毒的跨物種傳播。絕大部分冠狀病毒的GC含量介于36.0%~42.3%之間,GC3s值介于22.0%~37.6%之間,表明冠狀病毒S-蛋白基因對堿基A和T有更強的偏好性,相似結果也出現在28個優勢密碼子與全基因組堿基組成中[19]。
SARS-CoV-2與SARS具有相近的密碼子偏好性參數,這不僅體現在兩者具有相近的GC含量、GC3s、CAI與ENc值,并且在ENc-plot曲線上也位于相近位置。更有趣的是,在基于RSCU值的聚類樹及基于CDS序列的系統進化樹中,SARS-CoV-2與SARS均緊密聚類,該結果不僅表明二者的親緣關系最近,也表明二者可能起源于某一種祖先冠狀病毒。由于SARS-CoV-2與SARS的親緣關系最近,因此推測二者可能擁有同一類中間宿主,即蝙蝠。Zhou等[20]基于冠狀病毒全基因組序列的系統進化樹,也證實SARS-CoV-2與SARS具有最近的親緣關系,這與本研究結果相同。然而,陳嘉源等[21]基于冠狀病毒Nankai基因CDS序列的系統進化樹,卻發現SARS-CoV-2與 SARS 冠狀病毒相距較遠,究其原因可能有兩點:①在進化過程中,冠狀病毒的不同基因或基因組不同區域受到了不同的選擇壓力;②不同病毒在進化過程中,出現了基因的平行轉移。
根據本研究的分析結果,對S-蛋白的RBD區域的密碼子完成了優化與改造,并在E.coli中成功實現了高效表達,驗證了分析結果。下一步將對RBD的表達條件進行優化篩選,以提高RBD的可溶性表達。