黃轉青 孫 琦 楊 森 李淵源 石浩源 張 瑩 龔 輝 徐風華
1.解放軍總醫院醫療保障中心藥劑科藥學基礎研究室,北京 100853;2.解放軍醫學院,北京 100853
截至2019 年底,全球27 個國家共報道中東呼吸綜合征(middle east respiratory syndrome,MERS)患者2 260 例,其中803 例死亡,死亡率高達35.5%[1]。MERS 冠狀病毒(middle east respiratory syndrome coro navirus,MERS-CoV)是一種單股正鏈RNA 病毒,其4種主要結構蛋白分別是刺突蛋白(spike glycoprotein,S)、膜蛋白(membrane glycoprotein,M)、包膜蛋白(envelope protein,E)與核衣殼蛋白(nucleocapsid phospho-protein,N)。其中N、E、M 蛋白參與組裝病毒粒子,S蛋白是參與病毒附著和進入宿主細胞的主要免疫性抗原[2]。MERS 具有流行潛力大、病死率高等特點,但暫時沒有特異性治療方法[3],因此迫切需要相應的疫苗和抗病毒策略來應對MERS-CoV 的感染和流行。國內外關于MERS-CoV 的表位預測,大部分針對S蛋白,但缺少對候選表位致敏性或毒性評估[4-5]。為了更深入地對MERS-CoV 致病的S 蛋白進行分析,本研究采用多種生物信息學方法來篩選T/B 細胞抗原表位,以期對設計安全有效的多肽疫苗提供參考。
從美國國家生物技術信息中心以FASTA 序列格式下載首例輸入中國的MERS 患者分離株S 蛋白(AKL59401.1)氨基酸序列[6],并使用從不同國家鑒定的各種MERS-CoV 分離株獲得的所有S 蛋白序列在MEGA11 中進行多序列比對并構建了系統發育樹[7]。
使用Expasy Protparam 預測S 蛋白理化性質[8]。S蛋白二級結構特征預測使用SOPMA[9]。
通過trRosetta 對S 蛋白進行三維結構建模,并對所建模型采用PROCHECK[10]驗證其合理性。
1.4.1 細胞毒性T 淋巴細胞(cytotoxic T lymphocyte,CTL)表位預測 CTL 表位預測采用NetCTL-1.2 和NetMHC pan EL 4.1 進行分析。本研究選取世界人口中主要存在的6 種HLA Ⅰ超型(HLA-A×0101、A×0201、A×0301、A×2402、B×0702、B×4403)進行預測[11]。NetCTL-1.2 選擇閾值0.75[12]。NetMHC pan EL 4.1 網站默認與MHC Ⅰ類分子強、弱結合肽序列的閾值為0.5%和2.0%[13],本次預測保留排名前1%的預測表位。綜合以上兩個數據庫預測的表位,使用IEDB 的Class ⅠImmunogenicity 分析工具進行免疫原性預測,設置肽段長度為9aa、閾值0.2 來進行免疫原性篩選[14-15]。最后用VaxiJen v2.0[16]、AllerTOP v.2.0[17]和ToxinPred[18]對篩選出來的CTL 表位進行抗原性、致敏性和毒性評估,服務器均選用默認閾值,得到最終的CTL表位。
1.4.2 輔助性T 淋巴細胞(helper T lymphocyte,HTL)表位預測 為準確嚴謹地預測出HTL 表位,本研究預測結合使用NetMHCⅡpan-4.0、IFNepitope[19]和IL-4pred[20]3 種工具,綜合預測到的表位進入后續檢驗。NetMHCⅡpan-4.0 中最終篩選出排名前2%的強結合肽用于后續檢驗[13]。等位基因選取世界人口中主要存在的7 種HLA Ⅱ超型(HLA-DRB1×0101、×0301、×0401、×0701、×1101、×1301、×1501)進行預測[11]。最后對篩選出來的HTL 表位進行抗原性、過敏性和毒性評估,此部分方法同“1.2”,得到最終的HTL 表位。
本研究中線性B 細胞(linear B lymphocyte,LBL)表位采用ABCpred[21]和BepiPred-2.0 網站[22]預測,其中ABCpred 預測肽長度選擇14aa、16aa、18aa;Bepipred中均選擇默認值。選取兩個網站中重疊的表位進行抗原性、致敏性和毒性預測,預測方法同“1.2”。構象B細胞(conformation B Lymphocyte,CBL)表位預測使用IEDB 中ElliPro 工具[23],預測閾值選擇0.5。
所選的等位基因超群覆蓋率由IEDB 中人口覆蓋工具分析[15]。整體預測流程概要見圖1。

圖1 抗原表位預測流程
多序列比較結果顯示,S 蛋白序列保守性較高,在突變位點中大部分的突變頻率僅為1。本研究中獲取的所有S 蛋白都可組裝成一個系統進化枝,彼此密切相關。見圖2。

圖2 不同國家的中東呼吸綜合征冠狀病毒蛋白及其系統發育樹
理化性質預測結果顯示,S 蛋白具有1 353 個氨基酸,重量為149 479.23 ku,理論PI 值為5.80,消光系數為170 865/(M·cm),不穩定性指數為36.81(為穩定蛋白),脂肪指數為82.79,親水性總平均值為-0.078(具有親水性)。其在哺乳動物網織紅細胞中估計半衰期為30 h。SOPMA 網站對S 蛋白二級結構預測發現其具有α-螺旋413 個,占比30.52%;延伸鏈294個,占比21.73%;β-轉角53 個,占比3.92%;無規卷曲593 個,占比43.83%。見圖3。

圖3 S 蛋白二級結構在SOPMA 中的預測結果
trRosetta 對S 蛋白建模結果見圖4A。該模型經PROCHECK 驗證結果見圖4B,其中最合理區殘基占比85.9%,其他合理區占12.3%,一般合理區占1.1%,不合理區占0.8%。

圖4 S 蛋白的建模結果及驗證
2.4.1 CTL 表位預測結果NetCTL-1.2 和NetMHC pan EL 4.1 的重疊表位136 個,其中具有免疫原性的表位14 個。經抗原性、致敏性和毒性評估后最終得到2個候選CTL 表位,分別為S567-575 和S42-50。
2.4.2 HTL 表位預測結果 NetMHCⅡpan-4.0 預測得到表位46 個;上述表位中IFN-γ 表位共有13 個;其中IL-4 表位7 個,經抗原性、致敏性和毒性評估后最終得到2 個抗原性較強的HTL 表位,分別為S300-314和S1058-1072。
ABCpred 和BepiPred-2.0 中重疊的LBL 表位38個,經抗原性、致敏性和毒性評分后最終得到15 個LBL表位,分別是S19-32、S66-83、S259-272、S355-370、S412-427、S413-426、S450-463、S581-596、S623-638、S657-667、S685-709、S738-777、S1108-1117、S1198-1213、S1222-1239。ElliPro 預測結果顯示共有641 個殘基分別位于5 個CBL 表位中,各CBL 具體位置見圖5。

圖5 五個CBL 表位(黃色)在S 蛋白中的相對空間位置
IEDB 人口覆蓋率計算工具顯示,本研究中選擇用于T 細胞表位預測的HLA 等位基因預計能覆蓋世界95.19%的人口。
與傳統技術路線比較,多肽疫苗具有安全性高、特異性強、成分簡單,可將多個不同抗原表位結合到一起構建合成等優點。生物信息學的發展可以實現在不需要體外培養病原體的情況下,預測各種病毒不同肽段表位的抗原性、免疫原性及免疫相關的其他理化性質,為多肽疫苗設計表位選擇提供可靠的指導和參考。
由于MERS-CoV 的致死率高,故其被認為是威脅人類健康最關鍵的新興病原體之一。但關于MERS-CoV 流行病學、發病機制和演變方面仍存在很多未知,并且目前還沒有任何抗MERS-CoV 治療藥物被批準用于人類[24],亦無保護率高的特異預防性疫苗,因此選擇預測MERS-CoV 致病關鍵蛋白的優選抗原性肽段,對MERS-CoV 多肽疫苗的設計和開發具有重要作用。本研究通過對所選S 蛋白理化性質和二級結構分析發現其為親水性穩定蛋白。對其三級結構模型驗證發現該模型中最合理區域殘基占比很高,提示預測模型較為準確。免疫信息學方法預測S 蛋白序列與MHC Ⅰ類分子結合力較強的CTL 表位,進而通過對這些序列進行免疫原性分析;同時還預測了S蛋白與MHC Ⅱ類分子強結合且能分泌IFN-γ 和IL-4 的HTL 表位。由于安全性和有效性是多肽疫苗的基本要求,且只有抗原性強的表位才能刺激產生有效的免疫反應,只有無致敏性和毒性的表位才能用于設計安全的人用疫苗。因此,對上述得到的表位進行抗原性分析、過敏性和毒性評估,最終得到抗原性強、無致敏性和無毒性的CTL 表位2 個,HTL 表位2 個,LBL 表位15 個。此外,大部分B 細胞表位是不連續的,即其由病原體蛋白質序列中分離較遠的片段組成,這些片段由于蛋白質的折疊而接近[25],故本研究中采用ElliPro 預測不連續B 細胞表位,得到CBL 表位5 個。人口覆蓋率預測結果顯示所選等位基因預計能覆蓋世界95.19%的人口,提示基于本研究得到的抗原表位設計的表位疫苗具有廣譜性。
本研究綜合利用多種生物信息學工具,整理出一套適用于MERS-CoV 多肽疫苗候選表位預測分析的流程,這在新型冠狀病毒感染等流行病蔓延的當下,具有較大的參考價值和借鑒意義。盡管本研究預測出了MERS-CoV 的優勢抗原表位,但所預測的優勢表位是否能誘導機體發生先天免疫和特異性免疫反應,還需進一步實驗驗證。