簡春利,汪佳琪,張露瑤,余 瑛,廖 飛
(重慶理工大學 藥學與生物工程學院,重慶 400054)
新冠病毒(SARS CoV 2)引發的新冠肺炎疫情對人類生活和經濟活動造成巨大沖擊。病毒感染涉及病毒從外部入侵人體靶細胞、病毒在胞內復制、子代病毒感染更多細胞、病毒抗原誘發炎癥反應等過程。新冠病毒感染患者潛伏期長且潛伏期患者仍有傳染性,這迫切需要早期診斷感染的試劑及阻斷病毒入侵靶細胞、抑制病毒體內復制、阻滯體內子代病毒感染等環節的藥物。針對病毒抗原的高親和力抗體,是用于新冠病毒感染預防、診斷及阻斷感染的關鍵蛋白藥物。所以,對冠狀病毒入侵靶細胞所需關鍵蛋白進行生物信息學分析,發掘適合用于封閉入侵靶細胞必需位點以阻斷感染的線性表位,及免疫檢測病毒抗原所需特異表位,是研制預防、治療及檢測所需特異抗體的關鍵。
新冠病毒入侵靶細胞依賴其刺突蛋白(spike protein)與膜受體結合及刺突蛋白敏感位點水解[1];發掘新冠病毒刺突蛋白的重要線性表位,就成為研制所需抗體的關鍵。病毒蛋白的關鍵線性表位通常是溶液可及的連續肽段??贵w是蛋白質,識別/結合線性表位時對線性表位周圍空間位阻很敏感。蛋白線性表位的空間位阻主要來自蛋白中折疊的肽鏈,及蛋白翻譯后修飾基團。新冠病毒在人細胞內復制,其刺突蛋白在人體細胞內合成;人體細胞內合成的蛋白通常存在糖基化修飾[2]。病毒蛋白抗原的糖基化修飾遮蔽線性表位則抑制宿主體液免疫應答,使病毒逃避宿主免疫系統的識別和攻擊[3]。診斷及治療抗體所識別的刺突蛋白連續肽鏈線性表位如有糖基化修飾,則會因來自糖鏈的巨大空間位阻而使這類抗體失效[4-6]。因此,識別刺突蛋白的線性表位需排除該蛋白表面的糖基化修飾位點。
本文中預測新冠病毒刺突蛋白候選B細胞線性表位,同源建模刺突蛋白三維構象篩選暴露的候選線性表位,Emini、Karplus Schulz法定量比較候選線性表位空間可及性和構象柔韌性,搜索NCBI數據庫判斷候選線性表位特異性,預測刺突蛋白糖基化修飾位點并結合最新實驗數據排除緊鄰修飾位點的B細胞線性表位。綜合比較,在新冠病毒刺突蛋白S區,發掘出以QLPP和RARS為代表的線性表位,為研制識別其刺突蛋白的抗體奠定基礎。
從美國生物信息中心NCBI數據庫(https://www.ncbi.nlm.nih.gov/)中搜索并下載新冠病毒刺突蛋白氨基酸全序列(Gene ID:43740568)。
由于本研究完成時S蛋白冷凍電鏡晶體結構才報 道 (https://doi.org/10.1101/2020.02.17.951848),但同源建模的結構和晶體結構無顯著差異(RMSD≈0.889?),故仍用建模構象分析候選線性表位的可及性。用Swiss Model在線同源建模;在molding任務欄下將新冠病毒刺突蛋白完整氨基酸序列以純文本格式導入到目標序列框,點擊“Start Modeling”開始自動進行S蛋白三維結構建模[7]。運行中,系統用BLASTP和HHblits自動搜索數據庫中與待建模目標序列相似且有晶體結構的蛋白為模板,通過SIM程序比較模板與目標序列間相似性(最后選相似性近75%的模板建模),再對所得模型結構進行優化給出預測的目標蛋白質三維結構模型。建模結果通過DS(discov ery studio client v4.5.0.15071)軟件獲取拉氏圖(Ramachandran Plot)[8],檢查所得蛋白質結構模型中骨架及氨基酸殘基分布的合理性。用PyMOL(PyMOLmolecular graphics system 2.2.0)展示蛋白質的三維模型并分析構象。
新冠病毒刺突蛋白氨基酸全序列,通過Kolas kar和Tongaonka方法[9],利用氨基酸殘基的物理化學性質(親水性、可及性、柔韌性)以及在已知線性表位中出現頻率,計算每段候選肽段的抗原傾向值(Ap)。具體用在線服務器(http://imed.med.ucm.es/Tools/index.html),以純文本格式導入目標蛋白的序列后提交至服務器,自動預測其肽段中候選的線性表位,再據三維空間結構定性篩選位于刺突蛋白同三聚體表面的肽段,用BLASTp搜索NCBI數據庫判斷候選線性表位的特異性。
在德泰生物(http://www.detaibio.com/tools/epitope prediction vr.html)在線服務器,輸入純文本格式新冠病毒刺突蛋白全氨基酸序列,開始自動預測線性表位的性質。用Emini方法據蛋白抗原中氨基酸殘基被溶劑分子接觸的可能性評價候選線性表位可及性[10];用Karplus Schulz方法,基于已知結構蛋白質Cx的溫度效應值測量碳鏈的柔韌性,從而預測蛋白質骨架區的柔韌性(ht tps://doi.org/10.1007/BF01195768)。蛋白表面的高柔韌性連續肽段,易于與抗體經誘導契合緊密結合[11]。
在線網站預測新冠病毒刺突蛋白N型和O型糖基化位點 (http://www.cbs.dtu.dk/services/NetNGlyc),該服務器使用人工神經網絡預測蛋白中糖基化位點,并自動檢查Asn Xaa Ser/Thr易于糖基化的特征序列。具體是,在NetNGlyc和NetOGlyc任務欄下導入新冠病毒刺突蛋白氨基酸全序列的FASTA格式文件,提交后輸出預測結果。最后,結合最新文獻報道的糖基化信息排除大位阻候選表位。
新冠病毒刺突蛋白與非典肺炎病毒刺突蛋白(PDB ID:6ACC)序列一致性達到76.47%,后者是前者同源建模的合適模板[12]。新冠病毒刺突蛋白三維模型中,各亞基僅獲得與模板匹配的第15-1137位殘基的原子座標(圖1;紫色、綠色、藍色分別代表3條肽鏈)。與非典病毒刺突蛋白類似,新冠病毒刺突蛋白的3個S1/S2異二聚體聚集成一個三聚體。新冠病毒刺突蛋白中,與ACE2相結合的3個C端結合域1位于傘形構象同側且相距在3~7 nm。3個S2纏繞成束支撐傘形結構。模型拉氏圖中綠色代表理想構象區域。據氨基酸分布,絕大部分殘基都位于可接受區域,表明所建三維模型較合理(圖2)。
圖1 新冠病毒刺突蛋白三維模型側面視圖、俯視圖
圖2 新冠病毒刺突蛋白模型拉氏圖
新冠病毒刺突蛋白全長1 273個氨基酸殘基,編碼區位于基因組21549-25730區,較蝙蝠類SARS冠 狀 病 毒、SARS CoV 和 MERS CoV 都更長[13]。
在線預測發現63個候選線性表位。檢測及阻斷病毒感染所用抗體識別的線性表位,理論上應位于病毒蛋白抗原三維構象的表面。據此定性要求,選出14段位于刺突蛋白三聚體構象表面的候選線性表位(表1)。其余候選表位多位于刺突蛋白三聚體的亞基接觸面,顯然不適合被本質為蛋白質的各種類型抗體識別。后續分析,主要考慮表1所列滿足基本要求的候選表位。
表1 新冠病毒刺突蛋白候選線性表位序列
位于蛋白抗原三維空間表面的連續肽段周圍也有位阻。單鏈抗體及天然單抗識別的線性表位長度相近,為5~11個殘基;納米抗體識別的線性表位較短,為4~7個殘基。據Emini法定量預測,可及性指數>1且含4個及以上殘基的連續表位共20個,但位于新冠病毒刺突蛋白三聚體三維構象表面的線性表位則只有4個(表2)。
根據Karplus Schulz方法預測蛋白骨架柔韌性。含4個及以上殘基且柔韌性指數>1的線性表位共有28個,而位于新冠病毒刺突蛋白三聚體表面的線性表位則只有8個(表2)。
表2 位于三維結構表面、可及性及柔韌性滿足要求的連續4個以上殘基新冠病毒刺突蛋白候選表位
蛋白質常見糖基化類型含糖鏈連接在天冬酰胺與谷氨酰胺的酰胺殘基的N 糖基化,以及連接在絲氨酸與蘇氨酸的羥基殘基的O 糖基化。
Asn Xaa Ser/Thr是易于發生糖基化的代表性位點(X是除pro氨酸以外殘基)[14]。在線預測顯示新冠病毒的刺突蛋白共有22個潛在N 糖基化修飾的候選天冬酰胺殘基(見表3)。
表3 SARS CoV 2刺突蛋白糖基化位點
本研究修改過程中,新冠病毒刺突蛋白中S蛋白的N 糖基化位點已實驗測定[6],在線預測N 糖基化位點與實測一致。但實驗發現,隨著所得刺突蛋白的表達系統(昆蟲和HEK293)及表達批次不同,新冠病毒刺突蛋白糖基化水平和糖鏈種類有差別,且其刺突蛋白與ACE2的結合活性也存在差異[15]??梢?,重組新冠病毒刺突蛋白的糖基化修飾存在多樣性和異質性。
在線預測發現O 糖基化候選位點主要是S673(評分0.589),T678(評分0.631)和S6869(評分0 577),與早期文獻預測結果一致[16],但實驗證實O 糖基化主要發生在T323和S325[17]??梢姡鹿诓《敬掏坏鞍滋腔揎椫饕荖 糖基化。
針對病毒蛋白線性表位的特異抗體是免疫檢測病毒抗原的先決條件。針對多種病毒相同線性表位且能阻斷感染的高親和力抗體對多種病原體通用,對抗病毒治療更有意義。將候選表位逐個通過BLASTp進行同源比對搜索相同及類似肽段,判斷候選線性表位的特異性,并避開糖基化位點。
據以上要求,篩選出刺突蛋白表面QLPP和RARS為代表的候選連續線性表位;這2個肽段都屬于Loop二級結構。QLPP位于刺突蛋白第23-26位氨基酸,在三維結構中位于S1區的N端結構域區;RARS位于S蛋白氨基酸序列第683-686位,在三維結構中位于S1和S2交界處(圖3)。在線預測RARS的S686可能發生O 型糖基化,但實驗未檢測到哺乳動物細胞合成的刺突蛋白在此位點發生糖基化修飾,故RARS仍為候選連續表位。
圖3 QLPP和RARS在新冠病毒刺突蛋白單體中的空間位置(A)及其局部精細構象(B、C)
至今未報道適合阻斷新冠病毒入侵靶細胞的特異抗體,也無高靈敏度檢測新冠病毒蛋白抗原所需特異抗體。特異抗體僅識別蛋白抗原的特定表位[18]。實踐中,蛋白的有效線性表位需同時有如下特征:
1)為表面凸出結構,以降低肽鏈折疊造成的結合位阻而保障抗體親和力[19]。
2)避開三維結構內部二級結構區,以免可及性太低。蛋白表面二級結構可及性強而更適合成為識別位點[11]。
3)連續肽段長度適中,以適應抗體有限的結合空腔。
4)無糖基化等蛋白質修飾。
綜合考慮上述要求,獲得以QLPP和RARS代表的候選B細胞線性表位。可見,新冠病毒刺突蛋白表面可用的B細胞線性表位較少,這對其刺突蛋白的免疫檢測帶來挑戰,也對重組刺突蛋白用作蛋白疫苗的預防效果帶來壓力。
獲得針對所選線性表位的特異抗體,經典技術是篩選分泌單抗的雜交瘤。但是單抗生產成本高、篩選單克隆成本高且耗時、難保障單抗親和力。篩選納米抗體、scFv突變體庫易獲得高親和力抗體,且所得抗體生產成本低。納米抗體分子小,能耐受較大空間位阻[20-21]??贵w結合冠狀病毒刺突蛋白家族中高度保守的融合肽阻斷其作用是阻斷感染的一種直接策略,此融合肽是廣譜抗冠狀病毒抗體的候選線性表位[22]。但是,此融合肽僅有小段凸出暴露且周圍位阻大,天然單抗親和力必然低。更重要的是,針對新冠病毒刺突蛋白的完整人源抗體可能面臨抗體增強效應[23],會促進病毒感染多種細胞而加重病情。已經證實,高親和力納米抗體能有效阻斷冠狀病毒入侵人體及動物的靶細胞[24-25];納米抗體有望通過霧化吸入,遞送到人體肺部。納米抗體結合抗原的構象互補區殘基進行飽和突變可獲得大容量突變體集中庫[26]?;诖欧蛛x和迭代競爭結合,本實驗室建立指數富集高親和力抗體展示載體的納米抗體庫高通量篩選新策略,兩周內就獲得抗FLAG標簽納米抗體(待發表)。目前,正用這種展示庫篩選新策略,篩選所發掘新冠病毒刺突蛋白B細胞線性表位的高親和力納米抗體,以期用于應急阻止感染而降低重癥死亡率。