張榮波杜昭宏吳靜,2胡東
?綜 述?
基于Web的疫苗設計工具
張榮波1,2★杜昭宏1吳靜1,2胡東1,2★
迄今為止,疫苗是用于預防感染、腫瘤、過敏及免疫失衡等疾病最為有效的工具之一。歸功于強大的信息儲量及分析能力,網(wǎng)絡數(shù)據(jù)庫及分析系統(tǒng)為研究人員提供了更為容易的疫苗設計途徑。目前,這些網(wǎng)絡工具可以歸類為生物大分子的序列信息、結(jié)構(gòu)分析及功能預測。鑒于生物信息學工具的日益增多,本文對其進行分類總結(jié),以方便更多研究者使用。
疫苗;網(wǎng)絡工具;預測;生物信息學
最近幾年用于疫苗設計的計算機方法發(fā)生了巨大的變化。傳統(tǒng)的免疫學研究結(jié)果可用鋼筆、鉛筆或電子表格記錄,但高通量測序、DNA陣列和蛋白質(zhì)組學等新實驗中產(chǎn)生了大量的數(shù)據(jù),這些方法已不能有效地處理和挖掘這些數(shù)據(jù)。免疫生物信息學需要討論如何處理在免疫學和疫苗設計領域產(chǎn)生的大量數(shù)據(jù)(免疫信息學領域的快速增長起到了推波助瀾的作用)使沒有生物信息專業(yè)知識的研究人員也可在互聯(lián)網(wǎng)上獲得許多方法。本文試圖作一個關于目前可用的方法的概述,并指出不同方法的優(yōu)缺點。
只有一小部分的從致病微生物蛋白質(zhì)中產(chǎn)生的肽能引起實際的免疫應答。前體肽必須產(chǎn)生蛋白酶才能被提交給CD8+T細胞,在細胞質(zhì)中由其他肽酶修剪該肽的N-末端[1]。然后,它必須綁定到抗原加工相關轉(zhuǎn)運子(TAP)以便轉(zhuǎn)運到內(nèi)質(zhì)網(wǎng)(ER)上易位。在這里,它被與抗原加工相關的氨基肽酶修剪N-末端(ERAAP),直到它結(jié)合到主要組織相容性復合體Ⅰ類(MHC I)分子[2]。此后,它被輸送到細胞表面。細胞表面上只有一半的肽的免疫原性可能是由于規(guī)模有限的T細胞受體(TCR)指導。最有選擇性的步驟是與MHC I類分子的結(jié)合,因為只有1/200的肽親和結(jié)合強大到足以產(chǎn)生免疫反應[3]。
為了進行比較,TAP結(jié)合的選擇性報道為1/7[4]。這一切都發(fā)生在與其他肽的競爭中,因此為了使肽具有免疫原性(免疫),它必須在給定的細胞中比其他肽更有效地經(jīng)過上述過程[3]。
而MHC I類分子的主要樣肽來自細胞液,MHC II 類分子提呈肽來自胞吞的蛋白質(zhì)。未折疊的多肽在胞吞細胞器中結(jié)合到MHC II分子[5]。MHC I類分子和MHC II類分子具有高度多態(tài)性,等位基因特異性往往是非常不同的。因此,不同的個體通常對來自同一病原體的不同系列的肽產(chǎn)生不同的反應。
可以通過氨基酸序列預測一些參與抗原呈遞過程的特異性。例如,這可以被用來選擇疫苗中的抗原決定簇,并有助于理解在感染性疾病、自身免疫疾病和癌癥中免疫系統(tǒng)的作用。下面我們將介紹一些網(wǎng)絡上可以進行這樣預測的資源。
1.1 MHC結(jié)合肽的數(shù)據(jù)庫
存在于互聯(lián)網(wǎng)上的幾個MHC結(jié)合肽數(shù)據(jù)庫(表1)。
1.1.1 SYFPEITHI:SYFPEITHI數(shù)據(jù)庫包含肽序列、錨位置、MHC特異性、源蛋白源生物和出版物參考信息。該數(shù)據(jù)庫包括大約3 500個已知的結(jié)合MHC I類和II類分子的肽序列和基于以前出版物的T細胞表位和來自許多物種的MHC配體[6]。
1.1.2 MHCPEP:MHCPEP 是MHC結(jié)合肽的另一個主要數(shù)據(jù)庫,包括超過13 000個結(jié)合MHC分子的肽序列[7]。出版報告編譯的條目和直接提交的實驗數(shù)據(jù)一樣好。每個條目包含肽序列、MHC特異性和有效性、實驗方法、觀察到的活性、親和力、源蛋白、錨的位置和出版物參考。遺憾的是,數(shù)據(jù)庫自1998年6月后不再更新。該數(shù)據(jù)庫可以作為ASCII文件下載。
1.1.3 JenPep:JenPep是一個較新的數(shù)據(jù)庫,它包含MHC、TAP以及T細胞表位肽的大量結(jié)合數(shù)據(jù),該數(shù)據(jù)庫包含8000多個條目[8]。
1.1.4 FIMM:由Schoenbach和Brusic創(chuàng)建,是一個分子免疫學的功能數(shù)據(jù)庫。該數(shù)據(jù)庫包含571個抗原和1 591個肽[9]。
1.1.5 MHCBN:這是一個MHC結(jié)合和非結(jié)合肽的數(shù)據(jù)庫,包含14 816個粘合劑,1 782個非粘合劑和5 456 個T細胞表位[10]。
1.1.6 HLA配體/ Motif的數(shù)據(jù)庫:這個網(wǎng)站的數(shù)據(jù)庫可以通過定義等位基因和特異性,氨基酸模式,氨基酸序列中配體/基序,作者的姓氏等更多指標的高級搜索來搜索。
1.1.7 HIV分子免疫學數(shù)據(jù)庫:HIV分子免疫學雜志數(shù)據(jù)庫是一個注釋的,可檢索HIV-1細胞毒性和輔助性T細胞表面抗原和抗體的結(jié)合位點。目標是提供一個全面定義HIV抗原表位的數(shù)據(jù)庫[11]。
1.1.8 EPIMHC:MHC配體數(shù)據(jù)庫可以根據(jù)序列長度、類、物種和配位體是否是抗原決定簇進行搜索。
美國國立衛(wèi)生研究院將在未來五至七年資助“免疫抗原表位數(shù)據(jù)庫和分析計劃”(www.niaid.nih. gov/contract/archive/rfp0331.pdf)的設計、開發(fā)、填充并維持公開訪問性,全面的免疫抗原表位數(shù)據(jù)庫包含的線性和構(gòu)象的抗體抗原表位和T細胞表位。這個數(shù)據(jù)庫最終可能合并上述數(shù)據(jù)庫中的大部分數(shù)據(jù)。
1.2 預測MHC結(jié)合
存在于互聯(lián)網(wǎng)上的幾個MHC結(jié)合肽預測服務器(表2)。如上表所示一些基于互聯(lián)網(wǎng)的方法同樣允許預測II類分子的結(jié)合。在互聯(lián)網(wǎng)上有許多的預測MHC-肽結(jié)合的矩陣法。參數(shù)往往來自配體測序群。然而,基質(zhì)或隱馬爾可夫模型也同樣可以來自配體序列。在這些方法中基序每個位置上的氨基酸為預測得分提供一個獨立的貢獻。神經(jīng)網(wǎng)絡能夠更準確的預測位置之間的相關性是否存在,并有足夠的數(shù)據(jù)來建模。這具有潛在的優(yōu)點,它可以根據(jù)基序中不同位點的相關性說明。

表1 MHC結(jié)合肽數(shù)據(jù)庫Table 1 MHC binding peptide databases
1.2.1 BIMAS:BIMAS方法是Parker等[12]1994年開發(fā)的,該方法是以已出版的文獻推導出的系數(shù)表為基礎。HLA-A2和肽結(jié)合數(shù)據(jù)結(jié)合在一起產(chǎn)生一個包含180個系數(shù)的表(20個氨基酸×9個位點),其中每一個系數(shù)代表肽內(nèi)特定位置氨基酸殘基的影響。
1.2.2 SYFPEITHI:SYFPEITHI預測以發(fā)表的基序(池測序,天然配體)為基礎,并考慮到在錨和輔助錨位置氨基酸。得分是根據(jù)以下規(guī)則計算:某一肽的氨基酸被賦予了特定的值,這取決于他們是否是錨形體、輔助錨或優(yōu)選的殘基。理想中的錨將得到10分,例外的錨形體6~8分,輔助錨4~6分,優(yōu)選的殘基1~4分。氨基酸的結(jié)合能力被認為有負面影響,給定的值介于-1~-3[13]。SYFPEITHI Web網(wǎng)站預測用于5個不同的MHC II等位基因除了一些I類等位基因。
1.2.3 PREDEPP:該方法以MHC溝槽中的肽結(jié)構(gòu)為模型,要求多肽候選分子為螺紋型,其與MHC結(jié)合的相容性由配對檢驗統(tǒng)計進行評估。此方法的優(yōu)點在于,它不需要肽結(jié)合實驗驗證,因此,可以用于只有有限數(shù)據(jù)的等位基因[14]。
1.2.4 Epipredict:使用合成組合多肽庫來定量描述肽-HLA II類相互作用的方法。Jung等[15]的等位基因特異性二維數(shù)據(jù)庫中描述每個II類-配體氨基酸側(cè)鏈結(jié)合作用。
1.2.5 Predict:Yu等[16]利用神經(jīng)網(wǎng)絡預測I類、II類和TAP結(jié)合的預測方法。
1.2.6 Propred:Singh以1999年出版的矩陣為根據(jù)[17~18],是TEPITOPE程序的實現(xiàn)和拓展[19~20]。除此之外差異可以歸因于我們測試中沒有發(fā)現(xiàn)任何兩者之間差異的微小錯誤。
1.2.7 MHCPred:11個不同的HLA I類等位基因結(jié)合的預測可使用三維定量構(gòu)效關系方法[21]。
1.2.8 Net MHC:HLA-A2結(jié)合的預測利用神經(jīng)網(wǎng)絡。此方法定量預測結(jié)合親和力,將不同的肽進行分類(結(jié)合與非結(jié)合根據(jù)一個閾值比較)。Buus等[22~23]使用同種測定法得到的大量結(jié)合數(shù)據(jù)已經(jīng)驗證過該方法。一些預測粘合劑在小鼠體內(nèi)誘導CTL反應的能力已經(jīng)過測試,并由HIV-1 HLA-A2陽性患者CD8+T-細胞識別[22~23]。兩個著名的預測方法,TEPITOPE 和 EpiMatrix是不能通過網(wǎng)絡獲得的,已在表3中列出[24~25]。TEPITOPE的流行是從它允許不同的II類分子肽的預測開始的。
1.3 蛋白酶體的酶切位點預測
MHC I類配位體的C末端最有可能被蛋白酶裂解。蛋白酶體通常產(chǎn)生N-末端延伸MHC配體的前體,這些前體的N-末端可以在內(nèi)質(zhì)網(wǎng)上被修剪。抗原決定簇內(nèi)蛋白酶裂解位點不需要廢除這種表位的免疫反應,然而它們可以降低給定肽的免疫反應的有效性[3]。因此,蛋白酶在選擇提交給CD8+T細胞的肽中起著重要的作用。在脊椎動物中用IFN-γ刺激,導致蛋白酶三個亞基的替換形成具有不同特異性的免疫保護[26]。在互聯(lián)網(wǎng)上存在不同的用于預測蛋白酶裂解位點的方法(表4)。

表2 HLA肽結(jié)合預測Table 2 Binding predictions of HLA peptides
1.3.1 PAProC:蛋白酶體分裂預測算法是以實驗裂解數(shù)據(jù)為基礎的用于人類和酵母蛋白酶的預測工具[27~28]。最新資料顯示以體外免疫蛋白酶裂解數(shù)據(jù)為基礎的PAProC程序也是根據(jù)PAProC主頁操作的[29]。
1.3.2 FRAGPREDICT:包括兩種不同的算法。其中一個的目的是預測蛋白酶體裂解的可能性,以裂解帶周圍決定氨基酸基序裂解的統(tǒng)計分析為基礎[30~31]。第二個算法使用切割位點的分析結(jié)果作為輸入,提供主要蛋白水解片段的預測。
1.3.3 NetChop:這是由不同的調(diào)制解調(diào)器調(diào)整過的神經(jīng)網(wǎng)絡。?Kesmir建議使用經(jīng)過C-末端切割位點調(diào)整過的C-term2.0網(wǎng)狀構(gòu)造,切割點是用于預測CTL分界線的MHC I類配體的1 110個公認有效的C-末端切割位點[22]。這個網(wǎng)絡的特異性可能會類似于特異性免疫蛋白酶。
Margalit組最近在網(wǎng)絡上也做了他們的蛋白酶體切割位點的自然傾向?qū)嶒瀃32]。
最近已經(jīng)開發(fā)了許多提供綜合預測的網(wǎng)站。MAPPP服務器(表2)允許用戶創(chuàng)建開放閱讀框搜索結(jié)合MHC和預測蛋白酶切割位點,Raghava有一個預測服務器(www.imtech.res.in/raghava/propred1/ index. html)完成了47 MHC-I類等位基因、蛋白酶體和免疫蛋白酶體模型的矩陣[17]。 MHC的網(wǎng)絡服務器允許HLA-A2的結(jié)合和NetChop預測。
2.1 MHC序列數(shù)據(jù)庫
許多存在于互聯(lián)網(wǎng)上的含有免疫蛋白質(zhì)序列的數(shù)據(jù)庫(表5)。
2.1.1 HIG:目前HLA序列數(shù)據(jù)庫包含1 596個等位基因序列。到2002年10月,263 HLA-A,501HLA-B,HLA-F125HLA-C,6HLA-E,1和15個HLA-G I類等位基因已被命名。3HLA-DRA,397HLADRB,22 HLA-DQA1,53 HLA-DQB1,20 HLA-DPA 1100 HLA-DPB1,4HLA-DMA,-DMB6HLA,8HLA-DOA和8HLA-DOB II類序列也被命名,還有6 TAP1,4TAP2和54 MICA序列。HLA序列數(shù)據(jù)庫還包含廣泛命名法HLA系統(tǒng)(HLA類I和II類等位基因名的表)該數(shù)據(jù)庫對HLA命名是非常有幫助的,因為HLA命名是非常復雜和繁瑣的。
2.1.2 IMGT:國際免疫遺傳學項目,是專門從事所有脊椎動物免疫球蛋白、T細胞受體和MHC的一個數(shù)據(jù)庫集。IMGT項目成立于1989年的蒙彼利埃第二大學和法國國家科學研究中心(Montpellier,法國)并且和EBI有密切合作。
2.1.3 ASHI:(ASHI)美國組織相容性和免疫遺傳學協(xié)會提供的基因和等位基因頻率的數(shù)據(jù)庫(www. ashi-hla.org/)。
2.1.4 MHCDB:MHC序列的“注冊用戶”數(shù)據(jù)庫。這是一個ACEDB式人類主要組織相容性數(shù)據(jù)庫。它在很大程度上被6ace取代,6ace是來自桑格中心的人類第6號染色體ACEDB式數(shù)據(jù)庫。
表6中列出許多與免疫學和疫苗的設計相關的其他數(shù)據(jù)庫。

表3 非網(wǎng)絡的MHC結(jié)合預測Table 3 MHC binding peptide based on non-web

表5 MHC序列數(shù)據(jù)庫Table 5 MHC sequence databases

表6 其他網(wǎng)站Table 6 Other web site
[1]Lévy F, Burri L, Morel S, et al. The final N-terminal trimming of a subaminoterminal proline-containing HLA class I-restricted antigenic peptide in the cytosol is mediated by two peptidases[J]. J Immunol, 2002, 169(8): 4161-4171.
[2]Serwold T, Gonzalez F, Kim J, et al. ERAAP customizes peptides for MHC class I molecules in the endoplasmic reticulum[J]. Nature, 2002, 419(6906): 480-483.
[3]Yewdell J W, Bennink J R. Immunodominance in major histocompatibility complex class I-restricted T lymphocyte responses[J]. Annu Rev Immunol, 1999, 17: 51-88.
[4]Uebel S, Kraas W, Kienle S, et al. Recognition principle of the TAP transporter disclosed by combinatorial peptide libraries[J]. Proc Natl Acad Sci U S A, 1997, 94(17): 8976-8981.
[5]Castellino F, Zhong G, Germain R N. Antigen presentation by MHC class II molecules: invariant chain function, protein trafficking, and the molecular basis of diverse determinant capture[J]. Hum Immunol, 1997, 54(2): 159-169.
[6]Rammensee H, Bachmann J, Emmerich N P, et al. SYFPEITHI: database for MHC ligands and peptide motifs[J]. Immunogenetics, 1999, 50(3-4): 213-219.
[7]Brusic V, Rudy G, Harrison L C. MHCPEP, a database of MHC-binding peptides: update 1997[J]. Nucleic Acids Res, 1998, 26(1): 368-371.
[8]Blythe M J, Doytchinova I A, Flower D R. JenPep: a database of quantitative functional peptide data for immunology[J]. Bioinformatics, 2002, 18(3): 434-439.
[9]Sch?nbach C, Koh J L, Flower D R, et al. FIMM, a database of functional molecular immunology: update 2002[J]. Nucleic Acids Res, 2002, 30(1): 226-229.
[10]Bhasin M, Singh H, Raghava G P. MHCBN: a comprehensive database of MHC binding and non-binding peptides[J]. Bioinformatics, 2003, 19(5): 665-666.
[11]Bette T M K, Christian B, Barton F H, et al. HIV Molecular Immunology 2001[M]. Los Alamos, New Mexico: Los Alamos National Laboratory, Theoretical Biology and Biophysics, 2001.
[12]Parker K C, Bednarek M A, Coligan J E. Scheme for ranking potential HLA-A2 binding peptides based on independent binding of individual peptide side-chains[J]. J Immunol, 1994, 152(1): 163-175.
[13]Rammensee H G, Bachmann J, Emmerich N P N, et al. SYFPEITHI: database for MHC ligands and peptide motifs[J]. Immunogenetics, 1999, 50: 213-219.
[14]Schueler-Furman O, Altuvia Y, Sette A, et al. Structure-based prediction of binding peptides to MHC class I molecules: application to a broad range of MHC alleles[J]. Protein Sci, 2000, 9(9): 1838-1846.
[15]Jung G, Fleckenstein B, von der Mülbe F, et al. From combinatorial libraries to MHC ligand motifs, T-cell superagonists and antagonists[J]. Biologicals, 2001, 29(3-4): 179-181.
[16]Yu K, Petrovsky N, Sch?nbach C, et al. Methods for prediction of peptide binding to MHC molecules: a comparative study[J]. Mol Med, 2002, 8(3): 137-148.
[17]Singh H, Raghava G P. ProPred: prediction of HLA-DR binding sites[J]. Bioinformatics, 2001, 17(12): 1236-1237.
[18]Sturniolo T, Bono E, Ding J, et al. Generation of tissuespecific and promiscuous HLA ligand databases using DNA microarrays and virtual HLA class II matrices[J]. Nat Biotechnol, 1999, 17(6): 555-561.
[19]Hammer J. New methods to predict MHC-binding sequences within protein antigens[J]. Curr Opin Immunol, 1995, 7(2): 263-269.
[20]Raddrizzani L, Hammer J. Epitope scanning using virtual matrix-based algorithms[J]. Brief Bioinform, 2000, 1(2): 179-189.
[21]Doytchinova I A, Flower D R. Physicochemical explanation of peptide binding to HLA-A*0201 major histocompatibility complex: a three-dimensional quantitative structure-activity relationship study[J]. Proteins, 2002, 48(3): 505-518.
[22]Buus S, Lauem?ller S L, Worning P, ea al. Sensitive quantitative predictions of peptide-MHC binding by a "Query by Committee" artificial neural network approach[J]. Tissue Antigens, 2003, 62(5): 378-384.
[23]Corbet S, Nielsen H V, Vinner L, et al. Optimization and immune recognition of multiple novel conserved HLA-A2, human immunodeficiency virus type 1-specific CTL epitopes[J]. J Gen Virol, 2003, 84(Pt 9): 2409-2421.
[24]Meister G E, Roberts C G, Berzofsky J A, et al. Two novel T cell epitope prediction algorithms based on MHC-binding motifs; comparison of predicted and published epitopes from Mycobacterium tuberculosis and HIV protein sequences[J]. Vaccine, 1995, 13(6): 581-591.
[25]De Groot A S, Jesdale B M, Szu E, et al. An interactive Web site providing major histocompatibility ligand predictions: application to HIV research[J]. AIDS Res Hum Retroviruses, 1997, 13(7): 529-531.
[26]Uebel S, Tampé R. Specificity of the proteasome and the TAP transporter[J]. Curr Opin Immunol, 1999, 11(2): 203-208.
[27]Kuttler C, Nussbaum A K, Dick T P, et al. An algorithm for the prediction of proteasomal cleavages[J]. J Mol Biol, 2000, 298(3): 417-429.
[28]Nussbaum A K, Kuttler C, Hadeler K P, et al. PAProC: a prediction algorithm for proteasomal cleavages available on the WWW[J]. Immunogenetics, 2001, 53(2): 87-94.
[29]Toes R E, Nussbaum A K, Degermann S, et al. Discrete cleavage motifs of constitutive and immunoproteasomes revealed by quantitative analysis of cleavage products[J]. J Exp Med, 2001, 194(1): 1-12.
[30]Holzhütter H G, Fr?mmel C, Kloetzel P M. A theoretical approach towards the identification of cleavage-determining amino acid motifs of the 20 S proteasome[J]. J Mol Biol, 1999, 286(4): 1251-1265.
[31]Holzhütter H G, Kloetzel P M. A kinetic model of vertebrate 20 S proteasome accounting for the generation of major proteolytic fragments from oligomeric peptide substrates[J]. Biophys J, 2000, 79(3): 1196-1205.
[32]Altuvia Y, Margalit H. Sequence signals for generation of antigenic peptides by the proteasome: implications for proteasomal cleavage mechanism[J]. J Mol Biol, 2000, 295(4): 879-890.
Web-based tools for vaccine design
ZHANG Rongbo1,2★, DU Zhaohong1, WU Jing1,2, HU Dong1,2★
(1.Department of Immunology and Laboratory Medicine, Medical School, Anhui University of Science and Technology, Anhui, Huainan 232001, China; 2.Institute of Infection and Immunology, Anhui University of Science and Technology, Anhui, Huainan 232001, China;)
By now, it has been known that vaccines are one of the most effective preventative health tools available against infectious diseases, cancer, allergy, and immunologic imbalanced diseases. Owning to powerful information quantity and prediction ability, web-based central database and analysis system made vaccine design more easily accessible to researchers. Presently, these web-based tools are categorized based on sequence information, structure analysis and function prediction of bio-macromolecule. In terms of increasing bioinformatics tools emerged, we make a summary to classify these web-resource for more available to researchers.
Vaccine; Web-based tools; Prediction; Bioinformatics
國家自然科學基金(No.81202294);國家自然科學基金(No. 81172778);國家自然科學基金(No.61170172);安徽省自然科學基金資助項目(No. 1208085QH162);安徽理工大學博士科研啟動基金(No. 11003)
1.安徽理工大學醫(yī)學院分子免疫實驗室,安徽,淮南 232001 2. 安徽理工大學醫(yī)學院感染與免疫研究所,安徽,淮南 232001
★通訊作者:張榮波,E-mail: lory456@126.com;胡東,E-mail: austhudong@126.com