周豐豐,張亞琪
(1.吉林大學 計算機科學與技術(shù)學院,長春 130012; 2.吉林大學 符號計算與知識工程教育部重點實驗室,長春 130012)
Ⅰ類人類白細胞抗原(HLA-Ⅰ)是位于人體細胞表面的主要組織相容性復合體(MHC)蛋白,具有啟動特異性免疫應(yīng)答及提呈內(nèi)源性抗原等作用.HLA-Ⅰ分子可識別位于癌細胞表面的腫瘤抗原肽,但僅可與小部分抗原肽特異性結(jié)合,形成呈遞給T細胞受體的肽-HLA復合物,若T細胞抗原受體(TCR)能識別癌細胞表面上的肽-HLA復合物,則毒性T淋巴細胞會破壞癌細胞,從而幫助免疫系統(tǒng)在識別病原體方面發(fā)揮關(guān)鍵作用.因此,研究多肽與特定的HLA-Ⅰ分子的結(jié)合機制對癌癥免疫治療和基于蛋白質(zhì)的疫苗及藥物開發(fā)具有重要意義.
HLA-Ⅰ分子具有高度多態(tài)的特性,根據(jù)數(shù)據(jù)庫IMGT/HLA統(tǒng)計,目前已有超過23 000個Ⅰ類HLA等位基因,它們主要由HLA-A、B、C位點編碼,因此對于HLA-Ⅰ和多肽的結(jié)合預測模型分為兩類: 特異性模型和泛特異性模型.特異性模型即針對每個HLA-Ⅰ等位基因訓練一個對應(yīng)的預測模型,如NetMHC[1]和SMM[2]等; 泛特異性模型則是對所有同種異型的HLA-Ⅰ分子訓練一個通用預測模型,如NetMHCPan[3]等.目前,仍有很多HLA-Ⅰ等位基因只具有少量的已知結(jié)合肽,由于泛特異性模型使用多個等位基因的數(shù)據(jù)進行訓練,不會被訓練數(shù)據(jù)集的大小限制,因此本文提出的ProHLAⅠ框架是一種泛特異性模型.目前,主流的預測方法有基于序列評分函數(shù)的方法和基于機器學習的方法兩種.用于氨基酸序列預測問題的序列評分函數(shù)已有許……