999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

用于T細(xì)胞表位預(yù)測的分類器集成方法

2008-01-01 00:00:00鄭啟倫

摘要:T細(xì)胞表位預(yù)測技術(shù)對于減少實(shí)驗(yàn)合成重疊肽,理解T細(xì)胞介導(dǎo)的免疫特異性和研制亞單位多肽及基因疫苗均有重要意義。為彌補(bǔ)已有基于機(jī)器學(xué)習(xí)方法的T細(xì)胞表位預(yù)測模型的可理解性的不足并進(jìn)一步提高模型的預(yù)測精度,首先通過肽的預(yù)處理構(gòu)建出了存儲(chǔ)等長肽段的決策表,而后提出了基于粗糙集的分類器集成算法。該算法不但綜合利用了基于信息熵的屬性約簡完備算法和其他屬性約簡算法的優(yōu)勢,而且將T細(xì)胞表位預(yù)測領(lǐng)域中的錨點(diǎn)知識(shí)融入到了屬性值約簡過程中。最后利用該算法來預(yù)測MHC Ⅱ類分子HLA DR4(B1*0401)的結(jié)合肽,首次提取出了預(yù)測精度高且能幫助專家理解MHC分子與抗原肽的結(jié)合機(jī)理的產(chǎn)生式規(guī)則,為下一步的分子建模工作奠定了基礎(chǔ)。

關(guān)鍵詞:T細(xì)胞表位預(yù)測; 粗糙集; 規(guī)則獲取; 分類器集成

中圖分類號:TP18文獻(xiàn)標(biāo)志碼:A

文章編號:1001-3695(2008)01-0050-03

0引言

T細(xì)胞表位(T cell epitope)是指抗原經(jīng)過抗原提呈細(xì)胞(APC)加工后,由主要組織相容性復(fù)合體(MHC)分子提呈給T細(xì)胞受體(TCR)的短肽。由于MHC、抗原肽和TCR有極大多樣性,故三者之間可能存在的組合幾乎是無窮的。而通過純生物實(shí)驗(yàn)去尋找所需要的抗原肽(表位)幾乎是不可能的。這樣,就必須借助于計(jì)算機(jī)的海量數(shù)據(jù)處理能力,從數(shù)百萬的蛋白質(zhì)里找出既能與特定的MHC分子結(jié)合,又能與特定TCR結(jié)合的抗原肽,此過程被稱為T細(xì)胞表位預(yù)測。該預(yù)測技術(shù)對于減少實(shí)驗(yàn)合成重疊肽,理解T細(xì)胞介導(dǎo)的免疫特異性和研制亞單位多肽及基因疫苗具有重要意義。在現(xiàn)階段,T細(xì)胞表位預(yù)測技術(shù)的研究僅限于抗原肽與MHC分子的結(jié)合這一環(huán)節(jié),而未涉及到TCR與抗原肽-MHC分子復(fù)合物的特異性結(jié)合、抗原加工及肽轉(zhuǎn)運(yùn)過程等。本文的研究正是圍繞抗原肽與MHC分子的結(jié)合性展開的。

迄今為止,T細(xì)胞表位預(yù)測技術(shù)的研究方法主要分為以下幾類[1]:基于基序的方法、基于量化矩陣的方法、基于結(jié)構(gòu)的方法和基于機(jī)器學(xué)習(xí)的方法。與前三類方法相比,第四類方法由于能處理復(fù)雜的非線性模式,具有較強(qiáng)的自適應(yīng)和自學(xué)習(xí)能力,故能明顯提高預(yù)測準(zhǔn)確性。然而,目前基于機(jī)器學(xué)習(xí)的T細(xì)胞表位預(yù)測模型主要集中于ANNs、HMMs和SVM等的應(yīng)用上,而這些訓(xùn)練成功的預(yù)測模型所包含的知識(shí)蘊(yùn)涵在大量的參數(shù)中,這使得專家無法直觀理解模型所掌握的分類知識(shí)及其推理過程。而T細(xì)胞表位預(yù)測模型的可理解性對于進(jìn)一步了解T細(xì)胞介導(dǎo)的免疫特異性以及幫助生物學(xué)專家理解其自身的推理過程均具有重要意義,因而迫切需要找到一種易于人們理解且具有較強(qiáng)推廣能力的預(yù)測模型。

Pawlak提出的粗糙集理論為自動(dòng)規(guī)則獲取提供了一種值得嘗試的方法。其基本思想是在保持分類能力不變的前提下,通過對類似于數(shù)據(jù)庫表的決策表進(jìn)行數(shù)據(jù)約簡,即屬性約簡和屬性值約簡,歸納出易于人們理解的分類規(guī)則。由于屬性約簡的質(zhì)量影響著決策規(guī)則的繁簡和性能,因此一系列基于不同啟發(fā)性知識(shí)的屬性約簡算法被提出來了[2~4]。于是一個(gè)很自然的問題是:如何綜合各屬性約簡算法的優(yōu)點(diǎn)以提高獲取到的規(guī)則集分類器的推廣能力。在本文中,筆者構(gòu)造了一個(gè)基于粗糙集的分類器集成,即利用有限個(gè)單個(gè)規(guī)則集分類器對同一問題進(jìn)行學(xué)習(xí),且其對某輸入樣本的分類結(jié)果則由這有限個(gè)單個(gè)規(guī)則集分類器對該輸入樣本的分類結(jié)果共同決定。

1系統(tǒng)原型

根據(jù)對T細(xì)胞表位預(yù)測機(jī)理的理解,首先通過肽的預(yù)處理把一個(gè)生物學(xué)問題轉(zhuǎn)換為一個(gè)可供計(jì)算的數(shù)學(xué)問題;然后利用基于粗糙集的分類器集成算法和相關(guān)錨點(diǎn)知識(shí)構(gòu)建一個(gè)計(jì)算模型來提取有效的預(yù)測MHC Ⅱ類結(jié)合肽的規(guī)則。1.1肽的預(yù)處理

MHC Ⅱ類分子具有高度多態(tài)性的細(xì)胞表面結(jié)構(gòu),其凹槽的兩端是開放的。與MHCⅡ類分子相結(jié)合的肽段會(huì)延伸至凹槽之外,且其長度變化較大(10~30個(gè)氨基酸)。然而MHCⅡ類分子結(jié)合肽的核心區(qū)約為13個(gè)氨基酸殘基;進(jìn)一步的研究表明,其中僅有9個(gè)氨基酸所組成的肽段(簡稱為九肽)實(shí)為與MHC Ⅱ類分子結(jié)合所必需。對于九肽而言,其中一個(gè)主要錨定殘基是結(jié)合所必需的,而其他幾個(gè)次級錨定殘基則會(huì)影響其結(jié)合能力。因此,肽的預(yù)處理的目的是把不等長的肽段轉(zhuǎn)變?yōu)榫烹摹F淞鞒淌牵涸诠潭艘粋€(gè)初級錨點(diǎn)后,利用遺傳算法來優(yōu)化聯(lián)配矩陣[5],然后利用獲得的聯(lián)配矩陣來獲取九肽。具體地,在對結(jié)合性肽段進(jìn)行預(yù)處理的時(shí)候,先固定一個(gè)初級錨點(diǎn),然后針對每一條肽段找出所有可能的候選九肽,接著利用優(yōu)化的聯(lián)配矩陣來給候選九肽打分,得分最高的某條候選九肽則被看做其對應(yīng)的肽段的預(yù)處理結(jié)果;并且預(yù)處理后的九肽的親和力類別即為預(yù)處理前的原肽段的親和力類別。而對于非結(jié)合性肽段而言,在固定一個(gè)初級錨點(diǎn)后,每條肽段分解后獲得的多條九肽即為該肽段預(yù)處理后的結(jié)果[5]。這樣通過肽的預(yù)處理,這一預(yù)測MHC Ⅱ類結(jié)合肽的生物學(xué)問題就被轉(zhuǎn)換成為了一個(gè)典型的模式分類問題,即在利用已知親和力類別的九肽作為訓(xùn)練樣本對分類器進(jìn)行成功的訓(xùn)練后,該分類器即可用于判斷某未知結(jié)合性的肽段的親和力類別。

1.2基于粗糙集的分類器集成算法

在粗糙集理論中,決策表由條件屬性和決策屬性所組成。若把經(jīng)過肽預(yù)處理后獲得的九肽作為條件屬性部分,而其對應(yīng)的親和力類別作為決策屬性部分,則一個(gè)存儲(chǔ)九肽的決策表就被建造出來了。在此決策表中,條件屬性的個(gè)數(shù)為180,分別對應(yīng)著9個(gè)位置上的20種可能的氨基酸,其值域?yàn)閧0,1}。其中,“1”表示在對應(yīng)位置上出現(xiàn)了某個(gè)氨基酸,而“0”則表示該位置上沒有出現(xiàn)該氨基酸。而決策屬性的個(gè)數(shù)為1,對應(yīng)于MHC Ⅱ類分子結(jié)合肽的親和力的類別,其值域?yàn)閧0,1,2,3}。其中,0、1、2和3分別表示非結(jié)合肽、低親和力、中親和力和高親和力的結(jié)合肽。

基于上述構(gòu)造出的決策表,本文提出了基于粗糙集的分類器集成算法。該算法包括以下三個(gè)子算法:a)候選規(guī)則集生成子算法,用于獲取多個(gè)各不相同的、性能優(yōu)良的單個(gè)規(guī)則集分類器;b)規(guī)則集篩選子算法,用于從a)所獲得的候選規(guī)則集分類器中挑選出基規(guī)則集分類器;c)決策融合子算法,用于將各基規(guī)則集分類器的輸出決策加以融合以形成集成分類器的最終決策。

1.2.1候選規(guī)則集生成子算法

在候選規(guī)則集生成子算法中,本文首先在文獻(xiàn)[2]的基礎(chǔ)上提出了基于信息熵的屬性約簡完備算法。該算法是以信息熵來刻畫屬性重要性,并與文獻(xiàn)[3]中的RJ算法融合,以便能在保持決策表分辨能力不變的前提下獲取不帶任何冗余屬性的屬性約簡。然后將該算法與其他各種屬性約簡算法組合在一起以獲取多個(gè)不同的屬性約簡;接著基于這些不同的屬性約簡,將T細(xì)胞表位預(yù)測領(lǐng)域中所包含的錨點(diǎn)知識(shí)融入到改進(jìn)后的屬性值順序約簡算法中,以此獲得多個(gè)單個(gè)規(guī)則集分類器。

在屬性值約簡階段,為了提高計(jì)算效率并改善其效果,本文對文獻(xiàn)[3]中的OAVRA算法進(jìn)行了改進(jìn),從而提出了基于錨點(diǎn)知識(shí)的屬性值順序約簡改進(jìn)算法。本算法與OAVRA算法不同之處在于:a)本算法不是先對決策表中所有記錄的全部屬性值進(jìn)行分類,而是先從決策表中一次抽取一條記錄;然后對該條記錄的屬性值進(jìn)行分類,根據(jù)分類結(jié)果獲得一條規(guī)則;接著將決策表中能利用該規(guī)則作出決策的記錄從決策表中刪除。依此類推,最后直至整個(gè)決策表被刪空。b)本算法還在規(guī)則獲取時(shí)融入了T細(xì)胞表位預(yù)測領(lǐng)域中所包含的錨點(diǎn)知識(shí),即對于第二和三類的屬性值,挑選順序是優(yōu)先選擇當(dāng)前記錄所對應(yīng)的九肽中初級錨點(diǎn)位置所對應(yīng)屬性的屬性值。

候選規(guī)則集生成子算法具體流程如下:

a)利用現(xiàn)有的各種屬性約簡算法,如基于信息熵的屬性約簡完備算法、基于貢獻(xiàn)率的屬性約簡算法[4]、屬性約簡的改進(jìn)算法(AR1算法)[3]和屬性約簡的改進(jìn)增強(qiáng)算法(AR2算法)[3]等,求出多個(gè)(此處設(shè)為m個(gè))不同的屬性約簡。

b)對第a)步獲取的m個(gè)屬性約簡,調(diào)用基于錨點(diǎn)知識(shí)的屬性值順序約簡改進(jìn)算法,并通過采用n種不同的樣本輸入順序,共獲得(m×n)個(gè)不同的規(guī)則集。

1.2.2規(guī)則集篩選子算法

由于在獲得的眾多(m×n)個(gè)規(guī)則集中,經(jīng)常會(huì)存在一些性能較差的規(guī)則集,而它們的存在通常會(huì)對正確分類造成干擾。因此有必要對獲得的這些規(guī)則集進(jìn)行篩選,從中挑選出部分性能優(yōu)良的規(guī)則集來作為基規(guī)則集分類器。這里,將每一規(guī)則集對各類評估集樣本分類的正確率記為評估值。該子算法具體步驟如下:

a)將評估集(設(shè)包含k個(gè)樣本)輸入由候選規(guī)則集生成子算法所獲得的(m×n)個(gè)候選規(guī)則集中,從而產(chǎn)生出k行、(m×n)列大小的分類決策矩陣。

b)比較分類決策矩陣中每一行中的各個(gè)元素與該行所對應(yīng)的驗(yàn)證樣本的所屬類別之間的異同,求出每一規(guī)則集在評估集上相對各類中表現(xiàn)出的評估值,并按照該評估值的高低對各個(gè)規(guī)則集賦以優(yōu)先順序,即評估值高的規(guī)則集越優(yōu)先。

c)從(m×n)個(gè)候選規(guī)則集中取出前h(1≤h≤m×n)個(gè)規(guī)則集,作為篩選后獲得的規(guī)則集集合。

1.2.3決策融合子算法

對于一給定樣本,采用不同方法獲取的規(guī)則集很難輸出同一結(jié)果,因此有必要對各規(guī)則集的決策輸出進(jìn)行集成。本文采用相對多數(shù)投票法進(jìn)行最終分類決策。當(dāng)平局出現(xiàn)時(shí),則采用加權(quán)平均法選擇相應(yīng)規(guī)則集進(jìn)行分類決策。其中,權(quán)重即為規(guī)則集篩選子算法中的各規(guī)則集所對應(yīng)各分類的評估值。

2實(shí)驗(yàn)結(jié)果分析

本文的實(shí)驗(yàn)數(shù)據(jù)集由Vladimir Brusic教授提供。該數(shù)據(jù)集由基因HLA DR4 (B1*0401)編碼的MHC Ⅱ類分子結(jié)合肽構(gòu)成,共650條。肽的長度介于9~27個(gè)氨基酸。根據(jù)SYFPEITHIY[6]軟件,可以獲取HLA DR(B1*0401)結(jié)合肽的初級錨點(diǎn)。在固定第一個(gè)位置為F、Y、W、I、L、V或M后,按前述的肽的預(yù)處理方法進(jìn)行預(yù)處理。這樣共獲取了915條九肽。在去掉一些不確定或未知親和力的九肽后,將剩余的764條九肽構(gòu)成一決策表。其中,非結(jié)合肽為553條,低、中和高親和力結(jié)合肽分別為46、46和116條。該決策表分為三部分,即訓(xùn)練集、評估集和測試集。所有的實(shí)驗(yàn)均采用四折分層交叉驗(yàn)證方法。

首先調(diào)用基于粗糙集的分類器集成算法共構(gòu)建了三個(gè)分類器集成,其實(shí)驗(yàn)詳情如表1中的實(shí)驗(yàn)1~3;再利用測試集來測試這三個(gè)集成分類器,其結(jié)果如表2中的實(shí)驗(yàn)1~3。

表2中的錯(cuò)誤率及其標(biāo)準(zhǔn)差來自于10輪的平均結(jié)果。對于基于粗糙集理論的單個(gè)規(guī)則集算法,實(shí)驗(yàn)的詳細(xì)描述及測試結(jié)果分別見表1和表2中的實(shí)驗(yàn)編號4~6;對于基于神經(jīng)網(wǎng)絡(luò)的預(yù)測算法,實(shí)驗(yàn)的詳細(xì)描述及測試結(jié)果分別見表1和表2中的實(shí)驗(yàn)編號7。因?yàn)閬碜栽u估集中的信息被基于粗糙集的分類器集成算法用來構(gòu)建集成分類器,故為公平起見,當(dāng)基于粗糙集的單個(gè)規(guī)則集算法和基于神經(jīng)網(wǎng)絡(luò)的方法被用于與基于粗糙集的分類器集成算法進(jìn)行比較的時(shí)候,就將訓(xùn)練集和評估集合并為一個(gè)新訓(xùn)練集,即此時(shí)決策表被分為兩部分:新訓(xùn)練集和測試集。

從列舉在表2中的測試結(jié)果可以看出:

a)對應(yīng)于實(shí)驗(yàn)1~3的基于粗糙集的分類器集成算法,明顯地在預(yù)測性能上強(qiáng)于對應(yīng)于實(shí)驗(yàn)4~6的算法。具體而言,與單個(gè)規(guī)則集分類器相比,集成分類器在預(yù)測錯(cuò)誤率上有顯著的降低。

b)與基于神經(jīng)網(wǎng)絡(luò)的預(yù)測算法相比,集成后的規(guī)則集在預(yù)測錯(cuò)誤率上也有所降低。更為重要的是,蘊(yùn)涵在規(guī)則集中的知識(shí)是可理解的,其決策推理過程也是易于解釋的。事實(shí)上,在九肽中的各位置上,不同的氨基酸殘基對多肽與MHC分子的結(jié)合有著不同的影響,有的氨基酸殘基有利于結(jié)合,而有的則不利于結(jié)合。基于粗糙集的分類器集成算法獲得的規(guī)則恰好能有效地表達(dá)出此種信息,幫助專家將其注意力集中于這些規(guī)則所表示的某些有趣的模式上,以便更好地了解MHC分子與抗原肽的結(jié)合機(jī)理,并為下一步的分子建模奠定了基礎(chǔ)。

3結(jié)束語

鑒于T細(xì)胞表位預(yù)測模型的可理解性對于進(jìn)一步了解T細(xì)胞介導(dǎo)的免疫特異性具有重要意義。本文首先在文獻(xiàn)[2]的基礎(chǔ)上構(gòu)造出了一種基于信息熵的屬性約簡完備算法;然后,該算法與其他基于不同啟發(fā)性知識(shí)的屬性約簡算法一同被用來獲取多個(gè)屬性約簡;接著提出了基于錨點(diǎn)知識(shí)的屬性值順序約簡改進(jìn)算法,以此在上述屬性約簡的基礎(chǔ)上獲得多個(gè)不同的結(jié)合T細(xì)胞表位預(yù)測領(lǐng)域知識(shí)的單個(gè)規(guī)則集分類器;最后將上述這些單個(gè)規(guī)則集分類器嵌入到一個(gè)分類器集成的計(jì)算框架中,以此來獲得預(yù)測性能更優(yōu)且推理過程較易理解的集成分類器。這就是本文提出的基于粗糙集的分類器集成算法。

本文利用基于粗糙集的分類器集成算法預(yù)測了MHC Ⅱ類分子HLA DR4(B1*0401)的結(jié)合肽,并首次提取到了預(yù)測精度較高且能幫助專家理解MHC分子與抗原肽的結(jié)合機(jī)理的產(chǎn)生式規(guī)則,為下一步的分子建模工作奠定了基礎(chǔ)。

參考文獻(xiàn):

[1]MARKUS S, TONI W, STEFAN S. Combining computer algorithms with experimental approaches permits the rapid and accurate identification of T cell epitopes from defined antigens[J]. Journal of Immunological Methods, 2001,257(1/2):1 16.

[2]王國胤,于洪,楊大春.基于條件信息熵的決策表約簡[J].計(jì)算機(jī)學(xué)報(bào),2002,25(7):759-766.

[3]PAN Dan,ZHENG Qi lun,WEN Gui hua,et al. A novel self optimizing approach for knowledge acquisition[J].IEEE Transactions on Systems, Man, and Cybernetics:Part A,2002,32(4):505-514.

[4]MAK B, MUNAKATA T. Rule extraction from expert heuristics: a comparative study of rough sets with neural networks and ID3[J]. European Journal of Operational Research, 2002,136(1):212-229.

[5]BRUSIC V, GEORGE R, MARGO H, et al. Prediction of MHC class Ⅱ binding peptides using an evolutionary algorithm and artificial neural network[J]. Bioinformatics, 1998,14(2):121 130.

[6]RAMMENSEE H, BACHMANN J, EMMERICH N P, et al. SYFPEITHI: database for MHC ligands and peptide motifs[J]. Immunogenetics, 1999,50(3-4):213-219.

“本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文”

主站蜘蛛池模板: a在线亚洲男人的天堂试看| 青青热久免费精品视频6| 99视频只有精品| 国产97区一区二区三区无码| 综合色区亚洲熟妇在线| 国产成人综合久久精品下载| 伊人天堂网| 亚洲制服丝袜第一页| 免费一级α片在线观看| 97国产精品视频自在拍| 亚洲最新地址| 亚洲精品手机在线| 久久免费视频播放| 亚洲欧美不卡视频| 国产欧美网站| 午夜国产精品视频| 国产偷倩视频| 国产午夜精品一区二区三区软件| 97视频精品全国免费观看| 亚洲一区第一页| 免费国产小视频在线观看| 成人午夜天| 亚洲Va中文字幕久久一区| 欧美日韩高清| 女人18毛片久久| 在线无码九区| 精品视频第一页| 香蕉在线视频网站| 国产精品浪潮Av| 亚洲香蕉久久| 五月天香蕉视频国产亚| 激情五月婷婷综合网| 欧美亚洲日韩不卡在线在线观看| 国产无码性爱一区二区三区| 欧美国产日产一区二区| 国产成人一区二区| 国产精品夜夜嗨视频免费视频| 99久久精品久久久久久婷婷| 色国产视频| 97在线免费视频| 97视频在线精品国自产拍| 中文字幕一区二区人妻电影| 日韩久久精品无码aV| 亚洲精品天堂自在久久77| 91系列在线观看| 日韩AV手机在线观看蜜芽| 在线观看欧美国产| 都市激情亚洲综合久久| 福利姬国产精品一区在线| 日韩第八页| 亚洲91精品视频| 免费看的一级毛片| 国产在线麻豆波多野结衣| 97人人模人人爽人人喊小说| 激情综合网激情综合| 亚洲欧美日韩成人高清在线一区| a色毛片免费视频| 久久久久久久97| 国产三级成人| 九色在线观看视频| 国产呦精品一区二区三区下载| 影音先锋亚洲无码| 国产丝袜91| 国产午夜一级毛片| 亚洲av综合网| 毛片一级在线| 国产精品大白天新婚身材| 亚洲高清中文字幕| 无码免费的亚洲视频| 欧美午夜理伦三级在线观看| 91无码人妻精品一区| 亚洲swag精品自拍一区| 日韩av高清无码一区二区三区| 日韩无码真实干出血视频| 一级毛片免费播放视频| 无码av免费不卡在线观看| 国产成人高清精品免费软件| 色悠久久久| 人妻精品久久无码区| 国产高颜值露脸在线观看| 99精品视频播放| 精品少妇人妻无码久久|