999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于離散增量的免疫分類器在模式生物基因中應用

2009-01-01 00:00:00王煉紅段蘭燕
計算機應用研究 2009年4期

(1.湖南大學 電氣與信息工程學院,長沙 410082;2.中興通訊股份有限公司, 廣東 深圳 518057)

摘 要:首先把線蟲、酵母和擬南芥三種模式生物基因組中的內含子、外顯子和基因間序列歸為三類, 滑動統計這些序列中64種三核苷的重復出現次數作為離散源的狀態參數,這樣就得到了這些序列的64維特征值,并將這些數據分成訓練樣本集和測試樣本集。根據免疫進化網絡理論,用離散增量作為抗體—抗原間的親和度函數,把訓練集看成抗原,不斷刺激免疫網絡向識別抗原的方向進化,構造了一個基于離散增量的免疫分類器。通過測試表明,該分類器性能優良,分類預測準確率達到了85%以上。

關鍵詞:離散增量;免疫分類器;模式生物;基因序列

中圖分類號:TP18; Q81文獻標志碼:A

文章編號:1001-3695(2009)04-1409-03

Application of immune classifier based on increment of diversity in model species genomes

WANG Lian-hong1,ZHANG Jing1,DUAN Lan-yan2(1.College of Electric Information Engineering, Hunan University, Changsha 410082, China;2.ZTE Corporation, Shenzhen Guangdong 518057, China)

Abstract:This paper divided the DNA sequences of three model species including C.elegans,S.cerevisiae and A.thaliana into three kinds: intron, exon,intergenic DNA.At first,composed a group of status parameters of the source of diversity of the respective frequency of the 64 codons of a sequence which were sliding calculated.Expressed each sequence of intron,exon and intergenic DNA by a 64-dimension eignvalue and divided all of these sequences’ 64-dimension samples into training sample set and testing sample set. Then according to the immune network theory,constructed a immune classifier based on the increment of diversity, which applied the increment of diversity as affinity function and made the immune network evolve in the direction of identifying the antigens by extracting unceasingly the antigen, which was an element ofthe training sample set, to stimulate the immune network.Finally, the classifier has high performance and its prediction accuracy is up to 85% by test.

Key words:increment of diversity;immune classifier;model species;DNA sequences

隨著人類基因組計劃(HGP)的啟動和實施,基因序列正以每天超過50萬個堿基對的速度加入到數據庫中,其提交的序列速度呈指數級增長,大約每14個月就會增長一倍。在當前基因組信息爆炸的時代,如何處理和分析這些海量的生物信息數據是生物信息工作者面臨的巨大挑戰。生物信息學是指利用計算機及相關技術對各種生物信息數據進行提取、儲存、處理和分析。其關鍵點主要在兩方面:a)生物信息的數學解析,如由A/G/C/T四堿基表達的DNA序列如何映射到數據空間,得到該序列的有效特征值;b)生物特征數據的處理,即從海量數據中挖掘出信息,尋找新的基因或預測基因的功能進而直到分子進化研究。對于a),一種是采用統計方法獲得DNA序列的特征信息,如AGCT四堿基在序列中的含量、兩堿基含量(即四種堿基的兩兩組合共16種)和三聯體含量法(AGCT四堿基三字組合共64種);另一種是從信息角度考慮,計算離散量和信息熵。對于b),現在多數學者采用智能計算的方法(如人工神經網絡、支持向量機和模糊運算等[1~3])處理數據、挖掘信息。本文將從信息角度出發,對擬南芥、酵母菌和線蟲三種模式生物的外顯子、內含子和基因間序列采用離散量方法對其DNA序列進行有效特征提??;然后根據數據測試集,通過進化免疫網絡算法訓練分類器;最后將所得的分類器用于檢驗集的預測。

1 離散量與離散增量

雖然離散量(measure of diversity)和信息熵(information entropy)都是從信息的角度對狀態空間的一種描述,度量的基礎都是根據信息量度的對數函數,從形式上看, 離散量似乎像信息熵, 但是兩者意義不同: 信息熵是對一個信息符號不確定性的度量, 也是對狀態不確定性或紊亂性的一種描述;而離散量是對整體不確定性多少的度量, 也是離散多少的度量。信息熵大, 表示不確定性的程度大, 但具有的離散量并不一定多; 反之,離散量多并不意味著紊亂性的程度大。

1.1 離散量定義及性質

依據文獻[4,5],對于s個信息符號的狀態空間, 用ni表示第i個狀態出現的個數, 如此離散源X:(n1,n2,…,ns)的離散量為

D(X)=D(n1,n2,…,ns)=N logb N-si=1ni logb ni(1)

其中N=si=1ni,對數的底b=10時,離散量的單位為哈特。如此確立的離散量具有以下性質: 

a)非負性,D(n1,n2,…,ns)≥0。

b)對稱性,D(n1,n2,…,ni,…,nj,…,ns)=D(n1,n2,…,n*i,…,n*j,…,ns)。其中n*i=nj,n*j=nj(i≠j),表示離散量的任意兩個變量ni和nj變換位置以后離散量不變。

c)擴展性,D(n1,n2,…,ns)=D(n1,n2,…,ns,0)。

d)可加性,D(n11,n12,…,n1s;n21,n22,…,n2s;…;nr1,nr2,…,nrs)=D(m1,m2,…,mr)+ri=1D(ni1,ni2,…,nis)。其中 mi=sk=1nik(i=1,2,…,r)。

e)極值性。如果離散源的s個數量ni相等,即n×s=N=si=1ni時,離散量達到極大值, 則D(n1,n2,…,ns)≤Ds(n,n,…,n)=sn log s成立。

f)等倍增性。離散量與離散源以相同倍數增長時,D(kn1,kn2,…,kns)=kD(n1,n2,…,ns)或寫成D(kX)=kD(X)。

1.2 離散增量

如果有兩個離散源X:(n1,n2,…,ns),Y:(m1,m2,…,ms),則離散增量(increment of diversity)定義如下:

Δ(X,Y)=D(X+Y)-D(X)-D(Y)=D(M+N)-si=1D(mi+ni)

其中:M=si=1mi;N=si=1ni;D(M+N)=(M+N) logb(M+N)-M logb M-N logb N;D(mi+ni)=(mi+ni) log(mi+ni)-mi log mi-ni log ni。

由離散量與離散增量的定義可以證明,離散增量的取值為0≤Δ(X,Y)≤D(M+N)。離散量從0 增加到D(M+N)體現了兩組數據X與Y之間的相似程度,Δ(X,Y)越小,則兩組數據越相似。

2 基于離散增量的免疫分類器構造

人工免疫系統(AIS)在數據分析領域最成功的兩種免疫網絡模型是Timmis等人[6]提出的資源有限人工免疫系統(RLAIS)和De Castro等人[7]提出的aiNet。該系統根據免疫網絡理論,模擬B細胞相互作用機制,構造了功能類似的人工識別球(ARB)進行數據聚類分析。如果把聚類問題的特征向量看做抗原, 則這樣一個系統中的B細胞是在同樣的特征空間中隨機產生的向量。在RLAIS中,這些抗原被提呈給B細胞系統。而那些具有最高親和力的B細胞會克隆和變異,經過抗原刺激、鄰近抗體的刺激與抑制,最后,只有對提呈抗原應答最強烈即與抗原空間上最接近或相似的ARB才存活下來,形成一個抗原聚類的系統。De Castro研究了基于免疫網絡模型aiNet的高維原始數據的聚類分析,通過人工免疫網絡的進化實現對冗余數據的去除,深入研究了數據的結構表示和空間分布,并進一步揭示出了數據簇內的相互關系。該算法模擬免疫網絡對抗原的刺激過程,主要包括抗體—抗原識別、免疫克隆增值、親合度成熟以及網絡抑制。上述兩種網絡模型均以抗原入侵抗體網絡引發的一系列免疫響應,如克隆增值和親合度成熟等為生物基礎,在算法上模擬這一復雜的生物學過程,以獲得求解問題的人工免疫系統方法。由此可以看出,親合度成熟是算法中的關鍵之一,它指導免疫網絡進化的方向。許多學者常采用歐氏距離、漢明距離[8,9]等作為親合度函數。而在本文中,將嘗試采用離散增量作為抗體—抗原之間的親合度函數和抗體與抗體之間的相似度函數來訓練分類器,進行分類預測。

分類是有監督學習,通過學習可以對未知的數據進行預測。要構造分類器,需要有一個訓練樣本數據集作為輸入。訓練集由一組數據庫記錄或元組構成,每個元組是一個由有關字段(又稱屬性或特征)值組成的特征向量。此外,訓練樣本還有一個類別標記。一個具體樣本的形式為Ag=(v1,v2,…,vs;cj)。其中:vi表示屬性值;cj(j=1,2,…,m)表示類別。若有r個訓練樣本,則訓練集大小為r×s。本文中分類算法將訓練數據集看做抗原(Ag),將算法中產生反映抗原屬性特征的數據看做抗體Ab,然后模擬免疫網絡抗體—抗原之間的相互刺激和作用來實現數據的處理,最后保留對應m個類別的記憶細胞池Mj(j=1,2, …,m),對未知的數據進行預測分類。算法步驟如下:

a)每類隨機產生N個初始化抗體Abj=(w1,w2,…,ws);j=1,2, …,N,即有N個大小為s(本算法中N=100)的初始抗體群,同時設置訓練代數P=100作為訓練結束標志。

b)把訓練樣本集看成Ag。根據類別cj每次提呈該類訓練集中的一個抗原Agi(i=1,2, …,r)進行免疫學習與識別。

c)采用離散增量計算抗原與抗體之間的親和度Δ(Agi,Abj):

Δ(Agi,Abj)=D(Agi+Abj)-D(Agi)-D(Abj)=D(V+W)-si=1D(vi+wi)(2)

其中:V=si=1vi,W=si=1wi,D(V+W)=(V+W)logb(V+W)-V× logb V-W logb W;D(vi+wi)=(vi+wi) log(vi+wi)-vi log vi-wi log wi。

然后根據親和度排序,選擇親和度高的m個抗體作為網絡細胞,對m個網絡細胞進行克隆操作,其克隆數與親和度成正比。此時可獲得增值后的網絡細胞群C。

d)對克隆后的網絡細胞群進行變異操作,其方式如下:

C*=C-α(C-CAg)(3)

其中:C代表由c)得到的網絡細胞群;CAg表示克隆抗原細胞;α為變異率矩陣。變異使抗體朝向識別抗原的方向進化。CAg和α的規模與C一樣。

e)計算變異后的網絡細胞群C*與本次提呈抗原的親和度。根據親和度排序,優選一定百分比η%(一般選擇25%左右)的網絡細胞作為本次提呈抗原的記憶細胞MAgi,并根據抗原的類別Cj,將MAgi添加進相應的記憶細胞池Mj中。

f)判斷所有抗原刺激結束否,如果沒有,返回b)。

g)根據獨特型網絡理論,將m個記憶細胞池Mj實行網絡抑制操作。該操作計算每個記憶細胞池中抗體間的相似度,這里仍采用離散增量,如式(4)所示。清除相似度小于閾值σs的記憶細胞,最后得到壓縮后的記憶細胞池Mj。

Δ(Abi,Abj)=D(Abi+Abj)-D(Abi)-D(Abj)(4)

h)判斷訓練代數結束否,如果沒有,首先將每類的記憶細胞池中的記憶細胞與隨機生成的N個抗體構成新的該類抗體,然后返回b)。

i)提呈待分類的數據集,與m個記憶細胞池中的每個抗體計算離散增量,然后采用最近鄰法則判斷每個抗原的類屬性。輸出最終結果。

3 基于離散增量的免疫分類器在模式生物中的應用

目前大腸桿菌、酵母、擬南芥、果蠅和線蟲在基因組序列信息研究上取得了重大的進展,并且成為后基因組研究的主要模式生物材料,在基因功能、轉錄組、蛋白質組等方面獲得了重要的成果,為高等生物以及人基因組的研究提供了很好的借鑒,并為深入認識它們以及生命進化提供了基本的信息。

本文中三種模式生物線蟲、酵母和擬南芥的基因組數據來自GenBank數據庫。線蟲、酵母和擬南芥全基因組序列按照外顯子、內含子和基因間序列分成三類,即分類器中類別數m=3。其中從線蟲的6條染色體中取用了35 823條內含子、34 796條外顯子、15 784條基因間序列;酵母從16條染色體中取用了121條內含子、2 953條外顯子、5 772條基因間序列;擬南芥從4條染色體中取用了40 785條內含子、44 995條外顯子、20 084條基因間序列。每種生物的三類數據的訓練樣本集和測試樣本集大小如表1所示。訓練樣本集用來有指導地訓練分類器。測試樣本集用來檢驗該分類器的預測性能。

表1 三種模式生物基因序列樣本數據分布

模式基因訓練集測試集合計

C. elegans

Intron17 35418 46935 823

Exon16 73918 05734 796

Intergenic DNA7 6178 16715 784

S. cerevisiae

Intron5863121

Exon1 4841 4692 953

Intergenic DNA2 8992 8735 772

A.thaliana

Intron20 32920 45640 785

Exon22 72822 26744 995

Intergenic DNA9 74710 33720 084

由于不同模式的三核苷(三聯體)內含子、外顯子和基因間序列中的重復情形有所不同,取三核苷的64(43)個模式作為狀態空間的參量, 滑動統計其所有樣本上各個模式在每條序列中的重復次數作為特征參量值。比如在一條內含子中三核苷AAG重復出現了n次,則參量AAG的取值為n,這樣就得到一個64維的離散量Ag=(v1,v2,…,vs;cj)。這里,s=64,表明每條內含子、外顯子和基因間序列是用64維的特征矢量表示;j=1,2,3,分別對應內含子、外顯子和基因間序列三類。首先用程序對選擇的基因序列作統計處理,分別得到三種模式生物的所有內含子、外顯子和基因間序列中的64維矢量特征值;然后將其分成訓練集和測試集兩部分,用訓練集訓練免疫分類器;最后采用訓練所得的分類器預測測試集的類別。

這里采用Guigo的程序預測性能評價指標:敏感性(sensitivity)、特異性(specificity)和準確率(accuracy)[10]。其定義如下:如果待測序列中有M1條序列是內含子,M2條序列是外顯子,M3條序列是基因間序列,用程序對序列進行預測的結果是:NI條序列被識別為內含子(NI=N11+N12,N11∈M1,N12∈M2或M3),NE條序列被識別為外顯子(NE=N21+N22,N21∈M2,N22∈M1或M3),則對內含子預測的敏感性Sn=N11/M1,對外顯子預測的敏感性Sn=N21/M2,它表示程序的預測能力;而內含子預測的特異性Tn=N11/NI,對外顯子預測的特異性Tn=N21/NE,它表示預測結果的可信賴程度;預測結果的準確率是敏感性和特異性的平均值。對基因間序列的敏感性、特異性及準確率的定義同上。采用文章中的免疫分類器,三種模式基因序列處理結果如表2所示。

由表2結果可知,訓練集的預測性能普遍高于測試集,這是因為分類器本身是采用訓練集進行有指導的學習,采用文中免疫分類算法所構造的分類器能更準確地反映該訓練類樣本特征。與文獻[11,12]中僅采用標準離散源和最小離散增量的方法相比,該分類算法能實現抗體群自我調節,經過抗原(訓練樣本)反復刺激產生免疫反應后保留的抗體群,即記憶細胞池Mi,不但能體現訓練集中樣本的一致性,還能體現樣本的多樣性和特異性。最后,將該分類器用于測試集進行檢驗,同樣獲得了比較滿意的結果。但該分類算法計算量較大,程序執行時間較長。

4 結束語

利用模式生物基因組與人類基因組之間編碼順序和組織結構上的同源性, 可用單一或簡單的生物模式闡明高等生物特別是人的基因組在結構以及物種進化的內在聯系,目前已從模式生物之間以及人類之間發現了一些共性特征以及各自的獨特性。本文采用線蟲、酵母和擬南芥三種模式生物,將其基因組中的內含子、外顯子和基因間序列歸為三類, 滑動統計這些序列中64 種三核苷的重復出現次數作為離散源的狀態參數。這樣就得到了這些序列的64維特征值,并將這些數據分成訓練樣本集和測試樣本集。根據免疫進化網絡理論,用離散增量作為抗體—抗原間的親和力函數,將訓練樣本集看成抗原,模擬免疫網絡對抗原的一系列刺激過程,如抗體—抗原識別、免疫克隆增值、親合度成熟和網絡抑制等,構造了一個基于離散增量的免疫分類器。最后,用該分類器對訓練集和測試集進行測試,結果表明該分類器性能優良,分類預測準確率達到了85%以上。同時,也可嘗試將此方法用于蛋白質的結構功能預測及其他分類應用領域。

參考文獻:

[1]

由偉,劉亞秀.用人工神經網絡模型對DNA序列進行分類[J].科技信息,2007(25):89-90.

[2]張煥萍,宋曉峰,王惠南.基于離散粒子群和支持向量機的特征基因選擇算法[J].計算機與應用化學,2007,24(9):1159-1162.

[3]李銀山,楊春燕,張偉.DNA序列分類的神經網絡方法[J].計算機仿真,2003,20(2):65-68.

[4]徐克學.生物數學[M].北京:科學出版社,2001.

[5] 呂志清,李前忠.用離散量預測蛋白質的結構型[J].生物物理學報, 2001,17(4):703- 711.

[6]TIMMIS J,NEAL M.A resource limited artificial immune system for data analysis[J].Knowledge Based System,2001,14(3-4):121-130.

[7]De CASTRO L N,ZUBEN F V.Artificial immune system,partⅠ:basic theory and application,TR-DCA 01/99[R].1999.

[8]叢琳,沙宇衡,焦李成.基于免疫克隆選擇算法的圖像分割[J].電子與信息學報,2006,28(7):1170-1173.

[9]劉若辰,賈建,趙夢玲,等.一種免疫記憶動態克隆策略算法[J].控制理論與應用,2007,24(5):777-783.

[10]BURSET M,GUIGO R.Evaluation of gene structure prediction program[J].Genomics,1996,34(3):353- 367.

[11]CHEN Cui-xia,LI Qian-zhong,LIN Hao.The identification of exon intron and intergenic DNA in the model species genomes[J].Acta Scientiarum Naturalium Universitatis Neimongol,2005,36(7):166-172.

[12]鮑衛華,李前忠.預測線蟲和酵母基因組中內含子、外顯子及基因間序列的離散增量方法[J].內蒙古大學學報:自然科學版,2004,35(1):60-64.

主站蜘蛛池模板: 伊人久久久大香线蕉综合直播| 亚洲精品第1页| 国产精品性| 亚洲精品国产日韩无码AV永久免费网| 国产午夜一级淫片| 97se综合| 丁香五月激情图片| 欧美日韩午夜视频在线观看| 精品无码一区二区三区在线视频| 日本一本正道综合久久dvd | 伊人中文网| 国产乱人激情H在线观看| 欧美综合在线观看| 国产欧美精品专区一区二区| 亚洲欧美日韩另类在线一| 99热亚洲精品6码| 国产美女自慰在线观看| 91小视频在线观看| 精品国产中文一级毛片在线看| 国产熟睡乱子伦视频网站| h视频在线观看网站| 欧美成一级| 在线国产毛片| 在线观看精品自拍视频| 国产成人精品男人的天堂| 中文字幕av无码不卡免费| 国产激情无码一区二区免费| 欧美亚洲国产精品第一页| 人人艹人人爽| 日韩黄色精品| 国产高潮视频在线观看| 狼友视频国产精品首页| 亚洲精品国产日韩无码AV永久免费网 | 中文字幕在线视频免费| 91九色国产porny| 色丁丁毛片在线观看| 日本a∨在线观看| 91精品国产一区| 国产一区三区二区中文在线| 日韩午夜片| 国产电话自拍伊人| 深爱婷婷激情网| 亚洲A∨无码精品午夜在线观看| 久久亚洲精少妇毛片午夜无码| 五月婷婷亚洲综合| 99热这里只有精品在线观看| 国产国产人成免费视频77777| 人妻精品久久无码区| AV天堂资源福利在线观看| 18禁色诱爆乳网站| 亚洲欧美日韩另类在线一| 欧美一区二区福利视频| 91在线精品麻豆欧美在线| 中文国产成人精品久久| 亚洲天堂视频在线播放| 国产精品真实对白精彩久久| 丁香综合在线| 亚洲色图另类| 国产男人天堂| 国产亚洲精品精品精品| 青青操视频免费观看| 久久精品人妻中文系列| 小13箩利洗澡无码视频免费网站| 91尤物国产尤物福利在线| 国产丝袜第一页| 国产欧美另类| 亚洲热线99精品视频| 小13箩利洗澡无码视频免费网站| 国产不卡国语在线| 2021最新国产精品网站| 91在线激情在线观看| 国产精品久久久久婷婷五月| 欧美精品啪啪一区二区三区| 国精品91人妻无码一区二区三区| 日本a∨在线观看| 91久久夜色精品国产网站| 久久毛片网| 99伊人精品| 538精品在线观看| 啪啪免费视频一区二区| 亚洲永久免费网站| 亚洲欧美一区二区三区麻豆|