999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多特征框架下的蛋白質(zhì)相似性比較與分類

2010-01-01 01:47:18董洪偉
圖學(xué)學(xué)報 2010年1期
關(guān)鍵詞:分類特征結(jié)構(gòu)

徐 占, 董洪偉

(江南大學(xué)信息工程學(xué)院,江蘇 無錫 214122)

蛋白質(zhì)在生物體內(nèi)占有特殊地位,它是氨基酸通過肽鍵(peptide bond)互相連接而形成的大分子。由肽鍵連接氨基酸所組成的化合物稱為肽,蛋白質(zhì)就是一條或多條多肽鏈聚合而成的分子[1]。它是生物體的基本構(gòu)件,也是生命活動的重要物質(zhì)基礎(chǔ),幾乎一切生命現(xiàn)象都要通過蛋白質(zhì)的結(jié)構(gòu)與功能而體現(xiàn)出來。因此,對蛋白質(zhì)結(jié)構(gòu)和功能的預(yù)測成為了當(dāng)前生命科學(xué)中的重要研究內(nèi)容。眾所周知,結(jié)構(gòu)決定功能。所以,蛋白質(zhì)空間結(jié)構(gòu)的相似性比較就成為了探明蛋白質(zhì)結(jié)構(gòu)和功能的重要分析手段。而對于兩個或多個蛋白質(zhì)分子而言,其相似性只能大體地說明蛋白質(zhì)分子之間的相似程度。也就是說,其相似性比較是“模糊”的。這就為運用模糊數(shù)學(xué)的概念來分析蛋白質(zhì)空間結(jié)構(gòu)的相似性提供了可能。

此前,很多專家、學(xué)者都對蛋白質(zhì)的空間結(jié)構(gòu)的相似性做了大量的研究[2]。Taylor 等[3]早在1989 年就提出了基于距離矩陣的比較,他們將蛋白質(zhì)的空間坐標(biāo)轉(zhuǎn)換成距離矩陣的量化表示,由組成該蛋白質(zhì)鏈上的所有骨架原子Cα之間的距離構(gòu)成一個方陣,然后通過一個相似度計分公式來進行相似性的判定。Holm[4]等在距離矩陣表示的基礎(chǔ)上提出了剛性和彈性的相似度函數(shù),通過設(shè)定經(jīng)驗閾值獲得相似性判定。Choi 等[5]則將距離矩陣劃分為許多具有重疊元素的子矩陣,從中抽取有代表性的局部特征的子矩陣集合,利用聚類分析獲得K 類局部特征集合,由此將蛋白質(zhì)結(jié)構(gòu)抽象成K 維歐氏空間的特征點,并求得發(fā)生K類局部特征的頻率(local feature frequency,LFF)。每一個蛋白質(zhì)的距離矩陣在進行相似性比較之前先轉(zhuǎn)換成LFF,然后通過計算LFF 之間的距離來獲得相似性比較結(jié)果。Chi 等[6]則將每一個距離矩陣視為一個紋理圖像,利用視覺技術(shù)中的圖像分割技術(shù)定義一系列紋理圖像特征值,以刻畫蛋白質(zhì)局部和全部結(jié)構(gòu)特征;并將蛋白質(zhì)的距離矩陣表示轉(zhuǎn)換成多維圖像特征矢量,通過索引技術(shù)加快蛋白質(zhì)結(jié)構(gòu)的相似性查詢。浙江大學(xué)的胡敏、彭群生[7]提出了一種較為新穎的方法:圍繞源結(jié)構(gòu)和目標(biāo)結(jié)構(gòu)的中心位置進行同心球殼劃分,通過計算源結(jié)構(gòu)和目標(biāo)結(jié)構(gòu)在各劃分區(qū)域的主要原子的密度來判斷兩蛋白質(zhì)分子的相似度。而文獻[8-9]都在同一基本原理(即相同立體結(jié)構(gòu)中的各部分只需一個旋轉(zhuǎn)矩陣就能將兩者疊合在一起)的基礎(chǔ)上對原有的結(jié)構(gòu)比較方法做了進一步地改進。蛋白質(zhì)的距離矩陣是三維結(jié)構(gòu)的一種二維表示,包含了很多的重構(gòu)三維結(jié)構(gòu)的信息,但它也有一定的不足,即在很大程度上只是考慮的骨架原子Cα。本文提出一種基于模糊傳遞閉包理論的結(jié)合多特征信息的蛋白質(zhì)結(jié)構(gòu)相似性比較和分類方法,以提高蛋白質(zhì)空間結(jié)構(gòu)相似性比較和分類的準(zhǔn)確度和效率。

1 理論基礎(chǔ)

1.1 模糊等價關(guān)系

把論域U 上全體模糊子集所構(gòu)成的一個集合稱為U 的模糊冪集,記為f (U)。模糊等價關(guān)系必須滿足自反性、對稱性和傳遞性[10]。

定義1設(shè)R∈f (U×U),?u、v、w∈U,若滿足:

(1) 自反性 μR(u,u)=1

(2) 對稱性 μR(u,v)= μR(v,u)

(3) 傳遞性 μR(u,w)≥μR(u,v)∧μR(v,w)

則稱R 是U 上的一個模糊等價關(guān)系。

定義2對于有限論域的情形,U 上的模糊等價關(guān)系可表示為一個n×n 的模糊矩陣R=(rij)n×n,并滿足:

(1) 自反性 rij=1(主對角線元素全為1),或R?I

(2) 對稱性 rij=rji(對稱矩陣),或R=RT

稱此矩陣為模糊等價矩陣。

1.2 傳遞閉包

人們常常希望利用模糊等價關(guān)系(或矩陣)來處理問題,但實際應(yīng)用中往往獲得的是一個具有自反性和對稱性的模糊關(guān)系(矩陣)——模糊相似關(guān)系(矩陣),傳遞性則較難滿足。不過可以對其改造,通過尋找一個包含R 的最小傳遞矩陣(即傳遞閉包)來解決問題。

定義3設(shè)S,St,R∈Mn×n,t∈T。

(1) 若 ?S S oS,則稱S 為模糊傳遞矩陣。

(2) 包含R 的最小模糊傳遞矩陣叫做R的傳遞閉包,記作t(R)。它滿足:

傳遞性 t(R)? t(R)ot(R)

包含性 t(R)?R

最小性 S?R,S?SoS?S?t(R)

下面的問題是如何找t(R)。有

1) 總存在有傳遞閉包,且

即求傳遞閉包只需n 次運算。

3) 若R 又是n 階的模糊相似矩陣,則存在自然數(shù)k≤n,使得t(R)=Rk,且對于m>k 時,恒有Rm=Rk。

由此而得的t(R)= Rk是一個模糊等價矩陣。

上面之3)告訴人們:從模糊相似矩陣出發(fā),逐次向后計算

R2, R4, …, R2k

當(dāng)?shù)谝淮纬霈F(xiàn)R2k=RkoRk= Rk時(k=1,2,…,n), (1)

實驗方法主要參照已發(fā)表文獻[27]。藥物作用足夠時間后收集細(xì)胞,隨后用流式細(xì)胞儀進行檢測。細(xì)胞周期實驗用PBS-PI液染色。凋亡實驗用PE和7AAD進行染色(按Annexin V/PE凋亡試劑盒說明書進行)。自噬實驗用Cyto-ID?進行孵育(按Cyto-ID?自噬檢測試劑盒說明書進行)。

此Rk便是傳遞閉包t(R),即是要尋找的一個包含R 的最小模糊等價矩陣。

2 基于模糊傳遞閉包的蛋白質(zhì)結(jié)構(gòu)相似性比較和分類

2.1 基于模糊傳遞閉包的蛋白質(zhì)相似性比較與分類

傳統(tǒng)的聚類分析是把每個待分類的對象嚴(yán)格地劃分到某個類中,體現(xiàn)了非此及彼的性質(zhì)。因此,這種分類的類別界限是分明的。然而,客觀事物之間的界限往往是不分明的,這就提出了模糊劃分的概念。自Ruspinis于1969 年提出了模糊劃分的概念以來,并在模糊聚類分析方面做出了開創(chuàng)性的工作以后,已經(jīng)提出了很多基于模糊劃分概念的模糊聚類方法,其中傳遞閉包法就是一種典型的模糊聚類方法。模糊聚類反映了對象屬于不同類別的不確定程度,可以更客觀地反映現(xiàn)實世界。目前,模糊聚類分析已經(jīng)廣泛地應(yīng)用于經(jīng)濟學(xué),生物學(xué),氣象學(xué),信息科學(xué),工程技術(shù)科學(xué)等許多領(lǐng)域[11]。傳遞閉包法聚類首先需要通過標(biāo)定的模糊相似矩陣R,然后求出包含矩陣R的最小模糊傳遞矩陣,即R的傳遞閉包t(R),最后依據(jù)t(R)進行聚類。

傳統(tǒng)的蛋白質(zhì)相似性比較多考慮單一特征,且常常是兩個蛋白質(zhì)的相似性比較,而且比較算法復(fù)雜,效率不高。本方法基于模糊數(shù)學(xué)等價矩陣?yán)碚摚捎枚喾N低維的特征統(tǒng)計量,通過構(gòu)造蛋白質(zhì)相性模糊矩陣,運用模糊傳遞閉包對蛋白質(zhì)結(jié)構(gòu)相似性進行比較和分類,可以快速地對大量的蛋白質(zhì)進行相似性標(biāo)記和分類,可用于快速地對蛋白質(zhì)進行粗分類和比較,這樣就極大地提高了蛋白質(zhì)相似性比較和分類的效率。

2.2 方法主要過程

基于模糊傳遞閉包的蛋白質(zhì)相似性比較與分類方法,首先根據(jù)選取的特征參數(shù)建立蛋白質(zhì)組的相似模糊矩陣,然后計算該模糊相似矩陣的傳遞閉包,最后根據(jù)用戶指定的置信水平得到蛋白質(zhì)的分類和相似性結(jié)果。具體過程如下:

(1) 確定多特性框架中的蛋白質(zhì)特征參數(shù),本文中選取骨架原子Cα數(shù)、突變原子數(shù)、親水微粒數(shù)、螺旋數(shù)4 個參數(shù)作為刻畫蛋白質(zhì)的特征參數(shù)。

1) 骨架原子Cα數(shù)

作為蛋白質(zhì)空間結(jié)構(gòu)的骨架原子—— Cα一直是蛋白質(zhì)相似性比較的主要研究對象,所以將它作為一個參量。

2) 突變原子數(shù)(HETEROGEN ATOMS)

隨著基因工程的發(fā)展,氨基酸殘基的定點突變技術(shù)已經(jīng)廣泛地用于蛋白質(zhì)工程研究中。這一技術(shù)在對蛋白分子進行結(jié)構(gòu)與功能的預(yù)測和改造中,以及在設(shè)計新功能蛋白分子中發(fā)揮著不可替代的作用[12]。

3) 親水微粒數(shù)(SOLVENT ATOMS)

相對于親水微粒數(shù)而言,疏水微粒數(shù)在蛋白質(zhì)相似性比較中所起的作用更大,但前者更易獲得,故取前者為一個參量。

4) 螺旋數(shù)(HELIX)

作為蛋白質(zhì)二級結(jié)構(gòu)中最主要的結(jié)構(gòu),將其作為一個參量來進行蛋白質(zhì)的相似性比較和分類可以極大地提高相似性比較和分類的準(zhǔn)確度。

(2) 運用上文中提到的方法建立模糊關(guān)系矩陣,然后借助模糊傳遞閉包求得模糊等價矩陣t(R)。設(shè)論域U={Xi|i=1, 2, …, n} 表示待比較的蛋白質(zhì)集合,其中每個蛋白質(zhì)向量Xi= (xi1, xi2, xi3, xi4) 表示上述的4 個特征參數(shù),可以構(gòu)造蛋白質(zhì)組的特征參數(shù)矩陣A = (X1, X2, …, Xn),從該特征參數(shù)矩陣A,可用下述的相似度公式構(gòu)造模糊關(guān)系矩陣R = {rij| i, j = 1, 2, …, n }。

根據(jù)公式(1)來計算模糊關(guān)系矩陣R 的傳遞閉包t(R)時,對Xij的取值是這樣規(guī)定的:對i行j 列的對應(yīng)元素先進行∧(取小)運算,然后再對所得元素進行∨(取大)運算,直到滿足式(1)為止。

(3) 對所得到的不同的λ(置信水平)確定合適的數(shù)值,完成對蛋白質(zhì)的相似性比較和分類。由于所得到的λ(置信水平)在很大程度上取決于構(gòu)造模糊關(guān)系矩陣R 的公式,因此可以根據(jù)需要,靈活地選用合適的公式來實現(xiàn)對λ 的獲取。一旦確定了λ 的值,就可以返回到t(R)中,對所有的對象進行比較和分類。具體做法為:

1) 將t(R)中所有不同的數(shù)值按照從大到小的順序依次列出,從中選取數(shù)值較高的一個λ 值作為對比標(biāo)準(zhǔn)。

2) 找出t(R)中所有大于或等于上述λ 的數(shù)值。

3) 對所找到的每一個符合2)條件的數(shù)值,找到它所在的行i 和列j,即得到第i 個和第j 個比較對象同屬一類,而此處的Rij就作為比較對象的相似度。

4) 將含有交集的分組進行合并,得到最終的分類結(jié)果。

3 實驗與比較

作者從蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫PDB 中取ID 號分別為1J4R、102M、2HBF、101M、2HBD、103M的6 個蛋白質(zhì)分子為研究對象驗證上述方法的可行性。

設(shè)論域U={X1, X2, X3, X4, X5, X6}表示這6 個蛋白質(zhì)分子所組成的集合,已知每個蛋白質(zhì)分子都有4 個參數(shù)(骨架原子Cα數(shù)、突變原子數(shù)( HETEROGEN ATOMS ) 、 親 水 微 粒 數(shù)(SOLVENT ATOMS)、螺旋數(shù)(HELIX)),即Xi={ Xi1, Xi2, Xi3, Xi4}。這樣就可以得到下面的一個矩陣

利用公式(2)對上述矩陣進行標(biāo)準(zhǔn)化,得到

然后,按照公式(1),求得

因此,傳遞閉包為R4,即t(R)= R4。所得結(jié)果如下

這樣,就得到了λ(置信水平)的6 個不同的取值(1、0.960、0.949、0.948、0.717、0.633)。然后依據(jù)這6 個數(shù)值就可以對上述6 個蛋白質(zhì)分子進行分類。比如,當(dāng)取λ(置信水平)=0.948時,分類如下:

即第2 個、第4 個和第6 個蛋白質(zhì)分子屬于同一類(或者說相似性非常高),第3 個和第5個蛋白質(zhì)分子屬于同一類,第1 個蛋白質(zhì)分子單獨一類。事實上,所選擇的6 個蛋白質(zhì)分子中X2、X4、X6均為肌紅蛋白,X3、X5為氧合血紅蛋白,X1為一種異構(gòu)酶。這說明,通過本方法所得到的實驗結(jié)果與事實是一致的。而且通過與文獻[7]方法的比較,如圖1、圖2 所示,可以得到更高的相似度值。另外,將此方法應(yīng)用于蛋白質(zhì)結(jié)構(gòu)的相似性比較,還可以改變4 個參數(shù)(數(shù)量或內(nèi)容)來獲得更好的實驗結(jié)果。圖3 是運用上述方法計算得到的另外三組蛋白質(zhì)的比較結(jié)果。

圖1 氧合血紅蛋白2HBD-2HBF 相似度值

圖3 脫氧血紅蛋白、連接酶蛋白、轉(zhuǎn)移酶蛋白的比較結(jié)果

4 結(jié) 論

傳統(tǒng)的方法一般利用蛋白質(zhì)的單一結(jié)構(gòu)表示獲取多維特征矢量,通過每種特征的加權(quán)平均獲得最后的計算結(jié)果,在計算過程中常常產(chǎn)生維數(shù)很高的特征矢量,使得計算復(fù)雜化。與傳統(tǒng)的多種屬性加權(quán)比較的方法不同。本方法采用多種低維的特征統(tǒng)計量,然后運用模糊數(shù)學(xué)等價矩陣的理論從以下4 個方面:骨架原子Cα數(shù)、突變原子數(shù)(HETEROGEN ATOMS)、親水微粒數(shù)(SOLVENT ATOMS)、螺旋數(shù)(HELIX)等進行綜合評判。與基于距離矩陣等其他方法相比,本文所提出的方法具有兩大優(yōu)勢:一方面,綜合考慮到了蛋白質(zhì)分子組成的4 個重要方面,而非單純研究其骨架原子Cα,又加上各種特征之間有一定的相互彌補的作用,這樣大大提高了相似性判斷的準(zhǔn)確度;另一方面,利用該方法不但可以對兩個蛋白質(zhì)分子進行相似性比較,更可以同時比較多個蛋白質(zhì)分子的相似性,極大地提高了相似性比較的效率。

[1] 陶士珩. 生物信息學(xué)[M]. 北京: 科學(xué)出版社, 2007. 151-159.

[2] 彭群生, 胡 敏. 蛋白質(zhì)三維結(jié)構(gòu)相似性比較方法綜述[J]. 計算機輔助設(shè)計與圖形學(xué)學(xué)報, 2006, (10): 1466-1469.

[3] Taylor Willim R, Orengo Christine A. Protein structure alignment [J]. Journal of Molecular Biology, 1989, 208(1): 1-18.

[4] Holm Liisa, Sander Chris. Protein structure comparison by alignment of distance matrices [J]. Journal of Molecular Biology, 1993, 233(1): 123-138.

[5] Choi In-geol, Kwon Jaimyoung, Kim Sung-hou. Local feature frequency profile: a method to measure structural similarity in protein[C]//Proceedings of the National Academy of Sciences of the United States of America, 2004: 3797-3802.

[6] Chi Pin-hao, Scott Grant, Shyu Chi-ren. A fast protein structure retrieval system using image—— based distance matrices and multidimensional index[C]//Proceedings of IEEE Symposium on Bioinformatics and Bioengineering (BIBE’04), Taichung, 2004: 522-529.

[7] 胡 敏, 彭群生. 一種基于空間密度特征的蛋白質(zhì)結(jié)構(gòu)相似性判定方法[J]. 工程圖學(xué)學(xué)報, 2005, 26(1): 91-93.

[8] 徐建平, 方慧生, 相秉仁. 一種快速比較蛋白質(zhì)結(jié)構(gòu)預(yù)測模型相似性的方法[J]. 中國藥科大學(xué)學(xué)報, 2006, 37(3): 281-283.

[9] 陳克賓, 黃文奇. 蛋白質(zhì)三維連續(xù)結(jié)構(gòu)模型結(jié)構(gòu)預(yù)測的高效算法[J]. 計算機工程與科學(xué), 2007, 29(4): 68-71.

[10] 曹謝東. 模糊信息處理及應(yīng)用[M]. 北京: 科學(xué)出版社, 2003. 30-31.

[11] 羅蘭星. 模糊聚類分析中傳遞閉包法及其應(yīng)用[J].四川省衛(wèi)生管理干部學(xué)院學(xué)報, 2005, 24(2) : 108-109.

[12] 林英武, 黃仲賢. 血紅素蛋白的分子設(shè)計新趨向[J].化學(xué)進展, 2006, 18(6): 795-797.

猜你喜歡
分類特征結(jié)構(gòu)
《形而上學(xué)》△卷的結(jié)構(gòu)和位置
分類算一算
如何表達“特征”
論結(jié)構(gòu)
中華詩詞(2019年7期)2019-11-25 01:43:04
不忠誠的四個特征
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
論《日出》的結(jié)構(gòu)
主站蜘蛛池模板: 五月婷婷欧美| 亚洲第一精品福利| 亚洲成a∧人片在线观看无码| 成·人免费午夜无码视频在线观看| 无码中文字幕精品推荐| 91麻豆国产在线| 久久人与动人物A级毛片| 久久久黄色片| 婷婷亚洲综合五月天在线| 国产青青草视频| 91网址在线播放| 久久五月视频| 国产特级毛片aaaaaaa高清| 国产情精品嫩草影院88av| 18黑白丝水手服自慰喷水网站| 久久亚洲日本不卡一区二区| 久久久久久午夜精品| 色吊丝av中文字幕| 日韩欧美高清视频| 亚洲区一区| 中文字幕久久亚洲一区| 国产人人干| 亚洲视频色图| 国产成年女人特黄特色毛片免| 日a本亚洲中文在线观看| 九色在线观看视频| 国产精品不卡片视频免费观看| 伊人丁香五月天久久综合 | 亚洲成人免费在线| 亚洲精品免费网站| 免费jjzz在在线播放国产| hezyo加勒比一区二区三区| 日韩毛片免费观看| 3344在线观看无码| 色综合婷婷| 又粗又大又爽又紧免费视频| 国产精品久久久久久久伊一| 国产精品香蕉| 国产一区免费在线观看| 国产精彩视频在线观看| 亚洲美女一区二区三区| 毛片在线播放网址| 亚洲国产日韩一区| 无码又爽又刺激的高潮视频| 五月天福利视频| 色综合激情网| 无码高潮喷水在线观看| 999精品视频在线| 亚洲熟女偷拍| 亚洲人成高清| 欧美a级完整在线观看| 国产精品任我爽爆在线播放6080 | 精品国产自| 9啪在线视频| 最近最新中文字幕在线第一页| 亚洲欧洲综合| 一级一毛片a级毛片| 欧美无专区| 亚洲有码在线播放| 成人另类稀缺在线观看| 中文字幕第1页在线播| 欧美成人二区| 久青草免费在线视频| 全部无卡免费的毛片在线看| 韩国自拍偷自拍亚洲精品| 久热99这里只有精品视频6| 青青草原偷拍视频| 99久久国产综合精品2020| 日韩精品一区二区三区视频免费看| 久久这里只精品国产99热8| 亚亚洲乱码一二三四区| 國產尤物AV尤物在線觀看| 99热精品久久| 亚洲婷婷六月| 丰满人妻中出白浆| 亚洲第一天堂无码专区| 色视频国产| 亚洲大尺度在线| 美女扒开下面流白浆在线试听 | 免费亚洲成人| 国产女人在线| 伊人久久青草青青综合|