多特征框架下的蛋白質(zhì)相似性比較與分類

2010-01-01 01:47:18董洪偉

圖學(xué)學(xué)報 2010年1期

徐占，董洪偉

（江南大學(xué)信息工程學(xué)院，江蘇無錫 214122）

蛋白質(zhì)在生物體內(nèi)占有特殊地位，它是氨基酸通過肽鍵（peptide bond）互相連接而形成的大分子。由肽鍵連接氨基酸所組成的化合物稱為肽，蛋白質(zhì)就是一條或多條多肽鏈聚合而成的分子[1]。它是生物體的基本構(gòu)件，也是生命活動的重要物質(zhì)基礎(chǔ)，幾乎一切生命現(xiàn)象都要通過蛋白質(zhì)的結(jié)構(gòu)與功能而體現(xiàn)出來。因此，對蛋白質(zhì)結(jié)構(gòu)和功能的預(yù)測成為了當(dāng)前生命科學(xué)中的重要研究內(nèi)容。眾所周知，結(jié)構(gòu)決定功能。所以，蛋白質(zhì)空間結(jié)構(gòu)的相似性比較就成為了探明蛋白質(zhì)結(jié)構(gòu)和功能的重要分析手段。而對于兩個或多個蛋白質(zhì)分子而言，其相似性只能大體地說明蛋白質(zhì)分子之間的相似程度。也就是說，其相似性比較是“模糊”的。這就為運用模糊數(shù)學(xué)的概念來分析蛋白質(zhì)空間結(jié)構(gòu)的相似性提供了可能。

此前，很多專家、學(xué)者都對蛋白質(zhì)的空間結(jié)構(gòu)的相似性做了大量的研究[2]。Taylor 等[3]早在1989 年就提出了基于距離矩陣的比較，他們將蛋白質(zhì)的空間坐標(biāo)轉(zhuǎn)換成距離矩陣的量化表示，由組成該蛋白質(zhì)鏈上的所有骨架原子Cα之間的距離構(gòu)成一個方陣，然后通過一個相似度計分公式來進行相似性的判定。Holm[4]等在距離矩陣表示的基礎(chǔ)上提出了剛性和彈性的相似度函數(shù)，通過設(shè)定經(jīng)驗閾值獲得相似性判定。Choi 等[5]則將距離矩陣劃分為許多具有重疊元素的子矩陣，從中抽取有代表性的局部特征的子矩陣集合，利用聚類分析獲得K 類局部特征集合，由此將蛋白質(zhì)結(jié)構(gòu)抽象成K 維歐氏空間的特征點，并求得發(fā)生K類局部特征的頻率（local feature frequency，LFF）。每一個蛋白質(zhì)的距離矩陣在進行相似性比較之前先轉(zhuǎn)換成LFF，然后通過計算LFF 之間的距離來獲得相似性比較結(jié)果。Chi 等[6]則將每一個距離矩陣視為一個紋理圖像，利用視覺技術(shù)中的圖像分割技術(shù)定義一系列紋理圖像特征值，以刻畫蛋白質(zhì)局部和全部結(jié)構(gòu)特征；并將蛋白質(zhì)的距離矩陣表示轉(zhuǎn)換成多維圖像特征矢量，通過索引技術(shù)加快蛋白質(zhì)結(jié)構(gòu)的相似性查詢。浙江大學(xué)的胡敏、彭群生[7]提出了一種較為新穎的方法：圍繞源結(jié)構(gòu)和目標(biāo)結(jié)構(gòu)的中心位置進行同心球殼劃分，通過計算源結(jié)構(gòu)和目標(biāo)結(jié)構(gòu)在各劃分區(qū)域的主要原子的密度來判斷兩蛋白質(zhì)分子的相似度。而文獻[8-9]都在同一基本原理（即相同立體結(jié)構(gòu)中的各部分只需一個旋轉(zhuǎn)矩陣就能將兩者疊合在一起）的基礎(chǔ)上對原有的結(jié)構(gòu)比較方法做了進一步地改進。蛋白質(zhì)的距離矩陣是三維結(jié)構(gòu)的一種二維表示，包含了很多的重構(gòu)三維結(jié)構(gòu)的信息，但它也有一定的不足，即在很大程度上只是考慮的骨架原子Cα。本文提出一種基于模糊傳遞閉包理論的結(jié)合多特征信息的蛋白質(zhì)結(jié)構(gòu)相似性比較和分類方法，以提高蛋白質(zhì)空間結(jié)構(gòu)相似性比較和分類的準(zhǔn)確度和效率。

1 理論基礎(chǔ)

1.1 模糊等價關(guān)系

把論域U 上全體模糊子集所構(gòu)成的一個集合稱為U 的模糊冪集，記為f (U)。模糊等價關(guān)系必須滿足自反性、對稱性和傳遞性[10]。

定義1設(shè)R∈f (U×U)，?u、v、w∈U，若滿足：

（1）自反性 μR(u,u)=1

（2）對稱性 μR(u,v)= μR(v,u)

（3）傳遞性 μR(u,w)≥μR(u,v)∧μR(v,w)

則稱R 是U 上的一個模糊等價關(guān)系。

定義2對于有限論域的情形，U 上的模糊等價關(guān)系可表示為一個n×n 的模糊矩陣R=(rij)n×n，并滿足：

（1）自反性 rij=1（主對角線元素全為1），或R?I

（2）對稱性 rij=rji（對稱矩陣），或R=RT

稱此矩陣為模糊等價矩陣。

1.2 傳遞閉包

人們常常希望利用模糊等價關(guān)系（或矩陣）來處理問題，但實際應(yīng)用中往往獲得的是一個具有自反性和對稱性的模糊關(guān)系（矩陣）——模糊相似關(guān)系（矩陣），傳遞性則較難滿足。不過可以對其改造，通過尋找一個包含R 的最小傳遞矩陣（即傳遞閉包）來解決問題。

定義3設(shè)S，St，R∈Mn×n，t∈T。

（1）若 ?S S oS，則稱S 為模糊傳遞矩陣。

（2）包含R 的最小模糊傳遞矩陣叫做R的傳遞閉包，記作t(R)。它滿足：

傳遞性 t(R)? t(R)ot(R)

包含性 t(R)?R

最小性 S?R，S?SoS?S?t(R)

下面的問題是如何找t(R)。有

1）總存在有傳遞閉包，且

即求傳遞閉包只需n 次運算。

3）若R 又是n 階的模糊相似矩陣，則存在自然數(shù)k≤n，使得t(R)=Rk，且對于m＞k 時，恒有Rm=Rk。

由此而得的t(R)= Rk是一個模糊等價矩陣。

上面之3）告訴人們：從模糊相似矩陣出發(fā)，逐次向后計算

R2, R4, …, R2k

當(dāng)?shù)谝淮纬霈F(xiàn)R2k=RkoRk= Rk時（k=1，2，…，n），（1）

實驗方法主要參照已發(fā)表文獻［27］。藥物作用足夠時間后收集細(xì)胞，隨后用流式細(xì)胞儀進行檢測。細(xì)胞周期實驗用PBS-PI液染色。凋亡實驗用PE和7AAD進行染色（按Annexin V/PE凋亡試劑盒說明書進行）。自噬實驗用Cyto-ID?進行孵育（按Cyto-ID?自噬檢測試劑盒說明書進行）。

此Rk便是傳遞閉包t(R)，即是要尋找的一個包含R 的最小模糊等價矩陣。

2 基于模糊傳遞閉包的蛋白質(zhì)結(jié)構(gòu)相似性比較和分類

2.1 基于模糊傳遞閉包的蛋白質(zhì)相似性比較與分類

傳統(tǒng)的聚類分析是把每個待分類的對象嚴(yán)格地劃分到某個類中，體現(xiàn)了非此及彼的性質(zhì)。因此，這種分類的類別界限是分明的。然而，客觀事物之間的界限往往是不分明的，這就提出了模糊劃分的概念。自Ruspinis于1969 年提出了模糊劃分的概念以來，并在模糊聚類分析方面做出了開創(chuàng)性的工作以后，已經(jīng)提出了很多基于模糊劃分概念的模糊聚類方法，其中傳遞閉包法就是一種典型的模糊聚類方法。模糊聚類反映了對象屬于不同類別的不確定程度，可以更客觀地反映現(xiàn)實世界。目前，模糊聚類分析已經(jīng)廣泛地應(yīng)用于經(jīng)濟學(xué)，生物學(xué)，氣象學(xué)，信息科學(xué)，工程技術(shù)科學(xué)等許多領(lǐng)域[11]。傳遞閉包法聚類首先需要通過標(biāo)定的模糊相似矩陣R，然后求出包含矩陣R的最小模糊傳遞矩陣，即R的傳遞閉包t(R)，最后依據(jù)t(R)進行聚類。

傳統(tǒng)的蛋白質(zhì)相似性比較多考慮單一特征，且常常是兩個蛋白質(zhì)的相似性比較，而且比較算法復(fù)雜，效率不高。本方法基于模糊數(shù)學(xué)等價矩陣?yán)碚摚捎枚喾N低維的特征統(tǒng)計量，通過構(gòu)造蛋白質(zhì)相性模糊矩陣，運用模糊傳遞閉包對蛋白質(zhì)結(jié)構(gòu)相似性進行比較和分類，可以快速地對大量的蛋白質(zhì)進行相似性標(biāo)記和分類，可用于快速地對蛋白質(zhì)進行粗分類和比較，這樣就極大地提高了蛋白質(zhì)相似性比較和分類的效率。

2.2 方法主要過程

基于模糊傳遞閉包的蛋白質(zhì)相似性比較與分類方法，首先根據(jù)選取的特征參數(shù)建立蛋白質(zhì)組的相似模糊矩陣，然后計算該模糊相似矩陣的傳遞閉包，最后根據(jù)用戶指定的置信水平得到蛋白質(zhì)的分類和相似性結(jié)果。具體過程如下：

（1）確定多特性框架中的蛋白質(zhì)特征參數(shù)，本文中選取骨架原子Cα數(shù)、突變原子數(shù)、親水微粒數(shù)、螺旋數(shù)4 個參數(shù)作為刻畫蛋白質(zhì)的特征參數(shù)。

1）骨架原子Cα數(shù)

作為蛋白質(zhì)空間結(jié)構(gòu)的骨架原子—— Cα一直是蛋白質(zhì)相似性比較的主要研究對象，所以將它作為一個參量。

2）突變原子數(shù)（HETEROGEN ATOMS）

隨著基因工程的發(fā)展，氨基酸殘基的定點突變技術(shù)已經(jīng)廣泛地用于蛋白質(zhì)工程研究中。這一技術(shù)在對蛋白分子進行結(jié)構(gòu)與功能的預(yù)測和改造中，以及在設(shè)計新功能蛋白分子中發(fā)揮著不可替代的作用[12]。

3）親水微粒數(shù)（SOLVENT ATOMS）

相對于親水微粒數(shù)而言，疏水微粒數(shù)在蛋白質(zhì)相似性比較中所起的作用更大，但前者更易獲得，故取前者為一個參量。

4）螺旋數(shù)（HELIX）

作為蛋白質(zhì)二級結(jié)構(gòu)中最主要的結(jié)構(gòu)，將其作為一個參量來進行蛋白質(zhì)的相似性比較和分類可以極大地提高相似性比較和分類的準(zhǔn)確度。

（2）運用上文中提到的方法建立模糊關(guān)系矩陣，然后借助模糊傳遞閉包求得模糊等價矩陣t(R)。設(shè)論域U={Xi|i=1, 2, …, n} 表示待比較的蛋白質(zhì)集合，其中每個蛋白質(zhì)向量Xi= (xi1, xi2, xi3, xi4) 表示上述的4 個特征參數(shù)，可以構(gòu)造蛋白質(zhì)組的特征參數(shù)矩陣A = (X1, X2, …, Xn)，從該特征參數(shù)矩陣A，可用下述的相似度公式構(gòu)造模糊關(guān)系矩陣R = {rij| i, j = 1, 2, …, n }。

根據(jù)公式（1）來計算模糊關(guān)系矩陣R 的傳遞閉包t(R)時，對Xij的取值是這樣規(guī)定的：對i行j 列的對應(yīng)元素先進行∧（取小）運算，然后再對所得元素進行∨（取大）運算，直到滿足式（1）為止。

（3）對所得到的不同的λ（置信水平）確定合適的數(shù)值，完成對蛋白質(zhì)的相似性比較和分類。由于所得到的λ（置信水平）在很大程度上取決于構(gòu)造模糊關(guān)系矩陣R 的公式，因此可以根據(jù)需要，靈活地選用合適的公式來實現(xiàn)對λ 的獲取。一旦確定了λ 的值，就可以返回到t(R)中，對所有的對象進行比較和分類。具體做法為：

1）將t(R)中所有不同的數(shù)值按照從大到小的順序依次列出，從中選取數(shù)值較高的一個λ 值作為對比標(biāo)準(zhǔn)。

2）找出t(R)中所有大于或等于上述λ 的數(shù)值。

3）對所找到的每一個符合2）條件的數(shù)值，找到它所在的行i 和列j，即得到第i 個和第j 個比較對象同屬一類，而此處的Rij就作為比較對象的相似度。

4）將含有交集的分組進行合并，得到最終的分類結(jié)果。

3 實驗與比較

作者從蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫PDB 中取ID 號分別為1J4R、102M、2HBF、101M、2HBD、103M的6 個蛋白質(zhì)分子為研究對象驗證上述方法的可行性。

設(shè)論域U={X1, X2, X3, X4, X5, X6}表示這6 個蛋白質(zhì)分子所組成的集合，已知每個蛋白質(zhì)分子都有4 個參數(shù)（骨架原子Cα數(shù)、突變原子數(shù)（ HETEROGEN ATOMS ）、親水微粒數(shù)（SOLVENT ATOMS）、螺旋數(shù)（HELIX）），即Xi={ Xi1, Xi2, Xi3, Xi4}。這樣就可以得到下面的一個矩陣

利用公式（2）對上述矩陣進行標(biāo)準(zhǔn)化，得到

然后，按照公式（1），求得

因此，傳遞閉包為R4，即t(R)= R4。所得結(jié)果如下

這樣，就得到了λ（置信水平）的6 個不同的取值（1、0.960、0.949、0.948、0.717、0.633）。然后依據(jù)這6 個數(shù)值就可以對上述6 個蛋白質(zhì)分子進行分類。比如，當(dāng)取λ（置信水平）=0.948時，分類如下：

即第2 個、第4 個和第6 個蛋白質(zhì)分子屬于同一類（或者說相似性非常高），第3 個和第5個蛋白質(zhì)分子屬于同一類，第1 個蛋白質(zhì)分子單獨一類。事實上，所選擇的6 個蛋白質(zhì)分子中X2、X4、X6均為肌紅蛋白，X3、X5為氧合血紅蛋白，X1為一種異構(gòu)酶。這說明，通過本方法所得到的實驗結(jié)果與事實是一致的。而且通過與文獻[7]方法的比較，如圖1、圖2 所示，可以得到更高的相似度值。另外，將此方法應(yīng)用于蛋白質(zhì)結(jié)構(gòu)的相似性比較，還可以改變4 個參數(shù)（數(shù)量或內(nèi)容）來獲得更好的實驗結(jié)果。圖3 是運用上述方法計算得到的另外三組蛋白質(zhì)的比較結(jié)果。

圖1 氧合血紅蛋白2HBD-2HBF 相似度值

圖3 脫氧血紅蛋白、連接酶蛋白、轉(zhuǎn)移酶蛋白的比較結(jié)果

4 結(jié) 論

傳統(tǒng)的方法一般利用蛋白質(zhì)的單一結(jié)構(gòu)表示獲取多維特征矢量，通過每種特征的加權(quán)平均獲得最后的計算結(jié)果，在計算過程中常常產(chǎn)生維數(shù)很高的特征矢量，使得計算復(fù)雜化。與傳統(tǒng)的多種屬性加權(quán)比較的方法不同。本方法采用多種低維的特征統(tǒng)計量，然后運用模糊數(shù)學(xué)等價矩陣的理論從以下4 個方面：骨架原子Cα數(shù)、突變原子數(shù)（HETEROGEN ATOMS）、親水微粒數(shù)（SOLVENT ATOMS）、螺旋數(shù)（HELIX）等進行綜合評判。與基于距離矩陣等其他方法相比，本文所提出的方法具有兩大優(yōu)勢：一方面，綜合考慮到了蛋白質(zhì)分子組成的4 個重要方面，而非單純研究其骨架原子Cα，又加上各種特征之間有一定的相互彌補的作用，這樣大大提高了相似性判斷的準(zhǔn)確度；另一方面，利用該方法不但可以對兩個蛋白質(zhì)分子進行相似性比較，更可以同時比較多個蛋白質(zhì)分子的相似性，極大地提高了相似性比較的效率。

[1] 陶士珩. 生物信息學(xué)[M]. 北京：科學(xué)出版社, 2007. 151-159.

[2] 彭群生, 胡敏. 蛋白質(zhì)三維結(jié)構(gòu)相似性比較方法綜述[J]. 計算機輔助設(shè)計與圖形學(xué)學(xué)報, 2006, (10)： 1466-1469.

[3] Taylor Willim R, Orengo Christine A. Protein structure alignment [J]. Journal of Molecular Biology, 1989, 208(1)： 1-18.

[4] Holm Liisa, Sander Chris. Protein structure comparison by alignment of distance matrices [J]. Journal of Molecular Biology, 1993, 233(1)： 123-138.

[5] Choi In-geol, Kwon Jaimyoung, Kim Sung-hou. Local feature frequency profile： a method to measure structural similarity in protein[C]//Proceedings of the National Academy of Sciences of the United States of America, 2004： 3797-3802.

[6] Chi Pin-hao, Scott Grant, Shyu Chi-ren. A fast protein structure retrieval system using image—— based distance matrices and multidimensional index[C]//Proceedings of IEEE Symposium on Bioinformatics and Bioengineering (BIBE’04), Taichung, 2004： 522-529.

[7] 胡敏，彭群生. 一種基于空間密度特征的蛋白質(zhì)結(jié)構(gòu)相似性判定方法[J]. 工程圖學(xué)學(xué)報, 2005, 26(1)： 91-93.

[8] 徐建平, 方慧生, 相秉仁. 一種快速比較蛋白質(zhì)結(jié)構(gòu)預(yù)測模型相似性的方法[J]. 中國藥科大學(xué)學(xué)報, 2006, 37(3)： 281-283.

[9] 陳克賓, 黃文奇. 蛋白質(zhì)三維連續(xù)結(jié)構(gòu)模型結(jié)構(gòu)預(yù)測的高效算法[J]. 計算機工程與科學(xué), 2007, 29(4)： 68-71.

[10] 曹謝東. 模糊信息處理及應(yīng)用[M]. 北京：科學(xué)出版社, 2003. 30-31.

[11] 羅蘭星. 模糊聚類分析中傳遞閉包法及其應(yīng)用[J].四川省衛(wèi)生管理干部學(xué)院學(xué)報, 2005, 24(2) ： 108-109.

[12] 林英武, 黃仲賢. 血紅素蛋白的分子設(shè)計新趨向[J].化學(xué)進展, 2006, 18(6)： 795-797.