徐 占, 董洪偉
(江南大學(xué)信息工程學(xué)院,江蘇 無錫 214122)
蛋白質(zhì)在生物體內(nèi)占有特殊地位,它是氨基酸通過肽鍵(peptide bond)互相連接而形成的大分子。由肽鍵連接氨基酸所組成的化合物稱為肽,蛋白質(zhì)就是一條或多條多肽鏈聚合而成的分子[1]。它是生物體的基本構(gòu)件,也是生命活動的重要物質(zhì)基礎(chǔ),幾乎一切生命現(xiàn)象都要通過蛋白質(zhì)的結(jié)構(gòu)與功能而體現(xiàn)出來。因此,對蛋白質(zhì)結(jié)構(gòu)和功能的預(yù)測成為了當(dāng)前生命科學(xué)中的重要研究內(nèi)容。眾所周知,結(jié)構(gòu)決定功能。所以,蛋白質(zhì)空間結(jié)構(gòu)的相似性比較就成為了探明蛋白質(zhì)結(jié)構(gòu)和功能的重要分析手段。而對于兩個或多個蛋白質(zhì)分子而言,其相似性只能大體地說明蛋白質(zhì)分子之間的相似程度。也就是說,其相似性比較是“模糊”的。這就為運用模糊數(shù)學(xué)的概念來分析蛋白質(zhì)空間結(jié)構(gòu)的相似性提供了可能。
此前,很多專家、學(xué)者都對蛋白質(zhì)的空間結(jié)構(gòu)的相似性做了大量的研究[2]。Taylor 等[3]早在1989 年就提出了基于距離矩陣的比較,他們將蛋白質(zhì)的空間坐標(biāo)轉(zhuǎn)換成距離矩陣的量化表示,由組成該蛋白質(zhì)鏈上的所有骨架原子Cα之間的距離構(gòu)成一個方陣,然后通過一個相似度計分公式來進行相似性的判定。Holm[4]等在距離矩陣表示的基礎(chǔ)上提出了剛性和彈性的相似度函數(shù),通過設(shè)定經(jīng)驗閾值獲得相似性判定。Choi 等[5]則將距離矩陣劃分為許多具有重疊元素的子矩陣,從中抽取有代表性的局部特征的子矩陣集合,利用聚類分析獲得K 類局部特征集合,由此將蛋白質(zhì)結(jié)構(gòu)抽象成K 維歐氏空間的特征點,并求得發(fā)生K類局部特征的頻率(local feature frequency,LFF)。每一個蛋白質(zhì)的距離矩陣在進行相似性比較之前先轉(zhuǎn)換成LFF,然后通過計算LFF 之間的距離來獲得相似性比較結(jié)果。Chi 等[6]則將每一個距離矩陣視為一個紋理圖像,利用視覺技術(shù)中的圖像分割技術(shù)定義一系列紋理圖像特征值,以刻畫蛋白質(zhì)局部和全部結(jié)構(gòu)特征;并將蛋白質(zhì)的距離矩陣表示轉(zhuǎn)換成多維圖像特征矢量,通過索引技術(shù)加快蛋白質(zhì)結(jié)構(gòu)的相似性查詢。浙江大學(xué)的胡敏、彭群生[7]提出了一種較為新穎的方法:圍繞源結(jié)構(gòu)和目標(biāo)結(jié)構(gòu)的中心位置進行同心球殼劃分,通過計算源結(jié)構(gòu)和目標(biāo)結(jié)構(gòu)在各劃分區(qū)域的主要原子的密度來判斷兩蛋白質(zhì)分子的相似度。而文獻[8-9]都在同一基本原理(即相同立體結(jié)構(gòu)中的各部分只需一個旋轉(zhuǎn)矩陣就能將兩者疊合在一起)的基礎(chǔ)上對原有的結(jié)構(gòu)比較方法做了進一步地改進。蛋白質(zhì)的距離矩陣是三維結(jié)構(gòu)的一種二維表示,包含了很多的重構(gòu)三維結(jié)構(gòu)的信息,但它也有一定的不足,即在很大程度上只是考慮的骨架原子Cα。本文提出一種基于模糊傳遞閉包理論的結(jié)合多特征信息的蛋白質(zhì)結(jié)構(gòu)相似性比較和分類方法,以提高蛋白質(zhì)空間結(jié)構(gòu)相似性比較和分類的準(zhǔn)確度和效率。
把論域U 上全體模糊子集所構(gòu)成的一個集合稱為U 的模糊冪集,記為f (U)。模糊等價關(guān)系必須滿足自反性、對稱性和傳遞性[10]。
定義1設(shè)R∈f (U×U),?u、v、w∈U,若滿足:
(1) 自反性 μR(u,u)=1
(2) 對稱性 μR(u,v)= μR(v,u)
(3) 傳遞性 μR(u,w)≥μR(u,v)∧μR(v,w)
則稱R 是U 上的一個模糊等價關(guān)系。
定義2對于有限論域的情形,U 上的模糊等價關(guān)系可表示為一個n×n 的模糊矩陣R=(rij)n×n,并滿足:
(1) 自反性 rij=1(主對角線元素全為1),或R?I
(2) 對稱性 rij=rji(對稱矩陣),或R=RT
稱此矩陣為模糊等價矩陣。
人們常常希望利用模糊等價關(guān)系(或矩陣)來處理問題,但實際應(yīng)用中往往獲得的是一個具有自反性和對稱性的模糊關(guān)系(矩陣)——模糊相似關(guān)系(矩陣),傳遞性則較難滿足。不過可以對其改造,通過尋找一個包含R 的最小傳遞矩陣(即傳遞閉包)來解決問題。
定義3設(shè)S,St,R∈Mn×n,t∈T。
(1) 若 ?S S oS,則稱S 為模糊傳遞矩陣。

(2) 包含R 的最小模糊傳遞矩陣叫做R的傳遞閉包,記作t(R)。它滿足:
傳遞性 t(R)? t(R)ot(R)
包含性 t(R)?R
最小性 S?R,S?SoS?S?t(R)
下面的問題是如何找t(R)。有
1) 總存在有傳遞閉包,且

即求傳遞閉包只需n 次運算。
3) 若R 又是n 階的模糊相似矩陣,則存在自然數(shù)k≤n,使得t(R)=Rk,且對于m>k 時,恒有Rm=Rk。
由此而得的t(R)= Rk是一個模糊等價矩陣。
上面之3)告訴人們:從模糊相似矩陣出發(fā),逐次向后計算
R2, R4, …, R2k
當(dāng)?shù)谝淮纬霈F(xiàn)R2k=RkoRk= Rk時(k=1,2,…,n), (1)
實驗方法主要參照已發(fā)表文獻[27]。藥物作用足夠時間后收集細(xì)胞,隨后用流式細(xì)胞儀進行檢測。細(xì)胞周期實驗用PBS-PI液染色。凋亡實驗用PE和7AAD進行染色(按Annexin V/PE凋亡試劑盒說明書進行)。自噬實驗用Cyto-ID?進行孵育(按Cyto-ID?自噬檢測試劑盒說明書進行)。
此Rk便是傳遞閉包t(R),即是要尋找的一個包含R 的最小模糊等價矩陣。
傳統(tǒng)的聚類分析是把每個待分類的對象嚴(yán)格地劃分到某個類中,體現(xiàn)了非此及彼的性質(zhì)。因此,這種分類的類別界限是分明的。然而,客觀事物之間的界限往往是不分明的,這就提出了模糊劃分的概念。自Ruspinis于1969 年提出了模糊劃分的概念以來,并在模糊聚類分析方面做出了開創(chuàng)性的工作以后,已經(jīng)提出了很多基于模糊劃分概念的模糊聚類方法,其中傳遞閉包法就是一種典型的模糊聚類方法。模糊聚類反映了對象屬于不同類別的不確定程度,可以更客觀地反映現(xiàn)實世界。目前,模糊聚類分析已經(jīng)廣泛地應(yīng)用于經(jīng)濟學(xué),生物學(xué),氣象學(xué),信息科學(xué),工程技術(shù)科學(xué)等許多領(lǐng)域[11]。傳遞閉包法聚類首先需要通過標(biāo)定的模糊相似矩陣R,然后求出包含矩陣R的最小模糊傳遞矩陣,即R的傳遞閉包t(R),最后依據(jù)t(R)進行聚類。
傳統(tǒng)的蛋白質(zhì)相似性比較多考慮單一特征,且常常是兩個蛋白質(zhì)的相似性比較,而且比較算法復(fù)雜,效率不高。本方法基于模糊數(shù)學(xué)等價矩陣?yán)碚摚捎枚喾N低維的特征統(tǒng)計量,通過構(gòu)造蛋白質(zhì)相性模糊矩陣,運用模糊傳遞閉包對蛋白質(zhì)結(jié)構(gòu)相似性進行比較和分類,可以快速地對大量的蛋白質(zhì)進行相似性標(biāo)記和分類,可用于快速地對蛋白質(zhì)進行粗分類和比較,這樣就極大地提高了蛋白質(zhì)相似性比較和分類的效率。
基于模糊傳遞閉包的蛋白質(zhì)相似性比較與分類方法,首先根據(jù)選取的特征參數(shù)建立蛋白質(zhì)組的相似模糊矩陣,然后計算該模糊相似矩陣的傳遞閉包,最后根據(jù)用戶指定的置信水平得到蛋白質(zhì)的分類和相似性結(jié)果。具體過程如下:
(1) 確定多特性框架中的蛋白質(zhì)特征參數(shù),本文中選取骨架原子Cα數(shù)、突變原子數(shù)、親水微粒數(shù)、螺旋數(shù)4 個參數(shù)作為刻畫蛋白質(zhì)的特征參數(shù)。
1) 骨架原子Cα數(shù)
作為蛋白質(zhì)空間結(jié)構(gòu)的骨架原子—— Cα一直是蛋白質(zhì)相似性比較的主要研究對象,所以將它作為一個參量。
2) 突變原子數(shù)(HETEROGEN ATOMS)
隨著基因工程的發(fā)展,氨基酸殘基的定點突變技術(shù)已經(jīng)廣泛地用于蛋白質(zhì)工程研究中。這一技術(shù)在對蛋白分子進行結(jié)構(gòu)與功能的預(yù)測和改造中,以及在設(shè)計新功能蛋白分子中發(fā)揮著不可替代的作用[12]。
3) 親水微粒數(shù)(SOLVENT ATOMS)
相對于親水微粒數(shù)而言,疏水微粒數(shù)在蛋白質(zhì)相似性比較中所起的作用更大,但前者更易獲得,故取前者為一個參量。
4) 螺旋數(shù)(HELIX)
作為蛋白質(zhì)二級結(jié)構(gòu)中最主要的結(jié)構(gòu),將其作為一個參量來進行蛋白質(zhì)的相似性比較和分類可以極大地提高相似性比較和分類的準(zhǔn)確度。
(2) 運用上文中提到的方法建立模糊關(guān)系矩陣,然后借助模糊傳遞閉包求得模糊等價矩陣t(R)。設(shè)論域U={Xi|i=1, 2, …, n} 表示待比較的蛋白質(zhì)集合,其中每個蛋白質(zhì)向量Xi= (xi1, xi2, xi3, xi4) 表示上述的4 個特征參數(shù),可以構(gòu)造蛋白質(zhì)組的特征參數(shù)矩陣A = (X1, X2, …, Xn),從該特征參數(shù)矩陣A,可用下述的相似度公式構(gòu)造模糊關(guān)系矩陣R = {rij| i, j = 1, 2, …, n }。


根據(jù)公式(1)來計算模糊關(guān)系矩陣R 的傳遞閉包t(R)時,對Xij的取值是這樣規(guī)定的:對i行j 列的對應(yīng)元素先進行∧(取小)運算,然后再對所得元素進行∨(取大)運算,直到滿足式(1)為止。
(3) 對所得到的不同的λ(置信水平)確定合適的數(shù)值,完成對蛋白質(zhì)的相似性比較和分類。由于所得到的λ(置信水平)在很大程度上取決于構(gòu)造模糊關(guān)系矩陣R 的公式,因此可以根據(jù)需要,靈活地選用合適的公式來實現(xiàn)對λ 的獲取。一旦確定了λ 的值,就可以返回到t(R)中,對所有的對象進行比較和分類。具體做法為:
1) 將t(R)中所有不同的數(shù)值按照從大到小的順序依次列出,從中選取數(shù)值較高的一個λ 值作為對比標(biāo)準(zhǔn)。
2) 找出t(R)中所有大于或等于上述λ 的數(shù)值。
3) 對所找到的每一個符合2)條件的數(shù)值,找到它所在的行i 和列j,即得到第i 個和第j 個比較對象同屬一類,而此處的Rij就作為比較對象的相似度。
4) 將含有交集的分組進行合并,得到最終的分類結(jié)果。
作者從蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫PDB 中取ID 號分別為1J4R、102M、2HBF、101M、2HBD、103M的6 個蛋白質(zhì)分子為研究對象驗證上述方法的可行性。
設(shè)論域U={X1, X2, X3, X4, X5, X6}表示這6 個蛋白質(zhì)分子所組成的集合,已知每個蛋白質(zhì)分子都有4 個參數(shù)(骨架原子Cα數(shù)、突變原子數(shù)( HETEROGEN ATOMS ) 、 親 水 微 粒 數(shù)(SOLVENT ATOMS)、螺旋數(shù)(HELIX)),即Xi={ Xi1, Xi2, Xi3, Xi4}。這樣就可以得到下面的一個矩陣
利用公式(2)對上述矩陣進行標(biāo)準(zhǔn)化,得到

然后,按照公式(1),求得

因此,傳遞閉包為R4,即t(R)= R4。所得結(jié)果如下

這樣,就得到了λ(置信水平)的6 個不同的取值(1、0.960、0.949、0.948、0.717、0.633)。然后依據(jù)這6 個數(shù)值就可以對上述6 個蛋白質(zhì)分子進行分類。比如,當(dāng)取λ(置信水平)=0.948時,分類如下:

即第2 個、第4 個和第6 個蛋白質(zhì)分子屬于同一類(或者說相似性非常高),第3 個和第5個蛋白質(zhì)分子屬于同一類,第1 個蛋白質(zhì)分子單獨一類。事實上,所選擇的6 個蛋白質(zhì)分子中X2、X4、X6均為肌紅蛋白,X3、X5為氧合血紅蛋白,X1為一種異構(gòu)酶。這說明,通過本方法所得到的實驗結(jié)果與事實是一致的。而且通過與文獻[7]方法的比較,如圖1、圖2 所示,可以得到更高的相似度值。另外,將此方法應(yīng)用于蛋白質(zhì)結(jié)構(gòu)的相似性比較,還可以改變4 個參數(shù)(數(shù)量或內(nèi)容)來獲得更好的實驗結(jié)果。圖3 是運用上述方法計算得到的另外三組蛋白質(zhì)的比較結(jié)果。

圖1 氧合血紅蛋白2HBD-2HBF 相似度值

圖3 脫氧血紅蛋白、連接酶蛋白、轉(zhuǎn)移酶蛋白的比較結(jié)果
傳統(tǒng)的方法一般利用蛋白質(zhì)的單一結(jié)構(gòu)表示獲取多維特征矢量,通過每種特征的加權(quán)平均獲得最后的計算結(jié)果,在計算過程中常常產(chǎn)生維數(shù)很高的特征矢量,使得計算復(fù)雜化。與傳統(tǒng)的多種屬性加權(quán)比較的方法不同。本方法采用多種低維的特征統(tǒng)計量,然后運用模糊數(shù)學(xué)等價矩陣的理論從以下4 個方面:骨架原子Cα數(shù)、突變原子數(shù)(HETEROGEN ATOMS)、親水微粒數(shù)(SOLVENT ATOMS)、螺旋數(shù)(HELIX)等進行綜合評判。與基于距離矩陣等其他方法相比,本文所提出的方法具有兩大優(yōu)勢:一方面,綜合考慮到了蛋白質(zhì)分子組成的4 個重要方面,而非單純研究其骨架原子Cα,又加上各種特征之間有一定的相互彌補的作用,這樣大大提高了相似性判斷的準(zhǔn)確度;另一方面,利用該方法不但可以對兩個蛋白質(zhì)分子進行相似性比較,更可以同時比較多個蛋白質(zhì)分子的相似性,極大地提高了相似性比較的效率。
[1] 陶士珩. 生物信息學(xué)[M]. 北京: 科學(xué)出版社, 2007. 151-159.
[2] 彭群生, 胡 敏. 蛋白質(zhì)三維結(jié)構(gòu)相似性比較方法綜述[J]. 計算機輔助設(shè)計與圖形學(xué)學(xué)報, 2006, (10): 1466-1469.
[3] Taylor Willim R, Orengo Christine A. Protein structure alignment [J]. Journal of Molecular Biology, 1989, 208(1): 1-18.
[4] Holm Liisa, Sander Chris. Protein structure comparison by alignment of distance matrices [J]. Journal of Molecular Biology, 1993, 233(1): 123-138.
[5] Choi In-geol, Kwon Jaimyoung, Kim Sung-hou. Local feature frequency profile: a method to measure structural similarity in protein[C]//Proceedings of the National Academy of Sciences of the United States of America, 2004: 3797-3802.
[6] Chi Pin-hao, Scott Grant, Shyu Chi-ren. A fast protein structure retrieval system using image—— based distance matrices and multidimensional index[C]//Proceedings of IEEE Symposium on Bioinformatics and Bioengineering (BIBE’04), Taichung, 2004: 522-529.
[7] 胡 敏, 彭群生. 一種基于空間密度特征的蛋白質(zhì)結(jié)構(gòu)相似性判定方法[J]. 工程圖學(xué)學(xué)報, 2005, 26(1): 91-93.
[8] 徐建平, 方慧生, 相秉仁. 一種快速比較蛋白質(zhì)結(jié)構(gòu)預(yù)測模型相似性的方法[J]. 中國藥科大學(xué)學(xué)報, 2006, 37(3): 281-283.
[9] 陳克賓, 黃文奇. 蛋白質(zhì)三維連續(xù)結(jié)構(gòu)模型結(jié)構(gòu)預(yù)測的高效算法[J]. 計算機工程與科學(xué), 2007, 29(4): 68-71.
[10] 曹謝東. 模糊信息處理及應(yīng)用[M]. 北京: 科學(xué)出版社, 2003. 30-31.
[11] 羅蘭星. 模糊聚類分析中傳遞閉包法及其應(yīng)用[J].四川省衛(wèi)生管理干部學(xué)院學(xué)報, 2005, 24(2) : 108-109.
[12] 林英武, 黃仲賢. 血紅素蛋白的分子設(shè)計新趨向[J].化學(xué)進展, 2006, 18(6): 795-797.