999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于序列特征網絡的蛋白質結構類型研究

2022-11-12 06:12:20戚添韻萬曉耕
生物信息學 2022年3期
關鍵詞:排序特征結構

戚添韻,萬曉耕

(北京化工大學 數理學院,數學部,北京 100029)

蛋白質二級結構的預測始于20世紀60年代中期,早期主要根據PDB數據庫的已知信息,運用統計方法計算單個殘基或氨基酸序列片段形成某種二級結構的概率,來預測蛋白質二級結構類型[1]。近些年,隨著計算機技術的進步,生物信息學為蛋白質二級結構的研究提供了有力的工具。蛋白質二級結構的研究主要聚焦于蛋白質結構與功能之間的關系,為研究、設計新藥物提供理論參考[1],本文主要研究蛋白質序列與其二級結構類型的關系。

在研究過程中,學者們提出了各種基于序列特征的蛋白質結構分類和預測方法。Liu[2]等人提出Pse-in-One服務器,可以生成具有用戶自己定義屬性的特征向量,這些特征向量既可以體現蛋白質序列的特征,又很容易地與機器學習算法結合。Jo[3]等人探索了深度學習網絡在蛋白質折疊識別中的應用,并驗證了深度學習技術在折疊識別研究中的有效性。Yau[4]等人利用圖示方法構造了蛋白質序列的矩向量。Yu[5]等人提出了K-string字典法,用來解決蛋白質序列比較中的高維向量問題。Dong[6]等人提出了mTM-align算法,為蛋白質多重結構比對提供可靠的支撐。Wei[7]等人開發了一種由綜合特征集與集成分類器相結合而設計的蛋白質折疊預測方法PFPA。Khan[8]等人將關聯規則挖掘技術ACO-AC應用于將蛋白質折疊分類。Wang[9]等人報道了一種基于人工智能的蛋白質結構優化方法AIR,將一維優化擴展到由多目標粒子群優化引擎驅動的三維空間優化。Yan[10]等人提出TSVM-fold和ESVM-fold兩種算法,并證明TSVM-fold和ESVM-fold是蛋白質折疊識別的有效預測因子。

近幾年,學者們在蛋白質結構預測和分類上收獲得了更多成果。Zheng[11]等人開發了I-TASSER網關,實現了對蛋白質預測模型與已知模板的在線比對。Zheng[12]等人還開發了LOMETS2服務器,用于基于模板的蛋白質結構預測。Zhou[13]等人開發了DEMO,可方便地用于自動化基因組規模多結構域蛋白質的組裝。Zhou[14]等人還提出了一種基于低估輔助的全局和局部協同差異進化(DE)的蛋白質三維結構預測方法。Zhang[15]等人提出了一種新的途徑—MetaGO,可以在傳統的序列同源性之外預測新的功能。Zhang[16]等人繼續開發了新的開源方法—DeepMSA用于蛋白質二級結構的預測。Vangave[17]等人對基于模板和無模板方法的預測進行評估和整合,并提出了新的高置信度預測方法。Liu[18]等人提出了一種新的蛋白質折疊識別預測器:DeepSVM-fold。Liu[19]等人還采用學習排序模型(Learning to Rank model, LTR)對模板蛋白進行檢索,提出了Fold-LTR-TCP預測器。Yan[20]等人提出了MV-fold和MT-fold兩種算法。Li和Liu[21]提出了兩種特征提取方法—MotifCNN和MotifDCNN以及一種預測器:MotifCNN-fold。

傳統的蛋白質結構分類研究更多地關注蛋白質序列特征空間的劃分,而本研究創新性地利用時間序列相關性方法來探索蛋白質序列特征之間的關系,并通過復雜網絡建模來甄別不同結構類型對應蛋白質序列特征的異同。特別地,網絡中心性結果具體地指出了不同蛋白質結構類型所對應的顯著氨基酸和物理屬性特征,這對深入研究蛋白質結構的分類與預測具有重要意義。

1 研究方法

1.1 蛋白質的序列特征

1.1.1 蛋白質序列的特征提取

CATH數據庫中的蛋白質結構主要分為三大類,即主要α結構類(Mainlyα),主要β結構類(Mainlyβ)和α與β的混合結構類(Mixedα&β)。從CATH數據庫中隨機抽取24組序列,每種結構類型中分別獲取8組;SCOP數據庫包含四種結構類(All-α、All-β、α/β和α+β),從SCOP數據庫的每種結構類中隨機抽取5組蛋白質序列,總共獲得20組蛋白質序列數據。我們利用自然向量(Natural vector, NV)、平均屬性因子(Averaged property factors, APF)這兩種經典的蛋白質序列特征提取方法從選取的蛋白質序列中提取特征向量。由于自然向量和平均屬性因子特征向量分別為60維和10維,因此每個蛋白質序列對應一個70維的特征向量。

(1)

(2)

X=(〈f(1)〉S,〈f(2)〉S,…,〈f(10)〉S)

(3)

其中〈f(m)〉S為氨基酸序列S中第m種屬性的平均值[23]:

(4)

NS表示氨基酸序列S的長度。這10種重要的氨基酸物理屬性分別為:(1)α螺旋/彎曲偏好,(2)側鏈大小,(3)擴展結構偏好,(4)疏水性,(5)雙彎曲偏好,(6)氨基酸構成,(7)平面擴展偏好,(8)α區域出現的頻率,(9)解離常數,(10)β結構的周圍疏水性。這10種氨基酸物理屬性的含義和取值由[24-25]給出。

通過計算自然向量(NV)和平均屬性因子(APF),數據集中的每一條蛋白質序列都可以用一個70維的特征向量表示,在70維的向量空間中,每一個蛋白質可以看成70維實空間中的一個點。對于一個含有n個蛋白質的結構類,所有蛋白質的特征序列構成一個n×70維的特征序列矩陣,其中每一列代表一種特征因素,每一行為一個蛋白質序列的特征向量。

1.1.2 特征序列的隨機排列

由于特征序列長度即為該組數據蛋白質序列的個數,因此同一組數據的特征序列長度相等。為了減小蛋白質順序對特征序列的影響,我們將所有特征序列的元素位置同時亂序,即將特征序列構成的特征序列矩陣的行進行隨機亂序,隨機亂序后仍保持特征序列同一位置對應相同蛋白質。我們通過計算平均標準差來衡量隨機亂序后研究結果的魯棒性。

1.2 特征序列之間的無向關系

1.2.1 互相關系數

首先采用互相關系數來探索序列特征之間的關系。互相關系數是最基本的無向關系之一,它衡量了兩個序列之間的線性相關性。對于一組特征序列{Xi,i=1,2,...,70},序列Xi與Xj的互相關系數ρ(i,j)定義為[26]:

(5)

其中E表示數學期望,Var表示方差。互相關系數取值介于[-1,1]之間,為了計算特征序列之間無向關系,對互相關系數取絕對值,得到R(i,j)=|ρ(i,j)|,i,j=1,2,...,70。因此,對于每個數據集的70個特征序列,得到一個70×70維的互相關系數矩陣R=(R(i,j))70×70,該矩陣是對稱的且矩陣元素R(i,j)取值介于[0,1]之間,R(i,j)的值越接近1,說明序列之間的線性相關性越強,R(i,j)取值越低,說明序列之間的線性相關性越小。

1.2.2 標準化互信息

互信息是信息理論中計算兩個系統之間相互關系的量,它具有“無模型”的特點,即互信息計算的無向關系既可以是線性的也可以是非線性的,因此,互信息常用于現實世界中數據序列之間無向關系的計算。任給兩個特征序列X和Y,可以計算Xi與Xj之間的互信息[27]:

(6)

其中α,β分別為序列Xi與Xj在同一位置的取值。為了實現節點間的相互比較,我們利用最大熵對標準化互信息進行歸一化處理。特征序列Xi與Xj之間的標準化互信息定義為[27]:

(7)

其中Hq為第q個特征序列的香濃熵。對于每個數據集的70個特征序列,我們得到一個70×70維的標準化互信息矩陣I′=(I′(Xi;Xj))70×70,該矩陣是對稱的且矩陣元素介于0和1之間。

1.3 特征序列之間的有向關系

互相關系數與標準化互信息計算的都是特征序列之間的無向關系,而傳遞熵則用來計算特征序列之間的有向信息傳遞。任意兩個特征序列Xi與Xj之間的傳遞熵定義為[28]:

(8)

傳遞熵體現的是序列之間的有向信息傳遞,需要通過替代數據(Surrogate data)進行偏差校正。若令{in}和{jn}分別表示任意兩個特征序列Xi與Xj,TEXj→Xi表示Xj到Xi的傳遞熵。首先將Xj固定,并對Xi的時間索引進行隨機長度的時移,得到替代序列{in-τi},接下來,計算從Xj的原始序列{jn}到{in}的替代序列{in-τi}的傳遞熵,將結果記為TEXj→Xi(q),其中q是替代序列{in-τi}的指標,Xj→Xi的修正傳遞熵即為[29]:

TEC,Xj→Xi=TEXj→Xi-maxq{TEXj→Xi(q)}

(9)

通過計算校正的傳遞熵,每一個結構類對應一個70×70維的傳遞熵矩陣TE=(TEC,Xj→Xi)70×70,該矩陣是非對稱的且每個元素非負,矩陣中第(i,j)個元素TEC,Xj→Xi表示從序列Xj到Xi的傳遞熵。

1.4 蛋白質特征網絡與中心性研究

對CATH和SCOP數據庫的每個主要結構類計算互相關系數、標準化互信息和傳遞熵矩陣,并將這些矩陣看作加權網絡的鄰接矩陣,以此建立以特征因素為節點的無向和有向加權網絡。

1.4.1 網絡與鄰接矩陣

在以節點和節點之間連接關系構成的網絡中,通常用鄰接矩陣來表示網絡。在研究過程中,分別利用互相關系數、標準化互信息和傳遞熵來計算以特征因素為節點的網絡鄰接矩陣,進而利用中心性算法計算不同結構類型對應網絡中特征因素的重要性分布。

1.4.2 無向網絡的中心性

為了探究網絡之間的差異,首先需要探究網絡節點的分布特征,而中心性方法則提供了衡量節點在網絡中重要程度的方法。對于無向網絡來說,中心性有一個最簡單的計算方式,即度中心性[30]。在計算度中心性時,由于網絡是無向的,因此鄰接矩陣A是對稱的,即A=AT,只需要計算每個節點所連接的邊的總數。對于加權網絡來說,度中心性即由鄰接矩陣計算得到的加權邊的權重之和。

另一個比較適用于無向網絡中心性計算的方法是特征向量中心性[31]。特征向量中心性就是鄰接矩陣的最大特征值對應的特征向量,即向量x滿足:Ax=k1x,為了便于計算,上式也可以寫為[32]

(10)

其中k1為鄰接矩陣A的最大特征值。

1.4.3 有向網絡的中心性

以上提到的度中心性和特征向量中心性比較適用于無向網絡,在有向網絡中,這兩種中心性的計算方法存在一定的缺陷,需要進一步探究有向網絡的中心性方法。有向網絡的度中心性分為入度中心性和出度中心性,即每個節點的入邊和出邊數,在加權網絡中分別體現為入邊權重和出邊權重的和。Katz在1953年提出了KATZ中心性[33],該中心性首先賦予網絡中的每個節點一個很小的初始中心性,因為若一個節點只有從它出發的有向邊而沒有指向它的有向邊,即只有出度沒有入度,這些有向邊給被它所指向的節點提供的中心性為零,這顯然是不合理的。根據KATZ中心性的初始化思想,每個節點的中心性可以定義為[30]

xi=α∑jAijxj+β

(11)

其中α和β是正常數,β是初始中心性。由于網絡中心性計算的是網絡中節點的重要性,因此中心性的具體數值并不重要,重要的是每個節點中心性的高低比較,給每個節點賦予一個較小的初始中心性并不會影響中心性的分布。上式可以寫成矩陣形式[30]:

x=αAx+β·1

(12)

其中1是單位向量(1,1,1,....),為了便于計算,β取值為1,則KATZ中心性為[30]

x=(I-αA)-1·1

(13)

本文選取α=1/k1-0.001,根據x=(I-αA)-1·1計算有向網絡的中心性。KATZ中心性存在一個缺陷,即當一個節點具有很高的KATZ中心性時,若它指向多個其它節點,這些節點也會有很高的KATZ中心性。PageRank[30]中心性則改進了這一點,PageRank中心性定義為[30]:

(14)

x=αAD-1x+β·1

(15)

同樣,取β=1,經過移項PageRank中心性還可以寫成

x=(I-αAD-1)-1·1=D(D-αA)-1·1

(16)

2 結果

2.1 數據的選取與特征提取

從CATH和SCOP數據庫的每個主要結構類中隨機且盡可能等量地選取由X-ray實驗獲得、序列相似度不超過30%的PDB數據,其中從 CATH的三個主要結構類中各隨機選取8個CATH組(按CATH ID分類的組),并從SCOP數據庫的四個主要結構類中各隨機選取5個SCOP組,數據選取的結果(見表1)。這兩個數據庫的不同結構類數據集之間無冗余序列。由于兩個數據庫對子類劃分方式不同,在盡量避免冗余的情況下,α、β、α與β的混合結構類每一種類型的不同數據庫數據集之間仍然存在一定交集,平均冗余度為7.5%,不影響實驗結果。

表1 CATH和SCOP結構分類數據庫數據選取

2.2 特征序列有向和無向關系的分析

分別采用互相關系數、標準化互信息和傳遞熵的方法對序列特征之間的無向和有向關系進行計算。由于不同類型的序列特征取值分布不同,將60維的自然向量按其組成部分分為N特征(1-20維,表示20種氨基酸在蛋白質序列中的個數),μ特征(21-40維,表示20種氨基酸在蛋白質序列中距首個氨基酸的平均距離)和D特征(41-60維,表示20種氨基酸在蛋白質序列中距首個氨基酸距離的二階歸一化中心矩),并分別對N、μ、D特征以及10維的平均屬性因子(氨基酸的10種物理屬性)特征計算無向和有向的關系矩陣,并將計算結果用彩圖的方式展現(見圖1~圖4和圖5~圖8)。分別展示了CATH和SCOP兩組數據集在每種序列特征下的關系矩陣。

圖1 特征N的相關性分析(CATH)

圖2 特征μ的相關性分析(CATH)

圖3 特征D的相關性分析(CATH)

圖4 特征APF的相關性分析(CATH)

圖6 特征μ的相關性分析(SCOP)

圖7 特征D的相關性分析(SCOP)

從這些彩色矩陣中可以明顯看出某些氨基酸或物理屬性的序列特征與其它同類型特征之間具有較強或較弱的關系。利用這些無向和有向的關系矩陣構建以序列特征為節點的加權網絡,并利用網絡中心性算法來分析不同結構類型下蛋白質序列特征因素的重要性分布。

2.3 不同結構類型序列特征網絡中心性分析

利用對稱的互相關系數矩陣和標準化互信息矩陣構建無向的加權網絡,并利用非對稱的傳遞熵矩陣構建有向的加權網絡。由于網絡中心性衡量的是網絡中節點的重要程度,同一個網絡中不同節點之間中心性的高低比中心性的具體數值更重要。為了便于觀察分析,將同一個關系矩陣構建的網絡中各個節點的中心性結果進行標準化,將中心性的取值按照x=x/maxx調整至[0,1]區間內,其中x為中心性向量,maxx為中心性向量x中的最大分量值。

CATH數據集得到的N、μ、D特征網絡中心性結果見圖9。從圖9中可以看出,三種結構類均在半胱氨酸(C)、甲硫氨酸(M)、色氨酸(W)的三種特征上體現出較低的無向網絡中心性(度中心性和特征向量中心性)與較高的有向網絡中心性(KATZ和PageRank中心性),而在色氨酸(A)、天冬氨酸(D)、亮氨酸(L)、纈氨酸(V)的三種特征上體現出較強的無向網絡中心性和較弱的有向網絡中心性。這表明半胱氨酸(C)、甲硫氨酸(M)和色氨酸(W)的構成和排序與其它氨基酸的構成和排序之間對稱關系較弱而非對稱關系較強,而色氨酸(A)、天冬氨酸(D)、亮氨酸(L)、纈氨酸(V)與其它氨基酸的構成與排序之間對稱關系較強而非對稱關系較弱,組氨酸(H)的N特征也體現出較強的有向網絡中心性,表明組氨酸(H)的個數與其它氨基酸的個數之間也具有較強的非對稱關系。Mainlyα結構類在脯氨酸(P)的排序(μ特征)上體現出較強的有向網絡中心性,而Mainlyβ結構類在甘氨酸(G)的構成和排序上具有較強的無向網絡中心性;Mixedα&β的混合結構類在組氨酸(H)的N特征上明顯體現出偏高的有向網絡中心性。

圖9 CATH數據庫的N、μ、D特征網絡中心性分析

SCOP數據庫得到的N、μ、D特征中心性結果見圖10。可以看出SCOP的四種結構類在半胱氨酸(C)與色氨酸(W)的構成和排序以及組氨酸(H)、甲硫氨酸(M)的排序特征具有較低的無向網絡中心性和較高的有向網絡中心性。這表明這些氨基酸與其它氨基酸的特征之間具有較弱的對稱關系與較強的非對稱關系,而色氨酸(A)、天冬氨酸(D)、亮氨酸(L)和纈氨酸(V)對應較強的無向網絡中心性和較弱的有向網絡中心性,表明這些氨基酸與其它氨基酸的構成和排序之間具有較強的對稱關系與較弱的非對稱關系。這些特點是SCOP的四種結構類的共性,這也可以從圖5-圖7中看出。

All-α結構類天冬酰胺(N)的構成和排序特征具有較高的有向網絡中心性,這表明天冬酰胺(N)與其它氨基酸的特征之間具有較強的非對稱關系。All-β結構類中蘇氨酸(T)的排序特征的無向和有向網絡中心性均較高,這是與All-α結構類的最明顯的差別,All-α結構類的蘇氨酸(T)的排序特征有向網絡中心性較低,低于絲氨酸(S)排序特征的有向網絡中心性,而All-β結構類中蘇氨酸(T)的排序特征在有向網絡中心性上明顯高于絲氨酸(S),這與CATH數據集的結果具有一定相似性。此外,在All-β結構類中甘氨酸(G)的排序特征的無向和有向網絡中心均較強,而All-α結構類在甘氨酸(G)的排序特征上具有較弱的有向網絡中心性,這表明在All-β結構類中甘氨酸(G)的排序特征與其它氨基酸的排序特征之間具有較強的對稱和非對稱關系,而在All-α結構類中甘氨酸(G)的排序與其它氨基酸的排序之間有向關系較弱。α/β與α+β結構類分別繼承了All-α與All-β結構類的一些特點。

從圖9-圖10中可以看出,半胱氨酸(C)、色氨酸(W)、甲硫氨酸(M)的有向網絡中心性偏高,而無向網絡中心性偏低。導致這種中心性差異的原因可能是由于這些氨基酸與其它氨基酸之間具有較強的相互作用(有向網絡中心性高),這些相互作用之間關系復雜,具有不確定性,而無向網絡中心性低則說明盡管特征之間有緊密的相互作用,但不同氨基酸的特征之間并不能彼此相互決定。這種中心性差異是不同結構類的共有特征,這種共有的強烈而復雜的相互作用,可能由氨基酸的物理化學性質,例如:親水性、側鏈基團的極性,以及這些氨基酸的功能和作用所導致,而這種氨基酸之間的強烈相互作用可能與結構類型的選擇無關。

圖10 SCOP數據庫的N、μ、D特征網絡中心性分析

CATH和SCOP數據集的APF特征中心性結果見圖11-圖12。在CATH數據結果中,Mainlyα結構類的氨基酸α螺旋/彎曲偏好(1)、側鏈的大小(2)、解離常數(9)無向網絡中心性較高,對稱關系較強,氨基酸疏水性(4)的線性無向網絡(即線性CR關系建立的網絡)和有向網絡中心性高,而非線性無向網絡(即非線性nMIR關系建立的網絡)中心性較低,氨基酸擴展結構偏好(3)、雙彎曲偏好(5)、氨基酸組成(6)、α區域出現的頻率(8)、β結構的周圍疏水性(10)的線性無向網絡中心性較低,表明這些物理屬性與其它屬性之間的線性對稱關系較弱。Mainlyβ結構的氨基酸α螺旋/彎曲偏好(1)、氨基酸擴展結構偏好(3)無向網絡中心性高,氨基酸疏水性(4)的無向和有向網絡中心性均較高,表明對稱和非對稱關系均較高,側鏈的大小(2)的無向網絡中心性較低,與其它屬性的對稱關系較弱,雙彎曲偏好(5)、α區域出現的頻率(8)、β結構的周圍疏水性(10)的線性無向網絡中心性較低,表明這些屬性與其它屬性的線性對稱關系較弱。Mixedα&β結構類的氨基酸組成(6)的無向和有向網絡中心性均較高,與其它屬性的對稱和非對稱關系均較強,氨基酸α螺旋/彎曲偏好(1)、氨基酸擴展結構偏好(3)、氨基酸疏水性(4)的線性無向網絡中心性偏低,而非線性無向網絡中心性偏高,表明這些屬性具有較強的非線性對稱關系。

圖11 CATH數據庫的APF特征網絡中心性分析

圖12 SCOP數據庫的APF特征網絡中心性分析

類似地,在SCOP的結果中,All-α結構類α螺旋/彎曲偏好(1)、疏水性(4)、β結構的周圍疏水性(10)的線性無向網絡與有向網絡中心性均較高,而擴展結構偏好(3)、雙彎曲偏好(5)、氨基酸構成(6)、平面擴展偏好(7)的線性無向網絡中心性偏低,而非線性無向網絡中心性偏高。All-β結構類中(1)、疏水性(4)、平面擴展偏好(7)、β結構的周圍疏水性(10)的無向網絡中心性偏高,而有向網絡中心性偏低,擴展結構偏好(3)、氨基酸構成(6)的無向網絡中心性偏低,而有向網絡中心性偏高,(9)的線性無向網絡中心性偏低。在α+β結構中,α螺旋/彎曲偏好(1)、β結構的周圍疏水性(10)的線性無向網絡中心性偏低,(5)的線性無向網絡中心性偏低,而非線性無向網絡中心性偏高,側鏈大小(2)、擴展結構偏好(3)、疏水性(4)、平面擴展偏好(7)、解離常數(9)的無向網絡中心性偏高。α/β結構中,α螺旋/彎曲偏好(1)、擴展結構偏好(3)的無向網絡中心性偏低,而有向網絡中心性偏高,側鏈大小(2)、氨基酸構成(6)、解離常數(9)的無向網絡中心性偏高。

經過上述分析發現α結構類的α螺旋/彎曲偏好(1)與其它屬性的對稱關系較強,疏水性(4)的線性對稱和非對稱關系較強,非線性關系較弱,而擴展結構偏好(3)、雙彎曲偏好(5)、氨基酸構成(6)的線性對稱關系較弱。β結構類的α螺旋/彎曲偏好(1)、疏水性(4)對稱關系較強,而氨基酸構成(6)的非對稱關系較強。混合結構類中氨基酸構成(6)的對稱和非對稱關系均較強,α螺旋/彎曲偏好(1)的線性對稱關系較弱。

3 討 論

通過計算蛋白質序列特征之間的無向和有向關系,建立蛋白質特征加權網絡,并利用網絡中心性算法來探索不同蛋白質結構類型的差異。不同于以往的蛋白質結構研究,網絡中心性的結果可以推斷出具體的氨基酸特征和物理屬性對不同蛋白質結構類型的影響,研究結果對蛋白質二級結構的分類和預測研究具有參考和指導意義。

通過提取蛋白質序列的氨基構成和排序,以及重要物理屬性,每個蛋白質序列對應一個70維特征向量,該向量前60維為自然向量特征,而61-70維為氨基酸的10種重要物理屬性平均值。為了減小蛋白質順序對特征序列之間關系的影響,我們對蛋白質特征序列進行隨機亂序處理,而網絡中心性結果的平均標準差驗證了隨機亂序后結果的魯棒性。在三種關系矩陣計算方法中,互相關系數和標準化互信息分別衡量了序列特征之間的線性和非線性關系,兩者均為對稱關系,而傳遞熵則度量了特征序列之間的有向信息傳遞。互相關系數和標準化互信息所描述的對稱關系,可以看成一種確定性的對稱關系,例如,一個序列X與它自身的互相關系數和標準化互信息均為1,表明X與它自己之間具有很強的確定性的對稱關系;而X與它自身之間的傳遞熵為0,也驗證了X與它自身之間的確定性關系。而在線性回歸模型中,若一個序列X的線性回歸方程中含有另一個序列Y的時滯向量,則從Y到X的傳遞熵為正,而互相關系數和標準化互信息均為0,這表明Y到X之間具有有向的信息傳遞,而由于回歸方程中誤差項的存在,導致Y對X的影響具有非確定性[32-33]。因此,互相關系數、標準化互信息和傳遞熵這三種方法的取值之間是相互獨立的。

在網絡中心性計算中,中心性度量網絡節點的重要性,其具體數值并不重要,重要的是同一網絡中不同節點的中心性之間的高低比較。在無向網絡中,節點的中心性高表明該節點所代表的特征與同一網絡中其它特征之間的對稱關系較強;而在有向網絡中,節點的中心性高則表明該特征與同一網絡的其它特征之間非對稱關系較強。

通過分析70維融合特征向量,我們發現不同蛋白質結構類型的共性主要體現在自然向量特征上,其中不帶電荷的極性半胱氨酸(C)、非極性色氨酸(W)、帶正電荷組氨酸(H)、非極性甲硫氨酸(M)的構成和排序與其它氨基酸的特征之間具有較弱的對稱和較強的非對稱關系(即不確定性復雜相互作用),而非極性色氨酸(A)、帶負電荷的天冬氨酸(D)、非極性亮氨酸(L)和非極性纈氨酸(V)的構成和排序與其它氨基酸的特征之間具有較強的對稱關系和較弱的非對稱關系,這是CATH和SCOP的所有主要結構類的共同特征,與不同結構的選擇無關。從氨基酸極性角度觀察,α結構類的特征主要體現在非極性脯氨酸(P)和極性天冬酰胺(N)上,而β結構類的特征主要體現在不帶電的極性氨基酸上,例如蘇氨酸(T)和甘氨酸(G),其中α與β結構的差異則體現在絲氨酸(S)、蘇氨酸(T)、甘氨酸(G)等氨基酸與其它氨基酸特征之間關系的強弱,以及氨基酸物理屬性之間關系的強弱上。從70維融合特征向量的中心性分布中可以看出,氨基酸的物理屬性中心性對不同蛋白質結構類型的分布差異較大,而氨基酸的構成和排序特征中心性對不同結構類型的分布存在一定差異但幅度較小。我們可以推斷氨基酸的物理屬性對區分不同結構類型影響較大。

分析了不同結構類對應的重要氨基酸和物理屬性特征,總結了不同蛋白質結構類在序列特征關系上的異同。通過考慮不同結構類型的序列特征差異,有助于開發新的蛋白質結構分類和預測算法,本研究所使用的復雜網絡方法還可用于進化分類或更深層次結構分類的研究,對蛋白質結構的研究和發展具有重要意義。

4 結 論

通過對不同結構類型的蛋白質序列特征進行網絡建模,發現了不同結構類型對應序列特征之間的關系的共性和差異。研究發現,CATH和SCOP的主要結構類型均在半胱氨酸(C)、色氨酸(W)、組氨酸(H)和甲硫氨酸(M)的構成和排序上具有較弱的對稱和較強的非對稱關系,而在丙氨酸(A)、天冬氨酸(D)、亮氨酸(L)和纈氨酸(V)的構成和排序上具有較強的對稱和較弱的非對稱關系,這種共性可能與蛋白質結構類型的選擇無關;而α與β結構的差異則體現在絲氨酸(S)、蘇氨酸(T)、甘氨酸(G)以及氨基酸物理屬性等特征關系的強弱上。

猜你喜歡
排序特征結構
排序不等式
《形而上學》△卷的結構和位置
哲學評論(2021年2期)2021-08-22 01:53:34
恐怖排序
如何表達“特征”
論結構
中華詩詞(2019年7期)2019-11-25 01:43:04
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
節日排序
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
抓住特征巧觀察
論《日出》的結構
主站蜘蛛池模板: 国产成人高清在线精品| 人妻丰满熟妇αv无码| 一区二区午夜| 亚洲精品男人天堂| 日韩东京热无码人妻| 亚洲午夜国产精品无卡| 伊人久久精品无码麻豆精品| a毛片在线播放| 久久国产热| 国产XXXX做受性欧美88| a毛片在线| 欧美中日韩在线| 国产网站黄| 亚洲高清日韩heyzo| 热久久综合这里只有精品电影| 亚洲系列无码专区偷窥无码| 茄子视频毛片免费观看| 久久精品中文字幕免费| 精品人妻无码中字系列| 国产另类乱子伦精品免费女| 免费A级毛片无码免费视频| 亚洲人成色77777在线观看| 爽爽影院十八禁在线观看| 久久精品无码一区二区日韩免费| 男女男免费视频网站国产| 伊人久久久久久久久久| 视频二区国产精品职场同事| 国产成人精品2021欧美日韩| 国产原创演绎剧情有字幕的| 美女国产在线| 成年人国产网站| 婷婷六月在线| 欧美日韩在线观看一区二区三区| www.亚洲天堂| 又猛又黄又爽无遮挡的视频网站| 四虎永久免费地址在线网站| 国内视频精品| 国产精品自拍露脸视频| 亚洲 欧美 中文 AⅤ在线视频| 亚洲综合18p| 亚洲欧美日韩视频一区| 午夜国产理论| 无码在线激情片| 秋霞一区二区三区| 成年女人18毛片毛片免费| 高潮爽到爆的喷水女主播视频 | 男女猛烈无遮挡午夜视频| 99色亚洲国产精品11p| 呦系列视频一区二区三区| 亚洲国产精品美女| 一级毛片在线免费看| 秋霞午夜国产精品成人片| 国产极品美女在线播放| 婷婷综合缴情亚洲五月伊| 亚洲A∨无码精品午夜在线观看| 欧美亚洲国产一区| 国产成人亚洲日韩欧美电影| 九九热精品在线视频| 国产乱人伦AV在线A| 国产在线视频福利资源站| 免费在线a视频| 国产特级毛片| 无码精品一区二区久久久| 国产99精品久久| 亚洲综合九九| 国产激爽大片高清在线观看| 亚洲男人的天堂在线观看| 九色综合视频网| 午夜不卡福利| 国产一级毛片高清完整视频版| 欧美不卡视频一区发布| 高清色本在线www| 91麻豆精品视频| 国产成人亚洲精品无码电影| 熟女视频91| 国产人免费人成免费视频| 成人福利免费在线观看| 人人艹人人爽| 亚洲最新网址| 国模在线视频一区二区三区| 国产精品女人呻吟在线观看| 亚洲第一成年人网站|