管澤雨,邱嘉迪,劉文碩,趙蘊杰
(華中師范大學物理科學與技術學院 生物物理研究所,武漢 430079)
蛋白質由20種不同的氨基酸經肽鍵聚合組成,通過形成特定的空間三級結構以實現催化和調控等不同的生物學功能.不同的氨基酸排列順序會形成不同的蛋白質結構,蛋白質三維空間結構決定了其生物學功能[1-2].因此,蛋白質三維結構研究對理解其如何發揮生物學功能和設計相關的藥物具有重要的意義.近年來,蛋白質殘基相互作用網絡普遍應用于蛋白質相關問題的研究.該方法中網絡的節點為組成蛋白質的殘基,網絡的邊為非共價鍵殘基相互作用(如范德瓦爾斯和靜電相互作用等)[3].基于蛋白質殘基相互作用網絡,可以進一步利用圖論的方法研究蛋白質結構穩定性[4-5],蛋白質動力學[6-8],酶活性和變構調節[9],信號轉導[10-11]等問題,為解決這些問題提供了一個嶄新的視角.例如,Vendruscolo等人通過蛋白質殘基相互作用網絡的聚類系數(clustering coefficient),平均路徑長度(average shortest path length)和中介中心度(betweenness centrality)的分析,提出了中介中心度極大值殘基是折疊過程的關鍵氨基酸[8].Amitai等人通過計算蛋白質殘基相互作用網絡整體的接近中心度(closeness centrality)和相對溶劑可及性(relative solvent accessibility),可以較為有效地識別蛋白質活性位點氨基酸,在包含178個典型蛋白質的數據集中正確率達到70%[9].
目前已有一些分析蛋白質殘基相互作用網絡的工具.例如,AMINONET可計算疏水、親水或帶電氨基酸組成網絡的拓撲屬性[12];RING可構建殘基相互作用網絡,并通過Cytoscape[13]計算網絡的拓撲性質[14-15];NAPS[16]可分析蛋白質網絡邊和節點的各種中心度性質,查找兩個節點的最短路徑,k連通子網等.然而,現有的蛋白質殘基相互作用網絡分析工具易用性較差,且網站訪問較不穩定.例如,AMINONET需要在Java環境下運行,RING則需要將結果導出到Cytoscape進行分析,而Cytoscape本身也需要在Java環境下運行,需要依賴其它軟件和環境,使用不方便.另一方面,隨著人類基因組計劃的完成,蛋白組學迅猛發展,大量的疾病相關基因被發現,藥物作用的靶標分子急劇增加,現有方法缺乏對蛋白質結合口袋的分析,極大限制了殘基相互作用網絡方法的應用范圍[17].因此,亟需易用性較強并可分析結合口袋的蛋白質殘基相互作用網絡模型.
本文建立了基于D3[18]和NGL Viewer[19]的蛋白質分析平臺.用戶僅需提交蛋白質的PDB結構信息,既可快速搭建蛋白質殘基相互作用網絡,計算網絡的拓撲性質,實現網絡的可視化,并結合DogSiteScorer計算的結合口袋信息計算它們的拓撲性質,對理解蛋白質的結構、生物學功能和相關藥物設計有重要的意義.
本文用蛋白質的三維結構信息構建蛋白質殘基相互作用網絡.網絡由節點和邊兩部分組成:蛋白質結構中的氨基酸為網絡中的節點.蛋白質結構統計分析表明,不相鄰的氨基酸之間主要有兩個距離分布的峰值.第一個距離峰值為0.3~0.5 nm,主要是氫鍵等短程相互作用;第二個距離峰值為0.7~0.8 nm,主要為靜電等長程相互作用[20].因此,蛋白質相互作用研究大多數以0.8 nm作為距離截斷,如果兩氨基酸間任一對原子的距離小于0.8 nm則定義該氨基酸—氨基酸形成網絡的邊.
本文提供了3類網絡特征的計算,分別為度中心度,接近中心度和中介中心度,具體的計算公式如表1所示.度中心度直觀上反映了一個節點在網絡中的重要程度,定義為與該節點連接的邊的數目;接近中心度描述了網絡中的節點通過網絡到達其它節點的難易程度,數值為該節點到其它所有能到達節點的平均距離的倒數,反映了該節點對其它節點施加影響的能力;中介中心度描述了節點在整個網絡中的作用和影響力,定義為網絡中所有最短路徑經過該節點的數量[21].

表1 3種centrality的定義Tab.1 The definitions of 3 kinds of centrality
蛋白質殘基相互作用網絡服務用到了HTML、Javascript、PHP、MATLAB等語言以及D3.js、NGL.js等Javascript庫,基本框架如圖1所示.
主要流程為:
1) 服務器端調用FileRead.php,將臨時文件傳入到服務器的Inputs文件夾,對文件解壓.
2) 調用Matlab編寫的可執行程序,讀取pdb文件中的數據,生成每個殘基的3種centrality數據,具體為(流程圖見圖1(b)):①將pdb文件中的蛋白質三維結構數據轉換為殘基網絡的鄰接矩陣,若其中兩個殘基不相鄰且存在一對原子距離小于0.8 nm則定義為相鄰.②按照1.2中centrality的定義計算出每個殘基的3種centrality值.
3) 清空Inputs文件夾,以便再次傳入數據.將得到的每個殘基的centrality值及殘基之間的連接信息寫入Outputs文件夾中的centrality.json文件,生成3種centrality的直方圖,折線圖,散點圖.
4) 瀏覽器加載centrality.json文件,默認以closeness的倍數為節點的半徑繪制所上傳蛋白質的力導向圖,并調用NGL Viewer顯示蛋白質三維結構,顯示3種centrality的直方圖,折線圖,散點圖.
D3是一個基于web標準的JavaScript可視化庫,D3可以借助SVG,Canvas以及HTML將數據生動的展現出來[18].使用基于D3的力導向算法(Forced-Directed Algorithm)的相關API來實現可視化網絡.力導向算法是Eades于1984年提出的一種布點作圖算法[22],其基本思想為將網絡看成一個頂點為鋼環、邊為彈簧的物理系統,系統被賦予某個初始狀態后,彈簧彈力的作用使鋼環運動,直到系統總能量達到最小值時停止.通過改進力學模型可以得到不同的算法,并實現以下3點:1)節點分布均勻;2)邊交叉最小化;3)具有對稱性[23].此外,還通過添加tick事件來不斷更新圖形系統,實現動態的推拽效果.
NGL Viewer是實現蛋白質結構可視化的Web應用程序,用戶可上傳并顯示蛋白質三維結構,不受第三方插件(如Flash和Java小程序)的影響.NGL Viewer支持常見的蛋白質結構文件格式(如pdb、mmcif)和各種分子表示(例如cartoon、spacefill、licorice、surface).此外,NGL Viewer可嵌入到網站中實現可視化.
研究表明,蛋白質殘基相互作用網絡呈現小世界網絡特征[8,24],力導向圖在小世界網絡中有良好的可視化效果[25-26].力導向圖易于理解和實現,可以畫出相當優美的圖形布局,充分展現出圖的整體結構及其自同構特征[26].因此,基于力導向的可視化算法可以較好的描繪蛋白質殘基相互作用網絡.圖2為細胞周期蛋白依賴激酶2(CDK2,PDB code:1fin,A鏈)前100個氨基酸的蛋白質殘基相互作用網絡,其中不同的5種顏色分別對應5個不同的口袋,黑色為默認顏色,表示不參與口袋的形成,右側顯示為該蛋白質的三維結構.

圖2 細胞周期蛋白依賴激酶A鏈前100個氨基酸的力導向圖Fig.2 Force-directed graph of top 100 amino acid of CDK2
網站的主要功能有以下幾個方面.
1) 當光標浮在節點上方時,顯示該節點的編號,closeness centrality,betweenness centrality,degree centrality,所在口袋編號(可能同時屬于多個口袋);
2) 按照各centrality值高低搜索對應殘基并染色;
3) 搜索某個口袋的所有殘基并染色,觀察其在網絡中的分布;
4) 列出各個口袋的各平均centrality值;
5) 利用NGL Viewer顯示蛋白質三維結構,并根據計算的centrality分布將三維結構染色;
6) 由D3繪制的力導向圖具有拖拽功能,可以動態顯示蛋白質殘基相互作用網絡;
7) 作出各centrality的區間分布圖,centrality隨氨基酸索引的折線圖,不同centrality分別作橫縱坐標的散點圖.
在線服務分為任務區,演示區和教程區,使用的主要步驟如下:
1) 上傳蛋白質PDB結構文件,DoGSiteScorer(https://proteins.plus/#dogsite)計算得到的口袋結構信息(壓縮為zip格式),提交任務.
2) 計算結果如圖3所示,主要分為兩個部分,區域I顯示蛋白質的力導向圖,區域II顯示相應的三維結構圖,初始時默認染色第一個口袋.此時,有兩種染色功能可供選擇:①根據centrality值的大小染色,centrality有closeness centrality、betweenness centrality、degree centrality三種,可在區域I下拉列表中選擇.在文本框中輸入整數m(下標從0開始)與n,點擊color后突出顯示排名在m與n之間的殘基,將鼠標懸停在某個節點的上方,可以查看該節點對應殘基的序號,各centrality值以及該氨基酸所在的口袋編號.②根據口袋染色,數據加載完成后,會自動生成與上傳口袋數相同的復選框按鈕,選擇要染色的口袋,點擊color,選中的口袋的所有氨基酸將依口袋的不同被染成不同的顏色.當上傳蛋白質的殘基數目較多時(例如大于300個),可滾動鼠標實現圖的縮放,縮放比例范圍為[0.5,2].區域II用于顯示蛋白質三維結構(提供Cartoon、Spacefill、Licorice、Surface 4種顯示方式)并根據計算的中心度值將其染色,將中心度值按照數值從大到小的順序進行三等分,分別為高中心度值(顯示為紅色)、中中心度值(顯示為綠色)以及低中心度值(顯示為藍色),用戶可以在下拉列表中選擇不同類型的中心度進行染色.在區域I與區域II的下方,分別顯示3種中心度的區間分布圖(橫坐標為相應中心度的區間取值范圍,縱坐標為氨基酸中心度取值在該范圍內的數目)、中心度值隨殘基序號的折線圖,不同中心度分別為橫縱坐標的散點圖.
3) 點擊Download區域的json、jpeg文件可以打開或者下載相應文件.
利用力導向圖可以更加深入和直觀的了解蛋白質結構,挖掘有用的信息.

圖3 頁面主體功能區Fig.3 Main body of the resulting page
以計算p38alpha c162s突變體(PDB code:1r3c)的closeness為例,上傳蛋白質PDB結構文件及DogSiteScorer網站計算的口袋結構信息并提交任務[27].在結果頁面,選擇圖3所示區域I底部的ByCentrality染色方案,右側下拉列表中選擇closeness選項,在輸入框中輸入0,10(表示將closeness排名前10的氨基酸染成紅色),點擊Color,將光標移到紅色節點上方顯示出殘基名稱、序號、centrality值及所在口袋編號,所得結果如表2.其中P_0為ATP口袋,因而一半的殘基在ATP口袋,說明了ATP口袋有較強的保守性.betweenness的計算結果如表3所示.
可以看出closeness和degree近似服從正態分布,betweenness近似服從長尾分布.進一步,可下載centrality.json文件,找出betweenness最大的前10位,進行細致的分析(如表3所示).圖5為p38alpha c162s突變體結構(PDB code:1r3c)的cartoon圖,紅色部分為betweenness值排名前10的殘基,主要分布在ATP口袋周圍,說明ATP口袋中的殘基對蛋白質網絡拓撲結構有較大的影響.值可預測蛋白質的結合位點氨基酸.

表2 1r3c中closeness值Top 10對應的氨基酸Tab.2 Top 10 amino acid by closeness of 1r3c

表3 1r3c中betweenness值Top 10對應的氨基酸Tab.3 Top 10 amino acid by betweenness of 1r3c
網絡特征closeness centrality,betweenness centrality和degree centrality的分布規律如圖4所示.

圖4 centrality的分布規律Fig.4 The distribution of 3 kinds of centrality

圖5 p38alpha c162s突變體的結構(PDB code:1r3c)Fig.5 The cartoon presentation of 1r3c
研究表明,蛋白質的活性位點,配體結合位點,進化保守殘基的closeness值大多較高[28].因此,根據蛋白質殘基相互作用網絡中節點的closeness以枯草桿菌蛋白酶為例(PDB code:1bh6),圖6為枯草桿菌蛋白酶三維結構中網絡拓撲性質的closeness分布.將closeness值按照數值從大到小的順序進行三等分,紅色表示closeness值較高的殘基,綠色表示closeness值中等的殘基,藍色表示closeness值較低的殘基.結果表明,枯草桿菌蛋白酶表面closeness值較高的殘基大多數分布在小分子的結合位點區域.

圖6 枯草桿菌蛋白酶(1bh6)closeness分布圖Fig.6 The distribution of closeness of subtilisin(PDB code:1bh6)
研究表明,蛋白質殘基相互作用網絡不同于隨機網絡與規則網絡,具有處于兩者之間的小世界網絡的特性,即具有較大的聚類系數和較小的平均最短路徑[5].因此,利用網絡節點的betweenness可以有效識別蛋白質折疊過程中過渡態系綜的關鍵殘基.Vendruscolo等[29]通過實驗確定了酰磷酸酶(PDB code:1aps)折疊過程中的關鍵殘基,具體為TYR11、PRO54、PHE94.圖7為酰磷酸酶殘基相互作用網絡的betweenness數值分布,TYR11和PHE94的betweenness較高.

圖7 1aps蛋白的betweenness值隨殘基序列的分布Fig.7 The distribution of betweenness of protein 1aps(pdb code:1aps )
蛋白質殘基相互作用網絡模型為研究蛋白質的結構與功能的關系提供了嶄新的視角.網絡拓撲結構中的接近中心度、中介中心度等性質,反映了單個氨基酸與蛋白質整體結構的關系[9].該方法在蛋白質穩定性,蛋白質折疊動力學,控制酶活性和變構調節,信號轉導等方面取得了一系列成果.
本文利用D3.js,HTML,PHP,Javascript,MATLAB和NGL Viewer等程序模塊搭建了蛋白質殘基相互作用網絡在線服務及可視化分析平臺.用戶可以利用蛋白質結構信息搭建網絡結構,并計算接近中心度等網絡的拓撲結構信息.長度約300個氨基酸的中等大小蛋白質,計算速度約為30 s.另外,該分析平臺還可分析蛋白質的結合口袋特征,有較強的可擴展性,可添加網絡最短路徑,k個節點的極大完全子圖(k-clique)等模塊單元.結果表明,蛋白質殘基相互作用網絡在線服務及可視化分析平臺對理解蛋白質結構,調控功能和藥物設計的相關研究有重要的幫助.