祁宏,王洋,,石艷香
(山西大學 a.復雜系統研究所;b.數學科學學院,太原 030006)
細胞死亡是生物體的一項基本生命過程,在生物體的發育、自穩態和病理方面均發揮著舉足輕重的作用[1-2].根據形態學和分子特征的不同,細胞死亡可分為凋亡、壞死、焦亡、鐵死亡、溶酶體依賴性細胞死亡、自噬性細胞死亡、銅死亡等[3-4].各種細胞死亡方式均受到各自信號網絡的精密調控,目前研究最多的3種方式是凋亡、壞死和焦亡[5].
關于凋亡機制的研究最為深入,它可通過受體途徑和線粒體途徑發生[6].二者均依賴于凋亡蛋白酶(Caspase,簡寫為CASP),當細胞受到凋亡信號刺激后會首先活化起始凋亡蛋白酶(如CASP2,CASP8和CASP9),起始凋亡蛋白酶再激活效應凋亡蛋白酶(如CASP3,CASP6和CASP7),效應凋亡蛋白酶進一步切割體內數百種蛋白[7-8].線粒體途徑的主要參與者CASP9的活化還受BCL2蛋白家族成員之間相互作用的調控[9].
壞死機制的研究比較清晰.它主要由腫瘤壞死因子(TNF)受體家族以及Toll樣受體家族啟動,通過和受體蛋白互作的兩個蛋白激酶RIP1(receptor interacting protein kinase 1)和RIP3(receptor interacting protein kinase 3)傳遞死亡信號,進而募集并磷酸化MLKL(mixed lineage kinase domain-like protein),活化的MLKL轉位到細胞膜上誘導細胞裂解死亡[10-12].
焦亡機制的研究正在逐漸推進,通常分為經典途徑和非經典途徑.前者主要由炎癥小體募集并激活CASP1;后者常由胞質脂多糖直接激活CASP4,CASP5和CASP11.這些CASP蛋白都能切割打孔蛋白GSDMD(Gasdermin D),使其釋放N-末端片段并在細胞膜上組裝成孔,導致膜完整性喪失和細胞裂解[13-14].
實際上凋亡、壞死和焦亡的信號網絡遠比上述情況復雜,完整的信號網絡包含數十甚至上百種物質.例如,除了CASP和BCL2蛋白家族,凋亡信號網絡還包含細胞色素c、鈣離子和XIAP等[15-17].如何從紛繁復雜的網絡中找出少數關鍵節點,一直是研究者關注的焦點.依賴生物學實驗尋找關鍵節點的方法過程復雜、工作量大且成本高.本文在已發表文獻的基礎上,主要從生物數據庫中獲取相關數據,并對數據進行處理,然后分別構建凋亡、壞死和焦亡信號網絡,最后根據網絡測度指標選擇關鍵節點.本研究不僅可為凋亡、壞死和焦亡的研究提供新的參考,而且可為其他細胞死亡方式和其他信號網絡的研究提供指導思路.
構建凋亡網絡所用的數據下載自NCI-PID數據庫(https://pid.nci.org.au/)和Signor數據庫(https://signor.uniroma2.it/).其中,源于NCI-PID數據庫的節點和邊數據是兩個獨立的表格,為方便描述,將節點表格和邊表格分別簡稱為Data1和Data2.源于Signor數據庫的數據包括抑制細胞凋亡(inhibition of apoptosis)的數據和線粒體調控的細胞凋亡(mitochondrial control of apoptosis)數據,分別將其簡稱為Data3和Data4.在上述4個表格中,Data1包括Name和Type兩列數據,Name列為節點的名稱,Type列為節點的類型(如蛋白質、小分子等).Data2共包括7列數據,但凋亡網絡的構建僅用到Name和Directed兩列數據,Name列的數據格式為節點A(相互作用)節點B,表示節點A與節點B之間存在某種相互作用;Directed列表示節點A與節點B之間的相互作用是否有方向,有方向標記為True,無方向標記為False.Data3和Data4數據格式相同,均包含24列數據,但用于構建網絡所用的數據僅包括EntityA,TypeA,EntityB,TypeB和Effect列,分別代表節點A、節點A的類型、節點B、節點B的類型和節點A對B的作用.
為構建比較全面的細胞凋亡信號網絡,需將Data1-Data4的數據進行整合,整合包括兩部分:一是對節點數據的整合,二是對邊數據的整合.雖然不同數據庫的數據格式不同,但節點名稱的命名方式均保持統一,因此將Data1,Data3和Data4中代表節點和節點類型的數據進行合并,去除重復的行數據后即為細胞凋亡網絡的節點數據,共計87個節點.由于兩個數據庫的邊數據格式不同,故需將上述兩部分數據中的邊數據處理成統一格式并進行融合,再結合生物學知識將部分代表相同相互作用的邊進行合并,從而得到凋亡信號網絡的邊數據,共計198條邊.利用處理后的節點數據和邊數據構建凋亡信號網絡,并用Cytoscape軟件對網絡進行可視化.
構建壞死網絡所用的數據取自Causalbionet數據庫(http://causalbionet.com/).該數據的文本格式為功能(From物質名稱):相互作用方式:功能(To物質名稱),對其進行文本處理,使處理后的數據變為From、To和Interaction 3列,其中From和To列表示直接相連的物質,Interaction列表示物質之間的生物調控關系.由于該數據中包含相同蛋白質的不同狀態且物質的分類信息極其詳細,故需對數據進行簡化處理,處理過程也分為節點和連邊兩個方面.在節點方面,首先將From和To列分別作文本處理得到表示節點和節點屬性的數據.然后依據節點名稱和類型合并和去重,便得到壞死網絡的節點數據,共計50個節點.在連邊方面,由于Interaction列包含的生物關系過于繁雜,需對其進行簡化.同時為保證壞死網絡與凋亡網絡構建原則相一致,需增加一條RIPK1與RIPK3相連的邊,其相互作用形式為結合.經過以上處理,最終得到細胞壞死網絡的邊數據,共計87條邊.最后利用處理后的節點數據和邊數據構建壞死信號網絡,并用Cytoscape軟件對網絡進行可視化.
由于焦亡信號通路的研究尚處于初步階段,因此很難在數據庫中找到適合構建信號網絡的數據,本文主要借助查閱焦亡研究領域的領軍人物(如:邵峰、劉星和Petr Broz等)已發表文獻的方式構建焦亡信號網絡.將文獻[18-22]中提及的物質進行匯總形成Name列,然后根據物質類型增加Type列,最后得到焦亡信號網絡的節點數據,共計27個節點.將文獻[18-22]中物質之間的相互作用關系進行匯總,得到焦亡信號網絡的邊數據,共計44條邊.該數據包括From、To和Interaction 3列,其含義與壞死網絡數據一致.利用處理后的節點數據和邊數據構建焦亡信號網絡,并用Cytoscape軟件對網絡進行可視化.
關鍵節點雖數量非常少,但對網絡的結構和功能有巨大影響[23];關鍵節點的識別可通過對其進行重要性排序而獲得[24].本文利用度中心性、介數中心性、接近中心性和特征向量中心性4種不同的中心性指標對節點的重要性進行排序.
為使研究更加全面和客觀,本文還結合k-殼分解和社團發現的結果確定各細胞死亡網絡中的關鍵節點.k-殼分解是一種基于度值、對節點重要性進行粗粒化排序的方法[25],本研究所采用的社團發現算法是Louvain算法[26].
本文首先計算了細胞凋亡、壞死和焦亡信號網絡的密度、平均度、直徑、平均距離、聚類系數以及同配系數等全局拓撲性質,其具體數值見表1.綜合這些指標可知,凋亡、壞死和焦亡網絡均為稀疏的異配網絡,即度大的節點傾向于與度小的節點相連.另外,經統計分析發現本文所構建的凋亡、壞死和焦亡網絡的度分布均大致服從冪律分布(結果未展示),即少數的重要節點擁有較多的連接,而大多數節點僅有少量的連接,是無標度網絡的典型特征.

表1 凋亡、壞死和焦亡網絡全局拓撲性質Tab. 1 Global topological properties of apoptosis,necrosis,and pyroptosis networks
針對1.1節中的數據繪制凋亡信號網絡(圖1(a)),其中節點表示凋亡網絡中的物質(共87個),連邊表示物質之間的相互作用(共198條).節點有5種類型:綠色實心橢圓表示蛋白質或蛋白家族,空心橢圓表示復合物,橙色菱形表示小分子,刺激(包括壓力、DNA損傷和存活因子)用黑色三角形表示,表型(存活或凋亡)用灰色長方形表示.邊有4種類型:紅色箭頭表示上游物質對下游物質起促進作用,藍色平箭頭表示抑制作用,黑色實心箭頭表示具體是促進還是抑制作用并不明確,兩者之間形成復合物用虛線表示.

首先,計算凋亡網絡中每個節點的度中心性、介數中心性、接近中心性以及特征向量中心性等4個中心性指標.由于篇幅有限,本文僅選擇度中心性的結果進行圖示(因其為最簡單且直接的重要性評價指標,見圖1(c));并分別對4個中心性指標的結果進行排序,選取排名前10的節點匯總在表2.

表2 凋亡網絡的節點中心性指標(前10)Tab. 2 Node centrality indices of apoptosis network(Top 10)
圖1(c)中節點的位置越靠近圓心,其度中心性的數值越高,其在凋亡網絡中的地位也就越重要.為便于觀察,將排名前10的節點按其數值由高到低分別用黃、紫、橙和綠4種顏色表示,網絡中的其余節點用紅色表示.由圖1(c)可以直觀地看出度中心性排名第一的CASP3“鶴立雞群”,彰顯出它作為細胞凋亡“劊子手”的重要地位.
由表2可知,度值高的節點有CASP3,CASP2,CASP8,TNF和TRAF2等,介數高的節點有CASP3,BCL2,BAD,CASP8和CASP2等,接近數高的節點為CASP3,BAD,TFAP2A,CASP8和CASP6等,特征向量中心性高的節點為TNF,TRAF2,RIPK1,TNFRSF1A和TRADD等.綜合來看,在度中心性、介數中心性和接近數中心性三方面,CASP3的值均為最高,CASP2,CASP6,CASP8的值較高;BCL2的度值和介數較高;BAD和CASP10的介數和接近數較高.這些結果與CASP和BCL2蛋白家族在凋亡中發揮重要作用的事實相符.至于特征向量中心性不能反映這一事實的原因是下載數據中包含了TNF,RIPK1和TRADD等與壞死相關的蛋白,且這些蛋白間的聯系異常緊密(見圖1(a)上方).
其次,基于度中心性對凋亡網絡進行k-殼分解,結果如圖1(b)所示,共有6種k-殼指標:1-殼、2-殼、3-殼、4-殼、6-殼和9-殼,其中1-殼和2-殼中包含的節點最多;且某節點的度越大,代表它的圓圈就越大.將位于9-殼中的蛋白與特征向量中心性排名前10的蛋白進行對比,發現僅存在一個蛋白的差異,表明對于此凋亡網絡而言選取k-殼分解中最高指標殼內的蛋白與選取特征向量中心性最高的蛋白能達到相同的效果.利用度、介數和接近數中心性選出的關鍵節點集中在3、4和6-殼中,該結果符合k-殼分解的一般規律,即重要的節點常位于指標較高的殼內,但不一定只集中在指標最高的殼內.
最后,利用Louvain算法對凋亡網絡進行社團劃分,結果如圖1(d)所示,共被劃分為6個社團,其中3號社團所含節點數最多,5號社團次之.細胞凋亡的表型節點Apoptosis和細胞存活的表型節點Survival都屬于3號社團,該社團中還包含BAD,BAX,BCL2,BID等BCL2蛋白家族成員,凸顯出BCL2蛋白家族對細胞命運的調節作用.CASP蛋白家族成員位于5號社團.
利用1.2節中的數據構建壞死信號網絡,如圖2(a)所示.該網絡共包含4種類型的節點,共50個;3種類型的邊,共87條,其具體意義與圖1(a)中類似.

首先,計算壞死網絡中每個節點的4個中心性指標,選擇度中心性的結果進行可視化(見圖2(c),其具體意義與圖1(c)類似);并分別對4個中心性指標的結果進行排序,選取數值最高的前10個節點匯總在表3.

表3 壞死網絡的節點中心性指標(前10)Tab. 3 Node centrality indices of necroptosis network(Top 10)
從圖2(c)可以看出,表型節點Necroptosis,ROS分子和RIPK1蛋白相比于其他物質明顯具有更重要的地位.由表3可知,度值高的物質有ROS,RIPK1,RIPK3,FADD和TNFRSF1A等,介數高的物質有RIPK1,ROS,FADD,TRAF2和RIPK3等,接近數高的物質有ROS,RIPK1,CYLD,RIPK3和ceramide等,特征向量中心性排名靠前的物質為ROS,RIPK1,RIPK3,CYLD和ceramide等.綜合來看,在度、介數、接近數和特征向量中心性等方面,ROS,RIPK1,RIPK3,CYLD和ceramide均很高,TNFRSF1A的度、介數和接近數中心性均較高,BNIP3和Arachidonic acid的接近數和特征向量中心性均較高.
其次,對壞死網絡進行k-殼分解,結果如圖2(b)所示,共有3種k-殼指標,即1-殼、2-殼和3-殼.其中3-殼包含的節點最多,共有20個;根據中心性選取的重要節點大部分在3-殼內,表明中心性指標方法和k-殼分解方法在選取壞死網絡關鍵節點方面具有很高的一致性.
最后,對壞死網絡進行社團劃分,結果如圖2(d)所示,共被劃分為4個社團,其中2號社團所含節點數最多,3號社團最少.壞死的表型節點Necroptosis屬于數量次多的1號社團(與2號社團僅差一個節點),而凋亡的表型節點Apoptosis位于2號社團,這說明壞死和凋亡之間雖聯系緊密,但仍可根據社團劃分結果對其進行明確區別.
利用1.3節中所得數據構建焦亡信號網絡,如圖3(a)所示.該網絡共包含5種類型的節點,共27個;3種類型的邊,共43條,其具體意義與圖1(a)中類似.

首先,計算焦亡網絡中每個節點的4個中心性指標,選擇度中心性的結果進行可視化(見圖3(c),其具體意義與圖1(c)類似);并分別對4個中心性指標的結果進行排序,選取排名前10的節點匯總在表4.

表4 焦亡網絡的節點中心性指標(前10)Tab. 4 Node centrality indices of pyroptosis network(Top 10)
圖3(c)顯示排名前5的節點彼此間度值差別不大,這與凋亡和壞死網絡的特點明顯不同.由表4可知,度值高的物質包括CASP1,NLRP3,CASP11,GSDMD和CASP4等,介數高的物質包括GSDMD,NLRP3,CASP1,CASP11和CASP8等,接近數高的物質包括GSDMD,NLRP3,CASP1,CASP11和CASP3等,特征向量中心性中排名靠前的物質包括CASP1,NLRP3,GSDMD,CASP11和PAMPs等.綜合來看,4個指標選取的結果基本一致.在度、介數、接近數和特征向量中心性等方面,CASP1,CASP11,NLRP3和GSDMD的值均很高,CASP3的度、介數和接近數中心性較高,PAMPs的度、介數和特征向量中心性較高,CASP8的度值和介數值較高,AIM2和NLRC4的接近數和特征向量值較高.這些結果與此焦亡網絡的規模較小有一定的關系.
其次,對焦亡網絡進行k-殼分解,結果如圖3(b)所示,共有3種k-殼指標:1-殼、2-殼和3-殼.從圖3(b)中可以很明顯地看出3-殼包含的節點最多,包含CASP1,CASP4和CASP11等CASP蛋白家族成員,說明該蛋白家族不僅在凋亡中有重要作用,而且在焦亡中也有舉足輕重的地位.
最后,對焦亡網絡進行社團劃分,結果如圖3(d)所示,共被劃分為4個社團,其中4號社團所含節點數最多.焦亡的表型節點屬于4號社團,該社團除了包含幾個由中心性指標鑒定出的關鍵節點外,還包含GSDMA,IL18和IL1β等節點,說明這些物質較其他社團中的物質而言對焦亡起著更為直接的作用.
細胞死亡屬于生物體的基本生命活動過程,目前已發現其有10余種形式,其中最常見的3種形式為凋亡、壞死和焦亡[27].鑒于細胞死亡在生理和病理學中的重要作用,眾多研究者將很多精力投入其信號網絡的研究中,挖掘信號網絡的關鍵節點更是成了重中之重[28-29].長期以來尋找關鍵節點主要依賴于生物學實驗,過程漫長而復雜,工作量大且成本高.隨著生物學數據的不斷積累,如何利用網絡生物學的方法發掘關鍵節點逐漸成了一種重要手段.
本文從生物信息學數據庫以及已發表文獻中搜集凋亡、壞死和焦亡信號網絡的相關數據,在對這些數據進行去重、合并等文本處理之后構建各自的信號網絡,在此基礎上利用復雜網絡的方法對其展開研究.針對網絡全局拓撲性質的研究結果顯示:凋亡、壞死和焦亡網絡均為異配網絡和無標度網絡,符合生物網絡的特征[31],一方面說明本文所構建網絡的合理性,另一方面說明確實應該有少數關鍵節點在這些網絡的運行中起主導作用.在網絡局部拓撲性質的研究方面,首先,分別計算各網絡的度中心性、介數中心性、接近中心性和特征向量中心性指標,基于這些指標找出各網絡中的關鍵節點.接著,利用k-殼分解和社團發現方法對這3個網絡的節點進行不同的劃分,并對劃分結果進行分析.綜合上述方法所得結果,找出各個評價指標都較好的節點作為網絡的關鍵節點,最終得到如下結論:凋亡網絡的關鍵節點為CASP2,CASP3,CASP6,CASP8,CASP10,BCL2和BAD,壞死網絡的關鍵節點為ROS,RIPK1,RIPK3,CYLD和TNFRSF1A,焦亡網絡的關鍵節點為CASP1,CASP3,CASP8,CASP11,NLRP3,GSDMD和AIM2.
關于凋亡信號網絡的研究已比較成熟,本文所得其7個關鍵節點均為實驗上研究較多的蛋白,這也充分證明了本研究所采用方法的有效性.壞死信號網絡的實驗研究多集中在RIP1和RIP3的相關蛋白,焦亡信號網絡的實驗研究多集中在CASP家族和GSDM家族,而對本文鑒定出的其他關鍵節點的研究則相對較少,這也許可以給生物實驗研究提供方向和思路.
本研究在搜集數據的過程中發現:作為細胞死亡的不同方式,凋亡的信號網絡要遠比壞死和焦亡的信號網絡完善,這說明關于壞死和焦亡(尤其是焦亡)信號通路的研究尚有很多“未開墾之地”.實驗研究者可利用本文鑒定的關鍵節點結合社團發現結果“順藤摸瓜”,找到與重要節點聯系緊密的物質,不斷完善壞死和焦亡的信號網絡,促使人們對其有更加完整的認識,最終為與細胞死亡相關的疾病提供完美的藥物靶點.