于曉



摘? 要:基于復雜網絡理論分別構建以肺癌組織和健康肺組織基因為節點,基因間調控關系為邊的基因調控網絡,并從拓撲結構、分布特征、節點中心性三方面分析網絡特性,挖掘網絡核心節點生物功能差異性以識別出肺癌特異性基因。結果發現,肺癌組織和健康肺組織基因調控網絡拓撲參數極其相似且兩者都為無標度網絡,兩網絡核心節點集高度重疊,但非重疊部分核心節點的生物功能十分特殊,并據此識別出肺癌特異性基因。該方法識別出的肺癌特異性基因,能夠成為潛在肺癌生物標記物,為肺癌的早期診斷提供幫助,同時該方法能夠適用于其他疾病特異性基因的識別。
關鍵詞:復雜網絡;肺癌;中心性;HUB節點
中圖分類號:TP319? ? ?文獻標識碼:A
Abstract: Based on complex network theory, the study constructs lung cancer tissue and healthy lung tissue gene regulatory networks with genes as nodes and inter-gene regulatory relationships as edges. The paper analyzes network characteristics from three aspects: topological structure, distribution characteristics, and node centrality. By comparing the biological function of the key nodes of networks to identify lung cancer-specific genes, it is found that the topological parameters of the two gene regulatory networks are extremely similar and they are both scale-free networks. The key nodes set of the two networks are highly overlapping, but the non-overlapping key nodes' biological functions are very special, and then the lung cancer-specific genes are identified base on this. The lung cancer-specific genes identified by this method may be potential biomarkers for lung cancer, which promotes the early diagnosis of lung cancer. The method can also be applied in the identification of other disease-specific genes.
Keywords: complex network; lung cancer; centrality; HUB node
1? ?引言(Introduction)
肺癌是最常見和嚴重的癌癥之一,其發病率和死亡率在世界大多數國家都處于首位,且增長率驚人[1]。在中國,肺癌已成為致死率最高的癌癥[2],根據中國衛生部于2006年進行的第三次全國性死因抽樣調查,肺癌造成的死亡率自1990年以來增加了75.77%,并且在剔除年齡結構變化因素后再次增加了33.25%。盡管吸煙這一肺癌的最相關危險因素已被廣泛認識,但是對肺癌發病機制和診斷治療等一系列問題的相關研究依舊進展緩慢。其次,由于肺癌通常在早期不會引發任何癥狀,許多患者的相關體征和癥狀僅在疾病發展時發生,這讓肺癌的確診存在相當大的難度,若在肺癌早期通過檢測特異性基因使其確診并得到充分的治療,其死亡率將會在很大程度上降低。此外,大多數肺癌患者仍在接受化學療法,但這些患者中的大多數經過化學療法后并未好轉,這是因為化學療法并沒有解決患者潛在遺傳缺陷這一導致肺癌癥發生的根本病因。因此,現在面臨的巨大挑戰是如何準確地識別這些潛在遺傳缺陷,以便使治療與患者相匹配,獲得更高的治愈率。這一系列的問題讓識別有診斷用途的肺癌生物標記成了攻克肺癌這一高致死率疾病的關鍵。本文以復雜網絡理論為工具,提出了系統性識別肺癌特異性基因的方法:根據肺癌組織中基因關系構建肺癌組織基因調控網絡,分析網絡拓撲結構和分布規律,結合中心性算法挖掘網絡中的關鍵節點,根據其生物功能推測肺癌特異性基因。該方法為醫學工作者們揭示肺癌發生機制和針對性治療肺等方面提供了依據。
2? ?文獻綜述(Literature review)
網絡生物學是生物醫學研究中一個快速發展的領域,它提供了一個總體的觀點,即遺傳疾病的發生不是單個基因突變的結果,而是由基因網絡環境的擾動引起。因此,認識這些基因相互作用網絡的拓撲結構,以及確定在其結構和調控中起關鍵作用的基因是理解復雜遺傳性疾病的關鍵。
現代生物網絡的研究著重分析網絡的拓撲結構[3],基于對大規模生物網絡的研究通常比臨床實驗室更有優勢[4]。此外研究表明生物網絡中關鍵基因的發現對解決生物問題有重要意義,因為疾病生物網絡中的關鍵基因往往與致病基因有著高度的相關性[5]。在對蛋白質相互作用網絡的研究中驗證了這一觀點,外國研究者們發現癌癥致病基因或蛋白質在網絡中存在非常高的中心性[6],同時癌癥相關致病基因或蛋白質之間更傾向于密切聯系使其成為一個社區[7],在社區之內它們存在更廣泛的相互作用關系。
在眾多識別生物網絡關鍵節點的方法中,節點中心性得分是一種快速且可重現的方法,其根本思想是根據節點在網絡中所處位置的關鍵性對其進行排名。這些網絡節點中心性度量通常基于路徑長度和隨機游走,例如接近度中心、介數中心、聚類系數。同時,針對不同類型生物網絡不同中心性算法的表現也不盡相同,例如,Kim等人[8]發現,基于最短路徑的介數中心性度量可以作為檢測關鍵性基因的一種可靠標準。此外,He等人[9]表明,在蛋白質相互作用網絡中接近度中心性并不能準確預測出關鍵蛋白質。此外,子圖中心性在高密度網絡中的效果拔群,但在酵母菌蛋白質相互作用網絡這種較稀疏網絡中預測關鍵蛋白質的能力尚未超過度中心性。
國內針對肺癌特異性基因的研究工作主要集中在單個基因的突變檢測上[10,11],很少有從系統或者網絡角度出發的相關研究,對此我們利用復雜網絡理論進行了系統性對比實驗,通過對比肺癌與健康肺組織基因調控網絡的拓撲參數以分析兩個網絡的差異性。其次針對上述文獻中單一拓撲中心性算法難以適配的問題,我們提出全局與局部中心性相結合觀點,利用四種局部和七種全局中心性算法綜合確定關鍵基因。
3? ?研究設計(Research design)
3.1? ?基因調控網絡構建
我們所用到的數據來自文獻[12],研究者們提供來自32個人體不同細胞、組織、器官的基因調控數據,以邊表的形式存儲。我們選定其中肺癌組織和健康肺組織的基因調控數據作為我們的實驗數據,然后對其進行預處理,根據權重分布規律剔除了一部分噪聲,將剩下的核心數據構建成了肺癌和健康肺組織基因調控網絡。其中健康肺組織基因調控網絡如圖1(a)所示,肺癌基因調控網絡如圖1(b)所示。圖中的節點分別代表參與肺癌組織和健康肺組織細胞調控的基因,網絡中的邊代表這些基因之間的相互作用關系。
(a)健康肺組織基因調控網絡
(b)肺癌組織基因調控網絡
3.2? ?網絡拓撲參數與分布特征
本文計算了肺癌組織基因調控網絡和健康肺組織基因調控網絡的拓撲參數,通過對比發現肺癌組織和健康肺組織基因調控網絡拓撲參數極其相似,如表1所示,這就解釋了肺癌細胞和健康肺細胞在基因調控關系結構上的同源性。其中,網絡直徑被定義為兩個節點對間的最大距離,而節點間距離是指連接兩個節點所需要的最小邊數;網絡半徑與網絡直徑相似,被定義為兩個節點對間的最小距離;網絡集中性用來描述網絡拓撲結構與星形網結構的相似程度,相似性越高該數值越接近于1;網絡密度被定義為網絡中實際存在邊的數量與網絡最大可容納邊數量的比值;最短路徑長度表示從原始節點到目標節點所需經過的最小邊數;特征路徑長度被定義為存在于網絡中所有最短路徑的均值。
分別統計肺癌組織和健康肺組織基因調控網絡的度分布,其中健康肺組織基因調控網絡的度分布如圖2(a)所示,肺癌組織基因調控網絡的度分布如圖2(b)所示。圖中橫坐標代表節點度,縱坐標代表網絡中對應橫坐標節點度下的節點數,由圖可知網絡度分布均存在明顯下降趨勢,說明網絡屬于無標度網絡,即網絡中的大多數節點只存在很少的連邊與此同時網絡中存在為數不多連邊數巨大的HUB節點,低連通節點與高連通節點之間的邊在網絡中占優勢[13]。無標度網絡的特征是它們具有許多外圍節點和幾個高度連接的節點,這些網絡具有通用的組織原則:“小世界”屬性(即,它們通過節點之間相對較短的路徑高度連接)。擁有這種屬性網絡具有魯棒性,可以淘汰外圍節點并保留核心網絡功能。
3.3? ?網絡節點中心性分析
網絡中心性算法是度量節點在網絡中重要性的度量方法,這里分別用到四種局部性中心性和七種全局性中心性算法綜合挖掘網絡中的HUB節點。我們先通過計算得到兩個網絡中所有基因節點的11種中心性得分,再對11種中心性得分累加歸一化作為最終的中心性得分。最終中心性得分排在前面的基因在對應組織基因調控網絡中有強中性心,據此挑選得分排名前10的節點作為對應組織基因調控網絡的HUB做后續分析,見表2。
其中,四種局部性算法的度量標準為:節點度(Degree),最大鄰居連通分量(Maximum Neighborhood Component)[14],最大鄰居連通分量密度(Density of Maximum Neighborhood Component)[14],最大集團中心性(Maximal Clique Centrality)[15]。其中,節點度被定義為與該節點直接相連其他網絡中節點的數量;最大鄰居連通分量定義為節點鄰居網絡中最大連通分量包含的節點數,這里的鄰居網絡是節點與它的鄰居所構成的網絡;最大鄰居連通分量密度則為節點鄰居網絡實際邊數與所能容納最大邊數的比值;最大集團中心性則與節點所在的最大集團中連通分量個數相關。
七種全局性算法的度量標準為:接近度(Closeness)[16]、偏心率(Eccentricity)[17]、輻射率(Radiality)[18]、障礙率(Bottleneck)[19]、壓力值(Stress)[20]、介數(Betweenness)[21]、邊擴散度(Edge Percolated Component)[22]。其中,接近度定義為節點到其他節點距離的倒數和,該值越高節點越容易到達其他節點;偏心率定義為節點到距離它最遠的節點距離的倒數;輻射率以網絡直徑為標準,比較節點到其他節點的距離遠近;障礙率則是在網絡中構造以節點為根的最小生成樹,通過統計遍歷該最小生成樹過程中所經過網絡中的其他節點來定量根節點的中心性;壓力值定義為通過該節點最短路徑的數量,壓力值越高,該節點更傾向于位于其他節點對的最短路徑上;介數被定義為通過該節點最短路徑數與網絡中最短路徑總數的比值,介數值越大說明該節點越傾向于處于網絡中樞軸位置;邊擴散度則按照相等概率連續除去節點所在網絡中的邊,執行多次,并記錄每次操作后當前網絡中該節點的鄰居節點數,算法的結果取決于這些記錄。
3.4? ?特異性基因的確定
為了識別肺癌組織中的特異性基因,我們重點關注僅存在于肺癌組織卻不存在于健康肺組織中的HUB基因,這些HUB基因如圖3所示,由圖可知肺癌組織和健康肺組織HUB基因大部分重合,僅存在三個肺癌獨有的HUB基因。通過在 Genecards[23]中匹配這些肺癌獨有HUB基因的功能,能夠進一步得到它們的生物功能信息。這里Genecards是人類基因的綜合數據庫,提供以基因數據為中心的基因組、轉錄組、蛋白質組、遺傳和臨床相關的生物功能信息。
根據Genecards的匹配結果發現肺癌組織獨有的三個HUB基因(POU3F2、KLF7、SHOX2)確實在生物功能上與重合基因存在差異,我們因此將其作為肺癌特異性基因。具體來說,多于一半的HUB基因同時在于肺癌組織網絡和健康肺組織網絡中重復出現,它們為SP1、SP4、KLF4、RFX2、CTCF、KLF16、RFX3,且它們大多為不同類型的轉錄因子,主要參與調控那些不論癌細胞還是正常細胞都要經歷的細胞過程,包括細胞分化、細胞生長、細胞凋亡。而我們重點關注的肺癌組織基因調控網絡獨有HUB基因為:POU3F2、KLF7、SHOX2,其中POU3F2編碼的蛋白質參與神經元分化,并增強促腎上腺皮質激素釋放激素調節基因的激活,它的過表達與黑色素瘤細胞增殖有關。KLF7編碼的蛋白通過抑制胰島β細胞中胰島素的表達和分泌,以及通過調節脂肪細胞中脂細胞因子的分泌來促進2型糖尿病的發展。SHOX2也是一種蛋白質編碼基因,與它相關的疾病包括Turner綜合征和DeLange綜合征,其患者先天身形矮小。從簡單功能上已經能看出這三個肺癌獨有HUB基因與其他基因的差異。
接下來,為了驗證所挖掘出肺癌特異性基因(POU3F2、KLF7、SHOX2)的有效性,我們查閱相關肺癌臨床實驗文獻試圖從生物實驗角度使其特異性再次得到驗證。結果是,對于SHOX2基因,多個研究已經證明SHOX2基因DNA甲基化是檢測肺癌的強有力的生物標記物[24,25]。對于KLF7基因也有研究證明與鄰近的正常組織相比,患者肺腺癌(Lung Adenocarcinoma,LAC)組織中的KLF7表達升高,且KLF7的高蛋白水平與腫瘤大小相關,此外,高的KLF7表達水平與肺腺癌患者較差的臨床結局顯著相關,表明了KLF7作為新型預后生物標志物和治療靶標的潛在作用[26]。以上結果均表明本文利用復雜網絡節點中心性方法所識別出的肺癌特異性基因與臨床生物實驗所得出的結論是一致的,這證明了本文所提出方法的有效性。
4? ?結論(Conclusion)
隨著基因組學、蛋白質組學、轉錄組學的發展,生物大數據得以涌現,針對癌癥這一復雜人類疾病的相關研究也逐漸從臨床實驗轉移到數據分析上來。本文正是在這一背景下,借助復雜網絡理論這一系統性工具對肺癌基因數據進行建模分析,借助多種拓撲中心性算法,以及人類基因綜合數據庫提出在生物大數據中挖掘癌癥特異性基因的系統性方法:(1)構建癌癥與對照組基因調控網絡。(2)分析網絡拓撲結構和分布規律。(3)計算網絡節點中心性得分。(4)比對并匹配HUB節點生物功能。
通過分析發現基因調控網絡存在廣泛的無標度特性,即人類器官組織對應的基因調控系統由少數重要基因來主導控制,它們調控著整個系統的行為,識別這些基因對認識人類細胞的生物進程有重要意義。此外,健康肺組織細胞和肺癌組織細胞對應的基因調控網絡從拓撲結構到分布特征上都極其相似,這也證明了同處病變與健康組織的同源性。最后,利用本文所提出系統性方法識別出的肺癌特異性基因,其肺癌相關性也在本文中得到了證實,該基因將作為一個重要的肺癌生物標記物利用在臨床檢測上??偟膩碚f,本文方法對從大規模癌癥基因數據中識別特異性基因提供了可靠思路,而癌癥特異性基因的存在將使癌癥在早期更容易被識別,進而提升治愈率。
參考文獻(References)
[1] Alzahouri K,Martinet Y,Briancon S,et al.Staging practices of primary non-small-cell lung cancer:a literature review[J].European Journal of Cancer Care,2006,15(4):348-354.
[2] Chen W,Zhang S,Zou X.Estimation and Projection of Lung Cancer Incidence and Mortality in China[J].Chinese journal of lung cancer,2010,13(5):488-493.
[3] Carlsson G.Topology and data[J].Bulletin of the American Mathematical Society,2009,46(2):255-308.
[4] Furney SJ,Alba MM,Lopezbigas N.Differences in the evolutionary history of disease genes affected by dominant or recessive mutations[J].BMC Genomics,2006,7(1):165-175.
[5] Park D,Park J,Park SG,et al.Analysis of human disease genes in the context of gene essentiality[J].Genomics,2008,92(6):414-418.
[6] Sun J,Zhao Z.A comparative study of cancer proteins in the human protein-protein interaction network[J].BMC Genomics,2010,11(S3):1471-1481.
[7] Gandhi TKB,Zhong J,Mathivanan S,et al.Analysis of the human protein interactome and comparison with yeast,worm and fly interaction datasets[J].Nature Genetics,2006,38(3):285-293.
[8] Kim J,Kim I,Han SK,et al.Network rewiring is an important mechanism of gene essentiality change[J].Scientific Reports,2012(2):900-907.
[9] He X,Zhang J.Why do hubs tend to be essential in protein networks?[J].PLoS genetics,2006,2(6):826-834.
[10] 周建平,梁立軒,李志芳.非小細胞肺癌細胞系中關鍵致癌相關基因突變檢測[J].攀枝花學院學報,2016,33(05):71-74.
[11] 俞訓彬,陳小巖,陳靈鋒.采用Illumina測序技術檢測非小細胞肺癌驅動基因關鍵位點突變[J].臨床與實驗病理學雜志,2019,35(7):861-862.
[12] Marbach D,Lamparter D,Quon G,et al.Tissue-specific regulatory circuits reveal variable modular perturbations across complex diseases[J].Nature Methods,2016,13(4):366-370.
[13] Maslov S,Sneooen K.Specificity and Stability in Topology of Protein Networks[J].Science,2002,296(5569):910-913.
[14] Lin CY,Chin CH,Wu HH,et al.Hubba: hub objects analyzer—a framework of interactome hubs identification for network biology[J].Nucleic Acids Research,2008,36(S2):438-443.
[15] Chin CH,Chen SH,Wu HH,et al.cytoHubba: identifying hub objects and sub-networks from complex interactome[J].BMC Systems Biology,2014,8(S4):1752-1761.
[16] Sabidussi G.The centrality index of a graph[J].Psychometrika,1966,31(4):581-603.
[17] Dankelmann P,Goddard W,Swart C S.The Average Eccentricity of a Graph and its Subgraphs[J].Utilitas Mathematica,2004,65(2):41-51.
[18] Thomas WV,Robert KF.Integration and radiality:Measuring the extent of an individual's connectedness and reachability in a network[J].Social Networks,1998,20(1):89-105.
[19] Chin CS,Samanta MP.Global snapshot of a protein interaction network—a percolation based approach[J].Bioinformatics,2003,19(18):2413-2419.
[20] Alfonso S.Structural parameters of communication networks[J].Bulletin of Mathematical Biophysics,1953,15(4):501-507.
[21] Barthélemy M.Betweenness centrality in large complex networks[J].European Physical Journal B,2004,38(2):163-168.
[22] Przuij N,Wigle DA,Jurisica I.Functional topology in a network of protein interactions[J].Bioinformatics,2004,20(3):340-348.
[23] Rebhan M,Chalifa-Caspi V,Prilusky J,et al.GeneCards:a novel functional genomics compendium with automated data mining and query reformulation support[J].Bioinformatics,1998,14(8):656-664.
[24] Ilse P,Biesterfeld S,Pomjanski N,et al.Analysis of SHOX2 Methylation as an Aid to Cytology in Lung Cancer Diagnosis[J].Cancer genomics & proteomics,2014,11(5):251-258.
[25] Llse P,Biesterfeld S,Pomjanski N,et al.SHOX2 DNA Methylation Is a Tumour Marker in Pleural Effusions[J].Cancer genomic & proteomics,2013,10(5):217-223.
[26] Cai XD,Zhou YB,Huang LX,et al.Reduced expression of Krüppel-like factor 17 is related to tumor growth and poor prognosis in lung adenocarcinoma[J].Biochemical and Biophysical Research Communications,2012,418(1):67-73.
作者簡介:
于? ?曉(1991-),男,碩士生.研究領域:復雜網絡.