楊天濠 王新贈
(1.中國石油大學(華東)計算機科學與技術學院 青島 266580)
(2.山東科技大學數學與系統科學學院 青島 266580)
腫瘤轉移是指惡性腫瘤細胞從原發部位,經淋巴道、血管或體腔等途徑,到達其他部位繼續生長的過程[1]。惡性腫瘤的轉移通常發生在癌癥晚期,是導致癌癥患者死亡的主要原因之一。其中,肺癌的轉移是一個較為復雜、由多基因參與的過程,它嚴重影響肺癌患者治療的療效和預后。骨是肺癌遠處轉移常見的靶部位之一,臨床發現,約40%的晚期肺癌患者會發生骨轉移,同時會引發多種并發癥[2~3]。生物學研究證明,特定的遺傳背景對癌癥轉移有重要的影響,有些基因可能參與骨轉移發展的進程。因此,對肺癌骨轉移相關候選基因的鑒定和篩選對于肺癌患者的診斷和治療具有迫切而重要的意義。
目前,腫瘤轉移相關基因的鑒定和驗證主要依賴于臨床醫學及生物學實驗,需要花費大量的時間和成本,限制了發現的能力。隨著生物信息學的發展,一些計算方法被應用于識別疾病相關基因及其驅動因子[4~6]。相對于臨床醫學和生物學實驗,計算方法具有高效、低成本的優點。
針對惡性腫瘤轉移關鍵基因的發現問題,我們提出了一種基于蛋白質-蛋白質相互作用網絡(PPIN)的癌癥轉移基因識別方法,將其應用于肺癌骨轉移關鍵候選基因的鑒定。首先利用隨機游動重啟(RWR)算法對基因進行分析和預選,然后通過置換檢驗規則消除網絡結構的影響,并利用交互得分規則和富集分析對基因進一步篩選,最終獲得了12 個可能與肺癌骨轉移有關的關鍵基因。根據文獻挖掘的結果,這些基因中有9 個基因已被證實與肺癌骨轉移的形成或發展有關,并揭示了這些基因可能參與的潛在分子過程,為利用計算方法研究腫瘤轉移機制提供了新的思路。
肺癌和骨癌相關基因主要來源于Oncomine 數據庫和TCGA 數據庫。Oncomine 數據庫是一個整合了264個獨立的數據集,涉及35種癌癥類型的綜合型癌癥數據庫。TCGA 數據庫是目前為止可以獲得的公開數據庫里面數據相對全面的一個,在各個領域得到了廣泛的應用。通過對兩個數據庫的檢索,我們最終得到了412 個肺癌相關基因,其集合用S1表示;以及348 個骨癌相關基因,其集合用S2表示。
通過對STRING 數據庫(版本11.0)的檢索,我們得到了5,879,727 個涵蓋19,354 種蛋白質的人類PPI(蛋白質相互作用)。研究證明這些PPI反映了蛋白質之間的直接(物理)和間接(功能)關聯。其中每個PPI 包含兩個Ensembl ID,分別代表蛋白質pa和pb,以及一個范圍在150 和999 的得分S( )pa,pb,代表它們的相互作用強度。基于這些數據,我們構造了一個無向加權的PPIN,包含19,354個節點和5,879,727條邊。
在本研究中,我們提出了一種基于PPIN 的癌癥轉移基因識別方法,以鑒定肺癌骨轉移特異性關鍵基因。首先,結合收集的肺癌和骨癌基因數據,在PPIN 上執行RWR 算法,對基因進行預選。然后,通過置換檢驗消除網絡結構的影響,得到候選基因集。最后,利用交互得分規則和富集分析對基因篩選,增強結果的準確性,得到肺癌骨轉移關鍵基因集。整個方法的過程如圖1所示。

圖1 方法流程圖
RWR 算法是一種經典的排序算法,它從一些種子節點開始,模擬其在網絡中隨機游走和重啟,同時更新所有節點的概率得分并對節點進行排名[7]。它已被用于解決疾病基因的發現和藥物重定位等問題[5~6]。RWR算法的主要過程如下:
輸入:PPIN 的列歸一化的鄰接矩陣A,初始概率得分向量P0={Ps1,Ps2,…,Psn} (n=19354)
初始化:將S1與S2中基因整合并刪去重復的基因,得到682 個節點作為種子節點,它們在P0中的概率得分設為1/682,其他節點的初始得分設為0;令重啟概率r=0.8
過程:Fori=0 do
十月懷胎,真的不容易。盡管小心翼翼,在懷孕期間還是出現了高血壓和其它并發癥,經過保胎治療,兩個孩子在子宮內生長發育著,這讓我飽含憧憬。
執行迭代Pi+1=(1 -r)APi+rP0(1)
直到‖Pi+1-Pi‖L1<10-6
End
輸出:Pi+1中概率得分大于閾值10-5的節點對應的基因集合
算法的最終結果表示種子節點在網絡中隨機游走到其他節點的概率,體現了種子節點與其他節點在PPIN 中的相似性。因此,具有較高概率得分的基因與已驗證的骨癌和肺癌基因更相關,從而更有可能是轉移相關基因。概率得分大于閾值10-5的基因最終被篩選出來,這些基因統稱為RWR基因。
通過RWR 算法得到的基因可能會受到PPIN結構的影響,從而存在很多與癌癥轉移無關的基因。為了盡可能排除這些基因,我們提出了置換檢驗規則。
首先,我們將總置換數設為1000,即隨機構建了1000 個Ensembl IDs 集合,記為E1,E2,…,E1000,每個集合包含682 個隨機的基因Ensembl IDs。然后,通過將Ei(1 ≤i≤1000 )中的682 個基因設置為種子節點,在PPIN 上執行RWR 算法以獲取每個RWR 基因的概率得分。對于每個RWR 基因,存在一個真實概率得分Ps(g)和1000 個隨機概率得分Psi(g)。最后,對每一個RWR 基因g,計算p-value值如下:
如果隨機概率得分Psi(g)普遍大于真實概率得分Ps(g),說明g更可能是因為網絡結構而被選出來的假陽性基因。顯然,p-value 值很高的RWR基因并不是與肺癌骨轉移特異性相關的基因,應當被刪除。由于0.05 是作為被廣泛接受的統計學檢驗傳統顯著性水平的閾值,我們選擇p-value 值小于0.05的RWR基因作為肺癌骨轉移的潛在候選基因做進一步分析。
根據研究證明,PPI 中交互得分高的兩個蛋白質更有可能具有相似功能[8]。我們可以利用這一信息篩選出同時與肺癌和骨癌基因在功能上相似的候選基因。對于每個候選基因g,計算它的最大-最小交互得分MMIS:
其中,S1與S2分別表示2.1節中的肺癌相關基因集合與骨癌相關基因集合,因此MMIS 較高的候選基因至少同時與一個已驗證的肺癌相關基因和骨癌相關基因密切相關。在STRING 數據庫中,900 是蛋白質之間的最高置信度值,因此選擇MMIS 得分不小于900的候選基因做進一步研究。
基因本體論(GO)可以從分子功能、生物學過程和細胞成分三個方面描述給定的基因及其產物;京都基因與基因組百科全書(KEGG)數據庫提供了多個基因之間的生物學代謝途徑。與已知肺癌和骨癌基因共享相同或相似的GO terms 和KEGG通路的候選基因更有可能是與轉移相關的基因[9]。首先,根據富集分析的結果計算每個候選基因g與所有GO terms 和KEGG 通路的關系值,得到向量ES(g)。對 于 兩 個 基 因g與g′ 在GO terms 和KEGG 通路上的富集分析相似性得分可以通過余弦定理計算:
具有更高Δ(g,g' )值的兩個基因通常在分子功能和生物學過程等方面有很強的相關性。對于每個候選基因g,再計算最大-最小富集得分MMES:
在本研究中,我們嘗試將0.9 作為MMES 的閾值,即篩選出MMES 大于0.9 的候選基因作為最終的轉移關鍵基因。在整個方法中,對于由RWR 算法和置換檢驗規則產生肺癌骨轉移候選基因,通過交互得分規則和富集分析進行評估,選擇MMIS 不小于900 并且MMES 大于0.9 的基因作為肺癌骨轉移關鍵基因,這些基因被認為在肺癌骨轉移中發揮了重要作用。
如3.1 節所述,我們將與肺癌和骨癌相關的682 個基因作為種子節點,在PPIN 上執行RWR 算法,篩選概率得分大于10-5的基因后,得到了6850個RWR 基因。其次,我們采取了置換檢驗規則來消除網絡結構對結果的影響,得到了964個p-value值小于0.05的候選基因做進一步研究。
為了更準確地識別肺癌骨轉移相關基因,我們通過交互得分規則和富集分析測試對候選基因進行了評估與篩選。通過計算,對于每個侯選基因得到了一個MMIS 和MMES,我們選擇MMIS 不小于900 并且MMES 大于0.9 的12 個基因作為肺癌骨轉移關鍵基因,如表1 所示。文獻挖掘的結果證明這些關鍵基因基因大部分參與了肺癌骨轉移的發展過程,與肺癌骨轉移特異性顯著相關。

表1 12個肺癌骨轉移關鍵基因及其概率得分、P-value、MMIS及MMES值
在獲得的12個肺癌骨轉移關鍵基因中,有9個基因已被證實與肺癌骨轉移的形成或發展有關,其中包括骨髓毛細血管的侵襲和外滲,對趨化因子的反應以及對骨細胞外基質的粘附等。根據以往的研究,肺癌細胞的上皮細胞-間質細胞轉化(EMT)過程和骨微環境的改變被認為是肺癌形成骨轉移的關鍵因素[10~11]。大多數潛在的關鍵基因都直接或間接地參與了這兩個過程,體現了它們在肺癌骨轉移中的特殊作用。
根據12 個肺癌骨轉移關鍵基因的基因家族,我們將它們分為5個簇,如圖2所示,并進行了相應的分析。其中,MDM2 與許多癌癥的發病機制有關,它刺激基質金屬蛋白酶(MMPs)的表達,促進骨髓竇細胞外滲,有利于肺癌細胞通過新生血管進入血液循環,對肺癌骨轉移有特異性作用[12~13]。此外,CD44 同樣上調了MMPs 的表達,對肺癌細胞在骨骼組織中的適應性和侵襲性起著重要作用[14]。

圖2 12個關鍵基因的基因家族分布
EMT過程發生在肺癌骨轉移的初始階段,有利于降低細胞間黏附力,加速相鄰細胞脫落。其中,BMP7、CTBP1 基因調控并參與肺癌細胞的EMT 過程[15~16],表明了它們在肺癌骨轉移過程中的影響。骨微環境是調節骨組織并維持其動態平衡的重要環境,肺癌骨微環境的改變在骨轉移的進展中起著重要的作用。其中,APC、PROCR 及IL6 基因參與了骨微環境的改變過程[17~18],為骨轉移瘤提供生長所需營養物質,有利于肺癌細胞在骨組織中的生長和擴散。此外,原癌基因MET 可以激活骨微環境中RANK 信號通路,誘導破骨細胞的活化,最終導致溶骨性轉移的發生[19]。RAF1 是一種參與RAS信號通路的功能性原癌基因,被廣泛報道參與癌癥轉移過程[20]。
在尚未確定的3 個基因中,UBE2C 是與泛素相關的基因,編碼細胞周期進展所需的蛋白質,在骨髓中廣泛表達[21]。NOTCH3 在調控腫瘤細胞的凋亡、增殖的分化中起著重要作用,是多種腫瘤治療的潛在靶標[22]。PAK1 參與細胞粘附、遷移、增殖、凋亡、有絲分裂等多種細胞生物學過程,促進肺癌細胞的增殖及侵襲能力[23]。這些基因可能是潛在的肺癌骨轉移相關基因,值得進一步研究。
腫瘤轉移是一個復雜的過程,通常是促進腫瘤加重的主要原因。腫瘤轉移相關基因的鑒定可為腫瘤轉移的治療提供分子靶點,有助于癌癥患者的治療和預后。在本研究中,基于兩種相互作用更強的蛋白質更可能具有相似功能的假設,我們在PPIN 上設計了一種綜合方法來識別癌癥轉移相關的基因。我們將該方法運用于肺癌骨轉移相關基因的鑒定,最終獲得了12 個潛在的肺癌骨轉移關鍵基因并進行了廣泛分析。結果表明,大多數鑒定的基因已被證實有助于肺癌骨轉移的進程,體現了該方法的有效性和合理性。我們希望這一貢獻將有助于識別腫瘤轉移特異性基因,并為腫瘤轉移的機理研究提供啟示。