郭良煜,余鈴,陳敬騰,龔長天,施玉博,郭衛春
430060 武漢,武漢大學人民醫院 骨科
骨肉瘤是兒童和青少年中最常見的原發性惡性骨腫瘤,具有惡性程度高、轉移早、轉移率高、侵襲力強等特點[1-2]。骨肉瘤最常見的部位是股骨遠端,且早期就會出現腫瘤轉移,轉移部位最常見于肺部,其次是髂骨部位,并且是一個不良的預后指標[3]。早期對骨肉瘤的治療多以截肢為主,但預后較差,隨后引入化療從而改善了患者的預后[4]。至此,手術加化療成為骨肉瘤治療中常用的治療方法。但即使這樣,骨肉瘤患者的5年生存率仍不足20%[5]。因此,尋找新的治療方法提高骨肉瘤患者生存率的研究一直在進行。
近幾年,學者們開始運用生物信息學篩選與骨肉瘤有關的基因,如通過GEO數據庫篩選出與骨肉瘤相關的基因GMFG[6]; 張晉煜[7]利用生物信息學發現NQO1、ALDH3A1基因的低表達提示骨肉瘤患者的預后不良;此外,Zhu等[8]篩選出了7個關鍵基因SLC18B1、RBMXL1、DOK3、HS3ST2、ATP6V0D1、CCAR1和C1QTNF1,都與骨肉瘤的能量代謝有關。雖然相關研究發現了一些骨肉瘤潛在的分子靶標,但與常見的腫瘤如肺癌、肝癌等相比,治療該病的分子靶標相對較少。因此,本文通過查找GEO數據庫中的骨肉瘤數據從而找出差異基因,并通過Gene Ontology(GO)富集分析、Kyoto Encyclopedia of Genes and Genomes(KEGG)通路分析和蛋白互作(protein-protein interactions,PPI)網絡圖找出最具有意義的基因,為新的治療方案提供參考或線索。
登錄GEO數據庫(http://www.ncbi.nlm.nih.gov/geo/),輸入檢索目標“osteosarcoma和bioinformatics”,找出已經公布的骨肉瘤基因芯片數據集[9]。隨后進行骨肉瘤數據集的篩選工作,所納入的骨肉瘤數據集必須滿足2個條件,否則不予納入:1)包含骨肉瘤病變組織或細胞系和正常骨組織或細胞系;2)基因芯片是人類全基因組數據。篩選出數據集GSE36001和GSE12865。GSE36001平臺包含20個骨肉瘤細胞組和6個正常組(2個成骨細胞系和4個正常骨組織);GSE12865包含12個骨肉瘤組織組和2個正常組(2個成骨細胞系)。
采用GEO2R(http://www.ncbi.nlm.nih.gov/geo/geo2r/)篩選差異基因[10]。將GSE36001和GSE12865中的骨肉瘤組和正常組數據導入GEO2R中,篩選條件為校正后P<0.05,隨后差異基因以火山圖展示。然后將差異基因導入韋恩圖在線制作軟件(http://bioinformatics.psb.ugent.be/webtools/Venn/)制作韋恩圖。
DAVID(http://david.ncifcrf.gov)是一個公開的數據庫,整合了生物學數據和分析工具,其中包括了GO和KEGG分析等重要功能[11]。將差異基因導入DAVID數據庫中進行GO和KEGG分析,篩選條件為P<0.05。
STRING數據庫(第10.5版,https://string-db.org/cgi/input.pl)是進行蛋白質相互作用的數據庫[11],將GO和KEGG分析后所得到的差異基因導入到STRING 9.1數據庫中,置信度選擇“Medium 0.400”,隨后將STRING 9.1數據庫中得到的數據導入到Cytoscape(第3.6.1版,http://www.cytoscape.org/)中得到PPI網絡圖,隨后使用CytoHubba插件按照Degree算法選取PPI網絡圖中排名前5的基因[12]。
HCMDB是一個用于存儲和分析腫瘤的數據庫。其中數據庫的來源主要來于GEO和TCGA數據庫,一共收集了124個以前發表的轉錄組數據集,包含了29種癌癥類型。將由CytoHubba得到的基因輸入HCMDB中進行驗證。
通過GEO2R在線分析GSE36001和GSE12865兩個數據集,篩選出421個共同的差異基因(圖1A),其中有187個基因是上調基因,234個基因是下調基因(圖1B)

圖1 差異基因的火山圖和維恩圖
對所篩選出來的421個差異基因進行GO和KEGG分析,按照P值進行排序,排名前5的結果見表1、2。在生物進程方面,差異基因參與的前5個生物學過程為蛋白激酶活性的激活、肽基-酪氨酸磷酸化的正調控、蛋白激酶C激活G蛋白偶聯受體信號通路、共同伴侶SMAD蛋白磷酸化和蛋白絲氨酸/蘇氨酸激酶活性的正向調節。分子功能方面,差異基因的前5個功能為蛋白結合、肝素結合、蛋白的同源二聚化活動、離子型谷氨酸受體結合和蛋白激酶結合。細胞成分方面,差異基因前5個存在部位為胞外的外泌體、突觸前膜、粘著斑、脂筏和突觸后密度。信號通路方面,差異基因參與了Rap1信號通路、百日咳病、腎素分泌、甘油磷脂的新陳代謝和磷脂酰肌醇信號系統。

表1 差異基因的GO分析

表2 差異基因的KEGG分析
將差異基因導入到STRING數據庫中得到PPI網絡圖(圖2),隨后用CytoHubba軟件,根據Degree得出排名前5的基因(圖3),依次為:SMAD2、CD44、CXCL12、UBE2D3和KEAP1,5個基因均在骨肉瘤中下調。

圖2 蛋白-蛋白互作網絡圖(PPI)

圖3 PPI網絡圖中的前5個差異基因
將CytoHubba軟件得到的排名前5的基因輸入HCMDB數據庫中進行驗證,以P<0.05為篩選條件,圖4顯示CD44、CXCL12、UBE2D3和KEAP1的表達水平與GSE36001和GSE12865的分析結果一致,在骨肉瘤中的表達均下調,差異具有統計學意義(P<0.001、P<0.001、P<0.001和P=0.021)。

圖4 CD44,CXCL12,UBE2D3和KEAP1在數據庫中的表達
骨肉瘤是最常見的惡性骨腫瘤,當前的治療主要以手術切除加放化療為金標準,但治療效果往往不佳[13]。近年來,隨著生物信息學技術的高速發展,可以挖掘疾病發生進展中的關鍵基因,為探索疾病的發病機制和治療帶來好處。例如Zheng等[14]認為LHPP蛋白的過表達可以抑制宮頸癌的增殖和轉移;Tan等[15]確認了BZRAP1-AS1是前列腺癌的一個預后指標;Cao等[16]認為COL1A12的表達在胃癌患者中具有重要意義,可以作為胃癌患者的預后指標。因此,可以通過利用生物信息學的方法預測潛在的靶基因。
首先,本研究組選取GSE36001和GSE12865兩個數據集,采用GEO2R選出差異基因,GEO2R是GEO數據庫自帶的差異基因分析工具,它能夠比較兩個或者多個樣本之間的區別從而尋找出差異基因。本研究共篩選出421個基因,其中187個上調基因和234個下調基因。隨后用DAVID數據庫對差異基因進行GO和KEGG分析,GO分析主要包括3個方面:細胞成分、分子功能和生物進程;KEGG是一個包含了基因組學、基因所參與的生物學途徑、疾病和化學物質等基本信息的數據庫。 將421個差異基因進行分析后,在生物進程方面差異基因參與蛋白激酶活性的激活、肽基-酪氨酸磷酸化的正調控、蛋白激酶C激活G蛋白偶聯受體信號通路等過程。分子功能方面差異基因功能為蛋白結合、肝素結合、蛋白的同源二聚化活動等功能。細胞成分方面差異基因存在部位為胞外的外泌體、突觸前膜、粘著斑等部位。信號通路方面差異基因參與了Rap1信號通路、百日咳病及腎素分泌等通路。隨后將差異基因導入到STRING數據庫中得到PPI圖,而Cytoscape軟件是一款可以將PPI可視化的軟件,可以對PPI進行后續的分析,再使用插件CytoHubba根據Degree(代表一個基因相鄰分子的數量)篩選出排名前5的基因SMAD2、CD44、CXCL12、KEAP1和UBE2D3。最后在HCMDB數據庫中對5個基因進行驗證,發現CD44、CXCL12、KEAP1和UBE2D3在骨肉瘤中的表達均下調,差異具有統計學意義(P<0.05),且與GSE36001和GSE12865的分析結果相一致,其中的3個基因已有文獻報道與骨肉瘤有相關性。研究者發現在骨肉瘤細胞中過表達CD44,接種裸鼠后增加了骨肉瘤肺轉移的概率[17];Shi等[18]對骨肉瘤轉移樣本和非轉移進行生物信息學分析后發現CXCL12在兩組中的表達量有差異且具有統計學意義;研究人員發現KEPA1在骨肉瘤中是低表達,且其表達與骨肉瘤患者的預后相關,表現為低表達患者預后較差[19]。雖然還沒有UBE2D3與骨肉瘤相關的研究,但數據庫提示在骨肉瘤中的表達具有統計學意義,且文獻報道UBE2D3的過表達增加了食管癌細胞放療的敏感性[20]。
總之,本次研究通過GEO數據庫里的數據信息進行了挖掘和分析,分析結果提示CD44、CXCL12、UBE2D3和KEAP1可能與骨肉瘤發生發展有關。在本次研究中,因GEO數據庫缺乏骨肉瘤患者的生存時間和生存狀態,無法準確預測這些基因與骨肉瘤預后的關系,因此未來還需要繼續在GEO 數據庫中去發掘和探索更多符合研究條件的樣本芯片表達譜數據并進行驗證。
作者聲明:本文全部作者對于研究和撰寫的論文出現的不端行為承擔相應責任;并承諾論文中涉及的原始圖片、數據資料等已按照有關規定保存,可接受核查。
學術不端:本文在初審、返修及出版前均通過中國知網(CNKI)科技期刊學術不端文獻檢測系統的學術不端檢測。
同行評議:經同行專家雙盲外審,達到刊發要求。
利益沖突:所有作者均聲明不存在利益沖突。
文章版權:本文出版前已與全體作者簽署了論文授權書等協議。