999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于PPI網絡預測和驗證結直腸癌相關Hub基因

2019-10-14 05:42:44
中華醫學圖書情報雜志 2019年6期
關鍵詞:關聯數據庫研究

結直腸癌(Colorectal Cancer,CRC)是最常見的消化系統癌癥及全球第三大診斷癌癥,也是癌癥死亡的第二大原因,占全球癌癥發病率和死亡率的10%[1]。無轉移的CRC患者可以通過手術治愈,但由于早期CRC沒有明顯癥狀,導致超過20%的病例在診斷時已出現轉移,且有一半以上患者即使在完全切除原發性腫瘤后也會出現復發和轉移[2-3]。基于CRC的診斷和治療現狀,越來越多的研究開始尋求CRC的遺傳改變,通過發現CRC的內在基因改變,實現CRC的早期診斷及靶向治療,從而有效降低其死亡率[4]。

眾所周知,CRC是一種異質性疾病,其Hub基因的異常表達與adw 發生、進展和轉移密切相關[5]。然而,僅使用傳統的生物標志物檢測方法只能發現很小部分的CRC相關Hub基因,且耗費大量人力、物力和財力。此外,不同實驗方法的結果并不統一且只有極少數量的重疊,因此極有必要尋求一種能有效和準確篩選Hub基因的新方法。

隨著計算機科學和生物信息學的發展,基于網絡的方法已經成為研究致病機制的有效工具[6],其中以PPI網絡應用最為廣泛。PPI網絡被許多研究證明其與包括基因表達、細胞生長、增殖和凋亡在內的很多重要的生物學過程密切相關[7]。PPI異常是多種復雜疾病的基礎,特別是與癌癥的發生和發展有關[8-9]。PPI網絡在癌癥生物學中具有重要作用,已成為篩選癌癥相關Hub基因的有效方法。目前已經有研究指出,基于PPI網絡的方法可成功預測乳腺癌[10]、肝癌[11]以及胃癌[12]的Hub基因。

鑒于PPI網絡在預測Hub基因中的重要性,目前許多研究利用其預測CRC相關基因。Yongfu Xiong[13]等使用TCGA中的CRC數據,運用PPI網絡及基因表達數據,通過尋找差異表達基因(Differentially Expressed Genes,DEGs)及富集分析等方法預測CRC的Hub基因;Shasha Wu[14]等從GEO(Gene Expression Omnibus)數據庫獲得CRC相關基因及miRNA表達譜,采用GEO2R確定DEGs及差異表達的miRNA,通過PPI網絡和miRNA網絡預測CRC相關Hub基因及關鍵的miRNAs;Makondi[15]等從GEO數據庫獲得貝伐單抗抗性CRC數據,通過尋找DEGs、富集分析及PPI網絡分析,確定貝伐單抗抗性CRC的靶向基因及通路。由此可見,當前研究存在著共同的局限性:數據來源多為TCGA和GEO數據庫,選取的數據來自不同平臺、小樣本量,且前期使用的數據預處理方法均不一致,導致后期作為PPI網絡分析基本數據的DEGs在不同的研究中具有高度的不一致性,造成研究結果差異較大。

綜合考慮上述因素,本文為充分發揮 PPI 網絡在預測癌癥Hub基因中的優勢,同時盡可能規避當前研究的局限性,在數據方面引入OpenTargets數據庫,通過權威的基因敲除動物模型、遺傳關聯、種系突變、RNA 表達、體細胞突變等變量將基因-疾病連接起來,可以快速準確地獲得CRC的所有相關基因。通過富集分析、PPI網絡構建及網絡分析,得到CRC相關Hub基因,并對得到的Hub基因進行驗證,旨在為臨床和實驗研究提供一定的參考,以進一步驗證其臨床病理學相關性及預后價值。

1 研究框架

1.1 獲取CRC相關基因

1.1.1 OpenTargets數據庫

OpenTargets數據庫[16]是公私合作開發的一個創新型、大規模的基因-疾病相關關系數據庫,整合藥物、蛋白質、通路等數10個公共數據庫的信息,并與 GSK、EMBL-EBI、Sanger、Biogen、Takeda、Celgene等國際知名的生物醫學公司建立長期的合作關系,為基因-疾病之間的相關關系提供通路(affected_pathway)、遺傳關聯(genetic _ association)、動物模型(animal_model)、體細胞突變(somatic_mutation)、藥物(known_drug)、文獻(literature)等多種人類遺傳學和基因組學方面的變量。每個變量均來源于1個或多個數據庫,OpenTargets根據其來源和特定算法為所有變量提供一個介于0與1之間的相關分數,表示基因-疾病之間相關性的大小。該數據庫旨在通過目前已知的基因-疾病關系找到引發疾病的致病基因,從而發現疾病治療的最佳靶標,并將其作為藥物研發前期藥物靶點確定的關鍵證據。

1.1.2 獲取CRC相關基因

從OpenTargets數據庫下載基因—疾病關聯的 JSON 文件(2018 Apr version),共獲得2 336 807條基因-疾病關聯。OpenTargets中基因-疾病關聯分為直接關聯和間接關聯兩種,為保證關聯的準確性,刪除所有間接的基因-疾病關聯[17],剩余的直接基因-疾病關聯為941 939對.在直接關聯中篩選出所有的基因-結直腸癌相關關系,其中包括CRC及mCRC(Metastatic colorectal cancer),共獲得1 396個與其相關基因.將其作為本研究的基因集,以進行下一步研究(數據處理均由Python編碼實現)。

1.2 富集分析

使用MetaScape[18]對從OpenTargets獲取的1396個基因進行富集分析。分別在KEGG通路(KEGG Pathway)、GO術語(GO Terms)、Reactome基因集(Reactome Gene Sets)、Canonical 通路(Canonical Pathways )和 CORUM 5個本體中對輸入的基因集進行基因途徑和生物過程的富集分析。將p value<0.01、Count≥3、富集分數> 1.5作為納入標準(富集分數是觀察計數與偶然預期計數之間的比率),共得到包含上述5個方面的術語2 000個,其中Top20如表1及圖1所示。

表1 Top20 通路、生物過程及其分布

注:Count——用戶提供的基因列表中在當前本體術語中的基因數;百分比/%——用戶提供的基因列表中在該術語中出現的基因數占該術語全部基因數的百分比;Log10(P)——以基數10為底的p值的對數;Log10(q)——以基數10為底的q值的對數,其中q為多次測試得到的校正后p值

圖1 Top20 通路、生物過程p值分布

1.3 富集術語網絡分析

為進一步確定富集術語之間的關系,計算Kappa分數作為術語之間相似性的度量,構建了富集術語相似性網絡,如圖2所示。通過術語之間相似性(Kappa>0.3)將節點相連構成網絡,每個節點代表一個富集術語。其中圖2(a)節點的顏色表示節點所屬集群,可見同屬于相同集群的術語彼此之間距離較近,關系更緊密;圖2(b)節點顏色由深到淺表示其顯著程度(P值),可知包含基因數量越多的術語其P值越顯著。

圖2富集術語相似性網絡

為探究本研究數據集中基因最為聚集的富集術語,引入Cytoscape中的MCODE(Molecular Complex Detection)插件。該方法基于通過局部鄰域密度的頂點加權和局部密集種子蛋白的向外遍歷,根據給定參數隔離密集區域,具有優于其他圖聚類方法的定向模式。該定向模式允許對感興趣的聚類進行微調而不考慮網絡其余部分的連接情況[19]。本文采用MCODE檢測網絡中的密集連接區域(子網),其中node score cut-off=0.3,K-core=4,共得到9個子網(圖3),并給出每個子網的種子節點,即最具代表性的富集術語(表2)。

由表2可知,目前得到的9個種子富集術語都與癌癥的發生和發展有一定的關聯。如PI3K通路[20]通常在人類癌癥中失調,并通過促進異常細胞生長和轉化來驅動腫瘤發生。調節PIK3激酶信號(regulation of phosphatidylinositol 3-kinase signaling)對于腫瘤的治療有至關重要的作用。最新研究[21]提出了一種新的與突變無關的癌癥治療方法,即通過靶向生物發生來抑制致癌基因RAS和MYC,達到治療乳腺癌的目的,表明復合物生物發生(Complex I biogenesis)將有可能成為一種新的癌癥治療手段。Filippova Maria等[22]證明,細胞對氧化應激的反應(cellular response to oxidative stress)可以顯著影響宮頸癌細胞對于化療制劑的敏感程度,從而影響化療效果。凋亡信號通路是眾所周知的與癌癥發生和發展有關的信號通路,其中BCL-2拮抗劑可以作用于內源性凋亡信號通路,從而阻止癌癥細胞的轉化,但外源性凋亡信號通路(extrinsic apoptotic signaling pathway)[23]一直沒有找到合適的藥物,促凋亡受體激動劑在臨床試驗中效果并不理想,因此,外源性凋亡信號通路可能會成為未來癌癥治療的一個突破點。

圖3 富集術語相似性網絡子網

1.4 PPI網絡構建及Hub基因挖掘

由術語富集網絡子網分析可知,本文獲取的基因集在癌癥相關通路上富集較多,與癌癥的發生和發展有一定的關系。為進一步獲得CRC的Hub基因,將全部基因輸入STRING數據庫[24],獲得基因間相互作用的PPI網絡。將置信分數(confidence)設為0.9,得到包含302個節點、2 143條邊的PPI網絡。

有研究表明,PPI網絡具有高度連通區域(子網)的一小部分有更高的概率參與到生物調節中,而那些輕度連接的節點不會在整個網絡的完整性中發揮關鍵作用[25]。此外,基因沉默實驗進一步證實,模塊內Hub與疾病狀態顯著相關[26]。因此,從PPI子網獲得的Hub基因比沒有網絡信息篩選的單個基因更有意義[27]。基于此研究的前提,本文使用MCODE對上述PPI網絡進行模塊劃分(node score cut-off=0.2,K-core=2),共得到3個子網,如圖4所示,其中節點顏色由淺到深表示MCODE分數由低到高。從3個子網分別選取MCODE分數最高的基因,分別為CXCL8、ERBB2和CYCS,將此作為該模塊的Hub基因。

Hub基因相關的網絡信息見表3。

圖4 MCODE功能模塊(子網)

基因名稱(Genes)MCODE分數(MCODE_Score)節點度(Degree)中介中心性(BetweennessCentrality)接近中心性(ClosenessCentrality)CXCL814.4073710.038055510.49401709ERBB213.6579540.021769330.49317406CYCS10.8590310.01545710.45727848

2 結果與分析

本文選取兩種方法對獲得的3個Hub基因進行驗證。文獻法:在PubMed數據庫查找該基因與結直腸癌相關的文獻研究;GEPIA數據[28]:該數據庫以TCGA數據庫中的數據為基礎,采用R、Perl等多種語言對數據進行分析,提供腫瘤差異表達譜分析、病例分型及生存分析等,結果如下。

白細胞介素-8(IL-8)又稱為趨化因子CXCL8,是巨噬細胞和上皮細胞等分泌的細胞因子,具有很強的促血管生成作用。研究表明,CXCL8與CRC血管生成和進展有關[29]。當CRC患者CXCL8高表達時,可以增強CRC細胞對失巢凋亡的抗性,可能是CRC的潛在治療靶標。在TCGA數據庫中已有的CRC研究顯示,CXCL8在腫瘤和正常組織中的表達存在差異,當CXCL8高表達時CRC患者的生存時間較長(圖5)。

圖5 CRC中CXCL8差異表達譜及生存曲線

ERBB2基因能編碼受體酪氨酸激酶表皮生長因子(EGF),但由于該基因沒有配體結合結構域,不能直接與EGF結合,而是與其他配體一起與EGF受體家族成員結合,形成緊密結合的異二聚體,穩定配體結合并增強激酶介導的下游信號傳導通路的激活。目前已經報道了該基因在乳腺癌和卵巢癌中的擴增或過表達。ERBB2擴增是結腸癌中新興的生物標志物,與抗HER2聯合治療的敏感性密切相關,預測ERBB2拷貝數的變化對轉移性結直腸癌中HER2靶向治療至關重要[30]。另外,ERBB2在CRC和正常組織中存在差異表達且與CRC患者的生存率相關(圖6)。

圖6 CRC中ERBB2差異表達譜及生存曲線

CYCS基因編碼小的血紅素蛋白,作為線粒體中電子傳遞鏈的中心組分,編碼的蛋白質與線粒體的內膜結合,接受來自細胞色素b的電子并將它們轉移到細胞色素氧化酶復合物中,參與細胞凋亡的啟動,并且可以介導細胞凋亡,以在體外和體內抑制癌細胞的生長[31],CYCS在腫瘤細胞中高表達能提高腫瘤患者的生存率(圖7)。

綜上,CXCL8、ERBB2及CYCS均與癌癥的發生和發展有一定的聯系,在癌癥組織和正常組織中存在差異表達且與CRC患者的生存情況有關;采用PPI網絡可預測CRC相關Hub基因的可行性,同時可節省大量的人力、物力及財力,為實驗驗證提供參考。

圖7 CRC中CYCS差異表達譜及生存曲線

3 討論

本文引入了OpenTargets數據庫。該數據庫通過整合數十種權威數據庫的信息,從通路、動物實驗模型、體細胞突變等眾多在癌癥中起到至關重要的因素計算基因-疾病之間的關系。由于其很多變量為癌癥相關基因所特有,故可在一定程度上保證結果的準確性。此外,從該數據庫獲取本文的數據集能解決當前研究選取的數據來自于不同平臺、小樣本量,且前期使用的數據預處理方法不一致等問題,不會出現DEGs在不同的研究中高度不一致性的現象。在找到Hub基因后,則可進一步驗證其表達差異。

此外,本文在進行富集分析時選用MetaScape軟件,可以解決解釋復雜化的問題。在當前大多數富集分析中,描述符和本體的冗余通常會使輸出的解釋復雜化。Metascape分析通過計算所有富集項對中的Kappa相似性,將術語首先分層地聚類到樹中,然后將子樹轉換為類似術語的聚類,將大多數冗余術語吸收到代表性集群中,從而可以消除富集分析引起的混雜數據解釋問題。

本文單獨采取了OpenTargets數據庫作為基因集來源,目前看來結果良好。為進一步提高算法的準確性,后續研究可能會考慮加入當前權威研究中的DEGs,進一步與本文數據集取交集運算,從而更好地實現Hub基因的預測。

4 結語

本文從OpenTargets數據庫獲得CRC相關基因集,采用富集分析、PPI網絡構建、PPI子網分析、差異表達分析及功能分析一系列手段,預測CRC相關Hub基因,驗證結果表明本文得到的3個Hub基因(CXCL8、ERBB2、CYCS)均與CRC有一定的關聯,且在CRC組織和正常組織中差異表達,并與CRC患者的總體生存時間相關,表明采用PPI網絡能預測CRC相關Hub基因的可行性和準確性,可以為Hub基因的驗證提供一種新的方法,為實驗和臨床研究前期提供一定的參考。

猜你喜歡
關聯數據庫研究
FMS與YBT相關性的實證研究
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
遼代千人邑研究述論
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
奇趣搭配
數據庫
財經(2017年2期)2017-03-10 14:35:35
智趣
讀者(2017年5期)2017-02-15 18:04:18
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
主站蜘蛛池模板: 91色爱欧美精品www| 欧美伦理一区| 亚洲乱伦视频| 不卡网亚洲无码| 中文精品久久久久国产网址| 亚洲视频免| 国产黑丝视频在线观看| 亚洲无码久久久久| 亚洲有码在线播放| 亚洲第七页| 国产极品粉嫩小泬免费看| 亚洲精品天堂在线观看| 国产精品久久久久婷婷五月| 欧美激情综合一区二区| 国产日韩av在线播放| 久久久受www免费人成| 免费一级无码在线网站| 91精品国产综合久久香蕉922| 精品人妻无码中字系列| 99热6这里只有精品| 亚洲日韩第九十九页| 亚洲精品你懂的| 久久频这里精品99香蕉久网址| 亚洲成人77777| 成人在线综合| 欧美午夜久久| 久久免费视频6| 国产成人精品一区二区免费看京| 欧美一级99在线观看国产| 成人另类稀缺在线观看| 亚洲另类色| h视频在线播放| 国产尤物视频网址导航| 久热精品免费| 国产成人高精品免费视频| 欧美色图第一页| 亚洲视频黄| 久久综合九色综合97网| 亚洲人成亚洲精品| 综合天天色| 日本成人精品视频| 2021亚洲精品不卡a| 一级毛片免费的| 五月激情婷婷综合| 婷婷久久综合九色综合88| 伦精品一区二区三区视频| 日韩欧美国产另类| 国产精品一区在线麻豆| 亚洲成在人线av品善网好看| 91精品免费高清在线| 国产97色在线| 国产成人综合亚洲欧美在| 国产无码精品在线| 亚洲成人网在线观看| 国产美女叼嘿视频免费看| 精品一区国产精品| 亚洲第一精品福利| 国产成人精品免费视频大全五级| 欧美不卡二区| 精品国产网| 白丝美女办公室高潮喷水视频| 色婷婷视频在线| 无码 在线 在线| 亚洲经典在线中文字幕| 国产福利不卡视频| 一区二区三区四区在线| 天堂亚洲网| 国产麻豆精品久久一二三| 久久午夜影院| 亚洲av中文无码乱人伦在线r| 黄色国产在线| 91精品国产自产在线老师啪l| 2021国产在线视频| 亚洲欧洲天堂色AV| 亚洲性一区| JIZZ亚洲国产| 亚洲中文字幕23页在线| 九色视频线上播放| 多人乱p欧美在线观看| 久久成人免费| 久久久久无码精品| 在线欧美一区|