趙國連,王冀邯,崔曉利
(1. 西安市胸科醫院 檢驗科,西安 710100 ;2.西北工業大學 醫學研究院,西安 710072)
甲狀腺癌(Thyroid cancer,THCA)是內分泌系中最常見的惡性腫瘤,易受飲食、遺傳、環境等多種因素的影響[1]。近年來,中國的甲狀腺癌的發病率呈上升趨勢且女性高于男性[2]?;诩谞钕侔┬g前診斷率低且晚期患者預后差的特點,探索其發病機制并尋找新型分子標志物,對于早發現、早診斷、早治療具有重要意義[3]。近年來,隨著高通量測序技術及基因芯片技術的進步,其在生命科學領域的應用愈加廣泛。利用生物信息學方法在龐大的基因數據庫中篩選癌癥診斷的生物標志物方法的有效性已經被大量的臨床數據證實[4]。
目前已有學者[3]應用基因表達綜合數據庫(The gene expression omnibus,GEO)對甲狀腺癌潛在的miRNAs 生物學標志物及靶基因功能和信號通路進行分析。Choi等通過腫瘤基因組圖譜(The Cancer Genome Atlas,TCGA)建立了一個12個基因預測模型(包括BCC8,CHI3L1,CLCNKA,FAM155B,GABRG1,LUM,MRO,MT1G,MT1H,SELV,SLC4A4和TMEM92),用于預測甲狀腺乳頭狀瘤(Papillary thyroid carcinoma,PTC)中的淋巴結轉移[5]。此外,Lin等人使用腫瘤基因組圖譜(The Cancer Genome Atlas,TCGA)中與免疫相關的7個基因建立預后預測模型(包括AGTR1,CTGF,FAM3B,IL11,IL17C,PTH2R和SPAG11A)用于預測PTC預后情況[6]。因此,進一步探索公共數據庫,將為尋找THCA發生發展的分子機制及挖掘疾病新型生物標志物提供依據。本研究整合了TCGA中的THCA基因表達數據,應用edgeR和limma兩種算法對診斷甲狀腺癌具有潛在應用價值的基因標志物做出預測,后續通過雙聚類分析及ROC分析進一步驗證預測基因的可靠性。通過生物信息學分析鑒定出了11個THCA的差異表達基因(Differentially expressed genes,DEGs)及與疾病診斷相關的基因,以期為探索THCA發生發展的分子機制及挖掘疾病新型生物標志物提供依據[2,7]。
通過UCSC xean網站下載TCGA數據庫中的甲狀腺癌基因表達數據(https://gdc.xenahubs.net/download/TCGA-THCA.htseq_counts.tsv.gz),該數據為Log2標準化后的數據。該數據集包含了510例腫瘤樣本和58例正常對照樣本。
在UCSC xean網站下載THCA對應的ID/Gene Mapping (https://gdc.xenahubs.net/download/gencode.v22.annotation.gene.probeMap),將基因ID 與基因名稱進行匹配,當有多個ID對應同一個基因名稱時,求多個ID 的平均表達值。
分別運用R/Bioconductor中的edgeR包[8]和limma包[9]對預處理過后的THCA數據提取差異表達基因。選取腫瘤與正常對照組間表達差異倍數(Fold change,FC)大于2,P<0.05的基因作為差異表達基因(Differentially expressed genes,DEGs),將兩種算下的DEGs取交集。運用R 中的pheatmap包對DEGs進行雙聚類。運用Medcalc19.0.4統計軟件分析,檢驗所篩選的DEGs在鑒別腫瘤樣本和正常對照樣本的應用效果,獲取敏感性、特異性、曲線下面積等指標。
首先選取腫瘤與正常對照組間倍數改變大于2,P<0.05的基因。其中,利用edgeR包得到差異基因共2 768個(上調1 765個,下調1 003個);利用limma包得到差異基因共2 699個(上調1 080個,下調1 619個)(見圖1)。將上述兩種算法的結果求交集并去除表達趨勢不一致的基因,最終得到差異基因共1 945個(上調1 033個,下調912個)。進一步分析顯示,隨著組間差異倍數增大,差異基因主要表現為在腫瘤組織中上調(見圖2)。

圖1 腫瘤組與正常對照組間DEGs火山圖Fig.1 Volcanic diagram of DEGs between tumor group and normal control group

圖2 不同倍數改變的DEGs統計Fig.2 DEGs statistics with different multiples
分析顯示,隨著組間差異倍數的增大,腫瘤組織中DEGs絕大部分表現為上調的模式,我們進一步篩選出組間差異倍數在32倍(log2(FC)=5)以上的DEGs進行后續分析。該11個差異基因在兩種算法中的計算結果(見表1)。對11個DEGs和樣本進行雙聚類分析,可以看出,基于組間的DEGs表達能夠較好的將腫瘤樣本和正常對照樣本進行區分(見圖3)。

圖3 DEGs和樣本的雙聚類分析Fig.3 Biclustering analysis of DEGs and samples注:橫坐標為樣本(紅色代表癌癥組,藍色代表正常組),縱坐標為差異表達基因.

表1 篩選出的DEGs匯總Table 1 Summary of screened DEGs
進一步對篩選出的11個候選差異基因進行顯示,基于基因表達值鑒別腫瘤組與對照組的敏感性和特異性均在70%以上,曲線下面積均大于0.8(見圖4及表2)。提示上述基因可以較好地鑒別THCA腫瘤組和正常組。

圖4 基于候選基因鑒別腫瘤樣本與正常對照組的ROC曲線Fig.4 ROC curves of tumor samples and normal control group based on candidate genes

表2 基于候選基因鑒別腫瘤樣本與正常對照組的應用效果Table 2 Application effects of differentiating tumor samples from normal control group based on candidate genes
THCA是內分泌系統常見的惡性腫瘤之一,尋找潛在的分子標志物對于臨床與科研工作至關重要。TCGA作為全球最大的癌癥基因數據庫,其大量且規范的樣本及基因表達數據為研究探索THCA的發病機制及基因標志物提供了平臺[10]。本文基于TCGA數據庫中的THCA基因表達數據,對edgeR算法和limma算法的處理結果取交集并選擇fold change>2、P<0.05且差異表達變化趨勢一致的基因為DEGs,最終得到了1 945個DEGs。且隨著差異倍數的不斷增大,腫瘤組織中DEGs主要表現為表達上調的改變模式。ROC結果顯示,11個差異顯著的DEGs在鑒別腫瘤與正常組具有較好的結果。預期由這11個表達差異的DEGs組合將為TCGA的診斷、預后及復發風險評估有一定的應用價值。
Jin Y等人發現GABRB2基因在甲狀腺腫瘤組織中過度表達,通過與正常組織為對照組的隊列研究中顯示GABRB2在PCT中過表達與淋巴結轉移相關,體外實驗表明GABRB2下調會顯著抑制三種PCT細胞系的集落形成,遷徙和侵襲[11]。說明其有作為分子診斷標志物的潛力。HMGA2是一種非組蛋白的轉錄因子,可影響包括細胞周期過程、DNA損傷修復、細胞凋亡、衰老等生物學過程。Chiappetta G 等人通過免疫組織化學和定量RT-PCR分析,認為HMGA2表達與人類甲狀腺腫瘤中的惡性表型相關[12]。Ivanamija通過對細針穿刺甲狀腺結節中HMGA2分析認為其可以作為區分惡性和良性甲狀腺結節的輔助生物標志物[13]。MUC21是一種從TA3-Ha細胞中鑒定出一種新型粘蛋白。它在甲狀腺癌中通過mRNA水平和抗體結合被發現,但在相鄰的正常上皮中卻沒有,這就進一步說明這種粘蛋白有用作甲狀腺癌的組織或血清標志物[14]。SYT12有相關研究證明,SYT12在甲狀腺癌中具有一定的預后意義,SYT12可用于PCT患者的病情進展預測的過表達與癌癥的轉移有關。但SYT12子癌癥中的分子生物學作用仍不清楚[15]。一些研究表明ZCCHC12基因與某些疾病有關,但ZCCHC12在甲狀腺癌中的功能尚未確定。Wang O 的結論證明:ZCCHC12的表達在甲狀腺癌中顯著上調,該基因過表達與淋巴結轉移相關,說明該基因具有重要的生物學功能,并有作為甲狀腺癌癥中與轉移相關的癌基因的潛在價值[16]。
Li YDENG 等研究發現,LIPH在甲狀腺癌組織中的高表達與淋巴結轉移密切相關,其細胞功能實驗表明,LIPH與甲狀腺癌細胞系的惡性行為呈正相關,這可以作為甲狀腺癌診斷標志物的有力證據[17]。Jarzab B在應用基因芯片方法對23例甲狀腺癌患者基因表達譜分析中也明確RXRG的表達有顯著升高,但是該基因在甲狀腺癌發生發展中發揮具體作用的機制還未明確[18]。
除了以上7種預測基因在甲狀腺癌中的相關報道,目前尚未有對于PRR15、SLC22A31、SLIT1和SYTL54種基因在甲狀腺癌作用機制的報道,但是SYTL5和PRR15基因表達上調在其他癌癥中的有多次報道。Wright PK等人通過免疫組化顯示SYTL5在正常乳腺導管上皮細胞、原位導管癌和浸潤性乳腺癌細胞中表達[19]。Meunier D等人研究表明 PRR15在小鼠和人類胃腸道腫瘤中高表達,可能APC蛋白的缺失有關[20]。預測的11個基因中發現了4個以往沒有報道與甲狀腺癌相關的基因值得進一步研究,但是這些基因用于甲狀腺癌診斷的可靠性還有待更加深入的機制研究。
綜上,本研究通過分析TCGA甲狀腺癌表達數據,鑒定出了與THCA發生發展相關的11種生物標志物,鑒于此,在今后的臨床研究中可以以這些顯著表達差異的基因作為藥物治療的靶向治療點。本研究不足在于缺乏更深入的機制研究,首先轉錄組學的分析并不能完全代表機體總體變化,其次,由于缺乏體內或體外試驗,該分子預測結果還需要進一步的臨床樣本驗證。
分析了TCGA中的甲狀腺癌表達譜數據,鑒定出了與疾病診斷顯著相關的11個差異表達基因,并通過雙聚類分析及ROC分析進一步驗證顯示預測基因的可靠性,這將為探索甲狀腺腫瘤發生發展機制及尋找新型分子標志物提供依據。