陸華英,梁春華,李科蓮
(1.廣西醫科大學附屬武鳴醫院檢驗科,廣西 南寧;2.南寧市第二人民醫院,廣西 南寧;3.廣西中醫藥大學第一附屬醫院,廣西 南寧)
胃腸道間質瘤(Gastrointestinal Stromal Tumors,GIST)于1983年被首次提出,是指原發于胃腸道、大網膜和腸系膜的c-KIT(CD117,一種干細胞因子受體)染色陽性的梭形細胞或上皮樣細胞的一組間葉源性腫瘤[1]。從我們對GIST的一般認知分析,GIST最常發生于胃,其發病率為60%~70%[2];GIST大體病理表現為腫瘤直徑2~20cm不等,境界清楚的質硬腫塊,切面呈灰白色或紅棕色,囊性或實性,也可伴有壞死及黏液變性[3]。GIST臨床表現為男女之比2:1,常見于中老年人。同時,GIST是一種交界性腫瘤,一般分為低度惡性和高度惡性[4]。
值得注意的是,GIST臨床表現多樣,大小也存在較大差異。因其非特異的臨床表現,給GIST的臨床診斷帶來巨大的困難[5]。在臨床上,胃間質瘤的發現可能因消化道癥狀經內鏡檢出,但其診斷與分期基本依靠CT檢查[6]。GIST影像學表現多樣,主要影像學診斷要點包括腫瘤與腸壁的關系,即生產方式,強化特點及其他圖像特征,比如鈣化、壞死等。GIST生長方式包括腔外型、腔內型、內生型及混合型[7]。較大腫瘤其內可伴壞死、液化,強化方式以明顯不均勻強化居多。值得注意的是,GIST不同的生長方式,導致腫瘤與周圍組織關系不同,尤其是外生性、混合型病變。因而極易導致影像學誤診[8]。所以,GIST的良惡性的早期診斷是臨床較為關注的問題[9]。
同時,隨著大數據及生物信息學的快速發展,大數據共享已成為當前研究的趨勢。已有不少關于GIST進展變化的測序和芯片的研究報道[10]。但尚未進行深入的探索。因此,本研究主要通過WGCNA綜合分析挖掘出于GIST惡化進展過程中的潛在關鍵基因及信號通路。該挖掘信息有可能為后人繼續GIST惡化進展過程研究提供新的研究思路。
本研究的GIST惡化進展過程中的GSE136755基因表達譜數據及臨床信息來源于GEO數據庫[11]。該數據集是基于GPL17077平臺,包括65例GIST,其中包括6個轉移灶和59個胃,小腸,直腸,直腸癌的原發性腫瘤。在數據分析之前需要對下載的數據進行預處理,包括提取樣本信息、構建基因表達矩陣、將探針名轉化為基因名,最終獲得行名為樣本名、列名為基因名的矩陣和行名為樣本名、列名為臨床信息的矩陣用于后續分析。
安裝R軟件WGCNA包,為節省計算機運算消耗的內存,本研究選取表達量方差大于所有方差四分位數的基因。剔除離群樣本并確?;虮磉_矩陣的樣品號與臨床信息的樣品號一一對應。按照無尺度網絡的標準選擇合適的加權系數β,并用此系數將相關矩陣轉化為鄰接矩陣,此后通過拓撲重疊(topological matrix,TOM)計算基因間的關聯,基于TOM值進行層次聚類建樹。建樹的方法采用動態混合剪切法(dynamic tree cut),將相異度作為距離測度,設定最小模塊尺寸為30,進行模塊識別并繪制基因樹狀圖。
基于樣本的臨床信息表對模塊的性狀進行關聯分析,尋找和GIST惡化進展性狀顯著相關的模塊用于后續分析。采用以下方式幫助識別相關性較高的模塊:首先,我們計算模塊的特征值與表型的相關系數(即module eigengene E,ME值)、定義基因的顯著性(gene significance,GS)來表示基因和表型之間的相關性;然后,我們選擇取所有基因GS絕對值的平均數即模塊顯著性(module significance,MS)表示該模塊與表型之間的相關性;最后,我們選取模塊與表型之間的相關系數最大的、且P值小于0.05的模塊用于后續分析。
我們篩選出與表型高度相關的模塊后,還需要對模塊下的基因進行核心基因篩選。我們首先利用softConnectivity函數計算上述被選出來的模塊內基因的連接度,篩選出模塊內連接度前30的基因。同時,我們將上一步選取的與臨床表型相關的模塊內的基因構建PPI網絡,并篩選出Degree最大的前30個基因。最后我們取這兩者的交集基因為核心基因。
在本研究中,為了進一步挖掘這些核心基因在GIST惡化進展過程中所發揮的分子生物學機制。我們用R軟件的clusterProfile包對這些核心基因進行GO和KEGG信號通路富集分析。以P.adjust<0.05為篩選標準。
GSE136755數據集被檢索到并被下載下來,一共是65個樣本,其中,女性26例,女性39例。在這個數據集內,他們把GIST分為兩個階段,分別是惡性GIST(轉移和高危GIST)和低惡性GIST(低危和極低危GIST)GIST。隨后我們對下載后的數據進行整理(id轉換和矩陣處理),其中,基因表達矩陣含有18652個基因;臨床信息矩陣為行名為樣本名、列名分別是GIST等級(level)、性別(gender)和年齡(age)。
首先,為減少運算時計算機消耗的內存,選取基因表達量的方差大于所有方差四分位數的4663個基因(即選取在各個樣本中變化較大的基因)進行后面的運算。基因表達矩陣應進行缺失值處理(刪除缺失值較多的基因)和離群樣本的剔除。根據樣本聚類的距離鑒定離群樣本,剔除離群樣本后最終有61個樣本納入后續分析(圖1A)。
隨后,我們進行軟閾值的篩選。為滿足共表達網絡符合無尺度網絡,即出現連接度為k的節點的對數lgk與該節點出現的概率的對數lg[p(k)]呈負相關,且相關系數應>0.8。我們使用R軟件WGCNA包進行構建權重共表達網絡,使用分析包自動選擇的軟閾值計算得到軟閾值β=5(圖1B)。
最后,我們劃分基因模塊。確定軟閾值后,通過動態剪切樹法進行模塊初步識別并合并相似模塊,設置每個基因網絡模塊最少的基因數目為30,最終得到11個模塊(grey-82個基因,turquoise-1192個基因,blue-992個基因,brown-981個基因,yellow-290個基因,green-274個基因,red-255個基因,black-205個基因,pink-178個基因,magenta-121個基因,purple-93個基因),其中灰色模塊是無法聚集到其他模塊的基因集合(圖1C)。
如圖2A所示,根據各個模塊的特征向量,分別計算這些模塊與3個表型(level、gender和age)的相關性。結果顯示,綠色、藍色和棕色模塊與腫瘤level的相關性較高(分別是-0.42、0.37和-0.28),且P值均小于0.05。而洋紅色、粉紅色、紫色、紅色、綠松石、黑色、黃色、灰色、模塊與腫瘤level的相關性則較低(圖2A)。
為了進一步篩選出核心基因。我們首先使用blue模塊內的992個基因上傳STRING數據庫,構建PPI網絡(圖2B,以中間值信度=0.4為條件),并通過CytoHubba插件篩選簇Degree前30的基因。同時,我們利用softConnectivity函數計算blue模塊內基因的連接度,篩選出模塊內連接度前30的基因。最后,兩者的的交集基因(16個基因,ASPM、AURKA、BIRC5、BUB1、CCNA2、CCNB2、CDCA8、KIF11、KIF15、KIF20A、MKI67、PBK、TOP2A、TPX2、TTK、UBE2C)被當作為核心基因(圖2C和2D)。
在本研究中,為了進一步挖掘這些核心基因在GIST惡化進展過程中所發揮的分子生物學機制。核心基因的GO富集分析結果顯示,這16個潛在的關鍵基因主要富集在與細胞分裂增殖相關過程等方面(如chromosome segregation,mitotic nuclear division,organelle fission等)。同時,核心基因的GO富集分析結果顯示,這16個潛在的關鍵基因主要富集在細胞周期、增殖等方面。
目前來說,GIST還是醫學上的新詞,是21世紀初才正式命名和普遍使用的醫學新概念。可以說,GIST是直到本世紀才被重新認識的“新”疾病[12]。由于GIST起病隱匿,且容易被常規檢測手段忽略,該病往往在疾病晚期才被發現,因此會對患者造成致命的傷害[13]。GIST是一種具有潛在惡性傾向的侵襲性腫瘤,有學者評價它“盡管它不是癌,卻一樣可以奪人性命。“GIST的惡性程度與腫瘤的大小密切相關,如果不予以重視,腫塊逐漸增大,則會對患者的生命健康造成嚴重的損傷。所以早發現,早治療對于間質瘤的治療十分重要[14]。雖然有越來越多的患者正受到GIST的威脅,但遺憾的是GIST仍然未能引起公眾足夠重視。之所以沒有引起人們的注意,是因為GIST早期癥狀具有一定的隱蔽性。同時,GIST惡化進展的機制不詳也限制了人們對胃腸間質瘤的認識[16]。因此,本研究主要通過前人發表的關于GIST惡化進展的芯片數據,通過綜合的生物信息學方法挖掘出GIST惡化進展潛在的關鍵基因和其可能涉及分子生物學過程(GO Term和KEGG信號通路)。

圖A:樣本聚類分析熱圖。顏色強度與疾病狀態(風險程度)、性別和年齡成正比。圖B:軟閾值確定。前者是分析各種軟閾值功效(β)的無標度擬合指數;后者是分析各種軟閾值功率的平均連通性;5是最合適的功效值。圖C:基因聚類樹和模塊劃分。圖中的每個分支代表一個基因,下面的每種顏色代表一個共表達模塊。

圖A: GIST惡化進展和診斷年齡相關的基因模塊鑒定。圖B:PPI網絡。從內至外,依次是Degree>30,30≥Degree>20,20≥Degree>5,5≥Degree。圖C:韋恩圖。為WGCNA分析內連接度最高的30個基因和藍色模塊基因內Degree最高的30個基因的交集。圖D:16個基因在各樣本內的表達聚類熱圖。

圖A:16個關鍵基因的GO富集分析。分為BP、CC和MF。這里僅顯示富集最明顯的前10個GO條目。圖B:16個關鍵基因的KEGG信號通路富集分析。
本研究利用生物信息學方法,對GIST數據集GSE136755進行WGCNA分析,篩選出與GIST惡化進展相關的基因模塊。結果顯示blue模塊內的992個基因與GIST惡化進展密切相關。為進一步篩選與GIST惡化進展相關的關鍵基因,將blue模塊內的992個基因構建PPI網絡,并通過CytoHubba插件篩選簇Degree前30的基因。同時,我們利用softConnectivity函數計算blue模塊內基因的連接度,篩選出blue模塊內連接度前30的基因。最后,我們篩選出16個與GIST惡化進展相關的關鍵基因。本文研究結果顯示,ASPM、AURKA、BIRC5、BUB1、CCNA2、CCNB2、CDCA8、KIF11、KIF15、KIF20A、MKI67、PBK、TOP2A、TPX2、TTK、UBE2C與GIST惡化進展過程密切相關,提示這些關鍵基因可能對GIST病人的預后具有一定的預測價值。
BUB1為紡錘體檢測點蛋白,作為有絲分裂檢測點的重要功能蛋白,調節細胞周期及有絲分裂。有研究指出,BUB1在腎癌及乳癌等多種腫瘤中過表達,且其突變及過表達與染色體不穩定性、細胞分化和衰老相關,可促進腫瘤的發生及進展[16,17]。KIF作為驅動蛋白超家族中的成員,可調節紡錘體的形成、染色體的分離和胞質分裂,其表達異??梢鹑旧w分離失敗和胞質分裂不完全,從而引起細胞異常、增殖和分化,誘發腫瘤形成,其異常表達已經在多種惡性腫瘤中得到證實[18-20]。有研究表明,KIF14敲低可下調Skp2和Cks1的表達,進而抑制蛋白酶體依賴性p27Kip1泛素化,p27Kip1的增加抑制細胞周期蛋白的表達,包括CCNB1、CCND1和CCNE1,從而抑制腫瘤發生及進展[21]。ASPM(assembly factor for spindle microtubules)是一種與人類中心粒蛋白相關的基因,其研究主要涉及在人腦方面[22]。AURKA(aurora kinase A)編碼的蛋白是一種細胞周期調節激酶,在染色體分離過程中似乎與紡錘體極的微管形成和/或穩定有關;該基因編碼蛋白存在于有絲分裂間期的中心體和紡錘體兩極,可能在腫瘤的發展和進展中起作用[23]。BIRC5(baculoviral IAP repeat containing 5)是凋亡抑制因子(IAP)基因家族的成員,其編碼抑制凋亡細胞死亡的負調節蛋白。IAP家族成員通常包含多個桿狀病毒IAP重復序列(BIR)域,但該基因僅編碼一個BIR域的蛋白質。其編碼蛋白也缺乏C端環指結構域,在胎兒發育和大多數腫瘤中基因表達較高,而在成人組織中表達較低[24]。與此同時,CDCA8、MKI67、PBK、TOP2A、TPX2、TTK、UBE2C都是眾所周知的在細胞分裂增殖等過程中發揮作用。這與我們生物信息學挖掘的一致。但就目前對于胃腸間質瘤惡化進展的分子生物學機制來說,還沒有深入的關于這些基因對于其機制的研究。
因此,我們的這些基因有可能為后人研究GIST惡化進展的分子生物學機制研究提供新的思路。但我們這僅僅是通過生物信息學的方式挖掘,這些基因的作用仍有待進一步的體外和體內實驗的驗證。
本研究通過構建WGCNA網絡篩選出與GIST發生及惡化進展過程密切相關的16個潛在關鍵基因,這16個潛在的關鍵基因可能通過細胞分裂等相關通路來影響GIST發生及惡化過程。該挖掘信息有可能為后人繼續GIST惡化進展過程研究提供新的研究思路。