曹寶全,朱 洪
(昆明醫科大學第二附屬醫院肝膽胰外科一病區,云南 昆明 650000)
肝癌(liver cancer)屬于消化系統最常見的惡性腫瘤,且每年約有60 萬患者死于肝癌[1]。從宏觀上看,肝癌可分為原發性肝癌和繼發性肝癌,其中原發性肝癌的比例為75%~90%[2]。雖然肝部分切除和肝移植治療早期肝癌是有效的[3],但由于在疾病早期,患者的癥狀不易引起重視,導致大多數患者在就診時已處于肝癌的中晚期,其5 年生存率通常低于30%[4]。因此,尋找肝癌潛在生物標志物,對提高其診斷、治療和預后具有重要意義。目前,鑒于現有第二代基因診斷技術的貢獻,通過微陣列技術分析肝癌的基因表現譜后,發現很多基因與肝癌的發展密切相關[5]。因此,將基因芯片技術與生物信息學方法相結合,可以篩選出在肝癌發生發展中起關鍵作用的基因。本研究利用GEO 數據庫中不同肝癌樣本的基因表達數據,研究肝癌與正常肝組織中差異表達的基因,現報道如下。
1.1 數據來源 肝癌基因數據集GSE121248 的表達數據來自于GEO 數據庫(https://www.ncbi.nlm.nih.gov/geo)[6],其中有37 個肝臟正常組織樣本和70 個肝癌組織樣本。
1.2 基因篩選 利用R 軟件分析下載的數據,設定|logFC|=1,adj.P=0.05,研究在肝癌組織和正常肝組織中差異表現的基因。
1.3 富集分析 差異基因的功能注釋由DAVID(https://david.ncifcrf.gov/,6.8 版)[7]數據庫分析,包括生物過程、細胞成分和分子功能,然后對這些基因進行通路富集分析(keoto enclopedia of genes,KEGG),FDR<0.05 被認為差異有統計學意義。
1.4 蛋白質相互作用網絡的建立及篩選關鍵基因將篩選出的差異基因上傳到String(https://string-db.org/11.0 版本)中[8],并從該數據庫中選擇“Multiplee proteins”,生物種類設定為“Homo Sapines”,minimum required interaction score 設定為“highest confidence(0.9)”進行分析。將得到的數據文件輸入到cytoocape(版本3.7.2)軟件中進行可視化。然后,利用軟件中APP:cytohubba 的DMNC 和Degree 算法分別進行分析,得到關鍵基因。兩種算法得到的前10 個基因取交集后得到的共同基因被認為是關鍵基因。
1.5 生存分析 利用數據庫GEPIA(http://gepia.cancer-pku.cn/,基因表達譜分析)[9]中肝癌患者的臨床資料,繪制K-M 曲線,P<0.05 被認為差異有統計學意義。
2.1 基因篩選結果 通過肝癌數據集GSE121248 獲得了531 個差異表達基因,共有152 個高表達mRNAs 和379 個低表達mRNAs,見圖1。

圖1 篩選的差異mRNAs 火山圖
2.2 GO 和KEGG 富集分析 DAVID 數據庫分析顯示,531 差異基因的生物學功能主要富集在炎癥反應、氧化過程和免疫反應中;細胞成分主要集中在細胞外區域,分子功能主要集中在氧化還原酶活性、蛋白質同源二聚活性、鐵離子結合和血紅蛋白結合;富集的主要途徑是化學致癌性、代謝和抗生素生物合成,見圖2。

圖2 GO 和KEGG 富集分析
2.3 PPI 蛋白質相互作用網絡的構建和關鍵基因篩選 共得到10 種差異基因,分別為TTK、KIF4A、NUSAP1、MELK、PTTG1、NEK1、NEK1、NEK2、NEK2、PMPK2、KIKG2、CEA2、CEF2、CDK1、CCNB1、CDC20、CCNA2、BUB1B、DLP5、KIF1A、TPX2、KIF20A。在網站上(http://bioinformaticas.psb.gnt.be/webtools/Venn/)制作韋恩圖后,共同的差異基因只有KIF20A,見圖3。

圖3 關鍵基因篩選
2.4 生存分析 為了進一步驗證關鍵基因KIF20A 是否與肝癌的預后密切相關,利用Gepia 數據庫繪制了肝癌的生存分析曲線,及其在肝癌組織和正常肝組織中的表達,結果顯示KIF20A 的表達與肝癌患者的預后相關,且低表達與高生存率呈正相關(P<0.05)。根據表達的箱式圖分析結果,其在肝癌組織的表達量遠高于肝臟的正常組織(P<0.05),見圖4。

圖4 GEPIA 數據庫分析結果
KIF20A(驅動蛋白家族成員20A)是驅動蛋白-6 亞家族成員[10],其表達水平與癌癥的發生發展密切相關[11]。據報道[12,13],KIF20A 可促進膀胱癌細胞的增殖和轉移,通過激活JAK/STAT3 通路促進結腸癌的發生和發展。KIF20A 也是不同類型乳腺癌的治療靶標和預后生物標志物[14],是治療卵巢癌的藥物靶點[15];同時,其可以抑制非小細胞肺癌細胞的增殖和遠處轉移,促進胃癌的增殖[16]。本研究旨在探討KIF20A 對肝癌患者預后的影響,為肝癌靶向基因治療提供理論依據。
本研究分析了GEO 數據庫的肝癌數據集GSE12248 的70 個肝癌組織樣本和37 個正常肝組織樣本中的基因表達數據,得到了531 個差異的mRNAs,其中發揮上調作用的有152 個,下調作用的有379 個。GO 富集分析表明,這些差異表達基因主要通過代謝途徑和化學致癌作用影響細胞外氧化還原酶活性、免疫反應、炎癥反應、血紅素結合和鐵結合。同時,為了進一步篩選出在肝癌發生發展中起關鍵作用的mRNAs,將這531 個差異基因上傳到String 數據庫,構建由531 個點和935 條邊組成的蛋白質相互作用網絡,然后將結果輸入到Cytoscape中進行可視化,前10 個關鍵基因分別通過DMNC和Degree 算法得到。經過取交集,結果發現只有KIF20A 是肝癌發生發展的關鍵基因。為了進一步探討KIF20A 與肝癌預后的關系,本研究利用GEPIA數據庫中肝癌患者的臨床資料,繪制了其在肝癌組織和正常肝組織中表達的箱式圖和K-M 生存曲線,結果表明KIF20A 在肝癌組織中高表達,其表達水平與肝癌患者的預后密切相關(P<0.05),提示KIF20A 的表達量越低,肝癌患者的預后越好,生存時間越長。本研究還存在一些不足:①本研究的結果沒有得到進一步細胞實驗的驗證;②雖然本研究中使用的肝癌數據集樣本量不小,但只有一個數據集,尚需要更多的樣本研究結果來進一步證實這一結果;③肝癌的發生和發展通常是由多種因素影響,本研究未進行單因素分析和多因素分析,只從基因表達的水平上對肝癌的發展做研究。
總之,KIF20A 是該調控網絡的核心基因,在肝癌的發生發展中起著重要作用,其高表達與患者生存率低有關,是判斷肝癌預后的可靠生物標志物,可作為肝癌患者藥物治療的靶點。