夏文俊,于斐,胡鵬遠,張曉旭,張燕,包亮亮,毛宏凱,瑪依沙·達肯,曹明芹
新疆醫科大學公共衛生學院,烏魯木齊 830011
肺癌是世界范圍內高發的惡性腫瘤,據統計,全球每年約有220萬新發肺癌病例,179萬人死于肺癌[1]。結核病是一種由結核分枝桿菌引起的以呼吸系統為主的慢性傳染病,以肺部感染為主,常可累及多處器官及組織[2]。在臨床中,肺癌患者早期癥狀不明顯,易與肺結核等其他肺部疾病混淆,常導致許多肺癌患者確診時已為中晚期,錯過了最佳治療時機[3-4]。因此,早期鑒別診斷肺癌與具有相似臨床癥狀和放射學特征的肺結核患者,對于提高肺癌患者的生存率、結核病患者治愈率和降低整體疾病負擔是十分必要的。2022年3月—10月,本研究通過生物信息信息學方法篩選肺癌與肺結核的差異表達基因(DEGs),并利用機器學習算法構建肺癌與肺結核的鑒別診斷模型,以期為早期肺癌與肺結核患者的診斷提供理論依據。
1.1 肺癌與肺結核DEGs篩選 以lung cancer、tuberculosis等關鍵詞對GEO公共數據庫(https://www.ncbi.nlm.nih.gov/geo/)進行檢索,按照以下標準進行篩選:①數據集需具有肺癌和肺結核患者樣本;②微陣列數據;③符合美國食品藥品監督管理局(FDA)要求的權威機構檢測。篩選獲得GSE42834數據集,其中包含35例肺結核樣本,16例肺癌樣本,共20 912個基因。運用R軟件limma包的經驗貝葉斯聯合線性模型篩選GSE42834數據集中肺癌與肺結核DEGs。為了避免可能因線性分析而造成的假陽性結果,使用Benjamin and Hochberg(BH)法將P值調整為錯誤發現率(FDR)。篩選條件為FDR<0.05且|log2FC|>1.5。
1.2 肺癌與肺結核DEGs的GO生物過程與KEGG作用通路分析 運用R軟件clusterProfiler包對GSE42834數據集中肺癌與肺結核DEGs進行GO生物過程及KEGG作用通路富集分析,篩選排名前20的GO生物過程及KEGG作用通路富集結果,以P<0.05為差異有統計學意義。
1.3 肺癌與肺結核核心DEGs篩選 將獲得的前100個肺癌與肺結核DEGs輸入STRING工具(https://string-db.org),物種選擇Human,置信度選擇medium confidence(0.4),構建蛋白—蛋白相互作用網絡(PPI)。運用Cytoscape軟件進行PPI網絡的圖形化,使用CytoHubba插件篩選連接度前10的基因作為肺癌與肺結核核心DEGs。采用t檢驗分析核心DEGs在肺癌與肺結核患者的表達情況。
1.4 肺癌與肺結核鑒別診斷模型構建及評價 將篩選出的肺癌與肺結核核心DEGs輸入R軟件caret包,使用留一交叉驗證法(LOOCV)結合8種機器學習算法構建肺癌與肺結核的鑒別診斷模型,包括支持向量機(SVM)、自適應提升算法(AdaBoost)、C5.0決策樹(C5.0)、隨機森林(RF)、樸素貝葉斯(NB)、神經網絡(NN)、線性判別分析(LDA)及邏輯回歸(LR)模型,篩選模型的最優參數。使用Bootstrap法對模型進行內部驗證,采用準確率、Kappa值、敏感度及特異度來初步評價鑒別診斷模型的診斷準確度。
2.1 肺癌與肺結核DEGs篩選結果 GSE42834數據集中共篩選出肺癌與肺結核DEGs 325個,包含205個上調基因和120個下調基因。見OSID碼圖1。
2.2 肺癌與肺結核DEGs的GO生物過程與KEGG作用通路分析結果 GO生物過程分析結果顯示,肺癌與肺結核DEGs主要富集的生物過程為對病毒的反應、對病毒的防御反應、干擾素γ(HFN-Y)反應等;KEGG作用通路分析結果顯示,肺癌與肺結核DEGs主要富集的作用通路為甲型流感、EB病毒感染、抗原處理和呈遞等。見OSID碼圖2。
2.3 肺癌與肺結核核心DEGs篩選結果 PPI網絡中顯示200個節點,516個邊緣(OSID碼圖3)。利用CytoHubba插件獲得具有最高連通性的前10個核心DEGs,分別為STAT1、CXCL10、MX1、ISG15、IFIH1、OASL、IFIT3、GBP1、IFI44和 IFIT1(OSID 碼圖4)。經驗證,10個關鍵基因在肺癌患者中的表達水平均低于肺結核患者(P均<0.05)。見OSID碼圖5。
2.4 肺癌與肺結核鑒別診斷模型構建及評價結果 將10個肺癌與肺結核核心DEGs納入8種算法建立肺癌與肺結核鑒別診斷模型,模型的最優參數見表1。內部驗證結果顯示,所有鑒別診斷模型準確率、Kappa值、靈敏度及特異度均較高,其中Ada-Boost、RF、NN和LR準確率為1.000。見表2。

表1 肺癌與肺結核鑒別診斷模型的最優參數

表2 肺癌與肺結核鑒別診斷模型評價結果
肺癌與肺結核均屬于呼吸系統常見疾病,且肺結核是肺癌發病的危險因素之一[5]。目前,臨床中對肺癌與肺結核患者的鑒別診斷方法主要是穿刺活檢和影像學檢查。肺部穿刺活檢屬于侵入性檢查,且需要檢查者具有較高的操作水平才能保證結果的準確性[6];影像學檢查常用于肺部空洞形成后,無法對肺癌與結核病進行早期的篩查與診斷。因此,探索有效且切實可行的診斷生物標志物及鑒別診斷模型對區分早期肺癌與肺結核患者具有重要意義。
本研究通過GSE42834數據集中肺癌與肺結核患者的轉錄特征來識別肺癌和肺結核的DEGs,共獲得325個DEGs。GO生物過程和KEGG作用通路分析顯示,這些DEGs主要富集于病毒反應、病毒防御反應、IFN-γ反應等生物學過程,涉及甲型流感、EB病毒感染、抗原處理和呈遞等作用通路。通過構建PPI網絡獲得了肺癌與肺結核核心DEGs,分別為STAT1、CXCL10、MX1、ISG15、IFIH1、OASL、IFIT3、GBP1、IFI44和IFIT1。
STAT1是STAT蛋白家族的成員,具有激活IFN/STAT1通路和抗結核分枝桿菌的作用。IFN/STAT1通路是介導腫瘤細胞與宿主微環境成分之間的典型信號通路,通過激活IFN-γ發揮其抗腫瘤活性[7]。如果STAT1低表達可能抑制IFN-γ激活,從而促進腫瘤細胞的遷移和侵襲[8];YI等[9]研究發現,人體內高水平的磷酸化STAT1可以產生抗結核作用,提示STAT1可能是鑒別診斷肺癌與肺結核患者的重要標志物之一。CXCL10屬于CXC趨化因子,與CXCR3受體結合后可以促進單核細胞和淋巴細胞聚集到病變部位,從而發揮細胞免疫作用。有研究發現,肺癌患者KDM4C基因的異常高表達會導致CXCL10啟動子區域活化的組蛋白H3K36me3富集,從而抑制CXCL10的表達[10];FAN等[11]研究發現,活動性肺結核患者CXCL10水平顯著增高,CXCL10是結核病的重要標志物之一。這提示CXCL10在肺癌與肺結核中均異常表達,可能在肺癌與肺結核的鑒別診斷中發揮重要作用。GBP1是GTP酶超家族的成員,在正常細胞中具有抗增殖作用,在炎癥條件下可抑制早期血管生成。GBP1的表達具有高度背景依賴性,低表達時會促進肺癌細胞的增殖與轉移[12];高表達時會抑制Caspase-3的激活,導致巨噬細胞凋亡減少,促進分枝桿菌在細胞內的生存和感染的建立[13]。因此,GBP1也可能是鑒別肺癌與肺結核患者的重要標志物。MX1、ISG15、IFIH1、OASL、IFIT3、IFI44、IFIT1均是IFN響應基因靶標,具有誘導IFN反應、產生免疫調節因子和炎癥細胞因子的作用。該類基因高度表達可能意味著IFN先天反應的激活,因此具有區分肺結核與肺癌的潛力。
近年來,機器學習結合生物信息學方法憑借其較高的準確率,在疾病診斷研究中得到越來越多的應用。HAMMAD等[14]通過基因表達數據庫建立結直腸癌診斷模型;NING等[15]通過10個miRNA使用SVM算法建立前列腺癌診斷模型。本研究基于10個肺癌與肺結核核心DEGs,應用多種機器學習算法構建肺癌與肺結核的鑒別診斷模型,內部驗證結果發現均具有較高的準確性,所有診斷模型的準確率均大于0.900且Kappa值、靈敏度及特異度均較高,其中AdaBoost、RF、NN和LR的準確率為1.000,提示模型具備較好的診斷分類能力。
綜上所述,本研究通過機器學習算法結合生物信息學方法建立了8個肺癌與肺結核早期鑒別診斷模型,其中AdaBoost、RF、NN和LR準確性較高,可為肺癌與肺結核的早期鑒別診斷提供參考。但如果將這些關鍵基因應用于臨床實踐中,還需要在更多的外部獨立數據集進行驗證。在下一步研究中,我們將引入新的肺癌與肺結核患者進行模型效果的外部評價,并對核心基因在肺癌與肺結核中的生物學功能與機制做進一步研究。