肺癌是發(fā)病率和死亡率增長最快和對人群健康和生命威脅最大的惡性腫瘤之一。近年來分子生物學(xué)研究結(jié)果顯示,癌癥發(fā)生、發(fā)展的關(guān)鍵是細(xì)胞基因組本身的異常。肺癌分子生物學(xué)領(lǐng)域的發(fā)展不但給肺癌研究提供了新的技術(shù)和方法,而且使肺癌的診斷、治療進入了更廣闊的新領(lǐng)域[1]。
聚類分析是文本挖掘中常用的方法,已被應(yīng)用于模式識別、機器學(xué)習(xí)、統(tǒng)計學(xué)、生物信息學(xué)等很多研究領(lǐng)域中[2]。本研究根據(jù)基因的不同對肺癌與基因相關(guān)文獻進行聚類分析,將肺癌分類,從而找出與不同種類肺癌相關(guān)的基因。通過文獻調(diào)研發(fā)現(xiàn),閆雷等利用MetaMap和Mesh主題詞表對白血病相關(guān)文獻進行的共詞聚類分析發(fā)現(xiàn),不同種類白血病與不同基因之間的關(guān)系[3];Melaiu O等聯(lián)合使用不同的文本挖掘工具確定了PTGS2、BIRC5、ASS1、JUNB等多種惡性胸膜間皮瘤的標(biāo)志物[4]。
在肺癌領(lǐng)域進行文本挖掘的研究較少,根據(jù)基因的不同進行分類研究的更少。因此本研究擬通過PubMed數(shù)據(jù)庫下載肺癌與基因相關(guān)文獻,利用命名實體識別工具PubTator提取文獻中不同類型肺癌及基因的名稱,構(gòu)建疾病-基因矩陣并對其進行聚類分析,旨在發(fā)現(xiàn)與不同類型肺癌存在關(guān)聯(lián)的基因及其與肺癌的具體關(guān)聯(lián),為進行肺癌相關(guān)基因領(lǐng)域研究的學(xué)者提供參考。
本文選取PubMed數(shù)據(jù)庫,在Mesh字段下,截止時間(檢索時間)為2018年6月30日,檢索式為("Lung Neoplasms"[Mesh])AND "Genes"[Mesh],檢索得出8 743篇文獻的pmid號,使用命名實體識別工具PubTator對pmid號進行提取,在PubTator中對8 743篇文章中的疾病和基因2個命名實體進行識別,去除空缺值、消除噪聲,共得到33 657條記錄。部分結(jié)果如表1所示。

表1 pmid號—肺癌名稱—類別—疾病號表(部分)
將表1中的記錄通過pmid號進行自然連接,形成每一行記錄中既有疾病又有基因相關(guān)聯(lián)的完整數(shù)據(jù)記錄。
部分結(jié)果如表2所示。

表2 肺癌-基因查詢表(部分)
得到查詢表之后,將肺癌1、基因1打包為一個詞,對所有pmid號中共同出現(xiàn)的次數(shù)進行編程統(tǒng)計,形成肺癌-基因-頻次表。部分結(jié)果如表3所示。
PubTator是一個基于Web的文本挖掘工具,通過使用多個先進的文本挖掘算法進行文本注釋和加速人工生物編審。它支持對PubMed檢索結(jié)果進行標(biāo)注,可以識別化學(xué)物質(zhì)、疾病、基因、變異、物種等5類生物醫(yī)學(xué)實體。
COREMINE Medical是基于本體的醫(yī)學(xué)信息檢索平臺,由中國科學(xué)院中國醫(yī)學(xué)科學(xué)院、美國國立醫(yī)學(xué)圖書館等機構(gòu)聯(lián)合開發(fā),是國際上先進的醫(yī)學(xué)信息檢索平臺。COREMINE Medical可以對PubMed中相關(guān)文獻的基因、疾病、蛋白質(zhì)等不同的實體進行分類,從而滿足不同研究者的需求。
表3肺癌-基因-頻次表(部分)

基因號疾病號頻次基因號疾病號頻次1956D0022896524609D055752327157D00817545516653D002289311956D008175310596D008175317157D002289285999D002289303845D0022892571543D008175301956C5382312365915D008175303845D0081752135728D0022892916653D0081751664193D008175283845C538231153595D008175271029D0022891444255D008175271029D0081751444255D002289262064D002289961029C5382312522060D008175702272D002289257157C538231681026D008175242064D0081756813649D00817524238D00228962673D0022892311186D0081755627436D0022892311186D00228953999D0081752316653C538231517015D008175234609D008175441026D002289222064C538231425290D00228922596D002289426667D00817522207D002289407040D008175224609D002289404613D05575222238D008175367157D05575222207D00817535595D00228921238C538231341612D002289212272D008175345915D00228921
使用SPSS 18.0軟件對疾病-基因矩陣進行聚類分析,常用的聚類方法主要有k-means聚類算法、層次聚類算法、SOM聚類算法、FCM聚類算法。通過對以上幾種聚類方法的適用數(shù)據(jù)類型進行分析比較后,選擇分析-分類-系統(tǒng)聚類,使用ward法,區(qū)間選擇歐式平方距離,將疾病號代入個案標(biāo)記依據(jù),基因號代入變量選項,歐氏距離衡量的是多維空間中各個點之間的絕對距離,公式如下:
式中,d12表示兩點之間的距離,x1為點1的橫坐標(biāo),x2為點2的橫坐標(biāo),y1為點1的縱坐標(biāo),y2為點2的縱坐標(biāo)。
結(jié)果如圖1所示。
從圖1可看出,本文以疾病為分類依據(jù),縱軸表示疾病名稱,橫軸表示聚類數(shù)的劃分距離。以變異大小為1對疾病進行分類,大致把疾病分為疾病號D008175(A549 lung cancer)、疾病號D002289(Advanced non-small-cell lung cancer)、疾病號C538231(small cell lung carcinoma)及剩下的70種疾病四大類。與各種類型的肺癌相關(guān)的基因如表4所示。

圖1 聚類結(jié)果

疾病名稱基因名稱A549 lung cancerCip1,p21,STRAP,TGF-beta,Bcl2,Bcl-xL,CD31 ,HIF-1alphah,TERT,IL-6 p73,miR-125a,PCNA,Rhoa,wwox,Fibulin-3,MMP-2Advanced non-small-cell lung cancerP53,EGFR,K-RAS,CDKN2,HER2,RASSF1A,C-MYC,ALK,FHIT,BCL2,RARB,CYCLIN D1Small-cell lung carcinomaAKT,CD34,PTEN,MGMT,CDKN2,HER2,RASSF1A,C-MYCALK,BCL2,RARB,CYCLIN D1,FHIT,Lung cancer(others)AKT,CD34,Cip1,p21,STRAP ,GRB2,GRP,GRPR,GSK3beta,GSPT1,GST,GST1,GSTM,GSTM1,GSTM3,GSTP,GSTP1,GSTT1,Hap2,Hap3,hARD1,hASH1,Hbp1,hBUBR1,hDAB2,IPHDAC,HDAC1,HDAC10,HDAC2,HDAC3,HELLS,Hel-N1,HER2,HER-2/neu,HER3,HERC5,HES-1,HFH-11B,hG9a,HGF,hGM-CSF,hGPx1,HHLA2,HIC-1,Hif1,HIF-1alpha,HIF2a,HK II,HLA A,HLA-A,HLA-B
使用Gene Pattern聚類軟件對疾病-基因共現(xiàn)矩陣進行聚類分析。
根據(jù)與SPSS的聚類效果進行比較,聚類方法選擇Pairwise complete-linkage,結(jié)果如圖2所示。圖2中的紅色代表相關(guān)程度強,粉白色代表相關(guān)程度平均值,藍色代表相關(guān)程度弱。

圖2 Gene Pattern結(jié)果
通過圖2發(fā)現(xiàn),Gene Pattern軟件在橫坐標(biāo)方向上,按照與不同基因共同出現(xiàn)的頻次將疾病大致分為3類;縱坐標(biāo)上,每個基因在不同種類的肺癌中出現(xiàn)的頻次不同而分布在不同的顏色塊中。圖2的橫坐標(biāo)表示不同類型的肺癌,縱坐標(biāo)表示2 458個與肺癌相關(guān)的基因。肺癌從左至右大致被分為疾病為疾病號D002289(A549 non-small cell lung cancer)、疾病為疾病號D008175(A549 lung cancer)、疾病為疾病號C538231(small cell lung carcinoma)三大類。由圖2中的顏色方塊結(jié)果可看出,幾乎90%的基因都與這三大類疾病有相關(guān)關(guān)系,但關(guān)聯(lián)的程度是相同的。結(jié)合表3的分析,得到表5所示的結(jié)果。

表5 三大類肺癌相關(guān)基因
利用COREMINE Medical數(shù)據(jù)庫查找與肺癌相關(guān)的文獻和與肺癌相關(guān)的基因。同時結(jié)合表3確定關(guān)系最為密切的EGFR、P53、KRAS 3種基因。在PubMed數(shù)據(jù)庫、WOS數(shù)據(jù)庫中查閱影響因子2.5以上的相關(guān)文獻進行原文回溯,證明聚類分析結(jié)果的正確性。
2.2.1 EGFR基因
根據(jù)聚類分析的結(jié)果,EGFR基因主要與非小細(xì)胞肺癌(NSCLC)有關(guān)。KeL等在2018年發(fā)現(xiàn),EGFR基因主要在NSCLC患者的19號外顯子處發(fā)生突變[5]。黃潔等在2018年發(fā)現(xiàn),EGFR基因主要參與NSCLC早期的細(xì)胞增殖凋亡的多個環(huán)節(jié)[6]。馬玲等發(fā)現(xiàn),EGFR 基因在晚期非小細(xì)胞肺癌患者體內(nèi)突變率較高,并且以第19外顯子缺失突變?yōu)橹鱗7]。蔡忠等在2018年發(fā)現(xiàn),EGFR基因在包括肺癌在內(nèi)的多種實體瘤中均為高表達基因,與NSCLC的A549細(xì)胞結(jié)合能力很強,是抗腫瘤研究的熱點靶標(biāo)之一[8]?;罨蟮腅GFR可激活細(xì)胞內(nèi)相應(yīng)的酪氨酸激酶,通過信號分子的傳導(dǎo),觸發(fā)多種二酰亞胺信號傳導(dǎo)級聯(lián)反應(yīng),包括絲裂原活化蛋白激酶相關(guān)培養(yǎng)(MAPK)、應(yīng)激活化蛋白激酶(JNK)和絲氨酸/蘇氨酸激酶(AKT)等信號通路。王珊等在2017年發(fā)現(xiàn),EGFR基因突變與患者年齡、腺癌分化程度、有無淋巴結(jié)轉(zhuǎn)移及TNM分期無關(guān)[9]。
2.2.2 KRAS基因
聚類分析結(jié)果中,KRAS基因主要與A549 NSCLC有關(guān)。KeL等在2018年發(fā)現(xiàn),KRAS與EGFR基因主要在NSCLC晩期患者中高水平突變表達[5]。Kordiak J等在2019年發(fā)現(xiàn),肺癌組織中第12密碼子KRAS點突變的瘤內(nèi)異質(zhì)性和不均勻分布多發(fā)生在NSCLC中,EBC-DNA中 KRAS突變狀態(tài)與NSCLC患者腫瘤組織高度一致,提示監(jiān)測EBC-DNA中KRAS突變作為NSCLC標(biāo)志物的有效性[10]。曹慧等在2016年發(fā)現(xiàn)KRAS基因主要與肺腺癌有關(guān),檢測到KRAS基因第12及第13位密碼子的6種突變是肺癌患者的主要突變類型,以第12密碼子Gly12Ala的突變?yōu)橹鱗11]。
2.2.3 P53 基因
聚類分析結(jié)果中,P53基因主要與NSCLC有關(guān)。Amelio I等在2018年發(fā)現(xiàn),P53基因主要在晚期NSCLC患者體內(nèi)發(fā)生突變[12]。VogiatziF等在2016年發(fā)現(xiàn),P53基因可通過調(diào)節(jié)內(nèi)質(zhì)網(wǎng)ENTPD5酶將UDP水解成UMP,促進蛋白的N-糖基化來誘導(dǎo)肺癌的進展和轉(zhuǎn)移[13]。王文娟等在2016年發(fā)現(xiàn),P53基因在肺癌組織中突變大多為GC-AT和GC-TA的堿基顛換,且突變發(fā)生時,肺癌組織中Egr-1及EMT通路均被激活[14]。
將SPSS的聚類結(jié)果與Gene Pattern的聚類結(jié)果比較之后發(fā)現(xiàn),二者關(guān)于疾病的聚類分類數(shù)目基本一致,基因的分類略有不同,但是高共現(xiàn)的疾病基因?qū)Υ笾孪嗤?。如在肺癌基因的研究領(lǐng)域,“熱門基因”有MAPK4、ERK3、CXCR7、EGFR、P53等?!盁衢T疾病”為A549非小細(xì)胞肺癌、小細(xì)胞肺癌、A549肺癌及AAH(肺腺癌前期病變:不典型瘤樣增生)等。為了進一步檢驗分類結(jié)果的正確性,在COREMINE Medical中再次進行檢索,得到的高頻基因與肺癌-基因-頻次表中的基因大致相同。同時對高頻詞基因相關(guān)的文獻進行回溯,總結(jié)基因與具體哪種肺癌存在何種關(guān)系,以驗證和豐富聚類分析的結(jié)果。
總之,研究人員更注重對非小細(xì)胞肺癌(NSCLC)的研究。雖然不同研究涉及的基因、蛋白(基因表達的結(jié)果也可作為基因研究的參考)不同,但是大多都聚焦到基因是在哪個位置發(fā)生了何種變異導(dǎo)致疾病的發(fā)生,通過哪個通道發(fā)生了一系列生理生化反應(yīng)促進或者抑制了肺癌的發(fā)生。如EGFR基因主要與NSCLC有關(guān),與聚類分析結(jié)果一致,且突變主要是第19外顯子缺失突變;KRAS基因主要與A549 NSCLC有關(guān),與聚類分析結(jié)果一致,且基因突變以第12密碼子Gly12Ala突變?yōu)橹鳎籔53基因主要在晚期NSCLC患者體內(nèi)發(fā)生突變,與聚類分析結(jié)果一致,且突變大多為GC-AT和GC-TA的堿基顛換。
本文通過對肺癌、基因進行命名實體識別、實體數(shù)據(jù)的標(biāo)準(zhǔn)化處理、肺癌-基因矩陣構(gòu)建、肺癌-基因矩陣的聚類分析、結(jié)果驗證等環(huán)節(jié),深入研究了與不同類型肺癌存在關(guān)聯(lián)的基因及其在肺癌不同階段的具體關(guān)聯(lián),可為相關(guān)學(xué)者的研究提供參考。本研究雖然驗證了本研究與以往文獻結(jié)果的“一致性”,但并未揭示肺癌與基因之間的新發(fā)現(xiàn),這是下一步研究要解決的主要問題。