鄭燕芳 李紀強 姜茂竹 曾 融 麥仲倫 張積仁
(南方醫科大學附屬珠江醫院腫瘤中心,廣東 廣州 510282)
盡管近年來結直腸癌的治療手段有很大進展,但中晚期結直腸癌的5年生存率并無多大改觀〔1〕。早期診斷對提高結直腸癌患者的生存率、降低其病死率具有重要意義。隨著基因組學的研究逐漸深入,現已發現能比結直腸鏡及生化指標更早期診斷結直腸癌的基因標記物〔2〕。然而,目前國內外還未見到結直腸癌診斷相關基因進行的大范圍文獻計量及生物信息學的研究。本研究采用文獻計量學及生物信息學方法對相關文獻進行量化及可視化分析,多角度、全面、科學的評價近10年來國內外結直腸癌診斷相關基因研究。
1.1 文獻來源 Embase數據庫進行Emtree擴展檢索,輔以自由詞的題目及摘要字段的檢索;Pubmed/Medline數據庫進行MeSH檢索,輔以自由詞的題目及摘要字段的檢索。結直腸癌檢索詞:①MeSH詞:colorectal neoplasm,②EMtree詞:colorectal cancer;③自由詞檢索:colorectal cancer、colorectal tumor* 、colorectal neoplasm*、colorectal carcinoma*。診斷檢索詞:①MeSH詞:prognosis;②EMtree詞:cancer prognosis;③自由詞:colorectal cancer prognosis*、diagnosis of colorectal cancer*。基因檢索詞:gene。
1.2 文獻納入與排除 納入標準:①全部與結直腸癌患者診斷有關基因及基因產物的研究及系統綜述;②納入人類的臨床研究(包括腫瘤病人原代細胞產生的結果、根據臨床及生物信息學模型推導出的結果);③文獻形式為論著;④納入臨床研究文獻、會議論文;⑤納入文獻需包括能提供足夠信息的摘要,或可以獲取全文資料。⑥當文獻同時研究人類的臨床研究和動物體內實驗或細胞株體外研究時,納入其中的臨床研究的數據。排除標準:①與診斷相關的非基因研究;②綜述、個案報道、通訊、回信、書籍及社論等;③細胞株體外研究、動物體內實驗;④針對基因的結構、機理等研究;⑤提供信息不全的會議摘要;⑥不同數據庫來源,作者、題目及出版年相同的文獻按1篇統計;⑦其他與研究目的不符的文獻;⑧研究內容,既有會議摘要又有論著,以論著進行統計。
1.3 文獻計量分析 采用Endnote X3軟件對所檢索文獻管理,并借助Excel 2003軟件對最終符合納入標準的文獻分別進行出版年、國家、期刊、研究機構、作者及所研究基因進行計量分析。
2.1 檢索結果 從Embase中檢出文獻11 496篇,Pubmed中檢出文獻10 968篇;其中綜述88篇,動物實驗類2 707篇,細胞水平的2 898,重復文獻8 382篇,經過初篩后的得到2001~2010有關結腸癌基因相關文獻共有6 867篇,根據文章研究內容確定設計結直腸癌診斷相關基因文獻共255篇。
2.2 文獻計量分析結果
2.2.1 文獻發表年限結果 結果顯示結直腸癌診斷相關基因相關文章在2006年以前呈逐年上升趨勢,自2006年后呈逐年下降。表明在2006年左右對結直腸癌分子診斷的研究具有重大突破。而在此后研究尚未見重大突破。見表1。
2.2.2 文獻第一作者所在國家結果 統計發現該領域研究國家或地區達37個。結果表明中國在此領域文章量最多,占該領域發文總量的21.57%。美國排名第2名,占該領域發文量的13.33%。日本有關結直腸癌診斷相關基因文章排名第3位,占該領域發文總量的10.98%。在此領域前十名的國家中,除中國、阿根廷兩個國家外,均為發達國家。見表1。
2.2.3 文獻期刊結果 對發表論文的期刊分布進行統計,可以確定該領域的核心出版物,為研究人員縮小關注范圍提供依據。納入的255篇論文發表在132種生物醫學期刊上,平均每刊發文1.93篇。其中以Anticancer Res文章量最多,總數的4.31%,Cancer Res次之。排前十名的期刊共發文量達71篇,且這些期刊多為腫瘤專業雜志,見表1。
2.2.4 文獻的研究機構結果 本文以第一作者所在機構作為統計對象,共統計出192個研究機構進行結直腸癌診斷相關基因方面研究,見表1。其中發文量≥5篇的研究機構有2個:中國的Zhejiang University(7篇)、中國的Guangxi Medical University(5篇)。中國的Fudan University排在第4位(4篇)。國外發文量較為分散,未見超過5篇的機構。
2.2.5 文獻的第一作者結果 統計發現第一作者共有235名,其中以中國(49個)、美國(33個)和日本(27個)居多,核心作者共有17個,來自于8個不同國家。本研究發現瑞典的Dimberg J、我國的Yang L,Zhang Y在10年間發文量最大(3篇),為該領域做出了巨大貢獻。

表1 結直腸癌診斷相關基因的發文量及基因排名

表2 結直腸癌診斷基因GO分類Bayes Factor>20的基因
2.2.6 文獻所研究基因結果 在2001~2010年期間,結直腸癌診斷相關基因臨床研究中的非多基因模型研究提及193個基因。KRAS是其中最為熱點的基因,共有58篇文獻報道了其在結直腸癌診斷中的作用。對發文量較多的國家進行基因分析發現,其中中國研究有47個基因,相對比較集中,以MLH1(7篇)、MSH2(6篇)為主;日本研究共涉及基因數量多達36個,以研究CDKN2A(6篇)、MLH1(4篇)基因為主。
2.2.7 結直腸癌診斷基因及其蛋白產物 采用STRING軟件對這193個結直腸癌診斷基因表達產物構建蛋白質相互作用網絡,MLH1、PTGS2、TP53、CDH1、AKT1、EGFR、MYC、CTNNB1、VEGFA、CCND1、EGF等基因處于網絡的中心,這些基因之間以及與網絡周邊的基因之間存在著密切的相互作用關系。
2.2.8 結直腸癌診斷基因及產物分類 利用在線軟件GATHER分析,193個結直腸癌診斷相關基因共涉及不同分級的Bayes因子≥0的GO分類94類,Bayes因子≥10的GO分類24類。Bayes因子≥20的GO分類6類,見表2。利用GODAG軟件對Bayes因子≥10的24類GO分類進行可視化,了解其之間層次相互包含關系,去除過大或過細分類。這些相關基因產物涉及細胞生理過程調節、細胞增殖、細胞周期、細胞周期調控、細胞程序調節、凋亡調節、細胞周期負調控、程序性細胞死亡調節、細胞死亡、細胞生理過程負調節、凋亡、死亡、程序性細胞死亡、調節生理程序、壓力反應等。
2.2.9 關鍵基因(hub基因)及瓶頸基因(bottleneck基因)分析 為尋找hub基因及bottleneck基因,從STRING數據庫下載結直腸癌診斷相關基因網絡,利用Cytoscape將相互作用網絡可視化。結果表明網絡是由176個節點3 221條邊組成,網絡直徑為6,網絡的平均距離為2.42。度為節點連接的邊的總數目,最大度值為202,最小為2,平均為36.60,網絡中連接度高的節點對網絡的穩定性起到重要的作用,本研究度數≥10的蛋白所對應的基因共有134個,本研究規定度數≥100的蛋白所對應的基因為 hub基因,共有 14個 TP53、CTNNB1、CDH1、AKT1、EGFR、MYC、CCND1、ESR1、BCL2 、PTGS2、MLH1、SP1、VEGFA、EGF,它們的功能改變可能對于整個網絡來說是至關重要的。Betweenness為網絡中所有的最短路徑中經過該節點的數量比例,最大Betweenness值為3 808.01,最小為0,平均為249.23。相應的節點或者邊在整個網絡中的作用和影響力,本研究規定Betweenness大于等于均數+1×SD(標準差)的蛋白所對應的基因為bottleneck基因,bottleneck基因有12個VEGFA MYC EGF AKT1 CDH1 PTGS2 TP53 MGMT CTNNB1 EGFR CCND1 ESR1。
結直腸癌是遺傳因素最為顯著的惡性腫瘤之一,隨著基因組學的研究逐漸深入,已發現大量能夠比直腸指診、糞便隱血試驗、影像學檢查、血腫瘤標志物、結腸鏡檢查等常規指標更能早期診斷結直腸癌的基因標記物。從2001年至2010年結直腸癌診斷文獻中發現,許多從血液或糞便中篩查某種特異性較高的結直腸癌相關基因或易感基因的甲基化相對特異地反映結直腸上皮癌變的進展程度,多屬于無創傷性檢測,更容易推廣。
文獻計量分析,結直腸癌主要研究國家為發達國家,表明經濟發達的地區研究水平較高,同時與該地區結直腸癌發病率相對較高有關〔1〕。我國發文量最多,表明隨著生活方式的改變和飲食、環境污染,我國結直腸癌發病率逐年提高,加上我國人口基數巨大,造成我國在結直腸癌基因診斷成為熱點。各學者發表文獻均未超過10篇,尚無該領域的領軍人物,表明目前此領域研究較為分散,需要加強國家之間、機構之間的相互協作,進行多中心、大樣本的研究。
STRING數據庫是一個蛋白質相互作用數據庫。該數據庫收集了文獻報道的相互作用的蛋白質信息和預測的相互作用蛋白質信息〔3,4〕。本文所篩選出的基因及蛋白網絡同國外相關研究基本一致〔5,6〕。通過對結直腸癌診斷相關基因的相互作用、GO分類研究,進一步將通過生物信息學方法尋找研究基因中的關鍵基因(hub基因)及瓶頸基因(bottleneck基因),是結直腸癌診斷相關基因研究的重點〔7~9〕。本文初步篩選了一些研究較成熟、預測性好的基因,為建立高效的多基因預測模型奠定了基礎,為結直腸癌早期診斷提供了可能。
1 Jemal A,Siegel R,Ward E,et al.Cancer statistics,2009〔J〕.CA Cancer J Clin,2009;59(4):225-49.
2 Slattery ML,Lundgreen A,Herrick JS,et al.Genetic variation in the transforming growth factor-beta signaling pathway and survival after diagnosis with colon and rectal cancer〔J〕.Cancer,2011;117(18):4175-83.
3 Barker CM,Gomez J,Grotta JC,et al.Feasibility of carotid artery stenting in patients with angiographic string sign〔J〕.Catheter Cardiovasc Interv,2010;75(7):1104-9.
4 Schwartz R,Istrail S,King J.Frequencies of amino acid strings in globular protein sequences indicate suppression of blocks of consecutive hydrophobic residues〔J〕.Protein Sci,2001;10(5):1023-31.
5 De Oliveira LF,De Oliveira CH,Barrezueta LF,et al.Immunoexpression of inhibitors of apoptosis proteins and their antagonist SMAC/DIABLO in colorectal carcinoma:correlation with apoptotic index,cellular proliferation and prognosis〔J〕.Oncol Rep,2009;22(2):295-303.
6 Xie C,Song LB,Wu JH,et al.Upregulator of cell proliferation predicts poor diagnosis in hepatocellular carcinoma and contributes to hepatocarcinogenesis by downregulating FOXO3a〔J〕.PLoS One,2012;7(7):e40607.
7 Campbell C,Anandan C,Appleton S,et al.Avoiding inappropriate invitations to cancer screening programmes:the role of primary care〔J〕.JMed Screen,2011;18(1):12-7.
8 Miles A,Rainbow S,von Wagner C.Cancer fatalism and poor self-rated health mediate the association between socioeconomic status and uptake of colorectal cancer screening in England〔J〕.Cancer Epidemiol Biomarkers Prev,2011;20(10):2132-40.
9 Juan ME,Alfaras I,Planas JM.Colorectal cancer chemoprevention by trans-resveratrol〔J〕.Pharmacol Res,2012;65(6):584-91.