尹懋龍 ,常永虎
(1.遵義醫科大學,貴州 遵義 563000;2.華北電力大學,北京 102206)
結直腸癌(colorectal cancer,CRC)是胃腸道中常見的惡性腫瘤,早期無明顯臨床表現,但隨著癌腫的增大而表現排便習慣改變,會出現便血、腹瀉、腹瀉與便秘交替、局部腹痛等癥狀,晚期則表現貧血、體重減輕等全身癥狀[1]。其發病率和病死率在消化系統惡性腫瘤中僅次于胃癌、食管癌和原發性肝癌。人類已經受結直腸癌這種疾病影響了幾千年。但是在古人看來,結直腸癌是一種無法治愈的疾病。
多種因素會增加發生結直腸癌的風險,其中包含高脂肪飲食,膳食纖維不足,也包含遺傳因素(家族聚集性,結腸癌較直腸癌更為明顯)[2]。
科學知識圖譜(Mapping Knowledge Domain)是利用可視化技術描述知識資源及其載體,挖掘、分析、構建、繪制和顯示知識及它們之間的相互聯系,顯示科學知識的發展進程與結構關系的一種圖形[3]。它以科學知識為計量研究對象,是一種新型計量學工具,并利用可視化的圖譜形象地展示學科的核心結構、發展歷史、前沿領域以及整體知識架構,為學科研究提供切實的、有價值的參考。CiteSpace(引文空間)是一款眼著于分析科學分析中蘊含的潛在知識,是在科學計量學、數據可視化背景下逐漸發展起來的一款引文可視化分析軟件。本文利用CiteS-pace,將國內CRC 生物信息相關文獻進行知識圖譜描繪,分析近年來該研究領域的發展及演進趨勢,為后續的研究工作提供有價值的借鑒和參考。
圖1 文獻篩選流程圖
數據庫:中國知網數據庫(CNKI)。檢索策略:高級檢索,主題:“結直腸癌”“生物信息”,關鍵詞:“基因”“臨床表現”。時間范圍:2000年 1月 1日-2019年 12月 31日。檢索時間:2020年 4月 27日。
選取以結直腸癌生物信息為主題的文獻,包括基因表達、臨床表現、研究進展等。去除無關主題、重復文獻、會議論文及科普宣講等,將篩選得到的文獻以RefWorks 格式導出并用CiteSpace 去重,最后得到1116篇文獻。篩選過程如圖1。
使用Excel 對文獻發表數量進行統計并制作統計表,分析結直腸癌研究領域文獻發表數量的時間分布情況,如圖2。可見,2000-2004年發文量平緩增長,年均10.8 篇,2005-2016年在波動中快速增長,年均66.7 篇,并在2016年達到峰值,說明該領域的研究在這段時間內受到國內學者的持續和大量關注。此后,從2016-2019年總體呈下降趨勢,年均83.7 篇,研究熱度有所下降。
將數據導入CiteSpace5.6.R4 軟件。參數設置:時間分區 (Time Slicing):2000-2019;時間切片 (Years Per Slice):1年;節點類型(Node Types):Author;閾值(Top N Per Slice):50。共有197 位作者進入結直腸癌生物信息文獻作者共現圖譜(見圖3),發文量≥4 篇的作者見表1。
圖2 2000-2019年結直腸癌生物信息領域發文量
圖3 2000-2019年結直腸癌生物信息文獻部分核心作者時區分布圖譜
圖4 2000-2019年結直腸癌生物信息領域主要研究機構時區分布圖譜
根據普萊斯定律[4],核心作者最低發文量為3 篇,由此可得國內結直腸癌生物信息的核心作者為41 人,共發文144 篇,約占總發文量的12.9%。遠低于普萊斯定律要求的50%。結合作者聚類視圖可知,國內對結直腸癌生物信息的研究有多個團隊,但各團隊內部合作比較多,不同團隊之間的合作則較少,這意味著該領域的尚未形成穩定的核心研究團隊,研究者比較分散。
表1 2000-2019年結直腸癌生物信息文獻部分高發文量作者情況
表2 2000-2019年結直腸癌生物信息領域高發文量研究機構(前14 位)
利用 CiteSpace 5.6.R4,節點類型選為“Instructions”,其余設置與“2.2”相同。將相同的醫療或科研機構合并,生成結直腸癌生物信息研究機構的市區分布共現圖譜(見圖4)。同時生成發文量前14 位的機構(見表2)。
圖4 中,N=427,E=142。說明該領域領域 1116 篇文章是由427 個機構完成,圓形節點代表研究機構,節點的大小與發文量成正比,節點間的連線代表合作發表論文的情況。由表2 可知,全國范圍內對結直腸癌生物信息領域比較有影響力的機構有北京軍區總醫院,中山大學附屬第一醫院和寧波市李惠利醫院。由圖2 可知,各機構之間連線比較少而且稀疏,說明機構間合作較少。
表3 2000-2019年結直腸癌生物信息文獻前20 位關鍵詞
2.4.1 熱點方向
利用 CiteSpace 5.6.R4,NodeTypes 選擇為 KeyWord,修剪方式為Pathfinder 和Pruning the merged network。其余參數與“2.2”相同。將一些異名同義詞進行合并處理,例如:將“結直腸癌”和“結腸直腸癌”合并,將“p53 基因”和“p53”合并,將“k-ras 基因”和“kras 基因”合并。利用CiteSpace 生成關鍵詞聚類示圖,如圖5。統計得前20 位關鍵詞,如表3。
目前對于結直腸癌生物信息的研究主要集中在基因表達,臨床表現。基因表達部分有“k-ras 基因”“基因突變”“基因多態性”“抑癌基因”等關鍵詞,臨床表現有“甲基化”“臨床特征”等高頻關鍵詞。
中介中心性是CiteSpace 知識圖譜中測度節點在網絡中重要性的指標[5],具有高中介中心性的文章通常連接兩個不同領域的關鍵樞紐。作為生物信息的研究,結直腸癌(0.56)成為整個領域的重要節點,結直腸腫瘤(0.39)和基因(0.28)緊隨其后。
2.4.2 前沿研究
利用CiteSpace 從論文題目、關鍵詞和摘要等字段提取后選專業術語,通過跟蹤他們不同時間區間內出現頻率的變化(激增),識別出代表研究前沿的若干名詞術語,突發值為衡量該類名詞術語激增的指標,突發值越高者,說明它的增長速度越快。利用軟件將發值前25 位的名詞術語按出現及持續時間大體分為3 個階段(見圖6)。2000年-2007年,代謝酶基因、p53 基因、聚合酶鏈反應等術語迅速增長,基因及蛋白質的研究較為熱門。2008年-2012年,“西妥昔單抗”“免疫組化”“靶向治療”等術語迅速增長,對抗體,治療方向的研究迅速增加。2013年-2019年“腫瘤轉移”“臨床特點”“錯配修復基因”等關鍵詞迅速增長。說明這一時期對該問題的研究轉移到臨床表現上來。三個時期經歷了從基因到治療到臨床表現的轉變。
圖5 2000-2019年結直腸癌生物信息文獻高頻關鍵詞圖譜
從文獻作者的數據來看,結直腸癌生物信息研究的主要作者有李世擁、肖文華、李秋立、楊祖立、黎瑩等。其中,國內對該領域研究影響力最大的團隊為李秋文、肖文華、趙慧霞團隊、楊帆團隊和楊祖立團隊。李秋文團隊主要研究結直腸癌患者糞便中SEPT9(Septin9)基因的甲基化狀態,并得出了糞便DNA SEPT9 基因甲基化檢測可代替癌組織用于結直腸癌的早期診斷和篩查的結論[6]。楊帆團隊的研究表明,結直腸癌組織中Lgr5 和MIF 蛋白均呈明顯高表達,其可能與結直腸癌的發生、發展以及轉移存在密切相關[7],通過對上述因子的表達水平進行調控,可能是臨床上治療結直腸癌的新靶點。
從研究機構的數據來看,只有寧波市李惠利醫院、阿斯利康中國創新中心、第二軍醫大學東方肝膽外科醫院和解放軍第113 醫院這幾所機構有合作,其他機構基本是在獨立研究該領域的問題。從機構地域來看,發文量多的機構集中在北京和上海,且地區間合作較少。
從關鍵詞數據來看,“基因”一詞反復在文獻中出現,研究表明,某些基因突變可能在結直腸癌的發生、發展中起重要作用,而且與淋巴結轉移和肝臟轉移有密切相關,可作為判斷結直腸癌惡性程度的一個分子生物學指標[8]。
本此次研究借助CiteSpace 5.6.R4 軟件,對CNKI 上有關“結直腸癌生物信息”的1116 篇相關文章進行了文獻計量分析,為研究人員開展結直腸癌研究提供了參考。
圖6 2000-2019年結直腸癌生物信息文獻突發值提取的名詞術語圖
結直腸癌生物信息領域的研究熱度近年來有所下降。初期以蔡世榮團隊為主,主要研究裸鼠結直腸癌腫瘤生長和臨床病例分析[9],中期以李秋文團隊為主,主要研究一些特定基因甲基化在結直腸癌早期診斷中的應用[10]。后期以李世擁團隊為主,主要研究特定蛋白在結直腸癌組織中的表達及臨床意義[11]。
不同團隊和時期對該問題的研究角度方法均不同,也表現在團隊和機構間合作并不緊密,之前涌現的研究力量主要集中在生物信息方面,雖然總結了大量臨床病例,但尚未形成穩定的研究方向。這也提示我們,下一步關于結直腸癌的研究應該在總結臨床實踐經驗和研究生物信息的基礎上尋求突破點。