肖邦福,李彥超,陳敏(通信作者*),靳蓉,王頔,徐慧,孫永烽,張昌,邵曉珊
(1.貴陽市婦幼保健院,貴州 貴陽 550003;2.畢節市第一人民醫院,貴州 畢節 551700)
囊性纖維化(Cystic fibrosis,CF)是一種常見的致死性常染色體隱性遺傳性疾病,是由于囊性纖維化跨膜傳導調節蛋白(Cystic fibrosis transmembrane conductance regulator,CFTR)的 基因發生突變引起CFTR蛋白的編碼功能缺陷,從而導致外分泌腺功能紊亂,常常累及全身多個器官,如肺臟、肝臟、汗腺、腸道及胰腺,以呼吸系統損害最為突出,其臨床癥狀主要表現為慢性咳嗽、肺部反復感染、腹瀉、生長發育遲緩、男性不育等[5,7]。CFTR蛋白是由環磷酸腺苷 (cyclic adenosine monophosphate, cAMP) 激活的氯離子 (Cl-) 通道,從而在外分泌腺導管上皮細胞的頂膜上介導Cl-及HCO3-的跨膜轉運,引起外分泌腺體功能異常,導致汗液中Na+、Cl-濃度異常增高[20]。CF治療的主要目標是防止感染,減少肺部分泌物的量和黏稠程度,改善呼吸,維持足夠的營養等[16]。
Citespace是一款由陳超美教授研究、開發的軟件,通過對數據庫相關文獻的收集,借助Cites pace軟件對其機構、關鍵詞、作者等內容的進行可視化分析,探求某一領域的研究熱點及前沿動態[12]。現已熟練并廣泛地應用于醫學,并不斷研究該領域的研究熱點、演變過程、前沿動態等。再者,通過R軟件對GSE40445數據集進行差異性基因的分析,了解CF中相關基因的表達情況。本文利用CiteSpace、R軟件的相關功能,對我國囊性纖維化進行分析,以期為了解其發展、變化情況。
本研究中,中文數據來源于中國知網(China Knowledge Network,CNKI)數據庫,以“囊性纖維化”為主題進行數據收集,獲取相關文獻577篇;英文數據來源于Web of Science核心數據庫(WoS),以“cystic fibrosis”為主題,并選擇來源于中國的文章,得到相關文獻1427篇。時間:2002年1月到2021年12月。
在GEO數據庫(gene expression omnibus,GEO)中,以“cystic fibrosis”為關鍵詞進行檢索,數據的研究類型為“Expression profiling by array”,種屬為“Homo sapiens”,下載編號為 GSE40445的CF(肺部)相關基因表達。數據集基于GPL10097平臺(Custom Affymetrix HsAirway array),包含5個CF和5個非CF,CF組男性2例,女性3例,平均年齡14歲;非CF組男性3例,女性2例,平均年齡14.8歲。使用GEOquery軟件包獲取這些表達數據集的微陣列信息。
將導出的數據以“download_***.txt”的格式存入Citespace指定的文件下,時間跨度設置為2001-2021年,每1年為1個時間切片,條件設置為 Pathfinder、Pruning sliced networks,其余設置均為默認設置,分別選取作者、機構、關鍵詞等生成各自的可視化圖譜。生成的圖譜中節點連線的粗細與共現程度成正相關,節點大小與出現頻次成正相關,顏色越鮮艷則代表近年研究的成果,節點圓圈層代表年輪[3,4,8]。聚類模塊值(Modularity Q)>0.3的聚類認為是顯著的,聚類平均輪廓值(Mean Silhouette)>0.5的聚類通常認為是合理的,而其值(S)>0.7聚類則認為令人信服的[8]。
使用R軟件 (R 4.1.0版,https: //www.r-project.org/)中的GEOquery軟件包對GSE40445中的兩組數據進行標準化處理。同一基因有多個探針時計算其均值,根據注釋信息將探針轉換成相應的基因,去除沒有對應基因的探針。使用R 4.1.0中的limma軟件包,對數據進行整理、規范化及注釋轉換[11]。并通過用R軟件中“pheatmap”軟件包和“ggplot2”軟件包對差異基因進行熱圖和火山圖的繪制。
近20年相關文獻的發表雖有波動,總體上呈現出穩定增長趨勢,在2005、2006年英文文獻發表量低于中文文獻,其余年份均等于或超過后者,甚至在2018年達到高峰(約158篇);近三年來,中文文獻在該領域呈現出下滑的趨勢。見圖1。

圖1 2022年-2021年囊性纖維化的發文量
對“作者”進行分析,進一步探知該領域主要研究者人員、團隊協助關系等特點。該圖譜包含496個節點、868條線,網絡密度0.0071,共納入作者489位,作者間合作尚可,其中發文量前5的作者為于波、侯婷婷、任閃閃、楊紅及劉俊(并列)、劉燕,發表文獻數量分別為25篇、19篇、16篇、14篇、13篇,共101篇;其中發表文獻數量≥5篇20位,共202篇。見圖2。

圖2 囊性纖維化主要作者合作關系網(中文文獻)
對納入機構進行分析,研究機構主要分布在國內各大學及其附屬醫院、軍區醫院,通過對比各機構文獻發表量可間接反映出其對該領域內的學術研究程度。在該領域中,發文量排前4的機構為中南大學及其附屬醫院(79篇)、中國人民解放軍聯勤保障部隊第九一〇醫院呼吸科(19篇)、國家兒童醫學中心/首都醫科大學附屬北京兒童醫院呼吸二科(15篇)、株洲市中心醫院/中南大學湘雅醫學院附屬株洲醫院產科(13篇)、河南中醫藥大學中醫藥科學研究院河南省中醫方證信號傳導重點實驗室(11篇)。該圖譜包含373個節點、104條線,網絡密度0.0015,密度偏低,表示機構間的合作與聯系關系欠佳。見圖3。

圖3 囊性纖維化主要機構合作關系網站(中文文獻)
關鍵詞共現分析是利用可視化知識圖譜,對關鍵詞的進一步分析,明確該領域的研究熱點、發展趨勢。關鍵詞聚類圖譜包含513個節點、976條線,網絡密度 0.0074,Modularity Q為 0.74,Mean Silhouette為0.52。主要聚類為囊性纖維化跨膜傳導調節因子、肺囊性纖維化、支氣管擴張、CRTF等。見圖4。在時間線視圖中,在同一水平線上顯示相同聚類的文獻,其線條越粗表示其文獻越多,更能體現在該領域的地位。通過時間線視圖可進一步體現了囊性纖維化跨膜傳導調節因子、肺囊性纖維化、支氣管擴張之間的聯系;在進展時長方面,三者研究主題持續時間最長,長20達年之久,見圖5。近年來該領域突現次有5個,為支氣管擴張(5.65)、兒童(5.59)、哮喘(3.70)、非囊性纖維化支氣管擴張癥(3.48)、激活劑(3.23)。對于支氣管擴張、哮喘等肺部疾病方面的研究越來越多,在兒科疾病的診斷、治療等過程的研究不斷深入,以提高患兒的生存質量。見圖6。

圖4 囊性纖維化關鍵詞主要聚類分析(中文文獻)

圖5 囊性纖維化時間線圖譜(中文文獻)

圖6 囊性纖維化關鍵詞突現(中文文獻)
對“作者”進行分析,進一步探知本領域主要研究者人員、團隊協助關系等特點。該圖譜包含715個節點、1567條線,網絡密度0.0061,共納入作者715位,作者間合作尚可,其中發文量前5位 的 作 者 ChanHsiao Chang、Yang Hong、GuanWeijie、Ma Tonghui、Chen Rongchang 及 Zhong Nanshan(并列),發文量分別為 53、25、22、20、19,共139篇。其中發表量≥5篇10位,共588篇。見圖7。

圖7 囊性纖維化主要作者合作網絡(英文文獻)
對納入機構進行分析,研究機構主要分布在國內外各大學及其研究機構,通過對比各機構文獻發表量可間接反映出其對該領域內的學術研究程度。在該領域中,發文量前5機構分別為中國香港大學、中國科學技術研究院、四川大學、中山大學、上海交通大學,該圖譜包含493個節點、1375條線,網絡密度0.0113,密度尚可,表示機構間的合作與聯系關系可進一步提升。見圖8。

圖8 囊性纖維化主要機構合作網絡(英文文獻)
關鍵詞聚類圖譜包含673個節點、2419條線,網絡密度0.0107,Modularity Q為0.52,Mean Silhouette為0.66。主要為銅綠假單胞菌、囊性纖維化跨膜調節因子、小分子核糖核酸、基因傳遞及表達等。見圖9。在時間線視圖中,在同一水平線上顯示相同聚類的文獻,其線條越粗表示其文獻越多,更能體現在該領域的地位。在進展時長方面,銅綠假單胞菌、囊性纖維化跨膜調節因子、小分子核糖核酸等研究主題持續時間最長,有20達年之久,體現了銅綠假單胞菌在該領域的影響之大;隨著生物信息學的發展,基因的傳遞及表達將進一步解釋相關疾病的發展。見圖10。排名前5的突現詞為陰離子分泌(7.32)、氯化物通道(6.63)、定 位(4.89)、激 活 劑(3.53)、離 子 運輸(3.24)。見圖11。

圖9 囊性纖維化關鍵詞主要聚類分析(英文文獻)

圖10 囊性纖維化時間線圖譜(英文文獻)

圖11 囊性纖維化關鍵詞突現(英文文獻)
從GSE40445數據集中共獲得到10個樣本的芯片檢測數據。依據標本不同,分為CF組和非CF組。篩選標準為:|log FC|≥1且調整后P<0.05的基因作為差異基因(DEGs),分別對其進行火山圖及熱圖的繪制。在火山圖中,獲得298個DEGs,包括122個上調基因和176個下調基因。在熱圖中,按照調整后P值大小進行排序,前20個基因 為、EPHX1、FRMD4B、PLD3、BANF1、TJP1、TP53AP1、TETRAN、AES、C2orf17、CUEDC2、NUCB2、GSDMDC1、RPS6KB1、RAB22A、IFNGR2、IFI16、IFRD1、FLNC、MRPL40、INSIG1。見圖12。

圖12 囊性纖維化組與非囊性纖維化差異性表達基因火山圖和熱圖
相關文獻發表量呈現出增長趨勢,而在2014年以后中外文文獻年發表量均超過100篇,在2018年達高峰;在作者網絡分析中,網絡密度尚可,團隊內部合作較為緊密,但各團隊間聯系相對缺乏,部分優秀學者,如楊紅,在國內外期刊均有文章發表;在機構網絡分析中,其合作模式相對單一,主要體現在各高校內部及附屬醫院,不同高校間合作相對偏少,在中文文獻中更為突出;在關鍵詞分析中,中文文獻以支氣管擴張、兒童、哮喘及肺囊性纖維化等為主聚類或突現,體現了中文文獻以兒童、疾病為主要研究方向,而外文文獻則以陰離子分泌、氯化物通道、激活劑、通路假單胞菌、基因的傳遞與表達等為主聚類或突現,體現其對病原菌、疾病的研究更為深入,如細胞水平的研究;利用R語言對CF進行生物信息學分析,得到298個DEGs,包括122個上調基因和176個下調基因,RAB22A、INSIG1、IFRD1、IFI16等基因可能是加重CF病情進展的基因,NUCB2、TETRAN、CUEDC2等基因可能是減緩CF病情進展的基因。而近年來對囊性纖維化的病因、機制及基因學的研究進一步深入。
CF累及呼吸系統引起肺囊性纖維化,呼吸衰竭則是其最主要的并發癥,也是患兒死亡的主要原因,早期診斷有利于患兒獲得科學的營養指導,促進生長發育,延緩肺功能惡化[2]。
目前肺囊性纖維化的發病機制雖尚未完全清楚,但被普遍認為是多種因素相互作用的結果,如遺傳和環境因素,以反復發生的局部肺泡上皮微損傷為關鍵環節,而顆粒、粉塵則加劇病程的進展[9-10]。遺傳因素:CFTR在上皮細胞內是一種氯離子介導的通道蛋白。正常氣道上皮均表達出鈉通道、CFTR相關氯離子通道、鈣離子激活的氯離子通道等,共同作用促進鈉離子吸收和氯離子分泌,并使得呼吸道表面液體(ASL)達到一定的厚度(約7μm),浸潤在ASL中纖毛,有規律擺動,從而可清除ASL表面的黏液。CF患者位于氣道上皮細胞的CFTR蛋白發生突變,使得離子分泌減少、鈉離子吸收增加,從而導致ASL厚度減少,纖毛擺動受到一定程度的影響,黏稠的分泌物不能及時被排出,容易引起細菌滋生,繼發各種感染[15,19]。
有學者認為:肺囊性纖維化以反復的肺部細菌感染、氣道壁增厚以及分泌物異常增多為特征[1]。國內學者發現,反復下呼吸道感染、治療效果欠佳,可考慮特殊病原菌的感染,如銅綠假單胞菌,肺囊性纖維化在兒童易感性,確診主要依賴于基因檢測、汗液試驗[16-17]。甚至有學者認為:肺囊性纖維化與自噬有一定的關系,小鼠模型在肺部感染銅綠假單胞菌后,自噬相關mRNA的表達水平在短時間內(1周)可明顯升高,后恢復正常,說明自噬活動在PCF早期增強,但隨著病情進展機體自噬活動被抑制[6]。此外,CFTR與多種疾病的細胞凋亡關系密切[14,18]、CFTR可調節與氧化應激相關的細胞凋亡[13]。
本研究通過文獻計量的可視化分析,展示了近20年囊性纖維化領域發展情況,掌握該領域的前沿動態、熱點問題及發展方向;利用GEO數據庫,了解囊性纖維化相關基因表達情況,研究引起該病的關鍵基因及靶點;加強疾病認知、研究水平,對疾病進行早期識別、診斷,減緩疾病的進展,延緩患兒的中位生存時間,提高患兒的生存質量等等,可能是該領域未來發展的趨勢,應進一步深入。
本文局限:本研究僅僅收集我國學者在中國知網數據庫、Web of Science核心數據庫發表的相關研究文獻,研究具有一定的局限性。