楊 穎 楊立菁 徐 爽 許 丹 韓 爽 陳斯斯
(中國醫科大學圖書館 沈陽 110122)
1引言
學科發展情況是高校整體實力評價的重要因素,也是體現高校執教能力、辦學水平的重要標志,加強學科建設是高校可持續發展的必由之路,同時也是提高教育質量的重要途徑。“雙一流”建設視域下,高校相繼出臺“雙一流”學科建設方案。醫學高校圖書館承擔著學科服務重任,應把握“雙一流”建設契機,拓展醫學情報服務領域,其中為學校領導和發展規劃部門提供醫學戰略情報服務是創新發展的重要舉措[1]。醫學戰略情報研究有利于醫學科研人員把握“雙一流”學科重點領域發展方向,結合自身優勢, 開拓創新, 迅速獲取前沿熱點。圖書館學界針對“雙一流”學科建設戰略服務情報從理論研究到實證案例均有報道[2-3]。
學科發展戰略情報分析常應用信息計量學方法,包括共詞分析、共被引分析、引文分析等,以挖掘學科熱點前沿結構并通過可視化方式進行直觀展現[4-5]。可視化研究不局限于單一可視化圖譜,而是從多角度探索學科分布及發展。最常用到的共詞可視化——戰略坐標,用于揭示某學科領域內部聯系及領域間的相互影響情況;此外網絡分析方法展現出網絡在頂點相互作用下的分布狀況,以及網絡在時間序列下的動態演變。社會網絡分析可以通過UciNet、Pajek、NetDraw等軟件進行可視化,常用于探索科學研究中的合作關系網絡[6]、引用被引關系網絡[7]以及共詞關系網絡[8]。
不同的共詞分析圖譜從不同角度揭示學科發展情況:戰略坐標從宏觀角度闡釋學科核心熱點結構,而社會網絡圖譜是從微觀角度揭示核心主題。目前關于共詞分析圖譜的研究大多關注構建獨立圖譜、揭示不同問題,而忽略了圖譜之間相互關聯問題,如對戰略坐標宏觀結構的內部微觀狀況,即每個核心主題在熱點結構中的貢獻度、在熱點結構之間的互通關系均未能體現。本研究擬將社會網絡分析嵌入戰略坐標分析,揭示學科領域宏觀結構及微觀分布。
將免疫學科的ESI高被引論文作為數據源進行共詞分析、可視化分析。從方法上,一方面,突破傳統的以高頻詞對為研究對象的共詞聚類分析,擬對高頻詞-來源文獻的詞篇矩陣進行雙向聚類;另一方面,突破社會網絡分析和戰略坐標的單一圖譜分析,擬將社會網絡分析嵌入戰略坐標分析,捕捉內部潛在知識內容,分析免疫學科的宏觀結構及其內部主要貢獻的核心主題構成。
在探索學科結構及趨勢演變計量分析中,數據選擇對分析結果至關重要。通常情況下原始數據選擇有以下幾種情況:全面選擇數據[9]、核心數據[10]、熱點數據[11]等。目前對熱點數據隱藏知識的挖掘受到廣泛關注。ESI高被引論文是被引用量排在前1%的研究論文,反映近年來某學科高質量、高水平的重要科研成果。針對高被引論文的統計分析,相關文獻[12-15]分別對高被引論文進行學術特征、國際合作情況、文獻計量及知識圖譜研究。未見對ESI高被引論文高頻詞對和來源文獻同時進行聚類分析熱點結構和前沿內容的文獻。本文選擇Web of Science核心合集數據庫,檢索式為WC=immunology,再通過“ESI精煉”,發表年份限定為2015-2018年,文獻類型限定為article和review,即該領域4年來的ESI高被引論文824篇,在PubMed下載xml格式文件作為數據源。
利用書目共現分析系統(Bibliographic Item Co-Occurrence, BICOMB)分析PubMed數據庫下載的免疫學文獻,統計其主要主題詞出現頻次,抽取頻次≥8的48個高頻主題詞并生成這些高頻詞與來源文獻的詞篇矩陣。利用gCLUTO軟件完成對詞篇矩陣的雙向聚類,生成聚類圖譜和山丘圖譜。通過聚類結果和共詞矩陣在Excel中繪制共詞戰略坐標。利用Ucinet和Netdraw繪制社會網絡分析圖譜,最終將社會網絡分析結果嵌入戰略坐標圖中,實現共詞可視化圖譜整合。
3.1.1 可視化山丘 根據每個類內數據分布得到山峰圖,見圖1。其高度與類內相似度成正比,類內相似度大則山丘陡峭。其體積與類內對象數量成正比。紅色代表低類內相似度標準差,藍色代表高類內相似度標準差。圖1中cluster 0類內高頻詞相似度最高,表明類內高頻詞具有高度一致性。圖中7個山峰各自獨立,高度與體積適中,聚類效果較理想。

圖1 可視化山丘
3.1.2 雙聚類可視化矩陣 可視化矩陣分別從行和列兩個維度展示高頻詞和來源文獻的聚類結果,見圖2。聚類圖形的行聚類(圖的左側)表示高頻詞分類,圖的右側列出相對應的高頻詞,橫線將每個類隔開,一共分為7類;聚類樹圖的列聚類(圖的上方)表示來源文獻的聚類,圖的下方對應列出所代表的來源文獻。可視化矩陣中顏色代表矩陣原始數據值,白色表示近零值,紅色表示較大的值,圖2中顏色的深淺表示高頻詞出現的頻次。矩陣的行重新排序使得同一組的行聚在一起。

圖2 ESI高被引論文可視化矩陣
3.1.3 熱點結構分析 通過對ESI免疫學領域高被引論文的二分法聚類得到聚類樹圖。圖1顯示該學科領域的熱點結構分為7類。根據主題詞構成,見表1,結合7類代表性文章總結出7個熱點結構。(1)腫瘤免疫治療。免疫學的一個重要分支,免疫療法已成為腫瘤治療的重要手段。PD-1是免疫檢查點研究熱點。該類主要涵蓋探索新的腫瘤免疫檢查點、T細胞耗竭、新的腫瘤免疫抑制細胞亞群以及腫瘤免疫治療新策略等方面內容[16-17]。(2)艾滋病疫苗的免疫學。艾滋病疫苗開發從體液免疫到細胞免疫再到兩者結合不斷推進。Abbott R K、Lee J H和 Menis S等[18]將具有種系VRC01 B細胞受體的B細胞轉移到同類受體中,闡明前體頻率、抗原親和力和親合力對免疫后B細胞應答的作用。Vinuesa C G、Linterman M A和Yu D等[19]介紹濾泡輔助T細胞引發B細胞啟動卵泡外和生發中心抗體反應,對親和力成熟和體液記憶的維持至關重要。(3)B7-H1/程序性細胞死亡1受體抑制途徑與效應T細胞功能關系,治療人類免疫缺陷病毒(Human Immunodeficiency Virus,HIV)感染的機制。B7-H1與其受體PD-1結合降低腫瘤細胞免疫原性,誘導細胞毒性T淋巴細胞(Cytotoxic T Lymphocyte,CTL)凋亡,促使免疫細胞發生逃逸。PD-1是腫瘤免疫抑制的明星分子,也有其與HIV感染的免疫機制研究。Philips G K和Atkins M[20]介紹兩者抗腫瘤的治療用途。未來研究將傾向于此方法的生物標志物,以及如何單獨或與其他免疫療法、放射療法、化學療法和小分子抑制劑聯合使用。(4)脫敏方法及免疫學機理。脫敏療法能通過改變過度活躍的固有免疫應答產生免疫特異性的記憶性Th2細胞,使外周血中高表達的細胞因子水平恢復至正常,降低高敏反應和炎性反應,達到緩解和治療的目的[21]。(5)寨卡病毒感染致中樞神經系統損傷的免疫機制。寨卡病毒感染相關神經系統損傷主要有吉蘭-巴雷綜合征和小頭畸形。通過逆轉錄-聚合酶鏈反應可診斷寨卡病毒感染,影像學檢查可提高合并中樞神經系統(Central Nervous System,CNS)并發癥診斷的準確率。然而目前尚無針對寨卡病毒感染的特效藥物及疫苗。(6)自身免疫性疾病、腫瘤的免疫學機理以及炎癥和感染的免疫學。炎性小體和細胞因子參與炎癥和自身免疫相關的許多先天免疫過程。從研究自然殺傷細胞(Natural Killer Cell,NK)記憶中獲得基本概念,提供關于先天免疫的新見解,可能為傳染病和癌癥治療提供新策略[22]。(7)免疫調控中的細胞分化與信號轉導過程。免疫細胞的發育涉及轉錄因子、細胞信號傳導蛋白和生長因子的復雜相互作用。研究發現microRNA是先天免疫細胞發育、功能以及免疫穩態維持的關鍵調節因子[23]。

表1 免疫學熱點結構及其主題詞構成

續表1
本研究得到共詞戰略坐標:位于第1象限的有詞團5和詞團0,位于第2象限為詞團3,位于第3象限的是詞團4、6與2,位于第4象限的是詞團1,見圖3。

圖3 共詞網絡的戰略坐標
3.3.1 原始共詞矩陣圖譜 原始共詞矩陣圖譜展現了高頻主題詞的共現關系:每個節點代表高頻主題詞,大小與其在共詞網絡中出現的頻次成正比;主題詞之間連線表示有共現關系,粗細表示聯系的緊密程度,直觀體現出詞對之間的關系,見圖4。節點1最大,說明腫瘤免疫出現的次數最多,節點5、節點7、節點16之間連線粗,說明其共同出現的頻率大。

圖4 原始共現網絡
3.3.2 K-core分析 圖5中展現了免疫學高被引論文共詞網絡的核心邊緣主題。得到8個K核等級,K的最高級數為8,即在K=8的核中每個詞都最少和同一個核中其他詞共同出現的次數≥8,是整個共詞網絡中連接最強、關系最緊密的部分,包括位于中間的紅色節點,代表最核心的主題。K<8時,按降序依次代表次核心、中間主題和邊緣主題,用藍色、灰色、黑色、湖藍、粉色、草綠色和翠綠色表示。
3.4.1 原始共詞網絡與戰略坐標相互嵌入 將每個節點賦值(標上類號),按照戰略坐標分布,在社會網絡圖中加入坐標軸,將相同類別的詞放置到一起,得到高頻主題詞原始共詞矩陣。戰略坐標排列的網絡圖可以清晰地顯示出戰略坐標中類間與類內各主題之間的關系,見圖6。

圖6 原始共詞網絡與戰略坐標相互嵌入
3.4.2 K-core共詞網絡與戰略坐標相互嵌入 用不同顏色標識核心邊緣程度,在戰略坐標中的位置標識核心成熟程度,將戰略坐標結果(成熟度-核心度)與社會網絡分析中的K核分析結果(核心-邊緣)相結合,見圖7。結合后的K核分析可以看到核心邊緣主題詞在每個聚類的類別中,而每個類別的成熟程度在戰略坐標中已經體現出來。

圖7 K-core共詞網絡與戰略坐標相互嵌入
圖3顯示第1象限中的詞團5密度高,表明炎癥和感染免疫機理內部聯系最緊密;詞團0向心度最高,表明腫瘤免疫治療與其他詞團聯系較廣,處于研究主題核心。第2象限中的詞團3處于近原點位置,表明致敏與脫敏雖位于邊緣位置但已經受到關注,有望進入第1象限。第3象限的詞團密度和向心度都較低,處于研究領域邊緣,研究尚不成熟。第4象限的詞團1中心度高但密度低,說明腫瘤免疫治療構成的主題領域也是核心,但不成熟。
原始矩陣的共詞網絡圖與聚類及戰略坐標相結合后,清晰展現出免疫學領域學科結構類間與類內各主題之間的關系。第1象限中類團5和類團0內的各類內、類間的連線明顯比第3象限中類內、類間的連線多且粗,說明炎癥與感染免疫機理及腫瘤免疫治療內部鏈接和外部鏈接均多于其他類團。戰略坐標中的向心度越高的類別,在社會網絡圖譜中與其他類別連線越多、越粗;戰略坐標中密度越高的類別,類內各個主題間的連線越多、越粗。例如圖6中的第5類,主要由1號主題詞貢獻了向心度,同時1號主題詞與本類中其他主題詞連線最粗,貢獻了密度,腫瘤免疫是整個領域中最為關鍵的方向;第0類,主要由5號主題詞貢獻了向心度,其與7號、16號主題詞最密切、連線最粗,貢獻了此類的密度。整合結果更有利于解讀,能夠直觀地看出類內、類間每個詞的關系及其對向心度、密度所起的作用。
戰略坐標結果(成熟度-核心度)與社會網絡分析中的K核分析結果(核心-邊緣)相結合后,可以明顯展示出核心領域宏觀結構中微觀主題的分布情況,挖掘出每個核心-非核心結構中的關鍵因素,清晰展現出該學科研究熱點的層次及熱點詞的關系,見圖7,聚類第5類的1、2、14、39主題詞,聚類第0類的5、6號主題詞為核心研究熱點,顯示出每個詞的地位及與其他詞的關系。
雙聚類分析可以反映出高頻詞與來源文獻的對應關系,用于某學科領域的學科熱點結構和近期前沿研究。基于以免疫學為樣本的共詞分析,繪制聚類樹圖展現某學科領域的主題結構、戰略坐標,描繪各個研究主題在整個學科結構上的重要性或特性、社會網絡圖譜以進一步展現出主題內部關系。不同可視化結果的相互嵌入可多方位展現學科結構的發展過程,宏觀結構與微觀分布一目了然,增強可視化圖譜的易讀性,各種方法相互補充可以指導專業人員了解學科結構及前沿分布,幫助決策層規劃學科布局,調整學科方向,促進學科發展。