劉偉彥
(澳大利亞蒙納士大學 信息技術學院,澳大利亞 墨爾本 3800)
知識圖譜是通過數據挖掘、信息分析、計量和圖形繪制等一系列處理,來可視化地展現某一領域的知識的方法,能起到相關數據分析和知識導航的作用,2005年引入我國以來,在我國勃然興起并獲得長足的發展。
科學知識圖譜是以知識域(knowledge domain)為對象,顯示科學知識的發展進程與結構關系的一種圖像。它既是可視化的知識圖形,又是序列化的知識譜系,顯示了知識單元或知識群之間網絡、結構、互動、交叉、演化或衍生等諸多隱含的復雜關系,而這些關系正好表明了某些規律性和新的知識點。
知識圖譜是一種結構化的語義知識庫,其價值在于通過推理,實現對現有的字符串模糊匹配,實現概念檢索,同時,對非結構化知識,以圖形化方法,向運用人員展示經過分析、歸類、整理的知識,實現知識的結構化。CiteSpace 作為分析、挖掘和可視科研文獻數據的應用系統,通過分析尋找某一學科領域的研究熱點,選用頻次(Freq)和中心性(Centrality)進行知識圖譜分析。
考慮到免疫學的主要內容沒有具體的免疫活動,且為了保證數據的完整性與權威性,檢索條目為“免疫”“免疫學”。在中國知網上搜索相關內容能搜索出將近9 萬條相關文獻記錄。同時在進行時間相關的研究時,作者選擇以2003—2020年期間免疫學相關的研究領域進行研究,并以一年為單位進行時間切片,數據樣本選自中國學術期刊出版總庫(CNKI 總庫)。選擇相關性排序的前1 490 余篇論文作為研究素材,找出相關領域的研究熱點并轉化為可視化方式進行呈現,將此作為研究的主要對象。
關鍵詞一般能展示出論文的核心觀點,對于掌握相關領域熱點有相當大的幫助。為了了解免疫學在這段時間內的研究熱點和新興領域并預測學科未來走勢,作者對所有論文進行了爆發詞分析。具體操作為從中國知網查找2003年至2020年4月免疫學相關的文獻,排除會議摘要和報道等,以“主題詞=*免疫*or *免疫學*”進行檢索。共得檢索結果51 495 條,選擇相關性排序的前1 490 余篇論文作為研究素材,然后以refworks 的格式進行保存,找出相關領域的研究熱點并轉化為可視化方式進行呈現,并將此作為本次研究的主要研究對象。
這里以標題(title)、摘要(abstract)、作者關鍵詞(author keywords)和增補關鍵詞(keywords plus)作為聚類詞來源;聚類詞庫選擇爆發詞(burst terms);節點類型選擇關鍵詞(keyword),構建知識圖譜,結果如圖1所示。

圖1 關鍵詞分析知識圖譜
圖1關鍵詞分析知識圖譜顯示了2003年至2020年期間免疫學相關論文中高頻出現的關鍵詞。包含306 個節點,740條節點之間的連接。網絡密度0.015 9。出現次數較多的點由較大的節點表示。分析可知除免疫學、免疫外,疫苗、免疫細胞和免疫治療是出現次數較多且具有一定代表性的關鍵詞。這些關鍵詞可以大致反映出17年間免疫學涵蓋的研究范圍。由于其網絡密度較高,且大部分關鍵詞之間的連接都呈網狀我們可以推斷出這些不同的領域之間雖有較強的聯系。
知識圖譜的聚類分析可以將所有有關聯且屬于一個領域的知識點聚集起來形成聚類,以一個整體展現出來。這樣的顯示方式能更加明顯直觀地表現出學科構成和領域間的關系。
這里以標題(title)、摘要(abstract)、作者關鍵詞(author keywords)和增補關鍵詞(keywords plus)作為聚類詞來源;聚類詞庫選擇爆發詞(burst terms);節點類型選擇關鍵詞(keyword),進行關鍵詞知識圖譜的構建工作和聚類,結果如圖2所示。

圖2 免疫學聚類知識圖譜
圖2使用點來代表結點,使用線來表示關系。這張圖中一共包含622 個節點,874 條節點之間的連接。同時圖片以顏色的不同用以區分聚類的不同。我們可以看出免疫學是一門涵蓋領域相當多的學科在對數據進行聚類的時候,這里選擇的算法是基于目錄的聚類算法,該算法將免疫學分為11個類其中以涵蓋節點數量為評判標準最多的是免疫失敗、免疫治療、免疫、免疫學、免疫功能、免疫應答、體液免疫和免疫原性這幾個類別。
圖2與表1均為CiteSpace 用基于目錄的聚類算法進行的聚類分析圖。通過圖與表我們可以看出,免疫學的范圍非常寬泛,各個不同主題之間總是有很多聯系和共通點。總體呈現一種獨特的網狀結構。從包含節點數量來看,免疫失敗、免疫治療、免疫、免疫學、免疫功能、免疫應答、體液免疫和免疫原性是免疫學幾個主要內容。各個主要聚類相互重合的區域很大,可見各個學科之間聯系緊密,且經常有同時包含多個據類內容的中間學科,而免疫學這個整體也由這些小學科相互鏈接主要聚類構成。可以看出,這些聚類中也有少量僅與免疫學本身相關的獨立學科,如淋巴細胞凋亡和隱球菌的。

表1 關鍵詞共線網絡聚類表
對圖2的聚類圖譜進行爆發點分析即可得到關鍵詞突現圖,如圖3所示。進行結點分析可得表2關鍵詞共現網絡聚類表。

圖3 免疫學相關關鍵詞突現圖

表2 關鍵詞共現網絡聚類表
分析表2我們可以看出,免疫學和免疫在2013年出現,隨后于2014年左右又出現了免疫治療、免疫抑制等比較受人關注的新技術領域。在2020年之后,免疫學還迎來過一次教學改革,相關內容也受到了較高的關注。
由圖3的爆發點分析我們可以得到如下結論:免疫學的研究主流大致變化軌跡是乙型(2013—2017)、肝炎(2013—2016)、免疫機制(2013—2015),隨后是肝炎疫苗(2014—2016)和動物模型(2014—2020),之后再有兒童(2015—2020)和免疫(2015—2017),最后安全性(2016—2020)、嬰兒(2016—2018)、免疫反應(20916—2020。其中持續最久的研究內容是動物模型,一共維持熱點長達6年之久。未成年人相關的熱點出現過兩次。
可見在將來,“動物模型”可能繼續是教育相關的免疫學熱門研究領域,而研究熱點則會集中于系統性紅斑狼瘡、醫學免疫學、類風濕關節炎、病原生物與免疫學上。
為了更加直觀的顯示出聚類之間的聯系和時間關系,這里選擇利用CiteSpace 對免疫學聚類知識圖譜進行分析,得到關鍵詞時線圖譜如圖4所示。
如圖4所示,免疫學的各個領域中最受關注的,被論文調用次數最多的其實是免疫治療、免疫、免疫學、體液免疫和免疫原性。隱球菌相關的領域也經常被作為關鍵詞被引用。相關的熱點研究開始時間大都在2014年到2018年,只有基礎醫學和免疫學有較長的研究歷史。而在未來,免疫學相關的熱點研究可能主要集中于免疫治療、免疫、免疫學、體液免疫和免疫原性這兩門至今還是研究熱點的學科上。

圖4 免疫相關關鍵詞時線圖譜
免疫學是一門涵蓋范圍較廣,牽涉學科較多的科目。其主要的內容分為免疫學、免疫治療、體液免疫和免疫原性幾大塊。按照免疫學總覽聚類知識圖譜分析方法,對免疫學的其他關聯分支,同樣能進行深入分析。
醫學免疫學在17年間的研究領域內出現過大量的研究熱點。同時醫學免疫學近年來出現過微信平臺和翻轉課堂這樣迎合時代潮流的項目,可謂是與時俱進。預計將來的熱點研究將集中于微信公眾平臺、課程整合、翻轉課堂這幾個部分。
基礎醫學比較注重教育教學相關的研究,同時很多基礎醫學的論文也會提及基礎醫療保險的相關內容,可見兩者之間的緊密聯系。其下的影響因素和虛擬仿真技術相關研究預計在將來會有進一步的發展。
細胞免疫學十分平穩,但在17年里沒有大量爆發點,可見其內涵的領域大都已經被相當深入的研究過了。不過這些領域依舊被近年來的論文頻頻提起。在將來細胞免疫功能,巨噬細胞和癌癥相關的研究(如化療和胃癌)還會有新的發展。
這幾個主要內容之間又有特殊的關系。免疫治療、免疫功能之間的關系十分緊密,因為它們包含很多共同研究內容。而細胞學則是十分獨立的學科,它僅與免疫功能相關內容有少量交集。同時免疫學這門學科與信息技術,科技教育甚至醫療保險等其他領域的研究也有一定關聯。
免疫學作為一門古老而新興的學科如今依舊有相當活躍的表現,相關論文的發文量正穩步增長。從事免疫學研究的機構和個人也有很多。然而機構之間和作者之間的合作較為稀少,合作進行得不夠密切。總體呈現出一種部分集中,整體分散的狀態。這可能對部分研究的進行有負面作用。
在2020年左右,免疫學相關的教育教學發生了一些變化,在基礎醫學和醫學免疫學上有明顯表現。具體是基礎醫學教育方面的熱點結束,醫學免疫學隨即開始出現以改善教育教學為目的的研究。