佟佳益, 鄭改改, 王 宇, 楊巧芳
(1. 河南中醫藥大學 護理學院, 河南 鄭州, 450000; 阜外華中心血管病醫院, 2. 心力衰竭科,3. 護理部, 河南 鄭州, 451464; 4. 鄭州市心血管疾病護理重點實驗室, 河南 鄭州, 451464)
人工智能(AI)是一種通過編程設定系統指令來模擬并增強人類智力的智能化系統,能夠從數據中提取知識并應用知識來解決問題[1]。目前,國際醫學AI領域的相關研究高速發展, AI在突發衛生事件和遺傳類疾病預防和控制方面展現出至關重要的輔助作用,且相較于傳統方法更精確、及時。隨著數字經濟和互聯網產業的深入發展, AI技術在醫療大數據統計、智能交互和圖像處理等領域展現出巨大的潛力和優勢[2-4], 但其存在的社會倫理復雜性以及臨床應用的精確性還有待進一步考量[5]。近年來,醫學AI領域的研究正蓬勃發展。然而,現有關于醫學AI領域的文獻計量學研究[6-7]大多發表時間較早,對于該領域的研究熱點及其未來發展趨勢存在一定的滯后性,且鮮有通過雙聚類方法深入探討AI在醫學領域研究熱點屬性之間相關性的研究。因此,本研究采用雙聚類方法對醫學領域中AI技術的應用研究進行分析,旨在為未來中國醫學AI領域的縱深研究提供參考依據。
本研究以Web of Science核心合集[8]作為數據來源,采用主題式檢索方式,檢索式如下: “TS=(artificial intelligence OR AI AND Medicine OR Medical)”, 檢索年限為建庫至2022年12月31日。為了消除誤差,采用數據庫中的篩選功能,將語言限定為英語,“文獻類型”類別選擇article和review,“研究方向”類別中對非醫學相關的文獻進行人工剔除后得到文獻9 076篇。將上述文獻以純文本的全記錄與引用格式導出至NoteExpress, 排除重復發表文獻,并使用Co-Occurrence13.4[9]提取文獻的關鍵詞字段,去除缺失關鍵詞的文獻,最終納入有效文獻7 803篇。
使用Co-Occurrence13.4對納入文獻的關鍵詞進行頻次統計,選擇排名前30位高頻關鍵詞生成詞篇矩陣,將詞篇矩陣導入gCluto進行雙向聚類,聚類方法(Cluster Method)選擇Regeated Bisection, 相似性(Similarty Function)選擇Cosine, 聚類數量及效果由類內相似度、類間相似度結果及專業知識結合分析確定。根據gCluto聚類結果繪制戰略坐標圖,圖中縱坐標為密度,代表每一類別內主題詞之間的緊密程度,橫坐標為向心度,代表不同類別主題詞之間的緊密程度,類別內的研究之間聯系越密切,則密度越大,一類研究與別類研究之間的聯系越密切,則向心度越大[10]。
2.1.1 發文時間分布: 自1991年以來,AI在醫學領域應用的發文量呈逐年上升趨勢。第1階段(1991—2008 年): 初步探索階段; 第2階段(2009—2022年): 加速發展階段,其中受新型冠狀病毒感染疫情的影響,2020—2022年AI在醫學研究領域的發文量呈爆發式增長,見圖1。

圖1 AI在醫學研究領域的年發文量變化情況
2.1.2 發文期刊和國家、機構分布: 分析結果顯示,主題領域內發文分布排名前5位的期刊分別為:PlosOne(184篇)、ScientificReports(166篇)、Diagnostics(111篇)、JournalofMedicalInternetResearch(94篇)、Cancers(66篇); 發文量累計最多的國家為美國(2 966篇,占比38.00%), 其次為中國(1 223篇,占比15.67%)和英國(777篇,占比9.96%)。發文研究機構分析顯示,共有10 072個機構參與醫學AI研究,其中發達國家發文量首位的機構為Harvard Med Sch(148篇),其次是Univ Washington(140篇)、Mayo Clin(108篇)。發展中國家發文量首位的機構為上海交通大學(76篇),其次是中山大學(73篇)、華中科技大學(65篇)。
使用Co-Occurrence13.4對納入文獻的關鍵詞按照詞頻分界法確定頻次,將高頻同義詞進行合并后最終形成17 777個關鍵詞,根據主題領域特定背景信息設置關鍵詞頻次>124次,最終共得到高頻關鍵詞30個,并形成雙聚類高頻詞表,見表1。

表1 AI在醫學研究領域的雙聚類高頻關鍵詞
gCluto聚類工具包提供了一種可以生成高頻關鍵詞雙向聚類及山丘圖(圖2)的可視化方法,可用于探索主題領域內的研究熱點及趨勢[11]。本研究中,代表高頻關鍵詞共生成6個類屬,分別為AI與衛生保健應用的研究(類屬0)、AI與疾病轉歸關系的研究(類屬1)、AI與疾病全程監測應用的研究(類屬2)、AI輔助癌癥診斷鑒別的研究(類屬3)、AI與預測模型構建及效驗的研究(類屬4)、AI與生物標志物鑒別診斷的研究(類屬5),聚類結果見圖3。聚類山丘中,峰頂顏色與聚類內標準差呈相關性[12], 由紅色、綠色、藍色,依次代表標準差低、適中、高。結果顯示, 2、5聚類山丘呈現紅色,表明聚類內關鍵詞高度相似; 0、1、3、4聚類山丘呈綠色,表明聚類內關鍵詞相似度適中。山丘圖成像結合專業知識對聚類結果進行分析,所生成的聚類類內相似度、類間相似度指標合理。聚類0至聚類5的類內相似度(ISim)分別為0.327、0.304、0.278、0.247、0.245、0.206, 類間相似度(ESim)分別為0.038、0.033、0.032、0.028、0.029、0.013。根據高頻詞的聚類結果繪制出戰略地圖以協助分析主題領域內研究熱點及研究聚合程度,具體結果見圖4。

圖2 醫學AI研究高頻關鍵詞聚類山丘圖

圖3 醫學AI研究高頻關鍵詞雙聚類分析圖

圖4 醫學AI研究趨勢戰略坐標圖
醫學AI領域研究近3年處于高速發展階段。中國相繼發布的“中國制造2025”和“健康中國2030”等系列方針政策和規劃綱要,將AI列入國家發展戰略的重要組成部分,大力支持AI在醫學領域的發展[13]。同時,隨著全民健康和科技創新發展的需要不斷增加,以AI為基礎的智能化醫療已成為實現這2個目標的重要組成部分之一[14]。患者在切身體會AI帶來的精準、科學醫療服務的同時,也提升了對醫學AI的接受程度,進一步推動了AI在各行各業的廣泛應用[15]。本研究結果可見, AI在醫學領域應用研究的全球發文量呈逐年上升趨勢,尤其是近3年主題領域內發文量呈爆發式增長。其中,研究主題領域內發文量排名靠前的國家多為發達國家,中國為發文量位居首位的發展中國家,可能與國內外相關政策導向助力推進醫療技術信息化、智能化發展有關[16]。
聚類分析結果可見,類別0、1、2研究集中于AI應用于公共衛生事件的研究,主要涉及流行病學及衛生保健方向,從探索疾病的風險因素延伸至轉歸、結局及影響因素等。山丘圖與戰略坐標圖結果可見,該類山丘內變異度較小,研究人群相對集中。相關研究[17]表明,在AI技術的支持下,醫療數據統計效率及精確度逐步提升,同時優化了數據的可用性。在新型冠狀病毒感染疫情期間,醫護人員利用數字化預測模型,精確篩查疫情傳播鏈及易感人群[18], 對高危人群進行個體化防控,有效降低了疾病的傳染風險,為控制疫情提供了有效保障[19]。此外,利用AI技術為易感人群制訂個性化電子病歷,在傳統影像學成像系統的基礎上進行數字化圖像轉換[20], 不僅提高了肺炎類型的檢疫精確度及特異性[21], 而且將感染風險及治療轉歸進行智能化預測分析,在優化醫療資源分配的基礎上,改善了患者疾病轉歸及臨床預后[22-23]。由此可見, AI技術的遠程可控及信息擴展屬性在預防和控制公共衛生突發事件中發揮了至關重要的作用。
戰略坐標圖分析結果顯示,類別5研究在密度和向心度上表現最高,表明該類研究與主題領域內其他相關研究之間存在密切關系。同時,結合類別內關鍵詞和既往研究[24], 可以推斷類別5與研究人群固定的類別3之間存在緊密關系。目前,基于AI的檢測技術已應用于基因檢測及早期惡性腫瘤篩查,且在輔助診斷癌癥及分型研究中已取得確切效果[25]。其中,蛋白檢測及基因測定在臨床實踐中同屬于生物標志物檢測,該類檢查屬于無創性檢測,對于確定疾病機制、實施個性化管理提供了可行性[26]。YANG D等[27]基于AI算法開發的GEM基因診斷技術,實現了自動化檢測,提高了遺傳基因亞型的檢測及診斷的檢查效率及精準性,有效解決了傳統檢驗方法因時間和成本限制引起的相關風險性問題。同時,利用生物檢測模型對中樞基因進行生存分析,鑒定靶基因與腫瘤免疫力之間的關系,為惡性腫瘤的鑒別診斷提供了重要依據,提高了對惡性腫瘤患者生存預測的精準性[28-29], 為早期惡性腫瘤的篩查和個性化管理提供了新思路和方法。此外,癌癥的分子分型決定了治療方式的選擇。MITSALA A等[30]利用AI技術開發出結腸癌分型系統,確定了不同類型結腸癌的基因表達,進一步證實了結腸癌細胞異質性及生物學分型指標,為精確癌癥分型及鑒別診斷提供了有力支持[31]。
類別4屬于基于AI的預測模型構建及檢驗,結合山丘圖和戰略坐標圖可見,此類別類內差異較大,且密度最低,提示相關研究相對較少,未來應加強該類研究,為醫學領域內疾病預測模型的構建及檢驗提供參考。相關研究[32]已證實,基于AI算法的疾病預測模型能夠為臨床提供決策支持,提高醫學診斷的特異性及敏感性。相較于傳統的疾病預測方式, YE S Y等[33]構建了基于AI的心肌梗死風險預測模型,具備更高的準確性和及時性,能夠有效降低院內心肌梗死的風險,改善患者的臨床結局。此外,對于早期癌癥患者而言,通過疾病預警模型篩查和管理影響其生存質量的高危因素及癌病變風險,能夠指導臨床醫生為患者制訂個性化的管理及治療策略[34], 尤其胰腺癌這類早期無明顯癥狀且生存率較低的惡性腫瘤的診斷尤其受益。基于AI的疾病預測模型不僅為胰腺癌早期診斷提供了更準確的結果,同時降低了因篩查遺失率所導致的風險[35-37]。因此,加強基于AI的疾病預測模型構建及驗證,對提高患者的臨床預后具有非常重要的意義。
目前,國外醫學研究由AI向深度機器學習、納米機器人等輔助臨床診斷和治療技術逐步發展,但其因涉及倫理問題,還需要各國研究者結合實際國情進行深入探討。中國在順應國情及政策支持的前提下,未來應增加多學科、機構間的交流合作,推動AI技術在醫學診斷以及疾病預測模型構建等領域的發展。此外,本研究僅納入Web of science核心合集數據庫文獻,因此可能存在文獻范圍有限和語言限制的問題。下一步研究擬增加納入數據庫數量,并通過專家論證的方法獲得更為全面和可靠的結果。