苗 豆,祝雅如,齊文娟,吳雅琴
(內蒙古醫科大學計算機信息學院1,人文學院2,內蒙古 呼和浩特 010110)
隨著醫療信息技術的發展,越來越多的醫院使用各類醫療信息系統(如HIS、EMR等)開展醫療服務[1]。由此在醫療領域產生了海量的醫療數據,并且健康醫療大數據正在從理論和概念逐步走向應用和實踐[2]。知識圖譜是以科學知識為對象,顯示科學知識的發展進程與結構關系的一種圖形。借助知識圖譜,人們可以洞察人類知識體系的各個領域和結構,構建復雜的知識網絡,預測學科和知識前沿的發展趨勢與研究熱點。知識圖譜作為符號主義發展的產物,是人工智能技術和系統中的重要組成部分,其在百科知識、生物信息、社交網絡、社交網絡以及網絡安全等領域被廣泛運用[3,4]。本文使用CiteSpace,VOSviewer對醫療大數據領域的研究熱點進行計量學分析,并利用軟件繪制科學知識圖譜,以期為醫療大數據領域的相關研究提供參考。
1.1 數據來源 以中國知網(CNKI)期刊數據庫為數據來源,檢索主題詞為“醫療大數據”和“medical big data”,檢索時間限定為2015年~2019年,具體日期為2019年12月29日,共得到3537篇文獻數據。納入符合主題的期刊論文,剔除重復文獻、會議論文、報紙、輯刊等與本文主題相關性較弱的文獻,最終得到3123篇有效文獻。
1.2 方法 將CiteSpace設置時區分割年份為2015年~2019年,時間跨度分段長度為1年,術語選擇為突顯術語,節點類型可選擇為關鍵詞、主題,其中關鍵詞共現數據選擇Create→Create a map based on bibliographic data,在T type of analysis選擇Co-occurrence,在Unit of analysis中選擇All keyword,加載自定義的詞集,合并、替換或刪除一些因寫法不同(術語簡稱、全稱的不同表達等)造成重復的關鍵詞。VOSviewer中,分析類型選擇Co-authorship→Authors,Co-occurrence→All keyword,計數方法選擇全計數(Full counting),分析醫療大數據的研究熱點。
1.3 數據統計分析 使用CiteSpace.5.6.R3和VOSviewer對醫療大數據相關文獻的發文量及年代分布,學術研究核心學者,以及關鍵詞頻次、中心性、突現等進行可視化分析,全面展示醫療大數據研究的相關內容。
2.1 文獻發文量 2015年~2018年有關醫療大數據領域的發文量呈上升趨勢,2018年發文量高達660篇,2019年發文量略有回落,發文量分布見圖1。

圖1 2015年~2019年醫療大數據發文量趨勢
2.2 作者合作網絡 對納入分析的3123篇有效文獻進行核心作者合作網絡制作,見圖2。可視化結果展示所分析文獻的核心作者共分有5大類,每類中發文量突出的分別是張政波、曹德森、黎檀實、薛萬國、劉軍等人。其中,作者張政波是北京市國際科技合作基地負責人,在創新型醫療器械和裝備研發、電子健康檔案的二次分析利用等領域有較大貢獻;作者曹德森曾與張政波、薛萬國、黎檀實共同研究發表過急救大數據與Datathon活動等有關醫療大數據領域的論文;作者黎檀實在醫藥衛生領域有較大影響力,他主要在醫療大數據和醫療器械等領域展開研究;作者薛萬國在醫療建設領域有獨到的見解,從1988年開始從事醫院信息化方面的研究開發與推廣應用工作,他提出在做好病歷共享的同時,還要注意病人隱私保護的問題;作者劉軍在醫學外科方面較為擅長,曾發表過腫瘤學以及外科學的相關學術論文。

圖2 核心作者合作網絡
2.3 關鍵詞共現分析 利用VOSviewer進行關鍵詞共現分析,所有關鍵詞節點圍繞“大數據”節點呈放射狀展開,其中較為突出的節點有“醫療”“大數據時代”“智慧醫療”“人工智能”“數據挖掘”“云計算”等,見圖3。

圖3 關鍵詞共現網絡
2.4 高頻關鍵詞聚類 利用CiteSpace進行關鍵詞聚類分析,醫療大數據研究領域關鍵詞聚類共聚為10類,分別是“大數據”“醫療大數據”“精準醫學”“大數據應用”“健康醫療大數據”“數據共享”“大數據時代”“數據挖掘”“移動醫療”和“信息資源共享”,見圖4;每一聚類所包括的聚類標簽見表1。

圖4 關鍵詞聚類分析可視化網絡

表1 醫療大數據研究領域關鍵詞聚類分布
2.5 關鍵詞突現分析 使用CiteSpace得到醫療大數據突現關鍵詞,主要包括精準、數據資源、移動醫療等,見圖5。

圖5 2015年~2019年醫療大數據突現關鍵詞
3.1 發文量分析 從刊載文獻發文量來看,2015年~2018年發文量呈上升趨勢,2019年略有回落,分析其中原因之一是本文所用數據的檢索時間為2019年12月29日,很多期刊2019年所發表文獻還未能在CNKI檢索,故分析數據中2019年文獻數量有所下降。2016年,國家出臺《國務院辦公廳關于促進和規范健康醫療大數據應用發展的指導意見》,文件指出:健康醫療大數據應用發展將帶來健康醫療模式的深刻變化,有利于激發深化醫藥衛生體制改革的動力和活力,提升健康醫療服務效率和質量,擴大資源供給,不斷滿足人民群眾多層次、多樣化的健康需求,有利于培育新的業態和經濟增長點。相關文件的出臺也在一定程度上推動了醫療大數據研究、應用的進一步增長。
3.2 作者分析 在作者合作網絡中,每個節點代表一位作者,節點的大小代表作者發文量,節點的顏色代表按照默認的聚類方法得到的作者所屬類群,網絡中的連線代表了作者合作關系,線寬代表合作強度。作者合作網絡表明,雖然形成了一些合作作者群,但深入分析會發現,合作作者大多來自同一個科研機構,覆蓋面相對比較小,國內還未形成較大范圍的醫療大數據研究作者群。為進一步促進醫療大數據應用向縱深發展,今后亟待加強醫療大數據更廣范圍的合作。
3.3 研究熱點分析 關鍵詞是文獻分析的重要組成部分,它高度精煉了文章的內容,通過分析關鍵詞可以獲知某領域的研究熱點。根據關鍵詞聚類結果,可將我國醫療大數據研究熱點分為以下4個方面:
①基于健康醫療大數據的數據應用及模型設計:在經過多年的醫療信息化建設后,各級各類醫療機構的醫院信息系統存儲了大量的數據,從規模上來講形成了健康醫療大數據,但在應用層面上,這些規模龐大的數據很多處于“沉睡”狀態。現代醫學越來越依賴于具體數據的采集和判斷[5],如何借助于技術使這些沉睡的數據真正服務于醫療,服務于患者,提高醫療服務質量成為研究者關注的熱點之一。②健康醫療大數據質量、數據資源共享及數據安全研究:大量的健康醫療數據分散在醫療機構不同的系統中,如何在保證數據安全的前提下,為研究者提供符合研究要求的高質量數據,并且高效共享健康醫療數據也是近些年研究者關注的熱點。③健康醫療領域的技術探究:健康醫療大數據的應用離不開相關的大數據技術,如何將在其它領域應用成熟的技術使之在醫療領域發揮更大作用,同樣也受到研究者的關注。④移動醫療應用:2015年,移動醫療借助“互聯網+”東風,在醫療行業大放異彩。從概念到產品落地,再到如何切實有效的服務于患者,使患者在就醫、問診、復診、轉診等各個環節真正體會到移動醫療的好處,也使得移動醫療成為近幾年研究者關注的熱點之一。
3.4 研究前沿分析 關鍵詞突現分析可以了解研究領域的前沿熱點。“突現”是指一個變量的值在短期內有非常大的波動。突現關鍵詞分析有助于鑒定出某一段時期內最突出的文獻知識,即文獻信息的挖掘與文獻知識擴散、文獻知識吸收和文獻知識掃描的發展進程[6]。在本研究所設定的時間范圍內,從時間序列上來看,2015年~2016年的突現詞為“精準”“移動醫療”“數據資源”“衛生醫療”和“現代醫學”,表明在這個時期,該領域的學者對與之相關的研究內容關注度較高。“大數據中心”和“分級診療”的有關內容在本研究時間段內,則集中出現在2018年和2019年。分級診療制度的建立是實現我國合理配置醫療資源、促進基本醫療衛生服務均等化的重要舉措。推進分級診療制度建設是我國深化醫藥衛生體制改革的工作重點。國家計劃到2020年完成分級診療的核心目標,即基本建立符合我國國情的分級診療制度[7]。為實現此目標,加快“互聯網+醫療健康”發展,完善國家級全民健康信息平臺也就同樣成為了工作重點,由此醫療機構大數據中心建設也在近幾年成為學者關注和研究的重點之一。
綜上所述,近幾年醫療健康大數據在基礎研究、臨床應用等方面發揮了不可替代的作用。總體上看,我國已在醫療大數據的開發與利用上取得很大進展,在該領域研究中處于重要地位。健康醫療大數據成為當前該領域學者研究的一個重要熱點,這為后續學者研究和實驗提供了參考。