,,
目前,探討國外醫(yī)學信息學領域研究前沿的文獻尚少,缺乏對國外該領域先進理念和技術方法的了解,阻礙了我國醫(yī)學信息學領域的發(fā)展和進步。因此,全面了解國外醫(yī)學信息學領域的研究前沿,對促進我國相關領域的發(fā)展具有重要意義。
本文運用共詞聚類分析和知識圖譜,使用定性與定量方法,分析了近5年國外醫(yī)學信息學領域的研究前沿,以期為我國醫(yī)學信息學領域的發(fā)展提供參考和借鑒。
共詞分析是由法國國家科學研究中心的Callon M等人提出的[1]。共詞分析是以文獻中共現的詞語作為研究對象,研究詞間關聯度,建立起對知識網絡結構的描述,從而揭示學科領域的結構和研究前沿[2]。在共詞分析的基礎上,借助聚類算法,對共詞網絡中各詞語間的聯系強度進行計算,根據聚類結果,將聯系相對緊密的詞語聚集起來,形成相對獨立的團體-類團,代表學科領域中的一個分支[3]。共詞聚類分析是在共詞分析的基礎上,事先不指定聚類的標準,客觀地劃分學科領域的研究內容,因而作為本研究的研究方法[2]。
科學知識圖譜是近年來科學計量學、信息計量學等領域比較新興的研究方法,不僅能揭示知識來源及其發(fā)展規(guī)律,且以圖形表達相關領域知識結構關系與演進規(guī)律[4]。知識圖譜應用數學、圖形學、信息可視化技術等理論和方法,與傳統科學計量學的共詞分析、引文分析等方法相結合,用可視化圖譜直觀地、形象地展示學科的結構[5]。
繪制知識圖譜的工具較多。其中VOSviewer是由荷蘭萊頓大學Van Eck N J和Waltman L等學者開發(fā)的可視化軟件,被廣泛應用于各類共現分析,能夠繪制作者、引文、詞語等共現圖譜,主要以距離、密度等解構節(jié)點之間的關系[6]。本文利用VOSviewer生成標簽視圖(Label View)和熱點密度圖(Density View),利用SPSS 19.0生成聚類樹圖。結合3個知識圖譜,綜合分析國外醫(yī)學信息學領域的研究前沿。
核心期刊具有權威性、前瞻性等特點,刊載文獻質量較高,是研究學科結構和前沿的可靠參考和依據。本文以2014年JCR中醫(yī)學信息學類別IF值最高的5種期刊(表1)作為數據來源。利用PubMed數據庫,檢索并導出該5種期刊2010-2014年刊載的文獻,共計3 244篇。

表1 JCR醫(yī)學信息學類別中IF值最高的5種期刊載文量
2.2.1 截取高頻詞
為了簡化統計過程,同時減少低頻詞為統計過程帶來的不必要干擾,選擇高頻詞作為研究對象。目前高頻詞界值的確定尚未有統一的見解,主要有以下幾種方法:經驗法、二八定律、齊普夫第二定律、g指數、高頻低頻詞界分公式等。經過試驗,選擇由DonohueJ C提出的高頻低頻詞分界公式截取高頻詞[7]。計算公式為如下:
其中I1是詞頻為1的關鍵詞的個數;T是高頻詞中的最低頻次,即高低頻分界。
運用BICOMB軟件統計主要主題詞的出現頻次,并根據高頻低頻詞界分公式截取高頻詞,共截取了54個高頻主題詞(見表2)。

表2 醫(yī)學信息學領域54個高頻主題詞

續(xù)表2
2.2.2 構建共現矩陣
2.2.2.1 構建原始共現矩陣
高頻主題詞一定程度上代表了近5年國外該領域學者關注的重點,但它們是孤立的點,不能很好地反映學科領域的結構。因此,本文利用BICOMB軟件構建了高頻主題詞的54*54共現矩陣。
2.2.2.2 構建相似共現矩陣
原始共現矩陣中兩個主題詞共現頻次的大小受各自主題詞詞頻的影響,因而原始共現矩陣反映的是一種表象。為準確揭示主題詞間的共現關系,需要對原始矩陣進行包容化處理,使核心主題和非核心主題間的分界更加明顯[8]。常見的處理方法有包容指數法、臨近指數法、等價系數法、Ochiia系數法。經試驗,Ochiia系數法最適合,Ochiia系數計算公式如下[9]:
其中Cij代表詞對Mi和Mj在文獻集合中共同出現的頻次,Ci代表詞Mi在文獻集合中的出現頻次,Cj代表詞Mj在文獻集合中的出現頻次。
本文利用共現網絡分析和熱點密度分析識別國外醫(yī)學信息學領域學者關注的熱點主題詞,利用共詞聚類分析劃分該領域的前沿研究方向,從詞和類團兩個角度探測國外醫(yī)學信息學領域的研究前沿。
圖1為標簽視圖(Label View),該圖譜展現了國外醫(yī)學信息學領域的共現網絡。其中節(jié)點及標簽代表主題詞,節(jié)點和標簽的大小取決于該節(jié)點的權重。權重越大,節(jié)點和標簽越大,節(jié)點越重要。VOSviewer為避免標簽重疊,只顯示子標簽。節(jié)點間的連線代表節(jié)點間具有共現關系,當鼠標點在線條上時,顯示該線條所連接的節(jié)點及其共現頻次。

圖1標簽視圖
由圖1可知,各節(jié)點權重不同,如Electronic Health Records,Decision Support Systems, Clinical,Natural Language Processing,Data Mining,Medical Record Linkage以及Information Storage and Retrieval等節(jié)點和標簽都較大,具有較高的權重,在國外醫(yī)學信息學領域占重要地位。
圖2為國外醫(yī)學信息學領域的熱點密度圖(Density View)。圖中顏色代表密度,圖譜默認呈現深線色。節(jié)點在領域中權重越大,顏色越深。相反,在領域中的權重越小,顏色越淺,因此通過顏色能夠直觀地辨別哪個區(qū)域比較重要[10]。

圖2熱點密度圖
由圖2可知,位于深色區(qū)域的主題詞是國外醫(yī)學信息學領域的重要研究主題。Electronic Health Records,Natural Language Processing,Data Mining,Medical Informatics,Medication Errors及Information Storage and Retrieval等詞位于顏色最深的區(qū)域,熱度最大,是國外醫(yī)學信息學領域最熱的研究前沿,其他顏色接近深色區(qū)域的主題詞也是該領域的重點研究主題。國外醫(yī)學信息學領域的熱點主題詞見表3。

表3 國外醫(yī)學信息學領域熱點主題詞
通過共現網絡圖和熱點密度圖可以識別哪些主題詞是國外醫(yī)學信息學領域學者關注的重點和熱點,但不能反映該領域的重要研究方向或領域分支。為此,本文利用SPSS 19.0對相似矩陣進行聚類分析,采用系統聚類方法,度量標準的區(qū)間選擇平方Euclidean距離,繪制出聚類樹圖,根據聚類樹圖劃分出12個類團(表4)。

表4 國外醫(yī)學信息學領域類團列表
由表4的聚類結果可知,國外醫(yī)學信息學領域主要有12個前沿的研究方向:醫(yī)療決策支持系統和計算機輔助的藥物治療,決策支持,計算機安全和保密,電子健康檔案的自然語言處理和數據挖掘,醫(yī)療保健的態(tài)度、質量和模式,病案系統及其聯動,信息系統及其整合,醫(yī)學信息學在計算生物學中的應用,語義學和受控詞匯,遠程醫(yī)療,人口監(jiān)測的統計模型及衛(wèi)生保健的成果評估。
通過分析國外醫(yī)學信息學領域的研究前沿,得出如下結論:國外醫(yī)學信息學領域的學者將數據挖掘、自然語言處理、決策支持、信息存儲與檢索、語義學、數據庫管理系統等計算機技術應用到衛(wèi)生醫(yī)療領域,實現電子健康檔案、臨床決策支持、計算機輔助藥物治療以及遠程醫(yī)療等,改善了衛(wèi)生醫(yī)療的效率和質量。
對于計算機安全和保密的研究,以及對現有技術或系統的問題的研究也是前沿的主題,如電子處方導致用藥錯誤的研究等。關于臨床醫(yī)生的診療模式、醫(yī)療服務的態(tài)度和質量、以患者為中心的醫(yī)療等研究也是國外醫(yī)學信息學領域的研究前沿。