馮 麟 雷 羅 羅愛靜
(中南大學信息安全與大數據研究院醫藥信息系 長沙 410000) (中南大學湘雅三醫院 長沙 410000)
?
基于文獻的國內外醫學大數據研究*
馮 麟 雷 羅 羅愛靜
(中南大學信息安全與大數據研究院醫藥信息系 長沙 410000) (中南大學湘雅三醫院 長沙 410000)
以CNKI和Web of Science索引庫SCI/SSCI為數據源,從社會網絡視角對國內外醫學大數據文獻從年度分布、期刊分布、研究方向等方面進行分析,繪制高頻關鍵詞、高產作者、高產機構共現網絡圖譜。結果表明國內外醫學大數據研究有多學科協同發展趨勢,但研究內容未形成要點,作者群體、機構群體還未產生密切的合作與聯系。
醫學大數據; 計量分析; 社會網絡分析
大數據正在深刻影響社會方方面面,包括農業領域、金融領域、娛樂領域以及醫療領域[1]。據麥肯錫公司2012年的報告數據,美國醫療系統有3 000億的收益來自于醫學大數據分析[2]。 “我國目前每年醫療費用總額超過2.4萬億元,如果按照麥肯錫報告的預測,我國醫療領域利用大數據每年將節省醫療費用近2 000億元”。中國軍事醫學科學院研究員朱云平在2014年11月29日召開的“第五屆重大疾病防治科技創新高峰論壇”發言[3]。國際學術界和國內學術界對醫學大數據的關注和參與度都越來越高[4],迄今為止已有多篇論文發表在醫學領域著名期刊中[5]。本文分別以國外文獻和國內文獻為研究對象,構建出醫學大數據領域的社會網絡,從社會網絡的角度出發,運用文獻計量學、社會網絡分析方法對醫學大數據領域的現狀進行描述分析[6]并對該領域未來的趨勢做出預測,為今后致力于該領域研究的學者或機構做出理論指導。
本文國外文獻數據源選擇Web of Science 中的核心數據庫(SCI/SSCI)作為索引源,檢索式為:主題: ("big data")+主題: ("medical" OR "medicine" OR "clinical" OR "medical science" OR "health care")+(文獻類型: ("ARTICLE")+("時間跨度: 2009-2014")。國內文獻數據源選擇中國知網(CNKI)數據庫,檢索式為:主題:(“大數據”)+摘要:(“醫學”或“醫療”)+(“時間跨度: 2009-2014”) 。數據檢索時間節點為2015年1月30日。文獻檢索過程中采用直接檢索、關鍵詞檢索及特定期刊檢索相結合的方法,去除書評、商業評價等非正規學術論文后得到國外文獻96篇,國內文獻569篇。由于CNKI與Web of Science的檢索功能有差別,例如CNKI對于作者的統計只針對第一作者,Web of Science 卻包含所有作者信息。因此本文只研究國內外醫學大數據的年度分布、期刊分布、期刊學科分布情況并做國內外對比分析。
2.1 國內外文獻年度分布
利用CNKI的分組瀏覽和文獻導出功能,Web of Science 的創建引文報告和分析檢索結果功能,對論文檢索結果進行分析。橫向來看,國內外的研究成果總體情況一致,都是2012以前成果平平,12年以后明顯變多,14年增長最大。根據研究分析,此結果和現實事件緊密關聯,符合實際。2012年3月美國奧巴馬政府強力推出“大數據研發計劃”。同年7月日本跟進推出“新ICT研究戰略計劃”,重點關注大數據應用。同年5月我國國家科技部(前國家科委)發起,在科技部和中國科學院的共同支持下召開的以“大數據科學——一門新興的交叉學科”為主題的香山科學會議[7]也預示國內大數據研究開始。至2013年大數據領域巨作BigData出版等事件均引發醫學大數據研究熱潮。縱向來看,雖然國內的每年發文量都比國外高,但國外都是SCI/SSCI期刊質量更高,成果影響更大,國內還是落后于國外研究的。
2.2 國內外文獻期刊分布
根據CNKI的文獻來源分組數據,國內醫學大數據的研究分布于34種期刊,其中大學類期刊偏多。篩選出文獻數量前10的期刊,數據結果顯示,國內期刊對于醫學大數據研究的重視還略顯不足,成果不夠明顯,其中《醫學信息學雜志》、《中國醫院院長》、《吉林醫學信息》處于該方向研究的前列。通過Web of Science 的期刊分類對文獻進行梳理分析,數據顯示,國外醫學大數據的文獻分布于69種期刊,前10位的期刊為《衛生事務》(HealthAffairs)、《生物信息學》(BMCBioinformatic)、《公共科學圖書館》(PlosOne)、《未來計算機系統——網絡計算和電子科學國際期刊》(FutureGenerationComputerSystems-TheInternationalJournalofGridComputingandEscience)、《醫學互聯網研究》(JournalofMedicalInternetResearch)、《醫學系統雜志》(JournalofMedicalSystems)、《綜合生物學》(Omics:AJournalofIntegrativeBiology)、《個性化醫學》(PersonalizedMedicine)、《衛生政策研究綜述》(ReviewofPolicyResearchvalueinHealth)等,其中醫學領域著名期刊《衛生事務》(HealthAffairs)明顯領先。通過國內外期刊情況對比,相同性為各期刊的成果差距都不大,未出現醫學大數據領域集中性強的優秀期刊,各期刊對于醫學大數據領域的論文刊登尚處于起步階段。而縱向分析發現,國內的成果低于國外。
2.3 國內外文獻研究方向分布
根據CNKI期刊學科分組數據,篩選出文獻數量前10的研究方向。醫學大數據研究在計算機軟件及計算機應用、醫藥衛生教育與法規、醫學教育與醫學邊緣、信息經濟與郵政經濟領域成果顯著,特別是計算機軟件及計算機應用和醫藥衛生教育與法規遙遙領先于其他領域,可見國內部分學科在醫學大數據的領域已經有了足夠重視和初步成果,而同時前10的學科分布可見,醫學大數據的覆蓋學科較為廣泛。通過Web of Science 的期刊學科分類,以期刊的研究方向統計,醫療科學服務、計算機科學、生物醫學技術微生物學應用、醫學信息學4類方向占據了樣本文獻的50%多,其中醫療科學服務、計算機科學兩大領域成果突出。國內外學科方向對比分析,發現國外成果最多的學科方向為醫學方向,而國內最多的是計算機方向,可見醫學大數據的學科專指性不強;同時國外前10期刊可分為計算機、醫學和信息科學方向3大范疇,而國內期刊除了計算機、醫學和信息科學方向,也包含金融,教育方向。
3.1 數據處理
從中國知網和 Web of Science的原始文獻數據,到中間的知識單元關系矩陣,直到最終的可視化共現網絡圖譜,處理流程,見圖1。

圖1 文獻數據的社會網絡分析流程
由于CNKI的文獻導出數據不包含引文數據,本文采用關鍵詞、作者和研究機構共現網絡有效地展示“醫學大數據”領域的研究基礎,形象地表明該領域的研究重點、作者群體的合作關系和機構直接的合作關系。其中的中心性、網絡密度、凝聚子群[8]是本文分析的重點。
3.2 國內外高頻關鍵詞共現網絡分析
處理國內外數據樣本,Bibexcel中分別統計出最高幾個關鍵詞的頻次排序。國內高頻次關鍵字有大數據、物聯網、醫療健康、衛生信息化等,國外有大數據、電子病歷、數據挖掘、開放數據等。國內外關鍵詞共性為除了本領域首要關鍵詞“大數據”外,其他關鍵詞的頻次差別并不明顯。對國內數據樣本,選擇高于3(閾值)的478個關鍵詞進行統計,用NetDraw繪制2009-2014年來國內醫學大數據研究領域的關鍵詞共現知識圖譜,見圖2。本文所有的圖譜都已經進行NetDraw圖形化中間中心度處理,所以圖譜節點的大小代表了與其在共現網絡中出現的頻次呈現地位具有一致性,即節點越大,節點在網絡中占有的地位越重要[9]。圖譜沒有很明顯的大節點,顯示出國內本領域研究內容還未出現極其重要的研究熱點,當前醫學大數據研究內容還比較分散。Ucinet處理數據得到該共現網絡密度0.0249,標準差0.2153,密度水平很差,反映國內研究內容的聯系不緊密,本網絡的影響力極低。凝聚子群密度值0,反映國內研究內容處于隨機分布狀態。
對國外數據樣本,選擇高于2(閾值)的20個關鍵詞進行統計,用NetDraw繪制2009-2014年來國外醫學大數據研究領域的共詞知識圖譜,見圖3。結果顯示同樣沒有出現明顯大于其他節點的關鍵詞,也并未出現極其熱門的領域。網絡密度0.1765,標準差0.4518,密度水平一般,研究領域的聯系不緊密,本網絡的影響力低。凝聚子群密度值0.215,反映國外研究內容分布狀態分散。
綜合國內外高頻關鍵詞共現網絡數據和圖譜來看,國內外當前關于醫學大數據領域的研究偏于分散,國外稍微優于國內。

圖2 國內醫學大數據研究關鍵詞共現網絡

圖3 國外醫學大數據研究關鍵詞共現網絡
3.3 國內外高產作者共現網絡分析
處理國內外數據樣本,Bibexcel中分別統計出最高幾位作者的頻次排序。國內最高頻次作者有胡海泉、龐濤、邱桂蘋、周棟、桑梓勤等,國外有Ioannidis JPA、Suchard MA、Mountjoy M、Simpson SE、Blair SN、Madigan D等。為確定高產作者群體的特征和趨勢,Bibexcel中選擇了頻次高于2以上的42位作者進行統計,繪制2009-2014年來國內醫學大數據研究領域的作者共現網絡圖譜,見圖4。圖譜中出現作者“邱桂蘋”的較大節點,顯示出國內本領域高產作者占有重要地位的僅為“邱桂蘋”,其他作者在本領域影響力很小。Ucinet處理數據得到,該共現網絡密度0.0238,標準差0.1525,密度水平很差,反映國內高產作者相互的聯系不緊密,本網絡的影響力極低。凝聚子群密度值0.003,反映國內高產作者幾乎沒有形成團體派系。
對于國外高產作者的研究,Bibexcel中選擇了頻次高于2以上的37位作者進行統計,繪制2009-2014年來國外醫學大數據研究領域的作者共現網絡圖譜,見圖5。圖譜中出現3個較大節點,顯示出國外本領域高產作者占有重要地位的為Suchard Ma、Simpson SE、Madigan D,且這3位作者直接有連線,表明3位作者有合作研究,其他作者在本領域影響力很小。Ucinet處理數據得到該共現網絡密度0.6000,標準差0.9008,密度水平一般,反映國外高產作者相互的聯系不緊密,本網絡的影響力低。凝聚子群密度值0.272,反映國外高產作者形成的團體派系很微弱。

圖4 國內作者共現網絡

圖5 國外作者共現網絡
綜合國內外高產作者共現網絡數據和圖譜來看,國內具有影響力的作者僅有1位,國外有3位,相比國內的作者群網絡狀況要好;國內外的作者相互之間的合著聯系較少,都未有作者團體情況出現,國外稍微優于國內。國外影響力較高的的Simpson SE 2013年發表的通過優化算法,利用大規模數據庫和電子病歷,提高藥品安全性的文章引起了藥物大數據的熱潮[10]。國內影響力較高的邱桂蘋在2014年提出關注醫學大數據的發展,努力打破醫療界信息孤島和數據孤島現狀,促進國內衛生信息化的腳步[11]。
3.4 國內外高產機構共現網絡分析
處理國內外數據樣本,Bibexcel中分別統計出高產機構的頻次排序。國內最高頻次機構有上海理工大學、北京大學、中華醫學會、國家風濕病數據中心、萬達信息股份有限公司、復旦大學等,國外有加利福尼亞大學洛杉磯分校、加利福尼亞大學舊金山分校、斯坦福大學、開普敦大學、加拿大麥吉爾大學、哈佛大學、耶魯大學等。為確定高產機構的特征和趨勢,Bibexcel中選擇了頻次高于2的24家機構進行統計,繪制2009-2014年來國內醫學大數據研究領域的機構共現網絡圖譜,見圖6。圖譜中相對較大節點為國家風濕病數據中心,顯示出國內本領域其占據重要地位,所有單一機構在本領域影響力都很小。Ucinet處理數據得到該共現網絡密度0.1111,標準差0.4581,密度水平一般,反映國內高產機構聯系性很差,本網絡的影響力極低。凝聚子群密度值0.000,反映國內高產機構沒有派別形成。
對于國外的數據,Bibexcel中選擇了頻次高于2的71家機構進行統計,繪制2009-2014年來國外醫學大數據研究領域的機構共現網絡圖譜,見圖7。圖譜中最大的節點為耶魯大學(Yale Univ),其次兩個較大節點為開普敦大學(Univ Cap Town)、加拿大麥吉爾大學(MicGill Univ),這3所世界著名大學在國外文獻中占據絕對重要地位。Ucinet處理數據得到該共現網絡密度0.1821,標準差0.6316,密度水平一般,反映國外高產機構聯系不夠緊密,本網絡的影響力較低。凝聚子群密度值0.234,反映國外高產機構派別形成微弱。

圖6 國內研究機構共現網絡

圖7 國外研究機構共現網絡
根據國內外高產機構共現網絡數據和圖譜來看,占據國內的重要地位的機構僅為1家,相比國外有地位的3家機構數量較少,國內相關機構還需要進一步加強研究。國內外的機構之間合作關系都較為微弱,國外稍微優于國內,國內外都未出現科研機構派別林立的現象。國外最重要機構耶魯大學被引頻次最高的一篇論文引發了如何用新的思維利用好醫學大數據為患者人群解決問題[12];國內重要機構國家風濕病數據中心被引最多的一篇文章則是號召結合醫學大數據的時代背景,就多中心研究模式、生物樣本庫的規范管理[13]。
國內外醫學大數據領域的研究歷史還不足10年,因此并未形成豐富的科研成果,也并未出現醫學大數據領域的研究要點,各個作者、機構之間也并沒有密切的聯系與合作,沒有出現明顯的作者團體和機構派別。國外醫學大數據的研究早于國內,因此不管是論文的質量,還是重要作者、重要機構的形成都比國內數量要多。就研究內容來看,國內有關大數據的研究內容需要更加精細化,形成研究熱點,促進醫學大數據的發展;就社會關系來看,作者機構之間的合作聯系需要加強。但是可喜的是醫學大數據研究涉及學科種類很多,能夠促進多學科協同發展。根據以上分析,本文做出以下預測:(1)多學科協同發展。根據上文數據分析,各個學科領域的交叉融合有利于醫學大數據研究的開展[14]。(2)研究內容、作者群體、機構群體將趨于集中,形成要點和體系。研究領域的共性網絡有利于自身的發展,提煉出醫學大數據的共性研究網絡是大趨勢。(3)醫學大數據的研究將會助力醫療商業化,醫療從業者將在商機與競爭中使用新的技術和方法來研究醫學大數據[15],這是醫學在當代經濟社會發展的必然趨勢。
1 張振. 醫療大數據及其面臨的機遇與挑戰[J]. 醫學信息學雜志, 2014,(6): 3-4.
2 董建華. 順勢而行——美國HIT如何迎接大數據時代的來臨[J]. 醫學信息學雜志, 2013,(9): 2-3.
3 高漢松. 基于云計算的醫療大數據挖掘平臺[J]. 醫學信息學雜志, 2013,(5): 7-8.
4 北京市科學技術委員會. 第五屆重大疾病防治科技創新高峰論壇在京召開[EB/OL]. [2015-01-10].http://www.bjkw.gov.cn/n8785584/n8904761/n8904885/n8918125/10141305.html.
5 劉蓉. 社會網絡視角下安全領域科學合作網研究[D].西安: 西安科技大學, 2013:2-3.
6 劉遠. 我國心血管疾病科研國際合作網絡研究[J]. 醫學信息學雜志, 2013,(9): 67-68.
7 中國科學院計算機研究所. 計算所牽頭成功舉辦關于網絡空間大數據的香山科學會議[EB/OL].[2015-01-10]. http://www.ict.ac.cn/xwzx/jssxw/201206/t20120611_3595696.html.
8 Otte E, R Rousseau. Social Network Analysis: a powerful strategy, also for the information sciences[J]. Journal of Information Science, 2002, 28(6): 441-453.
9 姜春林,陳玉光. CSSCI數據導入Bibexcel實現共現矩陣的方法及實證研究[J]. 圖書館雜志, 2010,(4): 58-63.
10 Suchard M A, et al. Massive Parallelization of Serial Inference Algorithms for a Complex Generalized Linear Model[J]. ACM Transactions on Modeling and Computer Simulation, 2013, 23(101SI):10-20.
11 鄒琴,穆森,邱桂蘋,等. 探究區域衛生信息化的關鍵技術及發展[J]. 科技資訊, 2014(6): 14-15.
12 Krumholz H M. Big Data And New Knowledge in Medicine: the thinking, training, and tools needed for a learning health system[J]. Health Affairs, 2014, 33(7): 1163-1170.
13 2014中國風濕病信息論壇暨第四屆CSTAR論壇通告[J]. 風濕病與關節炎, 2014,(8): 38-39.
14 王曉東. 大數據時代醫學信息管理專業人才培養[J]. 醫學信息學雜志, 2014,(1): 10-11.
15 Szlezak N, et al., The Role of Big Data and Advanced Analytics in Drug Discovery[J]. Clinical Pharmacology & Therapeutics, 2014, 95(5): 492-495.
Medical Big Data Research Both in China and Abroad Based on Literatures
FENGLin,LEILuo,
DepartmentofMedicalInformatics,InformationSecurityandBigDataInstitute,CentralSouthUniversity,Changsha410000,China;LUOAi-jing,TheThirdXiangyaHospitalofCentralSouthUniversity,Changsha410000,China
Taking CNKI and SCI/SSCI from Web of Science as data sources, the paper analyzes the domestic and foreign literatures time distribution, journal distribution and research direction from the perspective of social networks, draws co-occurance network maps of high-frequency keywords, important authors and institutions. The results show that medical big data research has multidisciplinary collaborative development trend, but there are no key points, the cooperation and interaction among authors and institutions are not very well.
Medical big data;Bibliometric analysis; Social network analysis
2015-05-06
馮麟,在讀碩士研究生。
湖南省科技計劃國際合作重點項目(項目編號:2014WK2034) 。
R-058
A 〔DOI〕10.3969/j.issn.1673-6036.2015.05.003