范 婷 徐 鵬 婁 巖
基于雙聚類法的醫學大數據研究熱點分析*
范 婷1徐 鵬2婁 巖1
大數據技術越來越多地應用于生物和醫療方向的研究,可為健康醫療領域提供技術支持,促進醫療信息化建設,有利于提高醫療質量[1]。并且大數據時代的到來,開辟了全新的健康及醫療模式,其中個性化就醫、預防保健、慢性病護理和智能穿戴設備等等的行之有效地健康管理新模式深入人們的日常生活。而豐富的數據積累能夠更有效的提供科學數據支持,從而進一步研究人類全新健康醫療模式[2]。
1.資料來源
本研究采用的樣本來自國際權威的醫學文獻數據Pubmed,檢索策略為:“Big data”[Tiab]AND MEDLINE AND(“2011/01/01”[PDat]:“2015/12/31”[PDat])。共檢索到867條文獻記錄,將這些文獻用XML格式下載。
2.研究方法
運用書目共現分析系統(bibliographic item co-occurrence matrix builder, BICOMB)[3],獲得該主題的發文量、發表年份、期刊分布以及高頻主題詞,進一步統計每個主要主題詞和副主題詞出現的頻次。考慮到本文收集的文獻均與大數據相關,去除“Big Data as Topic”“Male”等沒有特殊意義的主題詞。統計累計頻次的變化,截取出現頻次大于10次,累積頻次達到22%的主題詞。由于這些主題詞是出現頻率最高的詞,可以認為代表了當前該領域研究的熱點。
雙聚類這一概念是由Hartigan于1972年提出的直接聚類算法(simultaneous clustering,同時聚類),對矩陣中的實例和變量同時進行聚類,聚類的結果與數據矩陣直接相關。有效地改善了傳統聚類算法在單一維度上的聚類,實現了主題詞-文獻標題兩個方向的同時聚類,通過文獻題目聚類,更容易突出具有代表性的文獻標題,從而獲得該領域前沿文獻。為進一步反映這些主題詞之間的關系,統計其出現的頻次,形成主題詞-來源文獻矩陣并導入G-CLUTO1.0軟件進行雙向聚類,通過對構建的高頻主題詞-來源文獻矩陣進行分析,生成高頻主題詞的共詞聚類山峰圖和可視化雙聚類詞篇矩陣熱圖,該聚類圖可以反映高頻主題詞以及來源文獻之間的親疏關系,進而獲得該領域研究的熱點[4-5]。
1.發文量分布
檢索得出2011-2015年醫學大數據相關文獻867篇,其變化趨勢見圖1 ,從發表文章數量上看,2011年開始發文量在逐漸增加,2014年開始迎來大數據研究的高峰期,發文量逐年增加,每年達到300篇以上。

圖1 2011-2015年醫學大數據相關論文發文量變化趨勢圖
2.期刊分布
對2011-2015年刊載醫學大數據這一主題文獻的期刊分布情況進行統計分析,排名前10種期刊的載文量累計超過了178篇,占總文獻量的19.84%,見表1。

表1 文獻期刊分布
對2011-2015年刊載醫學大數據這一主題文獻的發表國家進行統計分析,相關文獻發文量超過10篇的國家有6個,其載文量達到852篇,占總文獻量的95.40%,見表2。

表2 發文量世界分布情況
3.高頻主題詞及共詞聚類結果
本研究截取出現頻次高于10次的32個高頻主題詞的中文譯名按照中國醫學科學院醫學信息研究所出版的《醫學主題詞表( MeSH)》中譯本進行翻譯,如表3 所示。
4.聚類結果分析
經多次雙聚類實驗,發現將數量設定為10時的聚類結果,簇內平均相似度較高,簇間平均相似度較小。從聚類山峰圖的整體布局來看,聚類的效果較為理想。

表3 高頻詞匯表
圖2是醫學大數據領域發表文獻的雙向聚類結果,左側聚類樹代表高頻詞匯聚類結果,32個高頻主要主題詞/副主題詞列在圖的右側顯示。頂端聚類樹代表包含高頻詞匯的文章標題聚類,每一個方格的顏色深度表示所在列對應的論文中,該行所對應的高頻主題次出現頻次。顏色越深,出現的頻次越高。空白區域代表該主題詞的出現頻次為0。
通過對高頻主題詞匯以及各類中具有代表性文獻的解讀,得出該領域現階段3大熱點研究方向。
醫學大數據在社會行為學方面展開的研究,包括18,29,22,13號主題詞。例如,MoatHS等在線收集海量真實數據,通過賓利模型研究,提出大數據可為預測風險評估、集體決策支持提供意見[6]。Grossglauser M等通過三個沒有人工干預的實驗,提出了大數據驅動的醫療保健的重要特定的方面:自主決策,并設計模型來解決預測過程中自主決策帶來的不確定性[7]。Palomino M等人收集社交媒體Twitter上超過175000信息發布,將情緒分析應用于測量積極、中性或負面情緒,從而映射廣泛傳播對用戶心理健康的巨大影響[8]。
信息化環境下醫學大數據在生物醫學及基因組學方面的探索,包括20,17,16,7,32,16號主題詞。Decock A等將大數據應用于NB的比較基因組學研究,通過CpG島的甲基化測序得出找到全基因組中就發生甲基化的區域,并證實NB相關基因存在甲基化水平的改變[9]。Canela XO等針對470000個個體的590004個SNPs(單核苷酸的多態性)位點,通過混合線性模型預測相關表型,實驗表明DISSECT軟件在大樣本量的條件下,用于基因型分析,預測精準率可高出理論最大值的80%[10]。Paten B等認為基因組測序成本的逐漸下降使得基因大數據的快速累積,同時基因測序技術與大數據分析技術的快速發展使得精準醫療概念下的精準預防、精準診斷以及真正的個體化治療模式逐漸成為當前研究焦點[11]。

圖2 醫學大數據相關論文樹狀雙聚類圖
針對醫學大數據統計分析、挖掘與應用,包括9,2,8,15,12,26,23,21,25號主題詞。例如,Margolies LR等通過對乳腺癌影像大數據的采集和分析,得出醫學大數據有助于乳腺癌遺傳學篩查和優化篩選算法[12]。在英國血液醫學領域,Pendry K等通過電子健康記錄和臨床新病例的大數據集,設計了一套醫學大數據管理信息系統,結合患者的血液管理關鍵指標和庫存,擬定用血量和手術順序,提高效率和減少資源浪費[13]。Ramos MA等將數據挖掘算法引入患者聽力診斷,設計預測模型并結合聽力測試,對植入雙側人工耳蝸的患者聽力進行評估[14]。
根據2011-2015年國際醫學大數據相關文獻的發文量隨時間的變化趨勢看,大數據在醫學領域的相關研究熱度在逐步上升。該領域的發文量在2010-2012年處于較低的水平,但經過了2013年的發展后,于2014達到每年300篇以上。該主題研究熱度在近年的迅速增強,可能與大數據與醫學結合的廣泛應用有關。因此應該重視這方面的研究,才能讓大數據在衛生領域得到長足的發展。
2011-2015年期間多種期刊發表了867篇醫學大數據相關領域的文章,排名前10 種期刊的載文量占總文獻量的19.84%,說明該主題文獻主要發表在本領域核心期刊上,呈現一定的聚集性,而統計學和醫學信息學專業期刊,以及社會行為學期刊刊載數量最多。
本研究基于雙聚類法討論了國際上2011-2015年大數據在醫學領域的研究熱點和趨勢。得到當前醫學大數據研究的熱點主要集中在:醫學大數據在社會行為方面展開的研究,信息化環境下將醫學大數據應用于生物醫學領域和基因組學的探索,醫學大數據統計分析、挖掘與應用。
[1]高漢松,肖凌,許德瑋,等.基于云計算的醫療大數據挖掘平臺.中國數字醫學,2013,5:7-12.
[2]Peters SG,Buntrock JD.Big data and the electronic health record.The Journal of ambulatory care management,2014,37(3):206-210.
[3]崔雷,劉偉,閆雷,等.文獻數據庫中書目信息共現挖掘系統的開發.現代圖書情報技術,2008,(8):70-75.
[4]方麗.利用雙聚類算法探測綜合醫學與內科學知識基礎及研究前沿.中華醫學圖書情報雜志,2016,(9):28-33.
[5]崔雷,方麗,王林.國內醫學信息學院系科研熱點分析及其與國際研究熱點的比較.醫學信息學雜志,2013,(3):2-10.
[6]Moat HS,Preis T,Olivola CY,et al.Using big data to predict collective behavior in the real world.Behavioral & Brain Sciences,2014,37(1):92-93.
[7]Grossglauser M,Saner H.Data-driven healthcare:from patterns to actions..European journal of preventive cardiology,2014,21(2):14-17.
[8]Palomino M,Taylor T,G?ker A,et al.The Online Dissemination of Nature-Health Concepts:Lessons from Sentiment Analysis of Social Media Relating to “Nature-Deficit Disorder”.International Journal of Environmental Research & Public Health,2012,13(1):142.
[9]Decock A,Ongenaert M,Van CW,et al.DNA methylation profiling of primary neuroblastoma tumors using methyl-CpG-binding domain sequencing.SCIENTIFIC DATA ,2012,2(3):4.
[10]Canela XO,Law A,Gray A,et al.A new tool called DISSECT for analysing large genomic data sets using a Big Data approach.Nature communications,2015,(6):10162.
[11]Paten B,Diekhans M,Druker BJ,et al.The NIH BD2K center for big data in translational genomics.Journal of the American Medical Informatics Association,2015,22(6):1143-1147.
[12]Margolies LR,Pandey G,Horowitz ER,Mendelson DS.Breast Imaging in the Era of Big Data:Structured Reporting and Data Mining.American journal of roentgenology,2015, 206(2):259-264.
[13]Pendry K.The use ofbig data in transfusion medicine.Transfusion medicine(Oxford,England),2015,25(3):129-137.
[14]Ramos MA,Perez ZT, Perez Dl,et al.Use of data mining to predict significant factors and benefits of bilateral cochlear implantation.European archives of oto-rhino-laryngology,2015,272(11):3157-3162.
(責任編輯:郭海強)
2014年遼寧省教育廳科學研究一般項目 (項目編號:L2014291)
1.中國醫科大學公共基礎學院(110122)
2.解放軍463醫院呼吸內科