馮嵩,胡建中
(1.中南大學湘雅醫院 網絡信息中心,湖南 長沙 410008;2.“移動醫療”教育部-中國移動聯合實驗室,湖南 長沙 410008)
·醫工園地·
基于大數據的個性化診療系統研究與探索*
馮嵩1,胡建中2
(1.中南大學湘雅醫院 網絡信息中心,湖南 長沙 410008;2.“移動醫療”教育部-中國移動聯合實驗室,湖南 長沙 410008)
將醫療大數據的挖掘分析應用于典型疾病的診斷和預測,是實現個性化疾病診療的基礎。本文在圍繞大數據個性化醫療診斷模型研究與實踐的基礎上,提出在大數據平臺上開展個性化診療的建設思路、實現方法和研究內容的初步設想,探索一種新的疾病診斷和預測的方法。
大數據;個性化診療;診斷模型
隨著互聯網技術的飛速發展及其與不同領域的融合,信息對全球社會經濟發展和科學進步產生了深刻的影響。目前,大數據伴隨著物聯網、移動互聯網等新興技術的發展,已經滲透到各行各業中。大數據促進了信息和產業跨界融合,成為加快智慧城市建設,促進信息消費,推動經濟社會轉型發展的新引擎,將對經濟社會發展帶來深刻變革。近年來,大數據在醫藥研發、臨床診療、疾病管理、公共衛生和健康管理等方面逐漸突顯出優勢。美、英等發達國家已先后投入巨資開展區域醫療健康信息化建設,希望借助更多、更新的信息化技術,使得醫療健康信息化系統能夠最大限度地輔助公民醫療質量和安全,以提升整體醫療服務質量,提高醫療服務可及性,降低醫療費用,減少醫療風險[1]。
2012年9月,美國紐約Metalled公司提出以大數據、人工智能以及眾多專家為支持打造個性化醫療的想法,通過全方位了解患者的相關信息,為其提供更匹配、康復幾率更高的治療手段[2]。在臨床決策支持系統與電子病歷相結合的研究層面,Emory大學生物信息學中心的Andrew等人建立了基于電子病歷的決策支持平臺,該平臺可以將電子病歷中所有不同形式的數據標準化為統一的模型并實現不同治療方案的治療效果對比,提高醫療質量[3];Shah等[4]設計了一套文本自動匹配程序,該程序可以從非結構化的電子病歷信息中提取諸如疾病診斷名稱和患者死亡原因之類的數量;Siddiqui等[5]則在電子病歷的基礎上,結合離散小波變換、主成分分析和支持向量機建立了對大腦磁共振掃描圖像的結果分類,實現對醫療檢驗結果的智能區分。2014年1月,我國中南大學啟動“湘雅臨床大數據建設”項目,以促進智慧醫療、個體化醫療、醫院精細化管理、臨床科研、轉化醫學和基礎醫學的發展[6]。本研究是基于中南大學大數據項目展開。
初步設計的個性化診療模型分為五個過程,關系如圖1所示:①提取高層次的語義特征 醫療數據往往具有海量、異構等特點,特別是包含了大量的非結構化文本數據和圖像數據,首要是如何從這些數據中提取高層次的語義特征,從而建立統一的數據表達。②預測模型的建立 醫學中的疾病診斷和預測問題本身極為復雜,同一種病往往具有不同的臨床癥狀,而類似的癥狀也有可能是不同的病或者是多種病引起的。此外,經過多年的發展,臨床醫學積累了大量的醫學先驗知識。如何對這一復雜的實際問題進行建模,并將這些先驗知識融入到該模型中,建立并訓練準確、快速的多分類與預測模型,是平臺能否提供智能服務特別是個性化自動診療的關鍵。③醫療數據的特征提取 根據語義分析技術,對文本數據和影像數據進行結構化處理,提取統一語義特征用于后續的疾病診斷和預測。④分類模型的建 立 從當前醫院實際診斷的流程出發,結合各種疾病的先驗知識建立疾病診斷的層次分類模型。⑤模型的訓練 從數據并行化和模型并行化出發設計快速的優化算法,完成對模型的有效訓練。

圖1 個性化診療模型關系圖
基于大數據應用的個性化診療平臺前端連接各醫療機構、區域醫療數據中心以及第三方檢驗檢查/影像診斷中心等醫療資源,后端為這些醫療機構、健康管理服務人群以及其他各種用戶提供服務。
按平臺邏輯功能來劃分,基于大數據應用的個性化診療平臺的存儲內容分為三個區塊,即原始數據區、整合后的數據區以及服務應用區,如圖2所示。三個區塊對應不同的數據處理要求,在工藝上具有時序的特性,其中服務應用區必須具備大數據運算和處理能力。

圖2 個性化診療平臺存儲內容分區示意圖
原始數據區對各接入的醫療機構、區域數據中心以及第三方檢驗檢查、影像診斷中心等機構產生的數據進行收集并集中存儲。
數據整合區按照國家規范、地方規范、平臺要求以及面向領域的應用方向,將數據整合和梳理,成為大數據運算架構的數據源。
服務應用區以互聯網技術為基礎,利用大數據存儲和分析等工具,以互聯網應用、領域應用等作為應用方向,分別設計和存儲。
總體架構分為接入點與信息平臺建設,包含了網絡與安全、中心核心數據服務器、應用服務器及接入端的前置服務器等,如圖3所示。
3.2.1 接入點 每個接入點由以下幾個部分構成:①硬件部分 前置計算機和防火墻,收集原始接入機構的數據,并成為與醫療機構信息交互特定通道的信息轉接點。②軟件部分 數據采集軟件,包含適合該醫療機構信息化特征的接入和采集策略。③網絡環境 連接到基于大數據應用的綜合健康服務平臺的業務專網、因特網、無線網和3G網絡等。
3.2.2 平臺 硬件部分:數據整合所需的服務器,及基于大數據處理技術的服務器集群。軟件部分:數據整合所需的軟件,包括數據標準化處理、臨床文檔架構(clinical document architecture,CDA)、影像縮略圖處理、二維/三維影像高級處理、關鍵詞抽取、知識庫構建、應用服務、公共服務接入以及大數據處理架構工具等。網絡環境:云存儲架構。

圖3 系統總體架構圖
基于醫療大數據應用的疾病診斷和預測是一項全新的疾病診斷方法。由于醫療大數據來源真實、量大、涉及面廣,并應用現代機器學習中的數據挖掘技術實現,對于疾病的診斷和預測具有很強的客觀性和較高的準確性,是實現個性化治療的一項關鍵技術。具體研究路線如圖4所示。
現有的臨床大數據來源于電子病歷、檢驗數據和影像數據等,具有多種數據類型和存儲格式,包含大量文本和影像等非結構化數據,難以量化。為了全面地對這些數據進行分析,首先必須對這些數據建立統一的表達方式。從文本語義分析和圖像語義分析出發,研究臨床大數據中非結構化數據的結構化方法,從數據中獲取所有與疾病相關的特征,為后續的疾病診斷和預測提供數據。
選擇典型疾病,對提取的所有特征進行綜合分析,基于現有的先驗知識和大規模機器學習算法設計和訓練合適的分類器,完成對疾病的自動診斷。由于數據來源的多樣性,導致所提取出的特征可能同時包含布爾型、離散和連續等多種類型,而且由于對圖像和文本的結構化往往會產生高維特征,對于每個具體的患者在數據的收集和處理過程中可能出現的數據不完整性問題,因此疾病診斷模型的設計與訓練就變成一個大規模稀疏異構數據的多分類問題甚至是一個多標簽的識別問題。
很多疾病是一種終身性疾病,甚至目前的醫療技術不能徹底治愈,如青光眼治療目的是保留現有的視功能和視神經狀態,需要患者定期進行檢查。因此臨床數據的另一個特點是時序性或者動態性。有經驗的醫生能跟蹤患者的數據來預測疾病的可能性和若干時間后的嚴重性以及療效,嘗試采樣大規模機器學習算法從大量的病例中來自動學習這種預測模型。

圖4 研究路線圖
將醫療大數據的挖掘分析應用于典型疾病的診斷和預測,是實現個性化疾病診療的基礎和關鍵。它通過采集千百萬患者的醫療數據建立診斷與預測模型,并以特定患者的個性數據輸入到該診斷模型中,可以更準確地診斷患者的疾病,獲得更好的治療方案,提高患者的疾病治愈率。通過大數據建立疾病的預測模型,不僅可以預測流行病爆發的可能性,而且可以提前采取預防措施,防治流行病的爆發。
醫療數據是典型的大數據,數據量大,數據類型多,增長速度極快。為了有效地利用好醫療大數據,設計一種新的數據存儲機制,為實現醫療大數據的存取、分析和信息的共享提供良好的支撐。
未來,隨著醫療衛生信息化的不斷深入,個性化診療服務模式將可能完全取代以前的經驗醫學模式,新醫療服務模式將充分體現“數據驅動、個性化、預約性、流程集成、協同服務、效果驅動”的顯著特點,發展基因測序、個性化藥物、個人健康管理等多方面醫療個性化服務[7],通過知識系統主動推薦診療協議,是推動臨床過程規范化的有效手段[8],由于疾病診斷預測中醫療數據的特殊性和復雜性以及在提供分析決策的準確性方面有更高的要求,使得基于醫療大數據的挖掘分析面臨更多的挑戰性難題。
[1]高炬,劉珉,殷亦超,等.面向心血管及腫瘤疾病的中醫臨床大數據挖掘與分析[J].中國信息界-e醫療,2014(6):52-53.
[2]創業之家.醫療O2O案例:MetaMed主打個性化醫療[EB/OL].[2015-02-11].http://www.cy211.cn/2015/02/11870.html.
[3]Post AR,Kurc T,Cholleti S,et al.The Analytic Information Warehouse (AIW):a platform for analytics using electronic health record data[J].Journal of Biomedical Informatics,2013,46(3):410- 424.
[4]Shah AD,Martinez C,Hemingway H.The freetext matching algorithm:a computer program to extract diagnoses and causes of death from unstructured text in electronic health records[J].BMC Medical Informatics & Decision Making,2012,12:88.
[5]Siddiqui MF,Reza AW,Kanesan J.An automated and intelligent medical decision support system for brain MRI scans classification[J].Plos One,2015,10(8):e0135875.
[6]俞國培,包小源,黃新霆, 等.醫療健康大數據的種類、性質及有關問題[J].醫學信息學雜志,2014,35 (6):9-10.
[7]許德泉,楊慧清.大數據在醫療個性化服務中的應用[J].中國衛生信息管理雜志,2013,10(4):301-304.
[8]Jones JB,Stewart WF,Darer JD,et al.Beyond the threshold:realtime use of evidence in practice[J].BMC Medical Informatics and Decision Making,2013,13(1):47-59.
Personalized diagnosis and treatment system based on big data
FENG Song1,HU Jianzhong2
(1.Network Information Center,Xiangya Hospital of Central South University,Changsha,Hunan 410008,China;2.Mobile Telemedicine Joint Laboratory of Ministry of Education and China Mobile,Changsha,Hunan 410008,China)
The application of medical big data mining and analysis in the diagnosis and prediction of typical diseases is the foundation to realize individualized diagnosis and treatment of diseases.In this paper,based on the research and practice of large data personalized medicine diagnostic model,the preliminary plan of construction ideas,implementation method and research contents of individualized treatment in the big data platform were put forward,and a new method for disease diagnosis and prediction was explored.
big data; personalized treatment; diagnosis model
R319;TP392
B
10.19338/j.issn.1672-2019.2017.09.012
2017-04-08
湖南省科技基礎條件平臺建設專項項目(2010TP1001)
(李異凡 編輯)