程越岳
[摘 要]大數據的應用對發展醫療水平、保障人民健康有重要意義。文章從解讀醫療大數據入手,介紹醫療大數據的特征、來源及現狀,描述醫療大數據的宏觀與微觀應用,提出當前醫療大數據存在的問題及解決思路,最后總結醫療大數據遺留的問題。
[關鍵詞]醫療大數據;應用;醫院
[DOI]10.13939/j.cnki.zgsc.2018.17.184
現階段大數據應用已進入各個行業。當前我國社會主要矛盾已經轉化為人民日益增長的美好生活需要和不平衡不充分的發展之間的矛盾。發揮醫療大數據作用,有利于提高醫療水平,促進民生發展,是人民美好生活需要的重要體現。
1 醫療大數據
1.1 醫療大數據概念
大數據是在合適的時間內無法處理的大量數據的集合,一般特征為巨量性、多樣性、速變性、高價低密性和真實性。醫療大數據有多大,有的認為數據體量在TB、PB級別,甚至EB級別。[1]文章認為,體量大小沒有絕對范圍,一般要求要包含一個區域在一段時間內所有醫療機構的數據,在數據體量大的同時,要使其能充分滿足多樣性、速變性、高價低密性和真實性。醫療行業的信息化水平相對較高,有海量長時間跨度的數據被保存(門診記錄要求保存15年,住院記錄要求保存30年),含有大量非結構化數據和少量結構化數據。
1.2 醫療大數據來源
第一,電子病歷。隨著醫療信息化的發展,電子病歷在我國絕大多數大中型醫院已經普及。電子病歷除了包含紙質病歷的全部信息,還包含檢驗信息、影像信息,預后信息和結算信息。它能夠承載患者的全部醫療信息,并具有結構化。
第二,醫療費用。醫療費用數據大部分是結構化數據,將城鎮居民醫療保險、新農合直接與醫院HIS中費用核算系統、藥品管理系統對接,可以擴大醫療大數據范圍。
第三,基層數據。社區、鄉鎮衛生院和商業藥店數據是不可忽略的一部分,它能夠更迅速地、靈活地反映人們的健康狀況,監測傳染病疫情。
1.3 發展現狀
對比中外醫療大數據,我國起步較晚,發展水平較低。我國最大的醫療大數據平臺是上海醫聯工程,只覆蓋了上海市級醫院,且該平臺數據僅作為各部門之間的數據交流記錄平臺,還未作研究使用,不能發揮醫療大數據價值。[2]中南大學醫學院與其六個附屬醫院構建湘雅醫療大數據平臺,數據范圍限制在醫院輻射范圍內,研究疾病種類有限。
武志慧提出通過醫療大數據擴大罕見病知識庫,尋找罕見病治療方法;[3]薛付忠關注醫療大數據中時間序列的重要性;[4]郭崇慧利用醫療大數據做出元決策,對決策進行決策;[5]王靈芝闡述了醫療大數據廣泛應用時產生隱私泄露以及帶來倫理上的一系列影響。[6]目前醫療大數據應用的宏觀層面研究較少,尚未能夠發揮宏觀層面的價值。
2 醫療大數據應用
大數據應用需要關注全體數據而不是抽樣數據,要提高效率而不是絕對精準,要找到相關關系而不是因果關系。[7]從這方面來說,利用大數據在短時間內把握醫學動態方向,探究相關關系來解釋不明現象和發現未知問題。
2.1 宏觀應用
第一,疫情防控。2009年谷歌提前幾周預測H1Z1疫情讓世界對大數據矚目,[8]即使2013年再次預測高于實際值,但也正確預測疫情暴發趨勢。
第二,藥物測試。通過醫療大數據能夠找到未知的相關關系。藥物研發后的療效測試、不良反應測試都是在有限樣本中測試,然而通過醫療數據庫中患者的用藥信息,可以持續反映藥物的總體療效和不良反應,還可以更精準地反映不同藥物之間的拮抗協同作用,甚至發現藥物的潛在作用。
第三,發現疾病分布。通過對全體數據的分析,不難發現空間、時間、人群高發疾病和家族遺傳疾病,找出致病因子,提出公共健康建議,提高全民健康水平。
2.2 微觀應用
第一,提供臨床路徑偏好選擇。不同人群面對不同疾病的態度各有不同,在療效、療程、副作用和經濟成本等各方面偏好取舍因人而異,在處理某一疾病時,醫療大數據能夠通過對全體該患者分析出療效、療程、風險、成本,為患者提供多種不同偏好的治療方案。
第二,提供臨床輔助決策。數據表明,全球綜合誤診率30%,我國誤診率27.8%醫療大數據能夠匯聚各類病理數據,總結大量有效經驗作為參考,從而輔助醫生診斷和臨床決策,從而最大限度減少漏診和誤診。
3 問題及解決方法
3.1 信息孤島
信息孤島是指信息不能再部門間相互交流、共享。醫療數據被嚴格記錄下來,然而事實上真正被人們整體利用起來指導行為的數據卻很少,目前大部分醫療數據都是在醫院內部或科室內部交流產生價值,在醫療機構和區域間交流的數據較少,對醫療大數據充分利用程度不高。信息孤島產生原因有:數據系統標準化不夠、重視患者醫療信息隱私、數據的流出會導致經濟利益流出。
提高數據標準化:一方面要做好物質基礎,各醫療單位數據系統能夠兼容,規范統一記錄,對醫院和設備供應商提出統一格式的要求;另一方面做好教育基礎,醫療從業人員要進行相關數據處理技能培訓,醫學高校做好處理醫療數據技術人才培養。存儲電子病歷,在各醫院之間交流,推進EHR發展,是避免信息孤島的前提條件。
醫療數據含有大量患者隱私,流出落入不法分子手中,威脅患者生命財產安全。醫療數據是寶貴的資源,醫療數據流出會導致醫院資源和利益流出,因此需要對醫療大數據庫進行嚴格管理,加強監管。
3.2 結構化轉化困難
醫療大數據結構化處理精準度和標準化的高低,關系到能否有效對數據進行存儲和計算。結構化數據典型特征是可以用二維表的結構來表達,有嚴格的格式和長度要求。
半結構化醫療數據主要就是電子病歷中的患者信息、診斷記錄和治療記錄,一般都是用文字和數字記錄。該記錄要求相對規范,進一步根據其信息特征可以轉化有絕對格式要求的結構化信息。患者基本信息如身份證號、性別、年齡和生命體征,可以用二維表和規范的數字格式進行記錄。
診斷記錄包含大量文字描述,可查詢國際疾病分類(ICD)編碼進行記錄,國際疾病分類第10版(ICD-10)已對絕大多數疾病進行登記。對于治療記錄,依據藥品編碼,在時間序列基礎上,將藥品、攝入方式等進行記錄,條件允許的情況下與檢驗記錄結合,形成預后信息反饋數據并記錄;此外,外科手術記錄參照國際疾病分類-手術與操作編碼。
醫學檢驗數據和醫療費用數據中也含有大量數字和結構化數據,隨著記錄格式規范統一,可以輕易實現結構化。
醫學影像存儲與交流系統(PACS)是非結構化醫療數據,包括核磁共振、CT圖像、超聲成像和X射線等影像數據。挖掘醫學影像數據主要方法是粗糙集理論、人工神經網絡等。挖掘影像數據技術應用在輔助診斷和臨床輔助決策階段,影像數據實現信息化,仍要進一步數字化,才能高效記錄和有效處理。
4 遺留問題
目前而言,大數據與醫療行業耦合程度不高,主要原因有:行業內缺乏數據處理人才,對大數據的認識不夠;普遍關注數據的精準度,忽略數據相關度;挖掘醫療數據能力有限,信息化高,數字化、結構化水平有待提升。
患者自述也是電子病歷中重要部分,是非結構化數據,不同患者對病理特征難以客觀表述,為數據記錄帶來阻礙。
參考文獻:
[1]袁琛.淺談大數據技術在醫療信息化中的應用[J].醫學工程,2016(2):12-13.
[2]馬燦.國內外醫療大數據資源共享比較研究[J].情報資料工作,2016(3):63-67.
[3]武志慧.健康醫療大數據與罕見病的精準用藥[J].科技導報,2017,35(16):20-25.
[4]薛付忠.健康醫療大數據驅動的健康管理學理論方法體系[J].山東大學學報:醫學版,2017,55(6):1-29.
[5]郭崇慧.元決策下的臨床路徑管理模式研究[J].醫學與哲學,2017,38(7):6-9.
[6]王靈芝.醫療大數據的特征及應用中的倫理思考[J].醫學與哲學,2017,38(4):32-35.
[7]恩舍伯格·W.M.大數據時代[M].杭州:浙江人民出版社,2013:17-18.
[8]黃文莉.探討大數據技術在疾病防控上的應用[J].電子技術與軟件工程,2016(6):188-189.