廣東工業大學 沈 明 邱耀儒
近年來,隨著物聯網、云計算技術的高速發展,數據量的快速增長為許多行業帶來嚴峻挑戰的同時,也帶來了寶貴的機遇。對于醫療行業,如何將數據應用于醫療上,來改變傳統的就醫形式,一直是科學家所希望解決的問題。目前各個國家都在致力于構建國家醫療數據平臺,實現就醫簡單化、效率化的進程。醫療行業所產生的數據來自于PACS影像、B超、病例分析等業務所產生的非結構化數據。如何將這些數據整合起來進行利用,正是目前大數據應用于醫療服務上的關鍵問題所在。
隨著存儲和連接費用的降低,在因特網上使用非常大的數據庫已經成為可能,再加上廉價的計算,已經使得在大數據上運行學習算法成為可能[1]對于醫療數據的存儲,需要建設中心機房、健康醫療數據目錄庫建設和中心平臺建設。關于平臺的維護可以交由專門的互聯網公司進行管理與維護,這樣在保證數據安全的同時降低了成本。大數據的大不等于海量數據,而是海量數據加上復雜類型的數據。通過圖1所示,我們可以看到大數據的4V特性,這也是醫療數據的特性。

圖1 大數據的4V特性
大量的醫療數據來源醫務人員的人工輸入,由于在此之前沒有進行統一化的標準,不同醫療機構之間所記錄的醫療數據可能千差萬別,于是在平臺收集數據時可能得到各種各樣非結構、參差不齊的數據。如表1所示,可以看到數據來源的多樣性。如果一個病人在不同的醫院就診就會產生多份醫療數據,這樣會造成數據的冗余,因此,需要進行實時的更新數據,完善患者個人病歷資料信息。醫院每天都會產生新的醫療數據,這也是大數據醫療中心最主要的數據來源,需要醫院實時的向醫療中心平臺共享新的醫療數據。

表1 數據來源
收集到醫療數據之后,需要將數據進行歸一化整理,提取病患病歷中的關鍵信息,去除無用信息后進行存儲。通過這樣的方式來減少中心平臺的存儲壓力,同時為模型的預測進行了初步的特征篩選。平臺通過對收集到的數據進行分析,訓練出預測模型供各大醫療服務機構使用。醫療個人數據是一種極具特殊性及敏感的個人數據,其使用面臨一系列法律和倫理問題[2]需要妥善的隱私保護。
只有解決了數據的采集與管理問題后,才能進行數據分析,充分發掘數據背后的價值。通過各個醫療服務平臺的數據連通,將海量大數據有序整合,運用合適的算法進行自動分析與挖掘,才能真正的為公眾提供更好的醫療服務。各個醫療機構可以根據獲得的分析結果對就診的病人進行初步的病情判斷與了解,提高了患者就醫效率。
大數據對于醫療衛生領域產生了巨大的推動作用,只有在技術、政策與資金的同時推進,才能構建出完整、高效的醫療服務中心平臺。