張 振 楊翠湄 徐 靜 李 琳 周 毅
(惠州學院計算機科學與工程學院惠州 516007) (廣州市衛生健康技術鑒定和人才評價中心廣州 510180) (中山大學中山醫學院廣州 510080)
隨著我國醫療衛生事業信息化的不斷發展與完善,健康醫療大數據與人工智能蓬勃發展,智慧醫療成為醫療行業發展趨勢。數據治理是實現智慧醫療的前提,是充分挖掘發揮健康醫療大數據價值以及服務于公眾的關鍵[1]。數據治理是數據管理方法,也稱為“信息治理”,其用于管理個體全生命周期中的健康信息,《DAMA數據管理知識體系指南》將其定義為數據資產管理的權威性和控制性活動。數據治理是對數據管理的高層計劃與控制,包括在數據管理和使用層次進行規劃、監督和強制執行[2]。醫療數據治理對于醫療行業至關重要,無論是醫者還是患者,在正確的時間以正確的方式獲取正確的診療信息才能做出正確的臨床決策。運用數據生命周期治理理念優化組織架構、建立標準體系等措施可以提升醫院管理效能,更有利于醫生做出正確的臨床判斷[3]。由于電子健康信息可以通過互聯網實現互通,數據量呈指數級增長,可以在極短的時間內操作和分析數據,提升數據信息價值。
為了明確當前健康醫療大數據的治理現狀、存在問題以及發展目標,本文搜索收集2013-2022年以“健康醫療大數據”“數據治理”“醫療信息化”等為關鍵詞的文獻,在此基礎上分析健康醫療大數據應用發展現狀,闡述相關數據治理現狀,從定義、結構、問題等層面分析其發展狀態,針對主要問題提出相應對策。
根據健康醫療大數據的來源和作用,其可以分為4類,即診療輔助類、健康監測類、公共衛生類、定向生物醫學類[4]。健康醫療大數據的來源主要有現實世界中的臨床數據、科研數據等數據集或數據庫。健康醫療大數據最初來自于手工記錄,互聯網與醫療日漸深度結合促使數據爆發式增長,在此過程中健康醫療大數據發展應用問題顯現,如網絡數據大多隱藏在復雜布局模式中,需要從中獲取有價值的信息、挖掘其隱藏價值。雖然現有技術手段可以解決一部分難題,但是要提高健康醫療大數據實用性,需要從產生來源上著手。醫療或研究機構需要對數據有準確的認識和合理的定位,在合適的時間使用適宜的技術以提高其實用性[5]。健康醫療大數據將相似病癥的患者聯系起來,使醫生能夠獲取癥狀、副作用、住院信息、藥物信息、臨床報告反饋以及藥物療效等信息,為患者提供更加精確的治療方案,見圖1。健康醫療大數據來源越來越多樣,如可穿戴設備產生的數據等[6-7]。如果把傳統的數據庫管理方式比作“池塘捕魚”,大數據則是“大海捕魚”。其中的“魚”是指待處理的數據,“捕魚”環境變化直接造成了“捕魚”方式的差異[8]。數據分散、來源相同、非結構化給健康醫療大數據發展帶來新機遇,同時也提出新挑戰。只有處理好不同來源、結構的健康醫療大數據,使其充分融合,提供更完善、全面的信息,才能創造更多醫療價值,更好地推動健康醫療大數據發展。

圖1 相似病例為醫生提供治療方案參考
健康醫療大數據具有大數據的5個特征,分別是大體量(Volume)、多樣性(Variety)、時效性(Velocity)、準確性(Veracity)、大價值(Value),即“5V”[9]。此外健康醫療大數據還具有階段性、時效性、冗余性等特點。健康醫療大數據種類復雜多樣且包含一定主觀性,導致其存在一定階段特性;疾病的發生、發展及其病理信息都與時間有較強關聯。此外輔助醫療的相應儀器設備跟時間密切聯系,導致健康醫療大數據的時間性較強;信息孤島、信息煙囪以及疾病的多發性常會導致存在大量無效且冗余的數據,如慢性病患者的重復檢查會導致此類情況產生[4]。同時健康醫療大數據信息還具有一定敏感性[10]。
隨著社會發展,公眾生活水平提高的同時對生活質量要求越來越高[11],利用大數據、云計算、物聯網、人工智能等技術為醫療服務提供信息已成為普遍趨勢。截至2021年我國醫療衛生機構數量已達103.1萬家。為加快健康醫療大數據發展,2019年全國各地市相繼出臺大數據相關政策性文件近200個[12],如國家衛生健康委員會實施“1+7+X”健康醫療大數據應用發展的總體規劃(即建設1個國家數據中心,7個區域中心,并制定若干應用發展中心規范)[13];在衛生行業監管方面,各地逐漸建立公共衛生、疾病預防、健康體檢、衛生監督等數據中心;在醫療機構內部,決策模式已轉變成數據驅動型;在患者健康方面,使用便攜醫療設備便可以向醫療機構提供醫療健康數據[14]。在疫情防控方面信息化手段的有效利用發揮了重要作用,有學者指出應繼續充分利用云計算、大數據、物聯網、5G等先進技術滿足互聯網醫院、遠程醫療等需求,為疫情防控工作提供有力支撐[15]。
目前國際上對大數據發展重視程度較高,各國都積極采取措施抓住發展機遇。2012年部分國際組織和發達國家接連發布系列大數據技術研究計劃,聯合國推出《大數據促進發展:挑戰與機遇》,同年《大數據研究發展計劃》《數據價值鏈戰略計劃》《英國數據能力發展戰略規劃》在美、英等國推行,大力推進大數據研究應用[16]。
數據治理是大數據時代下數據的一種管理方法,數據的使用組織要平衡兩個要求——收集和保護數據信息,并從其中獲取價值。《DAMA數據管理知識體系指南》一書中指出,數據治理是對數據資產管理行使權力、控制和共享決策(規劃、監測和執行)的系列活動。隨著大數據、云計算、物聯網、人工智能等技術不斷發展,我國醫療行業信息化建設不斷完善,健康醫療大數據結合人工智能展示出前所未有的生命力。隨時都有大量醫療健康數據生成,將其不斷收集與完善則可整理存儲為電子健康檔案數據,運用數據生命周期治理理念,優化組織架構、建立標準體系,經過規范化管理后對于醫療、管理、科研等方面具有重要的價值,這就是健康醫療大數據的治理[17]。具有結構性、組織性的患者健康信息可以大大提高醫療機構運營效率、降低醫療成本并提高患者就診的安全性和質量,這是健康醫療大數據治理的意義所在。
我國數據治理相關研究很多,但在醫療領域應用較少,一般較多應用于通信、金融、互聯網等領域。盡管相關工作已開展多年,而且醫療機構數量較多,但醫療數據卻一直處于閑置狀態,并沒有被應用產生進一步價值,反映出大多數醫療衛生機構信息化能力不足,我國健康醫療大數據發展還處于數據治理的早期階段。
目前醫療成本高、就醫程序多、醫護資源少、知識普及范圍小仍是我國醫療領域的短板。對于國內所處的數據治理階段而言,有學者提出大數據治理參考模型應包含原則、關鍵域、實施和評估4個要素,幾乎涵蓋健康醫療大數據治理工作的方方面面[18]。我國信息技術服務標準(Information Technology Service Standards,ITSS)信息技術治理工作組(Fundamental Standards Working Group,WG1)曾提出數據治理要素模型,明確數據治理3個主要方面,并在國際上形成共識[19],見圖2。我國智慧醫療建設正在不斷發展中,但與國際水平相比還有一定差距,要加快國內健康醫療大數據發展步伐,目前最優解是建立完善的數據治理體系,充分利用閑置的醫療數據并轉化為有價值的數字資產。

圖2 數據治理3要素
部分國際組織在健康醫療大數據治理領域不斷進行研究和實踐。目前各國在數據提供和使用方面存在顯著差異。例如美國已建成覆蓋本土12個區的電子病歷數據中心、9個醫療知識中心、8個醫學影像與生物信息數據中心[14]。在22個接受經濟合作與發展組織(Organization for Economic Cooperation and Development,OCED)調查的國家中,數據可獲得性、成熟度和使用率最高的醫療信息系統位于丹麥、芬蘭、冰島、以色列、韓國、新西蘭、挪威、新加坡、瑞典和英國[20]。美國許多醫療機構提供安全存儲患者健康信息的數據庫,且制定相關程序以確保數據的安全存儲、正確使用和訪問符合相關法律。但上述醫療機構大多數沒有進行數據管理方面的研究,僅限于數據傳輸和隱私安全標準的制定,更傾向于強制合作,建議數據管理系統包含原則、政策、標準、流程、技術等[21]。此外有國際組織建議通過數據倉庫管理確保數據完整性并保護患者隱私信息[22]。
隨著谷歌、蘋果、國際商用機器公司(International Business Machines,IBM)等大型科技公司開始研發個人健康設備[23],健康醫療大數據數量呈爆發式增長,但其并不能直接轉化為有價值的數據,缺少足夠的管理政策和明確的責任人,健康醫療大數據治理依然不夠完善,新問題不斷出現導致數據缺口持續存在。從全球來看,持續的數據缺口和不同背景數據的凌亂分布阻礙了全球健康醫療大數據的發展。醫療數據使用涉及多方利益競爭。一方面,大型科技公司與醫療衛生機構合作,個人便攜健康設備的興起直接導致個人健康數據激增;另一方面,有價值的健康數據較少、信息管理難度較高,數據缺口巨大。各種復雜問題的逐漸顯現推動新的技術、組織和政策環境形成。分析目前健康醫療大數據在國內外的發展情況可知,包括我國在內的許多國家雖然已著手研究數據治理在醫療健康行業的結合應用,但關于智慧醫療建設的研究依舊處于初步發展階段,我國智慧醫療建設依然具有巨大發展空間,數據治理與醫療健康行業的結合發展也有較長的路要走。
數據治理長期存在一些問題,包括數據的知識產權、數據共享、數據再利用和數據存儲等,需要優化數據治理過程。數據治理的最終目的是提升數據成熟度,而提升數據成熟度可以從多個方面進行,本文將基于數據質量、內容管理、數據安全、主數據管理、數據共享5個數據治理問題提出相應對策,探究健康醫療大數據未來發展趨勢。
3.3.1 數據質量 數據質量涵蓋準確性、完整性、一致性、時效性、可信性和可解釋性等關鍵因素,其影響醫療健康信息技術發展。為了提高數據時效性,醫務人員在實際工作過程中將所有數據信息記錄在工作平臺系統中,并按照一定規則和標準匯總到衛生健康委員會的數據處理部門[24]。實際上部分醫院存在對數據資產價值認識不足、利用不充分、忽視數據質量等問題,導致系統中存在大量“臟數據”。其中數據治理執行標準不統一或者不按標準執行、數據完整性差、信息割裂形成信息孤島、信息不準確等因素是導致數據質量低的直接原因[25]。為保證數據質量,要做到數據規范、準確、完整及有效整合,提升臨床數據應用水平。可以實施兩個方面措施:一是臨床決策輔助,推廣電子病歷使用并提升使用率,有助于深化臨床數據應用;二是臨床科研支撐,構建規劃統一的臨床科研數據庫[26]。2018年國家衛生健康委員會發布《關于印發電子病歷系統應用水平分級評價管理辦法及評價標準的通知》,指出醫療質量和數據質量至關重要。有效提升數據質量就要進行數據治理,建立數據治理支柱、數據治理周期、數據治理實施方法、完善的數據治理體系[27-28]。
3.3.2 數據內容管理 醫療數據內容包括人們針對疾病防治以及健康管理過程中形成的所有與健康醫療相關的數據[29],對于其管理還有很多技術方面的問題需要解決。例如應及時整合、更新病房醫療設備所獲得數據。設備需支持網絡輸出的硬件接口并逐步將監護儀、呼吸機、輸液泵、床邊血氣分析等重要設備的數據輸出集成到相關信息系統中。除技術措施外,管理數據內容還需要強有力的措施[5]。數據管理方面,從用于分析的數據管理解決方案到可操作的數據庫管理系統,其解決方案形式多種多樣,每種方式都有其特定的功能、優點和缺點。首先,由于各機構工作對數據信息采集的機制和側重點存在差異,容易出現同一數據對象重復采集的問題。其次,標準規范不統一、法律規范不完善影響醫療健康數據治理發展。再次,組織或機構主體技術差異導致數據治理發展失衡,如大城市往往會比小城市獲得更先進的醫療資源。最后,相關機制不健全、組織自身管理不到位等問題導致整個社會中組織的力量很難被充分挖掘,影響數據治理在醫療健康行業的效能。進行大數據治理的重要環節是遵循統一標準管理。為保證數據的規范性、流通性、安全性以及共享性,數據治理要構建合理、合法的運行機制和體系結構,以此減少數據在采集、共享、管理等過程中可能出現沖突的問題[30]。要建立完整的醫療大數據治理管理機制,明確數據信息收集處理規范和基本原則,規范其法律邊界,以保證健康醫療大數據治理健康發展,為健康醫療大數據治理提供支撐,見圖3。

圖3 數據治理結構
3.3.3 數據安全 在全球范圍內大數據分析是一項重要技術,廣泛應用于醫療等各業務領域。在健康醫療大數據治理過程中,數據安全成為高風險點,應得到充分關注,并通過大數據方法加以解決。數據安全治理法治化的前提是有法可依,國家衛生健康委員會在2018年9月制定的《國家健康醫療大數據標準、安全和服務管理辦法(試行)》規定我國公民的醫療數據要在保障公民知情權、使用權和個人隱私的基礎上進行規范管理和開發利用。該法規明確了國家、機構或組織等對數據信息的權利[2]。醫療健康領域嘗試使用一種基于雙線性配對密碼體制的三方一輪認證密鑰協議以在云中提供安全的醫療健康私有數據,見圖4。該方法可以在參與者之間生成會話密鑰并進行安全通信,通過使用誘餌技術安全地訪問和存儲私有醫療數據。當攻擊者識別處理誘餌庫時,通過加密原始文件提供雙重安全保障。該方法可為任何用戶提供誘餌數據庫,同時隱藏原始數據,只有通過成功驗證才能為安全用戶所使用[31]。

圖4 基于雙線性配對密碼體制的三方一輪認證密鑰協議
3.3.4 主數據管理 主數據是唯一可識別并實現準確、跨業務共享的信息。幾乎所有用戶都可以輕松地對其進行共享并無需進行數據轉換,整個組織的每個人都認可其定義、標準、準確性和權威性。主數據管理的原則是將企業信息作為一種戰略資產加以管理,從而提供端到端的業務監督、戰略能力的基礎。主數據管理不僅是信息技術問題,更是業務需求,可以簡潔明了地監管數據,更好、更容易地獲取數據,有助于簡化流程、加快由數據驅動的戰略決策產生,其具有清晰性、一致性特點,可推動健康醫療大數據加速發展。為了更好地掌握數據,保證數據的準確性和完整性,需要解決信息孤島問題。醫療健康主數據管理可分為患者主數據和業務主數據兩種。其中業務主數據包括機構數據標準以及區域、行業標準等。除使用主索引作為工具管理患者主數據外,還可以使用電子住院證實現對患者主數據的關聯查詢。主數據的正確利用可以提升數據分析成功率和利用率[5]。
3.3.5 數據共享 多組織之間醫療信息共享是開展數據挖掘的前提條件,目前數據共享可分為自行收集、無償提供、自愿公開3種方式,其具有不穩定性、被動性等缺點。當前健康醫療大數據共享性差的主要原因有以下4點:第一,主導權不確定,一個由多個機構提供數據來源的平臺讓任何一方主導都會導致別的機構可能出現不滿;第二,數據泄露風險大,在共享前提下難以避免隱私數據泄露風險;第三,數據獲得權問題,如果無法明確數據信息的源頭、使用方、管理方及受益人則無法對使用者精準授權,影響數據共享性;第四,缺乏激勵機制,如果沒有能量化各數據提供者對數據信息整合平臺所做貢獻的機制,那么其所提供數據質量無論好壞獲益均相同,這將影響各方共享數據信息的積極性[32]。有學者指出應用是大數據的出發點和歸宿,大數據應用不能忽略其商品屬性,這將是醫療健康數據共享的關鍵突破點[33]。對于醫療健康數據共享這一難題,更多學者認為需要在雙方訂立合同的基礎上平等地進行數據交易,使數據變成商品, 真正地帶動大數據產業發展[34]。
隨著醫療信息化發展,健康醫療大數據呈現爆發式增長。這對人口健康信息化服務和管理能力提升帶來機遇和挑戰。一方面,國內外均發布了健康醫療大數據治理的相關政策、制定了相關標準、成立了健康醫療大數據聯盟和學術組織;另一方面,健康醫療大數據治理的體系仍未健全,如“數據孤島”等現象影響數據的獲取和管理,數據隱私安全問題亟待解決。伴隨醫療數字化發展,大數據的價值及其對健康醫療事業發展的推動作用日益受到重視。健康醫療大數據治理結果直接影響公眾生命健康,因此應提升對數據質量和管理的要求,在更大范圍開展健康醫療大數據治理的跨學科合作,并將建立健康醫療大數據治理體制提上日程,促進數據治理發展。