


關鍵詞: 數字健康產業; 數據治理; 五要素集成論; 治理體系; 技術架構
DOI:10.3969 / j.issn.1008-0821.2024.09.011
〔中圖分類號〕G256.5 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2024) 09-0131-11
全球數字化革命的加速發展, 數字技術逐漸賦能醫療健康服務, 數字化、網絡化、智能化等現代科技手段的應用, 正在逐漸改變傳統線下醫療的形態, 數字健康應運而生。尤其是新冠肺炎疫情期間,人工智能、物聯網、云計算等數字信息技術在醫療健康領域方面更是起到了重要支撐作用。習近平總書記強調“要高度重視新一代信息技術在醫藥衛生領域的應用, 重塑醫藥衛生管理和服務模式, 優化資源配置、提升服務效率”。隨著數字健康作為一種新型服務模式的不斷發展, 它已經成為醫療健康領域的新生產力和新發展方向。同時, 數字健康產業也進入了高速增長階段, 并逐漸成為數字經濟發展的新動能。在我國積極推進“數字中國” 和“健康中國” 的背景下, 數字健康產業正處于數字化轉型的關鍵時期。但是目前我國的數字健康產業市場發展尚不成熟, 涉及行業領域較多, 政府精準管理存在困難, 存在著產業發展方向不明晰、產業數據安全系數低、行業競爭加劇等問題。
隨著產業數字化改革的持續進行, 數字健康產業中的數據也正在以指數級速度增長, 并且數據結構也愈來愈多元化。但是這些海量、多元的數據大多是存儲與管理在不同的組織和部門之中, 面對跨部門、跨區域、跨層級的數據, 出現了數據孤島、數據共享困難、數據融合困難、數據安全與隱私保護困難、數據賦能率低等問題。為了促進政府數字化產業治理、提升數字健康產業的協同創新、優化產業資源配置和效率, 以及提升數字健康產業數據價值, 數據治理成為了數字健康產業高質量發展與其數字化轉型升級進程中迫切需要解決的問題。因此, 本文擬通過分析目前數字健康產業數據現狀和數據治理的必要性, 規劃數字健康產業數據治理過程, 提出數字健康產業治理體系邏輯框架以及技術架構, 以期為未來數字健康產業數據治理實踐提供理論與技術參考。
1相關研究
1.1數字健康相關研究
隨著數字健康理念的興起, 數字健康相關研究也逐漸成為了一個備受學者們關注的領域。目前,國內外對于數字健康的相關研究主要圍繞理論探討與實踐應用兩個方面。在理論探討方面, 其主要圍繞數字健康的定義、發展階段等方面, 歐盟[1] 將數字健康定義為利用現代通信技術, 滿足普通公民、病人、醫務工作者和醫療決策者的需要的一系列活動。國內學者黃如意等[2] 提出了數字健康的含義有狹義與廣義之分。從狹義上講, 數字健康是指通過數字化、網絡化和智能化技術為醫療衛生服務賦能的過程。從廣義上講, 數字健康是將數字化技術和衛生管理相結合。秦建友[3] 基于數字經濟與健康產業發展現狀探討數字經濟對健康產業發展的重要意義。在數字健康實踐應用方面, Maier E 等[4] 認為,當前數字健康實踐應用成果多屬于數字醫療服務,主要包括電子醫療服務、移動醫療服務和遠程醫療服務等。Zheng Y L 等[5] 認為, 目前存在的數字健康應用程序可以與腕帶傳感器、心率傳感器、皮帶傳感器、鞋子傳感器等可穿戴設備進行無線同步, 從而獲取更精準的健康信息數據, 為個人健康管理和醫療決策提供支持。Cross S P 等[6] 認為, 數字心理健康技術與面對面臨床護理的整合使用有潛力提高青少年的護理質量, 提高了其心理健康服務質量。
1.2數據治理相關研究
數據治理是以數據為對象, 在保證數據安全的基礎上, 構建完善的規則體系, 明確各參與方在數據流通過程中的權責關系, 形成多參與方共享、共治的流通模式, 實現數據價值的最大化[7] 。大數據時代背景下, 國內外學者相繼對數據治理展開研究,研究主題主要分布在概念界定、邏輯框架研究、治理工具探究等方面。
數據治理起源于企業管理、IT 管理, 近年來已逐漸蔓延到政府、科研院所、產業等較多的機構和應用場景中, 并出現了政府數據治理、科研數據治理、產業數據治理等概念。在各類研究中, 數據治理概念定義也較為多樣化, 暫未有統一、明確的定義。夏義堃[8] 從數據的發展過程出發, 把數據治理視為信息管理中不可或缺的組成部分。樊振佳[9]認為, 數據治理是為了提高數據質量而采取的一系列管理控制活動的集合, 包括對數據資源實施計劃、監督和執行等。根據國際數據管理協會[10](Interna?tional Data Management Association, DAMA) 的定義, 數據治理是指對數據資源進行規劃、監控和執行等方面的權限與控制。數據治理協會[11] (TheData Governance Institute, DGI)認為數據治理是一個系統, 通過一系列信息相關的流程來實現決策權和職責分工。Seiner R S[12] 認為, 數據治理是對數據以及相關資產進行正式管理和權力實施的過程。
在數據治理框架研究方面, 目前較為系統化、具有指導性的框架主要是現存的一些行業標準, 如DAMA 框架和DGI 框架。我國數據治理相關國家標準《數據治理規范》(GB/ T 34960.5-2018)和企業數據治理系統標準也參考了DAMA 框架、DGI 框架、ISO(國際標準化組織)國際標準框架。目前, 各機構對于數據治理的定義和數據治理實施辦法也各有不同, 但其宗旨都是實現數據統一管理、提高數據質量、挖掘數據的潛在價值。其中, DAMA 框架主要介紹了數據治理的功能與環境要素, 并闡述了功能與環境要素之間的對應關系。而DGI 架構則將數據治理的十大要素之間的邏輯聯系以一種“路徑” 的形式呈現出來, 從而構成了一個從方法論到實現的完整體系[13] 。ISO/IEC 38505-1 將數據治理定義為IT 治理的一個子集或領域, 而IT 治理本身是組織治理或企業治理的一個子集或領域[14] 。
目前, 數據治理工具主要分為技術手段工具和行政手段工具, 在技術手段工具方面[15-16] , 主要是關注數據的集成與處理能力, 如數據標準體系的構建、數據資產管理、數據處理技術、數據的算法模型與可視化工具、云計算平臺、大數據管理平臺等。行政手段方面則側重于政策法規體系的建設、數據的審計、數據價值評估、數據資產定價等, 通過業務驅動, 建立數據的流動, 進而達到組織的協同。
綜上所述, 目前國內外對于數字健康相關的研究主要在理論探討與實踐應用方面, 對于數據健康產業數據相關的研究較少。對于數據治理的研究主題主要分布在概念界定、邏輯框架研究、治理工具探究、治理實踐和經驗剖析等方面。為了解決數據治理問題, 學術界雖已提出了一些數據治理框架,但目前現有的框架標準均側重于解決政府與企業的傳統數據問題, 對于涵蓋多個行業、企業方面的產業數據治理涉及較少, 在數字健康產業方面的數據治理更是存在空白, 尚未形成統一完善的體系, 并且在技術實現上也缺乏相應的理論依據。基于此,本文擬通過闡述數字健康產業數據現狀和數據治理的必要性, 提出產業數據治理流程, 基于相關理論構建數據治理體系的邏輯框架, 并在此基礎上提出數字健康產業數據治理體系的技術架構, 以期為未來數字健康產業數據治理實踐提供研究路線與借鑒。
2數字健康產業數據現狀
2.1數字健康產業數據來源
世界衛生組織[17] 認為, 數字健康是指在大數據、云計算、人工智能等新興技術的引領下, 對醫療市場以及健康服務業務供給產生重大影響的新興業務模式、新技術應用、新產品服務、新監管方式等, 是醫療衛生與人們的日常生活和社會活動緊密結合的結果。健康產業是指建立在醫療保健和生物技術、生命科學的基礎上, 旨在維護、改善人們的身體健康狀況, 向社會大眾提供與健康有直接關系或者密切相關的產品(商品和服務)的一種生產活動集合[2] 。
因此, 結合相關學者對于數字健康以及健康產業的定義, 本文認為數字健康產業是指在大數據、云計算、人工智能等新型信息技術的引領下, 以生物技術和生命科學為先導, 涵蓋數字醫療、數字醫藥、醫藥電商、數字醫保、數字醫養等健康服務功能的健康產業, 旨在通過數字化技術改善健康管理、提高健康服務質量、提升健康資源共享效率, 從而改善人們的健康水平。
數字健康產業鏈節點囊括了數字醫療、醫藥電商、數字醫檢、數字健保、數字康養、器械研發、醫藥研發、信息化廠商、醫療設備經營商、藥店、醫院、醫生學術培訓等行業。數字健康產業數據的來源則是涵蓋了整個產業的上、中、下游中的各個企業和組織。具體從數據內容來看, 數字健康產業上游數據內容主要包含了醫療設備制造商、器械研發機構提供的醫療設備數據和生產數據等可公開數據, 以及醫藥研發機構提供的臨床試驗數據、藥物相互作用數據等可公開數據; 數字健康產業中游數據內容主要包含了醫療信息系統、數字醫療服務商提供的電子病歷、醫療影像、就診記錄等部分可公開數據, 以及醫藥電商提供的消費者健康產品購買記錄、用戶健康檔案等可公開數據。數字健康產業下游數據內容主要為醫院、藥店等醫療健康服務機構提供的患者就診、用藥記錄等可公開的醫療服務數據以及消費者提供的個人健康檔案、健康管理數據、健康需求數據等可公開數據。
2.2數字健康產業數據特征
隨著技術的進步和政策的推動, 數字健康產業不斷發展和完善, 也更好地服務于社會大眾的健康需求。伴隨產生的則是海量的數字健康產業數據,依據數字健康行業的特性, 數字健康產業的數據特征可以從數據體量龐大且不斷增長、數據的多源性和異構性、數據的敏感性和保密性、數據的流動性4 個維度進行闡述。這些數據特征共同定義了數字健康產業的復雜性和潛力, 為提高數據治理、醫療質量、促進健康管理提供了強有力的支持。
1) 數據體量龐大且不斷增長
隨著智能設備和健康監測工具的普及, 數字健康產業數據呈現指數級增長。例如, 在健康大數據分析場景中, 通過處理海量的個人健康數據, 可以發現疾病發生的模式和趨勢, 為公共衛生決策提供科學依據。
2) 數據的多源性和異構性
數字健康產業領域涉及的數據類型廣泛, 數據來自各種來源, 包括醫療機構、設備制造商、器械研發商、醫藥研發商和患者等。數據格式和內容可能有所不同, 需要整合和標準化。例如, 在遠程醫療場景中, 醫生需要綜合患者的醫療歷史、實時健康監測數據和生活習慣等多源數據, 以做出更全面的診斷。
3) 數據的敏感性和保密性
由于健康涉及個人隱私, 因此數據安全和隱私保護是行業的關鍵要求。例如, 在健康信息管理系統中, 必須實施嚴格的數據加密和安全措施, 確保數據安全和隱私安全。
4) 數據的流動性
現代數字健康數據需要實現跨平臺、跨系統的流動與共享。例如,在電子健康記錄的應用場景中,通過電子病歷系統的互操作性,可以實現患者信息的無縫轉移。
2.3數字健康產業數據治理實踐現狀
在政策立法實踐方面,2016年,國務院辦公廳發布了《關于促進和規范健康醫療大數據應用發展的指導意見》, 其中明確指出健康醫療大數據是我國重要的基礎性戰略資源, 應依據新興信息技術的發展趨勢, 規范推動健康醫療大數據融合共享、開放應用。2018 年, 國務院辦公廳發布《關于促進“互聯網+醫療健康” 發展的意見》中提到, 要加快建設基礎資源信息數據庫, 完善全員人口、電子健康檔案、電子病歷等數據庫, 推動建設統一權威、互聯互通的全民健康信息平臺, 健全全國醫療健康數據資源的統一規范目錄和標準體系。2018 年, 國家衛生健康委發布的《國家健康醫療大數據標準 安全和服務管理辦法(試行)》中對數據的標準管理、安全管理、服務管理、管理監督等提出了詳細的管控辦法。除了健康醫療大數據相關的專門性行政法規外, 我國在此期間也頒布了《中華人民共和國網絡安全法》《中華人民共和國數據安全法》以及《中華人民共和國個人信息保護法》3 部法律,其中包含了對于數字健康產業數據的分類分級、安全合規評估、個人健康醫療數據保護等制度, 為醫療健康行業提供了配套規則體系, 初步構成了我國數據治理的基礎性法律體系。
在數字健康產業數據治理實例方面,CHIMA發布的《2021—2022 年度中國醫院信息化狀況調查報告》中提到, 醫院的電子病歷數據庫逐漸形成, 逐漸重視醫院信息互聯互通標準化成熟度測評, 醫院的信息化建設投入金額也普遍增加。魏玖長等[18]從個性化健康管理服務、醫療衛生服務、公共衛生服務、醫藥服務方面描述了健康醫療大數據的治理如何賦能大健康產業升級。張振等[19] 從健康醫療大數據治理的內容、安全、質量、共享等方面提出了相應的對策和建議。
綜上所述, 目前我國雖然提供了相關的技術文件、部門規范性文件指引數字健康產業數據治理,但是數據立法的整體框架的呈現比較模糊和抽象,產業數據權屬、評估、共享、權利保護以及交易規則等制度供給也不夠全面、均衡、有效。在數字健康產業數據治理實例方面, 也較多集中在健康醫療大數據治理方面, 對于整個數字健康產業數據治理的實踐較為匱乏。
數字健康產業是典型的數據集中、以數據為核心資產和業務的大數據行業, 隨著我國產業數字化的不斷轉型升級, 數字健康產業數據資源建設已經發展到了一定階段, 數據積累也達到了相當規模,產業數據具有體量大、結構散等特點。因此, 數字健康產業亟需打造一個新型、有效的產業數據治理體系, 通過整合與管理產業鏈上下游的資源與數據,推動數字健康產業的可持續發展, 充分發揮產業數據的強大力量, 實現數字健康產業主體的協同發展。
3數字健康產業數據治理的必要性與治理過程
3.1 數字健康產業數據治理的必要性
隨著信息技術的飛速發展和人們對健康的日益關注, 數字健康產業迅速興起。在這一背景下, 產生了大量的數字健康產業數據, 這些數據不僅包括醫療記錄、患者信息等傳統醫療數據, 還包括基因組學數據、健康管理數據、移動健康應用數據等新興數據類型。如何促進對這類數據的有序、規范、安全和高效地使用, 保證數據在數源單位、平臺中心和使用單位之間的高效、優質的流通, 是充分發揮數據要素的作用, 持續推進數字健康產業數字化發展的關鍵。本文將從數據安全、數據質量、數據共享、數據隱私保護和合規性、數據互操作性和集成需求5 個方面對數字健康產業數據治理的必要性進行詳細分析。
1) 數據安全需求
從數字健康產業數據來源分析, 可知數字健康產業數據的來源主體多, 數據多源且繁雜, 其數據主權、數據邊界界定較為困難, 但數據的挖掘價值較大[20] ; 從數字健康產業數據內容分析, 數字健康產業數據中涵蓋生產、臨床試驗以及大量敏感的個人健康數據, 數字健康產業數據具有更高的隱私性與保密性[19] 。因此, 數字健康產業數據的安全治理顯得尤為重要。在數據治理過程中, 一方面要對數據從數據來源到數據應用的全生命周期進行管理, 保障數據的可用性; 另一方面需要全面對數據從來源到應用和共享等各個環節進行數據安全管理,從管理、技術等多個方面實行分級分類的數據安全防控策略, 為數字健康相關企業提供有效的數據保護, 以保障其數據權利和商業機密不受侵犯, 切實保護國家數據資源安全。
2) 數據質量需求
隨著互聯網、人工智能等科學技術的進一步發展, 數字健康逐漸成為主流, 數字健康產業也逐步繁榮, 對于主要依托于互聯網技術的數字健康產業來說, 其在發展、經營過程中產生了海量的數據資源, 數據已成為數字健康企業和政府的一項重要生產要素。然而, 當前數字健康產業包含主體眾多,來源廣且繁雜, 由于錄入錯誤、數據不一致、缺乏標準化等問題, 數據質量參差不齊[21] 。因此, 數字健康產業需要建立數據質量監控機制, 規范數據錄入和整合流程, 提升數據的準確性和一致性。
3) 數據共享需求
數字健康產業數據范圍、標準等方面的不統一, 使政府部門之間、政府與企業之間、企業與企業之間的數據的多向流動和融合存在較多問題, 沒有形成統一聯動的共享機制, 數據的歸集、整合、清洗、比對等普遍滯后, 在一定程度上阻礙了海量數據資源的共享[2] 。數字健康產業的數據治理目標之一是要克服制度、標準和技術等多方面的瓶頸,以有效推動政企間的數據共享, 從而激活數據資源的價值。在數據治理過程中, 結合數據共享與交換需求, 健全數據的定義、范圍、質量管理、安全管理等標準規范, 建立健全數據分級分類制度, 推進數據的標準化建設, 促進數據的高效互通。因此,數字健康產業需要建立數據共享的標準和政策, 推動數據共享的開放和安全性。
4) 數據隱私保護和合規性需求
數字健康產業涉及大量的個人健康數據, 因此隱私保護和合規性要求是至關重要的。隨著數據治理法規的不斷完善, 數字健康產業需要確保數據處理的合規性, 保護用戶數據隱私和數據所有權[22] 。因此, 數字健康產業需要建立嚴格的數據合規性審核機制, 確保數據使用符合法律法規和倫理規范,維護數據主體權益。例如, 在云健康管理平臺中,醫療機構需要確保患者的敏感信息不會被未授權的人員訪問。此外, 根據不同的法規, 醫療機構也需要遵守相應的數據保護法規。
5) 數據互操作性和集成需求
數字健康產業需要實現不同數據源之間的互操作性和集成。例如, 在電子病歷系統中, 通過采用標準化的數據格式和接口, 不同醫療機構之間可以共享患者的健康數據, 從而實現更全面的醫療服務和協同工作。
3.2數字健康產業數據治理過程
通過分析數字健康產業數據現狀與數據治理的必要性可知, 伴隨著科技與信息技術的不斷進步,數據已經變成了日益重要的生產要素和戰略性資產,如何讓數據創造更多的價值, 發揮數據要素作用,推動數字健康產業的建設與發展, 為政府產業數字化治理與企業精準決策提供數據輔助, 產業數據治理已成為當前迫切需要解決的問題。數據治理是組織中涉及數據使用的一整套管理行為, 數字健康產業數據治理是指各級政府對于產業數據價值的挖掘與利用, 主要是通過利用云計算、人工智能、物聯網等智能技術, 對數據使用的過程進行規劃、指導、執行、監督和評估等, 不斷挖掘數據潛力, 使得數據不斷地重新賦能數字健康產業[23] 。PDCA(Plan-Do-Check-Action)是全面質量管理理論的思想基礎和管理依據, 其基本原理是通過反復地循環執行直到問題解決。從數據治理成熟度模型[24] 可知, 數據治理是一個包含管理建構和技術建構雙重屬性的復雜體系, 數字健康產業數據治理作為數據治理的一個特殊應用場景, 其自身也是一項具有雙重屬性的復雜任務, 借鑒PDCA 循環理論的方法與迭代思路對其進行持續性改進具有重要意義。因此, 本文結合PDCA 循環理論設計了數字健康產業數據治理過程, 具體數據治理過程如圖1所示。
規劃階段主要是針對數據治理實施工作進行的前期規劃和設計, 主要包括分析數字健康產業多源數據狀態、制定數字健康產業數據治理目標、建立數字健康產業數據治理體系、定義數字健康產業數據標準等事項; 實施階段是數據治理的具體實踐的操作階段, 其主要是在依據規劃階段的基礎上進行技術層面的研發和實施, 主要包含數字健康產業數據的采集、清洗、存儲、計算、服務等操作; 評估和改進階段主要是通過制定相應的考核標準和制度評價體系對其數據治理效果進行評估, 并在之后進行實時的監控, 當數據治理效果不理想或者達不到相應的評價標準時, 即可考慮對數據治理體系進行改進。
4數字健康產業數據治理體系
4.1數字健康產業數據治理體系邏輯框架
數字健康產業數據治理體系的邏輯框架是解決數據治理相關問題的理論研究和技術實踐的基礎,揭示了數據治理問題的分析框架和研究邏輯。自數據治理被提出以來, 國外相繼形成了DAMA 框架、DGI、IBM 等框架, 這些框架在開發的過程中主要是依據西方特有的場景和標準, 在一定程度上并不適合我國的國情。《信息技術服務_治理第5 部分:數據治理規范》(GB/ T 34960.5—2018, 簡稱《數據治理規范》)是由我國頒布的一個數據治理規范,從信息技術服務視角提供了數據治理通用框架[25] ,但是其缺乏從多維度對數據治理進行梳理。在數據治理理論基礎的選擇上, 當前研究多聚焦于治理主體、客體、活動和目標等關乎體系構成內容的多元理論選擇[26] , 目前基于五要素集成論的理論視角的方法論是構建數據治理體系邏輯框架的主流, 適用于大數據的治理分析[27-28] 。因此, 本文以《數據治理規范》和五要素集成論為理論基礎, 從治理主體、治理客體、治理活動、治理工具、治理目標5 個維度去分析和構建數字健康產業數據治理體系邏輯框架, 如圖2 所示, 其邏輯流程主要是治理主體圍繞治理目標, 通過對治理客體利用相應的治理工具, 開展一系列的諸如數據采集、存儲、計算等治理活動, 進而實現一系列的數字健康產業數據治理目標。
1) 治理主體
數字健康產業數據的治理主體由政府機構與數字健康相關行業、企業以及醫療機構等組成, 它是一個以政府機構為主導的多層次的多元治理主體。政府主體主要包含數字健康產業領域的職能管理部門、數據管理機構等。數字健康行業主體是指旨在統籌、引領和推動整個數字健康產業發展的組織。這些組織通常由政府機構、行業協會、專業團體或跨國組織等建立和運營。其職責包括制定行業標準、促進技術創新、倡導政策制定、協調各方利益關系、推動行業合作與發展等。數字健康企業主體則主要包含數字醫療、數字醫檢、數字健保、數字康養、醫藥電商、器械研發、醫藥研發、信息化廠商、醫療設備經營商等企業。醫療機構主體則是以醫院為首, 具備醫療服務資質和條件, 能夠提供醫療診療、治療、護理等醫療服務的實體或組織, 其在數字健康產業中扮演著至關重要的角色, 是醫療服務提供的主體單位。
在進行數字健康產業數據治理時, 要充分發揮政府主體內部之間、政府與其他治理主體之間的數據共享與協同, 使得產業數據支撐起整個數字健康產業戰略部署, 共同營造內外共治共享的服務狀態。治理主體的核心內涵即政府主導下的多元主體合作,因而在治理過程中要明確數據權屬關系和各組織在治理過程中的角色與責任, 精確部署機構數據治理行動, 促進數字健康產業數據的協同共享。
2) 治理客體
數字健康產業數據治理客體是指在數字化健康醫療領域中產生的各類信息和統計資料, 涵蓋了醫療、健康管理、醫學研究等方面的數據。這些數據來自數字醫療、醫藥電商、數字醫檢、數字健保、數字康養、器械研發、醫藥研發、信息化廠商、醫療設備經營商、醫療機構等多個信息源, 數據資源呈現出數據來源多樣性、數據體量巨大、數據產生速度快等特征。從數字健康產業數據結構來說, 其主要劃分為結構化數據、半結構化數據以及非結構化數據。從其數據內容來說, 主要包含行業統計數據、工商注冊數據、政策法規數據、企業內部數據、產品數據、外部市場數據、健康醫療數據等。由于數字健康產業自身的特征等原因, 其數據涉及治療、研發、生產、管理、運維、服務等多個環節, 尤其是涉及的海量健康醫療數據相較于其他類型的數據,其商業價值更高, 但同時也導致了網絡勒索、個人健康數據非法交易、侵犯公民隱私等數據安全問題的出現。
3) 治理活動
數字健康產業數據治理活動覆蓋了數據全生命周期、數據處理和管理的關鍵業務節點, 主要包含數據采集、數據存儲、數據計算、數據資產管理、數據服務等環節, 使得數字健康產業數據在相關技術的支持下服務于數字健康產業的發展以及政府和企業的戰略決策中。其中, 數據資產管理是數字健康產業數據治理活動中的核心環節, 主要有數據標準管理、元數據管理、主數據管理、數據質量管理、數據安全管理、數據生命周期等內容, 通過此范圍進行管理, 可以對數字健康產業要利用或產生的業務數據進行準確性、及時性保障。
4) 治理工具
治理工具主要包含行政手段與技術手段, 即管理性工具與技術性工具。管理性工具主要包括數據治理策略、政策、流程和共享模式等。數據治理策略是制定和規劃數據治理目標、范圍、優先級和方法的指導性文件, 包括數據治理的愿景、使命、目標、原則和戰略規劃; 政策是針對數據管理和使用所制定的規則和標準, 涉及數據安全、隱私保護、數據共享和合規性等方面, 數字健康產業由于涵蓋了醫院等醫療機構, 因而其在一定程度上要遵循我國發布的衛生健康等政策; 流程則包括數據采集、存儲、處理、分析、共享和監管等環節的具體操作流程; 數字健康產業主體的共享模式旨在通過共享資源、數據和服務, 實現產業鏈上各個主體之間的協同合作, 從而促進數字健康產業的發展和提升整體效益, 是一種政府主導下的一種行政調節手段。管理性工具的作用在于為數字健康產業數據治理提供框架和指導, 確保數據管理和使用符合規范與戰略目標。
技術工具主要是指從信息技術方面提升數據匯聚與處理的能力, 常用的技術主要有數據采集技術、數據存儲技術、數據集成技術、數據安全技術、大數據處理技術、機器學習技術等, 例如將區塊鏈技術應用于數字健康產業, 在一定程度上可以很好地解決數據孤島現象, 提升產業數據要素的數量和質量。技術性工具的作用在于幫助數字健康產業實現數據安全、高質量和便捷共享, 提升數據管理效率和價值。通過管理性工具與技術性工具的融合使用,來實現數字健康產業數據治理目標, 進而深度挖掘數據價值。
5) 治理目標
數字健康產業數據治理是一個長期動態變化的數據治理過程, 鑒于醫療健康數據資源的特殊性,其數據治理是在確保數據安全和隱私保護的前提下,促進數字醫療技術的創新和發展, 優化醫療資源配置, 促進跨界的合作與互聯互通, 強調數字化、信息化和跨界合作的特征。結合數字健康產業數據治理的必要性, 可知其治理目標要圍繞保障數據安全、提升數據質量、促進共享協同、保證數據合規4 個方面。從數據角度來看, 通過數據采集、數據集成、數據計算等一系列數據治理活動的開展以及相應的數據治理工具的使用, 在一定程度上提升了數據的質量, 保障了數據安全。從組織層面來看, 開展數據治理活動可以降低各個機構對于數據資源的重復建設, 在此基礎上, 可以在一定程度上減少數據的處理費用, 從而達到收集、共享、協作和合規的目標。
4.2數字健康產業數據治理體系技術架構
4.2.1設計思路
隨著大數據、人工智能技術的發展, 數據需求也隨之不斷增大, 同時數據資源在不同系統、不同部門之間的數據孤島問題也日益突出。在此背景下,數據中臺的概念被提出并用來解決政府和企業在數據治理與協同方面的問題, 提升數據資源的管理效率和價值。數據中臺是一種數據應用機制, 它將數據持續轉化為資產, 為企業提供服務, 它擁有聚集整合、提取處理、可視化服務和價值轉化等核心功能[29] 。尤其具有處理多種類數據、架構更具模塊化和開放、數據安全和隱私保護性較高等優勢。
目前數據中臺已成為各大企業進行數智化轉型的關鍵路徑和數據治理方面的重要概念。Gart?ner[30] 在2016 年的“Pace-layered Application Strat?egy” 報告中指出, 應該將企業的商業系統分為前臺、中臺、后端3 個層級, 并指出中臺的核心角色是以靈活的方式對前臺的應用需求做出反應。2015年, 阿里巴巴首次在IT 行業啟動中臺戰略, 其主要核心為構建企業核心資源和共性技術的可重復使用能力, 避免重復構建, 提高開發效率, 爭取將數據中臺打造成融合多條業務系統數據的信息共享和服務發布平臺[31] 。并且在數據治理的各個環節中,Hadoop 大數據技術多用于治理活動過程中的標準化工具組件和功能開發[32] 。因此, 基于“復用”“共享” 的數據中臺概念內涵, 本文設計了基于數據中臺的數據治理體系技術架構, 為數字健康產業數據治理指明了技術路線。其基本思路為通過對全域的產業數據進行匯集, 構建數據中臺, 然后建立可復用的數字健康產業應用服務, 從而提高業務需求的響應速度和應用開發的迭代速度。
4.2.2技術架構搭建
本文在數字健康產業數據治理體系邏輯框架的基礎上, 并基于數字健康產業數據治理技術架構設計思路, 采用Hadoop 大數據技術, 搭建了數字健康產業數據治理技術架構。數字健康產業數據治理技術架構整體上包括基礎設施、數據源、數據中臺、應用服務四大模塊建設內容, 具體如圖3 所示。
1) 基礎設施
基礎設施主要是由網絡、存儲、計算、安全等軟硬件設施構成, 為數字健康產業數據中臺提供資源與技術支持, 保障整個技術架構的平穩運行。
2) 數據源
數據源是指數字健康產業鏈上、中、下游的鏈條組織機構中涉及的可公開和可利用的數據。其中,產業上游數據主要包括醫療設備制造商端數據、器械研發機構端數據、醫藥研發企業端數據等, 產業中游數據主要包括醫療信息系統數據、數字醫療服務商數據、醫療電商數據, 產業下游數據主要包括醫院等醫療機構端數據。
3) 數據中臺
數據中臺是指對數字健康產業中的數據資源進行整合和共享, 構建一個數據生態系統, 提供數據服務和數據產品, 提高數據質量和效率。其數據治理流程分為數據采集、數據存儲、數據計算、數據資產管理、數據服務5 個模塊。
數據采集模塊是指對數字健康產業全域相關數據資源進行匯聚融合, 通過爬蟲、填報、對接等操作采集數字健康產業上、中、下游的數據資源, 實現數據采集、轉換、清洗、脫敏、加載等功能, 打破數據孤島現象, 形成共享數據中心, 為更高層業務提供數據支撐。其涉及的技術主要包含DataX、Sqoop、Kafka、Storm、Flink、Flume 等。
數據存儲模塊的作用是存儲各種采集到的數據, 并將這些數據經過一定的處理解析成文件數據、結構化數據和半結構化數據等不同類型, 然后分別存儲到相應類型的數據庫中。例如, 文件數據通常被存儲在HDFS 中, 半結構化數據則被存入HBase 等數據庫, 而結構化數據則存儲在MySQL 等數據庫中。本模塊設計的數據庫技術主要有HDFS、Hive、HBase、Impala、Redis、MySQL等。
數據計算模塊的目標是通過相關技術對接入的數據進行清洗、挖掘、分析等處理, 主要包括離線計算(MapReduce)、實時計算(SparkSteaming)、算法計算(TensorFlow); 離線計算適用于對大規模數據進行批處理分析。在數字健康產業中, 可以利用離線計算技術對大量的醫療記錄、生物監測等數據進行清洗和分析。實時計算適用于對數據流進行實時處理和分析, 能夠及時發現并處理數據中的異常情況。在數字健康產業中, 可以利用SparkStream?ing對醫療監測設備產生的數據流進行實時監控和分析。算法計算在數字健康產業中也扮演著重要角色, 主要是利用機器學習和深度學習算法對醫療數據進行挖掘和分析。
數據資產管理模塊貫穿于整個數據治理的全生命周期, 其為數據采集、數據存儲、數據計算、數據服務提供統一的制度規范和標準, 主要包含元數據管理、主數據管理、數據標準、數據質量、數據血緣、數據生命周期、數據安全。
數據服務模塊是對數據、模型和算法進行邏輯封裝, 生成相應的API 服務, 供數字健康產業應用快速調用, 數字健康產業的數據服務類型主要包含API 引擎、BI 平臺、統一查詢服務、統一標簽服務、數據共享服務、指標監控服務、可視化與報表。
4) 應用服務
應用服務是依據數字健康產業中的實際業務需求而建立的, 旨在發揮數字健康產業數據的效用價值, 提升政府的數字化產業治理能力和企業的數字化服務質量。其涉及的應用服務主要包括數字健康產業全景、數字健康產業監測與診斷、智能公共衛生服務、智能醫療資源分配、醫藥研發預測等。在不同的應用服務中, 不同的服務功能可以通過調用數據中臺的API 服務接口來實現敏捷開發和迭代。
5 結論與展望
構建數字健康產業數據治理體系邏輯框架與技術架構是部署數據治理活動、提升政府數字化精準產業治理與提高企業數字化能力的基礎。本文在數字健康產業數據現狀背景下, 分析了數字健康產業數據治理的必要性, 提出了數字健康產業數據治理過程, 構建了數字健康產業數據治理體系邏輯框架和技術架構, 其中得出的主要結論如下: ①結合數字健康相關場景, 從數字健康產業數據來源、數據特征和數據治理實踐現狀對數字健康產業數據現狀進行了詳細的分析和概括; ②結合PDCA 循環理論設計了包含規劃、實施、評估和改進、處理與反饋的數字健康產業數據治理流程; ③從治理主體、治理客體、治理活動、治理工具、治理目標5 個維度出發, 構建了數字健康產業數據治理體系邏輯框架,其主要邏輯為政府機構與數字健康相關行業、企業以及醫療機構圍繞保障數據安全、提升數據質量、促進共享協同、保證數據合規等治理目標, 采用管理性工具與技術性工具對數字健康產業中的海量多源異構數據開展一系列諸如數據采集、數據存儲、數據計算、數據資產管理、數據服務等治理活動;④以Hadoop 大數據技術生態和數據中臺為基礎,搭建了數字健康產業數據治理技術架構, 其整體上包括基礎設施、數據源、數據中臺、應用服務四大模塊建設內容。
本文豐富了數字健康產業數據治理理論體系研究和技術實踐的發展, 為數字健康產業數據治理提供了借鑒, 從而充分挖掘產業數據價值, 推進了數字健康產業的數字化治理。此外, 本文構建的數字健康產業數據治理體系邏輯框架與技術架構, 主要是從相關的理論出發進行搭建, 在實際應用場景中的兼容性與可擴展性仍需進一步檢驗。因此, 后續的研究中需聚焦于數字健康產業具體應用情境開展數據治理實踐, 讓數字健康產業數據治理體系邏輯框架與技術架構在具體的實踐中不斷地細化和完善, 為我國數字健康產業數據治理打下堅實基礎。