黃壽孟 韓強 馮淑娟



摘? 要:目前健康醫療大數據可應用于全民健康管理、互聯網醫療、民生衛生檢測與疾病預警等領域,作為公共衛生健康事業的新資源,可優化民生健康事業,提高民生醫療質量。針對目前健康醫療大數據治理的問題,設計出滿足用戶需求的健康醫療智能數據治理系統,實現各個醫療機構的醫療數據互聯互通,利用Spark平臺實現大數據的高速處理以及采用Hive數據庫存儲,從而提升醫療大數據的可拓展性及高容錯性,方便醫療數據分析工作,促進全民健康大數據管理的發展。
關鍵詞:健康醫療;大數據;數據治理;智能治理
中圖分類號:TP391? ? 文獻標識碼:A 文章編號:2096-4706(2023)01-0014-05
An Intelligent Governance System Based on Healthcare Big Data
HUANG Shoumeng1,2, HAN Qiang4, FENG Shujuan1,3
(1.School of Information & Intelligence Engineering, University of Sanya, Sanya? 572022, China; 2.Academician Guoliang Chen Team Innovation Center, University of Sanya, Sanya? 572022, China; 3.Academician Chunming Rong Workstation, University of Sanya, Sanya? 572022, China; 4.College of Information Science and Technology, Qiongtai Normal University, Haikou? 571100, China)
Abstract: At present, healthcare big data can be applied to national health management, Internet medical treatment, people's health detection and disease early warning and other fields. As a new resource of public health, it can optimize people's health and improve the quality of people's medical care. Aiming at the current problems of health and medical big data governance, an intelligent health and medical data governance system is designed to meet the needs of users to realize the interconnection of medical data in various medical institutions. Spark platform is used to realize high-speed processing of big data, Hive database is used for storage. So as to improve the scalability and high fault tolerance of medical big data, facilitate medical data analysis, and promote the development of national health big data management.
Keywords: healthcare; big data; data governance; intelligent governance
0? 引? 言
大數據改變了人們生活,也引領了人們生活。對于醫學領域的信息化增長,產生了健康醫療大數據,國家衛生健康委員會和地區衛生醫療機構正積極推動健康醫療大數據的匯集和應用試點,打造當地醫療健康大數據治理系統,為醫學數據分析、民生醫療檔案、疾病檢測等方面提供數據基礎[1]。因此對于健康醫療大數據的治理可提高醫療數據的利用價值,增強醫療資源分配管理能力,方便民生就診體驗,也提高當地醫療服務水平,降低醫療成本,同時治理后的數據可為健康保險行業、醫藥產業提供精準的投保及生產工作[2]。
1? 相關研究
1.1? 數據融合
數據融合是指采用現代技術手段對某些大數據進行科學處理、精確表述、精準服務,將多源數據之間的互補特點更全描述目標。數據融合(data fusion)最早被應用于軍事領域[3],使原來由人工操作與分析處理的大部分功能改為由計算機數據處理系統快速、準確、有效地自動完成。目前數據融合應用廣泛,比如醫療健康的多源影像復合[4]、無人機的多任務、多場景航跡規則、機器人的智能儀器系統、車聯網的識別專家系統等領域[5-8]。數據融合在多信息源、多平臺、多系統中影響極大,特別是多源異構大數據,它在數據分析過程中能起到協調作用,加以智能化合成處理,產生更精確可靠全面的估計和判斷[9]。其實人類本身就有著卓越的數據融合能力,通過視覺、味覺、觸覺、氣味,人類可以對食物的喜好做出準確的判斷:這個是我愛吃的,那個我不喜歡吃。但如果僅憑一種感覺,我們則無法對食物的喜好做出這樣的判斷[10]。同樣地,在軍事上,我們希望在比如空對空防御和地對空防御中,綜合地基和飛機電磁信號數據做出更準確的預警;在非軍事領域,比如醫療領域,我們希望通過X射線、核磁共振、目視檢查等多種數據進行綜合處理來做出更準確地疾病診斷。
1.2? 健康醫療大數據
近日,國家衛健委公開大力發展“互聯網+醫療健康”的便民活動。健康醫療的主題活動也深入各大社區、醫院、醫療機構等活動場所,與此同時也產生出健康醫療信息化管理平臺系統,這些系統中的大數據通常包含以下內容:以健康檢查服務為主的各種健康數據、以醫療保險服務為主的各種保險數據、以藥品治療服務為主的各種醫藥數據、以病癥監管服務為主的各種公共衛生數據、以患者治理服務為主的各種行為與情緒數據、以醫療生育服務為主的各種統計數據、以家庭婚姻服務為主的各種人口管理數據、以健康生活相關的各種環境數據。
未來健康醫療信息化技術人員通過采集與處理這些大數據,將實現真正精準醫療和“治未病”理念。目前健康醫療大數據已經應用于數據驅動型臨床和手術決策、支持精準醫療以及降低護理成本等方面。比如亞馬遜云科技可以為醫療健康與生命科學客戶提供成熟且方便易用的云服務,可幫助企業加快創新速度、發揮健康數據的潛力、開發更個性化的治療和探索護理方法。
1.3? 國內外研究現狀
歐美國家最先建設了醫療數據庫,處于實現精確診治的領先地位。2007年美國建立了醫療電子信息化監測系統,實現醫療數據資源整合,構建醫療健康大數據庫;英國收集全民醫學信息完成國家醫療服務系統;丹麥、日本等國也正完善健康醫療大數據平臺[11-15];歐盟各國的醫療公司也參與共享戰略衛生信息化網絡工程的醫療信息。
而我國醫療大數據起步有點慢,醫療信息化系統還在探索階段。江蘇、福建正收集各地大醫院就診數據,南京完成了本市醫療數據中心的建設;2018年上海成立了醫院共享數據中心,可為500家醫院共享數據。本文結合健康醫療大數據的特點,充分利用數據融合技術,設計出多源異構醫療數據的健康醫療智能數據治理系統,發揮健康醫療數據的價值,監控民生健康質量,打通醫療機構數據共享瓶頸。
2? 系統設計
2.1? 需求分析
通過調研了解海南省S市10多家醫療機構的1 200多萬條健康醫療大數據,分析這些數據的多樣多源異構,整合匯總到同一個數據庫中,進行數據治理工作的前期準備,建立統一的數據存儲模式,轉換錯誤的數據,準備數據源用例表,如表1所示,進行數據源配置處理。
另外為了實現數據共享,需要對多源醫療數據進行數據融合,打破各醫療機構的業務信息壁壘,實現健康信息互通,圖1為醫療數據融合用例圖。
2.2? 系統架構設計
根據系統的功能需求分析,設計出智能治理系統的整體架構,如圖2所示,最底層是數據源,接著對數據源的各種異構數據統一編碼匹配后存儲于Hive數據庫,中間層為數據處理階段,采用Spark平臺進行數據集成、數據質量管理、數據融合等方面的優化處理,最后是用戶應用層,屬于系統管理的應用界面。
2.3? 詳細設計
醫療智能治理系統首先在數據融合前進行數據集成,即按照統一編碼匹配各種異構數據優化為標準的數據結構存儲到Hive數據庫,為下階段的數據融合處理做準備工作,數據集成的具體工作如圖3所示,從中可見從數據源開始檢查配置信息,完成數據抽取工作,方便記錄日志、查看任務的進度。
數據融合處理是本系統的核心功能之一,它通過患者ID索引患者醫療信息,但不同醫療機構ID的信息不統一,因此本系統設計了一種采用機器學習的規則匹配算法,它首先對源數據進行預處理,接著通過匹配算法的處理數據歸入索引表,匹配不成功可再進行人工審核,詳細流程如圖4所示。
3? 系統實現
上節對系統需求、功能設計、詳細設計等內容進行了說明,接下來就是系統的實現展示,本系統的功能架構如圖5所示。因系統設計功能模塊較多,每個模塊的子功能內容較復雜,使用代碼編程較煩瑣,因此本文只展示其中關鍵部分。
3.1? 醫療數據集成
由于醫療大數據的特殊性,需要解決不同醫療機構的數據源類型,本系統支持的數據源類型有HDFS、HBase、Hive、SQL Server、MySQL、Kudu、0racle、FTP、Teradata、DB2、SFTP。本系統存儲的數據倉庫為Hive數據倉庫。數據集成功能主要完成數據源的增、刪、改、查等準備工作,還有醫療數據源特有配置信息在配置成功后還要進行數據抽取和集成信息的連接測試。其中配置信息包括電話相似度、姓名相似度、出生日期相似度、籍貫相似度、職業相似度、民族相似度、性別相似度、地址相似度,每項信息的相似度代碼表示方法:值為“1”則代表一致,“0”為不一致,缺失值為“0.5”。完成此項工作后將進行機器學習算法——隨機森林算法的模型訓練。
3.2? 醫療數據融合
數據融合方法有基于貝葉斯理論的融合模型,比如卡爾曼濾波模型、馬爾科夫模型等,也有基于知識理論的融合模型,而這些融合方法也有一些缺點,要么對噪聲數據敏感,要么對高維度數據處理不當,要么對缺失數據處理較難。目前許多基于機器學習的數據融合模型,本系統設計出一種基于深度學習隨機森林算法的數據融合方法,構建唯一患者主索引ID進行關聯數據融合,加速模型訓練及優化,解決不同醫院的數據源問題。將數據融合處理后統一儲存在Hive數據倉庫中,解決多源異構數據的集成融合,當模型的訓練值達到需求分析設計時的標準時,還要進行審核匹配處理,具體處理過程如圖4所示。若數據有缺失項、重復值、錯誤值、空值等問題時,系統將有相應驗證審核功能模塊來處理,產生監控數據的日志報告或數據質量報告,從而提高健康醫療智能治理的數據質量。
3.3? 系統管理界面
本文所設計出的智能治理系統管理界面如圖6所示,本系統管理界面有相應的功能管理模塊:醫療數據集成、醫療數據融合、醫療數據可視化、數據質量管理、日志管理、用戶管理,其中日志管理是數據處理各階段產生的日志報告表,如數據源日志表、數據集成日志表、數據審核日志表、數據質量日志表等。
3.4? 系統測試
為了更好地驗證本系統的可用性、穩定性、安全可靠性等性能,我們進行一系列的測試,具體情況為:
(1)測試環境。2臺Hadoop服務器(內存:512 GB,CPU:48 Core,資源占有率:35%,數據庫:Hive,操作系統:Linux);2臺客戶機(內存:32 GB,硬盤:1 TB,操作系統:Win 10,瀏覽器:火狐)。
(2)測試數據。收集10所醫院的真實數據,共有11 243 584條數據,內含身份證號碼3 256 139個。
(3)測試內容。數據源的連接情況、患者配置信息表、數據集成抽取情況、數據融合索引表、數據審核情況、數據可視化、用戶日志報告情況、系統性能測試等功能范圍,具體測試用例情況如表2所示。
4? 結? 論
本文針對當前健康醫療大數據的智能治理特性,設計出一種隨機森林算法的數據融合方法,實現醫療大數據的特殊特征工程,解決多源異構數據的集成融合,提高信息匹配的效率,實現醫療數據質量管理的多個區域數據治理項目。總體而言,本系統對醫療數據進行治理有一定的價值,也有一定的應用場景,希望以后添加更多功能模塊,挖掘健康醫療大數據的背后價值,更好發揮數據智能治理的作用。
參考文獻:
[1] 張行.健康醫療智能數據治理系統設計與實現 [D].濟南:山東大學,2021.
[2] 舒影嵐,陳艷萍,吉臻宇,等.健康醫療大數據研究進展 [J].中國醫學裝備,2019,16(1):143-147.
[3] 閆宣辰,姚進文,陳耀龍.甘肅省健康醫療大數據治理的實踐與探索 [J].甘肅醫藥,2020,39(11):1026-1030.
[4] 王覓也,鄭濤,李楠,等.醫療大數據集成及應用平臺體系構建 [J].醫學信息學雜志,2019,40(8):37-42.
[5] 馮淑娟,黃壽孟.跨源多維政務數據治理綜述 [J].網絡安全和信息化,2021(11):76-79.
[6] 黃壽孟,夏王霞.基于LBSN中錨鏈接方法的鏈路預測模型 [J].海南熱帶海洋學院學報,2021,28(5):72-77.
[7] 黃壽孟,夏王霞.一種基于LSH技術的鏈路預測方法 [J].信息記錄材料,2021,22(7):139-142.
[8] 黃壽孟.一種基于監督學習的異構網鏈路預測模型 [J].計算機科學,2021,48(S2):111-116.
[9] OLNES S. Beyond Bitcoin Enabling Smart Government Using Blockchain Technology [EB/OL].[2022-08-02].https://www.docin.com/p-1843278025.html.
[10] ELISA N,YANG L Z,CHAO F,et al. A framework of blockchain-based secure and privacy-preserving E-government system [J].Wireless Networks,2018:1-11.
[11] RASHIDEH W. Blockchain technology framework:Curent and future perspectives for the tourism industry [J].Tourism Management,2020,80[2022-08-02].https://www.sciencedirect.com/science/article/abs/pii/S0261517720300510?via%3Dihub.
[12] ACQUAH M A,CHEN N,PAN J S,et al. Securing Fingerprint Template Using Blockchain and Distributed Storage System [J].Symmetry,2020,12(6):951.
[13] MORABITO V. Big data and analytics:Strategic and Organizational Impacts [M].[S.I.]:Springer,1980.
[14] KIM H Y,CHO J S. Data Governance Framework for Big data Implementation with a Case of Korea [C]//2017 IEEE International Congress on Big Data(BigData Congress).Honolulu:IEEE,2017:384-391.
[15] FAN W F,GEERTS F. Foundations of data quality management:synthesis lectures on data management [EB/OL].[2022-08-04].http://www.morganclaypool.com/doi/abs/10.2200/S00439ED1V01Y201207DTM030?journalCode=dtm.
作者簡介:黃壽孟(1975—),男,漢族,廣東湛江人,副教授,碩士,研究方向:信息技術、現代教育技術研究;通訊作者:韓強(1982—),男,漢族,海南海口人,講師,碩士,研究方向:軟件應用、數據安全、人工智能。
收稿日期:2022-08-26
基金項目:海南省哲學社會科學2021年規劃課題(HNSK(ZC)21-109);海南省自然科學基金項目(622RC735);三亞學院重大專項課題(USY22XK-04)