文/張祥儒
近年來,在“互聯網+”的新形勢下,全國各地區都在建立醫療數據信息平臺,加強區域醫療衛生服務資源整合,充分利用互聯網、數據等手段,提高重大疾病和突發公共衛生事件防控能力。從區域數據信息平臺、省市數據信息平臺到國家數據信息平臺的建設過程中,都會面對海量的各類醫療數據,對數據的處理是一個關鍵性的工作,在數據處理的工作中如何獲得全面、有效的醫療數據是個重大的挑戰。
建立醫療數據信息平臺,通過平臺進行數據的分析、挖掘和應用,都要建立在大量、全面和有效數據的基礎上,而要建立這個基礎就要進行醫療數據的采集、整合和數據傳輸等工作,就需要建立數據信息平臺數據采集系統。如何建立一個完整有效的數據采集系統,就需要詳細的設計和實施工作來實現。
數據采集系統將各醫療機構的HIS、LIS、電子病歷等系統的醫療數據經過清洗、轉換之后上傳至醫療數據信息平臺,從而實現醫院與平臺之間的數據采集與交換,實現醫療衛生相關部門之間的數據共享和業務協同。
數據采集系統架構分為:應用區和數據庫區兩部分。如圖1所示。
第一部分應用區直接與各醫療機構前置機對接,用于存儲各醫療機構上傳的數據并進行數據清洗、上傳等操作,包含:數據、采集、清洗、轉換和監控服務,建立臨時數據庫。
第二部分數據庫區用于接收應用層的數據,整合之后上傳數據信息平臺,包含:數據整合、監控和傳輸服務,建立標準數據庫。
數據采集系統包括:數據抽取、清洗轉換、數據傳輸和數據監控4個模塊。
2.2.1 數據抽取模塊
數據抽取模塊是通過接口從醫療機構的信息系統數據庫中抽取到數據采集系統數據庫中。接口可以采用中間庫或視圖兩種方式建立。數據抽取模塊可以定時從接口讀取數據,并且可以對數據庫中的數據表和表中的字段選擇性的讀取。
系統處理流程:
(1)數據抽取模塊通過SQL語句對數據庫進行查詢操作,并讀取醫院視圖或中間庫表數據。
(2)數據抽取模塊通過抽取時間比對,發現增量數據并進行增量數據的抽取。

圖1:系統架構圖
數據抽取模塊分為數據庫連接、視圖連接和接口管理三部分功能。數據庫連接包括數據庫數據讀取設置和實時調度功能;視圖連接包括視圖數據讀取設置和實時調度功能;接口管理包括接口連接和接口配置功能。
2.2.2 數據清洗轉換模塊
數據清洗轉換是將數據抽取模塊抽取到的數據根據數據標準轉換為標準數據。
處理過程準備如下:
數據處理的前提是:建立《數據信息平臺數據標準規范》,作為數據清洗轉換的依據。《數據信息平臺數據標準規范》要對數據的字段名、類型、大小以及數據字典進行規范。
根據《數據信息平臺數據標準規范》為每個醫療機構建立前置機數據庫。
系統處理流程:
(1)對抽取的數據進行清洗、轉換操作:先根據《數據信息平臺數據標準規范》對數據進行校驗,補充缺少的表字段,過濾掉多余的表字段;將不合格的數據轉換為合格數據。
(2)每個醫療機構配備一臺前置機,將各醫療機構傳入的數據全部轉換為標準數據,傳入各自的前置機數據庫。
系統清洗轉換模塊分為清洗任務調度、數據轉換和數據庫管理三部分功能。清洗任務調度包括定時調度和實時調度功能;數據轉換包括數據輸入、轉換、過濾、輸出功能;數據庫管理包括前置機數據庫的增加、刪除、修改和查詢功能。
2.2.3 數據傳輸模塊
數據傳輸模塊實現了應用區和數據庫區之間的數據傳輸。應用層建立臨時數據庫存放各醫療機構轉換后的標準數據,數據庫區建立標準數據庫存放臨時數據庫整合的數據,最后將標準庫數據按照一定時間上傳數據信息平臺的數據庫。
系統處理流程:
(1)將各醫療機構前置機數據庫數據同步到數據傳輸模塊的應用區臨時數據庫。
(2)應用區數據庫將數據按照區域等方式進行合并,然后同步到的數據庫標準區。
(3)數據庫區數據庫可以通過設置,實現數據的實時或定時上傳數據信息平臺核心數據庫庫。
數據傳輸模塊分為數據整合、數據傳輸和數據庫管理三部分功能。數據整合包括數據讀取、合并、寫入功能;數據傳輸包括:傳輸時間設置和方式設置功能;數據庫管理包括臨時數據庫和標準數據庫的增加、刪除、修改和查詢功能。
2.2.4 數據監控模塊
數據監控模塊可以對數據抽取、轉換和傳輸情況進行監控。由于各醫療機構通過VPN或專網與數據信息平臺聯通,還可以對網絡進行監控,對上傳過程中出現的問題進行顯示并報警。
系統處理流程:
(1)首先對數據抽取、轉換和傳輸模塊配置ETL、ssh、vpn等服務的監控節點。
(2)定期對節點的相關服務進行掃描監控,對有問題的監控節點進行郵件、短信等方式進行報警。
(3)對各節點運行情況進行記錄,并保存日志。
數據監控模塊分為節點管理、監控管理和日志管理三部分功能。節點管理功能包括監控節點的添加、修改、刪除;監控管理包括監控服務配置、定時輪詢、信息收集顯示和報警功能。日志管理包括日志的記錄、查看功能。
要完成以上4模塊功能,系統還應實現以下設計要求:
為便于擴展,整體采用SOA架構,它可以根據需求通過網絡對松散耦合的粗粒度應用組件進行分布式部署、組合和使用。在基于SOA架構的系統中,具體應用程序的功能是由一些松耦合并且具有統一接口定義方式的組件組合構建起來的。
由于SOA的靈活性實現依賴于具有標準化接口的服務和業務流程編制,可以通過SOA實現對醫療機構已有應用系統的最大程度復用和廣泛的異構系統兼容性,通過建立相應的編碼規則、結構規范、數據整合等規則實現高度的靈活性和擴展性。
為了保證信息安全不受侵犯,可以采用多種技術,如加密技術、訪問控制技術、認證技術以及安全審計技術等。數據采集系統建立http協議接口均在消息中添加了消息認證;數據傳輸可以采用SSL技術在通信雙方之間建立加密通道的方法保證數據傳輸的機密性。可以使用審計技術讓系統自動記錄系統的使用情況、系統運行情況;監控其中的敏感和違規操作等操作。
為保證數據的安全性,數據采集系統的運行環境采用國產的服務器操作系統。數據庫軟件也采用國產數據庫軟件進行數據存儲,數據定時備份,各醫院間數據庫保持最大的獨立性。
準確、有效的醫療數據具有極高價值,未來的利用前景十分廣闊,可以向醫生提供臨床診斷和臨床科研支持,向管理者提供管理輔助決策、疾病控制、行業監管、績效考核支持,向居民提供健康監測、疾病風險評估支持,向藥品研發提供統計學分析、就診行為分析支持等。通過數據采集系統可以實時、準確的采集醫療數據,為信息平臺的數據分析利用提供有力的支撐,但要建立在數據標準化的基礎上,否則會影響數據采集系統的采集質量;同時系統的穩定性和安全性也是一個值得重點關注的地方,設計時要采用安全穩定的系統架構和加密技術,并不斷地加強完善。擁有了全面、高質量的醫療數據,醫療機構就可以結合區塊鏈、機器學習、流計算、圖計算等技術進行數據分析,從而為醫學研究提供強有力的數據支撐。