葉琳 羅鐵清
摘? 要: 為提高臨床智能輔助決策系統輔助醫生決策的能力,從醫療數據治理方向入手,采用文獻檢索和網絡調查相結合的方法深入探析醫療數據的治理、研究動態、相關技術及應用等內容。結合已有研究,從醫療數據治理的關鍵問題出發,重點闡述醫療數據治理技術,包括數據標準化、數據脫敏、數據清洗和數據結構化的具體方法,及其在臨床智能輔助決策系統的數據治理方案中的應用。
關鍵詞: 數據治理; 數據標準化; 數據脫敏; 數據清洗; 數據結構化
中圖分類號:R-05? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2021)05-10-03
Overview of medical data governance
Ye Lin, Luo Tieqing
(School of Informatics, Hunan University of Chinese Medicine, Changsha, Hunan 410208, China)
Abstract: In order to improve the ability of clinical intelligent decision-making system to assist doctors' decision-making, this paper analyzes the management, research trends, relevant technologies and applications of medical data with the method of combining literature retrieval and network investigation. Combined with the existing research, focusing on the key issues of medical data governance, the medical data governance technologies, including the specific methods of data standardization, data desensitization, data cleaning and data structuring, are described, as well as their application in the data governance scheme of clinical intelligent decision-making system.
Key words: data governance; data standardization; data desensitization; data cleaning; data structuring
0 引言
醫療衛生行業要想從信息化到智能化轉變,助力實現“健康中國2030”,其發展模式需從規模驅動模式轉變為以醫療質量和服務效率為核心的新模式,醫療數據是模式轉變的基礎性資源。當前,醫生需要利用臨床智能輔助決策系統為患者進行診斷和治療,該系統主要承擔數據采集與分析、臨床知識庫檢索、患者信息管理、輔助決策等服務,這些工作都依靠大量醫療數據才能完成。如果醫療數據存在問題且缺乏有效的治理方法,最終就會導致系統決策失誤。因此,醫療數據治理工作勢在必行。
1 醫療數據治理概述
借鑒文獻[1]中對數據治理本質的闡述,我們可以理解醫療數據治理工作是在國家衛生健康委員會的指導下,對醫院、體檢、互聯網健康等機構中醫療數據收集、分析、應用的過程進行監督和管理,通過不斷創新和完善治理技術來提高醫療數據質量,為醫療行業創造更大的價值。
2 醫療數據治理研究動態
通過檢索相關文獻,跟蹤學術動態可知,加拿大頒布的《個人健康信息保護法》[2]、美國發布的《大數據研究和發展計劃》[3]和《美國聯邦政府醫療信息化戰略規劃(2015-2020)》[4],推動了國外醫療數據治理的發展。我國國家衛生健康委員會發布《全國醫院信息化建設標準與規范(試行)》[5]指出,醫療信息化建設過程中要依據數據標準和相關技術規范。我國國務院印發的《關于促進和規范健康醫療大數據應用發展的指導意見》[6]提出要提升健康醫療服務效率和質量,擴大資源供給、《“健康中國2030”規劃綱要》[7]和《關于促進“互聯網+醫療健康”發展的意見》[7]為醫療數據治理工作部署方案。
綜上所述,“數據治理”理念已經涉及醫療領域,國內外目前還只是對其政策方面展開大量的研究,應用方面如數據治理技術用于提高臨床智能輔助決策系統中數據質量的研究少之又少,這便是我們接下來所要研究的重點。
3 醫療數據治理的關鍵問題與技術
3.1 醫療數據標準化
數據標準化是實現醫療行業智能化工作的前提條件。目前醫院內部各信息平臺中數據的標準化程度較低,很大程度上會影響臨床智能輔助決策系統輔助醫生決策的能力。醫療數據標準化對象包括診斷名稱、手術名稱、藥品名稱、檢查名稱、檢驗名稱等,這些醫療術語的表達應參照一些規范標準,如《電子病歷應用管理規范(試行)》[8]、《GB/T 14396-2016疾病分類與代碼》[9]、《病歷書寫基本規范(2010年版)》[10]等。醫務人員只有按照上述規范標準來記錄數據,臨床智能輔助決策系統才能獲得標準化程度較高的醫療數據。
3.2 醫療數據脫敏
醫療衛生智能化建設高速發展的同時臨床智能輔助決策系統的安全隱患日益突出。從醫院內部各信息平臺中獲取的大量文本數據可能涉及患者隱私信息,這些信息對醫藥公司、廣告、中介、保險等行業具有商業價值,那么醫藥公司、廣告、中介、保險從業人員可能收買臨床智能輔助決策系統的使用者、系統維護或開發人員獲取患者隱私數據。因此,臨床智能輔助決策系統需要利用數據脫敏技術對醫療數據進行脫敏,使能夠接觸到數據的人員無法盜取數據進行非法斂財。系統需要重點脫敏患者信息,包括患者姓名、身份證號、手機號碼、家庭地址等。王卓[11]等人將所有數據脫敏技術歸為靜態和動態兩類。佟玲玲[12]等人提出K-匿名、L-多樣性、T-保密等不可恢復脫敏算法以及對稱加密、非對稱加密、保形加密等可恢復脫敏算法。吳克河[13]等人提出一種基于敏感數據度量的改良版數據脫敏技術。葉水勇[14]提出基于Flume和Sqoop數據采集方式的智能化脫敏技術同時與K-Anonymity、L-Diversity、T-Closeness等脫敏算法[15]復用來實現最優化脫敏。
文獻[12]中提出自動化數據脫敏算法,其雖是目前主流脫敏技術,但沒有對數據語義予以考慮,為了更好地保護復雜語義下高敏感度的敏感屬性值,可以借鑒文獻[13]提出對敏感屬性值進行分類加權后,使用等價類分裂算法思想實現基于敏感信息度量的脫敏技術來解決此缺陷。文獻[14,15]闡述的機器學習技術與算法結合使用可以更好的實現系統自動化脫敏。未來,臨床智能輔助決策系統的開發可以借鑒這些算法實現數據自動脫敏。
3.3 醫療數據清洗
醫療數據蘊含巨大的價值,其在實際利用過程中有時卻很難體現出來,究其原因是醫院各信息平臺內部數據質量不高,比如醫生數據輸入過程中會出現缺錄、同一數據在不同信息平臺中存在不同的表達形式、醫生在診療過程中采用復制粘貼的方式進行不同維度的數據錄入等情況,那么平臺中就可能存在很多“臟”數據。這些“臟”數據在臨床智能輔助決策系統中利用率不高,此時數據清洗的工作就變得越發重要了。孔欽[16]等人指出利用缺失值填充算法進行挖掘來填補缺失值。林予松[17]等人提出壓縮方法減少無關數據、分詞和權值的字段匹配算法來刪除重復數據,其中分詞和權值的字段匹配算法核心思想是將重心詞后移進行清洗,不適用于重心詞前移的情況,因此該算法數據清洗準確度較低需要改進。
臨床智能輔助決策系統可以參考上述方法對不完整、不相關、重復數據進行清洗。系統可以采用特殊值或者算法模型進行缺失值填補,該方法是系統將從醫院各信息平臺中獲取的數據進行建模展示出具有缺失值的屬性列,對于屬性列中數值數據,使用者可以在系統中選擇均值、平均值、眾數等特殊值選項進行自動填補,對于屬性列中非數值數據系統設置EM(Expectation-Maximization)或MI(Multiple Imputation)或KNN(K-NearestNeighbor)等算法[16]選項進行建模實現自動化填補。系統采用壓縮方法[17]將數據庫表中與研究結果無關的表、屬性、記錄刪除并保留能夠幫助醫生輔助決策的數據表,該方法很好的減少無關數據和降低數據復雜度。系統可以采用基于分詞和權值的字段匹配算法[17]計算兩個字段之間相似度來判斷是否為重復數據,首先利用分詞器對兩個字段分別進行分詞處理,將字符串變成分詞串并計算分詞相似度,其次分別按照重心詞前移規律匹配法和重心詞后移規律匹配法求權值相似度并將兩次計算的權值相似度加權平均,得出最終的權值相似度,最后觀察兩個字段的分詞相似度和權值相似度是否大于某一閾值來判斷是否是重復數據并將重復數據自動刪除。
3.4 醫療數據結構化
目前全國多家醫院使用支持全結構化錄入的醫療數據采集系統,但系統中仍然存在大量計算機無法識別的數據。這些數據中最典型代表是電子病歷中的文本數據,其產生的主要原因是系統的模板限制了醫生的思維,醫生仍習慣采用自由文本或半結構化錄入的方式來完成日常病歷書寫工作。因此需要利用結構化技術將非結構化文本數據轉化成計算機能夠識別的語言供決策系統使用,最終系統才能產出精準的決策。
文獻[18]中基于規則的模式匹配信息提取方法核心是利用正則表達式匹配提取結構化數據,此方法雖然簡單易實現,但前期字段配置依賴臨床經驗進行歸納總結并且配置效果直接影響提取結果,因此該方法通用程度不高。文獻[20]中基于層疊條件隨機場模型方法的信息抽取技術雖然也能準確、快速識別多種文本信息,但其面臨識別詞語的流程較為混亂導致識別率較低、復雜的醫學報告信息的識別率較低以及語法規則定義需要有豐富臨床診療經驗的醫生進行指導等問題,因此該方法也無法通用。文獻[19]中構建的結構化抽取模型在切口數量抽取上對醫療文本信息抽取有效,但該模型無法驗證其應用在其他類型數據抽取上對醫療文本信息抽取是否同樣有效,因此該方法是否通用還有待進一步驗證。
由此可見,即使目前研究出許多文本數據結構化方法,由于醫療文本信息的復雜性和高難度,現有的結構化技術大多不夠成熟和有效,無法進行廣泛的使用,未來需要研究出標桿技術應用到臨床智能輔助決策系統數據結構化處理中去。
4 結束語
本文對醫療數據治理概述、研究動態、關鍵問題、相關技術及應用做了詳細的介紹并對目前醫療數據治理技術提出了改進意見。目前,市面上雖然已開發出一些輔助決策系統,但由于醫療數據不完整、不正確、重復率較高等問題,數據放入系統中常常導致結果與人工給出的診斷結果和治療方案出入較大,醫生使用系統給出的決策方案可能會造成很嚴重的醫療事故。因此,未來將標準化、脫敏、清洗和結構化等數據治理技術應用到臨床智能輔助決策系統的研究具有重要的意義。
參考文獻(References):
[1] 吳信東,董丙冰,堵新政等.數據治理技術[J].軟件學報,2019.30(9):2830-2856
[2] 郭珉江,代濤,萬艷麗等.加拿大衛生信息化建設經驗及啟示[J].中國數字醫學,2015.10(7):15-19
[3] 代濤.健康醫療大數據發展應用的思考[J].醫學信息學雜志,2016.37(2):2-8
[4] 于琦,景勝潔,邰楊芳等.我國健康醫療大數據政策文獻的多維分析[J].中國全科醫學,2019.22(26):3209-3216
[5] 明確醫院信息化建設內容和建設要求[J].醫學信息學雜志,2018.39(4):94
[6] 何毅,王曙光,劉文浩.健康醫療大數據的探索與實踐[J].中華骨與關節外科雜志,2017.10(6):482-487
[7] 吳浩,劉新穎,張世紅等.“互聯網+社區衛生健康管理服務”標準化建設指南(二期)[J].中國全科醫學,2018.21(16).
[8] 孫慧子,董曉明,張淑英等.《電子病歷應用管理規范(試行)》對電子病歷法律效力影響[J].中國醫院管理,2018.38(4).
[9] 謝雨杉,王利亞,李莘等.基于語義相似度的ICD-10編碼歸一化[J].中國病案,2018.19(9):18-21
[10] 阮鶴瑞,劉曉明,金疆山等.病案首頁填寫缺陷分析及對策建議[J].中國病案,2015.16(2):20-24
[11] 王卓,劉國偉,王巖等.數據脫敏技術發展現狀及趨勢研究[J].信息通信技術與政策,2020.4:18-22
[12] 佟玲玲,李鵬霄,段東圣等.面向異構大數據環境的數據脫敏模型[J].北京航空航天大學學報,2020.12:1-12
[13] 吳克河,朱海,李為等.基于敏感信息度量的t-保密脫敏技術改良[J].信息技術,2019.43(11):5-9
[14] 葉水勇.數據脫敏技術的探究與實現[J].電力信息與通信技術,2019.17(4):23-27
[15] 葉水勇.數據脫敏系統的研究與實現[J].電力信息與通信技術,2019.17(6):31-36
[16] 孔欽,葉長青,孫赟.大數據下數據預處理方法研究[J].計算機技術與發展,2018.28(5):1-4
[17] 林予松,王培培,劉煒等.醫療體檢數據預處理方法研究[J].計算機應用研究,2017.34(4):1089-1092
[18] 吳歡,應俊,王逸飛等.乳腺癌病理文本的結構化信息提取[J].解放軍醫學院學報,2020.41(7):746-751
[19] 盧淑祺,竇志成,文繼榮.手術病例中結構化數據抽取研究[J].計算機學報,2019.42(12):2754-2768
[20] 梁立榮,李長偉,沈曄等.基于層疊條件隨機場模型的電子病歷文本信息抽取[J].計算機應用與軟件,2019.36(10):47-54,112