謝冰潔,張旭峰,曾薔,姚志洪,3
(1.同濟大學 生命科學與技術學院,上海200092 ; 2.上海生物信息技術研究中心,上海 200235;3.中科院上海健康科學研究所,上海 200025)
健康檔案記錄了每個人疾病的發生、發展、治療和轉歸的過程以及個人體征數據的波動情況,是檔案歸屬者及時了解自己健康狀況及輔助醫生進行診斷的重要醫學資料。電子健康檔案是近年來醫院數字化進程中的一個重要研究方向,其在信息存儲、傳遞、檢索、加工利用等方面的優勢顯而易見。但由于醫療保健信息在數據類型上的多樣性和其內容的復雜性,使電子健康檔案在內部表示、存儲管理、數據交換、安全控制等環節上存在很多待改善之處[1]。
隨著醫療信息化建設的不斷深入,各醫療機構間數字化信息的互操作性變得益發重要,即電子健康檔案的共享性。提高共享性的一個途徑是對傳遞的信息進行規范化,讓數據能夠在不同領域的機構間傳輸,提高電子健康檔案的利用率。本文基于健康檔案中使用最為廣泛的門診數據集,嘗試了門診方面的電子健康檔案規范化工作。主要包括找出現有格式各異的門診數據與《HRC00.01門診診療基本數據集標準》元數據間的差異并加以規范化;以及為了防止數據傳遞過程中由于缺乏結構產生理解歧義,使用XML Schema定義的用于數據交換的結構,即數據規范化和結構規范化兩方面。在一定程度上對提高國內醫藥衛生行業管理水平、信息安全傳輸和交換共享利用[2]起到積極的作用。
門診信息多而繁雜,涉及面廣泛。門診有初診和復診病歷,包括主訴、現病史、體格檢查、輔助檢查、處理措施、醫生簽名等[3],是復診和轉診的重要資料,但門診病歷多由患者保存,往往因為各種原因而利用率低下。門診健康檔案記錄患者的基本健康信息、個人信息和完整的就診信息,為患者疾病的觀察診療,醫療機構的門診病種研究和疾病統計提供數據支持。但是正因為門診信息的繁雜,各醫療機構對相關數據的格式定義不一,為門診健康檔案的傳輸和共享制造了很大障礙,因此健康檔案的規范化勢在必行。
數據規范化方面,基于衛生部頒布的《健康檔案基本架構和數據標準(試行)》(簡稱《標準》)門診診療數據元的定義來設計驗證程序,將標準應用于實踐,檢測現有門診健康檔案的數據元與《標準》間的差異;結構規范化方面,根據《標準》中隱含的基礎結構和日常生活中的經驗與習慣,參考臨床醫療信息交換方面的標準,運用XML技術建立基本的數據元層次結構。
為貫徹落實《中共中央、國務院關于深化醫藥衛生體制改革的意見》和《國務院關于印發醫藥衛生體制改革近期重點實施方案(2009-2011)的通知》精神,推進居民健康標準化和規范化建設工作,衛生部組織制定了《健康檔案基本架構與數據標準(試行)》[4]。其中的《HRC00.01門診診療基本數據集標準》包含38個數據元,從就醫時間、就醫地點、患者基本信息到疾病診斷、檢查、治療、藥物乃至費用各方面,通過“數據元名稱”、“定義”、“數值類型”、“表示格式”、“允許值”等角度進行統一定義,旨在為健康檔案所需門診診療基本信息提供屬于規范、定義明確、語義語境無歧義的基本數據集標準。門診健康檔案的數據規范化即對檔案內容進行規范化,包括數據的定義、格式等方面。
進行規范化首先要了解現有數據與標準的差異。目前我們的工作流程是首先通過閱讀門診數據字典了解醫療機構中現有門診數據元的含義和定義,手工將數據字典中的數據元與門診基本數據集標準中的數據元進行映射,形成映射文件;然后將此映射文件輸入到驗證工具中,工具根據映射信息比較相應的數據元定義并輸出檢測結果。結果中包括:與標準完全匹配、數據元名稱相同、內容不匹配、類型不匹配、長度不匹配、采用標準不匹配、定義不匹配、結構不匹配各項,從不同角度對現有的數據字典與《HRC 00.01門診診療基本數據集標準》對門診數據元的定義進行差異分析(表1)。隨后根據驗證結果對數據進行轉換,轉換形式包括兩種:一種是由驗證數據的提供方根據檢測結果直接修改數據庫中的數據字典,另一種是根據驗證結果定義轉換規則,然后由工具來完成數據的轉換,使交換數據符合衛生部的《HRC00.01門診診療基本數據集標準》的定義。

表1 檢測結果舉例
在進行數據傳遞時,除了傳遞的數據本身之外,數據結構也是很重要的。比如同樣的一個藥物名稱,放在禁忌藥物數據部份還是處方藥物數據部分,其意義是完全不同的。
衛生部《HRC00.01門診診療基本數據集標準》對元數據進行了定義,但沒有定義數據傳輸的層次結構及格式,然而從“數據元標識符”的運用上可以粗略顯現其對數據元的分組,例如“HR51.99.001.01門診癥狀-名稱”和“HR51.99.0 01.02門診癥狀-診斷代碼”從語義上來說應該同時出現。我們基于標準提供的這類隱含的內在聯系,輔以日常應用中數據元之間的實際關系,應用XML技術建立了基礎的層次結構。
XML(可擴展標記語言)是一種元語言,可以定義描述對象的結構;并將數據內容和定義相關聯,提高文檔的可讀性[5]。Schema是XML中的模板,是構建XML文檔的基礎。XML允許用戶自主構建數據類型,因此門診診療基本數據集標準中各種“表示格式”的限制可以通過XML中的正則表達式(regular expression)進行具體定義和實現,確保在XML Schema中最大化地實現《HRC00.01門診診療基本數據集標準》對數據元格式的限制。XML已經成為各組織在網上進行數據交換的標準格式,相對易于實行并且為高效地共享和交換數據提供了一個標準格式[6]。除此之外,Schema還可限定數據項的允許值(例如遵循GB/T 2261.2-2003 個人基本信息與分類代碼,婚姻狀況代碼)以及此數據項可出現的最小和最大次數(是否可選、出現一次或多次出現等),全面體現門診診療基本數據集標準的要求。XML文檔自帶驗證功能,將內容與相應數據項的限制關聯,可驗證數據內容的合法性。例如xs:pattern value= d{1,6},表示此數據項的內容是1位到6位的整數,若此位置出現超出六位的整數或非整數,XML解析工具將報錯并給出此數據項合法數據表示的提示。
我們根據《HRC00.01門診診療基本數據集標準》的內容結構及日常應用經驗,將門診健康檔案分為患者基本信息、門診信息、檢查檢驗、藥物信息、手術五大類(圖1);各類中包含相應的數據項,對應標準中的數據元(圖2)。

圖1 門診健康檔案分類
模板中“HRC00.01”是門診診療基本數據集的標識符,attributes中存放數據集的中文名稱,即門診診療;“1..∞”表示此元素中的數據項信息可多次出現;“+”表示此元素包含下層數據項。

圖2 “檢查-檢驗”中包含的數據項
模板中各葉子節點完全按照《HRC00.01門診診療基本數據集標準》中的數據元標識符進行描述,并使用注釋語句標識出數據元在標準中的定義,例如:

注釋出“HR51.99.002.01”,即檢查檢驗-類別的定義;而數據項的類型例如“string0”是自定義數據類型,通過語句:

體現出《HRC00.01門診診療基本數據集標準》對此數據元的格式限制,即內容為字符型,且最大長度為30。
我們初步將《健康檔案書基本架構和數據標準(試行)》應用于實踐,使用其中的門診數據集來進行健康檔案標準規范化的嘗試。從實踐中發現,要實現基于健康檔案標準的數據交換,必須完成兩件事,即數據規范化和結構規范化。數據的規范化首先需要進行數據字典和數據標準的映射,在此基礎上可以通過工具來進行數據的驗證,在驗證結果的基礎上完成數據規范化的轉換。從驗證工具數據的結果來看,驗證結果的準確率還是很高的,但是驗證結果依賴于數據元映射,映射的準確性和便捷程度需要進一步提高。而為了實現結構的規范化,我們使用XML Schema來定義交換數據結構。利用XML Schema建立的層次結構保證了交換數據的完整性和可讀性,同時可以直接使用XML 解析工具來完成數據的有效性驗證。目前我們定義的結構仍有待改進,以符合各方對門診健康檔案的不同需求。
我們的工作只是初步嘗試,目前電子健康檔案的共享面臨的難題仍然很多,安全控制、隱私保密、檔案的法律效力等問題亟待解決,這樣才能在不同領域提高檔案的利用率。
[1]孫震,秀娟.淺論基于HL7 CDA標準和XML技術在電子病歷系統中的應用[J].當代醫學,2007(6):133-135.
[2]梁志偉,呂玉波,袁野,等.電子病歷與健康檔案數據交換規范化的研究與應用[J].中國數字醫學,2009,4(3):50-53.
[3]易應萍.門診電子病歷的應用[J].臨床工程,2008,14(10):58-61.
[4]中華人民共和國衛生部.關于印發《健康檔案基本架構與數據標準(試行)》的通知[EB/OL].(2009-05-19)[2010-01-22].http://www.gov.cn/gzdt/2009-05/19/content_1319085.htm.
[5]劉芳蘭.健康檔案公網數據庫的建立及其應用價值[J].中國數字醫學,2009,4(3):48-49.
[6]Ean-Wen Huang, Da-Wei Wang, Der-Ming Liou.Development of a determinestic XML schema by resolving structure ambiguity of HL7 messages[J].Computer Methods and Programs in Biomedicine,2005(80):1-15.