◆白玉祥 楊 喆 劉丹紅 徐勇勇
白玉祥 楊 喆 劉丹紅 徐勇勇*
第四軍醫大學衛生統計學教研室 陜西 西安 710032
統一、完整、清晰的數據元標準是衛生信息共享的必備條件。數據元標準化著眼于從底層逐一規范信息采集的數據項,建立數據元標準化應該遵守的元數據規范,并對數據元及其語境、數據元之間的相互關系等做出詳細的描述。否則,數據元標準體系將無法在統一的元數據框架下開發,不利于標準的有序管理和有效應用。
2009年,我國居民前5 位主要死因轉變為惡性腫瘤、心臟病、腦血管疾病、呼吸系統疾病和意外損傷或中毒[1],這與2005年美國國家生命統計報告死因順位基本一致,而十大主要死因疾病中已不再包含傳染病[2]。由此可知,慢性病已取代傳染病成為我國衛生系統主要疾病負擔。事實上,心腦血管等慢性疾病多數是可通過采取健康生活方式行為等進行預防的。影響慢性病的主要不良生活方式包括吸煙、飲酒、高鹽飲食、體力活動不足等,但是這些與健康危險因素相關的數據在衛生信息標準化領域的研究相對較少。本研究主要依據WS 363.5-2011[3]健康危險因素數據元目錄,針對衛生信息領域中影響健康的危險因素,構建健康危險因素的元數據框架以及在此框架下有關健康危險因素的數據元分類。
結合我國健康檔案數據標準化需求,定義健康危險因素數據的類、類的屬性以及類之間的關系,并與標準術語和編碼體系(如WS 364.5- 2011[4])建立關聯和對應關系,構建健康危險因素的語義模型。以WS 363.5-2011 健康危險因素數據元目錄作為數據項,歸納語義模型框架下的數據項分類。
構建健康危險因素數據的元模型應遵循UML 規則,采用Rational Rose 2003 作為數據建模工具。
本模型的頂層類(Super Class)是健康危險因素,描述屬性或元數據包括健康危險因素類別名稱、健康危險因素類別代碼等。類的劃分呈樹狀層次結構,可從頂層的健康危險因素類直至單個危險因素的底層類,類的顆粒度逐漸細化。模型第一層可初步將健康危險因素劃分為行為危險因素、環境危險因素、職業危險因素和其它危險因素4 個子類。每個子類還可根據需要繼續細分,職業危險因素進一步分為放射性危險因素和非放射性危險因素;行為危險因素進一步分為飲食、飲酒、吸煙和運動等;環境危險因素沒有進一步分類,如以后的研究中出現則可以對其進一步分類。類的顆粒度越細,其屬性的約束越明確(可選屬性越少)。圖1為模型表示的框架,同一顏色代表同一層次的類。子類可以繼承父類的屬性,以健康危險因素中的職業危險因素為例,除了繼承父類健康危險因素的屬性外,還有其特有的描述屬性,包括職業危險因素種類、從事職業工種描述、職業危險因素接觸情況描述、職業防護措施標識等。

圖1 健康危險因素元數據框架

表1 職業危險因素子類數據項歸類
在模型框架下,對衛生部2011年頒發的WS 364.5-2011 衛生信息數據元目錄中的健康危險因素所有單位數據元進行分類。依據模型的層次,形成職業危險因素子類、職業危險因素子子類、行為危險因素子類、行為危險因素子子類4 個數據項歸類表,如表1、表2、表3 和表4 所示。表中包含每個類對應的屬性、數據元和數據元標識符,每個子類和子子類的屬性均繼承上位類的屬性。如職業危險因素這個子類對應的屬性“健康危險因素類別”對應的數據元有職業病危害類別代碼、職業暴露危險因素種類代碼和受照類型代碼。每個數據元均有其對象的數據元標識符。
表1 是“職業危險因素”子類數據項歸類,屬性包括健康危險因素類別、健康危險因素名稱、危險因素暴露史標志、接觸危險因素開始時間、職業危險因素種類、從事職業工種描述、職業危險因素接觸情況描述、接觸危險因素時長、職業防護措施標識、接觸危險因素結束時間等,分別對應的數據元為職業病危害類別代碼、職業暴露危險因素種類代碼和受照類型代碼等。
表2 是職業危險因素子子類數據元歸類,包括放射性危險因素和非放射性危險因素。放射性危險因素自身的屬性有接觸放射性物質劑量、受照原因,對應的數據元為受照劑量(Gy)和受照原因代碼;非放射性危險因素的屬性有非放射工作職業史,對應的數據元為非放射工作職業史。

表2 職業危險因素子子類數據項歸類
表3 是行為危險因素子類數據項歸類,均繼承健康危險因素類的屬性,對應的數據元為食物種類代碼、飲水類別代碼、吸食煙草種類代碼等。

表3 行為危險因素子類數據項歸類
表4 是行為危險因素子子類數據項歸類,每個子子類均有其對應的自身屬性,分別對應的數據元有飲食頻率分類代碼、每天食用食物的頻率、每周食用食物的頻率、每月食用食物的頻率、每年食用的食物食用頻率代碼、日主食量等。
表5 是環境危險因素子類數據項的歸類,屬性所對應的數據元為禽畜欄類別、廚房排風設施類別代碼、廁所類別代碼、燃料類型類別代碼等。
還有一些數據項如孕早期服藥類別代碼、孕產期高危因素代碼、艾滋病患者親屬感染狀況代碼、中毒農藥名稱代碼、勞作情況代碼等,由于其特殊性不能歸入職業、行為、環境危險因素中,在本模型中歸入其它的危險因素。
本研究在廣泛參考國家及國際標準的基礎上,構建了健康危險因素數據元數據框架。且元數據框架將健康危險因素逐步分解,形成類的樹狀層次結構。第一層可分為職業危險因素、環境危險因素等4 個子類,各自包含一組特定的屬性。規范化的健康危險因素數據即為一組特定屬性(數據元)的實例。元數據框架能夠保證健康危險因素數據既有完整、清晰的語義,又有統一、規范的表示格式,可滿足數據交換和共享的需要。

表4 行為危險因素子子類數據項歸類

表5 環境危險因素子類數據項歸類
元數據框架指導下的健康危險因素數據標準化有利于國家層面上健康危險因素數據標準的研發和維護。數據模型中的類及其屬性經過專業論證預先設定,數據元的數量在可控的范圍內。所有的數據項均在數據模型的框架下擴展,業務領域對產生的數據項無窮盡,且數量隨著新方法、新技術不斷涌現,因此不是數據元的膨脹,而是值域的擴充。
本研究結合我國的醫學信息標準化實踐,為健康危險因素數據的標準化提供了研究思路和方法。雖然初步確定了健康危險因素項目的一組屬性,但是屬性所對應的數據類型還未做相應的規定,結果尚未經過充分的論證,還有待于在進一步研究中改進和完善。
[1]Cancer now main cause of death in China.Retrived Mar 12[EB/OL].http://www.peopleandplanet.net.
[2] Deaths and percentage of total deaths for the 10 leading causes of death,by race:UnitedStates,2002[EB/OL].http://www.cdc.gov/nchs/products/pubs/pubd/nvsr/53/53-pre.htm.
[3]中華人民共和國衛生部.WS 363.5-2011 衛生信息數據元目錄.第5 部分:健康危 險 因 素[EB/OL].http://www.moh.gov.cn/publicfiles//business/htmlfiles/zwgkzt/pwsbz/index.htm,2013-02-10.
[4]中華人民共和國衛生部.WS 364.5-2011 衛生信息數據元值域代碼.第5 部分:健康危險因素[EB/OL].http://www.moh.gov.cn/publicfiles//business/htmlfiles/zwgkzt/pwsbz/index.htm,2013-02-10.