摘 要:數據集是若干相關數據元的集合體,如何對數據集進行科學有效地劃分,以確保其類目唯一、結構合理、層次清晰、冗余性小,同時保證分類體系框架適應數據集不斷豐富的內容和日益增長的種類與數量,是元數據注冊管理系統中數據集管理必須解決的問題。首先提出數據集分類的基本原則與方法,接下來將所提出的原則與方法應用到衛生信息數據集分類中。對衛生信息數據集主分類表類目設置、復分類表類目設置進行詳細的分析,并在此基礎上,以健康檔案相關衛生服務基本數據集的分類為例,給出該數據集的主分類目表。應用表明,采用該分類方法所得類目是能夠容納大量衛生信息的最小單元—數據集。
關鍵詞:數據集;分類;衛生信息數據集;元數據注冊系統
中圖分類號: TP311.13 文獻標識碼:A
1 引 言數據集是為特定目的而收集的、具有特定主題的一組數據,是若干個數據元組成的集合體[1]。數據集有兩個主要作用,一是用來表示需要用多個數據元表示的事務,如人的姓名的完全表示包括當前姓名、昵稱、化名、筆名、中文名、外文名、曾用名、曾用名使用時間、曾用名停用時間等;二是用來規范最小數據集,如衛生信息數據集中的住院病人調查數據集、出生登記最小數據集、死亡報告最小數據集、腫瘤登記數據集等,用于區域醫療、疾病監測、統計調查和報告等。數據集是元數據注冊系統中的重要管理項,如何對數據集進行科學地劃分,以滿足數據集分類編目的簡便性、可操作性和通用性等需求,同時提高分類體系的可延展性、穩定性,是對元數據注冊系統中數據集管理必須解決的問題。本文對數據集的分類方法進行了研究,并將所提出的方法應用到衛生信息數據集分類中,給出了健康檔案相關衛生服務基本數據集的主分類目表。
2 數據集概述
2.1 數據集基本概念
數據集是具有主題的、可標識的、能被計算機處理的數據集合。
1)主題:圍繞著某一項特定任務或活動進行數據規劃和設計時,對其內容進行的系統歸納和描述[6]。通常數據集主題應具有劃分性和層級性,劃分性是指主題間可通過不同的命名,將相同屬性的主題歸并在一起形成相同的類,將不同屬性的主題區分開形成不同的類;層級性是指主題可被劃分成若干子主題或子子主題。
2)可標識:指能通過規范的名稱和標識符等對數據集進行標記,以供識別。標識與名稱的取值需要通過具體的命名或編碼規則來規范。
3)能被計算機處理:指可以通過計算機技術(軟硬件、網絡),對數據集內容進行發布、交換、管理和查詢應用。這些數據可以由不同的物理存儲格式來實現,按照數據元的定義與數據類型,在計算機系統中以數值、日期、字符、圖像等不同的類型表達。
4)數據集合:指由按照數據元所形成的若干數據記錄所構成的集合。例如,衛生信息數據集中的病案首頁數據集由:主索引、入出轉、診療、護理、手術、費用等不同數據組成。
2.2 數據集基本屬性
每個數據集所具有的屬性都包括通用屬性和特有屬性兩部分。數據集的通用屬性包括數據集主題、標識、實體和數據項,又稱“基本屬性”。數據集特有屬性是指與數據集相關的區別與其它數據集的一些屬性,如衛生信息數據集的特有屬性包括類別、區域、專業、學科、建立時間、涉及的疾病等。
3 數據集的分類原則與方法
3.1 數據集的分類原則
系統性原則:綜合考慮數據集主題一致性,按其內在聯系進行系統化排列,確保類目唯一、結構合理、層次清晰,減少冗余。
實用性原則:滿足數據集分類編目的簡便性、可操作和通用性需求和數據集查詢的一致性理解。
可擴展性原則:保證分類體系框架適應數據集不斷豐富的內容和日益增長的種類與數量。
兼顧科學性原則:自頂向下,優先選擇最能代表衛生信息數據集主題的語言、詞條定義類目名稱,編制受控分類體系表。
穩定性原則:使用穩定的因素作為分類依據,同時提高分類體系的可延展性或兼容性,促進穩定性。
3.2 數據集的分類方法
1)主題優先法
依據主題構建主分類框架對數據集進行分類,分類框架各層級類目可表示為一級、二級、三級類目等,如表1所示。
2)多屬性復分法
數據集以相同主題構建,同時在若干相同主題數據集中,又根據其個性,如(衛生信息數據集)時間、地域、疾病、學科、機構等多屬性,構成輔助分類體系,即復分類體系。
數據集復分類如圖1:
3)組配分類法
組配分類法是按照多維度、交叉性方式,將數據集主分類框架與復分類表組合使用,對數據集進行分類的規則。如圖2所示:
4 衛生信息數據集分類
4.1 衛生信息數據集
衛生信息數據集是在醫藥衛生領域,為滿足政府衛生決策、業務處理、科學研究、信息發布與績效評價等需求,按照數據集概念設計、歸納、整合的主題信息集合。醫藥衛生領域的數據集主要可以歸納為三個方面:
1)信息發布類統計數據集:如中國衛生統計年鑒中衛生機構設置及規模、衛生人員資源的地區分布、衛生經費的籌集及分配等數據集,各類衛生機構的統計月報、年報,以及滿足某一專項統計需求通過統計收集、歸納、整理、報告形成的數據集。
2)業務系統建設類的基本數據集:包括醫療、公共衛生、衛生監督等領域為了滿足業務信息系統規范化建設和領域內部以及領域間數據交換與共享需求,設計歸納的各個子系統(或者功能模塊)所包含的最小數據元素的集合。如:兒童出生登記、食品衛生許可、個人健康檔案、住院病人入出轉、居民死亡登記報告等基本數據集。
3)為滿足特定目的收集整理制作的數據集:包括通過調查、觀察、監測、檢測、試驗、實驗等方式獲取的滿足科學研究、業務咨詢或衛生服務決策等需求的數據集。如:近年來國家投入建設的醫藥衛生科學數據共享數據集、衛生服務調查數據集、疾病及危險因素調查等內容的數據集。
4.2 衛生信息數據集的分類
1)主分類表類目設置
(1)類目界定原則
衛生信息數據集分類中的每一個類目都圍繞特定的主題,表達一定主題知識的內涵和外延。科學分類體系所列的類目,能夠容納大量衛生信息的最小單元--數據集,從而成為管理數據集的工具。
a.類目名稱與主題對應:類目反映主題內容,一一對應。
b.類目名稱規范:名稱應簡潔、規范、通用、無歧義,且確切表達主題內容、范圍,必要時應給出類目注釋。
c.同位類互斥:同位類之間應界限分明,非此即彼。
d.數據集存在性:每個類目應確保存在一定數量的衛生信息數據集。
e.類目均衡:類目均衡展開,允許突出或合并列類。
f.層次逐級隸屬:類目從總到分的結構須逐級隸屬,每層劃分應有單一、明確依據,連續展開。
(2)類目層級約束規則
衛生信息數據集分類體系的展開層次決定著分類導航系統的導航程度,層次越多越深,知識被組織得越細密,用戶查找信息耗費的時間和精力就越多。
衛生信息數據集主分類層次應控制在3級-6級之間。
2)復分類表類目設置
(1)類目界定原則
a.復分類表的類目根據特有屬性分區段設置,每個區段對應數據集的一個特有屬性,構成一個復分類的類目。
b.復分類的類目間無層級、無關聯,無順序約束,屬于分區段的松耦合約束。
c.復分類目區段個數可根據實際需要進行擴展。
(2)屬性有限控制
復分類表屬性寬度的控制應該充分考慮衛生信息數據集內容的特有屬性進行設置,詳細描述、全面覆蓋數據集內容信息,多屬性組配,增加數據集管理維度、提高數據組織和生產的效率和質量,增強數據集聚類的靈活性、增加檢索入口,適應計算機檢索的需要。
衛生信息數據集分類中的復分類表可以包括多種屬性分類,例如,地區表(國內地區按GB/T 2260、國際地區按GB/T 2659)、組織機構代碼表按GB/T 11714、疾病分類表按GB/T 14396、學科分類表按GB/T 13745的規定。4.3 衛生信息數據集主分類目表
針對衛生信息健康檔案的主要信息來源,可制定出健康檔案相關衛生服務32個基本數據集的主分類目表。按照業務領域(主題)分為3個一級類目:基本信息、公共衛生、醫療服務。其中“公共衛生”包含4個二級類目:兒童保健、婦女保健、疾病控制、疾病管理。具體分類如表2所示。
5 結束語
為了最大限度地滿足數據集分類編目的簡便性、可操作性、通用性以及數據集查詢一致性理解的需求,對元數據注冊系統中數據集進行分類時往往采用主題優先法和多屬性復分法組合使用的分類方式,即組配分類法。在具體的應用中需根據元數據注冊系統中待分類數據集的應用特點進行選擇。采用主題優先法進行分類時,由于分類體系的展開層次決定著分類導航系統的導航程度,層次越深,知識被組織的越細密,用戶查找信息耗費的時間和精力就越多,因此數據集的主分類層次不宜過多,一般控制在3—6級即可。
參考文獻
[1] 肖瓏.中文元數據概論與實例[M].北京:北京圖書館出版社,2007-04-01.
[2] 中國圖書館分類法編輯委員會.中國圖書館分類法[M].第4版.北京:北京圖書館出版社,1993.
[3] 中國圖書資料分類法編輯委員會.中國圖書資料分類法[M].第4版.北京:中國技術文獻出版社,2000.
[4] 北京協和醫院世界衛生組織疾病分類合作中心.疾病和有關健康問題的國際統計分類第十次修訂本(ICD-10)[M].北京:人民衛生出版社,1996.
[5] 王丙義.信息分類與編碼[M].北京:國防工業出版社,2003.
[6] 中國標準化研究中心.信息分類與編碼國家標準匯編[M].北京:中國標準出版社,2000.
[7] 郭書普.網絡農業信息分類和編碼的研究[J].農業圖書情報學刊,2003,(6):139-141.
[8] 董琳.網絡信息分類組織的發展趨勢與標準化[J].圖書情報知識,2004,(2):65-67.
[9] Wheeler DL, Chappey C, Lash AE, et al. Database resources of the National Center for Biotechnology Information[J]. Nucleic Acids Res,2000,28(1):10-14.
[10]International Statistical Classification of Diseases, 10th Revision [M]: Second Edition. Geneva: World Health Organization,2005:1-19.