孫劍華
摘 要:醫療記錄具有隱私的特性,在計算機廣泛應用的當今社會,有必要對這種隱私權的保護加以關注。在這種背景下,文章首先探討了醫學計算機資料庫隱私權保護的意義,進而分析了醫學計算機資料庫隱私權保護的技術應用。
關鍵詞:醫學;計算機;資料庫;隱私權;保護技術
1 醫學計算機資料庫隱私權保護的意義
醫療數據庫紀錄著個人基本數據及病歷數據,具有極高的研究價值,可作為公共衛生與臨床研究的素材,對整個社會有許多正面的貢獻。由于醫療數據庫紀錄著個人基本數據及病歷數據,數據敏感度高,若數據庫外泄,因個人隱私受侵犯所帶來的損失也會提高。因此,醫院信息部門在公開醫療數據庫時,往往針對使用者的需求采取不同程度的安全措施。目前學界使用醫療數據庫所進行的研究主題,大多需要使用病患個人身份的基本數據,包括性別、出生日期、地理分布、就診科別、就診日期及費用等,然而,當資料可以更方便地被搜集與匯整時,使用者便可能因此推論出額外的信息,導致特定個體的隱私遭到損害,特別是醫療數據庫內容大多包含了病患極為隱私且不愿被隨意泄露的投保及就醫紀錄。目前世界各國大多制訂醫療信息隱私及醫療信息安全保護的相關法規來規范醫療照護者的保密義務, 如美國國會在1996年8月通過了健康保險可移植性與責任法案,其中規范了信息安全性與機密性、符合保護個人隱私的需求,并明定信息系統應有的安全機制。
隨著網絡的普及,人們可以輕易取得公眾人物的生日,而媒體詳細的報道特定人物的健康及就醫信息,包括:疾病名稱、就診日期及就醫地點等,也可能被有心人士加以利用,成為從醫療數據庫中辨識特定身份的信息來源。當特定身份人士的健康信息被泄漏,它可能成為政治立場相對立的一方攻擊的焦點;當特定疾病的病患清單流入藥廠時,它可能成為業務員推銷藥品的對象;當病患過去的健康紀錄被保險業者取得時,保險公司可能重新評估被保險者的風險;有些病癥可能是社會上的忌諱話題,例如:愛滋病、個人濫用藥物、精神疾病等,醫療紀錄若缺乏隱私將可能導致失業、受歧視、身份被盜用或發生其他令人難堪的情況。因此,應尋找一個平衡點,使得資料庫中關于個人隱私或是對特定個體產生負面影響的信息得到合理的保護,在個人隱私不被侵犯的前提之下,盡量滿足公眾利益的所需,同時避免有心人士利用這些敏感信息,造成其他個體的傷害。相較于健保資料庫,醫院的電子病歷屬于第一手資料,其包含更詳細且完整的病歷資料,以自費身份就醫的紀錄亦保留在其中。因此,有必要針對醫療數據庫的隱私權保護技術進行探討,了解各字段相互間的安全屬性,在不影響現有的信息處理流程下,制訂一套匿名化分類系統以兼顧醫療信息質量及病患的隱私。
2 醫學計算機資料庫隱私權保護的技術應用
2.1 匿名化分類
匿名化分類(Anonymizing Classification)是指將識別個人身份的基本資料中特定字段(如生日、性別)模糊化后,再將該字段具有相同屬性(attribute)的記錄(record)連結成同一群組(cluster)。分類后的每一群組稱為一個bin,每一個bin里至少需包含的紀錄數量稱為bin size,為避免資料因具獨特性被辨識出來,bin size必需大于1。Bin size被廣泛使用于衡量數據的安全性,bin size越高,具有相同屬性的紀錄越多,每筆數據都受到同一個bin 中其它數據的保護,數據模糊的程度也因此提高,所以bin size的設定需參照數據的精確度,避免一昧要求安全性而使數據失真。
依照字段屬性可分成辨識碼屬性、類別屬性、日期屬性、數值屬性、天數屬性五類,分別包含的字段如下。一是辨識碼屬性(nom.):用以辨識個人身份的編碼,不具有樹狀結構。這類屬性包含的字段為數據庫流水號、身份證編號、就醫序號、慢性病連續處方箋號碼、醫師身份證號碼、藥師身份證號碼、姓名、病歷號、醫師代號、門診號、醫院代碼。二是類別屬性(cat.):具有階層樹狀結構的的類別屬性字段。此類屬性包含的字段包括門診處方及治療數據格式、申報類別、案件分類、特定治療項目代號、就醫科別、給付類別、部分負擔代號、轉入前之院所代號、是否轉出、國際疾病分類碼、主手術代碼、調劑方式、診察費項目代號、藥事服務費項目代號、代辦費用代碼及本院科別。三是日期屬性(date):為年、月、日格式的屬性字段,包含的字段為費用年月、就醫日期、治療結束日期及出生日期。四是數值屬性(cont.):醫療數據庫中數值屬性的字段以醫療費用為主,包含用藥金額、診療金額、診察費、藥事服務費、合計金額、部分負擔、申請金額、代辦費用、檢驗費用及檢驗部分負擔。五是天數屬性(days):由于醫療數據庫特有“用藥日份”紀錄,其本質不同于費用或其它數值變量,因此獨立成另一屬性,此類屬性包含的字段為給藥日份及慢性病處方日份。
2.2 系統設計與績效評估
在評估醫療數據庫字段特性的基礎上,可為不同特性字段建立不同保護方法。一是“辨識碼”屬性字段:有關匿名化分類的文獻中,對“辨識碼”屬性字段的處理方法大多以隱藏的方式進行保護,但在醫療數據庫中,能夠完全辨識個人身份的“身份證號碼”經常是實踐中進行數據庫匯整時使用來串聯兩個數據庫的關鍵字段,因此系統應仿效健保數據庫以隨機數編碼對辨識碼屬性字段進行加密保護。二是非“辨識碼”屬性字段:受保護字段的樹狀結構是匿名化分類基礎,除辨識碼字段外,其余四種屬性的字段皆具有不同特性,因而應將根據該四種屬性字段特性設計適當的樹狀結構。
為了評估系統效能,應根據所建立的各字段樹狀結構與績效評估指針,實作匿名化分類系統,這可以匿名化分類后的數據的“安全性”與“精確度”來評估系統的績效。一是為評估建立的樹狀結構,使用者可與衛生部門原始資料分類進行比較,使用兩者的樹狀結構進行相同的匿名化分類方法及設定相同的bin size后,以數據精確度指針評量匿名化分類后的信息質量;二是為評估設計的績效指標,使用者可與Datafly算法進行比較,評量兩者使用不同績效指標所挑選的字段進行模糊化后,數據精確度及安全性的差異。
參考文獻
[1]王苑菲.嚴格病案質量管理 確保病案的真實性[J].中國病案,2008(5).
[2]朱俊軍,楊業發,潘春華.病歷復印情況統計與分析[J].中國病案,2008(4).
[3]鄭筠,歐利民,楊佩璇,等.病案社會化利用存在問題的現狀調查[J].中國醫院管理,2008(11).endprint