郝燁,唐橋紅,李佳戈,王浩,孟祥峰,任海萍
中國食品藥品檢定研究院 光機電室,北京 100050
人工智能的發展[1-2]對數據集提出了強烈的需求,推動了醫學數據的大規模開發。由于不同機構、組織自發的數據采集和信息錄入缺乏可比性,數據采集過程中容易引入不唯一、不完整、不正確的不可用數據[3]。為了保證數據質量,有必要在數據錄用前對數據進行預篩選或預評價,其中的關鍵步驟之一是使用數據清洗技術剔除不可用數據。由于醫學數據的形式極其豐富,數據清洗技術需要針對不同數據類型和不同問題進行開發[4]。
除了數據質量之外,患者隱私保護也是數據清洗關注的重點內容。國內外法規對于患者隱私保護的要求均非常嚴格,不僅關系到醫療器械研發、臨床研究的合規性,也影響生產、經營與研究的合法性,而醫學數據難免記錄患者隱私信息,這需要進行有效的脫敏與確認。
在眾多醫學數據格式之中,醫學數字圖像通訊協議(Digital Imaging and Communications in Medicine,DICOM)格式在數據清洗方面具有代表意義,是本文研究的重點。DICOM標準是廣泛應用于放射醫療領域(X射線、CT、核磁共振、超聲等)的醫學圖像國際標準,是醫學成像設備中部署最廣泛的標準之一。現階段,大部分醫學圖像數據的分析及應用都建立在DICOM標準基礎上[5],針對DICOM圖像的數據清洗技術是對醫學圖像進行數據分析及應用的基礎。本文介紹了對DICOM格式的CT圖像進行預處理和清洗的流程設計和實踐經驗,包含倫理確認、數據質量的確認和隱私保護等內容,以期引起對清洗環節的重視,并對相關醫學圖像數據的管理和質控工作起到借鑒和規范作用。
數據清洗技術在生物醫學領域中的應用與其他環境中有所不同,主要是醫學圖像不同于其他信息,其中涉及患者隱私等諸多倫理問題。因此,開展基于醫學圖像的數據研究和分析必須首先關注數據是否脫敏,是否符合相關法律和條例規定。我國目前尚無成熟法案專門規定患者隱私相關內容,但是在原衛生部、原國家食品藥品監督管理局、原國家中醫藥管理局2012年聯合公布的《醫療機構從業人員行為規范》[6]中明確說明了“尊重患者隱私權”等。
在國際上,1995年歐盟通過了《個人數據保護指令》針對個人數據采取統一立法模式,后來被2018年5月25日生效的《通用數據保護條例》取代。《通用數據保護條例》對個人數據、與健康相關的數據等概念都給出了明確定義,并對公共健康領域內如何在保護數據主體權益的情況下開展研究作出了詳細說明。
為了保障患者隱私問題,促進國家在醫療健康信息安全方面電子傳輸的統一標準,美國國會在1996年頒布了 《健康保險可攜帶性與責任法案》(Health Insurance Portability and Accountability Act,HIPAA)[7],旨在為各種醫療機構及商業合作者提供病人隱私保護方面的行動指南。法案中規定,對于去除特定標識的健康信息數據便可以自由使用不受限制[8-9]。基于HIPAA法案及國內外相關規范中的隱私規定,我們在數據清洗時對患者ID 等可能被用來識別到個人的隱私信息進行了提取和查驗,以保證數據的合規性。
DICOM標準,是美國放射聯合會和美國國家電子制造商協會聯合制定的[10],目的是為了解決由于醫療設備廠家不同帶來的通訊困難等問題。現在國際通用的DICOM標準是3.0版本,于1993年正式發布。
DICOM標準詳細規定了傳輸醫學影像及其相關信息的交換方法和交換格式。DICOM的文件組織是按照患者、研究、序列和圖像四個層次進行的[11]。在DICOM文件中最基本的單元是數據元素。DICOM數據元素主要由四部分組成:標簽、數據描述、數據長度和數據域[12]。DICOM中對應的所有數據元素都可以通過標簽來唯一標識,DICOM中人為將標簽分為兩個部分:組號和元素。標簽和元素的對應關系可以通過查閱標準來描述。數據描述用以說明數據對應的類型,數據長度指明數據的字節數,數據域則包含了該數據元素的數據。數據具體格式如圖1所示。

圖1 DICOM數據的具體格式
在DICOM格式的CT圖像中,許多數據信息都可以在文件頭中表示,共包含四級屬性,患者、檢查、序列、圖像。比如:患者信息主要包含患者姓名、患者ID等個人信息,檢查信息主要包含該檢查的ID、時間、類型、部位等信息,序列信息主要包含該圖像序列的識別碼、圖像方位、層間距、層厚等信息,圖像信息主要包含圖像的標識碼及圖像采樣率等基本信息。
在針對DICOM文件頭的數據清洗過程中,主要是讀取患者數據確定數據是否完成脫敏,是否合規;讀取檢查和序列的識別碼確定圖像的唯一性,通過圖像的標識碼判定圖像是否連續完整,此外,通過讀取層厚、層間距等信息基本可以確定圖像的質量并加以篩選。涉及的主要Tag見圖2。

圖2 DICOM文件數據清洗中關鍵標簽及釋義
數據清洗首先應設立清洗目標,明確數據的完整性、有效性和正確性如何體現[13]。在醫學影像領域,數據清洗的常見目標包括以下幾點:① 對圖像的可讀性、唯一性進行篩選,去除不完整、不唯一的圖像;② 對質量差的或者不滿足臨床診斷要求的圖像進行剔除,比如全黑圖像或者層間距過大或過小的圖像;③ 對患者隱私信息進行提取和檢查,確保圖像的合規性。
數據清洗一般來講就是根據清洗目標,去除各種不合規或質量不達標數據[14]的過程。簡單來講,數據清洗過程可分為以下幾個步驟:① 對倫理批準情況進行確認;② 針對要避免的數據質量風險明確清洗規則;③ 根據數據情況及清洗規則,制定清洗流程;④ 對清洗流程進行評估與驗證;⑤ 輸入原始數據,完成清洗;⑥ 清洗后的數據審核及確認。
將數據清洗技術應用于DICOM格式醫學影像時,除了考慮最基本的DICOM圖像的合規性、可讀性、連續性、唯一性等基本指標外,還應該根據數據集建設的需求,對DICOM 3.0格式的醫學圖像質量進行細化規定。
以下用肺結節醫學影像數據集為例,介紹圖像清洗的具體操作。
參照國際競賽和研究經驗[15],肺結節產品研發使用的醫學影像數據集經常采用DICOM 3.0格式的肺部CT圖像,為了提升數據質量,數據清洗過程中除了保證數據的合規性、可讀性、連續性和唯一性等基本指標外,還應重點考慮CT圖像層間距和層厚的協調關系,避免出現太大非掃描區域,導致信息不完整。根據低劑量螺旋CT肺癌篩查專家共識,重建層厚≤0.625 mm的設備可以無間隔重建,對于重建層厚介于0.625~1.20 mm之間,重建間隔≤層厚的80%[16];在肺亞實性結節的影像處理中,根據肺亞實性結節影像處理專家共識,對層厚<1 mm的設備可以無間隔連續重建,對掃描層厚>1 mm,重建間隔選擇準直層厚的50%~80%,以免漏診或者誤判[17]。考慮肺結節數據集的數據和設備來源的多樣性問題,建議在清洗規則中將層間距/層厚的范圍限定在[0.6, 1],以便為后續的數據分析提供高質量的數據。
根據上述分析,將肺結節醫學影像數據集的數據清洗流程設計,見圖3。
2.3.1 清洗方案的實施
本次肺結節醫學影像數據的清洗工作具體實施步驟如下:
第一步,對原始數據進行倫理批件人工審核,篩除未經倫理批準的數據,以確保數據來源的合規性。
第二步,依照上述清洗流程圖編寫清洗程序,將人工審核倫理通過的數據應用清洗程序進行清洗,以確認數據真實唯一可用,排除無法讀取、不完整的數據、無使用價值的數據和重復數據。
第三步,脫敏的檢查,在第二步中如果出現敏感信息非空白的數據,需要人工審核信息是否脫敏(包括原始圖像、頭文件、附加信息中涉及患者隱私的任何信息或字段)并剔除未脫敏數據。

圖3 肺結節醫學影像數據集數據清洗流程圖
第四步,將清洗后的數據質量問題歸類輸出,人工溯源到原始數據逐一審核確認。
本次數據清洗共發現4大類數據質量問題,通過人工溯源的方式將原始數據對應的質量問題一一核對確認,發現人工溯源一致性為100%,這說明依照上述步驟進行數據清洗的方法準確有效,既可以快速準確發現數據問題,完成數據清洗工作,同時也節省了大量的人力和時間成本。
2.3.2 清洗結果及數據質量問題分析
在本次數據清洗中,以數據質量總體通過率作為最終的定量指標,其定義是通過倫理審核、脫敏審核、數據清洗之后的數據量除以清洗或審核前的數據總量。肺結節醫學影像數據集的指標,數據質量總體通過率、倫理通過率、清洗通過率、脫敏通過率分別為96%、100%、96%、99%。
本次數據清洗發現了以下幾類數據質量問題:
(1)存在不唯一數據。清洗過程發現了與現有的公開數據庫存在重合的重復圖像,這說明提供數據的機構在數據管理方面存在問題,或者由于其他原因導致公開數據集的數據混入國內臨床數據。
(2)存在不滿足特定要求的數據:例如規定CT圖像的層間距層厚比值的可用區間為[0.6, 1]時,篩除了一批間距過大甚至不連續的圖像,例如圖4所示的例子,相鄰兩張圖像由于間距過大,在輪廓上無法匹配,也無法進行肺結節的標注。

圖4 層間距大于層厚的兩張連續掃描的CT圖像
(3)存在不完整圖像、不可讀圖像、純色圖像、圖像缺損、序列缺層、立體區域不連續等多種情況,暴露出數據質量上的種種缺陷。
(4)存在未脫敏數據:部分被剔除的醫學影像在圖像或頭文件中顯示非脫敏的患者信息,有泄露患者信息的風險,說明患者隱私保護的措施目前尚不完備。
上述問題的產生,根源要從DICOM 3.0標準的執行角度分析。DICOM 3.0標準雖然對數據交換格式和協議做了清楚的規定,但是并未規定數據存儲的具體要求,在具體應用中,這部分由使用者自行決定。在CT等醫學影像領域,由于行業管理的規范性不足以及不同的醫師操作習慣不同,導致最終的DICOM數據格式不統一。因此會出現不完整、不唯一、不合要求的數據,數據質量參差不齊。這些問題在數據清洗中應及時被發現并加以矯正。
由于數據的收集、傳輸、存儲過程中都會存在引入不可用數據的風險,建議從以下幾個方面控制數據質量,提升清洗效果:① 數據管理人員應當加強對數據來源的追溯,充分隔離公開數據集、驗證集和測試集,避免數據污染;② 充分考慮數據的特殊要求并在數據清洗時提出針對性清洗規則,通過數據清洗將不滿足規則的數據篩除,可以很好提升整體數據質量。
為了保證數據多樣性,醫學影像數據集中的數據來源往往途徑較多,加上醫學圖像數據的處理方式很難統一,容易產生不可用或者質量不過關的數據,這對下一步的數據使用造成了障礙。本文從DICOM數據格式標準和相關法規出發,明確了數據清洗的目標,設計了數據清洗流程,進行了實踐檢驗,并且在應用中發現了不同機構的數據集存在的共性質量隱患,本研究可在數據收集階段加強數據的質量控制,對提高基于DICOM格式的醫學數據集的數據質量提供幫助,同時本文工作也為其他醫學數據清洗工作提供了借鑒思路。