王浩,周娟,曾雪,孟祥峰,張超,李佳戈
1. 中國食品藥品檢定研究院 醫療器械檢定所,北京 102629;2. 中國人民解放軍總醫院 醫學計量室,北京 100853
健康檔案數據集是臨床診療、健康服務、醫保、臨床隊列研究等各個領域的重要資源。根據衛生行業標準WS 365[1],其含義是:醫療衛生機構為城鄉居民提供醫療衛生服務過程中的規范記錄,是以居民個人健康為核心,貫穿整個生命過程,涵蓋各種健康相關因素,滿足居民自我保健和健康管理、健康決策需要的系統化信息資源。健康檔案數據集是醫院信息化的重要對象,在慢病防治[2]、居民健康管理[3]、公共衛生[4-5]、疫情防控[6]等方面具有重要的支撐作用。
在人工智能、組學技術蓬勃發展的今天,健康檔案數據集的內涵日益豐富,涉及多源異構數據的交叉融合。從數據來源看,可能包括來自院內的檢查、檢驗數據,也可能包括院外的家用醫療器械、移動健康終端、社區篩查設備等。這些數據是人工智能醫療器械的重要研發資源,需要建立標準規范。目前,健康檔案數據集在元數據方面已有相關行業標準[1],但質量評價規范相對薄弱[7-9]。
在抗擊新冠疫情期間,智能化快速部署醫院、方艙醫院作為公共衛生應急的重要基礎設施,在我國獲得了很大的發展,也成為醫院信息化建設和人工智能醫療器械研發的重要場所[10-11]。此類醫院具有快速、機動、靈活的特點,部署和調度具有動態性和臨時性。在新冠疫情防控的特殊背景下,數據的采集、隨訪、跟蹤頻率更高,處于動態變化中,健康檔案數據集的建設和質量控制面臨更多的挑戰[12-16]。
本文結合人工智能醫療器械對數據集的通用要求[17],研究健康檔案數據集的特殊問題和質量控制要點,旨在促進智能化快速部署醫院等特殊場景下的數據集建設。同時,在實踐環節,本文使用不同方法開展了數據集抽樣檢驗,為健康檔案數據集的質量評價工作積累經驗。
數據集作為人工智能醫療器械研發、訓練、驗證、確認、日常質控等各個環節的重要材料,已納入醫療器械監管的關注范圍[18]。在參考現有的標準規范和前人研究[17-20]基礎上,在智能化快速部署醫院的背景下,健康檔案數據集在質控方面應關注4項問題。
(1)多模態數據的融合。在現代醫學背景下,檢驗數據、文本數據、影像數據和視頻數據等都有可能納入健康檔案數據集。模態之間的關聯和一致性、單一模態及組合的質量,都應納入考量。
(2) 敏感數據范圍的擴大。在新冠疫情防控的特殊時期,社區篩查與監控數據、流行病學調查數據、個人活動軌跡都可能與健康檔案數據集相關聯,數據集的建設需要對更廣泛的個人隱私、生物特征識別信息進行保護,質控工作在數據脫敏、匿名化方面需要加強。
(3)標注的不確定性。在應對重大突發公共衛生事件時,臨床診療規范和數據標注依據可能出現快速的迭代變化,意味著健康檔案數據集的數據標簽具有不確定性,對數據標注的組織管理和動態更新提出了更高的要求。
(4)管理的動態性。對于智能化快速部署醫院,醫療方艙的編組和部署是動態的,醫務人員和患者/受試者也是快速流動的。數據采集、標注、人員、來源、存儲設施都具有動態性,數據集的可追溯性、版本控制、標志標識都面臨更大的挑戰。
基于以上考慮,對照《人工智能醫療器械質量要求和評價 第2部分:數據集通用要求(報批稿)》[17],健康檔案數據集的說明文檔宜增加6項特殊要求。
(1)數據形態。健康檔案數據集說明應描述健康檔案數據集包含的每一種數據模態對應的數據格式、數據量、存儲方式,明確哪些數據模態可獨立使用,哪些數據模態需聯合或組合使用。
(2)版本控制。對于可獨立使用的數據模態、需要聯合使用的數據模態組合,特殊需要(適當)時,可作為子集分配額外的版本號。
(3)數據元屬性。對于新型疾病或未知疾病,應設置專用的數據元名稱。特殊需要(適當)時,對該名稱進行動態更新,并確保可追溯性。
(4) 標注信息。健康檔案數據集說明應描述數據集整體、每一種可獨立使用的數據模態、需要聯合使用的多個數據模態是否具有標注信息。
(5)隱私保護。健康檔案數據集說明應描述受試者隱私保護的范圍、技術手段和規則。隱私保護的范圍至少考慮個人敏感信息、醫療健康數據、流行病學調查數據等。
(6)標識。健康檔案數據集應顯示唯一的標識,與數據采集相關的醫院、方艙的標識建立關聯。當醫院、方艙的部署發生變化時,數據集標識應相應改變。
在健康檔案數據集的具體質量測度方面,應增加5項特殊要求。
(1)對于多模態、多階段的健康檔案數據,各個模態時間戳的同步性、數據流轉的時效性應納入檢查范圍。
(2)在數據管理人員、數據來源動態變化的情況下,數據的用戶權限、訪問控制機制、隱私保護/加密機制應足夠快速,防止出現非授權訪問和隱私泄露。
(3)數據集的訪問、預覽、檢索工具及輔助工具應考慮單一模態、模態組合,確保數據集的用戶能充分地利用數據集的信息。
(4)健康檔案數據集整體、各獨立模態及其組合的數據特征層次、流行病學統計、樣本來源多樣性、數據多樣性等應符合數據集陳述的應用場景。
(5)健康檔案數據集各個模態的標注結論應不出現矛盾;數據集的一致性需考慮模態之間的一致性,對離群值、缺失數據進行解釋和處理。
健康檔案數據集的質量評價,需要開展必要的抽樣檢驗。一般來說,數據集的抽樣檢驗可分為生產驗收檢驗、質量監督檢驗兩種方式,但需要的樣本量不同,將影響成本和操作的可行性。
在生產驗收檢驗方面,業內通常參考GB/T 2828.2-2008[21](計數型抽樣檢驗)、GB/T 8054-2008[22](計量型抽樣檢驗)等標準,對產品進行抽檢。如果把數據集中的數據元看作產品,那么靜態的數據集符合孤立批的定義,而連續采集、動態增長的數據集符合連續批的定義。
一般來說,人工智能醫療器械訓練、測試使用的健康檔案數據集在一定周期內保持靜止,因此可看作孤立批,質量評價可采用極限質量(Limit Quality,LQ,不合格品百分率)作為主要指標。根據生產驗收評價思路,宜采用GB/T 2828.2-2008[21]規定的方法進行抽樣檢驗。此種情形下,應選用標準描述的模式A,根據數據集制造責任方聲稱的LQ、數據集的容量N查閱標準[21]中的表1,確定抽樣總量n和接收數(Accept,AC)。當抽樣數據中的不合格數量低于AC時,認為該數據集可接受。
在質量監督檢驗領域,業內通常參照GB/T 2828.4-2008[23](計數型抽樣)、GB/T 6378.4-2008[24](計量型抽樣)等標準開展產品抽驗。當健康檔案數據集作為核查對象時,由于樣本量一般大于250,可采用GB/T 2828.4-2008[23]規定的方法進行抽樣檢驗。檢驗時,應根據數據集制造責任方聲稱的聲稱質量水平(Declared Quality Level,DQL,單位為每百單位產品不合格數)、極限質量比(Limit Quality Ratio,LQR)水平、核查樣本總數N,查閱標準[23]中的表2~9相關內容,確定抽樣樣本數n、不合格品限定數L。當抽樣樣本中的不合格數量低于L時,認為通過檢驗。此處應注意,GB/T 2828.4-2008的生產方風險為5%,消費方風險為10%。
DQL與LQR的乘積為實際不合格品百分數。LQR水平包括O、I、II、III四種水平。LQR的水平越高,意味著實驗允許的樣本量越大,LQR取值越小,實際不合格品百分數越小。LQR水平的選擇,由經濟成本和抽樣檢驗的嚴格程度權衡決定。對于健康檔案數據集,本文建議選用水平II,樣本量較大,嚴格程度較高。
為了直觀比較上述兩種思路的評價方式與樣本量需求,本文設計了比對實驗。實驗材料是帶標注的肺結節封閉測試集,包含600個CT序列。具體評價對象是標注結果的形式有效性,考察肺結節的標注框是否充分包裹結節區域,屬于計數型抽樣檢驗。對于每一個被抽中的CT序列,核查人員需要進行手動操作,對每一層圖像上的標注框和實際的結節圖像進行檢查。
本次實驗分別參照GB/T 2828.2-2008[21]和GB/T 2828.4-2008[23],進行生產驗收抽樣檢驗和質量監督抽樣檢驗。由于抽樣方案依據的主要參數量綱相同,以LQ/DQL為橫坐標,以抽樣樣本量為縱坐標繪制圖1,可以比較兩種方案對樣本量的需求。以LQ/DQL為橫坐標,以接收數/不合格品限定數為縱坐標繪制圖2,可以比較兩種抽樣方案對不合格品的寬容程度。根據圖1展示的曲線,可見對同等要求的LQ/DQL,質量監督需要的樣本量低于生產驗收需要的樣本量,降幅為50%~80%。根據圖2展示的曲線,可見對同等要求的LQ/DQL,質量監督對不合格品更寬容。假設數據集制造責任方約定LQ/DQL為2%,那么生產驗收抽樣檢驗需要抽取125個CT序列,且全部合格后判定通過檢驗。質量監督抽樣檢驗需要抽取50個CT序列,其中至少48個序列合格后判定通過,工作量為前者的40%。假設檢查每個序列平均用時20 min,則后者比前者節省25 h,能夠明顯減少人力和時間。

圖1 兩種思路的樣本量需求比較

圖2 兩種思路的不合格品限定數比較
本文圍繞健康檔案數據集開發與質控開展研究,針對數據來源和層次的多樣性、數據采集與標注的動態性、執行單元的靈活部署與調度等問題,提出了數據集說明文檔、質量特性方面的特殊要求,擴展了對這一專業領域的數據集質量意識和質控要求。這些要素適合智能化快速部署醫院等特殊場景下的數據集建設背景,有助于促進相關的數據集開發和人工智能醫療器械研發活動。
同時,本文針對數據集質量評價的實操問題,對具體案例設計了抽樣檢驗比對試驗,直觀地比較了GB/T 2828.2、GB/T 2828.4兩個常見標準的抽樣方案設計。本文采用胸部CT肺結節數據集作為試驗對象,評價角度為數據標注形式的有效性,作為數據集質量評價的一種簡單情形進行舉例。試驗中發現,質量監督抽樣檢驗比生產驗收抽樣檢驗節省50%以上的人力和時間。在實際工作中,根據人工智能醫療器械數據集通用要求[17],數據集質量評價的維度遠比本次試驗豐富,單一樣本需要投入的人力和時間成本更高。健康檔案數據集具有多模態交叉融合的特點,評價難度和成本將大于單模態數據集。因此,質量監督抽樣檢驗更具有經濟性、可行性,建議在成本受控的情況下,使用質量監督思路開展質量評價工作。同時,本文的研究工作還存在一定的限制,主要考慮靜態的健康檔案數據集和孤立批數據的檢驗。對于動態、連續采集的數據集,有必要繼續研究每批數據的檢驗策略,兼顧經濟性與合規性。