孟祥峰,王浩,王權,張超,任海萍
中國食品藥品檢定研究院 光機電室,北京 100050
醫學影像數據是診療數據的重要組成部分,包括眼底拍照[1-6]、內窺鏡成像[7]、核磁[8]、X射線[9]等。醫學影像價值的開發需要投入大量人力進行定量分析、比較。目前,隨著深度學習技術的發展,人工智能(Artificial Intelligence,AI)算法在包括學影像的逐多領域實現了突破。人工智能在醫學影像的應用預期實現對疾病的檢出、分類、篩查、病灶分割及測量等工作。影像類人工智能醫療器械大量涌現,例如用于糖尿病視網膜病變識別/篩查/分期的產品、肺結節的檢出/篩查的產品等。這類產品是醫療器械監管領域新的方向,國內外尚未建立成熟標準和評價方法,有必要進行研究。
根據報道,國內外不同機構使用各種數據集舉辦過一些AI算法競賽,如LUNA[10-11]、Kaggle、天池大賽等。這些競賽對于比對算法性能提供了有益的借鑒,但角度不同于針對完整產品開展的有效性與安全性評價,不能完全滿足醫療器械監管層面的需求。目前尚未建立人工智能醫療器械的評價標準與方法規范。本文對影像類人工智能醫療器產品性能評價方法進行了研究,提出了通用的整體方案,討論了不同情形的特殊處理,有助于推進影像類人工智能醫療器械性能評價工作,為后續制訂標準規范提供依據。
影像類人工智能醫療器械可包含多種預期用途,如檢出、分類、邊界分割、尺寸測量等,由不同算法模塊實現。產品的評價建議按照從上到下、從整體到局部的原則建立流水線,在每個環節對各個模塊進行單獨考量。從臨床意義和工作時序出發,檢測流程按照檢出、分類、邊界分割、尺寸測量等步驟依次進行(圖1)所示。測試流程的每一步只允許把當前AI判斷正確的結果提交下一步的分析,以保證各步驟的獨立性,避免后續的誤判,例如在肺結節的檢出環節,僅把AI檢出結果中的真陽結果用于分類環節準確率的分析。
依托于測試集的性能評價主要是比較AI結果與測試集的參考標準,用不同指標建立定量描述的過程。所謂參考標準是指目標疾病狀態的真實信息[12-13],本文所提到的參考標準是指標注醫生通過圖像信息,對肺部疾病狀態進行判斷,給出病灶位置的準確邊界。以下對各環節具體展開介紹。

圖1 檢測流程圖
影像類人工智能醫療器械多采用提示框顯示AI檢出的病灶,提示框可能為方框、圓框、分割邊界等;提示框邊界與病灶距離可能為緊包裹或大于病灶一定尺寸。由于提示框形狀和尺寸形式各異,除非以邊界直接作為提示框,提示框的面積不能完全代表結節區域,因此用提示框與參考標準的重疊面積或交并比作為檢出的依據,對不同產品的評價尺度難于統一。為避免提示框形狀和尺寸對檢出問題帶來的影響,本文建議使用參考標準的中心點到提示框中心點的距離,作為AI提示框與參考標準結節位置接近程度的考量,描述檢出。
以中心點作為檢出的判斷,需明確中心點的定義。對于二維影像而言,可采用緊包裹病灶的方框的中心點作為病灶的中心點,如有可能也可以尋找病灶的幾何中心作為中心點(這和參考標準的標注形式有關);對于整體重建得到的三維影像,可以以緊密包裹整個立體區域的長方體中心作為中心點;對于斷層掃描得到的三維影像,也可以參照二維平面進行逐層計算,而對于整個立體區域可以取平均直徑最大的層面的中心作為立體中心點。
對于用于處理二維影像的AI產品,如參考標準用緊密包裹的方框標注,當參考標準中心點與AI預測病灶中心點的距離小于參考標準標注框半徑,可視為檢出;如參考標準進行了病灶邊緣分割,那么病灶就有了準確的邊界,能給出病灶的長徑和短徑。這時如果以參考標準中心點與AI預測病灶中心點距離小于參考標準長徑的一半作為檢出的定義,則AI預測病灶中心點可能落在結節之外,如圖2所示,此時預測病灶將判為真陽。
如果以距離小于參考標準短徑的一半作為檢出的定義,AI預測病灶中心點可能雖然落在結節之內如圖3所示,此時預測結節將判為假陽。
以上判斷情形與實際重疊情況存在分歧,因此建議當參考標準有準確的邊界時,要求AI預測病灶的中心點至少要落在病灶上,也就是落在邊界以內或邊界上,作為對中心點距離的替代判斷方式;當AI中心點落在邊界以外,視為檢出失敗。如圖4所示,病灶1判為檢出,病灶2判為未檢出。該方法需要測試集本身具備結節邊界的參考標準。

圖2 以長徑的一半區域作為檢出的定義

圖3 以短徑的一半區域作為檢出的定義

圖4 以參考標準分割區域作為檢出的定義
對于處理三維斷層影像的AI產品,每一層包含了一個中心點,只要任意一層檢出了病灶,在臨床使用上,這個病灶都會被醫生注意到,因此只要AI預測病灶某一層的中心點落在參考標準三維立體空間內即視為檢出,如圖5所示;否則為未檢出,如圖6所示。

圖5 三維斷層影像的AI產品的檢出判斷舉例

圖6 三維斷層影像的AI產品的的未檢出判斷舉例
參考標準中未被配對的結節,判為漏診;AI預測結果中未被配對的結節,判為假陽。檢出即AI檢出的真肺結節,總數記為TP;假陽即AI檢出的“假”肺結節,總數記為FP;漏診即AI漏診的真肺結節,總數記為FN。
召回率的計算公式見式(1):

精確度的計算公式見式(2):

F分數的計算公式見式(3):

分類問題是醫學影像AI的常見應用,例如眼底病變分類、肺結節類型分類[14-17]。對于二分類的產品,可以根據檢測結果構建混淆矩陣,進行靈敏度、特異性、ROC曲線等參數的計算。
對于大于二分類的產品,同樣可以根據檢測結果構建混淆矩陣,如表1所示,計算整體的準確度和Kappa系數,作為評價指標。在實際臨床應用中,醫生可能會關心某一類的分類表現情況,那么對于這種情況我們可以把多種分類分成需要評價的類和其他類(把除需要評價的類以外的類別合并),組成2×2的混淆矩陣,如表2所示,以類別i作為需要評價的類。這樣就把多分類問題轉換成了二分類情況考量,這樣就可以評價每一類的靈敏度、特異性等參數。

表1 已檢出病灶的分類混淆矩陣(以6分類的舉例)

表2 已檢出結節的分類混淆矩陣
對于二維影像,尺寸分割可以得到面積,以及病灶的長短徑等參數,對于面積可進行準確性和交并比的考量,其中交并比可用dice系數表示,如圖7所示,用參考標準分割面積與AI分割面積的交集除以二者面積之和即為dice系數。實際計算中可將AI預測的結節邊界和參考標準結節邊界考慮為兩個封閉的曲線,按照定義計算兩個封閉曲線面積的交并比;也可考慮為兩個像素集合,計算AI預測的像素和參考標準像素集合的交并比。對于三維影像尺寸分割可以得到體積,以及病灶面積最大層面的長短徑等參數,三維情況的交并比,即可轉換為立體范圍內AI預測的體素和參考標準體素的集合之間的交并比。長短徑可進行標量的誤差計算,計算AI預測值與參考標準測標準值的相對偏差。

圖7 交并比測試示意圖
實際檢測工作中發現,對于檢出還存在多對1匹配的情況,即一個AI預測結節與多個參考標準結節滿足檢出要求,或多個AI預測結節與一個參考標準結節滿足檢出要求,如圖8所示。

圖8 多對1匹配情況的舉例
因為參考標準結界本身之間是不聯通的兩個個體,所以一個AI預測結節與多個參考標準結節滿足檢出要求的情況,只有出現在一個AI預測結節匹配了長徑≥4 mm參考標準結節與長徑<4 mm參考標準結節;或匹配了長徑<4 mm參考標準結節與長徑<4 mm參考標準結節。對于第一種情況,因為AI預測結節肯定落在了長徑≥4 mm參考標準結界范圍內,所以優先選擇長徑≥4 mm參考標準結節進行配對。圖8中優先選擇AI1和AI2和GT1配對;而第二種情況由于無準確邊界,無法確定是否落在了真正的區域范圍內,所以優先取AI預測結節中心點與參考標準結節中心點距離最近的結節作為檢出,圖8中選取AI3和GT2進行配對,作為檢出。未被檢出的GT3還可與其他AI結節進行匹配驗證,如果仍未被檢出,考慮參考標準結節個數是一定的,為了召回率評價的一致,這種情況應作為漏診處理。
對于圖8中GT1,同時有AI1和AI2配對,屬于多個AI預測結節與一個參考標準結節滿足檢出要求的情況,這種情況的選取可以有三種考量:① 選擇分類正確的;② 選擇預測概率高的;③ 選擇AI預測結節中心點與參考標準結節中心點距離最近的。如果選取分類正確或者預測概率最高的,很有可能影響未被配對結節的匹配關系,如圖9所示。如果測試工具先判斷GT1的匹配關系,那么按照分類或者預測概率選擇的話,就會選中AI2與GT1配對,那這樣GT2就變成了漏診,實際上對于臨床這樣的標注應該認為兩個結節同時被檢出。所以出于考慮肺結節AI軟件檢出是最重要的環節,本文優先取AI預測結節中心點與參考標準結節中心點最近的結節作為檢出,圖8中選取GT1和AI1進行配對,作為檢出;圖9中選取GT1和AI1進行配對,作為檢出。未被檢出選取的AI預測結節還可其他參考標準結節進行匹配驗證,如果仍未被檢出,考慮參考標準并無真陰性的個數要求,且該情況多出現在一個大結節被AI分成了多個小結節,對于臨床檢出來說無風險,因此不作為假陽處理。

圖9 多對1匹配情況的舉例
按以上原則統計TP、FP、FN數量可計算召回率、精確度、F分數等參數。
因為數據集的測試數量很大,產品的檢出形式對評價方式也有一定的影響,如果對于一個病灶產品只給出了一個中心點,那么根據檢出的評價方法,要判斷這一個點是否落在金標準結節范圍內;如果對一個病灶產品給出了逐層的中心點,那么根據檢出的評價方法,可判斷任意一層中心是否落在金標準結節范圍內。本文模擬兩種場應用場景,對AI輸出結果逐層中心點檢出匹配以及只對最大層面(平均直徑最大的層面)中心點進行檢出匹配,分別進行檢出指標的計算。
如果以AI預測結節最大層面中心落在金標準結節范圍內,與AI預測結節任意一層中心點落在金標準范圍內作比較,召回率可相差5%左右,AI給出多層,相當于增加了更多的指示信息,因此其召回率相對較高;在多匹配情況中,以多個AI預測結節與一個金標準結節滿足檢出要求的情況為例,如果未被檢出選取的AI預測結節判為假陽,與未被檢出選取的AI預測結節不做處理比較,精確度可相差0.3%左右;對于邊界的處理方式的不同,如邊界點視為像素點以像素點構建病灶區域或視為物理坐標點以多邊形構建病灶區域,也會帶來較大的偏差。這是因為像素有一定的尺寸,在檢出判斷中很可能中心點落在邊緣像素點上,這種情況下,以數學多邊形的判斷形式,很可能視為未檢出。
從以上結果可以看出,評價方式的不同,會影響著輸出結果,因此必須合理的統一;而像素的處理方式和幾何邊界的處理方式實際上是數據處理的精度問題,操作時可以通過差值的方式將一個像素劃分為像素陣列,提高像素處理方式的精度,從而消除數據處理手段的不同帶來的偏差。總之評價方法或數據處理的任何一個環節都會對結果產生一定影響。
評價方法的建立是與產品的輸出特性以及測試數據集參考標準有這著直接的聯系,相同的算法如果輸出方式不同或參考標準不同,所選用的評價方法就有可能不同,測試結果就會存在差異。因此對于接下來的研究,有必要規范產品的輸出,以及標準化測試數據集,從而確定評價方法。此外,鑒于目前存在這些差異,在進行各種測試時所給出的結果,必須明確所使用的方法、產品的描述以及測試集的情況,這樣得到的結果才是可追溯的結果,才具有參考價值。
本文針對影像類人工智能醫療器械性能的評價,提出了流水線式的檢測流程設計,給出了具體實施方法,并討論了各種特殊情況的處理方式,有助于解決實際檢測中遇到的疑慮。本研究內容結合實際的AI產品特點及臨床應用,有助于實現產品的客觀評價,統一評判標準,為今后影像類人工智能醫療器械檢驗的標準化工作提供基礎。