孟祥峰,李佳戈,郝燁,王浩
中國食品藥品檢定研究院 光機電室,北京 100050
目前國內外已有多種類型及用途的人工智能(Artificial Intelligence,AI)醫(yī)療器械上市[1],且種類及數量呈逐年上升的趨勢。2018年4月11日,美國FDA批準了IDx公司IDx-DR糖尿病視網膜病(以下簡稱糖網)篩查軟件,這是美國FDA批準的第一款采用新一代AI技術的糖網篩查軟件產品,該產品嚴格限定了眼科相機硬件為拓普康NW400,并綁定硬件控制措施,可在一定程度上防止由于泛化能力不足導致的非預期風險[2]。目前已有相關機構展開了AI醫(yī)療器械評價方法的研究[3-9],并且國內也已開始起草相關標準,但還未正式發(fā)布[10-11]。
肺部CT影像AI產品的預期用途可能關聯結節(jié)大小,如在國家藥品監(jiān)督管理局網站公布的肺結節(jié)CT影像輔助診斷軟件,其可對≥4 mm的肺結節(jié)進行自動識別分析[12]。本文通過探究肺結節(jié)大小對于肺部CT影像AI產品性能的影響,分析產品對于病灶大小的泛化能力。目前不同的肺結節(jié)診療準則對結節(jié)的大小有不同的定義,如有研究者[13-14]將直徑<5 mm的結節(jié)定義為微小結節(jié),直徑5~10 mm的結節(jié)定義為小結節(jié),直徑10~30 mm的結節(jié)定義為大結節(jié)。而如何定義結節(jié)的直徑,目前臨床中也尚未統(tǒng)一,如有研究者建議對于不同大小或類型的結節(jié),可采用最大層面的最長徑、平均徑或長徑加短徑的方式表示,但不同的表示方式結節(jié)的截取數量存在差異,進而影響評價結果[15-16]。
不同對象對于不同大小范圍結節(jié)的輔助檢測指標的期望可能存在差異,如醫(yī)院、體檢機構可能對于不同大小結節(jié)檢測敏感度的要求不同,如醫(yī)生可能更關心某些特定大小結節(jié)的檢測能力。在AI產品的驗證與確認環(huán)節(jié),評審人員除評估AI算法在測試集上的總體性能表現外,開始關注不同結節(jié)大小是否對性能指標造成影響,因此需要對關聯不同大小結節(jié)的截取方式及截取后的評估方法進行研究。目前,不同廠家在對于不同大小結節(jié)的檢出性能方法存在差異,基于此,本文旨在分析同一產品在不同樣本上的性能差異,比較不同大小病灶的測試結果,以期為相關領域的研究提供一定的理論依據。
本文所采用數據集參照《胸部CT肺結節(jié)數據集構建及質量控制專家共識》[17]進行構建,數據標注流程參照《胸部CT肺結節(jié)數據標注與質量控制專家共識(2018)》[18],數據來源于國內22個醫(yī)院,數據獲取的CT機型共15個,對數據合規(guī)性、唯一性、重建層厚等信息進行了清洗和預處理。本文選取包含0~30 mm結節(jié)的588例CT數據進行了算法結果分析。數據集包括肺內實性、肺內部分實性、肺內純磨玻璃、肺內鈣化、胸膜實性、胸膜鈣化6類結節(jié)。參考標準對于長徑≥4 mm的肺內結節(jié)(實性、部分實性、純磨玻璃、鈣化)在各層描繪邊界,以此定義結節(jié)區(qū)域;長徑<4 mm的肺內結節(jié),以4 mm的正方形定義結節(jié)區(qū)域;對于胸膜實性/鈣化結節(jié),以緊包裹方框定義結節(jié)區(qū)域。被檢產品是基于深度學習的肺結節(jié)輔助檢測軟件,可輸出結節(jié)分類、結節(jié)大小、分割邊緣等輔助診斷信息。
數據集的參考標準由人工標注產生,包括結節(jié)中心點位置、緊包裹方框端點坐標、結節(jié)類型,對于長徑≥4 mm的結節(jié)還包括具體的邊界、結節(jié)長短徑端點及數值,而被檢產品算法輸出的預測結果也包含上述信息。在判定參考標準與AI預測結果的匹配關系時,如何截取所關注結節(jié)的大小范圍,是開展測試的關鍵。根據常見的測試需求,在評價召回率和精確度指標時可按照以下3種方法評價所關注大小范圍結節(jié)的表現:① 方法1:全體產品輸出結果與某大小范圍內的參考標準進行匹配,計算檢出指標;② 方法2:某大小范圍內的產品輸出結果與該大小范圍內的參考標準進行匹配,計算檢出指標;③ 方法3:使用方法1計算召回率,某大小范圍內的產品輸出結果與全體參考標準進行匹配,計算精確度。
在計算匹配關系時,判定結果分為3種:如果算法輸出的區(qū)域中心落入參考標準區(qū)域范圍內,記為真陽性結果(True Positive,TP);算法輸出的區(qū)域中心未落入參考標準區(qū)域范圍內,記為假陽性結果(False Positive,FP);參考標準中的結節(jié)未與算法輸出的任何結節(jié)建立匹配,則該參考標準記為假陰性結果(False Negative,FN)[19]。在評價檢出性能指標時[20],召回率計算方式如公式(1)所示,精確度計算方式如公式(2)所示,在評價分割性能指標時,Dice系數的計算方式如公式(3)所示。

式中,A表示參考標準的分割區(qū)域;B表示算法的分割區(qū)域;C表示A和B的重合區(qū)域。
本文選擇參考標準中全部結節(jié)、0~4 mm、4~6 mm、6~8 mm、8~10 mm、10 mm以上結節(jié),根據1.2中的3種評價方式,分別截取算法預測結節(jié),并按照以上公式依據方法1、方法2建立匹配關系并計算召回率;依據方法1、方法2、方法3建立匹配關系計算精確度;同時,使用全體參考標準與算法的全體輸出結果建立匹配關系,計算召回率、精確度,以及全部TP的Dice系數。
對于召回率,以所有參考標準與所有算法預測結果計算的檢出召回率為基準值,對于大小范圍在0~4 mm、4~6 mm、6~8 mm、8~10 mm及10 mm以上的結節(jié),分別使用方法1與方法2計算檢出召回率,并計算與基準值的相對誤差(正偏差越大,召回率越高,且超過基準值;負偏差越大,召回率越低,且低于基準值);以結節(jié)大小范圍為橫坐標、以基準值的相對偏差為縱坐標繪制曲線進行對比分析。對于精確度,對大小范圍在0~4 mm的結節(jié),分別使用方法1、方法2、方法3計算檢出精確度,以不同方法及其對應精確度相對值繪制柱狀圖進行對比分析。對于Dice系數,對于大小范圍在4~6 mm、6~8 mm、8~10 mm 及10 mm以上的結節(jié),采用方法1計算檢出Dice系數,以不同大小范圍及其對應Dice系數相對值繪制柱狀圖進行對比分析。
不同大小結節(jié)召回率結果如圖1所示。由圖1可以看出,使用方法1計算的召回率結果明顯高于方法2,且方法1的召回率隨結節(jié)大小的增大不斷增加,其數值超過基準值;方法2的召回率僅在6~8 mm大小范圍超過基準值,在其他大小范圍出現了不同幅度的降低。

圖1 不同大小結節(jié)召回率結果與基準值的相對偏差
對于大小范圍在0~4 mm的結節(jié),方法1、方法2、方法3的檢出精確度的相對值如圖2所示。由圖2可知,方法1、方法2、方法3的精確度呈遞增的趨勢,方法3的精確度值最高。

圖2 不同方法下精確度相對比例
不同結節(jié)范圍大小的Dice系數相對值的結果如圖3所示。從圖3可以看出,Dice系數隨結節(jié)范圍大小的增大不斷增加。

圖3 不同結節(jié)范圍大小的Dice系數相對比例
本研究結果表明,產品隨結節(jié)大小的增大,召回率隨之增大,即在不考慮大小正確的情況下,參考標準中小的結節(jié)發(fā)現難度大于大的結節(jié),且如果關聯結節(jié)大小的正確性,其正確與否會影響檢出的結果。產品在檢出問題上如不關聯結節(jié)大小,雖可以提高召回的概率,但這也引入了更多的假陽樣本,降低了精確度。因此無論采用何種方法,產品評價的過程并不是某一個指標高或低就代表產品性能的優(yōu)劣,有些相互制約的指標有必要同時給出,如檢出的召回率和精確度,對產品綜合進行評價。
同一產品對于不同結節(jié)大小的分割性能也存在差異,該產品隨結節(jié)大小的增大,Dice系數隨之增大,表明大結節(jié)更容易被準確分割。值得注意的是,交并比在結節(jié)匹配過程中有可能被研發(fā)人員作為判斷依據或閾值,從而對匹配結果造成影響。產品對于不同大小結節(jié)的檢出具有不同的表現,在真實世界中如果數據集結節(jié)的大小構成存在變化,應關注由此帶來的性能波動,這也提示算法應關注提高對不同大小病灶的泛化能力。
目前國際上一些公開的數據集,如LIDC[21],僅給出結節(jié)的位置信息,并未對結節(jié)的大小進行標注,其評價統(tǒng)計也是無差別地對所有大小范圍結節(jié)進行分析[22]。然而在實際應用過程中,不同的應用場景如體檢、門診等,其真實數據的結節(jié)大小構成與分布存在明顯差異。且目前通過國家藥品監(jiān)督管理局檢索已獲批的產品,其適用范圍也對結節(jié)大小進行了明確限定。但目前如何按結節(jié)大小對產品進行評價還沒有相關研究報告。本文給出了3種方法評價所關注大小范圍結節(jié)的表現,初步探討了方法的可行性,同時通過對比分析,也揭示了大小差異導致的評價指標的波動,證明了區(qū)分大小測量的必要性。除結節(jié)范圍大小外,在實際應用場景,隨著季節(jié)或流行病的發(fā)生,輔助檢測產品在現實中遇到病例的結節(jié)類型、結節(jié)類型或大小的分布、混合其他疾病等情況,均可能成為影響產品性能的因素,但本文并未對這些因素逐一考量,這也是下一步的工作重點。
同一產品依據不同的評價方法得到的結果有明顯的差異,測試人員需重視該問題。同時本文分析了不同結節(jié)大小下AI產品的性能表現,結果表明基于結節(jié)大小范圍的算法性能存在差異,但泛化性能評價有待進一步細化,這也說明AI產品在使用范圍、應用場景的宣稱上應慎重,給出明確的界限,避免由于泛化能力導致的非預期風險。