病灶大小對肺結節(jié)輔助檢測產品測試結果的影響

2022-10-27 06:33:02孟祥峰李佳戈郝燁王浩

中國醫(yī)療設備 2022年10期

孟祥峰，李佳戈，郝燁，王浩

中國食品藥品檢定研究院光機電室，北京 100050

引言

目前國內外已有多種類型及用途的人工智能（Artificial Intelligence，AI）醫(yī)療器械上市[1]，且種類及數量呈逐年上升的趨勢。2018年4月11日，美國FDA批準了IDx公司IDx-DR糖尿病視網膜病（以下簡稱糖網）篩查軟件，這是美國FDA批準的第一款采用新一代AI技術的糖網篩查軟件產品，該產品嚴格限定了眼科相機硬件為拓普康NW400，并綁定硬件控制措施，可在一定程度上防止由于泛化能力不足導致的非預期風險[2]。目前已有相關機構展開了AI醫(yī)療器械評價方法的研究[3-9]，并且國內也已開始起草相關標準，但還未正式發(fā)布[10-11]。

肺部CT影像AI產品的預期用途可能關聯結節(jié)大小，如在國家藥品監(jiān)督管理局網站公布的肺結節(jié)CT影像輔助診斷軟件，其可對≥4 mm的肺結節(jié)進行自動識別分析[12]。本文通過探究肺結節(jié)大小對于肺部CT影像AI產品性能的影響，分析產品對于病灶大小的泛化能力。目前不同的肺結節(jié)診療準則對結節(jié)的大小有不同的定義，如有研究者[13-14]將直徑＜5 mm的結節(jié)定義為微小結節(jié)，直徑5～10 mm的結節(jié)定義為小結節(jié)，直徑10～30 mm的結節(jié)定義為大結節(jié)。而如何定義結節(jié)的直徑，目前臨床中也尚未統(tǒng)一，如有研究者建議對于不同大小或類型的結節(jié)，可采用最大層面的最長徑、平均徑或長徑加短徑的方式表示，但不同的表示方式結節(jié)的截取數量存在差異，進而影響評價結果[15-16]。

不同對象對于不同大小范圍結節(jié)的輔助檢測指標的期望可能存在差異，如醫(yī)院、體檢機構可能對于不同大小結節(jié)檢測敏感度的要求不同，如醫(yī)生可能更關心某些特定大小結節(jié)的檢測能力。在AI產品的驗證與確認環(huán)節(jié)，評審人員除評估AI算法在測試集上的總體性能表現外，開始關注不同結節(jié)大小是否對性能指標造成影響，因此需要對關聯不同大小結節(jié)的截取方式及截取后的評估方法進行研究。目前，不同廠家在對于不同大小結節(jié)的檢出性能方法存在差異，基于此，本文旨在分析同一產品在不同樣本上的性能差異，比較不同大小病灶的測試結果，以期為相關領域的研究提供一定的理論依據。

1 實驗方法

1.1 實驗用數據集構建

本文所采用數據集參照《胸部CT肺結節(jié)數據集構建及質量控制專家共識》[17]進行構建，數據標注流程參照《胸部CT肺結節(jié)數據標注與質量控制專家共識（2018）》[18]，數據來源于國內22個醫(yī)院，數據獲取的CT機型共15個，對數據合規(guī)性、唯一性、重建層厚等信息進行了清洗和預處理。本文選取包含0～30 mm結節(jié)的588例CT數據進行了算法結果分析。數據集包括肺內實性、肺內部分實性、肺內純磨玻璃、肺內鈣化、胸膜實性、胸膜鈣化6類結節(jié)。參考標準對于長徑≥4 mm的肺內結節(jié)（實性、部分實性、純磨玻璃、鈣化）在各層描繪邊界，以此定義結節(jié)區(qū)域；長徑＜4 mm的肺內結節(jié)，以4 mm的正方形定義結節(jié)區(qū)域；對于胸膜實性/鈣化結節(jié)，以緊包裹方框定義結節(jié)區(qū)域。被檢產品是基于深度學習的肺結節(jié)輔助檢測軟件，可輸出結節(jié)分類、結節(jié)大小、分割邊緣等輔助診斷信息。

1.2 數據集參考標準和匹配方法

數據集的參考標準由人工標注產生，包括結節(jié)中心點位置、緊包裹方框端點坐標、結節(jié)類型，對于長徑≥4 mm的結節(jié)還包括具體的邊界、結節(jié)長短徑端點及數值，而被檢產品算法輸出的預測結果也包含上述信息。在判定參考標準與AI預測結果的匹配關系時，如何截取所關注結節(jié)的大小范圍，是開展測試的關鍵。根據常見的測試需求，在評價召回率和精確度指標時可按照以下3種方法評價所關注大小范圍結節(jié)的表現：① 方法1：全體產品輸出結果與某大小范圍內的參考標準進行匹配，計算檢出指標；② 方法2：某大小范圍內的產品輸出結果與該大小范圍內的參考標準進行匹配，計算檢出指標；③ 方法3：使用方法1計算召回率，某大小范圍內的產品輸出結果與全體參考標準進行匹配，計算精確度。

1.3 指標計算方法

在計算匹配關系時，判定結果分為3種：如果算法輸出的區(qū)域中心落入參考標準區(qū)域范圍內，記為真陽性結果（True Positive，TP）；算法輸出的區(qū)域中心未落入參考標準區(qū)域范圍內，記為假陽性結果（False Positive，FP）；參考標準中的結節(jié)未與算法輸出的任何結節(jié)建立匹配，則該參考標準記為假陰性結果（False Negative，FN）[19]。在評價檢出性能指標時[20]，召回率計算方式如公式（1）所示，精確度計算方式如公式（2）所示，在評價分割性能指標時，Dice系數的計算方式如公式（3）所示。

式中，A表示參考標準的分割區(qū)域；B表示算法的分割區(qū)域；C表示A和B的重合區(qū)域。

1.4 結節(jié)大小截取與評價指標

本文選擇參考標準中全部結節(jié)、0～4 mm、4～6 mm、6～8 mm、8～10 mm、10 mm以上結節(jié)，根據1.2中的3種評價方式，分別截取算法預測結節(jié)，并按照以上公式依據方法1、方法2建立匹配關系并計算召回率；依據方法1、方法2、方法3建立匹配關系計算精確度；同時，使用全體參考標準與算法的全體輸出結果建立匹配關系，計算召回率、精確度，以及全部TP的Dice系數。

1.5 統(tǒng)計學分析

對于召回率，以所有參考標準與所有算法預測結果計算的檢出召回率為基準值，對于大小范圍在0～4 mm、4～6 mm、6～8 mm、8～10 mm及10 mm以上的結節(jié)，分別使用方法1與方法2計算檢出召回率，并計算與基準值的相對誤差（正偏差越大，召回率越高，且超過基準值；負偏差越大，召回率越低，且低于基準值）；以結節(jié)大小范圍為橫坐標、以基準值的相對偏差為縱坐標繪制曲線進行對比分析。對于精確度，對大小范圍在0～4 mm的結節(jié)，分別使用方法1、方法2、方法3計算檢出精確度，以不同方法及其對應精確度相對值繪制柱狀圖進行對比分析。對于Dice系數，對于大小范圍在4～6 mm、6～8 mm、8～10 mm 及10 mm以上的結節(jié)，采用方法1計算檢出Dice系數，以不同大小范圍及其對應Dice系數相對值繪制柱狀圖進行對比分析。

2 結果

2.1 不同大小結節(jié)召回率結果與基準值的相對偏差

不同大小結節(jié)召回率結果如圖1所示。由圖1可以看出，使用方法1計算的召回率結果明顯高于方法2，且方法1的召回率隨結節(jié)大小的增大不斷增加，其數值超過基準值；方法2的召回率僅在6～8 mm大小范圍超過基準值，在其他大小范圍出現了不同幅度的降低。

圖1 不同大小結節(jié)召回率結果與基準值的相對偏差

2.2 不同方法下精確度相對比例

對于大小范圍在0～4 mm的結節(jié)，方法1、方法2、方法3的檢出精確度的相對值如圖2所示。由圖2可知，方法1、方法2、方法3的精確度呈遞增的趨勢，方法3的精確度值最高。

圖2 不同方法下精確度相對比例

2.3 不同結節(jié)范圍大小的Dice系數相對比例

不同結節(jié)范圍大小的Dice系數相對值的結果如圖3所示。從圖3可以看出，Dice系數隨結節(jié)范圍大小的增大不斷增加。

圖3 不同結節(jié)范圍大小的Dice系數相對比例

3 討論

本研究結果表明，產品隨結節(jié)大小的增大，召回率隨之增大，即在不考慮大小正確的情況下，參考標準中小的結節(jié)發(fā)現難度大于大的結節(jié)，且如果關聯結節(jié)大小的正確性，其正確與否會影響檢出的結果。產品在檢出問題上如不關聯結節(jié)大小，雖可以提高召回的概率，但這也引入了更多的假陽樣本，降低了精確度。因此無論采用何種方法，產品評價的過程并不是某一個指標高或低就代表產品性能的優(yōu)劣，有些相互制約的指標有必要同時給出，如檢出的召回率和精確度，對產品綜合進行評價。

同一產品對于不同結節(jié)大小的分割性能也存在差異，該產品隨結節(jié)大小的增大，Dice系數隨之增大，表明大結節(jié)更容易被準確分割。值得注意的是，交并比在結節(jié)匹配過程中有可能被研發(fā)人員作為判斷依據或閾值，從而對匹配結果造成影響。產品對于不同大小結節(jié)的檢出具有不同的表現，在真實世界中如果數據集結節(jié)的大小構成存在變化，應關注由此帶來的性能波動，這也提示算法應關注提高對不同大小病灶的泛化能力。

目前國際上一些公開的數據集，如LIDC[21]，僅給出結節(jié)的位置信息，并未對結節(jié)的大小進行標注，其評價統(tǒng)計也是無差別地對所有大小范圍結節(jié)進行分析[22]。然而在實際應用過程中，不同的應用場景如體檢、門診等，其真實數據的結節(jié)大小構成與分布存在明顯差異。且目前通過國家藥品監(jiān)督管理局檢索已獲批的產品，其適用范圍也對結節(jié)大小進行了明確限定。但目前如何按結節(jié)大小對產品進行評價還沒有相關研究報告。本文給出了3種方法評價所關注大小范圍結節(jié)的表現，初步探討了方法的可行性，同時通過對比分析，也揭示了大小差異導致的評價指標的波動，證明了區(qū)分大小測量的必要性。除結節(jié)范圍大小外，在實際應用場景，隨著季節(jié)或流行病的發(fā)生，輔助檢測產品在現實中遇到病例的結節(jié)類型、結節(jié)類型或大小的分布、混合其他疾病等情況，均可能成為影響產品性能的因素，但本文并未對這些因素逐一考量，這也是下一步的工作重點。

4 結論

同一產品依據不同的評價方法得到的結果有明顯的差異，測試人員需重視該問題。同時本文分析了不同結節(jié)大小下AI產品的性能表現，結果表明基于結節(jié)大小范圍的算法性能存在差異，但泛化性能評價有待進一步細化，這也說明AI產品在使用范圍、應用場景的宣稱上應慎重，給出明確的界限，避免由于泛化能力導致的非預期風險。