摘 要:配準誤差評估通常由人工完成,耗時費力;常用的Dice測度只關注組織邊緣的配準誤差,難以評估組織內部配準結果。針對以上問題,提出一種基于機器學習的肺部CT圖像非剛性配準誤差預測方法(PREML)。該方法首先構建形變場統計特征、形變場物理保真度特征和圖像相似性特征三類特征,然后通過池化方法擴充特征數量,最后使用隨機森林回歸方法預測非剛性配準誤差,并且使用自適應隨機擾動方法模擬肺部配準誤差空間分布,進一步提升形變場統計特征的配準誤差表征能力。在三個肺部CT圖像數據集上進行訓練與測試,其配準誤差預測結果與金標準之間的平均絕對差異為1.245±2.500 mm,預測性能優于基線方法。結果表明,PREML方法具有預測精度高、魯棒性強的特點,可提升配準算法在臨床應用的有效性和安全性。
關鍵詞:圖像配準;配準誤差預測;圖像特征;隨機森林
中圖分類號:TP391.41文獻標志碼:A
文章編號:1001-3695(2023)06-040-1850-07
doi:10.19734/j.issn.1001-3695.2022.09.0488
Error prediction for lung CT images nonrigid registration based on machine learning
Liu Yuhang Hu Jisu Chen Wenjian Qian Xusheng Dai Yakang Zhou Zhiyong
(1.School of Electronic amp; Optical Engineering,Nanjing University of Science amp; Technology,Nanjing 210094,China;2.Suzhou Institute of Biomedical Engineering amp; Technology,Chinese Academy of Science,Suzhou Jiangsu 215163,China)
Abstract:The registration quality assessment is usually given to human experts,which is time-consuming.The commonly used Dice score only focuses on the error at the edge of the tissue,which is difficult to assess the registration result within the tissue.To address these issues,this paper proposed a method to predict registration errors based on machine learning (PREML) in lung CT images.This method firstly constructed three types of features,such as deformation field statistical features,deformation field physiologically realistic features and image similarity features,then expanded the number of features by pooling,and finally used random forest regression to predict non-rigid registration errors.Moreover,it used an adaptive random perturbation to simulate the spatial distribution of lung registration errors to further improve the capability of error characterization of statistical features.The proposed method achieved a mean absolute error of 1.245±2.500 mm from ground truth on lung CT image datasets,outperforming the baseline method.The results show that PREML method has the advantages of high accuracy and robustness,enhancing the safety and effectiveness of registration algorithms in clinical applications.
Key words:image registration;registration error prediction; image feature; random forest
0 引言
醫學圖像配準是將不同模態或不同時間序列的兩幅或者多幅圖像進行空間匹配的過程。非剛性配準算法在臨床診療中應用廣泛[1],如腫瘤和正常組織勾畫、放療靶區中心定位、放療劑量估計和手術計劃導航等。雖然非剛性配準運用廣泛,但配準誤差是無法避免的。配準誤差容易發生在圖像缺乏對比度變化信息的區域[2],優化過程得到局部最優解會導致配準誤差的產生[3]。臨床上,配準誤差會影響醫生的診斷,威脅到病人的生命健康,所以在應用前配準的質量必須得到保證。然而目前研究大多集中在配準算法本身,很少有針對配準質量評價方面的研究。因此,配準誤差評估是一項有意義的工作。
由于缺少金標準,配準結果大部分被移交給專家進行判別,但耗時費力,具有主觀性,不能量化誤差。輪廓的重疊程度Dice系數在評估配準質量方面得到大量使用,但其關注的是整體輪廓而不是局部細節,實際中并不可靠,未必能揭示氣管、血管等配準誤差,如圖1所示,紅框區域內的血管發生了配準錯誤。目標配準誤差(target registration error,TRE)更能真實地反映局部結構上的配準誤差,但TRE的計算需要用到標記點,而標記點在現實中很難獲取。盡管存在標記點的半自動標注方法[4],但其耗時且工作量大的特性不適合日常使用。此外,仿體可輔助評估非剛性配準算法精確度,但是構建符合復雜臨床場景的仿體是很困難的[5]。所以有必要對配準誤差進行自動定量評估,減少分析時間。
早期,配準的損失函數和相似性測度被用來檢測圖像的錯配,以便改進配準算法。Rohde等人[6]提出基于全局互信息的損失函數在某處未達到最小值,則可能發生了配準錯誤,因此可以根據損失函數的梯度來檢測圖像中各區域的配準效果,以作出相應改進。Park等人[7]使用基于局部歸一化互信息的度量來尋找錯誤配準區域。Forsberg等人[8]利用標簽圖像和結果的重疊度以及圖像強度梯度的內積作為微分同胚Demons配準的不確定性度量。雖然上述指標被用來表示圖像配準誤差,但Rohlfing[9]表明圖像相似性未必就能準確區分配準的好壞。
貝葉斯框架下的配準算法可以評估配準的不確定性。基于貝葉斯推理,計算模型參數的后驗分布,調整形變場,評估配準的不確定性,這些需要使用先驗和似然的玻爾茲曼分布,通過馬爾可夫鏈蒙特卡羅方法(Markov chain Monte Carlo,MCMC)來估計最可能的形變以及不確定性[10,11],得到不確定性圖作為配準誤差的替代。但這些方法只適用于特定的貝葉斯配準模型,并且Luo等人[12]表明變換的不確定度與配準的不確定度之間沒有明確的統計相關性,且計算復雜度較高,很難實時處理。
隨機方法中,Hub等人[3]利用B樣條配準初始系數隨機變化,多次配準得到形變場后,對形變場局部形變量計算均方差來檢測單模態B樣條配準效果。2013年,Hub等人[13]指出配準的局部再現性可以作為配準不確定性的度量,再現性由多次配準得到的位移量的標準差來確定。這些方法都在人工模擬的數據集上進行驗證,很難反映組織產生的實際形變,且在圖像同質區域效率不高。Kybic[14]提出一種Bootstrapping基于區域評估圖像配準算法不確定性的方法,但僅局限于2D圖像和簡單變換。
機器學習的方法已經運用于配準誤差評估當中。Wu等人[15]利用互信息作為特征,作為分類器的輸入,在放療過程中識別評估病人身上剛性配準較差的區域。Wu等人[16]在之前工作的基礎上添加更多特征,使用神經網絡作為分類器,改進了先前的工作。但這些方法研究的是剛性配準的質量評估,并沒有關注非剛性配準。Muenzing等人[17]將非剛性配準誤差評估轉換為一個分類問題,在胸部CT圖像中提取了一些基于圖像強度的特征,構建了一個二階分類器,將局部配準誤差分成三類(正確、一般、錯誤)。Sokooti等人[18]提取基于圖像強度特征以及配準的特征,對標記點處的配準質量進行回歸分析。但這些方法存在著局限性,提出的特征不夠全面,通用性不強。
深度學習的方法也運用在醫學圖像配準誤差評估中。Eppenhof等人[19]使用卷積神經網絡,使用一組人工變形的2D圖像,取圖像塊進行訓練,預測配準誤差。之后Eppenhof等人[20]針對3D圖像的非剛性配準問題,基于卷積神經網絡,對一對圖像進行兩次不同精度的配準,以兩次配準得到的形變場之差作為金標準,但只能預測小于4 mm的配準誤差。Sokooti等人[21]提出一種基于卷積長短期記憶(LSTM)逐步細化預測的分層方法,在圖像對的三個分辨率上使用分層預測,網絡是在一組由人工生成的圖像上進行訓練的。這些深度學習的方法往往會使用人工模擬經過圖像變換得到的訓練集,在反映組織真實形變上會產生偏差,導致預測結果不可靠。
針對上述存在的問題,本文提出了使用隨機森林回歸的機器學習配準誤差預測方法PREML(prediction of registration errors based on machine learning),實現了對醫學圖像非剛性配準誤差的定量評估,其主要的創新點如下:a)構建了表征配準誤差的形變場統計特征、形變場物理保真度特征和圖像相似性特征三類特征,分別從配準算法穩定性、形變場真實性以及圖像相似性方面反映配準誤差,提升了配準誤差預測的可靠性和準確性;b)根據肺部呼吸運動的先驗知識和配準誤差空間分布[22],提出了針對肺部配準誤差預測的自適應形變擾動方法,以此優化形變場統計特征,覆蓋了肺部不同區域可能產生的誤差范圍;c)根據TG-132標準[2]規定的配準誤差閾值,對回歸預測得到的配準誤差值進行分類,生成誤差圖,有效直觀地識別關鍵部位的局部配準誤差。
1 方法
1.1 算法流程
1.2 自適應擾動
1.3 特征構建
1.3.1 形變場統計特征
1.3.2 形變場物理保真度特征
1.3.3 圖像相似性特征
1.4 誤差預測模型構建
1.4.1 特征擴充
1.4.2 隨機森林構建
2 實驗
2.1 配準誤差數據集
本文模型在公開肺部CT數據上進行訓練與驗證,數據來自DIRLAB COPDgene[30]、DIRLAB 4DCT[31,32]、CREATIS[33]。在本文實驗中,所有數據只選擇極端的吸氣和呼氣階段進行配準,經過整理最終得到26例肺部CT圖像與5 495個標記點,數據的相關情況如表2所示。
利用Elastix[34]工具包,使用B樣條變換對所有數據進行配準。由于COPDgene形變量較大,所以先進行仿射配準以獲得粗略的對齊,再執行B樣條配準。為了驗證本文方法的泛化性和魯棒性,即在不同配準精度情況下的預測能力,通過調整配準的迭代次數來控制配準優化的收斂情況,模擬不同的配準誤差范圍,分別設置迭代次數為2 000、200、20。2 000次足以收斂,配準情況可認為較好;200次配準情況中等;迭代20次難以收斂,配準誤差較大,具體配準結果如表3所示,下文中用精度較高、精度中等、精度較低分別表示三種情況。
2.2 評價指標
2.3 結果與分析
實驗環境是Intel i5-10400F CPU,16 GB RAM。使用Python編程,隨機森林利用Scikit-learn[35]包進行計算。
Sokooti等人[18]提出的基于配準特征和圖像強度特征的機器學習方法作為基線方法baseline比較,并且擾動的次數N選擇為20,保證了在增加擾動的次數時,形變場不會再發生顯著變化,即不會對形變場統計特征的構建產生影響。
2.3.1 誤差預測性能分析
2.3.2 三類特征作用分析
為了驗證不同類別特征的作用,分別使用上述三類特征以及全部特征集合去構建隨機森林回歸器。所有的結果如表5所示,將不同類別的特征混合在一起,訓練出的誤差預測模型精度最高,幾乎在不同配準精度的數據上所有的評價指標都得到了提升。僅使用形變場物理保真度特征構建的誤差預測模型在配準精度中等的實驗中預測效果與精度較高的實驗相比,預測效果提升了,這是因為配準迭代次數不夠,不足以收斂,導致形變場發生了更多不真實的形變,所以在這種情況下物理保真度特性更能表征反映誤差。而在配準精度較低的實驗中,由于迭代次數只有20次,幾乎沒有對圖像產生有效形變,即形變場發生的扭曲很少,所以在配準精度較低情況下形變場物理保真度特征不能很好地表征誤差,需要補充其他類別特征。因此,從不同的角度去構建特征,特征提供互相補充的信息,才能兼顧誤差帶來的各種特性,有助于生成一個魯棒的誤差預測模型,提升預測效果。
2.3.3 特征重要性分析
隨機森林中重要性定義為打亂該維度的特征數據,重新訓練測試,打亂前后準確率的差異。隨機森林只需少量的額外計算,即可顯示每個特征對回歸的貢獻度。
取上述實驗中重要性靠前的特征如圖7所示,紅色表示配準誤差較大區域,該區域金標準TREreal屬于WR一類;綠色表示配準誤差較小區域,該區域金標準TREreal屬于CR一類。顯而易見,在誤差大的區域,特征值也會越大,反映在特征圖中表示為高亮區域;在誤差小的區域,特征值也越小,反映在特征圖中更多為黑色部分,可以看出所提出的特征與誤差之間具有較強的相關性(見電子版)。
2.3.4 自適應隨機擾動效果分析
為了驗證本文提出的自適應隨機擾動的效果,在基線方法提出的配準特征上,保持擾動次數一致,但使用不同范圍的隨機偏移擾動以及自適應的隨機擾動構造該特征,實驗結果如表6所示。經自適應隨機擾動之后構建的特征在回歸的性能上明顯要優于單一尺度的擾動,PR類中的預測性能顯著提升,而該類別實際中容易混淆成其他類別,鑒別難度大,因此效果的提升在臨床中具有重要意義。并且可以發現僅在全局增加擾動范圍,在一些區域會因為不符合器官形變規律而發生不真實形變,導致了在PR、WR的回歸效果會變差。因此,自適應的擾動符合實際器官形變規律,改善了預測性能。
2.3.5 誤差分類與可視化
PREML方法逐體素進行誤差預測,所以訓練出的模型可作用于整個圖像區域,回歸預測之后直接進行閾值分類即可生成誤差預測圖,誤差預測圖與真實標記點如圖8所示,配準誤差預測結果與標記點用不同顏色區分不同誤差類別,CR表示配準正確,PR表示配準質量一般,WR表示配準發生嚴重錯誤,綠色區域表示配準正確,黃色區域表示配準質量一般,紅色區域表示配準發生嚴重錯誤。值得注意的是,本文方法生成的配準誤差預測圖在標記點處基本預測正確,連續性上效果很好,不同顏色區域之間平滑變換,誤差按等級均勻分布在一起,不會發生離散的情況,這是逐體素進行誤差回歸預測帶來的優勢。誤差圖生成后與配準結果融合顯示,指導醫師重點關注配準誤差較大即紅色區域,并可提供任意部位的量化配準誤差值,確保后續手術計劃的可靠性與安全性,降低診療風險。
3 結束語
針對醫學圖像配準人工評判耗時費力、常用Dice測度不關注局部誤差等問題,本文提出了自動預測配準誤差的PREML方法,大幅提升了效率。該算法構建形變場統計特征、形變場物理保真度特征和圖像相似性特征,分別描述了配準算法穩定性、形變場真實性以及圖像相似性,通過隨機森林回歸實現了配準誤差的自動量化預測。其中自適應隨機擾動符合真實組織形變規律,覆蓋可能產生的誤差范圍,在此基礎上構建的形變場統計特征更好地表征了誤差。逐體素進行誤差預測后,閾值分類生成誤差圖,將量化的誤差進行直觀顯示。將本文方法在肺部CT數據集(DIRLAB COPDgene、DIRLAB 4DCT、CREATIS)中進行驗證,測試結果表明該方法具有預測精度高、魯棒性強的優點,且直觀顯示配準誤差較大區域,實現了配準誤差的自動預測。
參考文獻:
[1]Song Guoli,Han Jianda,Zhao Yiwen,et al.A review on medical image registration as an optimization problem[J].Current Medical Imaging Reviews,2017,13(3):274-283.
[2]Brock K K,Mutic S,McNutt T R,et al.Use of image registration and fusion algorithms and techniques in radiotherapy:report of the AAPM Radiation Therapy Committee Task Group No.132[J].Medical Physics,2017,44(7):e43-e76.
[3]Hub M,Kessler M L,Karger C P.A stochastic approach to estimate the uncertainty involved in B-spline image registration[J].IEEE Trans on Medical Imaging,2009,28(11):1708-1716.
[4]Murphy K,Van Ginneken B,Klein S,et al.Semi-automatic construction of reference standards for evaluation of image registration[J].Medical Image Analysis,2011,15(1):71-84.
[5]Bierbrier J,Gueziri H E,Collins D L.Estimating medical image registration error and confidence:a taxonomy and scoping review[J].Medical Image Analysis,2022,81:102531.
[6]Rohde G K,Aldroubi A,Dawant B M.The adaptive bases algorithm for intensity-based nonrigid image registration[J].IEEE Trans on Medical Imaging,2003,22(11):1470-1479.
[7]Park H,Bland P H,Brock K K,et al.Adaptive registration using local information measures[J].Medical Image Analysis,2004,8(4):465-473.
[8]Forsberg D,Rathi Y,Bouix S,et al.Improving registration using multi-channel diffeomorphic demons combined with certainty maps[C]//Proc of International Workshop on Multimodal Brain Image Analysis.Berlin:Springer,2011:19-26.
[9]Rohlfing T.Image similarity and tissue overlaps as surrogates for image registration accuracy:widely used but unreliable[J].IEEE Trans on Medical Imaging,2011,31(2):153-163.
[10]Janoos F,Risholm P,Wells W.Bayesian characterization of uncertainty in multi-modal image registration[C]//Proc of International Workshop on Biomedical Image Registration.Berlin:Springer,2012:50-59.
[11]Risholm P,Janoos F,Norton I,et al.Bayesian characterization of uncertainty in intra-subject non-rigid registration[J].Medical Image Analysis,2013,17(5):538-555.
[12]Luo Jie,Frisken S,Wang Duo,et al.Are registration uncertainty and error monotonically associated?[C]//Proc of International Confe-rence on Medical Image Computing and Computer-Assisted Intervention.Cham:Springer,2020:264-274.
[13]Hub M,Karger C P.Estimation of the uncertainty of elastic image registration with the demons algorithm[J].Physics in Medicine and Bio-logy,2013,58(9):3023-3036.
[14]Kybic J.Bootstrap resampling for image registration uncertainty estimation without ground truth[J].IEEE Trans on Image Proces-sing,2010,19(1):64-73.
[15]Wu Jian ,Samant S S.Novel image registration quality evaluator(RQE) with an implementation for automated patient positioning in cranial radiation therapy[J].Medical Physics,2007,34:2099-2112.
[16]Wu Jian ,Murphy M J.A neural network based 3D/3D image registration quality evaluator for the head-and-neck patient setup in the absence of a ground truth[J].Medical Physics,2010,37(11):5756-5764.
[17]Muenzing S E A,Van Ginneken B,Murphy K,et al.Supervised quality assessment of medical image registration:application to intra-patient CT lung registration[J].Medical Image Analysis,2012,16(8):1521-1531.
[18]Sokooti H,Saygili G,Glocker B,et al.Quantitative error prediction of medical image registration using regression forests[J].Medical Image Analysis,2019,56:110-121.
[19]Eppenhof K A J,Pluim J P W.Supervised local error estimation for nonlinear image registration using convolutional neural networks[C]//Proc of SPIE Medical Imaging 2017.[S.l.]:SPIE,2017:526-531.
[20]Eppenhof K A J,Pluim J P W.Error estimation of deformable image registration of pulmonary CT scans using convolutional neural networks[J].Journal of Medical Imaging,2018,5(2):024003.
[21]Sokooti H,Yousefi S,Elmahdy M S,et al.Hierarchical prediction of registration misalignment using a convolutional LSTM:application to chest CT scans[J].IEEE Access,2021,9:62008-62020.
[22]Kabus S,Klinder T,Murphy K,et al.Evaluation of 4D-CT lung registration[C]//Proc of International Conference on Medical Image Computing and Computer-Assisted Intervention.Berlin:Springer,2009:747-754.
[23]Hub M,Thieke C,Kessler M L,et al.A stochastic approach to estimate the uncertainty of dose mapping caused by uncertainties in B-spline registration[J].Medical Physics,2012,39(4):2186-2192.
[24]Chen Yunmei,Ye Xiaojing.Inverse consistent deformable image registration[M]//The Legacy of Alladi Ramakrishnan in the Mathematical Sciences.New York:Springer,2010:419-440.
[25]胡曉坤.基于肺部CT的無監督配準模型及配準算法評估研究[D].濟南:山東師范大學,2020.(Hu Xiaokun.Study on unsupervised registration model and registration algorithm evaluation based on lung CT[D].Jinan:Shandong Normal University,2020.)
[26]張麗梅.醫學圖像非剛性配準方法及系統研究[D].南京:南京理工大學,2019.(Zhang Limei.Research on non-rigid registration method and system of medical image[D].Nanjing:Nanjing University of Science and Technology,2019.)
[27]Heinrich M P,Jenkinson M,Bhushan M,et al.MIND:modality independent neighbourhood descriptor for multi-modal deformable registration[J].Medical Image Analysis,2012,16(7):1423-1435.
[28]王帥坤,周志勇,胡冀蘇,等.基于深度學習的肝臟CT-MR圖像無監督配準[J].計算機工程,2023,49(1):223-233.(Wang Shuaikun,Zhou Zhiyong,Hu Jisu,et al.Deep learning based unsupervised registration for liver CT-MR images[J].Computer Engineering,2023,49(1):223-233.)
[29]王清瑩,劉嘉城,王翰林,等.基于結構相似性指數評估放療計劃質量的可行性研究[J].中華放射醫學與防護雜志,2021,41(11):824-829.(Wang Qingying,Liu Jiacheng,Wang Hanlin,et al.A feasibility study of the application of structural similarity index to the assessment of radiotherapy plan quality[J].Chinese Journal of Radiological Medicine and Protection,2021,41(11):824-829.)
[30]Castillo R,Castillo E,Fuentes D,et al.A reference dataset for deformable image registration spatial accuracy evaluation using the COPDgene study archive[J].Physics in Medicine and Biology,2013,58(9):2861-2877.
[31]Castillo R,Castillo E,Guerra R,et al.A framework for evaluation of deformable image registration spatial accuracy using large landmark point sets[J].Physics in Medicine and Biology,2009,54(7):1849-1870.
[32]Castillo E,Castillo R,Martinez J,et al.Four-dimensional deformable image registration using trajectory modeling[J].Physics in Medicine and Biology,2009,55(1):305-327.
[33]Vandemeulebroucke J,Rit S,Kybic J,et al.Spatiotemporal motion estimation for respiratory-correlated imaging of the lungs[J].Medical Physics,2011,38(1):166-178.
[34]Klein S,Staring M,Murphy K,et al.Elastix:a toolbox for intensity-based medical image registration[J].IEEE Trans on Medical Imaging,2010,29(1):196-205.
[35]Pedregosa F,Varoquaux G,Gramfort A,et al.Scikit-learn:machine learning in Python[J].Journal of Machine Learning Research,2011,12:2825-2830.