謝薇,陳濤,羅國婷,c,王寒簫,舒煬,劉娟,鄭濤,孫懷強,c
四川大學華西醫院 a.放射科;b.內分泌代謝科;c.臨床磁共振研究中心;d.信息中心,四川 成都 610041
原發性醛固酮增多癥(Primary Aldosteronism,PA)是目前最常見的可治愈的高血壓病因之一[1],占高血壓患者的5%~11%,在頑固性高血壓患者中患病率較高,接近17%~23%[2-5]。過量的醛固酮可能來源于單側或雙側腎上腺,單側腎上腺最常見的病因是醛固酮瘤(Aldosterone Producing Adenoma,APA);雙側多為雙側腎上腺增生(Bilateral Adrenal Hyperplasia,BAH),也稱為特發性醛固酮增多癥,占所有病例的50%以上。目前,APA 可通過單側腎上腺切除術治療,而BAH 患者通常需要終身用藥[6]。因此,確診為PA 后對患者進一步分型診斷具有重要的臨床意義。PA 的分型診斷一直是臨床上的難點,在很大程度上影響了治療方案的選擇。根據美國內分泌學會臨床實踐指南推薦,確診PA 后的患者需行腎上腺CT 檢查排除占位性病變,并進行初步分型診斷。但腎上腺CT 掃描容易漏診直徑小于5 mm 的微小腺瘤[7]和結節樣增生,也無法區分無功能腺瘤和APA。根據國際指南推薦,腎上腺靜脈取血(Adrenal Venous Sampling,AVS)是目前PA 分型診斷的金標準[8],其敏感度和特異性均可達90%以上,明顯優于CT。但AVS也有一些缺點:具有一定的創傷性,技術上具有挑戰性,檢查結果難以解釋,并且面臨腎上腺靜脈破裂的風險[9]。
影像組學是指從醫學圖像中高通量地提取基于靶組織或器官的形狀、一階和紋理等組學特征[10-11],從而將醫學圖像轉換為可挖掘的數值特征的研究方法[9,12-13]。前期研究已表明基于CT 圖像的影像組學特征在腎上腺相關疾病的診斷和預后預測中有一定輔助價值。例如,He等[14]使用非增強CT 圖像進行了影像組學分析,發現特定的影像組學特征(包括一階和紋理特征)結合臨床因素構建的模型有助于預測單側腎上腺瘤患者中APA發生的風險,并可用于輔助臨床決策;Akai 等[15]研究發現,從腎上腺平掃CT 圖像中提取的影像組學特征與PA 患者腎上腺醛固酮的分泌狀態存在相關性,可為預測PA 定位提供幫助;Ahmed 等[16]研究發現,術前增強CT 圖像的影像組學特征在預測腎上腺皮質癌患者的Ki-67 表達方面表現出較好的結果,其中在Ki-67 高表達組中,形狀特征的受試者工作特征(Receiver Operating Characteristic,ROC)曲線下面積(Area Under Curve,AUC)、敏感度、特異性分別為0.78、80%、69.2%,同時檢測到影像組學特征與Ki-67 的表達存在顯著相關性。
受前期研究啟發,本研究擬采用腎上腺CT 影像組學特征對PA 患者的AVS 結果進行預測,以期開發一種術前無創輔助鑒別PA 亞型的方法。
選取2017年10月至2021年3月在四川大學華西醫院住院,且臨床資料符合納入標準的確診PA 并成功行AVS 的357 例患者為研究對象。納入PA 的診斷依據為內分泌學會的臨床實踐指南標準[17]。AVS 需在沒有促皮質素的刺激下進行穿刺置管,并采用2.0 或更高的選擇性指數確定插管是否成功。分側指數≥2.0 為優勢側PA,分側指數<2.0 為無醛固酮分泌優勢側。根據午夜血清皮質醇和/或1 mg 地塞米松(國藥準字:H33020822,規格:0.75 mg)過夜抑制試驗的結果,排除自主分泌皮質醇的患者。其中共有45 例患者因以下原因被排除:① CT 圖像質量差(n=12);② CT 圖像層厚超過1 mm(n=29);③ 無CT 圖像(n=3);④ 合并其他腎上腺腫瘤(n=1)。最終,312 例患者[207 例單側PA(AVS-右∶AVS-左=93 ∶114),105 例AVS-雙側PA]納入本研究。研究經本院倫理委員會審批通過(批準文號:2021-1611)。
本研究納入的CT 圖像數據采集自4 個廠家的7 種機型。圖像采集均由符合資質的掃描技師完成,掃描技師每天對機器進行空校以保證圖像質量,且每個患者均進行3 期掃描(平掃、動脈期和靜脈期)。CT 機型和掃描參數詳細情況如表1所示。

表1 CT掃描參數
1.3.1 腎上腺分割
腎上腺分割在薄層靜脈期圖像上進行,為了確保分割結果的一致性,腎上腺分割采用本課題組前期研發的基于深度神經網絡的腎上腺自動分割模型[18]。為提高分割效率,該模型采用了兩段式分割:第一階段從整個腹部CT 圖像中定位雙側腎上腺位置,并分別提取出包含左右腎上腺的子區域;第二階段使用小器官分割模型,以便更準確地分割腎上腺邊界。圖像的分割評價指標主要有戴斯相似系數(Dice Similariy Coefficient,DSC)、體積相關誤差(Relative Volume Error,RVE)、豪斯多夫距離( Hausdorff Distance,HD95)。DSC 是醫學圖像處理領域常用的分割效果評估指標,通過計算兩個樣本的相似度或重疊度,評估分割效果,DSC 值越接近1,提示分割精度越好。HD95 主要是用來度量邊界的分割準確度。前期實驗表明,該模型在驗證數據上對腎上腺的自動分割取得DSC 值為0.8742±0.0588,RVE 值為0.1271±0.1383,HD95 值為2.89±3.90[18]。雖然前期結果表明,利用該模型自動生成的腎上腺分割已經非常接近人工勾畫的金標準,但為了確保分割的準確性,本研究將自動生成的腎上腺標簽疊加到原始CT 圖像上,并分別由2 名具有10年和8年腹部影像系統診斷經驗的高年資醫師進一步檢查以控制質量。結果顯示,無論是DSC 值,還是圖像直觀觀察對比,本研究采用的基于深度神經網絡的腎上腺自動分割模型均具有較高的分割精度,保證了紋理特征提取的準確性。如圖1所示為2 例代表性病例及其腎上腺自動分割結果。

圖1 2例代表性病例靜脈期正交三視圖及相應腎上腺分割
1.3.2 影像組學特征提取
影像組學特征提取采用基于Python 語言的開源軟件包PyRadiomics 3.0,在靜脈期CT 薄層圖像中分割出的腎上腺區域內進行計算。本研究從腎上腺內提取了3 組特征[19-20],其中包括14 個形狀特征、18 個一階影像組學特征和73 個紋理特征。計算紋理特征前先對圖像信號強度進行離散化,本研究采用了固定bin 寬度(寬度為5)的離散化方式[21],最終納入了以下類別的紋理特征:22 個灰度共生矩陣、16 個灰度大小區域矩陣(Gray Level Size Zone Matrix,GLSZM)、16 個灰度運行長度矩陣(Gray Level Run Length Matrix,GLRLM)、5 個相鄰灰度差矩陣和14 個灰度依賴矩陣(Gray Level Dependence Matrix,GLDM)。除了提取原始CT 圖像中的紋理特征,本研究還進一步對原始圖像進行了多種濾波,并在濾波后圖像的腎上腺內再次提取多尺度紋理特征。采用的濾波器包括拉普拉斯-高斯(Laplacian of Gaussian,LOG)濾波器(濾波核尺寸分別設為1、2、3、4、5 mm)和小波(Wavelet)濾波器(包含HHH、HHL、HLH、HLL、LHH、LHL、LLH 和LLL 共8 個不同方向的高低通濾波核)。最后,從每個腎上腺中共提取出1288 個[14 個形狀特征+(18 個一階影像組學特征+73 個紋理特征)×(1+5+8)]影像組學特征。
1.3.3 數據均一化
本研究納入的CT 圖像數據采集自7 種不同的機型,有研究表明,影像組學特征對機器型號、采集參數和重建參數較敏感,機器型號、采集參數和重建參數的異質性會導致特征偏倚。為了提高數據統計能力和模型穩定性,在建模前,研究采用了Combat 算法對特征進行均一化處理[22-23]。ComBat 算法基于估計參數的先驗分布,改善分布的平均值和標準差的一致性,可消除不同機型之間技術性差異的同時,保留影像組學特征的生物性差異。如圖2所示為使用Combat 算法將CT 機型作為批次效應對代表性紋理特征進行均一化前后的分布可視化。通過比較均一化前后的兩個代表性紋理特征分布可得,在進行均一化之前,同一個紋理特征在不同機型之間分布差異較大,而均一化后分布趨于一致。

圖2 2個代表性影像組學特征均一化前后的分布變化
1.3.4 自動機器學習
預測模型的訓練和驗證采用開源自動機器學習框架Pycaret,該框架可對機器學習中的數據預處理、建模算法選擇和模型超參數調節等步驟實現全自動優化。
為避免個體特征維度過高,同時考察圖像濾波后的紋理特征對預測的貢獻,本研究將提取的形狀特征、一階影像組學特征、紋理特征分為7 個子集并分別輸入分類算法:① 原始圖像組(Original);② LOG 濾波圖像組;③ Wavelet 濾波圖像組;④ Original+LOG 濾波圖像組+Wavelet 濾波圖像組;⑤ Original+LOG 濾波圖像組;⑥ Original+Wavelet 濾波圖像組;⑦ LOG 濾波圖像組+Wavelet 濾波圖像組。
為進一步降低個體特征維度,本研究將左右腎上腺的特征向量逐元素相除得到一個新的特征向量,稱為商值特征向量。在自動機器學習流程中,全部數據按7 ∶3的比例隨機分為訓練集(218 例)和測試集(94 例)。自動機器學習算法迭代采用十折交叉驗證和TPE(Treestructured Parzen Estimator)搜索策略在訓練集上搜索最優的分類算法和相應的超參數。分類算法池中預置了13 種常用分類器:① 隨機森林分類器;② 極度隨機樹分類器;③ 梯度提升分類器;④ 輕量級梯度提升分類器;⑤ 自適應增強分類器;⑥ 樸素貝葉斯;⑦ 支持向量機;⑧ 決策樹分類器;⑨ 邏輯回歸;⑩ 線性判別分析;?嶺回歸分類器;?K 近鄰分類器;?二次判別分析。最優算法和超參數確定后,在此配置下重新訓練整個訓練集數據得到最終預測模型,再在測試集上對模型性能進行評估。本研究采用準確度、AUC、召回率等度量參數評估模型性能,研究流程如圖3所示。

圖3 研究流程圖
本研究共納入3 1 2 例經AV S 確診的PA 患者。其中2 0 7 例診斷為單側優勢PA(AV S-右∶AV S-左=9 3 ∶1 1 4),1 0 5 例診斷為雙側優勢PA。右側優勢、左側優勢和雙側優勢組的平均年齡分別為(4 8.9 5±1 0.1 9)歲 (1 7 ~7 2 歲)、(48.39±10.52)歲(25~76歲)和(48.16±10.9)歲(1 9 ~7 6 歲)。3 組間年齡(P=0.8 6 8)、性別(P=0.937)差異均無統計學意義。
經過模型比較,在Original 特征子集上訓練的隨機森林分類器獲得了最優性能。其中準確度為0.7500,召回率為0.7466,AUC 為0.8792。ROC 展示了隨機森林分類器模型的預測性能,見圖4。各個特征子集的最佳模型性能如表2所示。

圖4 最優模型(Original特征子集上訓練的隨機森林分類器)對3個亞型鑒別能力的ROC曲線

表2 各個特征子集的最佳模型性能
根據最優模型結果,在模型訓練過程中可得到每個輸入特征的重要性。預測能力最強的前10 個特征如圖5所示,包括1 個形狀特征(表面積與體積的比率)、1 個一階統計特征(能源)、8 個紋理特征。紋理特征包括GLRLM、GLDM、GLSZM。GLRLM 提供了關于具有相同灰度級的連續像素在一個或多個方向上的空間分布信息,GLDM 為依賴于中心體素的特定距離內連接體素的數量,GLSZM 為具有相同灰度強度的連接體素的數量。形狀特征中的表面積體積比值越小,形狀越緊密;值越大,表面突起越多,邊緣越毛糙,預示著腎上腺形態的改變和PA 分型有著緊密的聯系。紋理特征值可以反映病灶內部信號強度的異質性,一階特征用于描述各體素信號強度值的分布情況,表明各PA 亞型之間紋理及灰度分布等方面具有較大差異。以上進一步說明了醫學圖像的影像組學分析可通過描述腫瘤空間中的體素排列反映腫瘤的異質性。

圖5 在Original特征子集上的隨機森林分類器預測能力最強的前10個特征
本研究探討了基于影像組學特征結合自動機器學習在預測PA 患者AVS 結果方面的有效性。其中,在Original 特征子集上訓練的隨機森林分類器預測性能最優,其準確度、AUC、召回率分別為0.7500、0.8792、0.7466。結果表明,基于CT 圖像的影像組學特征結合最優性能分類器在預測AVS 結果方面有一定潛力。
機器學習是現代臨床數據分析的關鍵技術,放射學中機器學習的目標是開發一個模型來識別圖像中的特征,并通過將該特征與預測目標聯系起來從而幫助診斷和預后。常規的機器學習流程是首先選擇一個最適合任務數據的建模算法,再確定一個超參數的組合,使性能最優化。算法的性能因機器學習的目標和數據集的不同而不同,現有的影像組學研究根據算法的偏好或流行程度選擇機器學習管道,所用的算法和超參數值往往對模型錯誤率的影響超過40%[24]。由于任務的復雜性限制了非機器學習領域專家的學習,本研究使用了自動機器學習框架Pycaret,Pycaret 可自動進行數據預處理、算法選擇以及超參數的調整。
從CT 圖像上進行腎上腺的分割是影像組學工作流程中至關重要的一步,分割的準確性會對后續特征的提取產生影響從而影響模型性能。在常規臨床實踐中,通常由具有良好專業知識和豐富經驗的人員進行手動分割,但該過程非常耗時,手工勾畫1 例患者的雙側腎上腺平均需要2.5 h,且不同人員勾畫的結果也存在一定差異。此外,腎上腺在形態和位置上的差異,以及與周圍組織的模糊邊界,使得腎上腺分割難度增加[25]。為了節省人力,提高圖像分割的可重復性,本研究使用了團隊以往工作中提出的一種兩階段深度神經網絡,以端到端的方式自動分割腎上腺,平均每個患者只需36 s。與人工分割相比,該方法不僅提高了分割效率,同時保證了分割的客觀性。該自動分割系統可從CT 薄層圖像中準確分割出腎上腺,可作為臨床實踐中基于醫學圖像的人工智能輔助診斷工具。
本研究納入的CT 圖像數據采集自7 個不同的機型。為了減小機型、采集參數和重建參數差異導致的數據異質性[26],建立更加穩定的模型,研究使用了Combat 算法對提取的影像組學特征進行了均一化處理。
值得注意的是,在Original 特征子集上,隨機森林分類器預測性能最優,其性能優于LOG 和Wavelet 子集中的模型。LOG 濾波是一種能有效抑制噪聲、平滑圖像的方法,該方法對于去除噪聲引起的圖像異質性和突出生物學上的重要異質性非常重要,在圖像降噪中得到了廣泛的應用[27-29]。模型中LOG 和Wavelet 特征組準確度較低的一個可能原因是去除圖像背景噪聲的同時損失了部分圖像信號。
根據特征重要性圖分布,形狀特征在預測AVS 的結果中起著重要的作用。形狀特征可以描述腫瘤的物理外觀、堅固程度、表面不規則度和偏心度。偏心度描述了腫瘤的伸長程度及其偏離規則圓形的程度[28],值越低表示形狀越緊湊(球形),較高的表面-容積比表明更多的周邊組織浸潤,這一結論與之前的研究結果一致[29],即與雙側優勢的患者相比,左側優勢的患者的左-右-腎上腺-體積比的平均值更大,右側優勢患者的左-右-腎上腺-體積比的平均值更小。在最佳模型對預測能力有顯著貢獻的10 個特征中,有7 個來自于紋理特征,包括GLDM 和GLRLM。GLRLM 主要測量具有相同強度的體素線的分布,而GLDM 則量化圖像中的灰度依賴關系,測量在一定距離內依賴于中心體素的連接體素的數量。CT 紋理分析可通過評估灰度分布幫助量化腫瘤的異質性。
本研究也存在一定的局限性。① 由于回顧性研究的性質,使本研究可能存在一些偏倚分析,但本研究重復了10 倍交叉驗證,以避免過擬合并減少偏倚;② 納入樣本量(n=312)相對較小,所有患者均來自單一中心,雖然交叉驗證用于模型評估,但在具有不同成像設備和參數的多中心數據集中,模型可能表現不同,未來可以納入外部數據集以進行進一步的模型驗證;③ 由于患者隨訪時間不同,且很多病例隨訪信息不足,影像組學特征未與臨床結果相關聯,未來可嘗試逐步加入更多的臨床指標,以臨床和影像紋理特征相結合的方法提高三分類的預測準確性;④ 由于研究的回顧性性質,本文只使用了靜脈期增強CT 圖像的影像組學的常規特征,未來可以開展前瞻性研究,并分析基于雙能量CT 掃描的圖像特征,探索其能否進一步提高模型的預測能力。未來在研究中還可納入來自不同機構的多中心大規模數據,嘗試利用深度學習的方法提高模型的穩定性和鑒別能力。
影像組學結合自動機器學習可以預測PA 患者的AVS 結果,且具有較高的準確性。該方法有望成為有創檢查的替代方法,并為PA 患者的術前診斷和臨床決策提供幫助。