胡景卉,王芳,侯承師,黃京城,楊鑫,王文劍,陳磊,葉靖,孫駿,羅先富
慢性乙肝是亞洲地區導致肝硬化的最常見原因,在早期階段,臨床表現常常較為隱蔽,當癥狀出現時,往往伴有嚴重的并發癥。全球每年約有200萬人死于肝病,其中超過100萬人死于肝硬化并發癥[1]。隨著肝炎的進展,肝細胞出現變性和壞死、纖維結締組織增生和假小葉再生,導致正常肝細胞數量減少,影響肝臟的合成、分泌及代謝功能,從而導致肝儲備功能的下降,臨床上表現為總膽紅素和轉氨酶的升高、凝血障礙、脾腫大等。對慢性肝病患者進行早期的評估、管理和治療至關重要。
目前,臨床上主要通過血液生化指標來評估肝儲備功能,但這些指標不僅不能顯示肝臟的解剖結構或提供血液灌注信息,并且容易受急性感染等因素的影響。由于肉眼可見的結構變化往往在慢性疾病的發生過程中出現較晚,其他影像學檢查如超聲、CT和常規MRI對于早期慢性肝病的檢測能力有限[2]。釓塞酸二鈉(gadolinium-ethoxybenzyl-diethylenetriamine-pentaacetic acid,Gd-EOB-DTPA) 作為一種肝細胞特異性對比劑,可在肝膽期被正常肝細胞通過肝細胞膜表面的有機陰離子轉運系統陰離子轉運多肽(organic anion transporting polypeptide,OATP)特異性攝取,并且肝膽期圖像的多個測量參數已被證實可以用來評估肝功能,如肝實質相對強化程度、肝膽期的肝門靜脈比等[3-5]。然而,通過信號強度測量計算得出的參數來評估肝功能是有限的,因為它們僅僅通過勾畫肝臟某幾個層面的局部感興趣區,這種方法并不能評估完整的肝實質儲備功能。
影像組學是近幾年新興的影像研究領域,它可以通過勾畫整個病變區域的體積,再通過機器學習分析大量的高維數據,提取出重要特征并定量表示,從而提高預測、診斷和預后的準確性[6],這對于早期評估肝功能具有重要價值。周瑋等[7]僅從肝膽期影像組學方面評估了Child-Pugh A與B/C級肝硬化患者的肝儲備功能,未聯合臨床進行分析是否臨床已經具有較高的評估價值。張智星等[8]采用了3期增強CT圖像對Child-Pugh進行分級評估。本研究旨在探討是否能夠單獨基于Gd-EOB-DTPA增強MRI肝膽期圖像來建立臨床-影像組學聯合模型,對慢性乙肝患者肝功能進行更好的分級評估。
回顧性搜集2018年12月至2021年7月就診于蘇北人民醫院行Gd-EOB-DTPA增強MRI檢查的1205例存在慢性乙型肝炎感染的患者。病例納入標準:①實驗室證據表明存在乙型肝炎病毒感染;②具有完整的臨床數據資料,包括是否有腹水、肝性腦病、機體白蛋白水平以及MRI檢查前后1周內的總膽紅素(total bilirubin,TBIL)、丙氨酸氨基轉移酶(alanine amiotransferase,ALT)、天冬氨酸氨基轉移酶(aspartate transaminase,AST)、血小板(platelet,PLT)、凝血酶原時間(prothrombin time,PT)、凝血酶原時間國際化比值(international normalized ratio,INR);③腎功能正常。病例排除標準:①肝臟存在較大的病灶(最大直徑>5 cm)或多個病灶(數量>5),導致正常肝實質范圍較小影響測量準確性;②有肝介入治療史或肝切除手術史;③門靜脈存在栓子,影響血流動力學者[9];④合并有其他肝炎病毒感染;⑤肝膽期圖像質量不佳。根據收集的臨床及實驗室指標評估出Child-Pugh分級,包括總膽紅素、白蛋白水平、凝血酶原延長時間、腹水量級以及是否有肝性腦病[10]。采用相同的納入和排除標準,從2022年7月至12月就診的慢性乙型肝炎感染患者中篩選病例。本研究為回顧性臨床研究,經蘇北人民醫院倫理委員會批準(批準文號:2021ky219),免除受試者知情同意。
MRI檢查均采用3.0T MRI掃描儀(GE Discovery 750,750W,美國),8通道體部相控陣線圈。掃描前囑患者禁食6~8 h,采用呼吸門控技術,對患者進行平靜呼吸及屏氣訓練,掃描范圍從膈頂至雙腎下緣。所有患者均進行MRI平掃及釓塞酸二鈉增強掃描。T1WI平掃及增強采用肝臟容積加速采集(liver acquisition with volume acceleration,LAVA)序列,分別于注射對比劑后20 s(動脈期)、60 s(門靜脈期)、3 min(移行期)及20 min(肝膽特異期)進行掃描得到4期圖像。LAVA序列掃描參數:重復時間3.7 ms,回波時間1.7 ms,層厚5.0 mm,層間距2.5 mm,矩陣320×224,視野40 cm×40 cm,翻轉角18°。對比劑采用釓塞酸二鈉(Gd-EOB-DTPA,Primovist,德國拜耳醫藥保健有限公司),注射流率2.0 mL/s(劑量0.025 mmol/kg),注射對比劑后再以相同流率注射20 mL 0.9%氯化鈉溶液進行沖洗。
臨床模型構建:將臨床變量(包括年齡、性別、身體質量指數、TBIL、ALT、AST、PLT、PT、INR)進行單因素和多因素邏輯回歸分析,篩選出與Child-Pugh分級相關的臨床變量,即獨立危險因素,將其聯合構建出臨床評估模型。采用受試者工作特征(receiver operating characteristic,ROC) 曲線的曲線下面積(area under the curve,AUC) 分析模型的評估能力。
肝半自動分割:由一位具有5年工作經驗的放射科醫師將所有納入研究患者的肝膽期圖像導入“uAI科研平臺”(uRP,United Imaging Healthcare Co,中國上海)。一個名為V-Net的器官分割深度學習模型用于自動分割肝臟的感興趣體積(volume of interest,VOI)[11],再進一步進行手動修正,以排除每個層面上的脂肪、空氣、肝臟病變、大血管和膽管區域(圖1、2)。慢性肝炎肝功能正常、Child-Pugh A級和Child-Pugh B/C級的患者分別標記為0、1和2。然后,由另一位具有10年工作經驗的放射科醫生檢查核對VOI以及標記的標簽。

圖1 慢性乙肝肝功能正常者的Gd-EOB-DTPA增強MRI肝膽期圖像,Rad-score值為0.565。a) 單個層面原圖;b) 該層面勾畫示例圖。圖2 Child-Pugh A級患者的Gd-EOB-DTPA增強MRI肝膽期圖像,Rad-score值為0.809。a)單個層面原圖,肝包膜稍欠光整;b)該層面勾畫示例圖。
影像組學特征提取與選擇:使用Python 3.7中的Pyradiomics工具箱,從Gd-EOB-DTPA肝臟增強MRI肝膽期圖像中提取符合國際生物標記物標準化倡議的2600個肝實質區域的影像特征。這些特征包括了4個特征組:18個一級特征、14個體積和形狀特征、72個紋理特征和2496個基于濾波器的特征。采用隨機抽樣方法將數據集按8:2的比例分成訓練組和測試組,另一時間段的數據集構建驗證組。為了避免特征之間的維度影響,使用Z分數預處理方法進行特征歸一化。應用最小絕對收縮和選擇算子(least absolute shrinkage and selection operator,LASSO) 算法進行降維處理,篩選出最相關的系數非0的影像組學特征。將得到的組學特征進行線性組合計算,得出每例患者對應的影像組學得分(Rad-score)。
影像組學模型及臨床-組學聯合模型構建:AUC用于量化Rad-score的評估能力,在訓練組、測試組和驗證組中,分別建立Rad-score影像組學評估模型。將臨床模型中的獨立危險因素和Rad-score聯合進行多因素邏輯回歸分析,構建出臨床-影像組學聯合評估模型,用于對慢性肝炎患者進行肝儲備功能評估。并根據訓練組的約登指數確定臨界值,以得到相應的敏感度、特異度、準確度以及陽性預測值、陰性預測值。凈重新分類改善指數(net reclassification index,NRI)、綜合判別改善指數(integrated discrimination improvement,IDI)用以評價聯合模型較其他模型的檢出效能改善情況。
列線圖的建立和評估:利用訓練組建立并繪制整合了臨床變量和影像組學Rad-score的組學列線圖。繪制列線圖的校準曲線,通過Hosmer-Lemeshow檢驗來評估擬合優度。決策曲線分析(decision curve analysis,DCA)用于評估不同閾值概率下列線圖的凈收益。
采用SPSS 24.0軟件和R語言(version 3.3.3,Vienna,Austria)進行統計學分析。根據正態性檢驗結果,將定量數據以中位數(四分位數間距,不符合正態分布)或平均值±標準差(符合正態分布)表示,定性數據以百分數(%)表示。定量數據采用Mann-WhitneyU檢驗或Student’st檢驗進行組間比較,定性數據采用卡方檢驗進行組間比較。以P<0.05為差異有統計學意義。
1205例慢性乙肝患者經納入、排除標準,排除臨床數據資料不完整者42例,肝臟存在較大病灶(最大直徑>5 cm)者287例,多個病灶(數量>5)者336例,有肝臟介入治療史或肝切除手術史者114例,門靜脈存在栓子者56例,合并丙肝者55例,戊肝者17例,肝膽期圖像質量不佳者19例。最終279例患者納入本研究,其中男171例,女108例,年齡中位數為60歲,按照臨床Child-Pugh分級標準將279例患者分為73例慢性乙型肝炎肝功能正常者、136例Child-Pugh A級患者和70例Child-Pugh B/C級患者。肝功能正常和Child-Pugh A級的209例患者被隨機分配到訓練組(n=167)和測試組(n=42)中,Child-Pugh A和Child-Pugh B/C級的206例被隨機分配到訓練組(n=164)和測試組(n=42)中?;颊叩呐R床資料見表1。另一時間段篩選出的64例患者用于驗證,包括17例慢性乙肝肝功能正常者、30例Child-Pugh A級和17例Child-Pugh B/C級乙肝患者。

表1 患者基線資料 (n,%)
單因素及多因素邏輯回歸分析結果顯示,PLT、TBIL和INR是乙肝Child-Pugh A級的獨立危險因素,PLT、TBIL是乙肝Child-Pugh B/C級的獨立危險因素(表2、3),分別進行聯合,構建出臨床評估模型,訓練組、測試組和驗證組中臨床模型鑒別肝功能正常與Child-Pugh A級的AUC分別為0.897、0.884、0.780,訓練組、測試組和驗證組中臨床模型鑒別Child-Pugh A級與Child-Pugh B/C級的AUC分別為0.916、0.893、0.914。

表2 臨床參數的單因素和多因素回歸分析結果
在訓練組中,慢性肝炎肝功能正常者和Child-Pugh A級患者的數量分別為58例和109例。通過LASSO回歸分析后,選擇出4個相關特征,包括2個灰度依賴性矩陣(gray-level dependence matrix,GLDM)、1個灰度大小區域矩陣(gray-level size zone matrix,GLSZM)和1個灰度行程矩陣(gray-level run length matrix,GLRLM)。所有特征的定量值在兩組中均具有統計學差異(P<0.05)。根據以上4個特征及其系數、截距值計算得到影像組學標簽Rad-score(圖3):

圖3 肝功能正常與Child-Pugh A級組采用LASSO算法進行影像組學特征篩選。a)調整參數λ使擬合損失值二項偏差最小,以篩選出最優的影像組學特征;b)篩選出最優影像組學特征的系數收斂圖,在最佳λ值處畫一條垂直線,得到4個系數非零的特征;c)選定的4個最優特征及其相關系數;d)訓練組、測試組和驗證組中每例患者的影像組學得分,在鑒別慢性乙肝與Child-Pugh A級患者中差異有統計學意義(P<0.05)。
Rad-score肝功能正常 vs.Child-Pugh A=0.038×normalize_glrlm_ShortRunHighGrayLevelEmphasis+0.026×normalize_gldm_SmallDependenceEmphasis-0.005×log_gldm_log-sigma-1-5mm-3D-LargeDependenceHighGrayLevelEmphasis-0.083×wavelet_glszm_wavelet-HHH-ZoneEntropy+0.651
在訓練組、測試組和驗證組中,Rad-score鑒別肝功能正常與Child-Pugh A級的AUC分別為0.890、0.914、0.824(表4)。
Child-Pugh A級與Child-Pugh B/C級患者通過LASSO回歸分析后,選擇出7個相關特征,包括4個一階特征(first order)、1個灰度共生矩陣(gray-level cooccurrence matrix,GLCM)和2個 GLRLM。所有特征的定量值在兩組中均具有統計學差異(P<0.05)。根據以上7個特征及其系數、截距值計算得到影像組學標簽Rad-score:
RadscoreChild-Pugh A vs.B/C=0.067×normalize_glrlm_ShortRunHighGrayLevelEmphasis+0.028×wavelet_firstorder_wavelet-LLH-Kurtosis+0.003×normalize_glrlm_RunLengthNonUniformityNormalized-0.006×wavelet_glcm_wavelet-HHH-InverseVariance-0.010×normalize_firstorder_Maximum-0.011×normalize_firstorder_TotalEnergy-0.074×normalize_firstorder_RootMeanSquared+0.340
在訓練組、測試組和驗證組中,Rad-score鑒別Child-Pugh A級與Child-Pugh B/C級的的AUC分別為0.862、0.865、0.818。
對于肝功能正常與Child-Pugh A級患者,將PLT、TBIL、INR與Rad-score進行多因素回歸分析后,所有參數均納入臨床-影像組學聯合模型(表3)。訓練組中,聯合模型鑒別肝功能正常與Child-Pugh A級的AUC為0.951,較臨床模型(NRI=1.022,P<0.001;IDI=0.172,P<0.001)和影像組學模型(NRI=1.217,P<0.001;IDI=0.197,P<0.001),顯著提高了評估效能。測試組中,聯合模型鑒別肝功能正常與Child-Pugh A級的AUC為0.978,同樣顯著提高了評估效能(與臨床模型比較:NRI=1.452,P<0.001;IDI=0.331,P=0.001。與組學模型比較:NRI=1.644,P<0.001;IDI=0.224,P=0.002)。驗證組中,聯合模型鑒別肝功能正常與Child-Pugh A級的AUC為0.886,較臨床模型(NRI=0.302,P=0.007;IDI=0.170,P=0.002)和組學模型(NRI=0.639,P<0.001;IDI=0.311,P<0.001)也顯著提高了評估效能(表4、圖4)。

表3 臨床和影像組學參數的多因素回歸分析結果

表4 肝功能正常與Child-Pugh A級組的臨床模型、影像組學模型和臨床-組學聯合模型評估效能

圖4 肝功能正常與Child-Pugh A級組中臨床模型、影像組學模型和臨床-組學聯合模型的ROC曲線。a)訓練組;b)測試組;c)驗證組。
對于Child-Pugh A與Child-Pugh B/C級患者,將PLT、TBIL與Rad-score進行多因素回歸分析后,所有參數均納入臨床-影像組學聯合模型(表3)。在訓練組、測試組和驗證組中,聯合模型鑒別Child-Pugh A級與Child-Pugh B/C級的AUC分別為0.940、0.934、0.951,相較于臨床模型(AUC=0.916、0.893、0.914)并未有明顯提高,差異無統計學意義(Delong檢驗,P均>0.05)。
對于肝功能正常與Child-Pugh A組,臨床-影像組學聯合模型的列線圖如圖5所示,Hosmer-Lemeshow擬合優度檢驗的P值無統計學意義(訓練組P=0.443 ,測試組P=1.000,驗證組P=0.343,圖6),表明列線圖具有良好的校準性能。在DCA中的所有閾值概率下,臨床-影像組學聯合模型的列線圖表現出優于其他模型的臨床凈收益(圖7)。

圖5 肝功能正常與Child-Pugh A級組聯合模型的列線圖。

圖6 校準曲線表明肝功能正常與Child-Pugh A級組中訓練組、測試組和驗證組的列線圖校準良好,Hosmer-Lemeshow擬合優度檢驗的P值均>0.05。a)訓練組;b)測試組;c)驗證組。圖7 決策曲線分析結果表明,與臨床模型和影像組學模型相比,肝功能正常與Child-Pugh A級組中訓練組、測試組和驗證組中聯合模型列線圖在各概率閾值下均具有更高的臨床凈效益。a)訓練組;b)測試組;c)驗證組。
本研究從肝臟Gd-EOB-DTPA 增強MRI肝膽期圖像中提取出與慢性乙型肝炎肝儲備功能最相關的影像組學特征,并通過計算得到每例患者對應的影像組學標簽即Rad-score,結果顯示影像組學模型具有良好的評估效能。肝功能正常與Child-Pugh A級組在聯合了影像組學和臨床模型后,聯合模型對于評估效能有所提高,優于單純的臨床模型和影像組學模型。但在Child-Pugh A級與Child-Pugh B/C級組中,臨床模型已經表現出了較好的評估價值。
經過單因素和多因素回歸分析后,肝功能正常與Child-Pugh A級組篩選出了3個臨床參數納入臨床模型,分別是TBIL、PLT和INR。Child-Pugh A級與Child-Pugh B/C級組則篩選出TBIL和PLT建立臨床模型。TBIL是肝功能中的一個重要指標,肝炎進展過程中,肝功能下降,機體對于膽紅素的代謝能力也下降,導致其在血液中積聚、增高。相關研究表明PLT與肝臟的再生功能密切相關,肝功能差的患者往往由于正常肝細胞減少,PLT數量也相應下降,導致脾腫大、脾功能亢進,PLT單因素對于肝功能的預測就具有一定意義[12,13]。同樣,肝功能的下降,凝血酶原相對也會缺乏,凝血因子的合成發生障礙,INR也是一種反映肝臟合成能力的重要指標[14,15]。兩組的臨床模型測試組AUC分別達到了0.884、0.893,驗證組為0.780、0.914,具有良好的評估效能。
本研究中肝功能正常與Child-Pugh A級組提取出了4個最相關的肝膽期影像組學紋理特征,包括2個GLDM特征、1個GLRLM特征和1個GLSZM特征。GLSZM紋理特征可以用來描述灰度值的分布,來自于GLSZM類的區域熵特征具有最高的絕對值相關性系數,可以度量灰度不均勻性或隨機性,值越高表示肝實質組織的異質性越高[16]。其他包括GLDM紋理特征可以量化肝膽期 MRI圖像的灰度依賴性,GLRLM紋理特征則提供了具有相同灰度的連續像素運行的空間分布信息,它們都可以反映出一階紋理特征無法顯示的空間異質性改變[17]。Child-Pugh A級與Child-Pugh B/C級組提取出7個最相關的肝膽期影像組學紋理特征,包括4個一階特征、1個GLCM和2個GLRLM特征。一階直方圖特征描述了圖像區域內體素強度的分布,晚期肝硬化有大小不一的結節和纖維間隔,導致體素強度分布不均;GLCM則可以捕獲具有預定義灰度強度的像素對或體素之間的空間關系。病理上,隨著肝炎的進展,肝細胞變性壞死導致正常的肝小葉被破壞,假小葉內再生的肝細胞不具備正常肝細胞的功能,從而對于Gd-EOB-DTPA的攝取減少,肝膽期圖像信號強度降低,肝臟組織的異質性也隨著肝臟硬度的增加而增加,逐漸演變形成肝硬化[18-20]。影像組學在肝膽期圖像上進行全肝組織的體積分割,準確捕捉細微的組織變化,提取出高維的成像特征,通過篩選出的這些紋理特征計算得到Rad-score組學模型,也具有較高的評估效能,測試組分別為0.914、0.865,驗證組分別為0.824、0.818。在聯合了影像組學和臨床模型后,診斷效能得到了顯著提高,并且在兩組的多因素回歸分析中,Rad-score都具有最高的權重系數(OR=6.101、2.188),這充分說明了影像組學在肝儲備功能評估中的重要作用。肝功能正常與Child-Pugh A級組的聯合模型AUC值,訓練組為0.951,測試組為0.978,驗證組為0.886,并且NRI和IDI表明均改善了模型的評估能力,但對于Child-Pugh A級與Child-Pugh B/C級組,聯合模型相對于臨床模型并沒有明顯優勢。
既往多項研究表明,影像組學可以更好地評估肝臟功能儲備。相關研究表明通過評估術前肝功能,可以預測肝癌患者術后肝功能衰竭[21,22];還可以用來預測、識別慢性肝病患者是否發生晚期肝纖維化以及準確分期患者的顯著纖維化(≥F2)水平[23,24]。然而,肝纖維化程度并不能直接反映整體的肝功能。Nitsch等[25]曾利用基于肝臟和脾臟的MRI影像特征開發了一種肝硬化疾病嚴重程度的預測模型,但它們僅限于臨床失代償的患者。本研究更全面地評估了乙肝患者的肝儲備功能,為臨床迅速采取干預措施提供了有價值的輔助信息。
本研究存在以下局限性:首先,本研究僅針對乙肝患者,然而在西方國家,丙肝和酒精性脂肪性肝炎也是肝病的常見原因,我們將在未來擴大納入標準;其次,可能是由于選擇偏倚或樣本量較小,臨床基線資料中肝功能正常與Child-Pugh A級組中的PLT和Child-Pugh A級與Child-Pugh B/C級組中的ALT在訓練組和測試組中差異無統計學意義,并且由于Child-Pugh C級的病例數較少而和B級患者一起進行分析,未來將擴大樣本量進行更全面研究。
綜上所述,Gd-EOB-DTPA增強MRI 肝膽期影像組學模型可以對慢性乙肝患者進行較好的肝功能分級,臨床-影像組學聯合模型在乙肝患者肝功能損傷早期Child-Pugh A級的檢出方面表現出了更好的性能。未來,采用基于影像組學的模型來評估肝功能,可能可以優化對于乙肝患者的管理及早期發現,更好地服務于精準醫療。