丁 川,李小虎,王 俊,李紅文,王玉萍,余長亮,葛亞瓊,王海寶,劉 斌
腦出血(intra-cerebral hemorrhage,ICH)約占所有腦卒中的30%,預后最差,具有高致死率、高致殘率的特點[1],其中約30%的腦出血患者早期顱內血腫發生擴大[2],不但是早期神經系統惡化的預測因素,也是臨床潛在的治療靶點,因此如何準確地預測并預防血腫擴大,也成為腦出血患者個性化治療的關鍵[3]。臨床上首診CT平掃顱內血腫的位置、形態、密度是否混雜、CT血管成像(computed tomography hngiography,CTA)中的斑點征均具有提示意義,但是定性存在一定的主觀判斷,且無法量化血腫的異質性。影像組學是一個新興的但發展迅速的定量分析方法,通過從影像圖像上提取感興趣區域(return of investment,ROI),通過高通量的方法獲取紋理特征,從而將醫學圖像信息轉換為可識別的高維度的數據。這些高維度的放射學特征,對于高血壓性腦出血評估及預后預測有著潛在的臨床應用價值。該文旨在初步探討基于頭部CT平掃的放射組方法對于高血壓腦出血早期血腫擴大預測的最佳機器學習方法。
1.1 一般資料回顧性分析2017年8月—2020年3月安徽醫科大學第一附屬醫院本部及高新兩個院區首次就診的腦出血患者。納入標準:① 符合自發性腦出血的表現;② 發病6 h以內進行頭顱CT平掃檢查;③ 發病后未進行外科手術治療,并于24 h內復查頭顱CT。排除標準:① 除外繼發性腦出血患者,如外傷、血管畸形、顱內占位、缺血再灌注損傷等;② 單純腦室系統出血者;③ CT圖像運動偽影較大者。納入患者共130例,男90例,女40例。
1.2 檢查方法采用GE Optima CT680 64排螺旋CT機,掃描參數:管電壓120 kV,管電流300 mA,采用螺旋掃描模式,螺距1.2,掃描范圍自顱底水平至顱頂水平,層厚5 mm,掃描視野(field of view,FOV)為512,范圍自顱底水平至顱頂水平。
1.3 血腫體積測量血腫擴大的定義為24 h內兩次頭顱CT平掃圖像相比,血腫至少擴大33%或6 ml以上[4],由兩名經驗豐富的放射科主治醫師共同閱片,選取顱內血腫最大層面逐層勾畫感興趣區域,當意見不同時相互討論取得統一。再利用田多公式分別計算24 h內前后兩次頭顱CT檢查顱內血腫的體積V1、V2,將病例組分為血腫擴大組和非擴大組。
1.4 放射性特征提取將所有腦出血患者的頭顱CT平掃圖像以DICOM格式導入ITK-SNAP(www.itk-snap.org)軟件,調整窗寬90 Hu,窗位35 Hu,手動逐層勾畫顱內血腫的輪廓,形成3D感興趣容積(volume of investment,VOI)(圖1),再提取強度特征,體積特征,基于直方圖的特征,紋理參數和空間特征。紋理參數包括灰度共生矩陣(gray level co-occurrence matrix, GLCM),灰度游程矩陣(gray level run length matrix,GLRLM),灰度區域大小矩陣(gray level size zone matrix, GLSZM)等,該研究中共提取402個放射組學特征。

圖1 應用GE Artificial Intelligence Kitl軟件提取紋理特征A:頭顱CT平掃圖像;B:逐層勾勒血腫輪廓;C:提取的部分特征值
1.5 統計學處理所有的過程均采用R軟件3.5.1版(www.r-project.org)進行分析。比較6種經典的機器學習方法預測早期血腫擴大的準確性和機器學習方法的穩定性。機器學習方法包括:隨機森林(random forests,RF),k近鄰(k near neighbor,kNN),支持向量機(support vector machines,SVM-Radial),神經網絡(neural networks,NNet),梯度提升樹算法(gradient boosting machine,GBM)和廣義線性模型(generalize linear model,GLM)。將所選特征應用于分類模型構建的預測變量,交叉訓練每個模型,從而繪制ROC曲線,對曲線下面積(AUC)、準確性進行量化,重復100次交叉訓練過程,從而獲得對模型性能的可靠預測,通過相對標準偏差(relative standard deviation,RSD)量化每種機器學習方法的穩定性。以P<0.05為差異有統計學意義。RSD%定義為:RSD%=σ_AUC∕μ_AUC×100%。
其中σ中AUC是100個AUC值的標準偏差,μ_AUC是100個AUC值的平均值。較低的RSD值對應于機器學習方法較高的穩定性。
2.1 病例分組結果根據早期血腫是否擴大分為陽性組和陰性組,陽性組共34例,其中包括男24例,女10例,年齡30~95(75.9±15.6)歲,陰性組共96例,其中包括男66例,女30例,年齡30~86(59.9±14.3)歲。
2.2 基于CT平掃圖像上提取的腦血腫紋理特征通過交叉驗證比較不同的分類模型,計算準確性和AUC來量化不同機器學習方法的預測性能。通過最大相關最小冗余(minimum correlation and maximum relavant,mRMR)特征選擇方法共提取了402個放射特征,對前5、10、15、20、25、30個選定特征分別訓練不同分類器,當選擇前25個特征來構建模型,所有分類器均值AUC最高,見圖2;前25個特征包括直方圖特征6個,灰階共生矩陣紋理特征(GLCM)4個,灰階游程矩陣紋理特征(GLRLM)15個。

圖2 選擇不同選定特征時所有分類器的平均AUC
2.3 特征值預處理結果和6種機器學習方法效能分析前25個選定特征的機器學習方法的穩定性,所有分類器均采用100次交叉驗證,準確性、AUC、PPV(陽性預測值)、NPV(陰性預測值)、靈敏度、特異性為100次交叉驗證的結果,見表1。SVM-Radial表現最佳的模型穩定性(準確性=0.714,ACC=0.723)。圖3、4顯示了對分類模型穩定性和預測性能的評估,結果表明SVM-Radial(RSD=0.202)優于其他機器學習方法。

圖3 分類模型穩定性評估

圖4 分類模型交叉驗證結果

表1 六種不同分類器學習方法建模結果
ICH約占所有腦卒中的10%~30%,預后最差,其中約30%的腦出血患者早期顱內血腫擴大,血腫擴大不僅直接引起腦組織損傷,而且會使血腫周邊腦水腫面積增大,引起繼發性腦組織損傷[4],從而導致致死率、致殘率的增高。因此如何準確地預測并預防血腫擴大,也成為腦出血患者個性化治療的關鍵。
頭顱CT檢查是腦出血患者入院檢查的第一站[5],是臨床診斷、治療的重要資料,CT平掃上血腫形態不規則、密度不均勻(黑洞征、漩渦征)[6-8]等已被證實對血腫擴大的預測具有較高的敏感性、特異性,但是該定性特征往往存在主觀判斷。CTA“斑點征”[9-10]是近些年來熱議的血腫擴大獨立預測指標,但是其敏感性與特異性并不理想,且CTA檢查不是腦出血常規檢查項目,存在一定的臨床局限性。
影像組學是近些年來比較熱門的研究方法,旨在從醫學圖像中提取定量特征,并探索與結果的相關性[11-12]。影像組學在中樞神經系統非腫瘤病變研究多數集中于腦出血、阿爾茨海默病及多發性硬化等[13]。Shen et al[14]在2018年報道NCCT紋理分析可以客觀的量化腦出血的異質性,并獨立預測血腫的早期擴大,但是對高血壓性腦出血早期血腫擴大預測的最佳機器學習方法未進行深入地研究。機器學習方法是人工智能的核心,可以實現對未知數據的預測,具有很強的泛化能力。該研究比較了6種基于放射學的機器學習方法預測高血壓性腦出血血腫擴大的可行性,首先取了402個定量放射學特征,再進行特征選擇。特征選擇可以有效避免維數的困擾并減少擬合,結果顯示使用前25個選定特征時所有分類器的平均性能最高。SVM-Radial(AUC:0.714±0.144,準確性:0.723±0.109,RSD:0.202)具有最高的預測性的穩定性。初步研究結果提示放射組學預測自發性腦出血血腫擴大時候,選擇SVM-Radial分類器,預測效果最好。與李惠等[11]研究結果基本一致,即基于頭顱CT平掃的放射組學,并選擇合適的機器學習方法,可以對高血壓性腦出血早期擴大進行有效預測。SVM是一種強大有效的機器學習方法,原理是在統計學的基礎上,小樣本條件下,構建一個超平面,提供了最佳的分離邊界,最大限度地分離高維物體、空間,目前SVM已應用于包括醫療在內的多項領域。
該研究存在不足之處:一是樣本量較小,并且是單中心研究,可以進一步加大樣本量并進行多中心數據收集進行外部驗證;二是該研究采用的是手動勾畫ROI,可能會存在偏差,因為顱內血腫與周圍腦實質密度差異較大,血腫輪廓的勾勒后期可以選擇半自動或自動分割。
綜上所述,該研究基于頭顱CT放射組學確定最佳機器學習方法,可以預測高血壓性腦出血血腫早期是否擴大,使醫學圖像中包含的信息價值最大化,從而有利于對患者腦出血的評估,具有潛在的臨床價值。