孫海悅 張策 楊超
(1大連醫科大學中山學院,遼寧 大連 116000;大連醫科大學附屬第二醫院 2藥物臨床試驗機構辦公室;3放射科)
高血壓性腦出血是高血壓最嚴重的并發癥之一,因情緒激動、過度腦力與體力勞動或其他因素引起血壓劇烈升高,導致已病變的腦血管破裂出血所致〔1〕。近幾年,面對高血壓腦出血患者的日益增多,腦出血的預后研究關系著患者的生命質量,對腦出血預后影響因素的評估是一個值得關注的問題。目前大數據逐漸應用醫療領域,本文將運用大數據決策樹的方法對高血壓性腦出血患者轉歸的影響因素進行預測研究。
1.1 收集病歷資料 選取自2017年3月至2018年8月于大連醫科大學附屬第二醫院住院治療的高血壓腦出血患者。初步篩選出與高血壓腦出血患者相關資料,以號碼(ID),年齡,吸煙量,飲酒史,既往最高收縮壓,既往最高舒張壓,入院收縮壓,入院舒張壓,血壓史,血脂,血糖,血腫面積,周圍水腫帶,腦疝,占位效應,是否破入腦室,腦出血位置,出血時間,頭痛,是否伴有腎損害,是否顱內壓增高,是否蛛網膜下腔出血,轉歸情況等24項詳細數據為基礎構建數據庫。
1.2 數據預處理
1.2.1 入排標準 入選標準:①年齡大于60周歲;②患者病歷數據清晰明確可得;③單純的高血壓腦出血。排除標準:①有精神異常情況;②只有診斷無住院治療的門診病歷;③外傷性腦出血;④腫瘤引發的腦出血;⑤腦梗死后的腦出血。
1.2.2 轉歸評級 以7~10 d的入院至出院為一個周期運用生活自理能力量表(ADL)的Barthel指數進行轉歸評級。每個病歷的Barthel指數評分均由兩名神經科主治以上醫師分別對同一病人打分評級,當有不同意時,采用協商解決的方式。Barthel指數≥60分為A組(生活基本可以自理),Barthel指數1~59分為B組(生活自理有功能障礙),Barthel指數0分為C組(死亡)。
1.2.3 篩選變量 在正式訓練模型之前對影響因素進行篩選,并盡可能地控制影響因素之間的交互作用,其中14個因素無統計學意義,予以排除。最終將腦疝、血腫面積/mm2、是否有蛛網膜下腔出血、周圍水腫帶、入院血壓-舒張壓、是否顱內壓增高、出血時間/h、占位效應、吸煙量/支、腦出血位置作為輸入的預測變量,轉歸分級作為目標變量,輸入SPSS軟件中,得到預測變量重要性的占比圖。
1.3 決策樹分析 采用SPSS Moder14.1軟件,運用決策樹分析方法。決策樹是一種簡單而又被廣泛使用的分類技術。在決策樹中,每個葉結點都賦予一個類標號。非葉結點用以分開具有不同特性的記錄。一旦構造了決策樹,對檢驗記錄就非常容易了。
從樹的根結點開始,將測試條件用于檢驗記錄,根據測試結果選擇適當分支。沿著該分支或到達另一個內部結點,使用新的測試條件,或到達一個葉結點。到達葉結點之后,葉結點的類稱號就被賦值給該檢驗記錄。如圖1所示,本文樹狀深度為8層。決策樹算法圍繞的核心是決策樹的生長和剪枝。生長,就是利用訓練樣本集完成決策樹建立的過程;剪枝,就是利用驗證樣本集對形成的決策樹進行優化處理,防止發生擬合過度的過程〔2〕。

圖1 高血壓腦出血決策分析樹狀圖
1.4 預測結果的輸出與驗證 把搜集的數據帶入 SPSS 軟件中,選擇決策樹分析,使用計算機隨機分配,訓練樣本量為 70%,測試樣本量為 30%。得出訓練模型及測試模型的準確率,并建立高血壓腦出血患者預測轉歸情況和實際轉歸情況的百分位增益圖進行比較驗證。
2.1 數據庫的構建結果 根據入排標準篩選后所得病例數為196例。數據庫中數據均為經過影像學及術后病理確診的高血壓腦出血患者。
2.2 預測變量重要性占比結果 通過決策樹方法分析,如圖2所示,在影像學上能直觀反映預測變量重要性的依次是血腫面積,吸煙量,腦疝,占位效應,是否顱內壓增加,出血時間,腦出血位置,周圍水腫帶,入院血壓-舒張壓。如圖3A所示,周圍見水腫帶,有占位效應,無腦疝發生。如圖3B所示,周圍見水腫帶,有占位效應,有腦疝發生。

圖2 預測變量重要性占比


圖3 基底節區腦出血
2.3 模型分類率 如表1所示,得出的結果訓練模型的正確率為76.47%,測試模型的正確率為53.33%。模型可信度良好。

表1 模型分類率〔n(%)〕
2.4 增益曲線圖 增益曲線圖為對C5模型的評價。結果顯示,訓練模型圖與預測模型圖離得較近,說明本研究的可信度較高。見圖4。

1:最優模型;2:訓練模型;3:預測模型圖4 增益曲線圖
信息化的今天,各大醫院都運用醫學統計分析軟件來管理病案信息,面對龐大,雜亂的信息庫,如何有效提取并利用這些信息對患者轉歸情況進行評估,則需要適用大數據的統計分析方法。統計學中,用于從大量數據中提取有效數據并進行轉歸情況分析的統計方法有多種,具體分析方法有指數分步法,Weibull分步法,Logistic分步法等回歸模型的參數法及COX比例風險模型的半參數分析方法〔3〕。但這些分析方法無法解決無規則的異型非結構化臨床數據。
近年來,數據挖掘方法作為一種新型的統計分析方法日益受到關注。由Frawley等〔4〕提出數據挖掘的概念:從數據庫的大量數據中揭示隱含的,先進而未知的,潛在有用信息的過程。
決策樹和神經網絡是數據挖掘的常用方法之一。本文分別運用神經網絡和決策樹的方法對高血壓腦出血轉歸情況的影響因素進行分析研究,但因樣本量小,運用神經網絡方法得出的模型分辨率不理想,所以最終選用決策樹方法進行分析驗證。決策樹C5.0算法通常不需要很長的訓練次數估計,且推出的規則有直觀的解釋。在面對數據遺漏和輸入字段有較多問題時非常穩健,能夠提供強大的增強技術以提高分類精度。朱美英等〔5〕通過搜集居民健康檔案,將健康狀況、行為因素、體檢等方面的因素作為預測變量,采用決策樹分析方法,建立預測糖尿病的決策樹模型。史琦等〔6〕通過收集不穩定心絞痛患者的基本資料、中醫四診信息及臨床常規檢測指標,采用決策樹分析方法,建立了不穩定性心絞痛患者臨床常規檢測指標對痰瘀互阻證的識別模式。Kuo等〔7〕利用決策樹模型提取超聲圖像屬性特征,提高了臨床的診療水平。但查閱大量文獻并沒有發現決策樹方法在分析高血壓腦出血患者轉歸的預測研究上的應用。所以本文運用決策樹方法,對高血壓腦出血病人進行轉歸因素的影響研究。
通過本文預測變量重要性占比圖可以看出各個影響高血壓腦出血患者預后的因素所占比重,其中血腫面積和每日的吸煙量是影響高血壓腦出血患者轉歸情況的重要因素。由于長期高血壓,患者腦血管的細小動脈硬化使血管壁變脆,彈性下降,局部膨出形成小動脈瘤和微小動脈瘤,人體的自控機制使腦血流量在血壓變化時維持恒定,在血壓急劇或持續升高破壞自控機制時,小動脈瘤和微小動脈瘤破裂出血,從而導致血腫擴大〔8,9〕。血腫面積的擴大會使患者轉歸情況變差〔10,11〕,神經功能惡化,并發癥多,病死率增高〔12〕。其次吸煙史是引發腦出血的重要危險因素,其差異具有統計學意義〔13〕。其中腦出血是指非外傷性腦實質內腦血管破裂引起的出血,占所有腦卒中約30%〔14〕。有研究表明吸煙量與腦卒中發生風險之間存在劑量反應關系〔15〕,這可能與煙草中有毒有害物質、致癌物質對血管壁日積月累的傷害有關〔16〕。吸煙損傷患者血管的內皮功能,增加血管壁厚度,導致脂質出現異常沉積,由此加重血管內炎癥反應,增加內膜厚度,使血管彈性變差〔17〕。腦動脈血管彈性變差是不可逆的,血腫不易吸收,血管代償能力下降,甚至危急患者生命。高血壓腦出血不及時診治會導致腦疝等嚴重并發癥的發生,甚至危及生命〔18〕。占位效應與血腫面積有關聯性,是影響高血壓腦出血患者轉歸的影響因素之一,占比較多。而顱內壓可以通過服用硝苯地平,氯沙坦等降壓藥物進行調控,所以對高血壓腦出血患者轉歸的影響不大,占比較少。研究表明,腦出血位置發生在丘腦,基底節區等常見部位對轉歸的影響較小,若發生在腦干部位,則死亡率高,其差異具有統計學意義〔19〕。周圍水腫帶占比少則說明患者隨著體內的自我調節機制自行吸收水腫,所以對轉歸影響不大。最后,入院血壓-舒張壓的占比最少,代表對轉歸的影響最不重要。高血壓腦出血患者隨著住院治療,血壓勢必會得到有效的控制,通過減輕鈉鹽的攝入,增加運動,保持心態平衡等都可以起到有效降壓作用。
本文通過建立高血壓腦出血數據庫,不僅能將所有高血壓腦出血患者進行收集分類,而且還有益于以后所需信息的提取。通過數據的整理,決策樹模型數據流的建立,得到 76.47%的訓練樣本準確率與 53.33%的驗證樣本準確率,并在增益曲線圖中顯示預測結果與實際結果具有較高符合度。
綜上所述,可以說明通過決策樹模型對高血壓腦出血患者的轉歸進行個體化預測具有可行性。但因本文受數據所限,只對數據算法進行初步的模擬,目前模型已建成,結果準確率已達到53.33%,后續對樣本進行不斷地增加和訓練,在不斷調整過程中,再廣泛應用模型。