崔偉鋒 劉蕭蕭 韓靜旖 范軍銘
(1河南省中醫藥研究院,河南 鄭州 450000;2鄲城縣人民醫院心內科;3河南中醫藥大學)
高血壓并發癥死亡人數為940萬,占全部疾病負擔的7% (按傷殘調整生命年測算),已成為影響全球疾病負擔的首要危險因素〔1,2〕。目前關于原發性高血壓預后危險因素的研究有很多,但缺少中醫證候相關信息。預測模型研究多以線性關系預測模型,尚未建立基于復雜關系的預后模型方法。本研究納入血管功能評價及中醫元素探索建立基于人工神經網絡的原發性高血壓心血管風險預后模型。該研究結果能夠對高血壓預后進行全面評估,提供更為準確的預后預判,有助于臨床工作者向患者及家屬提供更為精準的預后信息、為臨床原發性高血壓心血管的防治及決策提供依據。
1.1研究對象 以原發性高血壓患者為研究對象,于2001~2016年在全國高血壓中醫診療中心建立的高血壓隊列人群。納入標準:①符合原發性高血壓診斷標準;②年齡≥18歲;③病程≥5年;④可以接受隨訪。采用調查表完成基線的采集和隨訪,基線采集包括年齡、性別、病程、有無早發心血管病家族史、身高、體重、腰圍、臀圍、吸煙史、飲酒史、情緒、睡眠、飲食習慣、運動量、總膽固醇(TC)、三酰甘油(TG)、高密度脂蛋白膽固醇(HDL-C)、低密度脂蛋白膽固醇(LDL-C);血糖:空腹血糖、餐后2 h血糖、糖化血紅蛋白、空腹血胰島素;電解質:鉀(K)、鈉(Na);腎功能:尿素氮、肌酐、尿酸及血同型半胱氨酸(Hcy)、頸股脈搏波傳導速度(cfPWV)、頸橈脈搏波傳導速度(crPWV)、踝肱脈搏波傳導速度(baPWV)、踝臂壓指數(ABI)等;血管內皮功能檢測:血流介導的血管舒張功能(FMD);心功能檢查:左室后壁厚度、室間隔厚度,左室射血分數(LVEF)、左室舒張末期內徑及中心動脈壓頭暈、頭痛、心悸、心慌、易怒、耳鳴、口干苦、面紅、失眠、水腫及辯證結果。隨訪時間為2015年1月至2016年12月。隨訪主要心血管事件發生情況及時間。主要心血管事件包括:腦血管死亡、腦梗死、腦出血、心肌梗死。
1.2統計方法 采用SPSS21.0軟件進行分析,分別采用R語言進行統計分析。計量資料符合正態分布的使用均數±標準差表示,進行獨立樣本t檢驗;不符合正態分布則用中位數(四分位間數)表示,采用秩和檢驗進行分析。計數資料的構成比使用頻數(百分數)表示,使用χ2檢驗或Fisher確切概率法進行分析。使用COX回歸分析對可能與預后相關的因素進行篩選。以P<0.05為差異具有統計學意義,對篩選后的變量進行共線性診斷,將存在嚴重共線性的變量進行刪減或替換。用R語言將數據按照7∶3的比例隨機分成訓練集和測試集,使用R語言“randomForest”包構建預后預測模型,基于訓練集的數據將各個變量代入算法進行建模,然后在測試集中驗證。模型預測的效力使用混合矩陣評估其準確性。
2.1病例分布情況 本研究共納入了1 000例原發性高血壓患者,剔除無法完成隨訪的病例后,共有985例進入分析。985例患者隨訪時的平均年齡為(55.82±5.80)歲,平均病程(10.60±4.20)年,有早發心血管病家族史者431例(43.8%),基線血壓水平在正常范圍內的為280例(28.4%),基線血壓水平達高血壓1級的有581例(59.9%),2級者95例(9.6%),3級者29例(2.9%)。985例高血壓患者中男833例(84.6%),有吸煙史者295例(30.0%),有飲酒史者384例(39.0%);在運動量方面,經常運動者占比最多,有427例(43.4%),睡眠方面,睡眠較好者占比最多,有536例(54.4%);情緒方面,很少有不良情緒者占比較多,有430例(43.7%);飲食習慣方面,飲食一般者占比較多,有456例(46.3%)。985例患者經查閱整理病例資料及隨訪資料,至隨訪結束時,有212例(6.6%)患者出現腦梗死,有8例(0.3%)腦血管病死亡;26例(1.5%)出現腦出血,38例(1.7%)心肌梗死,合計284例患者發生終點事件。
2.2確定建模變量 以是否發生心血管風險為因變量,影響心血管風險的因素為自變量構建風險比例模型,經COX單因素、多因素篩選(多因素分析前共線性診斷后對同類變量進行刪除或合并),從48個變量中篩共選出共有13個變量,病程、性別、早發心血管病家族史、體重指數(BMI)、飲食習慣、Hcy、平均ABI、平均動脈壓、FMD、氣虛血瘀證、陰虛陽亢證、肝腎陰虛證、陰陽兩虛證與心血管風險相關。參考相關文獻數據并考慮模型的預測全面性及預測能力。糖耐量異常、脂代謝異常、cfPWV均與心、腦血管疾病的發生密切相關,影響原發性高血壓患者的預后,本研究高血壓首發癥狀頭暈(14.0%)、頭痛(6.9%)發生頻率較高。最終確定進入預后模型的變量。對以上18個變量進行共線性診斷,發現這18個變量的容忍度均>0.1,方差膨脹因子均<10,各變量之間不存在共線性。見表1。

表1 建模變量的共線性診斷
2.3隨機森林建模變量重要程度分析 其中BMI、Hcy、平均ABI、平均動脈壓等變量對模型的正確率貢獻較大,見圖1。

圖1 隨機森林模型中變量的重要度
2.4預測模型 在模型訓練方面,混淆矩陣提示隨機森林模型訓練集中的總體錯誤率為28.7%,說明模型的對訓練集分類的效果尚可,測試集總體錯誤率為28.5%,訓練集與測試集結果接近。見表2。

表2 高血壓心血管風險預測模型混淆矩陣(n)
高血壓在我國甚至全世界的發病率逐年上升,其并發癥具有較高的致殘、致死率,已成為我國沉重的家庭及社會負擔,影響全球疾病負擔的首要危險因素〔1〕。尤其是如今我國人口老齡化進程加速,高血壓患者數量快速增長,因此預計心腦血管疾病的發病率也將隨之上升,造成日益嚴重的社會負擔與社會危害〔3〕。
目前關于高血壓發病及其預后相關危險因素的研究較多,但多以現況研究為主、樣本例數少,因果論證強度不足;尚無基于中醫元素的預后預測模型研究;基于隊列研究設計,直接探索中醫證型與高血壓預后關系的研究較少。目前臨床研究中大多以血壓及癥狀等指標為效應指標,對于評判預后更有意義的心腦血管終點事件等結局指標缺乏研究〔4〕。本研究基于回顧性隊列研究,隨訪基線危險因素及心血管風險發生情況,能夠推斷其因果關系,有利準確原發性高血壓心血管風險發生情況。本研究在分析心血管風險的危險因素及建立預后預測模型時加入了動脈功能指標和中醫證候,探索兩者在高血壓預后判斷中的作用,證實了血管功能指標、中醫證候對判斷原發性高血壓病預后具有一定的作用,豐富了高血壓預后判斷的依據。
隨機森林是基于決策樹算法的分類器,能夠利用多棵樹對樣本進行訓練并預測,最后通過綜合多棵決策樹的表決結果來進行類別判斷〔5〕。其優勢在于能夠自動探索對類別具有較大幫助的變量,進而構建出類別差異明顯的分類器,對線性和非線性數據均能進行分類〔6〕,適用性較廣。其局限性在于難以實現整個森林的可視化,且在處理某些噪聲較大的數據集時容易出現過度擬合的情況,因此在使用該算法過程中要注重對變量的篩選。本研究變量篩選根據原發性高血壓的隊列人群隨訪數據,采用Cox單因素、多因素分析、共線性診斷,參考相關文獻數據并考慮模型的預測全面性及預測能力,參考最終確定18個變量納入預測模型變量,避免在構建模型時出現過度擬合的情況。
本研究雖只是探索階段,仍有許多不足,但在一定程度上彌補了目前原發性高血壓病預后研究的不足之處,為其預后模型的構建提供了一種新思路,具有臨床參考價值。通過加入動脈功能指標和中醫證候,并構建更好的預后預測模型,能夠幫助臨床醫師更好地判斷高血壓患者預后,為患者提供更科學、更細致的個體化治療方案,以期改善原發性高血壓的預后。