魏 戌,謝雁鳴,田 峰,申 浩,姜俊杰,孫帥玲,章軼立
(1. 中國中醫科學院望京醫院,北京 100102;2. 中國中醫科學院中醫臨床基礎醫學研究所,北京 100700)
?
【臨床基礎】
病證結合構建慢病風險預測模型的思路與方法?
魏 戌1,謝雁鳴2△,田 峰2,申 浩2,姜俊杰2,孫帥玲2,章軼立2
(1. 中國中醫科學院望京醫院,北京 100102;2. 中國中醫科學院中醫臨床基礎醫學研究所,北京 100700)
風險預測模型研究是慢性非傳染性疾病(簡稱慢病)防治的重要手段,但目前的疾病風險預測模型中缺乏中醫證候學和癥狀學等方面內容。病證結合構建慢病風險預測模型的研究思路,首先是以疾病發生或疾病終點指標作為目標結局變量,其次確定并采集與目標結局相關的關鍵信息,然后運用數理方法篩選中西醫危險因素構建風險預測模型,最后評價風險預測模型的預測性能。常用的數學模型包括Logistic回歸模型、Cox比例風險模型、人工神經網絡、決策樹模型、Markov模型、隨機森林。此外在構建風險預測模型時,需注意各種模型的適用條件、結局變量特征、影響因素的數據特點。
病證結合;風險預測模型;危險因素;中醫證候;數學模型
西醫辨病與中醫辨證論治相結合,是目前中醫藥界及中西醫結合界最為普遍應用的臨床診療模式[1]。現代危險因素(如長期吸煙、過量飲酒)、西醫理化檢查、明確診斷的疾病(如高血壓病、糖尿病)等可歸為西醫“病”的范疇,中醫證候、證候要素、癥狀、四診信息等可歸為中醫“證”的范疇。《中國居民營養與慢性病狀況報告(2015年)》明確提出防治結合、中西醫并重的慢病防治體系,廣泛開展健康宣傳教育,積極推進中醫“治未病”健康工程[2]。鑒于此,在中醫“治未病”理論的指導下,通過恰當的風險預測模型對疾病尤其是慢病危險人群進行風險評估,預測未來幾年內患慢病的危險程度、發展趨勢及相關危險因素,是慢病管理的基礎和核心環節。開展病證結合的慢病風險預測模型研究,提供準確、有針對性的健康指導,在患病前期實施適當的健康干預(未病先防),或者及時控制疾病的發展演變(既病防變),或者防止疾病的復發或產生后遺癥(已變防漸),是慢病防治的重要手段。
在慢病防治過程中,風險預測模型可以有效地為其危險人群進行早期監測,進一步明確各種危險因素對疾病發生發展以及預后所起的作用強度,明確預防的重點,有利于幫助個體認識健康危險因素,強化個人的健康促進行為,尤其是制訂個體化的健康干預措施。
國內外研究多選擇疾病的影響因素,如年齡、性別、病情嚴重程度、吸煙、飲酒等進行分析,但疾病的發生發展常常通過癥狀來傳遞信息。中醫學理論體系之一即是辨證論治,辨析癥狀以歸納不同的證候特征,目前在疾病風險預測模型中缺乏中醫證候學和癥狀學等方面的內容。本研究團隊在3項國家自然科學基金面上項目的資助下,通過開展1059例缺血性中風病與1740例骨質疏松癥連續3年的隨訪研究工作,已經證明將西醫危險因素與中醫證候特征相結合,能更加精確地識別危險因素和癥狀暴露后疾病發生、預后的危險度,實現早期監測、早期預警,對于提高公眾防治慢病意識具有直接的促進作用。健康風險評估模型能將影響慢病的危險因素及人群的證候特征進行數理化提取及分析,可作為客觀的評價方法指導臨床實踐。
2.1 以疾病發生或疾病終點指標作為目標結局變量
預防疾病的發生與有效控制疾病的進展是中醫“治未病”理念的核心環節,因此早期預警的目標結局主要關注疾病發生或疾病轉歸的終點結局指標變化,所觀察的結局必須具有國內外公認的診斷或判斷標準。骨質疏松癥的終點結局是骨質疏松性骨折,中風病的終點結局是死亡、復發、殘疾事件。以缺血性中風病復發為例,復發是臨床終點事件之一,是導致患者死亡、再次住院、長期殘疾的主要原因。影像學檢查是臨床判斷復發事件的金標準,隨著復發次數的增加,CT的影像學可以表現為梗死病灶的增加,從初次發病時的1個變為復發時的多個;肢體功能評定、癥狀表現可作為復發事件的判斷依據,如美國國立衛生研究院卒中量表(NIH Stroke Scale,NIHSS)肢體功能評分,在原有基礎上增長≥4分或者出現新發中風的典型癥狀,也可作為復發判斷標準[3-4]。
2.2 確定并采集與目標結局相關的關鍵信息
選定目標結局后,需要根據研究目標與實際情況,參考既往研究工作、查閱文獻資料與國內外臨床實踐指南、行業標準選取與目標結局相關的中西醫影響因素信息,由臨床專家、方法學專家、統計學專家等共同討論后確定,并常以問卷形式采集相關信息。“社區40歲~65歲婦女骨質疏松危險因素及證候調查問卷”是在前期具有良好信度、效度的《原發性骨質疏松癥中醫證候調查問卷》和520例原發性骨質疏松癥中醫基本證候研究的基礎上,廣泛梳理文獻、查閱循證實踐指南,參照《中醫內科常見病診療指南·西醫疾病部分》的中醫證候辨證內容,反復征求骨質疏松癥中西專家的意見,與方法學、統計學專家討論后確定信息采集點,包括一般信息、生活習慣、發病相關因素、軀體狀況、臨床體征等5個領域的內容共65個條目,為封閉式問卷設計[5]。
2.3 運用數理方法篩選中西醫危險因素構建風險預測模型
基于大規模人群的臨床流行病學調查獲得長期隨訪數據發現,疾病發生或預后的危險因素是慢病風險預測模型構建的關鍵環節。危險因素的識別、分層是制定預防策略的基礎工作,從而指導早期預警和監測。國內學者針對西醫危險因素研究較多。米生權等采用Meta分析方法,利用2002年中國居民營養與健康狀況調查數據,篩選出年齡、體質量指數、糖尿病家族史等10個危險因素和教育程度、血清高密度脂蛋白膽固醇含量2個保護因素,建立了20~70歲中國成人未來10年糖尿病發病風險預測模型[6]。孫鳳等利用7296例臺灣地區35~74歲男性健康體檢者縱向數據資料隨訪觀察5年,運用多元逐步Logistic回歸方法從10個危險因素中篩選出年齡、日常工作性質、腰圍、體質量和血肌酐水平5個指標,構建了骨質疏松5年發病風險預測模型,可直接估計體檢者5年內新發骨質疏松風險[7]。
應用中醫危險因素構建慢病風險預測模型的研究較少。在缺血性中風病死亡與復發結局的研究中,中醫學者發現始發態證候特征(以風證、火證、痰證為主)可能是死亡的影響因素,以風證、痰證為主的證候特征可能與復發預后有關[8]。但鑒于研究證據有限,仍需深入研究。在此研究結果基礎上,我們基于1059例缺血性中風病患者3年的隨訪數據,以死亡或復發發生時間作為結局變量,運用隨機生存森林方法,篩選出痰濕蒙神證、高齡、生活質量評分、復發、血脂異常等是死亡結局的預測因素,痰濕蒙神證、高齡、肢體功能評分、生活質量評分、復發、血脂異常等是復發結局的預測因素。
2.4 評價風險預測模型的預測性能
可利用接收者工作特征曲線下面積(area under the receiver operating characteristic curve,AUC)來評價風險預測模型的預測性能。首先運用AUC對建模隊列預測模型的擬合優度進行檢測,隨后在驗證隊列中評估預測模型的外部效度。通常AUC數值介于0.5~0.1之間,較大的AUC數值代表了模型較好的預測能力。
3.1 Logistic回歸模型
Logistic回歸模型是用于篩選危險因素、預測與判斷疾病發生、預后的經典模型。該模型將研究因素、混雜因素及其交互作用均體現在模型中,能夠在控制混雜因素的作用下,對研究因素與目標結局作出定量描述。其關注的結局是二分類變量,如復發與未復發、死亡與未死亡、骨折與未骨折、疾病發生與未發生等。目前,此模型已運用于中風病[9]、心肌梗死結局事件[10]等風險預測中。
3.2 Cox比例風險模型
Cox比例風險模型是以每個時間點上的風險發生概率作為因變量,常用于生存結局的研究,與logistic回歸模型有所不同。以腫瘤疾病研究為例,回歸模型關注的是終點事件發生與否(死亡、未死亡),而Cox模型更關注腫瘤患者的生存時間,根據生存時間計算每一時刻的死亡概率,可研究多個因素對風險發生率的影響。本研究團隊申浩等將發生絕經后骨質疏松癥骨折時間作為結局變量,Cox單因素方法篩選后,以“骨密度+危險因素+中醫癥狀”“骨密度+危險因素”“危險因素+中醫癥狀”3種組合形式分別構建Cox比例風險模型,經AUC數值評價與統計學檢驗發現,第一種組合形式優于第二種(P>0.05),但第一種與第三種組合形式比較差異無統計學意義(P<0.05),研究提示在危險因素的基礎上加入中醫癥狀學內容提高了模型的預測能力。
3.3 人工神經網絡
人工神經網絡常應用于多因素復雜致病的慢病病因學研究,適用于具有共線性或非線性特征的數據資料。國內學者研究認為,其對于數據的擬合情況要優于Logistic回歸模型與Cox比例風險模型[11]。但納入變量過多會影響人工神經網絡訓練速度,甚至出現過度擬合的現象。譚英等用該模型和多因素Logistic回歸模型分別建立缺血性中風病患者復發的預測模型。通過AUC比較顯示,神經網絡模型預測性能優于回歸模型[12]。郭奕瑞等將人工神經網絡模型運用于2型糖尿病中,結果同樣顯示該模型較Logistic回歸模型具有更好的預測性能[13]。
3.4 決策樹模型
決策樹模型具有分類精度高、生成模式簡單、對噪聲數據具有較好的健壯性等優點,能夠對各危險因素不同水平發生危險的可能性作出定性判斷。于長春采用C5.0決策樹算法預測2型糖尿病患者發生缺血性中風病風險,篩選出的危險因素重要程度從大到小依次為頸動脈內膜中層厚度、高血壓病史、頸動脈粥樣斑塊、糖化血紅蛋白、年齡,所建立的預測模型對訓練樣本和測試樣本的預測準確率分別為88. 41%、85. 00%,準確率較高[14]。劉建平等運用決策樹中的分類樹模型預測深圳市缺血性中風病發病風險,研究發現最為重要的預測因素為體育鍛煉和高血壓病史,分類樹模型不僅能有效地擬合發病風險的預測模型,還能有效地篩檢變量間的交互作用效應[15]。
3.5 Markov模型
Markov模型可以較好地擬合隨著時間推移人群特征變化對疾病狀態轉移的影響,根據不同個體的特征估計其疾病狀態的轉移風險概率。因其能夠分析各狀態間轉移的影響因素以及影響程度,故Markov模型在動態評價疾病進展等方面具有較大的優勢[16-17]。本研究團隊的田峰等通過研究社區骨量正常、骨量減少、骨質疏松3種轉態人群時發現,身高變矮、絕經年限、腰膝酸軟、脫發和下肢骨痛等危險因素和中醫癥狀在絕經后骨質疏松高危人群的骨量狀態轉移過程中具有重要預警作用,日常進食新鮮蔬菜可在一定程度上降低風險。該研究有助于指導社區絕經后骨質疏松高危人群早期篩查和預警,豐富了中醫“治未病”理論。
3.6 隨機森林
隨機森林屬于機器學習方法,能夠有效處理高維數據,可考慮變量間的交互作用及非線性特點來處理復雜生物學分析中的缺失數據問題,通常采用變量重要性評分來評價變量對于目標結局發生的影響。曹文哲等研究2型糖尿病并發視網膜病變的相關因素并構建風險預測模型,AUC數值提示隨機森林模型預測效果優于Logistic回歸模型[18]。近年來,在隨機森林模型基礎上發展為隨機生存森林模型,適用于右截尾的生存資料。同時,對高維生存資料利用隨機生存森林法先降維去噪,能夠有效地提高隨機生存森林的降維能力,從而提高后續分析的檢驗效能,有助于預后預測模型的建立[19]。結腸癌預后研究證實,隨機生存森林模型預測能力優于Cox比例風險模型[20]。
表1顯示,雖然現有數學模型較多,但在構建風險預測模型時,需要根據不同的結局變量、數據資料特點以及影響因素的數量選擇合適的數學模型,這是模型研究的關鍵。此外,灰色預測模型[21]、支持向量機[22]等方法也可用于慢病的風險預測研究,為疾病預防和監控提供依據。
國內慢病風險預測的研究尚處于起步階段,在中醫藥領域,慢病風險評估模型的研究應結合中醫特色開展預防實踐。現有的風險預測模型僅根據橫斷面數據作出粗略的估計,缺乏基于西醫危險因素、中醫證候要素疾病風險動態預測的研究,不能滿足臨床實際應用的需求。在未來的研究中,可開展相關工作:一是以重大疾病作為研究對象,開展大樣本、長時間的隨訪研究,獲得多時點的數據,基于病證結合思路建立風險評估模型;二是中醫證候演變與風險預測模型的研究;三是風險評估模型的評價與改進。

表1 常用數學模型的適用條件、結局變量特征、影響因素數據特點
[1] 陳可冀. 病證結合治療觀與臨床實踐[J]. 中國中西醫結合雜志,2011,31(8):1016-1017.
[2] 衛生與計劃生育委員會. 中國居民營養和慢性病狀況報告(2015年)[EB/OL]. http://www.nhfpc.gov.cn/jkj/s5879/201506/4505528e65f3460fb88685081ff158a2. [2016-3-15].
[3] 魏戌,謝雁鳴,王永炎. 缺血性中風復發的臨床研究概況及中醫藥防治策略[J]. 北京中醫藥大學學報,2012,35(12):805-808.
[4] OIS A, GOMIS M, RODRíGUEZ-CAMPELLO A, et al. Factors associated with a high risk of recurrence in patients with transient ischemic attack or minor stroke [J]. Stroke, 2008, 39(6): 1717-1721.
[5] 田峰,謝雁鳴,易丹輝,等. 40歲~65歲絕經后骨質疏松癥危險因素及證候調查問卷信度和效度分析[J]. 中國中醫基礎醫學雜志,2012,18(6):609-611.
[6] 米生權. 中國成人個體糖尿病發病風險預測模型的建立及驗證[D]. 北京:中國疾病預防控制中心,2011:1-152.
[7] 孫鳳,郁凱,陶慶梅,等. 臺灣35~74歲男性體檢者骨質疏松5年發病風險預測模型[J]. 中國骨質疏松雜志,2012,18(10):905-911.
[8] 曹克剛,於堃,高穎. 缺血性中風急性期預后相關因素的多因素分析[J]. 天津中醫藥,2007,24(6):462-464.
[9] VAN SEETERS T, BIESSELS GJ, KAPPELLE LJ, et al. The Prognostic Value of CT Angiography and CT Perfusion in Acute Ischemic Stroke [J]. Cerebrovasc Dis, 2015, 40(5-6): 258.
[10] SHACHAM Y, LESHEM-RUBINOW E, ZIV-BARAN T, et al. Incidence and mortality of acute kidney injury in acute myocardial infarction patients: a comparison between AKIN and RIFLE criteria [J]. Int Urol Nephrol, 2014, 46(12): 2371-2377.
[11] 賀佳,張智堅,賀憲民. 肝癌術后無瘤生存期的人工神經網絡預測[J]. 數理統計與管理,2002,21(4):14-16.
[12] 譚英,耿德勤,黃水平. 用人工神經網絡建立缺血性腦卒中復發的預測模型[J]. 中國衛生統計,2013,30(5):687-689.
[13] 郭奕瑞,李玉倩,王高帥,等. 人工神經網絡模型在2型糖尿病患病風險預測中的應用[J]. 鄭州大學學報:醫學版,2014,49(2):180-183.
[14] 于長春. 決策樹模型在2型糖尿病患者腦梗死風險預測中的應用[J]. 中國衛生統計,2011,28(6):683-684.
[15] 劉建平,程錦泉,張仁利,等. 應用分類樹模型構建缺血性腦卒中發病風險的預測模型[J]. 中國慢性病預防與控制,2012,20(3):254-258.
[16] 高建偉. 多狀態Markov模型在輕度認知障礙向阿爾茨海默病轉歸研究中的應用[D]. 太原:山西醫科大學,2011:1-35.
[17] 安小妹. 多狀態Markov模型在糖尿病足自然史研究中的應用[D]. 中山:中山大學,2007:1-45.
[18] 曹文哲,應俊,陳廣飛,等. 基于Logistic回歸和隨機森林算法的2型糖尿病并發視網膜病變風險預測及對比研究[J]. 中國醫療設備,2016,31(3):33-38.
[19] 陳干霞. 隨機生存森林在高維生存資料中的降維分析[D]. 南京:南京醫科大學,2012:1-73.
[20] 洪遠芳. 隨機生存森林在結直腸癌預后分析的應用[D]. 中山:中山大學,2007:1-33.
[21] 李論. 基于灰色預測模型的我國心腦血管疾病死亡率預測[J]. 現代電子技術,2015,38(11):107-111.
[22] 周舒冬,張磊,葉小華,等. 支持向量機技術在疾病預后中的應用和比較[J]. 數理醫藥學雜志,2007,20(6):760-762.
Ideas and Methods of Chronic Disease Risk Prediction Model Construction by the Methods of Combining Disease With Syndrome
WEI Xu1, XIE Yan-ming2△, TIAN Feng2, SHEN Hao2, JIANG Jun-jie2, SUN Shuai-ling2, ZHANG Yi-li2
(1.WangjingHospital,ChinaAcademyofChineseMedicalSciences,Beijing100102,China;2.InstituteofBasicResearchinClinicalMedicine,ChinaAcademyofChineseMedicalSciences,Beijing100700,China)
The research on risk prediction model is the important strategy for prevention and treatment of chronic non-infections diseases. However, there are lack of related contents about traditional Chinese medicine (TCM) syndrome and symptom in the prediction models. Firstly, the basis of building risk prediction model based on combination of disease and syndrome is to choose whether disease occur disease endpoint index as the target outcome. Secondly, the key influencing factors which are relative to the known outcome are identified and collected. Thirdly, mathematical methods are chosen to screen TCM and western medicine risk factors, eventually to construct risk model. Fourthly, the performance of risk prediction model is evaluated. The common mathematical model include logistic regression analysis, Cox proportional hazard model, artificial neural network, decision tree model, Markov model, and random forest. In addition, we should pay attention to the application conditions, characteristic of outcome and influencing factors in the construction of risk prediction model.
Combination of disease and syndrome; Risk prediction model;Risk factors; Traditional Chinese medicine syndrome; Mathematical model
國家自然科學基金資助項目(30873339)-基于非齊性Markov model建立病癥結合的絕經后骨質疏松證早期風險評估模型;國家自然科學基金資助項目(81173472)-基于GLSISSM模型的缺血性中風復發高危因素早期預警新方法研究;國家自然科學基金面上項目(81373885)-基于兩種模型的絕經后骨質疏松性骨折早期預警方法機制研究;國家中醫臨床研究基地業務建設第二批科研專項(JDZX2015076)-中醫綜合干預方案預防原發性骨質疏松癥骨折的前瞻性隊列研究;北京市中醫藥科技發展資金項目(JJ 2015-57)-補骨生髓配方顆粒治療原發性骨質疏松癥的臨床療效機理研究
魏 戌(1985-),男,四川綿陽人 ,助理研究員,醫學博士,從事骨關節退行性病變中醫防治、中醫臨床評價方法學研究。
△通訊作者:謝雁鳴,女,研究員,博士研究生導師,從事中醫藥治療老年病、中醫臨床評價方法學研究,Tel:010-64093302,E-mail:datamining5288@163.com。
R222.19
A
1006-3250(2017)06-0798-04
2016-12-18