摘要:本研究采用電子化病例報告表(eCRF)對中醫藥治療艾滋病數據進行采集,然后利用數據挖掘技術對收集的數據進行分析,在國內外首次取得了一系列研究成果,其中包括中醫證型與CD4、癥狀總積分等因素的線性回歸方程,以及對影響艾滋病患病生存的一些因素進行相關分析的結果等,以上研究提示了在無法對患者進行RCT研究時,eCRF及數據挖掘技術可作為真實世界研究的基礎可行性。
關鍵詞:電子化病例報告表(eCRF);數據挖掘;真實世界研究(RSW);中醫藥;AIDS 中遠程療效分析;線性回歸方程
中圖分類號:TP311;R259 文獻標識碼:A 文章編號:1006-1959(2017)18-0001-04
Abstract:This study adopts electronic case report form(eCRF)to collect the data of Chinese medicine treatment of AIDS,and then use data mining technology to analyze the data collected,a series of research results obtained for the first time at home and abroad,Including the TCM syndromes and CD4,the total score of the factors such as the linear regression equation,as well as the impact of AIDS on the survival of a number of factors related to the results of the above study suggested that patients can not be RCT study,eCRF and Data mining technology can be used as a basis for real world research feasibility.
Key words:Electronic case report form(eCRF);Data mining;Real world research(RSW);Chinese medicine;AIDS remote curative effect analysis;Linear regression equation
近年來,真實世界研究(real-world study,RSW)越來越受到關注,特別是在中醫藥領域。盡管隨機對照試驗(randomized controlled trial, RCT)被視為制定臨床實驗研究的金標準,但采用RCT來開展中醫臨床研究,往往前提條件很難滿足,研究結論也不易外推。RSW是樣本量大、納入標準相對寬泛、不預定和限設實際臨床過程,結合實際情況開展的研究,應用RSW的方法進行中醫藥治療方案和藥物療效評價是符合中醫藥學發展規律的。
1 問題的提出與解決
1.1真實世界臨床研究在中醫領域應用的意義
真實世界研究(real-world study,RWS)是指在較大的樣本量(覆蓋具有代表性的更廣大受試人種)的基礎上,根據患者的實際病情和意愿非隨機選擇治療措施,開展長期評價,并注重有意義的結局指標,以進一步評價干預措施的外部有效性和安全性。本文將拋磚引玉,展示利用ClinReseach系統取得數據后,進行數據統計分析及挖掘所得到了部分成果。作為新興的臨床研究方法,RWS也逐漸受到我國專家學者的重視。真實世界研究在中醫藥領域具有契合點,并且高度符合倫理學要求,主要表現為:
1.1.1真實世界研究設計的核心思想與中醫相契合 真實世界研究設計的核心思想是將所需干預措施還原到最真實的臨床條件中進行實踐,并將研究結果進行人群推廣,由個體推至群體。辨證論治是中醫防病治病的基本方法,中醫通過辨證論治,抓住“證候”這一關鍵環節開展研究,而辨證論治的醫療實踐,與真實世界研究的核心思想相契合,就有可能帶動中醫理論、臨床療效、證候本質研究的進展。2013年,中國中醫科學院劉保延教授提出的“真實世界的中醫臨床研究范式”,以臨床科研一體化為核心,具有以人為中心、以數據為導向、以問題為驅動、醫療實踐與科學計算交替、從臨床中來到臨床中去的鮮明特征。對中醫在真實世界臨床研究具有重要意義。
1.1.2降低了對研究對象的倫理學傷害 倫理學特點應該以患者為中心,強調個體化,可針對兒童、孕婦等特殊人群及合并疾病等不同特征人群進行研究,因是在個體化研究的基礎上進行群體化研究,重視臨床實際效果,外部有效性較好。但是因RWS對目標人群并沒有特殊的或者無效的干預措施,只是對治療過程的觀察和隨訪,所以說其最大限度地降低了對研究對象的倫理學傷害。
因此,真實世界在中醫藥臨床研究中具有重大價值。雖然RWS具有許多優點,但這種開放性的、非隨機的研究方法的應用具有一定的前提和要求,表現為:①建立數據平臺應在規范化、標準化基礎上,實施臨床實際辨證論治數據收集、數據管理以及數據分析。②真實世界研究對于中醫藥科研的應用,仍處于發展階段,其本身的電子智能及技術需不斷完善,應用于實踐的平臺技術需進一步研發和改進,使其具有中醫特色及兼容性,訂制與中醫藥研究特色相關的方法路徑。③研究者建立臨床科研一體化的RWS后可采用現代統計方法以盡可能控制混雜因素的影響等。
1.2 ClinResearch臨床科研信息共享系統
中國中醫科學院的ClinResearch臨床科研信息共享系統和數據挖掘技術正是解決以上問題的利器,它完全滿足真實世界研究的各種前提和要求,它可以使醫療實踐和計算機有機地結合起來,在真實世界中通過海量數據挖掘解決實際問題,可以彌補真實世界研究(real-world study,RSW)未進行隨機、對照、雙盲等研究的不足。endprint
這種研究方式是以電子數據采集(electronic data capture,EDC)為基礎的,EDC是指采用電子形式而非紙質的形式將臨床試驗數據直接傳送至主辦者的數據采集技術。真實、準確、及時、規范的數據采集能夠顯著提高臨床試驗的質量,縮短研究的周期,用傳統的紙質病例報告表(case report form, CRF)來完成數據的采集、整理和管理過程,卻無法保證數據的可靠性和安全性,而且存在著采集周期過長,開銷較大等不足。中國中醫科學院臨床評價中心研制的C1inResearch 就是這種電子數據采集系統,該系統采用電子化病例報告表(electronic case report form,eCRF)代替紙質病例報告表來對臨床試驗數據進行收集,有效的解決了上述傳統模式的不足。我院自2011年前后開始使用該系統,之所以選擇C1inResearch作為我們的數據采集系統,是它具有以下13個主要特點:①遵循全球監管法規的要求,如21 CFR Part 11電子簽名部分;②是一個基于網絡的計算機系統,每個用戶都有自己獨立的賬號和密碼,這些賬號和密碼是廣西區域中心分配給我院使用的,分為管理員和數據錄入員兩個角色。該系統可以使用任何一臺連接互聯網的計算機,目前使用的IE瀏覽器,用戶將在任何一臺上登錄系統,無須安裝客戶端;③系統內置有詳盡的說明書,保證用戶能快速、正確的學習使用該系統,并把常用問題及解決方法羅列出來,以幫助用戶自行解決日常工作中常遇到的問題;④研究機構不需要另行安裝、維護任何軟件,這意味著用戶不用購買任何數據錄入軟件和額外的硬件,而且不用另外配備系統的維護和管理人員;⑤當受試者試驗數據被提交時,系統可以自動對數據進行有效性核查,這意味著用戶在錄入數據時,系統將進行邏輯校驗,對非法數據類型和數值將彈出窗口予以提示,糾正后數據才能有效的進入系統;而且對于每一個數據的錄入、修改和刪除都留有痕跡可供稽查,以保證數據的正確性和安全性;⑥由用戶單位通過網絡用戶接口將所有受試者的訪視數據直接錄入到eCRF,目錄各省區及所有試點單位的數據均放在同一數據庫,這保證全國范圍數據的同質性,同時也實現了臨床試驗的多中心研究性質,以及研究所需要的大樣本;⑦對受試者的eCRF都可以自動在線跟蹤,實時編輯核查,可以跨越不同訪視的多個數據采集點,這意味著上級管理員可及時進行指導,并可根據存在問題迅速反饋并提出整改意見,另外,系統有多個視圖,可根據不同的角色和權限確定數據的使用范圍及深度、廣度;⑧用戶能夠自定義流程,對用戶數據管理的安全等級可以自行配置,即對不同的用戶給予不同層次的權限和角色,以方便管理;⑨當用戶在約定時間不在線時,系統會自動退出,以節約網絡流量和系統資源;⑩可大量節約時間,并縮短研究周期。基于eCRF的數據捕獲通常情況下,基于紙質CRF的臨床試驗數據獲取不僅過程煩瑣而且耗時費力。傳統的數據采集和最后數據的錄入過程也不是同時進行的,研究者需要先將數據抄錄到紙質CRF上,而后再從CRF中錄入到計算機中,這之間往往存在著相當長的時間間隔。而借助于EDC系統,數據的采集和錄入可以同步完成,數據的采集環節即是數據的錄入環節。從而減少了采集的中間環節,大大縮短了數據采集的時間周期,有資料顯示采用EDC,一個臨床試驗周期可以縮短3~4個月的時間;○11實現對受試者數據安全性的保證,更好地保護受試者的隱私、保證受試者的信息安全是EDC的另一項優勢;○12整個ClinReseach系統界面友好,直觀易懂,用戶可在較短的時間快速掌握;○13最重要的是,系統提供方便實用的數據導出功能,雖然提供導出的只是EXCEL電子表格的數據,但在SPSS for windows 和數據挖掘工具SPSS clementine中,EXCEL表格可以很方便地導入這兩個軟件中,錄入的數據馬上就可以進行各種強大的統計分析和數據挖掘,就可實現臨床數據的深度加工和應用,并把隱藏在數據中的中醫證候規律和用藥規則挖掘出來,實現中醫傳統的“只可意會不可言傳”的內在規律顯性化,以數學模型的形式清晰地展示中醫藥工作面前,即隱性規律顯性化。由此實現了EDC和數據挖掘的快速銜接,并可獲得對中醫內在規律的認知。
ClinReseach系統的以上特點實現了建立規范化、標準化的數據平臺的需要,達到實施臨床實際辨證論治數據收集、數據管理以的要求,為在臨床科研信息一體化的技術平臺進行數據分析和挖掘奠定了良好的基礎。此外,ClinReseach本身的電子智能高,并具有中醫特色及兼容性,體現了與中醫藥研究特色相關的方法路徑,如系統里具有中醫脈診、舌診及辯證分型等字段和內容。更為關鍵的是:在ClinReseach系統里,對各種輸入的原始數據進行處理、提取、保存,使處理后的數據形成規范、科學、準確的臨床研究數據,為下一步的統計及挖掘研究做準備,ClinReseach系統在數據錄入時進行各種校驗,可以過濾各種垃圾數據,將原始數據結構化后存入系統。在此基礎上,ClinReseach系統還可以將完整的、規范的數據導出為Excel表數據,提供給SPSS等系統進行統計分析。同樣,數據挖掘工具SPSS Clementine對這些導出數據可采用多因素分析、回歸分析模型等現代統計方法以盡可能控制混雜因素的影響等.應用RWS理念系統,促進中醫藥研究由個體、小樣本、局域的學術思想的升華,深化中醫辨證體系,拓展中醫藥療效評價的內涵和外延。
綜上所述,ClinReseach系統和數據挖掘工具SPSS clementine的聯合使用,為真實世界研究(RSW)提供了完整的解決方案,但到目前為止,真實世界研究(RSW)在中醫藥臨床科研中的應用大多停留在理論研究階段,鮮見取得的實際應用成果[1]。
2 結果
我院是具有開張床位達到1500張以上的大型三級醫院,目前累計收治AIDS病例近二千余,2011年成為廣西中醫藥治療艾滋病的基地醫院,2012年成為國家中醫藥管理局中醫藥冶療艾滋病重點專科協作組成員單位。我們從2011年開始使用中醫藥冶療艾滋病的伊始,就開始使用中國中醫科學院的ClinReseach系統作為電子化病例報告表(electronic case report form,eCRF)工具進行數據采集工作,并利用數據挖掘工具SPSS clementine進行分析,前期已發表相關論文:《中成藥治療AIDS中遠程療效觀察》[2] ,本文臨床觀察部分的資料與方法與文獻[2]基本一致,下面重點介紹電子化數據采集與數據挖掘在真實世界中的具體應用部分。endprint
我們從2011年就開始使用ClinReseach系統進行數據采集工作,歷經六年多時間,目前取得了數據大量的數據,包括患者基礎數據,治療前后的癥狀體征積分及實驗室指標、 WHO-HIV生存質量量表及PRO(患者報告結局)量表等數據表,含有體溫、呼吸、心率、舒張壓(mmHg)、收縮壓(mmHg)、形體、營養、體格檢查及實驗室檢查各種指標及生存質量量表字段、患者報告結局量表字段,舌質、脈象、分期、時期、中醫辨證分型等516個字段(fields),數據記錄(records)過萬條,利用這些寶貴的臨床數據,我們使用SPSS Clementine作為數據挖掘工具,數據挖掘可以建立六種模型:分類(classification),回歸(Regression)、時間序列(Time Series)、聚類(Clustering)、關聯規則(Association)以及順序規則(Sequence)。分類及回歸主要用來作預測,而關聯規則與順序規則主要是用來描述行為,聚類則是二者都用得上。我們取得數據挖掘的成果眾多,下面以回歸分析法為例子進行說明。回歸分析法是定量預測方法之一,它依據事物內部變化的因果關系來預測事物發展的發展趨勢。由于它依據的是事物內部的發展規律,因此這種方法比較精確。在SPSS Clementine 中,我們使用線性回歸節點生成線性回歸模型,該模型根據輸入字段估計預測輸出字段預測輸出字段的最佳線性方程。有時還配合穿插使用SPSS 17.0進行t檢驗及相關分析等。以下是取得的部分研究結果:
2.1 生存分析的相關影響因素
在臨床上,我們一直探索與艾滋病死亡相關的因素,通過對六年以來積累的數據的挖掘,經用T檢驗發現,死亡病例與非死亡的病例的CD4計數存在顯著性差異,這個結果是顯而易見的。但有些結果則“埋得”較深,通過“挖掘”才得以展示,如“死亡病例是與中醫證型也有顯著性差異”就是一個很好的例子。經現代醫學和中醫學兩方面都說明了艾滋病病例的死亡與否與CD4及中醫證型密切相關。也說明了中醫證型對于艾滋病病人的預后也有一定的診斷價值。
另外,通過對客觀指標進行數據挖掘,也發現病例的死亡還與肝功能的實驗室指標(ALT,AST)及血紅蛋白以及卡洛夫斯基評分有關,在死亡組和非死亡組這些數據存在顯著性差異。
2.2中醫證型研究部分
技術方案中的中醫證型及其代碼:1=風熱型;2=風寒型;3=急性感染期其他型;4=氣血兩虧型;5=肝郁氣滯火旺型;6=痰熱內擾型;7=無癥狀期其他型;8=熱毒內蘊,痰熱壅肺型;9=氣陰兩虛,肺陰不足型;10=氣虛血瘀,邪毒蘊結型;11=肝經風火、濕毒蘊結型;12=氣郁痰阻,瘀血內停型;13=脾腎虧虛,濕邪阻滯型;14=元氣虛衰,腎陰虧涸型;15=發病期其他型;
2.2.1中醫證型與CD4的回歸方程 回歸方程模型,F=31.4,P=0,模型具有顯著性意義。回歸方程為:Y=8.583-0.005×X(X為CD4計數,Y為中醫證型的代碼)。如CD=200,則對應的證型為熱毒內蘊,痰熱壅肺型。提示CD4為200系是否進入發病期的門檻,低于200者,多歸入發病期的各種證型,高于200者,多歸入急性感染期與潛伏期的各種證型,且CD4低于200時,CD4計數越低,歸入發病期的證型的編號越大,即越晚期的證型,如編號為13的脾腎虧虛,濕邪阻滯證型,或編號為14的元氣虛衰,腎陰虧涸型。這具有一定的臨床合理性,即CD4的高低與病重嚴重程度的關證型密切相關。
2.2.2中醫證型與裂紋舌的回歸方程 回歸方程模型,F=11.604,P=0.001,具有顯著性意義。回歸方程為:Y=6.769+5.231×X(X為是否為裂紋舌,取值為0和1)。如X=1,即為裂紋舌的情況,其對應的證型代碼為14,相應的證型為元氣虛衰,腎陰虧涸型,而X=0,即不是裂紋舌的情況,其對應的證型代碼為6,對的證型為痰熱內擾型。故從數據的角度提示裂紋舌具有重要的診斷價值,它能反映病情的進退。
2.2.3中醫證型與癥狀總積分的回歸方程 回歸方程模型,F=12.64,P=0.001,具有顯著性意義。回歸方程為:Y=6.062+0.1×X(X為癥狀總積分)。如果癥狀總積分為0分,即無癥狀,所對應的證型的代碼為您,即痰熱內擾型,如癥狀總積分為10分,那么所對應的證型為無癥狀期其他型,此回歸方程具有一定的參價值,說明了癥狀總積分與證型的相關性,癥狀越多,越嚴重,其所對應的證型的代碼越大,代表的證型越偏后,越嚴重。
2.2.4中醫證型與癥狀總積分的回歸方程 回歸方程模型,F=12.64,P=0.001,具有顯著性意義。回歸方程為:Y=6.062+0.1×X(X為癥狀總積分)。如果癥狀總積分為0分,即無癥狀,所對應的證型的代碼為6,即痰熱內擾型,如癥狀總積分為10分,那么所對應的證型為無癥狀期其他型,此回歸方程具有一定的參價值,說明了癥狀總積分與證型的相關性,癥狀越多,越嚴重,其所對應的證型的代碼越大,代表的證型越偏后,越嚴重。
2.2.5中醫證型與癥狀總積分的回歸方程 回歸方程模型,F=30858,P=0.002,具有顯著性意義。回歸方程為:Y=12.765+0.062×X1-0.122×X2(X1為經常性感受,X2為日常生活)。
3 結論
通過以上的展示,我們可以知道eCRF及數據挖掘技術的聯合應用,我們取得了大量的臨床數據,不僅觀察到了中醫藥治療AIDS中遠程療效[2-3],還發現了前人未及的一些數據挖掘的成果,這對深入闡述艾滋病的證候本質研究,提供新的思路和方法,更說明了eCRF及數據挖掘技術的聯合應用在真實世界研究的可行性以及實施的具體方法路徑。
4 討論
有關數據挖掘技術在艾滋病診治中的應用研究的報道特別少,甚至數年未見一篇報道,而有關電子化病例報告表等數字化數據采集技術更是難得一見,就筆者所見,也只有余海濱《基于臨床科研信息共享系統開展中醫臨床研究的探索》[3-8],并且此文并不針對艾滋病研究的,而同時聯合采用電子化病例報告表(eCRF)及數據挖掘技術的研究,國內外更是未見報道,目前對于真實世界的研究,還缺乏有效的方法和工具[1]。實際上,筆者采用此項技術對中醫藥治療AIDS中遠程療效進行分析從2011年就開始了,到目前已有六年多的歷史,其中的關鍵技術之一就是中國中醫科學院的ClinResearch臨床科研信息共享系統,它能使醫療實踐和計算機結合起來,在真實世界中通過海量數據挖掘解決實際問題,可以彌補真實世界研究(real-world study,RSW)未進行隨機、對照、雙盲等研究的不足。盡管數據挖掘技術更為眾人所熟悉,并且更為關注,但電子化病例報告表(eCRF)等數字化數據采集技術更為基礎,更為重要,我們的使用體會是數據采集技術幾乎要天天使用,每天使用半小時到幾小時不等,而取得大量數據以后,使用數據挖掘軟件進行分析的時間往往是少數的一次或幾次,并且對于熟悉的使用都而言,幾分鐘就可以取得了一個線性回歸的結果,也就是說,ClinResearch軟件幾乎天天見,而SPSS Clementine軟件基本上使用一次就可以了,取得所有的回歸分析等結果,基本上不超過1 h。
綜上所述,通過應用臨床科研信息共享系統,結合艾滋病的臨床研究主題,以臨床醫療數據流的結構化采集[以電子化病例報告表(electronic case report form,eCRF)]為核心,以數據質量管理體系建設和術語的規范化研究為前提,利用現代信息技術,全而采集臨床診療信息,實現以患者為中心的所有臨床信息的縱向和橫向整合,形成了“以數據為導向”的真實世界中醫臨床科研新模式。再進一步利用多種數據挖掘工具(如SPSS Clementine及各種統計分析的配合使用)開展中醫證候分布規律和辨證用藥規律的深入研究,這將為中醫臨床研究提供新思路和新技術,促進中醫學術思想的升華和創新,推動發掘新的疾病證治規律和中醫證候的內涵和外延。
參考文獻:
[1]韓瑞婷,李寧,王宗耀,等.中醫藥研究在真實世界研究現狀[J].中國中醫藥現代遠程教育,2017,15(6):33-35.
[2]賴昌生,李全慶.中成藥治療AIDS中遠程療效觀察[J].醫學信息,2017,30(14):118-119.
[3]陳婕卿,陳卉.數據挖掘在艾滋病臨床診療中的應用[J].中國醫療設備,2016,31(08):68-70.
[4]燕紀法,呂相征,梁明修,等.2008-2014年中國流動人口艾滋病防治文獻計量學分析[J].中國艾滋病性病,2016,22(4):248-252.
[5]燕紀法,呂相征,梁明修,等.2008-2014年中國男男性行為人群艾滋病防治文獻計量學分析[J].預防醫學情報雜志,2016,32(3):293-301.
[6]時松和,施學忠,楊永利,等.基于數據挖掘的艾滋病綜合防治居民健康檔案管理信息系統設計與實現[J].現代預防醫學,2013,40(16):2953-2957.
[7]韓建超,徐艷,賀一,等.數據挖掘在艾滋病病人CDR T淋巴細胞與機會性感染關系的應用研究[J].中國艾滋病性病,2012,18(9):584-586.
[8]余海濱,符宇,李卓.基于臨床科研信息共享系統開展中醫臨床研究的探索[J].中醫雜志,2013,54(24):2092-2094,2109.
編輯/成森endprint