周佳靜,賈英杰,張 利,孫 敏
(1.天津中醫藥大學第一附屬醫院 , 天津 西青 300193 ; 2.國家中醫針灸臨床醫學研究中心 , 天津 西青 300381 ;3.煙臺市中醫醫院腫瘤科,山東 煙臺 264000 ; 4山東中醫藥大學 , 山東 濟南 250011)
據世界衛生組織最新統計,在調查的183個國家里,有112個國家中癌癥是導致死亡的第一或第二病因;另有23個國家中癌癥是導致死亡的第三或第四原因,惡性腫瘤已成為全球主要致死原因之一[1]。在我國,癌癥死因在全部死因中的構成比也已上升到除心血管疾病外的第二大非傳染性致死原因。國家癌癥中心發布的最新一期的全國癌癥統計數據顯示,2015年全國惡性腫瘤發病約392.9萬人,較2014年的380.4萬增加12.5萬,增長率為3.2%;這意味著,平均每天超過1萬人被確診為癌癥,每分鐘有7.5人被確診為癌癥[2]。伴隨發病人數的持續增加,我國每年癌癥所致的醫療花費超過2 200億元[3],給國家和個人均造成巨大經濟負擔。癌癥為世界難題,多數發現時已為中晚期,除早期腫瘤的根治術外,缺少有效治愈方法?,F代醫學治療手段如手術、放化療、靶向治療等費用高,不良反應多,且惡性腫瘤復發轉移率高,中醫藥治療惡性腫瘤有其獨到的優勢,除了具有抗腫瘤、預防復發轉移等作用外,還具有價格低廉、副作用少等優點。中醫學發展至今有幾千年的歷史,歷代醫家包括當代名中醫的臨證經驗、用藥體會等匯聚成了浩瀚瑰麗的醫學寶庫,但因醫者診病無暇自行總結;或弟子總結但因人力、精力及方法受限,無法將繁多復雜的醫案有效歸納分析;或者因醫者主觀直覺、個人體會等生成的隱性知識很難通過語言或文字表達出來,種種原因導致龐大的醫學寶庫得不到很好的發掘,數據挖掘技術應運而生。越來越多的研究者開始嘗試應用數據挖掘法從人、動物等各個維度輔助探索中醫藥在惡性腫瘤中的應用,以期有效、便捷、客觀地分析總結及驗證人與動物醫學的腫瘤診療經驗。綜述如下。
1.1 中醫腫瘤研究常用的數據挖掘軟件 數據挖掘被應用于醫學研究中已有十余載。數據挖掘是從有噪音的、不完全的、模糊的、隨機的數據中提煉有效的、潛在的、有用的知識?,F階段應用于中醫研究的主要的數據挖掘軟件有中醫傳承輔助平臺(TCMISS)[4]、古今醫案云平臺[5]、中醫臨床多維關系查詢系統[6]、中醫藥數據關聯分析平臺[7]、Weka、IBM Intelligent Miner[8]、SPSS Clementine[9]以及醫院自行創立的挖掘軟件,如山西省中醫院的王晞星臨證經驗數據挖掘平臺[10],北京多家醫院聯合創立的北京名老中醫臨床科研信息共享系統數據分析挖掘平臺等[11]。
1.2 數據挖掘法探究中醫診治腫瘤經驗的常有步驟 應用數據挖掘法進行惡性腫瘤相關研究的常有步驟:確定研究課題及題目、數據搜集、數據清洗、數據預處理、數據挖掘、結果分析討論和結果運用[12]。研究題目一般包含研究目的及應用軟件。數據搜集的范圍可為某個醫家某個時間段的臨證方藥[13],可為某個時間段的相關文獻研究[14],也可以是某個地區相關時間段內的病案等[15]。數據搜集盡可能保質保量,搜集結束后要對大量數據進行必要的清洗,以進一步保證數據的可用性。數據預處理即數據的標準化、規范化,參考標準一般為《中華人民共和國藥典》《現代腫瘤學》和《中藥大辭典》等。需要注意的是,此類標準一定要參考最新版本。
1.3 中醫腫瘤研究常用的數據挖掘方法 綜合現階段基于數據挖掘法進行惡性腫瘤研究的相關文獻,常用的數據挖掘方法有頻數統計、關聯規則、聚類分析等。頻數又稱“次數”,指目標變量出現的次數,其與所有變量出現次數的和的比值為目標變量出現的頻率。頻數統計為常用的方法,一般不單獨使用,常作為數據挖掘過程的第一步,為關聯規則、聚類分析等其他方法的進行作鋪墊。關聯規則分析法用于分析多個變量之間存在的規律關系,在惡性腫瘤研究中常表現為兩藥之間的聯系。關聯規則的使用需設置一定的支持度與置信度作為前提條件,支持度表示X與Y均存在的事物,是關聯規則的頻度,代表兩件事務的普遍性。置信度指以X存在的前提條件下Y存在的概率,是關聯規則的強度,代表兩件事務的依賴性。使用關聯規則分析法時,要根據具體分析目標及數據庫的大小設置恰當的支持度和置信度[16]。聚類分析,顧名思義,即將數據根據不同屬性歸為多個類別,該分析方法常應用在統計惡性腫瘤用藥規律時分析藥物類別以及分析患者癥狀分類等。
數據挖掘在中醫治療惡性腫瘤中的應用領域頗多,根據數據挖掘法研究的對象和目的,將其分為以下幾類。
2.1 應用數據挖掘法研究癌前病變的中醫診療 癌前病變是癌癥前狀態,其病變具有可逆性,及時發現并干預可阻止其發生癌變,故研究癌前病變與研究惡性腫瘤本身同樣重要。陳澤慧[16]基于數據挖掘法研究胃炎與胃癌規律及經驗總結時,收集北京中醫藥大學東方醫院及第三附屬醫院2017年9月—2019年10月門診及消化內鏡中心所有慢性萎縮性胃炎患者病例,數據處理后應用Microsoft Excel與SPSS等軟件,在頻數統計、關聯規則等方法下,得出氣虛、血瘀、濕濁是慢性萎縮性胃炎的3個重要證候要素。張擎[17]基于挖掘軟件Medcase V3.2研究王旭教授治療甲狀腺結節用藥規律時,運用頻數統計方法得出王旭教授最常用的一味藥是浙貝母,其次為桔梗。
2.2 應用數據挖掘法研究癌癥術后的中醫治療 手術是治療大多數早期惡性腫瘤的首選方式之一,但手術對機體的損傷、術后并發癥的發生以及術后復發轉移等一直是現代醫學治療的難點。中醫藥治療在這些方面有著獨到的優勢,數據挖掘法有助于腫瘤術后的中醫藥治療的總結、研究及應用。謝侑玲[18]基于TCMISS(V2.5)與SPSS 26.0軟件探究魏子孝教授治療甲狀腺癌術后的用藥規律時,將整理好的數據導入軟件中,分析得到甲狀腺癌術后用藥以清熱解毒散結、疏肝理氣養血為核心。張昳[19]將朱佳教授門診診治的肺癌術后患者的信息進行整理,并錄入朱佳教授臨證資料管理系統中,運用聚類分析、關聯規則和頻數分析等方法,分析出其常用的治則治法是化痰、益氣、養陰、補肺、理氣、健脾;常用藥物有甘草、女貞子、枳殼、陳皮、白花蛇舌草、生黃芪、神曲、桔梗、山楂、雞血藤等;總結朱佳教授治療肺癌術后患者以扶正補虛為先,祛邪為輔。
2.3 應用數據挖掘法研究放化療后的中醫治療 放化療也是惡性腫瘤患者常選用的治療方式,但在其殺滅癌癥細胞的同時,也會損傷正常組織,導致不可避免的副反應。放療患者可出現放射性肺炎、放療部位皮炎等,化療患者常會伴隨骨髓抑制、消化道反應、肝臟損傷、腎臟損傷、心臟損傷等不良反應,這些副反應均可成為癌癥患者治療過程的絆腳石,影響患者生活質量,故放化療后患者的中醫治療的研究舉足輕重。祝微等[20]在探究中醫藥防治放化療后骨髓抑制用藥規律時,搜集中國知網(CNKI)近30年相關文獻,將整理后得到的數據錄入古今醫案云平臺,在Microsoft Excel軟件的協助下,分析得出各大醫家方藥中的高頻藥對為“當歸—黃芪”,其次為“黃芪—白術”。陳婷等[21]通過查閱CNKI、VIP、萬方數據庫,整理得出治療鼻咽癌放療后口干的中藥方劑58個,并運用中醫傳承輔助平臺進行分析,得出鼻咽癌放療后常用治法為滋陰清熱法,用藥多歸肺胃二經,藥性以苦寒居多,麥冬、生地為最常使用的藥物;證型以陰虛內熱證、氣陰兩虛證、肺燥津傷證、痰瘀熱結證為多見。
2.4 應用數據挖掘法研究惡性腫瘤相關的古代經方、驗方 我國醫學發展至今具有上下五千年的歷史,其經驗不斷的經過實踐驗證,形成很多有效的經方、驗方。將古代醫學與現代技術相結合,應用現代技術對其進行數據挖掘,使其經驗可視化,可以使醫者更方便的學習和引用。齊卓操等[22]基于Microsoft Excel和IBM SPSS Modeler軟件總結治療消化系統腫瘤的用藥規律,將《腫瘤良方大全》中相關方藥錄入軟件系統,分析得出益氣活血大法對于治療消化系統惡性腫瘤有重要意義。李彬彬等[23]搜集VIP、CNKI、萬方數據庫關于歷代名老中醫治療胃癌的方藥,將其錄入古今醫案云平臺并分析,得出名老中醫治療血瘀證胃癌的核心組方為莪術、石見穿、三棱、延胡索、桃仁、丹參、當歸、紅花。
2.5 應用數據挖掘法總結某區域中醫診治惡性腫瘤的規律 應用數據挖掘法還可總結某個醫院治療惡性腫瘤的經驗,以指導醫院在相關病種領域更好的發展。程建超等[24]基于SPSS 24.0、SPSS Clementine Cliene 11.1軟件挖掘分析安徽中醫藥大學第一附屬醫院肺病科肺癌住院患者病例,提煉出該醫院治療肺癌的核心組方為半枝蓮、白術、炙甘草、浙貝母、黃精、苦杏仁、薏苡仁、陳皮、茯苓、白花蛇舌草,并通過聚類分析得出常用藥對為半枝蓮—白花蛇舌草等。姜建東[25]借助數據挖掘法探索江蘇省中醫院治療宮頸癌的用藥經驗,將院內腫瘤科及婦科門診一定時間段內符合納入標準的病案數據,經Excel整理后導入Medcase V3.2軟件中,應用頻數統計法得出該院治療宮頸癌最常使用的藥物是白花蛇舌草,其次為白術。
2.6 應用數據挖掘法探究惡性腫瘤證候類型 我國醫學講究治病求本、同病異治、異病同治,不同患者可見不同的證候分型。應用數據挖掘法基于一定的病案數據庫,分析惡性腫瘤常見證型,可更好的指導臨床診斷及辨證施治。賀佐梅等[26]將7 435份符合條件的非小細胞肺癌病案信息錄入Weka 3.6軟件中,應用Apriori算法,分析得出5個常見證候群,分別為氣虛證、陰虛證、血瘀證、熱毒證、痰濕證。張賓等[27]借助SPSS 22.0、R 3.2.5軟件,在 Excel 2010的輔助下,研究周仲瑛教授門診肝癌患者,分析總結出肝癌常見的7個證型,分別為肝脾兩傷證、肝胃失和證、肝郁脾虛證、肝腎陰虛證、絡熱血溢證、氣陰兩虛證、瘀毒未盡證。
2.7 總結名老中醫治療惡性腫瘤的學術思想及臨床經驗 名老中醫是我國醫學發展的先鋒,其學術思想和臨床經驗是中醫藥文化的代表,應用數據挖掘法總結分析名老中醫的學術思想和臨床經驗,可促進中醫藥事業的傳承和發展。張燕娜等[28]基于Microsoft Office Excel和IBM SPSS Modeler軟件,應用Apriori算法,得出王沛教授治療胰腺癌善用生半夏。張曦文等[6]基于中醫臨床多維關系查詢系統探究樸炳奎教授治療肺癌的用藥規律,得到咳嗽咳痰無尺度網絡和點式互信息(PMI)分析圖,提煉出治療肺癌咳嗽咳痰核心組方為茯苓、杏仁、薏苡仁、桔梗、半夏、瓜蔞、甘草、陳皮。劉明明等[29]研究熊墨年教授中醫藥治療乳腺癌用藥經驗時,將整理好的數據導入TCMISS(V2.5)中,基于頻數統計,將結果可視化后,得到卵巢癌處方中藥物四氣分布情況與卵巢癌處方中藥物五味分布情況,分析得出熊墨年教授治療乳腺癌時最常用的是溫藥、寒藥、平藥,其次為涼藥與熱藥,最常選用的藥味是甘味、苦味、辛味,其次為酸味、咸味。
2.8 應用數據挖掘法進行惡性腫瘤治療的療效評價 療效評價可以直接反應治療手段是否恰當,數據挖掘法可應用于藥物的療效評價。楊京京等[30]對吳良村教授治療肺癌氣虛證的用藥療效評價時,將收集到的符合要求的患者癥狀等資料納入原始數據庫,經過清洗后將其錄入Excel軟件,通過給患者治療前后氣虛證候臨床表現打分,分析比較得出氣虛癥狀常見癥狀是乏力、食欲不振、氣短等,經過吳良村教授治療后均得到改善。姜菊玲[31]在一項多中心、回顧性臨床研究中收錄中晚期胰腺癌患者,將病例報告表中的內容匯總入EpiData數據庫,分為西醫治療組和中西醫聯合治療組,運用IBM SPSS Statistics 26.0和SAS 9.4軟件進行分析得出,與西醫治療組相比,中西醫聯合治療組可延長晚期胰腺癌患者總生存期,使腫瘤標志物CA50降低,失眠、神疲乏力、疼痛、惡心嘔吐癥狀也得到改善。
2.9 數據挖掘法在動物醫學中的應用
2.9.1 應用數據挖掘法分析惡性腫瘤動物模型 數據挖掘法得出的核心處方、藥對、新處方等需要進一步臨床及基礎試驗進行療效驗證,但由于臨床人體試驗的局限性,減緩了新藥研發和臨床成果轉化的進程。惡性腫瘤動物模型的復制和建立,為腫瘤的中醫藥研究提供了新思路。韓艷珍等[32]對近20年國內外宮頸癌動物模型文獻篩選,運用數據挖掘法對納入的286篇試驗研究性文章進行分析,得出BALB/c裸鼠為宮頸癌模型復制最常使用的實驗動物;皮下接種U14鼠源癌細胞為使用最多的造模方法,接種部位多為背部皮下,成模周期多數為7 d;檢測最多的指標依次為腫瘤組織表觀指標、抑瘤率、腫瘤組織病理、腫瘤組織免疫組化、動物整體表觀指標、血清中相關生化指標等。雷會霞等[33]檢索到肝癌鼠模型的近3年中英文文獻986篇,經過數據清洗后,在Excel表中錄入動物類型、造模方法、陽性藥、檢測指標、觀察指標等,對其進行數據挖掘、統計分析,得出肝癌大鼠造模常應用藥物誘導法和原位移植法,肝癌小鼠造模以皮下移植法最多;陽性藥多選擇環磷酰胺,其次為氟尿嘧啶、順鉑;給藥方式主要為灌胃,周期多為14 d;不同肝癌鼠模型的檢測指標有所不同,統計頻次較高的檢測指標有TNF-α、IFN-γ、VEGF、AST、ALT、Caspase-3、IL-2等;模型組大小鼠肝、脾臟器指數多升高,胸腺臟器指數降低;此外,探討了不同造模法的優缺點及注意事項,指出在現代中藥藥效學研究中,建立更加符合人醫臨床中醫理論“病證結合”的肝癌動物模型是后續模型研究的目標。
2.9.2 數據挖掘法在寵物腫瘤臨床中的應用 數據挖掘法在獸醫學中的應用目前主要聚焦于流行病學調查。缐鎧瑞[34]采用數據挖掘法收集2018—2020年沈陽市不同區5家寵物醫院收治的腫瘤患犬病例1 225例,選取治療資料完善的196例,統計分析得出發病部位主要集中于乳腺、皮膚及肛周;乳腺腫瘤高發于京巴犬和西施犬,皮膚腫瘤高發于金毛巡回獵犬;腫瘤高發年齡為7~15歲,呈現一定的高齡多發趨勢;飲食習慣的復雜化是導致犬腫瘤疾病高發的重要因素。李永岐[35]收集2015年5月—2018年7月東北農業大學附屬動物醫院和哈爾濱市部分動物醫院患乳腺腫瘤且通過手術摘除腫瘤組織的犬病例136例,通過Excel和SPSS 17.0軟件分析統計錄入數據,得出易患品種為混血犬和貴賓犬,后腹對乳區和腹股溝對乳區發生乳腺腫瘤的概率大于其他乳區,且左側乳區大于右側乳區;H.E.染色病理學結果顯示:惡性乳腺腫瘤占45.59%,包括浸潤性導管癌41例、導管內乳頭狀癌6例、乳腺鱗狀細胞癌5例、微乳頭狀癌3例、導管原位癌3例和其他惡性乳腺腫瘤4例;免疫組織化學結果顯示:E-cadherin蛋白在犬乳腺惡性腫瘤組織中的表達顯著降低,cadherin、EZH2、Vimentin蛋白在犬乳腺惡性腫瘤組織中呈高表達。
3.1 必須基于真實世界 應用數據挖掘法時,被挖掘的數據庫要有100%的真實性,不可脫離真實世界,不能對原始數據進行造假或者偽造,以確保研究結果的質量和可用性。
3.2 不可拘于數據挖掘 數據挖掘只可作為臨床研究的輔助軟件,不可完全依賴。例如張亞玲等[36]基于IBM SPSS Statistics 21.0挖掘軟件,在Microsoft Office Excel 2007的協助下,分析鄭玉玲教授治療食管癌的用藥經驗,通過頻數分析,得出鄭玉玲教授最常用的一味藥為甘草。但眾所周知,甘草只是大多數醫家善于用來調和諸藥的一味藥,所以應用數據挖掘時要結合具體實際。
3.3 原始數據須清洗與預處理 由于收集數據是一項漫長且繁瑣的工作,在收集過程中無法明確收集到的數據是否完全可用,故在原始數據的基礎上,有必要基于入選標準、排除標準、剔除標準對數據進行再次確認。另外,中醫藥歷經上下五千年,會出現一藥多名、同名異方等情況,所以為了方便統計,一定要對原始數據進行校正。
3.4 數據挖掘軟件可聯合使用 中醫傳承輔助平臺(V2.5)將整理好的數據庫導入即可,操作簡單,其升級版中醫傳承輔助平臺(V3.0)同樣操作簡易,但價格較貴;古今云醫案平臺數據庫資源豐富,但部分功能仍在更新中,需切換不同端口進行研究[37];SPSS系列軟件目前使用比較廣泛,但需要具備一定的統計與建模能力,常需配合Microsoft Office Excel使用;R語言可視化比較強,但需要有R語言知識的前期基礎[38]。可見,現有的數據軟件各有千秋,要結合各軟件的優勢,取長補短、綜合使用,才能促使數據挖掘研究更好的完成。
綜上所述,目前數據挖掘法在惡性腫瘤的中醫藥診療領域的應用比較廣泛,覆蓋了不同時代、區域、病種、分期、聯合治療手段、動物模型、寵物腫瘤臨床等多領域的研究,研究內容包括一般信息、常見癥狀體征、辨證分型、用藥規律、性味歸經、核心處方、動物造模方法、造模周期、受試藥、檢測指標、腫瘤好發部位、好發年齡、病理類型等多方面。合理使用數據挖掘法可以使海量的有效醫案得到整理分析,使名師經驗得到總結與傳承,優化中醫藥研究中的動物模型,完善寵物腫瘤的防治策略,提高惡性腫瘤中醫藥研究的效率,但最終人為的總結與校驗也是必不可少的。
中醫藥現代化研究進程的加快和國家對人工智能在醫療行業應用的大力支持,使得數據挖掘法成為近幾年中醫藥研究的熱門方法之一。但作為中醫藥研究領域的新興技術和方法,數據挖掘法仍存在不足和需要完善的方面。首先,目前的數據挖掘法基本還是沿用了西醫的思維方法,弱化了中醫理論的指導作用和辨證論治的核心思想,分析得出的結果相對表面化,如何結合中醫理論深入分析、緊抓辨證論治的思想內核,是亟待解決的問題之一。其次,現有應用于中醫藥研究的數據挖掘方法還存在缺陷,例如不能滿足中醫癥—證—治則—方藥的復雜、多維關系的分析。由于同時具有中醫藥知識和數據挖掘技術的交叉學科人才缺乏,數據挖掘技術和軟件的研發完善存在困難。再次,數據挖掘法分析得出的核心處方、藥對、新處方等需進一步進行基礎和臨床試驗研究來驗證療效,臨床成果轉化還有很長的路要走。最后,數據挖掘法在動物領域的應用還不夠廣泛,但隨著國家對中醫藥的支持,中獸醫學的發展,醫案的不斷積累,數據挖掘技術在動物醫學領域的應用前景可期。