張志華,姜 淼,鄭 光、3,呂 誠,郭洪濤,呂愛平△
(1.鄭州市中醫院腫瘤血液科,鄭州 450007;2.中國中醫科學院中醫臨床基礎醫學研究所,北京 100700;3.蘭州大學信息學院,蘭州 730000)
再生障礙性貧血(aplastic anemia,AA,以下簡稱“再障”)是血液系統中較為常見的難治性疾病,病因尚不明確,主要以骨髓造血功能衰竭、外周血全血細胞減少為特征,屬中醫學“血證”、“血虛”、“虛勞”范疇。中醫藥配合西藥治療再障為臨床常用方案,中西醫治療再障的文獻在醫學文獻數據庫中已經大量存在。本文利用課題組逐漸成熟的文本挖掘技術[1],探索再生障礙性貧血證藥相應規律。
在中國生物醫學文獻數據庫(Chinese Bio Medical Literature Database,CBM,http:∥sinomed.cintcm.ac.cn/index.jsp)中以“缺省[智能]:”狀態下檢索“再生障礙性貧血”,共得到文獻6715篇(2011年12月19日檢索),依次下載所有文獻并保存。
將收集來的數據,按照下載的先后順序整合到一個平面文件(后綴txt)中,以ANSI編碼格式保存。然后,利用專有的文本提取工具(軟件著作權,軟著登字第0261882號,登記號2010SR073409),對下載的非結構化txt文本數據進行信息提取,保存成格式化的、便于大型關系型數據庫(Microsoft SQL Server,以下簡稱SQL)處理的格式,然后導入SQL中進行下一步的挖掘分析。假設每篇文獻的貢獻度是相同的,1篇文獻中重復出現的關鍵詞只需要計算1次,據此構建基于敏感關鍵詞頻數統計的數據分層算法進行數據清洗工作[1]。清洗完畢后的數據,既可以提取挖掘對象的一維頻次,也可以得到挖掘對象的二維關系,并進行可視化呈現。抽出不同頻次的關鍵詞對,用Cytoscape 2.8免費軟件(http://www.cytoscape.org/)進行可視化處理,形成可視化的網絡圖,然后結合專業知識進行解析。一旦發現不合理的結果,即回溯原文獻數據集,如果是噪音,仍按算法進行噪音清洗,直至噪音降到滿意為止。最后的結果可視化成圖,結合專業知識進行解析。
文本挖掘共提取到45個證型,選擇前15個列出(括號內為文獻篇數,以下同):腎陽虛(77)、腎陰虛(67)、脾腎陽虛(22)、陰陽兩虛(22)、腎陰陽兩虛(15)、肝腎陰虛(12)、肝血虛(7)、肝血虛證(7)、血虛證(7)、腎陽虛證(6)、氣血兩虛(6)、陽虛證(6)、陰虛證(5)、脾腎虧虛(4)、腎陰虛證(4)。由于構建詞表及挖掘詞的包含關系,出現以上結果重復的現象,挖掘詞越短,挖掘到的頻次越高。結果基本反映了再障證候的特征,腎陽虛、腎陰虛最多,其次為肝陰虛、肝血虛。
進而構建再障證候兩兩之間網絡關系圖(圖1):圖中圓圈內為證型名稱,連線代表證候兩兩之間的聯系。證候的連線愈多,代表該證型與疾病的關聯程度越高,越處于核心的位置;圓圈越大,代表該證型在文獻中出現的頻次越高,其權重越大。

圖1 再生障礙性貧血中醫證候網絡圖
文本挖掘共提取到84項證候組合,圖1為所有證候參與構建的網絡圖。圖1顯示,腎陰虛、腎陽虛、陰陽兩虛的圓圈最大,其相應的文獻頻次最高。其中腎陽虛-腎陰虛的頻次為61。左側橢圓外側為陽虛證候,包括腎陽虛、脾腎陽虛及重復的證候;右側橢圓為陰虛證候,包括腎陰虛、肝腎陰虛、心腎陰虛及重復的證候。兩個橢圓交匯于陰陽兩虛等證候。綜合來看,再障主要與虛證相關,涉及陰、陽;相關臟腑以腎為主,涉及心、脾、肝。
文本挖掘再障得到的癥狀,既包含西醫臨床,也包含中醫臨床報告的癥狀。結果共提取到癥狀92項,選擇前15項列出:發熱(152)、乏力(77)、功能障礙(33)、頭暈(30)、惡心(29)、嘔吐(24)、皰疹(24)、畸形(22)、潰瘍(21)、瘀斑(21)、面色蒼白(20)、納差(17)、頭痛(16)、壓痛(16)、咳嗽(15)?;厮菰墨I,發現其中“功能障礙”為凝血或造血功能障礙;“皰疹”為皰疹病毒,與發病原因相關;“畸形”大多與先天遺傳相關性軀體畸形有關;“潰瘍”多與口腔、消化道潰瘍相關;“壓痛”多與胸骨壓痛的陽性或陰性相關,是一項診斷性指標。分析以上癥狀可知,再障是一種以發熱、乏力等消耗性癥狀為主的疾病。
進一步文本挖掘共提取到603項癥狀組合,構建癥狀網絡圖如下。
圖2顯示,發熱、乏力、頭暈(頭昏、頭痛)等為頻次較高的癥狀。其他主要涉及惡心、嘔吐、納差、腹脹、腹痛等消化系統癥狀(橢圓內),回溯原文獻,發現消化系統癥狀多為治療再障的副反應或者無此癥狀,因此該系統的癥狀大部分應視為噪音;循環系統(左上方框內)多出現心慌、心悸、胸悶等供血不足的癥狀;出血癥狀(右中方框內)以瘀斑、咯血、鼻衄、潰瘍等為主;關節癥狀(左下方框內)以關節的腫、痛為主,如果出現“(胸骨)壓痛”與本病相關性大;呼吸系統(右上方框內)以咽痛為常見癥狀,回溯原文獻發現咳嗽、咳痰等為少見癥狀;中醫望診、舌診(右下方框內)主要表現為面白、顏面(或下肢)浮腫、舌淡、苔膩等。

圖2 再生障礙性貧血癥狀網絡圖
綜上,再障發病過程中發熱、乏力、頭暈為核心癥狀,瘀斑、鼻衄出血、面色蒼白、關節疼痛等為常見癥狀。

圖3 再生障礙性貧血中藥網絡圖
文本挖掘共提取到相關中藥名稱102個,選擇前15個排序:皂礬(41)、黃芪(36)、當歸(29)、人參(23)、生地黃(23)、熟地黃(16)、阿膠(15)、雷公藤(12)、雞血藤(9)、川芎(9)、菟絲子(9)、薏苡仁(8)、枸杞子(8)、白術(7)、補骨脂(7)。其中皂礬、雷公藤為異常項,回溯原文獻發現,“皂礬”大多為中成藥復方皂礬丸,很少作為中藥飲片使用;“雷公藤”大多為中成藥雷公藤多苷(甙)片,其應用既有治療再障的文獻報道,又有導致再障的案例報告,因此雷公藤制劑是把雙刃劍,在使用時應謹慎。通過降噪,再障中藥以黃芪、當歸、人參、生(熟)地黃、阿膠、雞血藤等為核心藥物,這些藥物以補氣補血益腎為主。
文本挖掘共提取到中藥組合591項,構建中藥網絡圖如下。圖3顯示,黃芪、當歸、生(熟)地黃頻次最高,為治療再障的核心藥物,其他阿膠、白術、枸杞子、菟絲子、女貞子、茯苓次之。挖掘到的藥物按功能區分:(1)血分藥:補血活血藥(左上橢圓)最多,補血藥以當歸、熟地黃、阿膠為核心,活血藥以雞血藤、桃仁、紅花為核心;止血藥(左下橢圓)以仙鶴草、三七、茜草、白茅根、側柏葉常用;清熱涼血藥(右中橢圓)以生地黃、玄參為常見;(2)補氣藥(下中方框):黃芪、白術、黨參、太子參為核心,茯苓健脾;(3)補陽藥(右上方框):以菟絲子、補骨脂、鹿角膠為核心;(4)補陰藥:以枸杞子、女貞子、墨旱蓮、黃精為核心。歸納以上用藥,再障的中藥治療以補血補氣為主,補陰補陽為輔,總之以補虛為再障治療的主線。
文本挖掘(Text Mining)技術是以統計數理分析、計算語言學為理論基礎,服務于醫藥、生物、文獻研究等學科的新興交叉學科[2]。應用于中醫藥領域,文本挖掘能從海量的中醫藥文獻中發現知識,以促進中醫臨床研究和中藥復方研發等多個方面。根據中醫理論或專業知識,計算機挖掘中醫藥文獻庫與生物醫學信息庫的非關聯知識為中西醫結合研究提供了新的思路和途徑,其結果更加客觀、可重復性強[3]。
本研究針對從CBM收集到相關再障的6715篇文獻,采用課題組逐漸成熟的文本挖掘技術[1],結合回溯原文獻,人工閱讀降噪,對再障從證候、癥狀、中藥規律方面進行挖掘,挖掘的結果既看到它們在文獻中的頻次,又可以發現它們各自在關聯網絡中的分布規律。從挖掘的結果來看,再障是一種主要與虛證相關,涉及陰、陽,相關臟腑以腎為主,涉及心、脾、肝為主的疾病;其發病過程中,發熱、乏力、頭暈為核心癥狀,常見瘀斑、鼻衄出血、面白、關節疼痛或浮腫等癥狀;其中藥治療以補虛為核心,包括補血補氣為主,補陰補陽為輔。證候-癥狀-中藥3個方面互相呼應和印證,基本反映了再障這種疾病的證藥相應規律。
文本挖掘的結果全部參與網絡關系圖的構建,更加全面地反映了臨床研究的現狀?;厮菰墨I和人工閱讀評價,使得結果更加客觀。如圖3左下角的金銀花、黃柏、艾葉、苦參、花椒形成1個小的子網絡,回溯再障數據集發現,該文獻是研究者對白血病及再生障礙性貧血伴發肛周感染患者在全身治療的同時,應用該方熏洗肛門局部,治療痔、慢性肛裂、肛周膿腫等感染[4]。一維頻次和二維網絡圖,從不同角度顯示挖掘對象在文獻數據集中的分布,均有不同的意義。如中藥結果中,一維頻次中皂礬最高,文獻溯源發現其大多為復方皂礬丸;而在二維網絡中就很低,這是因為皂礬很少參與二維網絡圖的構建。因此,通過這種優化的文本挖掘組合,能夠比較客觀地總結中醫病、證、藥的規律,也為中醫客觀化以及中醫臨床提供有益的參考。
[1]G Zheng,M Jiang,X He,et al.Discrete derivative:a data slicing algorithm for exploration of sharing biological networks between rheumatoid arthritis and coronary heart disease[J].BioData Min,2011,4:18.
[2]薛為民,陸玉昌.文本挖掘技術研究[J].北京聯合大學學報(自然科學版),2005,19(4):59-63.
[3]S Li,ZQ Zhang,LJ WU,et al.Understanding ZHENG in traditional Chinese medicine in the context of neuro-endocrineimmune network[J].IET Syst Biol,2007,1(1):51-60.
[4]祝頌,李長陽.中西醫結合治療血液病伴發肛周感染[J].實用中西醫結合雜志,1997,10(7):657-658.