基于證候要素定向文本挖掘類*風濕性關節炎中藥配伍規律
王敏智1、2,郭洪濤2、3,鄭 光2、4,姜 淼2,呂 誠2,王 興1,楊 帆5,呂愛平2△
(1.西南交通大學生命科學與工程學院,成都 610031;2.中國中醫科學院中醫臨床基礎醫學研究所,北京 100700;3.上海中醫藥大學,上海 201203;4.蘭州大學信息學院,蘭州 730000;5.九江職業大學護理學院,江西 九江 332000)
目的:以類風濕性關節炎證候要素為關鍵詞,定向文本挖掘中藥配伍規律。方法:在數據庫中收集治療類風濕性關節炎文獻數據,格式化后,以“寒”、“熱”、“虛”、“瘀”為挖掘詞挖掘,結合人工降噪,分析配伍規律。結果:寒證、熱證用藥對比鮮明,虛證、瘀證用藥相似,各證型均涉及桂枝芍藥知母湯。結論:以證候定向文本挖掘方法,可總結中藥配伍規律,為臨床提供參考。
類風濕性關節炎;證候要素;文本挖掘;中藥配伍
類風濕關節炎(Rheumatoid Arthritis,RA)是一類以關節炎為主要臨床表現的系統性自身免疫病。RA屬于中醫“痹證”范疇,中醫認為是由于風、寒、濕、熱等外邪侵襲人體、痹阻經絡、氣血運行不暢所導致的以肌肉、筋骨、關節發生酸痛、麻木、重著、屈伸不利甚或關節腫大灼熱等為主要臨床表現的疾病。中醫藥辨證治療RA療效肯定,副反應少,其臨床報道大量存在于現有數據庫,而這些文獻可以作為數據挖掘的重要素材。
辨證論治是中醫理論的核心,是中醫臨床醫學的精髓。證候體現了中醫學理論特色與優勢,是中醫學認識疾病和處方用藥的主要依據[1]。證候要素是指組成證候的主要元素,所有的證候都可以由證候要素組成,復合證候可以分解為病位、病性類等證候要素[2]。RA涉及的主要病位類證候要素有經絡、腎、肝、脾;病性類證候要素主要有濕邪、寒邪、熱邪、風邪、痰、血瘀、精虧、氣虛、血虛、陰虛、陽虛[3],同時參照中醫內科學教材中有關痹證的論述[4],歸納 RA的證候要素大致為“寒”、“熱”、“風”、“濕”、“虛”、“瘀”、“寒濕”、“濕熱”等。結合數據挖掘的特點,本研究選擇“寒”、“熱”、“虛”、“瘀”4個證候要素作為挖掘詞,對RA數據集嘗試定向文本挖掘,流程示意圖如下。
文本挖掘是從非結構化的文本數據中,抽取有意義的數據[5~7]。具體說,文本挖掘應用到生物、醫學上可以分為文本數據收集、處理、結構化分析、可視化以及評價5個步驟[8]。

首先,登錄中國生物醫學文獻數據庫(英文全稱:ChineseBioMedical LiteratureDatabase,簡 稱CBM,網址 http:∥sinomed.cintcm.ac.cn/index.jsp)在缺省狀態下檢索關鍵詞“類風濕關節炎 OR類風濕性關節炎”。經過檢索,出現款目詞、主題詞、命中文獻數,合并檢索主題詞,共得到文獻14435篇(檢索日期:2011年9月15日)。為了能看到每篇文獻的流水號、標題、摘要、主題詞等信息,在顯示格式中選擇“詳細”和“顯示全部”。
將收集的數據,按照現在的先后順序整合到一個平面文件(后綴TXT)中,以ANSI編碼格式保存。然后,利用專有的文本提取工具(軟件著作權,軟著登字第0261882號,登記號 2010SR073409),對 1.1中下載的非結構化的TXT文本數據進行信息提取,保存成格式化的、便于數據庫(Access)和大型數據庫(Microsoft SQL Server,以下簡稱 SQL)處理的格式。提取出來的信息,主要是機標關鍵詞(包括核心和非核心2種類型,以下簡稱關鍵詞)。提取出來的數據首先存入Access數據庫,作為下一步數據處理的材料,然后導入SQL中進行挖掘分析。
根據1.2中生成的 Access數據庫,我們將“結果”數據表導入SQL中,以“Table_Initial”為表名稱,針對“序號”和“機標關鍵詞”進行處理。為了方便處理,我們將“序號”和“機標關鍵詞”2個字段分別用 PMID(類似于 PubMed里面的字段名)和DescriptorName(類似于 PubMed里面的字段名)來表示。
經過對原文獻的分析發現,相同的關鍵詞在1篇文獻的標題和摘要中存在重復出現的問題。對于文本挖掘來說,假設每1篇文獻的貢獻度是相同的,按照這個假設,對于1篇文獻中重復出現的關鍵詞只需要計算1次。據此,進行數據清洗工作。
通過返查原文獻,發現在同一篇文章中出現的關鍵詞,在關鍵詞這一抽象層面上部分反映整篇文章的信息。并且就某一篇具體的文獻來說,相關的關鍵詞之間存在著“共同出現”這一基本事實。這種共同出現不是隨機的,而是蘊含有一定的意義[6、7、9、10],尤其對于高頻協同出現的關鍵詞對,在一定的程度上,這些詞對反映了科研工作者的重視程度。更重要的是,針對目前的文本挖掘技術來說[5、8、9],這些協同出現的關鍵詞也是很好的分析素材。
基于上面的分析,第一步構造針對每一篇文獻共同出現的關鍵詞對并設計算法,經過該計算得到名為DN_pairs的數據表。經過觀察發現,數據表DN_pairs存在大量相同的關鍵詞對,這些冗余的數據,對于數據分析來說大部分屬于噪音,對此將相同的關鍵詞對進行合并處理,只保留它們出現的頻數。針對這一工作,構造了關鍵詞對頻數算法來實現。經過頻數算法的處理,得到了名為 DN_pairs_frqcy的數據表,在這個數據表內所有的關鍵詞對都只出現1次,并都有1個對應的頻數(Frequency)。
經過專業知識對頻數數據進行評估,發現針對特定的疾病其中仍存在噪音問題。這些噪音不再是關鍵詞的簡單重復,而是相對于專業只是來說的噪音問題。對此,針對特定的問題對數據進行二次清洗。到此為止,可以得到治療RA中藥的配伍規律。然而根據中醫理論,RA可以分為不同的證型且證型不同,臨床使用的藥物也會有相應的調整。因此,設計定向文本挖掘的方法,分析中醫治療RA不同證型的中藥配伍規律。
基于中醫證候要素特點,在1.1中下載的 RA數據集內,按照“寒”、“熱”、“虛/補”、“瘀”為關鍵詞對文獻的主題詞進行檢索,將數據集分為寒、熱、虛和瘀4個子集。然后,針對這4個數據子集,分別執行1.3、1.4以及 1.5三步的計算。經過這三步的計算,可以得到中醫治療RA寒、熱、虛和瘀4個證候要素的中藥配伍規律。
根據1.3中得到的數據表 DN_pairs_frqcy,我們抽出不同頻數的關鍵詞對,用Cytoscape 2.8進行可視化處理,結果如下圖 A、B、C、D(各藥物之間頻數均大于等于2)。
圖A為“寒”挖掘結果,圖中包含桂枝芍藥知母湯、麻黃附子細辛湯、烏頭湯等方劑的組成成分;圖B為“熱”挖掘結果,圖中包含桂枝芍藥知母湯、四妙勇安湯、二妙散加減,回溯原文獻,牛黃、三七是中成藥新潢片的主要成分。


圖C、D分別為“虛”、“瘀”挖掘結果,圖中共同包含獨活寄生湯的主要成分有獨活、桑寄生、秦艽、防風、當歸、川芎、地黃等;其中,圖 C包含桂枝芍藥知母湯成分,圖D包含麻黃附子細辛湯。
近年來,隨著生物及醫學文獻數量的急驟增長,通過數據挖掘尋找規律和新知成了生物學和醫學研究的熱點[11]。運用文本挖掘技術能對海量數據進行整合處理,獲得的結果可重復,因此更具有客觀性。
本研究中RA數據集包含14435篇文獻,如果使用人工分類是難以想象的。定向文本挖掘結果,均由RA數據集文獻的關鍵詞、主題詞產生,同時選取高頻結果,因此具有更高的可信度。定向文本挖掘從RA數據集中挖掘的中藥配伍規律,體現了中醫臨床用藥情況。
由以上各圖可知,寒證藥用麻黃附子細辛湯、烏頭湯等以溫陽散寒為主,熱證藥用四妙勇安湯、二妙散加減等,以清熱解毒祛濕為主,寒熱用藥對比涇渭鮮明。虛證、瘀證用藥存在很大相似性,以溫補活瘀為主,兩者均涉及獨活寄生湯。獨活寄生湯具有益肝腎、補氣血、祛風濕的作用,多用于疾病后期肝腎虧虛、氣血不足者,這說明虛、瘀可能多發生在 RA后期。寒證、瘀證挖掘結果均涉及麻黃附子細辛湯,該方助陽解表,適用于陽虛感寒者。挖掘結果提示,麻黃附子細辛湯對于RA陽虛寒凝、因寒致瘀者,臨床可參考使用。
在“寒”、“熱”、“虛”挖掘結果中,均涉及桂枝芍藥知母湯,而在“瘀”證低頻結果中也涉及桂枝芍藥知母湯。桂枝芍藥知母湯為張仲景《金匱要略》中所載治療歷節病的名方,清·李彣在《金匱要略廣注》中稱贊桂枝芍藥知母湯:“此一方而數方俱焉,精義備焉,誠治歷節病之圣方?!爆F代醫家臨床也多有報道。該方通陽行痹、祛風逐濕、和營止痛,具有清熱、散寒、通絡、活血、補虛之功效。方用桂枝湯去大棗調和營衛、防風祛風,白術健脾除濕,麻黃宣陽通痹而散寒濕,附子溫經助陽、祛寒濕痹以止痛;佐以知母,引諸藥而達病所,合芍藥清熱養陰,利溺散腫。從定向挖掘結果來看,桂枝芍藥知母湯對各證型的RA均可加減運用,值得進一步深入研究。
綜上,結合RA證候要素對現有數據庫文獻進行定向文本挖掘,其結果反映了RA臨床研究現狀,是一種新的經驗總結方法,它可以快捷、客觀、全面系統地總結RA臨床實踐中的用藥情況與規律,為臨床醫生提供客觀參考依據。同時,挖掘結果所形成的藥物配伍網絡圖,可能形成新的組方,為中醫臨床用藥及進一步的科研提供思路和參考。另外,本研究方法也為進一步探索中醫藥治療RA機理,并且對治療其他疾病用藥規律的探索有一定的啟迪和示范作用。
[1]郭 蕾,張啟明,王永炎,等.證候規范化研究的思路和方法探討[J].中國中西醫結合雜志,2006,26(3):258-261.
[2]張志斌,王永炎,呂愛平,等.論證候要素與證候靶點應證組合辨證 [J].中醫雜志,2006,47(7):483-485.
[3]杜彩鳳,趙 勇,鄒小娟.基于現代文獻的類風濕性關節炎證候、證候要素分布特點的研究[J].世界中西醫結合雜志,2011,6(2):161-163.
[4]周仲瑛主編.中醫內科學[M].北京:中國中醫藥出版社,2009:463-468.
[5]Jeffrey W Seifert(2004)Data mining:An overview.CRS Report RL31798.
[6]Guang Zheng,Miao Jiang,Xiaojuan He,Jing Zhao,Hongtao Guo,Gao Chen,Qinglin Zha,Aiping Lu.Discrete Derivative:A Data Slicing Algorithm for Exploration of Sharing Biological Networks between Rheumatoid Arthritisand CoronaryHeart Disease[J].BioData Mining,2011,4:18 oi:10.1186/1756-0381-4-18.
[7]Nathan Harmston,Wendy Filsell,and Michael P.H.Stumpf.What the papers say:text mining for genomics and systems biology[J].Human Genomics,2010,October:5(1):17-29.
[8]Brigitte Mathiak,and Silke Eckstein(2004)Five steps to text mining in biomedical literature.In Proceedings of the Second European Workshop on DataMiningand TextMiningfor Bioinformatics,held in Conjunction with ECML/PKDD in Pisa,Italy 24:47-50.
[9]Andrea Campagna,Rasmus Pagh(2009)Finding associations and computing similarity via biased pair sampling.2009 Ninth IEEE International Conference on Data Mining:61-70.
[10]Guang Zheng,Miao Jiang,Yusheng Xu,Gao Chen,and Aiping Lu,Discrete Derivative Algorithm of Frequency Analysis in Data Mining for Commonly-existed Biological Networks,CNMT,2010:5-10.
[11]Tari L,Anwar S,Liang S,Cai J,Baral C.Discovering drugdrug interactions:a text-mining and reasoning approach based on properties of drug metabolism[J].Bioinformatics,2010,26(18):1547-1553.
Exploring combing rules of Chinese herbal medicines on rheumatoid arthritis based on syndrome element-directed text mining
WANG Min-zhi1、2,GUO Hong-tao3、2,ZHENG Guang2、4,JIANG Miao2,LV Cheng2,WANG Xing1,YANG Fang5,LV Ai-ping2△
(1.Southwest Jiaotong University,Chengdu,610031;2.China Academy of Chinese Medicine Science,Beijing,100700;3.Shanghai University of T.C.M,Shanghai,201203;4.Lanzhou University,Lanzhou,730000;5.Jiujiang Vocational University,Jiujiang,332000)
Objective:Based on the keywords of patterns in traditional Chinese medicine on rheumatoid arthritis,we applied the syndrome element directed mining algorithm and got the rules of Chinese herbal medicines according to these patterns.Method:The original data set on term“rheumatoid arthritis”was downloaded from SinoMed.Then,the data set was formatted.Based on the keywords of cold,heat,deficiency,and stasis,together with noises taken away manually,we mined the rules of Chinese herbal medicines.Results:Rules of Chinese herbal medicines have significant differences between hot and cold pattern,patterns of deficiency and stasis are similar,another interesting fact is that decoction of guizhi-shaoyao-zhimu is associated with all the syndromes in our mining process.Conclusion:Our approach of patterndirected text mining can get the rules of Chinese herbal medicines.What’s more,the mining results can be taken as references in clinical practices.
rheumatoid arthritis;syndrome element;text mining;Chinese herbal medicine combing
R593.22
A
1006-3250(2012)02-0207-03
“重大新藥創制”科技重大專項(2009ZX09502-019);國家自 然 科 學 基 金 資 助 項 目 (30825047,30902000,81072982,81001676)
王敏智(1987-),男,湖南衡陽人,在讀碩士,從事病證關聯研究。
△通訊作者:呂愛平,Tel:010-64067611,E-mail:lap64067611@126.com。
2011-08-10