張志華,郭洪濤,鄭 光,馮福海,李松偉
(1.鄭州市中醫院 河南 鄭州450007; 2 河南中醫學院第一附屬醫院風濕科,河南 鄭州450000; 3.蘭州大學信息學院,甘肅 蘭州730000)
干燥綜合征(Sjogren's syndrome,SS)是一種侵犯外分泌腺體,尤其以唾液腺和淚腺為主的慢性自身免疫性疾病,主要病理變化為外分泌腺淋巴細胞浸潤。本病可同時累及其他器官造成多種多樣的臨床表現[1],屬中醫學“燥證”“痹證”范疇[2]。本研究通過收集1978—2012 年中國生物醫學數據庫收錄的文獻,利用課題組逐漸成熟的文本挖掘技術[3]進行挖掘計算,探索干燥綜合征證、藥相應規律。
方法概述如下:在中國生物醫學文獻數據庫(Chinese BioMedical Literature Database,CBM,http://sinomed.cintcm.ac.cn/index.jsp)中以“缺省[智能]:”狀態下檢索“干燥綜合征”,共得到文獻3 296篇(檢索日期:2013 年3 月3 日),依次下載所有文獻并保存。
將收集來的數據按照下載的先后順序,整合到一個平面文件(后綴txt)里面,以ANSI 編碼格式保存;然后采用專有的文本提取工具(軟件著作權,軟著登字第0261882 號,登記號2010SR073409)對下載的非結構化txt 文本數據進行信息提取,保存成格式化的、便于大型關系型數據庫(Microsoft SQL Server,以下簡稱SQL)處理的格式,再導入SQL 中進行下一步的挖掘分析。假設每一篇文獻的貢獻度是相同的,一篇文獻中重復出現的關鍵詞只需要計算1 次,據此構建算法進行數據清洗工作[3]。清洗完畢后的數據既可以提取挖掘對象的一維頻數,也可以得到挖掘對象的二維關系,進行可視化呈現。抽出不同頻次的關鍵詞對,用Cytoscape 2.8 軟件進行可視化處理,形成可視化的網絡圖,然后結合專業知識進行解析。一旦發現不合理的結果,即回溯原文獻數據集。如果是噪音,仍按算法進行噪音清洗,直至噪音降到滿意為止。最后的結果可視化成圖,結合專業知識進行解析。
在干燥綜合征文獻數據集中共提取到中醫證型57 項,為了便于顯示,選取前20 項,按證型在數據集中出現的頻數高低列出,見表1。

表1 文本挖掘干燥綜合征相關中醫證型
以上結果表明:干燥綜合征文獻頻次最高的證型為氣陰兩虛證,綜合顯示該病多見虛證、熱證,少見實證、寒證;虛證多見氣陰、肝腎、津液等方面的虛損。
為了找到干燥綜合征數據集中主治證型之間的相互關系,運用基于敏感關鍵詞頻數統計的數據分層算法計算每篇文獻中兩兩出現的相關證型得到的結果,使用cytoscape 軟件構建證型兩兩之間網絡圖:圖中圓圈內為證型名稱,連線代表證型兩兩之間的聯系。證型的連線愈多,圓圈就越大,代表該證型與干燥綜合征的關聯程度越高,越處于核心的位置。見圖1。

圖1 干燥綜合征相關證型網絡圖
文本挖掘共提取到130 項證型組合,圖1 為證候挖掘結果參與構建的網絡圖。由圖可知:氣陰兩虛與其他證型的連線最多,為核心證型;而肝腎陰虛、陰虛津虧、陰虛血瘀等為干燥綜合征常見證型。綜上所述,干燥綜合征的證型中氣陰兩虛證最常見,陰虛、氣虛、津虧、血瘀、燥毒等是本病的基本致病因素。
在干燥綜合征文獻數據集中共提取到相關中藥名稱123 個,為了方便展示,選取前20 個,按中藥在數據集中出現的頻數高低列出見表2。

表2 文本挖掘干燥綜合征相關中藥
由表1 可知,治療干燥綜合征的中藥中,生地黃出現的頻數最多,而生地黃性味甘寒,能清熱、生津、潤燥,也與干燥綜合征多“虛、熱”發病相應,應為其治療的主藥。麥冬、白芍頻次也較高,均能滋陰潤燥,應為核心藥物。回溯原文獻,發現雷公藤均與雷公藤多苷有關,因此應列為噪音剔除。其他均為治療干燥綜合征的常用中藥。
文本挖掘共提取到中藥組合289 項,為方便成圖,選擇頻次大于等于2 的70 項中藥組合構建中藥網絡圖(圖2)如下:

圖2 干燥綜合征相關中藥網絡圖(PS≥2)
圖2 可知,麥冬頻次最高,應作為主藥。麥冬性甘、微苦、涼,能滋陰生津、潤肺止咳、清心除煩。沙參、天花粉、生地黃等次之,這些中藥應為治療干燥綜合征的核心藥物。其他玄參、知母、石斛等為常用中藥。綜上所述,干燥綜合征的中藥治療以滋陰潤燥為主,活瘀解毒為輔。藥物以生地黃、麥冬、沙參、白芍、甘草、當歸等為核心藥物。
文本挖掘技術是以統計數理分析、計算語言學為理論基礎,服務于醫藥、生物、文獻研究等學科的新興的交叉學科[4]。運用于中醫藥領域,文本挖掘能從海量的中醫藥文獻中發現知識以促進中醫臨床研究和中藥復方研發等。根據中醫理論或專業知識,計算機挖掘中醫藥文獻庫與生物醫學信息庫的非關聯知識,為中西醫結合研究提供新的思路和途徑,并且結果更加客觀,可重復性強[5]。
文本挖掘能夠從具有大量信息的文本材料中抽取知識[4]。近年來,隨著各種信息傳媒和通量的不斷加大,中醫藥規律研究呈現多元化的趨勢[6]。應用于中醫藥領域,計算機能夠文本挖掘中醫藥文獻庫與生物醫學信息庫的非關聯知識,為中醫藥的現代研究提供新的思路和途徑[7]。文本挖掘計算的結果,結合原文獻回溯,人工閱讀分析降噪等方法,使得結果更加客觀;最終的結果,借助cytoscape 軟件作圖,使得結果更加直觀,可視性強[8]。
本研究針對從CBM 收集到相關干燥綜合征的3 296 篇文獻,采用課題組逐漸成熟的文本挖掘技術[3],結合回溯原文獻,人工閱讀降噪,對干燥綜合征從證型、中藥規律方面進行挖掘,挖掘的結果既看到它們在文獻中的頻數,又可以發現它們各自在關聯網絡中的分布規律。從挖掘的結果來看,干燥綜合征的證型中氣陰兩虛證最常見,陰虛、氣虛、津虧、血瘀、燥毒等是本病的基本致病因素。干燥綜合征的中藥治療以滋陰潤燥為主,活瘀解毒為輔。藥物以生地黃、麥冬、沙參、白芍、甘草等為核心藥物。
中醫處方是在辨證論治基礎上,根據治法,以不同藥物配伍形成的具有復雜功能的載體,是中醫治療疾病的重要手段。現有文獻報告總結了臨床工作者治療干燥綜合征的主要經驗用藥。通過文本挖掘干燥綜合征現有文獻數據,能夠便捷總結干燥綜合征證、藥特點,為中醫臨床提供有益的探索與參考;同時,通過挖掘分析,也為疾病的中藥配伍提供了一種新的探索方法。
[1]蔣明,朱立平,林孝義.風濕病學[M].北京:科學出版社,1995:1115.
[2]路志正,焦樹德.實用中醫風濕病學[M].北京:人民衛生出版社,1996:490.
[3]Guang Zheng,Hongtao Guo,Aiping Lu,et al.Discrete derivative:a data slicing algorithm for exploration of sharing biological networks between rheumatoid arthritis and coronary heart disease[J].BioData Min,2011,23(4):18.
[4]薛為民,陸玉昌.文本挖掘技術研究[J].北京聯合大學學報:自然科學版,2005,19(4):59-63.
[5]Li S,Zhang ZQ,Wang YY,et al.Understanding ZHENG in traditional Chinese medicine in the context of neuro-endocrine-immune network[J].IET Syst Biol,2007,1(1):51-60.
[6]譚勇,郭洪濤,鄭光,等.利用文本挖掘技術探索中醫藥治療疾病的用藥規律[J].世界科學技術——中醫藥現代化,2010,12(5):823-827.
[7]何小娟,李健,陳杲,等.基于病證結合的中藥網絡藥理學研究與新藥研發策略[J].中國中醫基礎醫學雜志,2011,17(11):1271-1273.
[8]蔡峰,郭洪濤,張志華,等.基于文本挖掘技術的中成藥及西藥治療年齡相關性黃斑變性用藥規律研究[J].北京中醫藥,2011,30(9):643-645.