陳曙輝 林煦垚 張明強 陳立 秦國政
摘要:目的 利用文本挖掘技術探索治療精子活力低下癥的常用中醫用藥規律,為臨床治療提供一定的參考依據。方法 登錄中國知網(CNKI)收集中醫治療精子活力低下癥的相關文獻,使用MySQL數據庫,運用全文索引對數據進行歸檔存儲,并人工降噪處理。利用數據挖掘中的關聯規則算法,統計分析常用中藥用藥頻率及藥物協同關系規律,繪制協同藥物網絡圖并進行分析討論。結果 中藥協同關系分析顯示菟絲子、枸杞子、淫羊藿、熟地黃、黃芪是治療精子活力低下癥最常用的中草藥。結論 常用中藥用藥規律,對臨床應用具有一定指導意義,文本挖掘技術可以為中醫藥研究提供技術支持。
關鍵詞:精子活力低下癥;中醫;文本挖掘;用藥規律
中圖分類號:R256.56 文獻標志碼:A 文章編號:1007-2349(2019)01-0019-04
根據《世界衛生組織人類精液分析實驗室技術手冊》(第5版)的描述,精子活力低下癥是指男性精液參數分析中前向運動(PR)精子百分率低于參考值下限,即低于32%[1]。WHO命名為弱精子癥。據西方國家統計調查,10%~15%的育齡夫婦存在不育問題,其中男性因素大約占50%[2]。在中國約1/10的夫婦發生不育,屬于男方因素的約為40%[3]。而且無論是在國內還是國外,男性精子的質量在近10年內都出現了明顯下降的趨勢[4]。中醫學中沒有“精子活力低下癥”或“弱精子癥”之說及記載。但該病與中醫“精寒”、“精冷”等癥有關。中醫學在精子活力低下癥治療中積累了寶貴的經驗,關于中醫藥治療精子活力低下的文獻已有大量刊載,通過文本挖掘技術[5]對精子活力低下癥文獻進行全面分析和整理,將有助于發現精子活力低下癥治療規律特征,為進一步提高中醫臨床治療效果、深入開展中醫科研提供依據。
1 資料與方法
文本挖掘是從非結構化的文本數據中,抽取有價值信息的處理技術[6]。文本挖掘應用到生物、醫學上,可以分為文本數據收集、處理、結構化分析、可視化以及評價5個步驟[7]。
1.1 數據收集 登錄中國知網(China National Knowledge Infrastructure,CNKI,http://www.cnki.net/)在關鍵詞檢索下檢索關鍵詞“弱精子癥”、“精子活力低下癥”。經過檢索共得到文獻750篇,檢索日期2017年11月10日。
1.2 數據處理 將檢索到的相關文獻運用OCR 識別技術,按照UTF-8編碼格式統一保存在新建文本文件(后綴TXT)中。然后利用文本提取工具,將非結構化的文件內容整理為[文章序號,關鍵詞]這樣的格式化結構,便于MySQL數據庫錄入與處理。
1.3 數據一次清洗 將1.2項中提取的結構化文本信息存入數據庫的數據表中,表名為table_initial,針對“序號”和“關鍵詞”進行處理。對于1篇文獻中重復出現的關鍵詞只需要計算1次,據此進行數據清洗工作。
1.4 數據挖掘以及可視化分析 對于文獻檢索和查閱而言,在1篇文章中出現的關鍵詞,部分地反映整篇文章的信息。就某篇具體文獻來說,相關關鍵詞的“共同出現”蘊含有一定的意義。基于以上分析,構造針對每篇文獻共同出現的關鍵詞對算法,得到名為keypairs數據表。將相同的關鍵詞對進行合并處理,只保留它們出現的頻數,構造進一步算法實現得到key_pairs_frqcy 數據表,抽取不同頻數詞對,應用 Cytoscape3.5進行可視化處理。圓圈的大小表示某一藥物出現的頻數大小,例如,菟絲子的圓圈最大,共出現101次。這種頻數大小反映了某一藥物在精子活力低下癥診治中的重要程度。線條的粗細反映了某一藥物與其他藥物相兼出現的頻數大小。菟絲子與枸杞子的線條最粗,即兩者相兼出現的證型有85個。這種頻數大小反映了某一藥物在精子活力低下癥診治中的重要程度。
1.5 數據二次清洗 經過專業知識評估,數據一次清洗后仍存在噪音問題,這些噪音主要是自然語言的二義性和表達方式的多樣性產生的,對于這類問題,只能逐個分析并建立規則,然后根據規則,依據專業知識對數據進行二次清洗降噪。即中藥名稱根據《中藥學》(高學敏主編,中國中醫藥出版社,2007年)進行規范,使同種藥物名稱統一,如中藥“仙靈脾”、“淫羊藿”統一規范為“淫羊藿”。
2 結果
2.1 中藥頻數統計 治療精子活力低下癥常用中藥頻數統計顯示,頻數由高至低排列,前15味中藥。菟絲子、枸杞子、淫羊藿、熟地黃、黃芪、當歸、覆盆子出現頻次超過50,較其他藥更常用。頻數靠前的15位中藥可以構成方劑五子衍宗丸,具有補腎益精之功效。
2.2 中藥協同關系分析 通過文本挖掘整理出的藥對組合中,頻次最多的35對組合如表1,從表中可知,枸杞子、菟絲子、淫羊藿、熟地黃之間的組合頻次最高,均大于55次,利用Cytoscape軟件將上述藥物組合進行可視化處理,生成二維網絡關系圖。
菟絲子、枸杞子可與11個其他的中草藥配伍相兼使用,其次淫羊藿分別與9個其他的中草藥配伍相兼使用,熟地黃可與8個其他的中草藥配伍相兼使用,體現了治療精子活力低下癥復方的配伍核心。
3 討論
在生物學領域,由于生物學數據和生物醫學文獻數量的急驟增長,通過數據挖掘尋找規律和新知成了生物學研究的一個新熱點和重要分支[8]。近年來,隨著各種信息傳媒和通量的不斷加大,中醫證用藥規律研究呈現多元化的趨勢[9]。采用文本挖掘進行用藥規律研究是方法之一。文本挖掘是從文本集中發現潛在、隱藏的歸納性知識的一門技術[10],它能對海量數據進行整合、分析,獲得的結果更具有代表性、可信度更高[11]。既往的研究表明,文本挖掘具有探索治療疾病用藥規律的技術特征和條件,可操作性強[12]。精子活力低下不育癥是男科的常見重大疾病。本研究從750篇文獻中挖掘中醫診治精子活力低下不育癥的用藥規律,文獻信息全面,挖掘過程恰當,質量控制嚴格,所得結果具有指導臨床用藥價值。
本研究發現,菟絲子、枸杞子、淫羊藿、熟地黃、黃芪是治療精子活力低下癥最常用的中草藥。菟絲子,味甘、辛,性平,歸肝、腎經,具有補陽益陰、固精縮尿、明目止瀉的功效。《藥性論》謂“治男子女人虛冷,添精益髓,去腰疼膝冷,又主消渴熱中。”現代藥理研究表明,菟絲子能增加小鼠精子數,增強小鼠精子的質量和活力,并能明顯促進熱應激小鼠睪丸和附睪損傷后的修復[13]。枸杞子,味甘,性平,歸肝腎經,具有補肝腎、明目的功效。《本草經集注》云“補益精氣,強盛陰道”。研究表明枸杞子可下調生精細胞Caspase-3表達,從而降低凋亡率,促進生殖損傷的恢復[14]。淫羊藿,味辛、甘,性溫,歸肝、腎經,具有溫補腎陽,益氣強精的功效。《本草備要》記載“補命門(時珍曰∶手足陽明、三焦、命門藥),益精氣,堅筋骨,利小便。”實驗證明淫羊藿苷[15]能有效分泌精液,其自身存在類雄性激素作用,可以導致大鼠的前列腺、精囊等性腺重量增加。熟地黃,味甘,性微溫,歸肝、腎經,具有補血滋陰、益精填髓的功效。《本草綱目》注熟地“填骨髓,長肌肉,生精血,補五臟內傷不足,通血脈,利耳目,黑須發”。熟地黃[16]可以提高人體免疫力,并能提高抗氧化性。黃芪,味甘,性溫,歸肺、脾經,具有補氣固表、利尿托毒的功效。黃芪為補氣要藥,《名醫別錄》謂之“補丈夫虛損,五勞羸瘦。止渴,腹痛,瀉痢,益氣……”。黃芪可增加精子線粒體活性,提高精子ATP 含量,改善精子活力及活率[17]。
綜上,文本挖掘技術可以全面、系統地總結精子活力低下癥臨床實踐中的中醫用藥規律,為疾病治療的科研思路提供參考,同時為臨床醫生優化診治方案提供理論依據。分析所得用藥規律可以為臨床提供參考依據,對中醫藥治療精子活力低下癥用藥具有一定的指導價值。參考文獻不足之處是目前文本挖掘只能根據現有文獻進行匯總與分析,由于文獻質量、關鍵詞設計等存在不同層次,仍需要文獻溯源來對所得結果進行綜合判斷,從而降低噪音。因此,提高自動化分析能力,進一步降低噪音與人工工作量是對文本挖掘技術提出的進一步要求。
參考文獻:
[1]世界衛生組織.世界衛生組織人類精液檢查與處理實驗室手冊,第5版[M].北京:人民衛生出版,2010.10.
[2]Sachdeva K,Saxena R,Majumdar A,et al.Useofethnicity-lsperm-specific sequence tag site markers for Y chromosomemicrodeletion studies.Genet Test Mol Biomarkers,2011,15(6):451-459.
[3]何清湖,秦國政.中西結合男科學[M].北京:人民衛生出版社,2005,5:254.
[4]Cooper TG,NoonanE,VOnEckardstein S,eta1.World Health Organization reference values for human semen characteristics.Hum ReprodUpaate 2009;[Epub ahead of printl].
[5]Feldman R,Dagan I.Knowledge discovery in textual databases(KDT).Proceedings of the 1st International conference on Data Mining and Knowledge Discovery(KDD95)[M].montrealAAAI Press,1995:112.
[6]JEFFREY W S.Data mining:An overview[J]CRS Re-port RL31798.2004:202-208.
[7]ANDREA C,RASMUS P.Finding associations and computingsimilarity via biased pair sampling[J].2009 Ninth IEEE In-ternational Conference on Data Mining.2009:61-70.
[8]Tari L,Anwar S,Liang S,et al.Discovering drug-druginteractions:a text-mining and reasoning approach basedon properties of drug metabolism[J]Bioinformatics.2010,26(18):15473.
[9]譚勇,郭洪濤,鄭光,等.利用文本挖掘技術探索中醫藥治療疾病的用藥規律[J].世界科學技術(中醫藥現代化),2010,12(5):823-827.
[10]Al-Mubaid Hisham,Singh Rajit K.A text-mining technique for extracting gene-disease associations from the biomedical literature[J].International Journal of Bioinformatics Research and Applications,2010,6(3):270.
[11]Rodriguez-Esteban Raul.Biomedical text mining and its applications[J].PL o S Computational Biology(Online),2009,5(12):e1000597.
[12]譚勇,楊靜,趙寧,等.利用文本挖掘技術探索中西藥治療慢性乙型肝炎的用藥規律[J].中國實驗方劑學雜志,2011,17(24):232-235.
[13]韓洪軍,金玉姬,王光慧,等.菟絲子對熱應激小鼠精子生成數量及活力的影響[J].中華臨床醫師雜志,2012,6(16):4909-4911.
[14]史曉琴,崔瑞琴.枸杞多糖與雷公藤多苦含藥血清對生精細胞Caspase3表達的影響[J].河南中醫,2014,34(9):1677-1679.
[15]Chen M,Hao J,Yang Q,et al,Effects of icariin on reproductive functions in male rats[J].Molecules,2014,19(7):9502-14.
[16]王玉紅,王舒,張琰琴,等.地黃低聚糖抗過氧化氫誘導的脂肪間充質干細胞凋亡的保護作用[J].中國康復理論與實踐,2008,14(4):314-315.
[17]梁培育,李浩勇,肖勁逐,等.添加黃芪注射液對人精子線粒體功能的影響.中華男科學,2004,18(3):11.