莊建波
(廣東省汕尾市汕尾皮膚醫院,廣東 汕尾 516600)
中醫在我國自古以來都是有很重要的地位,它是我國的民族文化遺產,由于其具有悠久的歷史和顯著的療效,是對于我國幾千年的醫藥經驗的傳承。在對于中醫在醫療實踐中的數據進行分析整理,對豐富中醫的理論體系和推動中醫的發展有著重要的作用。數據挖掘顧名思義是對于相關信息的提取過程,把原先不被人所知道卻又真實存在的知識,從數據龐大的信息庫中精準的提取出來的過程。所以在進行中醫藥數據分析時使用數據挖掘的技術,可以更快速的獲得有效的有價值的數據。對中醫藥數據的挖掘是通過相關算法,對中醫藥數據信息的分析辯證而得出的有用信息知識,從而為我國的中醫研究提供理論知識支持。
數據挖掘是從大量的數據中通過相關算法來獲取其中所隱藏的信息,這一過程也可以稱之為數據庫知識發現。數據挖掘的實現是依靠在計算機技術的情況下,通過統計處理,搜索學習等方法來實現數據的獲取。這項技術的實現難點在于挖掘數據時所采用的方法,當下最常用的方法是因子分析、遺傳算法、對應分析、模糊集等。這項技術的產生在當前最主要用于數據倉庫和復雜數據類型發面。
在進行數據挖掘時為了提高挖掘信息的效率,常常采用關聯規則這一技術來進行,關聯規則可以通過對大量數據進行分析來獲取所需要的知識,分析出相關數據下的關聯性從而可以達到提高挖掘效率。這項技術產生的原型是通過分析購物籃中的物品,來分析出消費者的購物習慣以此來達到營銷的優化。
Apriori算法是一項經典的算法。這項算法的核心思想是在進行算法匹配時,要想進行后一步算法的匹配必須先要滿足前一條結果的絕對一致。這項算法采用了逐層搜索的方法來獲得頻繁項集,在數據庫中對于數據進行連接剪枝的方法,利用循環的方法,直到沒有候選項集為止。因為在進行連接剪枝的過程中會導致項目集的個數不斷增加,隨后產生的選項集個數也大大增加,導致了這項算法的運行效率極速降低。由于這些情況的出現,對于所出現的問題也加以改進,而且因為Apriori算法對于數據的準確挖掘的效率是很高的,相對的使用到的數據量對于這項算法來說是不值一提的,所以對于他的運行能力和效率沒有很大的影響,所以Apriori算法在中醫方劑數據方面的挖掘是最常被使用到的。
中醫治療皮膚科疾病方劑數據具有復雜性和多樣性,所以在進行數據挖掘時就要做好相對于的數據篩選和整理方面的工作。然后對于所收集到的信息進行規范化的處理并且進行錄入,采用規范的語言對數據進行處理,對采集到的無用信息進行去除,把相應的中藥的名字規范化。把數據挖掘所需要的數據通過數據預處理的方法將原始數據進行轉化。
在用Apriori算法進行數據挖掘時,得到了以下的結果,通過對結果進行分析得到茯苓是在治療皮膚科疾病時被使用的最多的一種中藥,有55%的使用頻率,當歸因為其具有“補血活血,潤腸通便”的功效使用頻率高達47%。而生地黃也因為其“滋陰清熱,涼血補血”的性能以45%的頻率位列第三。而其中生甘草、赤芍、川芎、牡丹皮、黃芩、梔子、澤瀉、防風、紅花等中藥在使用頻率上也是相當的高的。由此而言,在進行中醫治療皮膚科疾病的時候,上述藥材的使用頻率越高說明它們對于疾病的療效是最有用的。在進行數據分析的時候發現出現的頻率越高對于疾病治愈的療效就越強,它們之間是有著必要的聯系的,所以在以后獲取到數據后,更加要注意數據所呈現出來的研究意義,這對于后續中醫的治療提供更加有價值的信息。
本篇文章內容通過Apriori算法對中醫治療皮膚科疾病的用藥規律進行了深度的數據挖掘,在支持度為20%,置信度為70%的情況下獲取到了適合于皮膚病治療的中藥19味。這項數據為中醫臨床治療皮膚病提供了有利的用藥依據,是有很大的參考價值的。在中醫用藥方面,單純的依靠用藥頻率并不能直接得出用藥的結果,所以在后續的探究中能夠對于中醫的用藥規律有更深層次的探究。