甯金蓉,吳婷婷,楊 逸,佘侃侃
(南京中醫藥大學,江蘇 南京 210000)
基于數據挖掘的李東垣組方配伍規律的研究
甯金蓉,吳婷婷,楊 逸,佘侃侃*
(南京中醫藥大學,江蘇 南京 210000)
李東垣的組方在中醫方面運用廣泛且影響深遠,但李東垣的組方中涉及的方劑數目多,信息量巨大,傳統的方法無法解讀。因此,文章運用關聯規則、粗糙集、屬性約簡等數據挖掘算法,對李東垣著作中的方劑進行了全面和系統的研究分析,以發掘其著作中方劑配伍變化的內在規律,為中醫的發展提供有價值的參考。
數據挖掘;李東垣組方;配伍規律
李東垣是我國醫學史上著名的金元四大家之一,是中醫“脾胃學說”的創始人,他提出的“內傷脾胃,百病由生”觀點,形成了獨具特色的脾胃內傷學說。李東垣在他的學說基礎上新增了大量方劑,這些方劑在臨床上沿用至今,且療效顯著。
李東垣的組方在中醫方面及現代臨床方面廣泛應用且影響深遠,他的組方集中體現了其學術思想,反映出其獨特的組方用藥配伍規律。近年來很多人對李東垣的脾胃方劑開展了廣泛而深入的研究,然而以往的研究多著重于個別方劑的臨床觀察和動物實驗,對于組方配伍規律的研究卻只在很淺的層次上。而觀癥開方需要以疾病當時的反應狀態為基礎,綜合考慮證候病機中的病因、病位、病性、病勢等諸要素,運用君臣佐使法調節組方中方劑的用法和用量。由此可見,探索方劑的配伍規律才是根本,對組方配伍的規律性研究將會更加重要。
數據挖掘,又稱為數據庫中的知識發現,是從大量的數據中挖掘有趣模式和規律的過程。數據挖掘于1989年8月在美國底特律召開的第11屆國際人工智能聯合會議的專題討論會上被首次提出,是目前人工智能和數據庫領域研究的熱點問題。隨著數據量的不斷增加,大數據的時代到來了,面對如此巨大的數據量,傳統的數據處理方法顯得渺小而無用,無法發掘出其中的知識。在這種數據資料豐富而知識匱乏的局面下,數據挖掘闖進了人們的視線。數據挖掘融合了多個學科,理論上更多地涉及了數學領域,包括統計學、概率論、圖論等,當然還有編程,部分技術來源自經濟學、物理學等。但是數據挖掘技術講究“對癥下藥”,所以需要掌握較多的基礎知識才能運用自如。隨著對數據挖掘的需求增加,它的應用領域在不斷擴大,挖掘算法也在不斷地發展和優化。數據挖掘技術不僅出現在企業數據的處理中,在醫學研究中也起著重要作用。就目前而言,數據挖掘方法是運用最廣泛的,能最大限度地發現海量數據中的潛在規律的方法。因此,筆者將數據挖掘技術運用到對李東垣的組方配伍規律的研究中,通過關聯規則、粗糙集、啟發式屬性約簡等數據挖掘算法對其組方中的方劑數據進行規律探索。
3.1 數據存儲方式
然而數據挖掘并不能無中生有,也不能點石成金,它需要足夠豐富的數據源。因此大量數據的存放和處理成為關鍵,一般的都是用具有可更新、面向應用和易于管理等特點的數據庫。筆者需要探索的是李東垣組方的配伍規律,即組方中是如何決策方劑用法、用量的以及各藥材間的組合關系。實踐證明將數據倉庫和數據挖掘結合起來對支持決策會起更大的作用。因此,筆者在分散數據源的基礎上建立數據倉庫。數據倉庫概念是在20世紀90年代初正式出現的,它是面向主題的,為分析數據而設計,并對數據做匯總、加工,為決策者提供決策依據。筆者的主題有方劑和病癥。原始數據是來自李東垣的《內外傷辨惑論》《蘭室秘藏》《脾胃論》《醫學發明》《東垣試效方》《活法機要》6本著作中涉及的895首中的639首方劑,必須首先將原始數據進行抽取、清理、加工和組織集成,才能進行下一步入庫操作。數據倉庫偏重于數據存取的準確性和安全性,將原始數據存放在數據倉庫中有利于保持數據的穩定性。當需要提取原始數據進行規律探索分析時,采用數據庫的SELECT語句操作方法,就可以對數據倉庫進行訪問提取數據。
3.2 數據清洗
數據倉庫中的數據是存在一定規范的,所有的數據在進入數據倉庫之前必須經過加工與集成,即對不同的數據來源進行統一數據結構和編碼,統一原始數據中的所有矛盾之處,如字段的同名異義、異名同義、單位不統一、字長不一致等。筆者采用文獻法和ETL法相結合的形式對原始數據進行預處理。首先,進行方源標準化處理。將6本書中所有的方劑全部錄入數據基本表,并校對其藥物名稱、用量、組成、所治癥狀、服法等。再進行方劑的預處理,將中醫方藥的概念性描述轉變為有數據特性的數據,使它能夠進行數據運算。然后,進行中藥標準化處理。在6本書中,會出現這樣的情況,如:“清魂湯”“柴胡勝濕湯”雖然名字不同,但他們卻是同一個藥方,經過討論,筆者最終將此方名存為“柴胡勝濕湯”;對于沒有藥材只有方劑名的方劑,筆者查閱各種資料,比較同時期其他的同名方劑,分析其所治病癥的相似程度,將合理的方劑藥材錄入數據倉庫。最后,進行癥狀標準化處理。自古以來,藥方是根據癥狀應運而生的,出現了某一種癥狀,自然才會出現治療這種癥狀的方子,同一癥狀在各個地方都可能發生,而自古中國文化存在地域之間的差別,由于文化和語言表達的差別,對于同一種癥狀的描述就不盡相同了,所以以《蘭室秘藏》中癥狀的描述為基礎,對各方劑的主治癥狀命名進行規范化處理。經過這3步,數據源被干凈化、規范化、統一化,將這些數據錄入數據倉庫,為數據挖掘算法進行規律探索提供規范化數據基礎。
接下來,筆者就開始對李東垣組方配伍規律的探索。筆者將運用關聯規則挖掘方法、粗集屬性重要性評價方法、啟發式屬性約簡法分別對李東垣的組方進行規律探索。
4.1 關聯規則
關聯規則是數據挖掘中最常用的研究方法之一,是從大量的數據中挖掘出有價值的描述數據項之間相互依賴關系。最早是在1993年由Agrawal等人提出的。最初提出的動機是針對購物籃分析問題提出的,其目的是為了發現交易數據庫中不同商品之間的聯系規則。這些規則刻畫了顧客購買行為模式,可以用來指導商家科學地安排進貨、庫存以及貨架設計等。而筆者的目的是運用關聯規則分析李東垣方劑藥物的組成與主治癥狀的對應關系,挖掘三味藥物配伍(配伍是指有目的地按病情需要和藥性特點,有選擇地將兩味以上藥物配合同用)至四味藥物配伍、四味藥物配伍至五味藥物配伍的相關性,探討方與證或癥之間的對應模式及其對應選藥加減變化規律。關聯規則主要是用支持度和置信度來作為衡量單位。支持度是指規則在事務集合中使用的概率,即指規則中涉及的方劑都出現的組方占所占組方集合的百分比。置信度是指規則在事務集合中成立的概率,即指幾種方劑之間存在的規則在包含這些方劑的組方中成立的概率。筆者所給出的方劑關聯規則都是在給定支持度和置信度的條件下研究的。筆者對李東垣方劑關聯規則挖掘分兩個階段,第一階段是先從組方集合中分別找出所有的3個方劑、4個方劑和5個方劑同時出現的高頻項目組以及它們對應的主治癥狀,如:當歸、升麻、蒼術,適用癥狀為頭痛、食欲不振,出現頻次為6。第二階段再對這些方劑高頻項目組進行關聯規則挖掘。例如:高頻項目組是羌活、柴胡與黃柏的組合,在滿足給定的支持度和置信度的條件下,結合它們在各種病癥中的使用情況,分析它們3個組合時主要的功效。將會得到如下的結論:羌活、柴胡與黃柏合用,既能升清,又能清瀉陰火,降濁陰,恢復脾胃。通過這個規則發現當在其他的病癥情況下,還需要升清、清瀉陰火、降濁陰或者恢復脾胃時,同時原有的藥物與這三味藥不存在沖突時,只需在原來的方子中加上這三味藥或者增加這三味藥的用量便可。這是因為在關聯規則分析時,發現癥狀和藥物之間的關系并不是完全對等的,而是存在著一定的互補關系。這些分析得出的結果反映了李東垣的組方配伍規律。筆者分析得出的關聯規則即是探討方與證或癥之間的對應模式及其對應選藥加減變化規律的結果,可以為臨床組方提供參考。
4.2 粗集屬性重要性評價
粗糙集理論是一種能有效分析和處理不精確、不完整等各種不完備信息的工具,其主要思想是利用已知的知識庫,將不確定或不精確的知識用已知的知識庫中的知識來刻畫,目前已廣泛應用于知識發現領域。粗集屬性重要性評價往往是一個多屬性、多層次的問題,涉及的因素很多,在綜合評判和決策分析中,屬性權重的確定是其中很關鍵的一個環節,權重反映了各指標在評估決策中所處的地位或者說所起的作用,它直接影響到評估和決策的最終結果。粗集屬性重要評價方法是評價屬性重要性的數據挖掘算法,筆者若通過統計的方法從藥物出現頻率的角度進行判斷其重要性,雖然在一定程度上也能得出正確結果。但是方劑藥物與病癥是相互對應的,某種方劑的出現頻率大,不代表它在所有的病癥中作用都大,尤其是在沒有先驗的情況下,更加無法判斷出結果的正確性。如:因為甘草出現頻率比麻黃高,那么甘草在風寒表證中的作用大于麻黃。這條結論就是錯誤的。那么筆者如何解決這一問題呢?由于這種錯誤的原因是忽略了方劑藥物與病癥之間的對應關系,筆者就將病癥和方劑藥物都映射為粗集屬性,將藥或癥的重要性分析歸結為粗集屬性重要度計算,以得出各藥物在其對應證中的重要程度,為方劑君臣佐使的確定奠定基礎。
在粗集屬性重要性評價中,為了得出更加準確的結論,筆者選擇將方劑藥物和病癥都映射為粗集屬性,在方劑藥物和病癥的對應關系下進行結果分析。但是組方中涉及的藥物和癥狀很多,這給藥癥對應分析帶來了一定的困難。利用粗糙集理論中的屬性約簡算法對信息系統評價的屬性進行約簡,分析出出影響綜合評價的主要屬性,然后根據屬性重要度對約簡后的屬性體系進行賦值,對各方案進行綜合評價,在從而減少大量包含較少或幾乎不包含什么信息量的冗余屬性,大大簡化知識庫結構的復雜度,提高人們對隱含在數據庫龐大數據量下的各種信息的認識程度。為此筆者將粗集屬性約簡應用于方癥對應分析,粗集屬性約簡簡單來說是保持知識庫原有分類不變的情況下,刪除其中不相關或冗余的屬性。筆者采用基于區分矩陣的啟發式算法進行屬性約簡是基于這樣的考慮:筆者所要研究的方劑數目很大,對挖掘效率的要求較高。而啟發式算法是相對于最優化算法提出來的,它在對大規模數據處理方面具有很大優勢。基于矩陣的算法便于計算數據核和約簡,能提高挖掘速度。所以,筆者首先對方劑藥物和病癥這兩個屬性集進行約簡,然后從約簡后的屬性中尋找藥癥對應關系,進而探討方證相應。筆者采用這種方法進行約簡的步驟:第一步求出區分矩陣,筆者的區分矩陣包括所有的方劑藥物和對應的病癥;第二步對區分矩陣中的單一屬性進行合并;第三步求出藥物和對應的病癥約簡,即將分析出對應癥狀的核心藥物。這樣就相當于在計算中減少了方劑藥物的數目,使方劑藥物與病癥之間的對應關系簡化,從而降低藥癥對應分析的困難。
筆者在中醫藥研究中,加入數據挖掘技術,利用數據挖掘技術在知識發現方面的優勢,將李東垣的組方數據及一些相關的臨床病例信息錄入數據倉庫,通過數據挖掘算法對配伍規律進行研究。關聯規則分析出李東垣組方中單個方劑或者多個方劑組合的功效。粗集屬性重要性評價方法和啟發式屬性約簡法則分析出方劑藥物在各個對應病癥中的重要性。這些數據挖掘算法分析了李東垣的組方配伍規律,為其在臨床診療方面提供借鑒,為發掘中醫藥研究的科學內涵及規律提供新思路,為帶動中醫藥知識發現的進步,實現中醫藥現代化提供基礎。
[1]張清華,王國胤,肖雨.粗糙集的近似集[J].軟件學報,2012(7):1745-1759.
[2]衛向龍.李東垣組方配伍規律研究[D].南京:南京中醫藥大學,2010.
[3]周文秀.關聯規則挖掘算法的研究與改進[D].武漢:武漢理工大學,2008.
[4]何宏.關聯規則挖掘算法的研究與實現[D].湘潭:湘潭大學,2006.
[5]吳麗,周良.數據挖掘方法在中醫藥領域的應用淺析[J].醫學信息,2009(5):576-578.
Study on compatibility of Li Dongyuan Formula based on data mining
Ning Jinrong, Wu Tingting, Yang Yi, She Kankan*
(Nanjing University of Chinese Medicine, Nanjing 210000, China)
The formula made by Li Dongyuan is widely used and has a profound impact in traditional Chinese medicine. But Li Dongyuan’s Formula relates to a number of prescriptions and has a huge amount of information. It’s diffcult to decipher in traditional way.Therefore, we use association rule, rough set, attribute reduction and other data mining algorithms to conduct a comprehensive and systematic study of Li Dongyuan’s Formula, in order to grasp the inherent laws of prescription compatibility changes in his works to provide valuable reference for the development of Chinese Medicine.
data mining; Li Dongyuan Formula; compatibility law
甯金蓉(1994— ),女,四川遂寧。
*通訊作者:佘侃侃(1982— ),女,江蘇南通,副教授;研究方向:數據分析,數據挖掘。