張好霞,侯 鈺,楊建明,陳 浩,李天泉△
(1.重慶康洲醫(yī)藥大數據開發(fā)應用研究院,重慶 404100; 2.重慶康洲大數據有限公司,重慶 404100)
在現(xiàn)代科學技術推動中醫(yī)藥理研究快速發(fā)展的背景下,藥性、藥味理論的研究已逐漸成為國內學者關注的熱點,促進了中藥性、味、歸經、功能間關系數據探究方法的創(chuàng)新[1-4]。目前,數據挖掘已成為中醫(yī)藥研究的重要技術,主要是用于發(fā)現(xiàn)數據中的隱含規(guī)律和潛在的信息及知識等。關聯(lián)規(guī)則挖掘則是數據挖掘技術中較活躍的技術,一般用來發(fā)現(xiàn)研究對象的關聯(lián)性和相互依存性。其中Apriori算法是關聯(lián)規(guī)則挖掘中較典型的算法[5],也是挖掘布爾關聯(lián)規(guī)則頻繁項集最有影響的算法,已被廣泛用于中藥數據挖掘的研究中[6-8]。關聯(lián)規(guī)則的數據挖掘方法多用于藥物屬性間的關系挖掘,郭小磊[8]、于紅艷等[9]報道了部分四性-五味間的緊密關系,以及寒-解毒、寒-清熱、溫-止痛、寒-涼血、微寒-清熱、寒-消腫、涼-清熱等的關聯(lián)關系;尚爾鑫等[10]報道了部分中藥屬性四性-歸經、歸經-歸經的關聯(lián)性。本研究中在現(xiàn)有理論研究的基礎上,運用數據挖掘方法進行樣本分析、處理,并參考Apriori算法,結合關聯(lián)數據技術[10-11],分析中藥的性、味、歸經及藥用功能間的聯(lián)系,探討中藥性能和傳統(tǒng)經驗之間的區(qū)別和聯(lián)系,為中藥性能研究提供科學、有效的論證方式。現(xiàn)報道如下。
本研究中涉及的數據來源于藥智網數據庫的中藥基本信息數據表,表中信息主要來源于《中國藥典(一部)》及全國各省市自治區(qū)藥材標準信息,且詳細記錄了中藥材加工、規(guī)范、歸類等操作,信息權威,可直接利用度高(數據加工規(guī)范等過程有內部標準,統(tǒng)一性強)。同時,中醫(yī)藥數據挖掘過程中需要針對性強、數據規(guī)范、數據量相對完備的專業(yè)數據庫,而藥智網數據庫中的中藥基本信息數據表收錄了1 690種常見中藥,記錄了其名稱、藥性、藥味、歸經、功效、炮制等基本信息,現(xiàn)抽取其中性、味、歸經、功能作為研究對象進行數據挖掘。
研究中需涉及中藥藥性、功效等信息,由于其記錄不統(tǒng)一、各種信息的名稱不規(guī)范等原因,造成數據顯示的內在規(guī)律會呈過度分散狀態(tài),使得現(xiàn)有數據庫不能直接按研究目的進行數據分析或數據挖掘,所以很有必要在數據分析前對數據進行預處理,數據預處理一般包括數據清洗、數據變換、數據集成等步驟[12]。
數據清洗:主要包括初步清洗和深度清洗兩部分。初步清洗主要是指除去數據當中冗余、無關的標點符號、空格等部分,這類錯誤常由人工錄入造成,規(guī)律性差,需人工逐一查找、規(guī)范并加以改善。深度清洗主要是指對中藥的性、味、歸經、功能進行清洗,去掉“有小毒”等無關成分;將屬性“微寒”變換為“寒”;將歸經的名詞簡化,如“大腸經”簡化為“大”,“脾經”簡化為“脾”,“膀胱經”簡化為“膀”等。數據清洗過程需提高數據的準確性、完整性和簡化性,盡可能地提高數據的質量。
數據變換:是指對某些信息描述中屬性值數目不唯一且有一定多樣性的數據進行轉換處理,將其簡化。原數據中每味中藥的某個屬性可能有多個值,且數目不相同,如漏蘆的介紹為“味苦性寒,歸胃經,有清熱解毒之功效,可消癰,下乳,舒筋通脈”;薤白的介紹為“味辛、苦,性溫,歸心、肺、胃、大腸經,有通陽散結、行氣導滯的功效”。分析發(fā)現(xiàn),漏蘆藥味屬性有1種、歸經有1種,而薤白藥味屬性有2種、歸經有4種,而數據庫中的數據無明顯規(guī)律,且組合種類繁多,不易于算法識別。故極有必要將原始數據分割、展開,以變換為簡單的數據形式。變換后保留2種主要藥味、1種主要藥性、3種主要歸經、3種主要功能,按一一對應原則分別將其展開,共得2×1×3×3=18項。經過處理后的數據形式簡潔明了。數據處理的難點還在于藥物功效的分類。一般藥物有主要功效和次要功效,但原有數據的功效多而雜。若僅將功效進行分割和初步清洗,所得功效將超過600種,需將其合并帶入Apriori算法中,然后將功能分類后的數據帶入算法。此種數據處理方式可降低項集絕對支持度,對于含有項較多的項集,其相對支持度基本無改變,對于含有項較少的項集,其相對支持度和絕對支持度均有改變。故對于最后的結果,項數越多的頻繁項集越可靠。在進行算法分析時,可將功效設為目標,設置其他3項為輸入項。
數據集成:主要是將來源、格式、特點性質不同的數據在不同的系統(tǒng)定義數據元素,并將這些數據元素在結構化的模式上有效協(xié)調存在的差異,同時保持一致的數據視圖,最終使得數據共享更加便捷化。
中醫(yī)理論中對“藥對”在七情、性、味、歸經、功效等多個角度的組成方法及形式均有涉及,但均僅對部分藥對進行了闡述,其間還存在部分信息交叉。雖合乎中醫(yī)藥臨床的實際操作,但與藥對組成結構的現(xiàn)代理論研究之間還存在一定的距離[5]。從藥對組成藥物的屬性入手,利用基于關聯(lián)規(guī)則的數據挖掘方法,可以探究中藥性、味、歸經、功能屬性間的關系,并可描述每兩個屬性間的關聯(lián)性強弱。
Apriori算法是關聯(lián)規(guī)則算法中最常用的算法。關聯(lián)規(guī)則的原理是,在數據集中,若大量記錄具有特征屬性A的同時,也頻繁出現(xiàn)特征屬性B,則稱特征屬性A和B構成模式,這些模式可以用關聯(lián)規(guī)則來觀察和分析,從而表現(xiàn)A和B之間的關聯(lián)性[4]。關聯(lián)規(guī)則的質量一般由規(guī)則的支持度(support)和置信度(confidence)來度量,它們分別反映所發(fā)現(xiàn)規(guī)則的有用性和確定性[11]。規(guī)則XY在數據庫D中的支持度是交易集中同時包含X和Y的事務數與所有事務數之比,記為support(XY)=support(X∪Y),可簡化表示為P(A∪B)。支持度描述了X和Y項集在所有事務集D中同時出現(xiàn)的概率。規(guī)則X和Y在事務集中的置信度是指同時包含X和Y項集的事務數與包含X項集的事務數之比,它用來衡量關聯(lián)規(guī)則的可信程度,記為confidence(XY)=support(X∪Y)support(X),可簡化表示為P(B|A),即在事務集D中出現(xiàn)項集A的同時,也出現(xiàn)項集B的概率[13-14]。本研究中采用MySQL和Excel作為數據處理工具,R語言、SPSS作為算法挖掘工具。
采用樣本分析法,隨機抽取一定數量的數據樣本,設置合理的參數,將不同樣本數據帶入算法模型運行,直到得出最理想的結果,則該模型為成功的預測模型。
隨機抽取700種中藥,根據性、味、歸經進行展開,得到最終數據1 767條。數據以csv格式儲存,并帶入SPSS運行算法。設置性、味、歸經、功能作為關聯(lián)規(guī)則算法模型項集的屬性,設置算法模型最低支持度為0.5%,置信度為60%,調用R關聯(lián)分析規(guī)則包中的算法進行調試,詳見圖1。

圖1 700種中藥性、味、歸經、功效網絡圖Fig.1 Network diagram of the nature,flavour,channel tropism and medicinal fundion of 700 kinds of traditional Chinese medicinal herbs
通過網絡節(jié)點,可直觀顯示各屬性間的關聯(lián)程度,其中每個原點各表示1種屬性,其間的直線表示原點間有關聯(lián),直線越粗,關聯(lián)程度越強[15-16]。由圖1可知,苦-寒、辛-溫、寒-清熱間關聯(lián)性很強,其次,苦-清熱、甘-補益、苦-肝間的關聯(lián)性較強,表明補益功能與溫、甘、腎,利水滲透功能與寒,理氣功能與溫有關聯(lián)。
利用模型對功能的預測結果可得關聯(lián)規(guī)則頻繁項集(見表1),分析可知,設置支持度為0.01%,置信度為55%時,預測結果最多為148項,其中預測準確數目為0。因此,樣本量為1 767建立的模型無法得到理想的效果,需進一步擴大樣本量對模型進行調試。
抽取全部1690種中藥,總數據量為4637條,以8∶2的比例選取其中80%為訓練集,20%為預測集。設置中藥性、味、歸經、功能為關聯(lián)規(guī)則算法模型項集的屬性,將算法模型的最低支持度設置為0.2%,置信度設置為60%,先調用R關聯(lián)分析規(guī)則包中的算法模型,將訓練集數據帶入算法進行調試,詳見圖2。可知,關聯(lián)強度較強的是清熱-苦、清熱-寒、溫-辛、肝-苦。同時,補虛與溫、肝、腎間有一定關聯(lián),祛風濕與溫、苦、辛、平、肝有一定關聯(lián),行(理)氣與溫有輕微關聯(lián),利水滲透與寒的關聯(lián)較弱。

表1 樣本1關聯(lián)規(guī)則頻繁項集Tab.1 Frequent item sets of association rules for sampleⅠ

圖2 1 690種中藥性、味、歸經、功效網絡圖Fig.2 Network diagram of the nature,flavour,channel tropism and medicinal fundion of 1 690 kinds of traditional Chinese medicinal herbs
利用模型的預測功能預測訓練集,對比結果得出準確率,預測準確率作為模型評估選擇依據。通過改變支持度和置信度來實現(xiàn)對模型的調試,直至出現(xiàn)最大準確率和預測的最大數量,該模型即為最優(yōu)模型。預測結果見表2,基于準確率和預測的數量,考慮采用支持度為0.2%、置信度為65%的模型。將預測集數據帶入模型,對數據進行運算,所得頻繁項集見表3。
中藥的藥性以平性最多,溫性、寒性次之。關聯(lián)分析結果顯示,藥效清熱與藥味苦,藥效清熱與藥性寒,藥性溫與藥味辛,藥入肝經與藥味苦有很強的關聯(lián);藥效補虛與藥性溫及藥入肝、腎經,藥效祛風濕與藥性溫、甘有較強的關聯(lián),驗證了中醫(yī)中的“辛味和甘味屬溫,苦味屬寒涼”的理論知識。

表2 模型預測結果Tab.2 Prediction results of model

表3 樣本2關聯(lián)規(guī)則頻繁項集Tab.3 Frequent item sets of association rules for sampleⅡ
根據關聯(lián)規(guī)則分析,置信度超過80%的關聯(lián)節(jié)點有平、辛、腎-祛風濕,溫、咸、腎-補虛,涼、淡-清熱,淡、膽-清熱,熱、苦-祛風濕。這表明藥性為平、藥味為辛的易入腎經,且多用于祛風濕;藥性為溫、藥味為咸的易入腎,用于補虛;涼性、清淡的可清熱;藥性為熱、藥味為苦的可祛風濕等。上述分析結果有效地驗證了中醫(yī)古籍理論。
苦味藥在傳統(tǒng)中醫(yī)理論中藥性寒涼,本研究中發(fā)現(xiàn),藥味苦與藥性熱有很強的關聯(lián)性,且這些藥物主要為祛風濕藥,這與中醫(yī)常識“苦味屬寒涼”有明顯不同,證明了中醫(yī)藥中味苦藥材并非全部屬寒涼藥性。這一結論有待中醫(yī)藥專業(yè)人員進一步研究和論證,并期待發(fā)現(xiàn)有創(chuàng)新、全新的中醫(yī)藥應用。
在大數據技術日益成熟的時代,中醫(yī)藥數據不斷聚合匯總,形成完整海量的大數據中醫(yī)藥平臺,將挖掘模型應用于這些具有極高價值的數據中,研究者不但可挖掘出更多、更有價值的信息,而且對于具有缺陷的中藥信息記錄書籍或資料,合適的數據挖掘模型也可發(fā)揮預測作用加以補全,從而提高中藥學資料的完整性。
當下,數據挖掘技術突飛猛進,并在諸多領域發(fā)揮作用。中醫(yī)藥領域有極其龐大的數據資源,且中藥資料或書籍里的數據之間也存在各種關聯(lián),這種關聯(lián)恰好是數據價值的核心所在。使用關聯(lián)規(guī)則挖掘能將分散的中藥數據關聯(lián)起來,發(fā)掘性、味、歸經與功能的關聯(lián)性和數據之間的依存性。該方法僅需分析人員利用自己的經驗及知識結構對數據進行一定規(guī)范,并帶入模型分析即可得出結果,可大幅降低人為主觀因素的影響。同時,該分析方法使用線將點與點進行連接,并用線的粗細程度來顯示點與點間的關聯(lián)強度,線條較粗的可用于驗證經典書籍或資料中理論的準確性,線條較細的可用于探究目前研究較淺或未知的歸經、功能,可能會更便利、有效地獲得新的信息。并且,此方法可直觀、生動、形象地展現(xiàn)性、味、歸經、功能間的關聯(lián)程度。
利用大數據挖掘方法研究中醫(yī)藥學,建立模型,規(guī)避研究人員本身的經驗或知識結構固化的限制,可挖掘出現(xiàn)有中醫(yī)藥學之外的潛在信息,大幅提高研究思路的創(chuàng)新性和多樣性,從而更快、更優(yōu)地挖掘出分散的傳統(tǒng)中藥數據背后潛藏的價值,推動創(chuàng)新中醫(yī)藥發(fā)展,傳承中醫(yī)精神。