裴衛(wèi),吳輝坤,李曉東,解丹**
基于機器學(xué)習(xí)的中醫(yī)治療肝硬化組方規(guī)律研究*
裴衛(wèi)1,吳輝坤2,李曉東2,解丹1**
(1.湖北中醫(yī)藥大學(xué)信息工程學(xué)院武漢430065;2.湖北省中醫(yī)院肝病研究所武漢430061)
目的:運用機器學(xué)習(xí)技術(shù)對中醫(yī)治療肝病處方中組方規(guī)律進行分析,為肝病臨床用藥以及新藥研發(fā)提供參考依據(jù)。方法:針對某三甲中醫(yī)院肝病科近2年肝病治療處方數(shù)據(jù),首先運用復(fù)雜網(wǎng)絡(luò)找出藥物之間的關(guān)聯(lián)結(jié)構(gòu),再運用關(guān)聯(lián)規(guī)則、聚類分析等無監(jiān)督機器學(xué)習(xí)方法,對其進行比較分析,最終得出中醫(yī)治肝硬化的組方規(guī)律。結(jié)果:對589首處方,共計257味中藥,高頻藥物組合包括頻繁二項集12項、三項集15項以及四項集14項;支持信≥10%、置信度≥90%的關(guān)聯(lián)規(guī)則包括“陳皮,神曲→白術(shù)”,“豬苓,陳皮→白術(shù)”等34條;通過聚類分析,發(fā)現(xiàn)中藥主要以5種特征進行歸類。機器學(xué)習(xí)結(jié)果與構(gòu)建的復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)完全一致。結(jié)論:運用機器學(xué)習(xí)方法進行中醫(yī)處方數(shù)據(jù)分析,并與復(fù)雜網(wǎng)絡(luò)方法相結(jié)合,以探究中醫(yī)治療肝硬化組方規(guī)律的方法確實可行,可為臨床治療肝硬化和找尋新方提供線索。
機器學(xué)習(xí)肝硬化中藥處方組方規(guī)律
肝硬化是一種常見的由不同病因引起的、以肝組織彌漫性纖維化、假小葉和再生結(jié)節(jié)為組織學(xué)特征的慢性進行性肝病[1]。臨床上起病隱匿,病程發(fā)展緩慢,早期無明顯癥狀,后期因肝臟變形硬化,血液循環(huán)途徑會有顯著改變,常見并發(fā)癥有上消化道出血、肝性腦病、繼發(fā)感染等[2,3]。中醫(yī)處方是中醫(yī)臨床治療經(jīng)驗的有效載體,中醫(yī)治療處方用藥規(guī)律研究是傳承中醫(yī)防治疾病方法的核心[4]。中醫(yī)處方是中醫(yī)治療疾病的圖譜,通過對處方中的組方規(guī)律進行分析,將對中醫(yī)藥學(xué)術(shù)繼承與創(chuàng)新具有重要意義[5]。而當(dāng)前對中醫(yī)處方進行組方規(guī)律研究通常采用數(shù)據(jù)挖掘方法,從數(shù)據(jù)分析的角度來看,絕大多數(shù)數(shù)據(jù)挖掘技術(shù)都來自機器學(xué)習(xí)領(lǐng)域[6]。通過文獻研究發(fā)現(xiàn),目前在中醫(yī)治療肝硬化上處方規(guī)律研究中用到的算法多為頻數(shù)統(tǒng)計、關(guān)聯(lián)規(guī)則、因子分析、聚類以及復(fù)雜網(wǎng)絡(luò),其中關(guān)聯(lián)規(guī)則、聚類屬于機器學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)方法。以往研究人員多使用一種或多種算法進行研究,尚沒有從某一方法入手,再通過機器學(xué)習(xí)從而提升獲取隱含知識率的探索。本文嘗試從復(fù)雜網(wǎng)絡(luò)入手,首先得到藥物之間的關(guān)聯(lián)結(jié)構(gòu)圖,再使用無監(jiān)督的機器學(xué)習(xí)方法進一步分析,包括關(guān)聯(lián)規(guī)則以及聚類,通過調(diào)節(jié)權(quán)重值進行反復(fù)實驗,將學(xué)習(xí)結(jié)果與復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)進行互證。通過機器學(xué)習(xí),可以更加確切的反映藥物之間的聯(lián)系,挖掘出處方之間的內(nèi)在聯(lián)系,本文方法可為中醫(yī)治療肝硬化和開發(fā)新方提供數(shù)據(jù)支撐和理論參考。
從20世紀(jì)90年代至今,中醫(yī)治療肝硬化組方規(guī)律研究已有一定基礎(chǔ)。程遠(yuǎn)[7]將某“三甲”醫(yī)院肝硬化藥物治療的數(shù)據(jù),按照藥物效果分類,通過頻數(shù)統(tǒng)計、聚類分析的方法找到高頻藥物匯總,利用Apriori算法進行分析,發(fā)現(xiàn)數(shù)據(jù)分析矩陣和Apriori算法建模所得結(jié)果一致。嚴(yán)明[8]收集周仲瑛教授診治肝硬化病例數(shù)據(jù),采用頻數(shù)統(tǒng)計法和因子分析法,對證候信息辨識、病機證素特征和選方用藥經(jīng)驗三個方面進行挖掘,提煉周教授對肝硬化的治療經(jīng)驗、思路和方法。孫繼佳[9]對肝硬化臨床患者的相關(guān)信息,采用粗糙集方法建立證候決策信息表,提取與肝硬化各證型有密切關(guān)聯(lián)的重要癥狀、體征,利用這些提取的癥狀組合作為支持向量機的輸入,從支持向量機分類結(jié)果得到相應(yīng)的證候,認(rèn)為基于粗糙集與支持向量機的中醫(yī)辨證具有比較高的可靠性。陳明[10]通過對患者進行關(guān)聯(lián)分析,找出符合最小支持度和最小置信度的中醫(yī)證候,認(rèn)為關(guān)聯(lián)規(guī)則是廣泛運用的數(shù)據(jù)挖掘工具之一。孫潔[11]搜集整理名老中醫(yī)治療肝硬化腹水的醫(yī)案,運用頻數(shù)分析法、關(guān)聯(lián)規(guī)則分析法及聚類分析法,對證候分布、病機證素特征、用藥規(guī)律三大方面的內(nèi)容進行挖掘,歸納總結(jié)名老中醫(yī)對本病的治療用藥經(jīng)驗及學(xué)術(shù)思想。吳輝坤[12]對肝硬化門診患者臨床資料進行處理,利用數(shù)據(jù)分類、關(guān)聯(lián)、聚類等大數(shù)據(jù)分析方法對數(shù)據(jù)進行分析。閻小燕[13]收集尹常健教授治療肝硬化門診處方,使用中醫(yī)傳承輔助系統(tǒng),發(fā)現(xiàn)利用文本挖掘、關(guān)聯(lián)規(guī)則等數(shù)據(jù)挖掘方法較好的體現(xiàn)了尹常健教授治療肝硬化的用藥規(guī)律。劉嘉輝[14]研究國醫(yī)大師治療肝硬化的用藥規(guī)律,將搜集到的63個醫(yī)案中的方藥信息提取,對藥物的功效、性、味、歸經(jīng)進行描述性統(tǒng)計和對高頻藥物進行聚類分析和關(guān)聯(lián)分析。
綜上,目前大部分肝硬化方面的組方規(guī)律研究多從關(guān)聯(lián)規(guī)則、分類、聚類三類數(shù)據(jù)挖掘方法入手,探尋證候信息、病機證素以及選方用藥經(jīng)驗。尚沒有從機器學(xué)習(xí)角度,將復(fù)雜網(wǎng)絡(luò)與機器學(xué)習(xí)相結(jié)合,通過不斷調(diào)整參數(shù),進一步探尋組方藥物間關(guān)聯(lián)度的研究,因此本文工作具有一定理論創(chuàng)新性。
2.1 數(shù)據(jù)來源
以某三甲中醫(yī)院2015年7月至2016年8月間,參照2011年8月中國中西醫(yī)結(jié)合學(xué)會消化系統(tǒng)疾病專業(yè)委員會制定的《肝硬化中西醫(yī)結(jié)合診療共識》明確診斷為乙肝肝硬化的700例門診記錄[15]。本文用到的字段包括患者診療記錄中的患者基本信息(門診號、西醫(yī)診斷、性別、年齡)、檢驗(首次檢查總膽紅素、首次檢查凝血酶原時間、首次檢查白蛋白、末次檢查總膽紅素、末次檢查凝血酶原時間、末次檢查白蛋白等)以及醫(yī)囑(即處方)信息。
2.2 納入標(biāo)準(zhǔn)
依據(jù)肝功能Child-Pugh分級標(biāo)準(zhǔn),計算患者的首次來院檢驗的得分與經(jīng)過一段時間診療后最近一次來院檢驗的得分,篩選診療前后評分下降的案例作為本文的有效數(shù)據(jù)[16]。肝硬化對Child-Pugh分值變化敏感度低,出現(xiàn)評分下降的情況可認(rèn)為該案例在一定概率下是治療有效的。
2.3 排除標(biāo)準(zhǔn)
文獻數(shù)據(jù)的排除標(biāo)準(zhǔn)包括:①患者門診號缺失;②中藥處方信息缺失;③缺少Child-Pugh分級標(biāo)準(zhǔn)所需信息:肝性腦病、腹水、血清膽紅素、血清白蛋白和凝血酶原時間。
2.4 納入情況
依據(jù)納入標(biāo)準(zhǔn)和排除標(biāo)準(zhǔn),篩選所有治療有效案例,從700例原始案例中最終獲得620份有效案例納入后續(xù)分析。
3.1 數(shù)據(jù)預(yù)處理
本文數(shù)據(jù)預(yù)處理工作主要包括檢驗數(shù)據(jù)修正與有效記錄的篩選、多處方識別與處方長文本分割以及藥物名稱的規(guī)范化。所有工作均在中醫(yī)肝病臨床醫(yī)生指導(dǎo)下,采用python編程方式完成,具體工作如下:
3.1.1 檢驗數(shù)據(jù)修正與有效記錄的篩選
對原始數(shù)據(jù)中的檢驗數(shù)據(jù)進行修正,主要包括缺失檢驗數(shù)據(jù)的填補以及極端值形成原因的判定與修正。在完成原始數(shù)據(jù)檢驗值的修正后,再依據(jù)肝功能Child-Pugh分級標(biāo)準(zhǔn)進行計算。
3.1.2 多處方識別與處方長文本分割
對多處方現(xiàn)象進行歸并,通過識別數(shù)值與逗號對原始處方進行分割,最終獲得589首處方數(shù)據(jù)。如:白茅根30 g,澤瀉15 g,車前草15 g,朱云苓15 g,識別后為白茅根,30;澤瀉,15;車前草,15;朱云苓,15。
3.1.3 藥物名稱的規(guī)范化
本文處方數(shù)據(jù)共包含407種中藥名稱,規(guī)范化的中藥名稱219種、不規(guī)范的中藥名稱188種,不規(guī)范中藥名稱中包含中藥別名97種、中藥簡稱3種以及炮制中藥88種。對未規(guī)范中藥的名稱進行規(guī)范化預(yù)處理,并參照《中藥編碼規(guī)則集編碼》(中華人民共和國國家標(biāo)準(zhǔn)[GB/T 31774-2015])與《中國藥典》(2015年版)對預(yù)處理后的藥物進行嚴(yán)格規(guī)范化,最終獲得257種標(biāo)準(zhǔn)中藥名稱。
3.2 分析方法
通過數(shù)據(jù)預(yù)處理之后,進行數(shù)據(jù)分析。本文采用的分析方法主要有二大類,首先是復(fù)雜網(wǎng)絡(luò),其次是無監(jiān)督的機器學(xué)習(xí)方法:關(guān)聯(lián)規(guī)則和聚類。由于本文的數(shù)據(jù)規(guī)模較小,因此不用過多考慮算法的時間損耗,重點關(guān)注學(xué)習(xí)過程(即參數(shù)設(shè)置)以及產(chǎn)生結(jié)果的合理性解釋。本文構(gòu)建復(fù)雜網(wǎng)絡(luò)的思路是將每味中藥作為一個節(jié)點,兩味中藥之間有連線是他們同時出現(xiàn)在某一處方中,提取出藥物之間的相互關(guān)系,并繪制藥物關(guān)聯(lián)結(jié)構(gòu)圖。機器學(xué)習(xí)方法中關(guān)聯(lián)規(guī)則采用的是經(jīng)典Apriori算法,根據(jù)數(shù)據(jù)分布情況進行最小支持度和最小置信度的設(shè)置,選擇最優(yōu)參數(shù)。聚類分析采用的是經(jīng)典k-means算法,將給定數(shù)據(jù)集分為K個簇,簇數(shù)K由用戶設(shè)定,每一個簇通過簇中所有點的中心來描述。根據(jù)設(shè)置不同的簇數(shù)和隨機種子數(shù)以獲得最優(yōu)簇數(shù)k,然后得到每一簇的中藥組合。在二類方法完成之后,結(jié)果可以進行互證。
4.1 復(fù)雜網(wǎng)絡(luò)分析結(jié)果
復(fù)雜網(wǎng)絡(luò)主要用于體現(xiàn)藥物之間的相互關(guān)系。為了展現(xiàn)藥物之間的關(guān)聯(lián),將兩味中藥同時出現(xiàn)的次數(shù)除以中藥總味數(shù)(257味)作為權(quán)重。利用Gephi軟件,把藥物之間的相互關(guān)系以圖形化的方式展現(xiàn)出來(圖1)。
在圖1中,每一個實心圓圈就是一個節(jié)點,代表一味中藥。圓圈的面積越大,說明該節(jié)點的度越高,它反映了該節(jié)點在網(wǎng)絡(luò)圖中的直接影響力。邊的粗細(xì),表示權(quán)重大小,它反映了兩個節(jié)點之間的關(guān)系密切程度。圖1中A表示權(quán)重值>30的藥物結(jié)構(gòu),而B是所有藥物之間的關(guān)聯(lián)。從圖1-A中可以發(fā)現(xiàn)白術(shù)、茯苓、甘草、茵陳蒿、丹參和澤瀉等6味中藥的影響力最高,其次是陳皮、豬苓、神曲、半夏、雞內(nèi)金、大腹皮、郁金和枳殼等。
除此之外,本文還嘗試使用單處方劑量平均加權(quán)方式以及多處方綜合劑量加權(quán)方式,但得到的結(jié)果給臨床醫(yī)生審核后發(fā)現(xiàn)沒有實際意義,可見在中藥處方中僅靠劑量方式加權(quán)意義不大,還需結(jié)合中藥的四性五味特點來分析,但目前電子病歷中普遍缺少中藥的君臣佐使信息,無法進行大規(guī)模分析。
4.2 無監(jiān)督機器學(xué)習(xí)
由于本文數(shù)據(jù)均為已經(jīng)確診為肝硬化的患者,不具有診斷分類價值,因此采用無監(jiān)督機器學(xué)習(xí)方法,從現(xiàn)有數(shù)據(jù)中找尋組方規(guī)律,主要對處方中的中藥進行分類統(tǒng)計,包括單味中藥、藥物組合、藥物分類等,分別采用了頻次統(tǒng)計、關(guān)聯(lián)規(guī)則以及聚類方法。
首先利用Excel對納入的589首處方,257種中藥進行單味中藥的頻次統(tǒng)計,得到治療肝硬化處方中,中藥使用頻次在40次以上共計50味中藥列表(表1)。
由表1可知,出現(xiàn)次數(shù)大于200的高頻中藥有:白術(shù)、茯苓、甘草、茵陳蒿、丹參、澤瀉、豬苓和陳皮。由于頻次統(tǒng)計與復(fù)雜網(wǎng)絡(luò)的原理相同,因此與復(fù)雜網(wǎng)絡(luò)結(jié)果完全一致。

圖1 中醫(yī)治療肝硬化處方的藥物復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)圖

表1 治療肝硬化處方中用藥頻次>40的中藥
4.2.1 關(guān)聯(lián)分析結(jié)果
用Weka中內(nèi)嵌的Apriori算法,對肝硬化處方中藥數(shù)據(jù)進行關(guān)聯(lián)分析。將所有257味中藥進行關(guān)聯(lián)規(guī)則分析。在設(shè)置最小支持度和最小置信度參數(shù)時,分別從10%-30%和75%-95%,每隔5%進行一次嘗試。最后發(fā)現(xiàn)在設(shè)置最小支持度為10%、最小置信度為90%時獲得的頻繁項集結(jié)果最為合理(表2)。
表2中共得到頻繁二項集12項,頻繁三項集15項以及頻繁四項集14項。在設(shè)置最小支持度為10%、最小置信度為90%時,得到的關(guān)聯(lián)規(guī)則結(jié)果見表3。以第一行為例,“陳皮,神曲->白術(shù)”是一條藥物組合規(guī)則,“陳皮,神曲,白術(shù)”同時出現(xiàn)的概率為10%,當(dāng)出現(xiàn)“陳皮和神曲”時100%會出現(xiàn)“白術(shù)”,這是一條強規(guī)則。
表3反映了多味藥物之間的組合關(guān)系,為了更形象地反映出任意兩味中藥的關(guān)聯(lián)程度大小,對其進行可視化。用每個節(jié)點表示一味中藥,節(jié)點大小表示該中藥出現(xiàn)的次數(shù),連接兩個節(jié)點的弧線粗細(xì)程度表示關(guān)聯(lián)次數(shù)的多少。利用Gephi工具繪制關(guān)聯(lián)規(guī)則結(jié)果(圖1)。
表3中一共涉及到的中藥有14味,分別是:陳皮,豬苓,澤瀉,甘草,神曲,茯苓,白術(shù),茯苓皮,黨參,車前子,雞內(nèi)金,半夏,丹參和郁金。根據(jù)表3繪制的關(guān)聯(lián)圖2中顯示“白術(shù)、陳皮、澤瀉、甘草”的出現(xiàn)次數(shù)最高,而“白術(shù),陳皮”、“白術(shù),澤瀉”、“白術(shù),甘草”,“豬苓,澤瀉”的關(guān)聯(lián)度最高。此結(jié)果不僅體現(xiàn)了前面復(fù)雜網(wǎng)絡(luò)與頻次統(tǒng)計的結(jié)果,更進一步說明了藥物之間的組合規(guī)律。

表2 頻繁項集(最小支持度=10%,最小置信度=90%)

圖2 藥物關(guān)聯(lián)結(jié)果圖

圖3 聚類類別對照圖

表4 隨機種子值選擇對照表
4.2.2 聚類分析結(jié)果
聚類分析試圖將相似對象歸于同一簇,將不相似的對象歸到不同簇,這里所謂的相似取決于所選擇的相似度計算方法。本文認(rèn)為同時出現(xiàn)次數(shù)越多,其相似度越高。運用Weka軟件,嘗試使用了多種算法,包括k-means、熵聚類以及層次聚類,最后發(fā)現(xiàn)k-means算法的結(jié)果最符合臨床醫(yī)生的經(jīng)驗,因此選擇kmeans算法進行聚類簇數(shù)k的設(shè)定(圖3)。

表5 聚類分析結(jié)果
從圖2中可以發(fā)現(xiàn),當(dāng)k=5或者k=6時分類效果較好,各類區(qū)別度較高。因此對于聚類簇數(shù)K分別設(shè)置為5和6時,進行隨機種子值的確定(表4)。
衡量聚類好壞的參數(shù)為“分類的平方誤差和”,此參數(shù)越小,表明聚類效果越好。由表4可知,當(dāng)聚類簇數(shù)k=6,隨機種子值seed=29時效果較好。以該參數(shù)進行聚類分析,得到治療肝硬化處方中藥的聚類分析結(jié)果(表5)。
表5中有6個分類,但其中第四類的藥物較少,主要體現(xiàn)了5類特征。在臨床醫(yī)生指導(dǎo)下,這一結(jié)果基本符合臨床用藥規(guī)律,特別是每一類的前幾味中藥,均為高頻藥物,與復(fù)雜網(wǎng)絡(luò)結(jié)果相吻合。
本文從復(fù)雜網(wǎng)絡(luò)出發(fā),通過機器學(xué)習(xí)方法,一方面可以用于互證二種方法的結(jié)果,另外復(fù)雜網(wǎng)絡(luò)結(jié)果有助于進行機器學(xué)習(xí)算法的參數(shù)調(diào)整,讓計算機可以通過不斷學(xué)習(xí)來找到接近目標(biāo)函數(shù)的假設(shè)值(即參數(shù))。本文的分析結(jié)果表明,機器學(xué)習(xí)方法與復(fù)雜網(wǎng)絡(luò)結(jié)果完全吻合。今后可以使用機器學(xué)習(xí)與復(fù)雜網(wǎng)絡(luò)等其它方法相結(jié)合的方式進行組方規(guī)律研究,對臨床有較強實用價值。雖然,基于機器學(xué)習(xí)的中醫(yī)處方規(guī)律研究正在興起,但還存在許多問題需要繼續(xù)探索:
5.1 提高處方數(shù)據(jù)量
本文涉及中醫(yī)處方均來自于某中醫(yī)院乙肝肝硬化中醫(yī)門診案例,中藥種類有限,在未來研究中應(yīng)納入更多臨床處方。伴隨著中醫(yī)臨床處方的動態(tài)增長性,需結(jié)合新增處方對模型進行定期訓(xùn)練與評價。
5.2 提高數(shù)據(jù)質(zhì)量
本文在數(shù)據(jù)預(yù)處理中發(fā)現(xiàn)普遍存在檢驗數(shù)據(jù)不全或缺失、中藥使用不規(guī)范現(xiàn)象,對電子病歷的數(shù)據(jù)質(zhì)量提了較高要求。原始數(shù)據(jù)采集時需進一步加強數(shù)據(jù)質(zhì)控管理,避免數(shù)據(jù)缺失、中藥名稱不規(guī)范等現(xiàn)象發(fā)生。
5.3 改進機器學(xué)習(xí)算法
現(xiàn)階段中醫(yī)處方研究多從不同角度使用不同的機器學(xué)習(xí)算法進行建模分析,算法之間并不存在交叉,而結(jié)合多種算法構(gòu)建復(fù)合算法,有利于從多種角度探索處方數(shù)據(jù)中藥物的配伍規(guī)律,實現(xiàn)結(jié)果多元化。例如:使用時間序列算法,結(jié)合同一患者不同時段的檢驗數(shù)據(jù)對患者階段性醫(yī)囑進行區(qū)分加權(quán);使用聚類算法,結(jié)合診療記錄中患者的癥狀對患者分類,根據(jù)不同類別患者病情的嚴(yán)重程度對患者的診療記錄進行區(qū)分加權(quán);使用神經(jīng)網(wǎng)絡(luò)算法訓(xùn)練藥物名稱的詞向量,從而計算兩個處方的相似度等。建立多種算法集成的機器學(xué)習(xí)模型有助于從多角度探索中醫(yī)處方數(shù)據(jù),提高模型對真實世界的擬合度。
1汪敬富.活血利濕補益肝腎法治療肝硬化的臨床及實驗研究.南京:南京中醫(yī)藥大學(xué)博士學(xué)位論文,2009.
2王思穎.肝炎肝硬化脈象、脈圖的特征及其與癥狀、實驗室指標(biāo)的相關(guān)性研究.北京:北京中醫(yī)藥大學(xué)碩士學(xué)位論文,2013.
3邊靜.細(xì)述肝硬化患者的早期癥狀與臨床治療.中國繼續(xù)醫(yī)學(xué)教育, 2015,7(14):54-55.
4唐仕歡,楊洪軍.中醫(yī)組方用藥規(guī)律研究進展述評.中國實驗方劑學(xué)雜志,2013,19(5):359-363.
5孫敬昌,王燕平.基于中醫(yī)傳承輔助系統(tǒng)的治療水腫方劑用藥規(guī)律分析.中國實驗方劑學(xué)雜志,2012,18(10):11-16.
6周志華.機器學(xué)習(xí)與數(shù)據(jù)挖掘.南京大學(xué)計算機軟件新技術(shù)國家重點實驗室.
7程遠(yuǎn),曾照芳.關(guān)聯(lián)規(guī)則挖掘在藥物治療肝硬化中的應(yīng)用研究.激光雜志,2010,31(5):72-74.
8嚴(yán)明.基于病案數(shù)據(jù)挖掘分析的周仲瑛教授辨治肝硬化臨床經(jīng)驗研究.南京:南京中醫(yī)藥大學(xué)碩士學(xué)位論文,2013.
9孫繼佳,蘇式兵,陸奕宇,等.基于粗糙集與支持向量機的中醫(yī)辨證數(shù)據(jù)挖掘方法研究.數(shù)理醫(yī)藥學(xué)雜志,2010,23(3):261-265.
10陳明,楊慧芳,余蕾.基于關(guān)聯(lián)規(guī)則的肝硬變辨證數(shù)據(jù)挖掘研究.河南中醫(yī),2009,29(3):258-260.
11孫潔.基于數(shù)據(jù)挖掘的名老中醫(yī)治療肝硬化腹水臨床經(jīng)驗研究.南京:南京中醫(yī)藥大學(xué)碩士學(xué)位論文,2016.
12吳輝坤,李曉東,謝丹,等.基于數(shù)據(jù)挖掘從痰毒瘀虛治療肝硬化的用藥規(guī)律研究:第七次全國中西醫(yī)結(jié)合傳染病學(xué)術(shù)會議,中國山東青島,2016.
13閻小燕,安勇,邵建珍.基于中醫(yī)傳承輔助平臺的尹常健教授治療肝硬化用藥規(guī)律分析.中國實驗方劑學(xué)雜志,2015,21(20):225-230.
14劉嘉輝,呂東勇,何潔茹,等.基于數(shù)據(jù)挖掘?qū)t(yī)大師治療肝硬化用藥規(guī)律研究.中華中醫(yī)藥雜志,2015,30(12):4328-4331.
15劉成海,危北海,姚樹坤.肝硬化中西醫(yī)結(jié)合診療共識.中國中西醫(yī)結(jié)合消化雜志,2011,19(4):277-279.
16衛(wèi)生部.原發(fā)性肝癌診治指南(肝功能Child-Pugh分級標(biāo)準(zhǔn)),2011.
Study on Prescription Regularity of Traditional Chinese Medicine in Treating Cirrhosis Based on Machine Learning
Pei Wei1,Wu Huikun2,Li Xiaodong2,Xie Dan1
(1.College of Information Engineering,Hubei University of Chinese Medicine,Wuhan 430065,China; 2.Hepatology Institute,Hubei Province Chinese Medicine Hospital,Wuhan 430061,China)
This study was aimed to use machine learning techniques for the prescription regularity of traditional Chinese medicine(TCM)in the treatment of liver diseases in order to provide a reference basis for clinical treatment as well as research and development of new drugs.According to the prescription data of liver disease treatment of the last two years in the hepatology department of a triple-A TCM hospital,the related structure between drugs was firstly found by the complex structure of drugs.And then,association rule,cluster analysis and other unsupervised machine learning methodswere used.The prescription regularity of TCM in the treatment of cirrhosis was
through the comparison and analysis.The results showed that there were 589 prescriptions with 257 types of Chinese medicine herbs.The high frequency drug combination included 2 items of 12,3 items of 15,4 items of 14;support>10%,confidence>90%of the association rule include“dried tangerine peel,medicated leaven→largehead atractylodes rhizome,”“polyporus umbellatus,dried tangerine peel→largehead atractylodes rhizome”and other 34;through cluster analysis,it showed that Chinese medicine was mainly classified by 5 characteristics.The machine learning result was the same as the constructed complex network.It was concluded that the combination of complex network and machine learning methods in the exploration of prescription regularity of TCM in the treatment of cirrhosis were feasible.It provided clinical treatment of cirrhosis and clues for finding new prescription in the treatment of cirrhosis.
Machine learning,cirrhosis,traditional Chinese medicine prescription,prescription regularity
10.11842/wst.2017.06.010
R256.4
A
(責(zé)任編輯:馬雅靜,責(zé)任譯審:王晶)
2017-03-20
修回日期:2017-05-20
*老年病中藥新產(chǎn)品湖北省協(xié)同創(chuàng)新中心項目(201506):湖北省中醫(yī)老年病數(shù)據(jù)資源管理平臺構(gòu)建研究,負(fù)責(zé)人:解丹;國家中醫(yī)藥管理局中醫(yī)臨床研究基地業(yè)余建設(shè)科研專項課題(JDZX2012051):中醫(yī)治療慢性乙型肝炎真實世界效果比較研究,負(fù)責(zé)人:李曉東。
**通訊作者:解丹,副教授,主要研究方向:醫(yī)學(xué)數(shù)據(jù)挖掘。