999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

云環境下海量方劑組方規律分析 *

2016-06-05 14:15:25竇鵬偉佘侃侃
世界科學技術-中醫藥現代化 2016年3期
關鍵詞:數據挖掘分析

竇鵬偉,王 珍,佘侃侃

(南京中醫藥大學信息技術學院 南京 210023)

云環境下海量方劑組方規律分析 *

竇鵬偉,王 珍**,佘侃侃

(南京中醫藥大學信息技術學院 南京 210023)

目的:結合云計算技術對海量方劑數據進行關聯分析,揭示其內在的組方規律。方法:研究云環境下分析海量數據的關鍵技術,構建方劑組方數據的指標體系,結合MapReduce編程模型對Apriori算法進行改進,設計并利用基于云計算的海量方劑組方規 律分析平臺對方劑數據進行關聯分析。結果:以海量方劑組方數據 為例,探索方劑組方的一般規律,得出方劑藥物間和癥狀與藥物間的關聯關系。結論:研究結論與實際應用相符,在一定程度上揭示了病證方藥的內在規律,可以為臨床病證辨證論治、遣藥組方提供依據。在計算效率方面,云平臺具有明顯優勢。

云計算 MapReduce 方劑組方規律 Apriori算法

方劑是中醫藥臨床實踐的原始記錄,是經歷了幾千年積累的龐大數據集合,是寶貴的中醫藥資源和人類財富。據不完全統計,截止晚清的歷代古方有近10萬首。隨著中醫藥事業的不斷發展和古文獻資料的研究挖掘,越來越多的珍貴方劑被發現和認可。面對紛繁復雜的海量方劑數據,如何對其進行有效解析,準確揭示其內在的組方規律,又是一項巨大挑戰。

目前,最常用的研究方劑組方規律的科學方法是數據挖掘技術。通過對方劑數據進行特征、分類、聚類、趨向、偏差和特例現象的深層多維分析,來揭示“方-藥-證”的復雜特殊關系,發現其隱含 的規則、模式和規律[1]。隨著中醫藥方劑數量的與日俱增,傳統的基于單一節點的數據挖掘模式已不能快速準確地完成海量方劑數據的分析與挖掘,而利用云計算技術能獲取網絡中強大的計算資源,將方劑組方規律分析中需要消耗大量計算資源的復雜計算通過網絡分布到多節點上計算的方式成了新的有效解決方案[2]。云計算將計算任務發布在大量計算機構成的資源池上,使各種應用系統能夠根據需要獲取計算能力、存儲空間和各種軟件服務,通常涉及的是動態易擴展的虛擬化資源[3]。

1 云環境下的MapReduce編程模式

計算能力取決于硬件計算資源,計算能力不足時需要增加硬件資源,冗余時就會造成硬件資源的浪費。因此,計算能力的獲取和使用上存在著較大的制約。云計算正是用來解決這一問題的新的計算服務模式,其基本思路是集中計算資源來提供巨大的計算能力。目前最常用的并行計算模型是由谷歌公司提出的MapReduce編程模式。

MapReduce是一種新型的處理海量數據的編程模式,主要用于大規模數據并行計算。MapReduce為用戶提供了分布式的文件系統,讓用戶能夠方便快捷地處理大規模數據。在MapReduce編程模式中,所有的程序運算都被抽象為Map和Reduce這兩個基本操作,在Map階段,計算被分解成更小規模的計算,并在集群的不同節點上執行;在Reduce階段,結果被逐步歸并匯總。MapReduce編程模式借鑒的是函數式程序設計語言Lisp的思想,定義了Map和Reduce兩個抽象的程序接口,由用戶自主實現:① Map:(k1;v1)→[(k2;v2)];② Reduce:(k2;[v2])→[(k3;v3)]。

MapReduce的執行由兩種不同類型的節點負責,Master和Worker。Master節點負責任務的調度和不同節點間數據的共享,Worker節點負責數據的處理。如圖1,具體過程如下[4]:

①啟動計算機集群,利用MapReduce提供的函數庫將輸入數據切分為N份;

②Master節點找出空閑的Worker節點,為其分配子任務;

③空閑的Worker節點獲得Map子任務后讀入相應的輸入數據,并解析輸入數據的key/value對,然后調用用戶編寫的Map函數進行數據的分析與計算;

④Map函數的中間結果緩存在內存中并周期性地寫入本地磁盤;中間結果的地址會發送給Master節點,Master調用負責Reduce任務的Worker節點對中間結果進行Reduce處理;

⑤空閑的Worker節點分配到Reduce子任務后通過遍歷獲得Map子任務產生的中間結果,將不同的key和value進行結合,并作為參數傳遞給用戶編寫的Reduce函數進行處理;

⑥Reduce函數的處理結果被寫入到一個最終的輸出文件。當全部的Map子任務和Reduce子任務都完成后,Master節點將全部的Reduce結果返回給用戶程序。用戶程序對節點返回的結果數據再次進行合并,從而得到最終結果。

2 基于云計算的海量方劑組方規律分析平臺的設計與實現

2.1 系統架構

基于云計算的海量方劑組方規律分析平臺有3類節點,如圖2。主控節點負責調度和協調計算節點間的工作進程,進行任務分配和算法調用,并接收計算節點返回的結果;數據節點負責存儲海量方劑數據;計算節點根據任務單元中的數據源信息從數據節點中獲取方劑數據,以主控節點指定的算法進行配伍規律挖掘,并把結果返回給主控節點。

2.2 方劑組方數據倉庫指標體系

圖1 MapReduce運行模型

圖2 基于云計算的方劑組方規律分析平臺

表1 方劑組方數據倉庫指標體系

方劑組方數據具有多層關聯結構,如藥-藥、藥-癥、藥性-炮制、功效-主治、原方-加減方、加減方-變癥等。其中,“證-藥-方”是核心,針對“證”,選用“藥”,配制“方”。而證又是由若干證候組成的,藥包含性味、歸經、功效,方則存在復雜的組配關系及加減變化。本文認為,要想準確揭示方劑組方規律,必須針對“證”、“藥”、“方”建立合理的指標體系,指標體系的建立是進行預測或評價研究的前提和基礎。

通過咨詢數名相關領域專家和查閱大量文獻資料[5,6],建立了方劑數據的一級指標因素集U={U1[類方],U2[主治證型],U3[證候],U4[組方],U5[用法],U6[禁忌]},如表1所示。然后依次建立了二級指標因素集U1={解表劑,祛暑劑,……,固濕劑},U2={風寒束表證,肺脾氣虛證,……,肺腎兩虛證},U3={惡寒,發熱,……,咳嗽},U4={麻黃,芍藥,……,川芎},U5={煎服,共研細末,……,外敷},U6={十八反,十九畏,……,服藥禁忌}。

在方劑指標體系下,為了使海量數據更好地滿足數據挖掘的要求,建立了星型的方劑數據倉庫,如圖3所示,其中包含方劑主庫、主治證型庫、證候庫、藥物庫、用法庫和禁忌庫,各數據庫間以線性或非線性關系相互關聯。

圖3 云環境下的方劑組方數據倉庫模型

2.3 基于云計算的海量方劑組方規律分析算法

數據挖掘技術在方劑研究特別是組方規律分析方面發揮著巨大的作用,其主要研究方法有分類、聚類[7-9]、關聯規則[10-12]、神經網絡[13-16]等,常見的算法有Apriori[17]、FP-Growth[18,19]、粗糙集理論[20-22]等。基于云計算的海量方劑組方規律分析平臺采用改進的Apriori算法進行方劑藥物間的關聯規則分析。

2.3.1 Apriori算法

Apriori算法[23,24]是Agrawal和R.Srikant于1994年提出,是最有影響的挖掘布爾關聯規則頻繁項集的算法之一。Apriori算法挖掘最大頻繁項集的基本思想是:首先找出事務中所有的頻集,這些頻集出現的頻繁性需要滿足預先設定的最小支持度;隨后由頻集產生強關聯規則,這些規則必須滿足最小支持度和最小置信度[25]。

在方劑組方規律研究中,將最小支持度(support)的闕值設為7%,最小置信度(confidence)的闕值設為60%。規則A=>B(其中A和B是項目的集合)的支持度和置信度分別定義為:

support(A=>B)=P(AUB); confidence(A=>B)=P(B|A)。

Apriori算法采用迭代的方式對數據集進行逐層搜索[26],主要步驟為:

①簡單統計一個元素項集的出現頻數,找出不小于最小支持度的項集,即一維最大項集。

②從第二步開始進行遞歸處理,直到沒有最大項集產生。遞歸處理的方法是:在第k步中,根據第k-1步生成的k-1維最大項集構造k維候選項集,然后對數據倉庫進行搜索,計算得到候選項集的支持度,通過與設定的最小支持度比較,確定是否是k維最大項集。

2.3.2 基于Map函數的Apriori算法

在經典的Apriori算法中,設N表示方劑數據倉庫的總數據量,T表示最大的藥物組方,Ln表示頻繁n項集。第一次掃描數據倉庫的時間為在后面的每一步中,連接消耗時間為剪枝消耗時間為掃描計數消耗時間為故有總時間消耗為

表2 基于頻次的藥物重要性分析

根據以上分析可知,在頻繁2項集和頻繁3項集的生成及其候選頻繁項集的計數連接過程中有很大的時間消耗。針對傳統的Apriori算法在海量方劑數據挖掘中時間消耗大、系統響應速度慢等問題,提出了云環境下基于Map函數的Apriori算法,通過給每個節點都附帶Map程序,從而達到減少連接次數和掃描時間、降低時空消耗的目的,使得算法性能顯著提高。

基于Map函數改進的Apriori算法偽代碼如下:

F1=find_1_itemsets(d);//局部頻繁1項集

for(k=2;Lk-1≠Φ;k++){

Ck=apriori_gen(Fk-1,d);//掃描數據庫,計算t的支持度

for each transaction t∈dC1=subset(Ck,t);

for each candidate c∈C1

c.count++;}

generate pair <c,c.suppprt>

end for

return U <c,c.support> //返回支持度

3 方劑組方規律挖掘方法及實驗結果分析

3.1 方劑組方規律挖掘方法

為了保證數據的準確性、可靠性和完整性,特選取《中醫方劑大辭典》中的數10萬首方劑作為數據來源。實驗所采用的數據集是以風寒束表證為主治證型的1 240條辛溫解表劑。

第一步,根據方劑組方數據倉庫的一級指標,將1 240條辛溫解表劑與“藥物庫”進行交叉比對,得到基于頻次的藥物重要性分析結果,如表2所示,共涉及438種藥物。

第二步,將1 240條辛溫解表劑與“證候庫”交叉比對,進行證候指標抽取,并進行相應的證候頻次統計,結果如表3所示。

第三步,將癥狀與藥物進行云環境下的關聯分析,得到藥-藥間的組方規律和癥-藥間對應關系,見表4、表5。

表4 藥物間的關聯關系/%(支持度≥7%,置信度≥60%)

表5 癥狀與藥物間的關聯關系/%

表6 執行時間對比/s

3.2 實驗結果分析

分析表2、表3可以發現,甘草、麻黃、防風、川芎等藥物在辛溫解表劑中使用頻繁,是主要用藥;惡寒、惡風、頭痛、發熱、咳嗽、脈浮緊等癥狀在風寒束表證中出現的頻次較高,為主要癥狀。

分析表4可以發現辛溫解表劑中的常見藥物組對,例如薄荷、川芎和防風是臨床上治療風寒束表證的一組基本藥對。薄荷辛涼解熱,川芎辛溫香燥,防風辛甘微溫,符合“君、臣、佐、使”、“寒溫并用”的方劑配伍思想。

分析表5可以發現,惡寒、發熱作為外感風寒的最基本癥狀,以桂枝、防風、川芎為主要用藥,起到發汗解表的功效。而咳嗽大多由于風邪犯肺、肺氣不宣而引起,與其相關的藥物包括長于肅降肺氣的杏仁、長于宣發肺氣的桔梗、長于理氣解表的紫蘇和長于理氣化濕的陳皮,多藥配伍合用能夠使肺氣宣而有度、降而有節,衛陽營陰得以散布體表,抗御外邪,從而增強辛溫解表的作用。針對痰飲癥狀,主要用藥為陳皮、麻黃。當肌表受到邪氣侵襲,肺的宣發肅降功能受到影響,導致津液輸布失調,聚成而痰,故當使用理氣藥陳皮和宣肺藥麻黃。以上結論均符合中醫藥方劑理論和臨床實踐,能夠用于臨床用藥指導。

同時,云平臺很好地體現了計算效率方面的明顯優勢,其執行時間遠遠少于單機執行時間,對比情況如表6所示。隨著數據量的增大,云平臺優勢更加顯著。

4 小結與展望

本文針對方劑研究中海量數據的存儲問題和組方規律的挖掘問題,提出了在云環境下運用改進的Apriori算法對海量方劑數據進行分析的方法。該方法結合方劑組方數據倉庫指標體系,將海量方劑數據存儲在云環境中,然后在Map函數中利用改進的Apriori算法進行病證方藥的關聯規則的挖掘,既能夠提高系統運算的效率,也能夠保證挖掘結果的準確。實驗證明了該方法的有效性,實驗結果符合方劑配伍的實際應用,揭示了方劑配伍規律和方證對應關系。進一步工作是嘗試配置響應速度快、負載均衡和高節點效率的云平臺,進行多種方劑分析挖掘算法的比較研究,探尋適用于方劑組方規律研究的最優算法。

參考文獻

1 蔣永光,胡波,劉娟,等.方劑配伍的數據挖掘可行性探索.四川中醫, 2004, 22(8): 25-28.

2 程苗,陳華平.基于Hadoop的Web日志挖掘.計算機工程, 2011, 37(11): 37-39.

3 李勇.云計算對信息技術發展的影響.醫學信息學雜志, 2010, 31(3): 1-5.

4 柯棟梁,鄭嘯,李喬.云計算:實例研究與關鍵技術.小型微型計算機系統, 2012, 33(11): 2321-2329.

5 蔣永光,李力,李認書,等.中醫脾胃方配伍規律的數據挖掘試驗.世界科學技術-中醫藥現代化, 2003, 5(3): 33-37.

6 佘侃侃,胡孔法,王珍.基于變精度容差粗糙集模型及屬性敏感度約簡的方劑配伍研究.世界科學技術-中醫藥現代化, 2014, 16(6): 1222-1228.

7 Ibá?ez A, Larra?aga P, Bielza Cet al. Cluster methods for assessing research performance: exploring Spanish computer science.Scientometrics, 2013, 97(3): 571-600.

8 Jeong S, Choi J. The taxonomy of research collaboration in science and technology: evidence from mechanical research through probabilistic clustering analysis.Scientometrics, 2012, 91(3): 719-735.

9 Anil P, Jitendra A, Nishchol M. Analysis of different similarity measure functions and their impacts on shared nearest neighbor clustering approach.International Journal of Computer Applications, 2012, 16(2): 1-5.

10 Minaei Bidgoli B, Barmaki R, Nasiri M. Mining numerical association rules via multi-objective genetic algorithms.Inform Sciences, 2013, 233: 15-24.

11 Shaheen M, Shahbaz M, Guergachi A. Context base d positive and negative spatio-temporal association rule mining.Knowl-Based Sy st, 2013, 37: 261-273.

12 Jadav J J, Panchal M. Association rule mining method on OLAP cube.Int J Eng Res Appl, 2012, 2(2): 1147-1151.

13 Hinton G, Li D, Dong Y,et al. Deep neural networks for acoustic modeling in speech recogni tion.IEEE Signal Proc Mag, 2012, 29(6): 82-97.

14 Li J, Zhao R, Huang J,et al. Learning small-size DNN with outputdistribution-based criteria.Int erspeech, 2014, 6: 1910-1914.

15 Srivastava N, Hinton G, Krizhevsky A,et al. Drop out: A simple way to prevent neural networks from overfitti ng.J Mach Learn Res, 2014, 15(1): 1929-1958.

16 Rosenblatt F. The perceptron: a probabilistic model for information storage and organization in the brain.Psychol Rev, 1958, 65(6): 386-408.

17 陳連棟. Apriori算法在中醫脾胃病方劑方面的研究.黑龍江科技信息, 2012, 2: 91.

18 劉閩碧.基于FP-Growth算法的中藥配方數 據挖掘.醫學信息, 2009, 22(12): 2629-2631.

19 董輝.基于改進FP-Growth算法的中藥方劑配伍規律挖掘研究.赤峰學院學報(自然科學版), 2011, 27(9): 198-200.

20 張文東,李明壯,石小艷.基于粗糙集理論的屬性約簡算法.計算機工程與設計, 2008, 11(29): 95-97.

21 佘侃侃,胡孔法,王珍.基于加權變精度容差粗糙集模型的屬性約簡及應用研究.計算機科學, 2014, 41(11A): 351-353.

22 He X. Coefficient of variation and its applicati on to strength prediction of adhesively bonded Joints.International Conference on Measuring Technology and Mechatronics Automation, 2009: 602-605.

23 Rao S, Gupta R. Implementing improved algorithm over Apiori data mining association rule algorithm.International Journal of Computer Science And Technology, 2012, 3: 489-493.

24 Abu-Zanona A A, Jbara Y H, Al-Zawaideh F H. An improved algorithm for mining association rules in large databases.World of Computer Science and Information Technology Journal, 2011, 1(7): 311-316.

25 Erwin A,Gopalan R P,Achuthan N R. Efficient mining of high utility itemsets from large datasets. Springer Berlin Heidelberg,2008, 5012: 554-561.

26 Barber B, Hamilton H J. Extracting share frequent itemsets with infrequent subsets.Data Min Knowl Disc, 2003, 7(2): 153-185.

Analysis of Mass Prescriptions of Chinese Medicine in Cloud Environment

Dou Pengwei, Wang Zhen, She Kankan
(Institute of Information Technology, Nanjing University of Chinese Medicine, Nanjing 210023, China)

This study aimed to reveal the regularity of prescription data of tradition Chinese medicine (TCM) using cloud computing technology. Key technologies for analyzing massive data in the cloud environment were adopted. Then the index system of prescription data of TCM was set up. Combined with a programming model that named MapReduce, Apriori algorithm was improved in this study. And analysis platform for mining rules of massive prescription data were designed and used in association analysis. As a result, taking massive prescriptiondata for instance, general rules of prescriptions were explored; and the association links among prescription drugs, and incidence relation between symptoms and medicines were obtained. Experiment outcomes demonstrated that this conclusion was consistent with the actual application, which revealed the inherent discipline of diseases and prescriptions, and provided references for clinical diagnosis and prescription compatibility. In addition, cloud platform had obvious advantages in computational efficiency.

Cloud computing, MapReduce, regularity of prescription data, Apriori algorithm

10.11842/wst.2016.03.024

R289

A

(責任編輯:朱黎婷 張志華,責任譯審:朱黎婷)

2015-09-25

修回日期:2015-12-07

* 國家自然科學基金委面上項目(81274095):中藥揮發油成分與膜相互作用機制及專屬膜制備基礎研究,負責人:樊文玲;江蘇省科技廳自然科學基金青年基金項目(BK20140958):多數據挖掘方法集成的方劑配伍規律挖掘模式設計與實現,負責人:佘侃侃;江蘇省教育廳高校自然科學基金(14KJB520032):多數據挖掘方法集成的方劑配伍規律挖掘模式設計與系統實現,負責人:佘侃侃。

** 通訊作者:王珍,副教授,碩士生導師,主要研究方向:中醫藥大數據分析與挖掘、中醫藥信息系統與健康云建設。

猜你喜歡
數據挖掘分析
探討人工智能與數據挖掘發展趨勢
隱蔽失效適航要求符合性驗證分析
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
電力系統及其自動化發展趨勢分析
一種基于Hadoop的大數據挖掘云服務及應用
中西醫結合治療抑郁癥100例分析
在線教育與MOOC的比較分析
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
主站蜘蛛池模板: 欧美午夜小视频| 欧洲日本亚洲中文字幕| 日本三级欧美三级| 91外围女在线观看| av在线手机播放| 久久中文电影| 国产精品久线在线观看| 日韩av在线直播| 国产毛片高清一级国语| 99视频国产精品| 久99久热只有精品国产15| 国产精品久久久久久久久久98| 欧美日韩v| 国产亚洲精品自在线| 欧美日韩91| 亚洲一区二区三区中文字幕5566| 国产欧美日韩va另类在线播放| 91蜜芽尤物福利在线观看| 毛片免费观看视频| 精品亚洲麻豆1区2区3区| 在线视频97| 国产在线精彩视频二区| 亚洲人成网7777777国产| 亚洲欧美极品| a天堂视频| 青青青国产精品国产精品美女| 国产成人av一区二区三区| av手机版在线播放| 亚洲精品欧美重口| 亚洲色图欧美在线| 狠狠操夜夜爽| 茄子视频毛片免费观看| 婷婷六月激情综合一区| 欧美日韩国产在线播放| 日韩色图区| 热99精品视频| 欧美日韩激情在线| 亚洲Aⅴ无码专区在线观看q| 最新无码专区超级碰碰碰| 免费国产高清视频| 欧美午夜在线观看| 一本久道热中字伊人| 91最新精品视频发布页| 毛片网站在线看| 欧美黄网站免费观看| 爆乳熟妇一区二区三区| 国产乱子伦视频在线播放| 亚洲人成高清| 国产精品无码影视久久久久久久| 亚洲a级毛片| 欧美日韩中文国产| 国产在线日本| 一级毛片网| 国产偷倩视频| 亚洲一区第一页| 不卡午夜视频| 国产69精品久久久久孕妇大杂乱| 一级毛片在线直接观看| 日本高清有码人妻| 国产免费a级片| 国产99视频免费精品是看6| 永久免费av网站可以直接看的| 婷婷伊人五月| 国产91无毒不卡在线观看| 亚洲精品免费网站| a在线亚洲男人的天堂试看| 亚洲欧美另类视频| 99久久国产自偷自偷免费一区| 亚洲无码四虎黄色网站| 91伊人国产| 日韩精品一区二区三区视频免费看| 国产免费久久精品99re丫丫一| 国内精品视频区在线2021| 精品视频一区二区观看| 国产AV毛片| 2021国产乱人伦在线播放| 国产女人喷水视频| 亚洲无线一二三四区男男| 人人91人人澡人人妻人人爽| 天堂亚洲网| 國產尤物AV尤物在線觀看| 她的性爱视频|