李雅潔 朱 暢 楊雨晴 魏 杰
(安徽蚌埠醫學院影像學系 蚌埠 233000)
21世紀國家振興中醫藥規劃的出臺和醫改政策的推進為中醫藥產業發展提供了加速力量,但很多中藥研究者還不能明確的了解中藥具體能夠帶給我們哪些更好的療效以及中藥本身的各種差異性與屬性間的相關性。所以本研究通過大數據挖掘得到中藥材的缺失信息,利用聚類分析研究這些中藥間的相關性,從而更好地為病人提供更有效的治療方案。同時,現在社會中存在越來越多的呼吸道感染病人,由于抗生素的濫用導致病人耐藥,進一步加重病情,引發咳嗽等一系列的疾病。如何為呼吸道感染病人提供一個采集新鮮中藥止咳的方案是時代發展的需求。
(1)數據挖掘模型:蒙特卡洛模型;
(2)聚類分析模型:基于層次的Q型聚類分析法。
將445味中藥的性、味、生長地、植物形態、類別等信息進行分類并量化,用1代表無,2代表有。
采用蒙特卡洛算法模型,利用R軟件計算編程得出結果如圖1~3。
設量化的中醫藥數據庫中共有M個樣品,記中藥功能共有N種類型,將M個樣品看成為N維空間RN的M個點,即X={X1,X2,X3······XM}
則兩樣本間的歐式距離[2]:
通過導出擬合曲線的分析可以看出曲線擬合程度較高,變量之間相關性顯著,差別具有統計學意義。根據分析得到并補全缺失信息。
3.2.1資料的再量化
為了使現有信息更方便的適用于模型當中,本文對信息進行進一步的量化處理。在功能列的分類中將藥物分為行氣燥濕化痰類、活血化瘀通經類、補益滋養安神類、清熱祛濕泄濁類、瀉水利尿類[1]。
在植物類別一列,1代表全草類,2代表根莖類,3代表根類,4代表果實類,5代表花類,6代表莖藤類,7代表木類,8代表皮類,9代表其它類,10代表葉類,11代表種子類;
在性味一列,1代表性溫、微溫,2代表涼、微涼,3代表微寒、寒、大寒,4代表熱、大熱,5代表平;
在生產地一列,1代表鹽堿砂質地,2代表閑散地,3代表庇蔭潮濕地,4代表干燥荒蕪地,5代表肥沃地;
在其它列中,1代表有,0代表無。
3.2.2系譜圖分析
根據歐式距離定義可以得到,兩樣品間距離越小,相似度越高,將相似度極高的一些樣品聚類,可以得到藥品的分布情況:以中藥采制季節的分布情況為例,最終得到聚類系譜圖如圖4。
由圖4,利用基于分裂的層次聚類方法,選擇合適的聚類集合為2,再次使用SPSS軟件,通過與基于劃分的聚類方法相結合,通過K均值的快速聚類,最終得出最合適的聚類分法圖,如下列表格所示:
根據表1~2得出,可以將采制季節大致分為兩類:第一類即近夏季采摘,可定義為上半年采摘共有326例;第二類聚類中心在秋季可定義為下半年采制,共計118例。
同理可得出中藥味、中藥產地和中藥功能的聚類分析結果,在此不做贅述。
同時對量化的數據通過繪制餅狀圖可清晰的表示其分布情況,445味中藥類別分布圖如圖5所示。
根據圖形可看出類別的分布情況,同理可得出中藥性味以及生長地的分布情況。

圖2 導出擬合曲線2

圖3 導出擬合曲線3

圖4 采制季節分類系譜圖

圖5 中藥類別分布圖
表1 最終聚類中心

聚類12春00夏01秋10冬00
表2 每個聚類中的案例數

聚類1326.0002118.000有效444.000缺失0.000
4.1.1運用蒙特卡洛算法的優勢
蒙特卡洛算法簡單快速,省卻了繁復的數學推導和演算過程,同時具有很強的適應性,問題的幾何形狀的復雜性對它的影響不大。
4.1.2基于層次的Q型聚類分析法的優缺點
(1)模型的優點:圖形的形式展現結果,直觀明了;系統量化的分析方法,簡單明確;靈活性大。
(2)模型的缺點:得出結果后不能重新分配;定量信息少,定性成分多,結果不宜讓人信服;主觀性太強。
根據上述聚類的結果可以找出適合止咳的藥物,通過相關的條件的限定即能得到合適的中藥材。
4.2.1不同季節和地區推薦的新鮮中藥
患者出現咳嗽以及咳痰的癥狀時,見表3。
表3 不同季節和地區推薦使用的藥物

季節地區春夏秋冬華北前胡旋覆花、千日紅前胡前胡華東紫菀半夏、千日紅紫菀土人參華南-旋覆花、千日紅-土人參華中桔梗半夏、千日紅桔梗土人參西南前胡半夏、千日紅前胡前胡西北前胡旋覆花、千日紅前胡-東北紫苑旋覆花、千日紅紫苑
無論什么時間段出現癥狀,全國各地的患者都可以選擇十大功勞-闊葉十大功勞;華東、華中、西北的患者可以選擇枇杷葉。
4.2.2藥物配伍
除了單種藥物的療效,中藥材搭配服用不僅能夠很好的抑制病癥的蔓延,同時能夠達到很好的養生效果,使機體免疫力增強。