伍海鵬 蘭樂霞 劉紅雄 張紅蓮 康潔 伍海濤
(1冷水江市人民醫院中藥房,湖南婁底417500;2廣州中醫藥大學臨床藥理研究所,廣東廣州510405)
藥斗是盛裝中藥飲片的容器,為便于調劑工作,藥斗架內存放飲片有一定的規律,稱為斗譜。中藥房每天最基本的工作就是中藥調劑,基層醫院尚不能完全實現獨立小包裝、顆粒劑等減輕工作量的制劑方式,絕大部分工作還是延續傳統的手抓稱量中藥飲片,用藥量多、調配任務量大、工作繁忙,合理的斗譜編排對于降低工作人員的勞動強度,避免發生差錯事故有重要意義。
中藥斗譜的編排多按處方需要、方劑組成、入藥部位、藥物性味、調配人員的習慣等原則進行,排列的科學性一直受到關注,有研究采用計算機對此進行了改進[1-4],或就其排列原則闡明了自己的看法[5]。對調配的操作進行分解后,可發現調配的流程主要由單人逐張按處方執行,調配耗時與單味藥量的關系不大,但與處方中藥物的種類直接相關。在不同區域藥斗間反復走動是占用時間最多的步驟,如何減少這種重復走動是縮減工作時間的關鍵因素。使同一張處方中的不同中藥集中在一個區域以方便抓取即可有效地解決這個問題。為此考慮單獨每張處方含有中藥的關聯度(或聚集度)更合理。
數據挖掘是一個從海量數據中抽取挖掘出未知的、有價值的模式或規律等的復雜過程。其中的關聯分析是從給定的數據集發現頻繁出現的項集模式知識,廣泛應用于市場營銷、事務分析等領域。門診中藥房處方量大,每張處方包含信息量也多,適合應用數據挖掘原理進行關聯分析。
基于上述考慮,本研究采用數據挖掘專用軟件SPSS Clementine 12.0對我院門診中藥房的處方進行了統計分析,以期找出中藥斗譜排列規律應用于實際工作。
我院門診中藥房2009年11月 -2010年8月所有的中藥調劑處方,采用整群隨機抽樣的方法,以天為單位抽樣。隨機數由Excel 2003隨機函數產生,乘以30后取整數即為某月抽中的天數,抽中天的所有處方均納入研究,共計2 052張。
1.2.1 建立處方數據庫 由于我院門診中藥房的管理軟件不能完整導出處方數據,采用人工錄入的方法,將處方按日期、醫師、處方流水號、處方藥物錄入Excel表格中,雙人核對,對單元格數據格式進行規范化后 (“1”代表處方中含有該中藥,“0”代表不含有);導入 SPSS Clementine 12.0中建立處方數據庫,數據類型為“標志”,字段輸入方向為“兩者”,建立節點和數據流。
1.2.2 建立篩選數據庫 對所有納入研究的處方按單味藥物的使用頻數進行統計,并計算其累計使用頻數。從數據庫去除使用頻數低于30次以下的藥物,建立篩選數據庫。
1.2.3 繪制Web圖 按支持度為0.5%、置信度為40%,對篩選數據庫進行關聯分析(在同一張處方中出現的中藥相互間均為關聯),繪出環形Web圖(舍去300以下的鏈接,用線條粗細代表關聯的強弱);對使用頻數居前30位的中藥分別作關聯分析,繪制定向Web圖。
建立處方數據庫后,統計顯示共使用了229味中藥,基本覆蓋了藥房的全部飲片藥材。對藥物使用的頻數進行統計排序。使用頻數前60位的中藥見表1,其中使用頻數最高的為甘草(1 924次),約93.76%的處方中含有,其頻數約為排序第2位的黃芩(982次)的2倍。前30位中藥使用頻數總和占藥物總使用頻數的61.7%,前58位的中藥使用頻數總和占藥物總使用頻數的80.4%,表明絕大部分中藥調劑工作與這些藥有關。

表1 使用頻數前60位的中藥 (使用頻數百分比,%)
第122~229位的中藥累積使用頻數在30次以下(平均每月使用<3次),認為這些中藥的使用頻數較低,即使與其他藥有關聯,其數據對分析的意義不大,為減少計算量,以使用頻數第1~121位的中藥重建篩選數據庫(見圖1),對其進行關聯分析,得到鏈接>300的17味中藥,依次為甘草、黃芩、玄參、板藍根、苦杏仁、前胡、白前、旱半夏、山茱萸、浙貝母、丹參、黃芪、桔梗、川貝母、白芷、山楂、蘇葉,與使用頻數的排序基本一致。鏈接數>300的強關聯藥物具體分布見表2。

圖1 前121位中藥關聯分析環形Web圖

表2 強關聯藥物分布(鏈接數>300)
同時對使用頻數1~30位的中藥分別在篩選數據庫中進行定向關聯分析,以板藍根為例,其定向關聯圖見圖2。與板藍根關聯度大的藥物依次為甘草、黃芩、玄參、苦杏仁、前胡、白前、浙貝母、旱半夏,分別得到和這些藥物關聯度較大的前8位中藥,去除重復后合計41味。

圖2 板藍根定向關聯圖
既往的斗譜排列改良所應用的方法多為自編的計算機程序[1-2]或者利用Excel程序,但其表格的容積和計算量有限,并不適宜門診中藥房的大量處方統計;其計算原理大都基于藥物的使用頻數統計,相對合理的則利用模糊數學隸屬函數進行計算[1-4],但未對調配過程進行更進一步的探索。數據挖掘技術常用于改進商品銷售,也有用于藥物擺放[6-7]的研究,但用于中藥斗譜的研究尚未見報道。
本研究以關聯度而非使用頻數作為主要的統計變量,利用關聯分析方法對大量處方進行分析。關聯分析的計算量與處方量及每張處方中含有的藥味成正比,門診處方每月數以千計,中藥處方的品種組合較多,無法按西藥的系統疾病藥物歸類簡化,大時間跨度的處方量完全進行數據挖掘分析對計算機硬件要求較高。為了適應現有的計算條件,又能不失真地反映門診處方中隱含的特征,盡可能多地涵蓋多個時間段,本研究采用整群隨機抽樣的方法對門診處方以天為單位取樣,確保了數據樣本的代表性,較好地保留了處方中的關聯度特征,又不會因處方量增加而使計算量激增。在計算過程中合理的舍棄了累積使用頻數低于一定數目的藥物,建立篩選數據庫,進一步減少計算量,使關聯分析工作得以在普通計算機上進行。由于關聯分析的排序與使用頻數有一定的關系,某些強關聯的藥物可能由于使用率較低而被軟件漏掉,為此對單味藥進行定向關聯分析是整個數據庫關聯分析的必要補充。
本研究得到的使用頻數最高的30味藥,其組成有一定規律:多為清熱解毒或滋補藥物,表明在我院中醫科就診患者以中醫內科疾病為主;對使用頻數排列前121味藥的關聯分析顯示其與使用頻數排序基本一致,這與臨床工作的經驗相符。對其中每一味藥的分別做定向關聯計算,也體現了這一特征,定向關聯得到41味常用中藥均包含在使用頻數前60味中藥之內。把這41味藥排列在藥斗的最適位置,其相關藥排列在周圍,只需要變動不多的藥斗位置,能較好地避免斗譜改良后員工的記憶紊亂;對此采用人機工程學原理對藥斗的擺放位置、藥柜高度、強關聯的藥物的分布進行了重新設計和布局,得到了較好的效果 (另文發表);對于使用頻數最高的甘草,每日消耗量也大,采用大斗裝藥并多處設斗放置的方式較好地滿足了其用量和頻數的要求。
研究嘗試采用GRI或Apriori算法建模進一步分析處方數據的規律,未獲成功,僅作描述性圖形分析。究其原因與數據庫規模較大(2 052×229=469 908個),藥物的種類多導致數據庫的列數很多,顯著增加關聯計算量;單味藥的使用記錄在其中占的比例較小(最大使用頻數的甘草也只占8.5%),其支持度很難滿足建模要求。
傳統的中醫處方與標準藥名存在一定差別,理想的斗譜對提高工作效率,改善中藥調配速度有很大幫助,本研究僅從門診中醫處方的藥物關聯度進行統計分析,對組方的合理性未作更多的考究;基于醫師個人的組方偏好,本研究得到的結論也不完全適合其他醫院,但其應用數據挖掘原理處理藥房數據,進行關聯分析的模式可以推廣;在此基礎上更進一步地提取處方中含有的其他信息,也可以為藥房的各種藥事管理提供數據支持。
[1] 文亦兵,文洪宇,呂得屏.用模糊數學考查中藥飲片斗譜的編排[J].中國藥房,1997,8(6):288.
[2] 文洪宇,文亦兵.中藥飲片斗譜的編排與考查[J].中國醫院藥學雜志,1999,19(l):60.
[3] 陳忠東,雷頌.中藥斗譜編排的電子計算機輔助設計[J].中國藥房 2007,18(12):950-952.
[4] 崔麗娟,朱立平.利用現代化手段科學編排中藥斗譜[J].北京中醫藥,2011,30(6):463-465.
[5] 石江,楊建文,葉風.中藥斗譜編排的合理性探討[J].遵義醫學院學報,2001,24(2):189-190.
[6] Tan PN,Steinbach M,Kumar V.數據挖掘導論[M].范明,范宏建,譯.北京:人民郵電出版社,2011.
[7] 陳中標.基于魯棒性分析的關聯規則在大型藥房中的應用[J].常州工學院學報,2010,23(2):48-52.