王一敏, 梁治鋼
?
基于免疫遺傳算法的抗菌藥物數據挖掘①
王一敏, 梁治鋼
(甘肅省人民醫院網絡中心, 蘭州 730000)
本文主要研究基于免疫遺傳算法的抗菌藥物數據挖掘. 在數據挖掘的過程中, 傳統挖掘方法的精確度較低, 因此, 將免疫遺傳算法技術應用到抗菌藥物數據挖掘中, 可以提高數據挖掘的準確性和及時性. 數據挖掘技術為有效地分析疾病間的關系以及其出現的規律提供了新思路, 以此來更好地治療疾病, 提升治療效果. 在HIS系統中對抗菌藥物的數據進行分析和挖掘, 獲得潛在的規律和趨勢, 逐漸建立抗菌藥物診斷知識庫. 依據HIS系統的醫囑數據, 根據規則自主學習并更新知識庫數據, 從而為醫生治療患者提供合理的輔助決策.
免疫遺傳算法; 抗菌藥物; 知識庫; 數據挖掘
手術過程中的感染是目前醫療機構里手術患者常見的情況, 其發生率大約是2%-20%[1,2], 它不僅會增加患者的住院時間及再住院率, 而且可導致致死率、平均住院日以及住院費用的增加. 抗菌藥物預防應用的主要目的是預防手術部位感染的發生, 目前, 世界各地的衛生及醫療機構制定了抗菌藥物應用指南, 我國醫療行政管理部門也頒布相應的法規推出了符合我國國情的應用指南, 相應法規條款已經被列入到醫院等級評審中.
抗菌藥物經過了多年的發展, 已經被廣泛的應用到臨床中, 它的使用雖然可以有效降低患者手術部位的感染發生率, 但是與此同時, 抗菌藥物的使用也帶來了一定的負作用, 抗菌藥物不合規格使用的情況時有發生, 有效控制細菌耐藥、加強醫療質量和醫療安全已經是政府和醫療機構共同面臨的問題. 醫生在抗菌藥物的選擇和使用上具有隨從性和經驗性, 忽略了抗菌藥物的適應癥和患者生理指征, 結果不僅沒有達到預防感染的治療效果, 反而導致患者細菌的耐藥性明顯增強以及藥品不良反應的增加, 使用抗菌藥物的患者的住院時間延長的同時, 治療費用也增加了[3]. 因此, 適合患者的抗菌藥物使用研究意義重大, 是當前所有醫療機構都面臨的難題, 雖然有醫院已經使用了合理用藥支持系統, 但是并沒有真正的起到為患者服務的作用, 抗菌藥物的合理性使用還有待進一步的提高.
數據挖掘DM (Data Mining)是一個新興的人工智能與機器學習技術的應用研究領域, 有著廣闊的應用前景, 它是從大量的、不完全的、有噪聲的、模糊的、隨機的應用數據中, 發現隱含在其中的并且人們事先未知的、但又是潛在有用的信息和知識的非平凡過程. 數據挖掘算法中常用的有機器學習型算法和統計型算法兩類, 機器學習型遺傳算法GA (Genetic Algorithm)被普遍運用. 遺傳算法是一種借鑒生物界自然選擇和自然遺傳機制, 模擬自然進化過程搜索最優解的方法. 免疫算法IA (Immune Algorithm)是模擬免疫系統對病菌的多樣性識別能力而設計出來的多峰值搜索算法, 它旨在抽取生物免疫系統中獨特的信息處理機制, 研究和設計相應的模型和算法, 進而解決各種復雜問題. 免疫遺傳算法IGA (Immune Genetic Algorithm)是將遺傳算法和免疫算法的優點結合起來的算法, 它即具有遺傳算法的全局性和并行性, 也具有免疫算法的記憶功能, 從而加快了搜索速度, 提高了傳統遺傳算法的總體搜索能力, 最終找到最優解.
本文研究重點是利用某三甲醫院患者一個月的抗菌藥物數據, 結合患者的診斷、生理指癥、是否手術等可能影響抗菌藥物使用的因素, 將免疫遺傳算法應用到抗菌藥物數據挖掘中, 對抗菌藥物的預防使用和治療使用情況進行分析, 建立分類模型, 利用免疫遺傳算法中先驗知識的引入能力, 較好地處理污染數據和缺失數據, 依靠該算法為醫生的抗菌藥物使用提供最適合個體患者的決策和依據, 有效提高醫生對患者的治療質量和效果.
2.1問題的設定
目前有不少的合理用藥系統已經嵌入到HIS系統中, 醫生下醫囑的過程包括事前提醒、事中干預、事后分析等過程中, 但目前醫院所用的系統不具備自主學習功能, 不能有效的利用已經存在的知識, 只是簡單的分析和發現, 針對醫生不合理的用藥醫囑給予提示并做出相應的調整, 有些數據需要經過人工對照患者病歷和醫囑才能發現不合理, 所有的抗菌藥物的使用表面看上去似乎都很合理, 但是實際上對醫囑過程行為進行分析審計, 患者診斷、生理特征、用藥時機、療程等指標與國家規定存在著差距, 用藥不僅沒有達到預防感染的治療效果, 反而導致細菌耐藥性的增強和藥品不良反應的增加[4].
手術期間經常存在給手術患者隨意時間段內用藥, 患者的實際情況并沒有被完全考慮, 醫生大多數情況下靠自己的臨床經驗來下醫囑, 由于每個患者的個體情況差異, 導致增加抗菌藥物劑量的情況時常發生. 例如, 某些抗菌藥物的使用要求是術前2h內才能使用, 但有些臨床醫師則在手術前幾天就已經給手術患者使用, 甚至部分手術醫師則在手術前幾天就已經給患者使用了抗生素[5]. 導致患者的耐藥性升高, 增加了患者術后感染的風險, 預防用藥的療程無形中也增加了. 因此將免疫遺傳算法的最優解搜索能力應用到HIS系統中, 從而給醫生提供最適合不同患者的醫囑方案中是病房醫生站和電子病歷信息系統需要解決的問題. HIS系統抗菌藥物的數據主要集中在病區醫囑表中, 具體字段名稱為醫囑名稱、藥品序號、開醫囑時間、停醫囑時間、用藥方式、醫囑類型等.
2.2 編碼方式
本文使用免疫遺傳算法在HIS數據庫中進行數據挖掘, 算法首先要解決的就是編碼問題, 編碼要根據實際數據的特點, 它不僅決定了個體染色體排列形式, 而且決定個個體從搜索空間的基因型變換求解. 編碼方法還影響到遺傳算子、交叉算子、免疫算子的運算操作. 因此, 編碼方法在很大程序上決定了如何進行群體的遺傳進化運算以及遺傳進化運算的效率. 本文中在數據庫中挖掘蘊含在其中的有效數據, 需要建立一個規則來進行數據的挖掘, 具體用下面的偽代碼實現:
if (rule1 && rule2 && ….&& rule) {Result} (1)
上式中rule采用三元組

Y1Y2…Yn
2.3 適應度計算
適應值是評價個體好壞的唯一標準, 適應值高的個體將被保留, 所有的算法都是基于適應度函數來進行數據挖掘, 因此建立合適的適應度函數對整個算法的執行很重要, 算法的要求需要滿足如下條件: 在規定的約束條件內搜索達到時間復雜度最小, 能夠動態分析數據以及得到最優解. 置信度表示結論成立的可相信程度. 覆蓋度表示結論包含于條件的正確程度, 次數越大, 說明該規則越完備. 在確定適應度函數時必須考慮以上條件, 以下是取適應度函數:
Fit(r) =*Conf()/Confmin +*Supp(r)/Suppmin +*
Cover()/Covermin (2)
在上式中,、、分別代表置信度、支持度、覆蓋度的權值,++= 1(>=0,>=0,>=0). Confmin是最小置信度閥值, Suppmin 是最小支持度閥值, Covermin 是最小覆蓋度閥值, 默認的三個最小閥值都為1. 適應度函數反映了支持度、置信度和覆蓋度這三者綜合作用的結果. 在進化過程中, 只有這三者都高的規則才能在競爭中生存下來. 在本文中, 適應度函數定義為從某個時間段內某個病種使用抗菌藥物數量中去掉不適合該病種的抗菌藥物數量.
2.4 免疫算子
免疫算子的選擇是用來判斷抗體的多樣性及等位基因概率的變化過程. 設免疫系統有個抗體組成, 每個抗體有位基因. 每個基因位可供選擇的字符(等位基因)共有個. 根據信息論原理,個抗體第位基因的信息熵可表示為:
式中,為第基因位上基因總數.H為第位基因取個等位基因的概率, 在該文中H為個抗菌藥物醫囑中, 第位為基因的概率. 當第位基因的所有等位基因都相同時,H= 1, 則M()=0, 信息熵可看作免疫系統中表示抗體多樣性的一種度量.個抗體所有基因位的平均信息熵為:
為了從抗體中找到適應度較高的抗體, 需要比較抗體之間、抗體和抗原間的親和度, 任意兩個抗體與間的親和度表示為:
上式中為兩個抗體的平均信息熵.(2)可以由下面的公式得到:
在式(6)中,(2)表示同一病種和同一生理指征下兩條抗菌藥物醫囑之間的相似度.
2.5 抗體濃度
抗體的濃度反映群體中相似抗體所占的比例,
2.6 免疫遺傳算法的記憶庫更新
免疫遺傳算法在每次更新記憶庫時, 采用精英保留策略, 先將適應度較高的若干個抗體存入記憶庫, 然后按照繁殖概率在剩余群體中選擇優秀抗體存入記憶庫, 這樣可以避免適應度高的抗體因其濃度高而受到抑制. 父代抗體群的形成與記憶庫更新策略類似, 首先, 將適應度排序較高的若干個父代抗體直接加入到子代抗體群, 然后隨機從剩余父代抗體中進行選擇操作, 選擇優秀抗體加入到子代抗體群, 父代抗體被選擇的概率即為式(7)計算出的抗體的繁殖概率.
2.7 算法設計
免疫遺傳算法將待求解的問題作為抗原(Antigen), 在抗菌藥物數據挖掘的系統中, 對應就是針對不同病癥、癥狀、體征的病人生成一套最適合患者的醫囑抗菌藥物組合, 即治療方案; 將問題的解作為抗體(Antibody), 對所求問題進行合理分析和計算, 產生出多種數據的組合, 最終形成最適合患者治療方案的數據, 即疫苗(Vaccine); 免疫系統(Immune system)確認抗原入侵, 然后根據疫苗信息產生相應的抗體來解決問題[6,7]. IGA具體算法如下:
① 參數初始化: 設置種群規模、記憶庫容量、變異概率P等參數;
② 產生初始抗體群: 抗體通常是隨機產生的, 如果識別的抗原是已經有的記憶抗原, 則從記憶庫中取出相應的抗體組成初始種群, 否則就隨機產生, 抗體采用圖1的編碼;
③ 計算抗體適應度: 根據適應度函數計算公式, 計算群體中每個抗體的適應度, 按照適應度大小降序排列, 選擇其中適應度較高的個抗體組成群體;
④ 抗體選擇操作: 對抗體群中的各個抗體進行評價. 在IGA中對個體的評價是以個體的繁殖概率為標準, 保留全局最優抗體;
⑤ 更新記憶庫: 將抗體群分別按適應度和繁殖概率排序, 并分別取按適應度排序的前三分之一的個體和按繁殖概率排序的前三分之二的個體存入記憶庫中;
⑥ 依次執行選擇操作、交叉操作、變異操作得到下一代群體;
⑦ 子代群體與記憶庫的群體合并, 構成新一代抗體群;
⑧ 終止條件: 重復執行步驟③至步驟⑦, 判斷是否滿足結束條件, 是則結束[5].
本文利用IGA實現從抗菌藥物知識庫中進行不同病種抗菌藥物醫囑自動組合, 按照一些約束條件(如:病癥、生理特征、年齡、性別、地區, 既往史等)從知識庫中根據算法來生成一套抗菌藥物醫囑, 其中每個病種的抗菌藥物使用方案即為一個抗體, 病種中不同生理指征、年齡、性別、職業為抗體中一個基因, 這樣反復選擇一個病種不同指征來組成初始種群, 然后按照上述算法的流程進行免疫遺傳操作, 最終得出與患者病癥最適合的一套抗菌藥物醫囑方案.
3.1 基本數據
本文以抗菌藥物輔助決策的數據挖掘為實例, 對提出的基于機器學習抗菌藥物數據挖掘模型進行研究. 本實例的優化目標就是判定患者使用抗菌藥物的合理性、建立抗菌藥物知識庫以及數據挖掘的分類技術在該實例應用. 對2015年醫院某一個月住院病人抗菌藥物的數據進行分析, 其中住院病人5356人, 使用抗菌藥物的病人2479人, 根據合理用藥使用規范及標準, 符合標準的1946人(達到78.51%). 采集到的生產數據一般都是比較復雜的, 必須進行數據清洗和規范化, 使其既能反應出生產的需要, 也能適合數據挖掘. 預處理的功能就是利用各種統計規律對數據進行分析, 去掉無用數據, 從而達到數據挖掘的目標. 經過預處理的數據各個指標變量見表1.

表1 變量指標及名稱
3.2 抗菌藥物輔助決策指標參數
以抗菌藥物輔助決策作為數據挖掘的設定參數, 對于不同的抗菌藥物、生理指癥及病種進行比較和判別, 根據抗菌藥物使用數據得知, 圍手術期疾病診斷、用藥品種和給藥時機三項符合標準則定義該病例抗菌藥物符合標準, 其中某一項不符合, 則判斷該病例用藥不符合標準, 需要進行相應的改造, 符合置標志為“1”, 否則為“0”.
另外, 在后面的最優解挖掘算法里相關參數設置如下:=1(支持度權值),=1(置信度權值),=1(涵蓋度權值), P=0.6(變異率),P=0.8(交叉率).
3.3 最優解模式挖掘
本文中利用免疫遺傳算法來求解患者使用抗菌藥物的合理性及知識庫的建應立與自學習能力. 數據挖掘的目標是求解某醫院一個月抗菌藥物的合理性使用情況, 希望能發現最優解, 由于每個患者的生理情況不同, 抗菌用藥的使用也沒有一個具體的標準, 只是根據住院病人的相關藥物信息進行分析探索性研究, 從各個醫療數據中獲取最適合病人的有用知識. 在求解的過程中, 將抗菌藥物數據按照表1中的數據變量指標值進行相應的判斷, 表2是具體判定標準.

表2 最優解模式挖掘判定標準
3.4 驗證結果
在實驗進程中, 為了驗證本文算法的合理性, 針對抗菌藥物輔助決策系統, 分別采用遺傳算法(Genetic Algorithm)、蟻群算法(Ant Colony Algorithm)、神經網絡算法(Neural Networks Algorithm)、免疫遺傳算法(Immune Genetic Algorithm)等4種算法進行仿真求解, 優化結果主要是判斷抗菌用藥的輔助規則使用及加入知識庫情況, 求解時間是計算上述優化結果所使用的時間, 最終求解的輸出結果如表3所示, 根據實驗結果, 無論是求解質量和速度, 本文的方法優于其它3種[5].

表3 4種算法求解10個實例的計算結果
影響疾病的因素具有不確定性, 確定一個正確的治療方案有時非常困難, 隨著抗菌藥品種類不斷發展, 新的藥品被推出, 醫療抗菌用藥的不合理現象與不良反應也隨之增加. 本文中采取機器學習-免疫遺傳算法對抗菌藥物進行數據挖掘, 進行的是探索性研究, 對于患者的抗菌藥物數據利用信息技術進行嘗試和創新, 為藥物利用深入研究提供新的思路, 有助于建立醫療數據倉庫并進行知識發現的使用.
隨著醫院信息化的發展, HIS系統中抗菌藥物的使用分析已經由原來以“收費”為中心的信息系統向以“電子病歷”為中心的合理性研究轉變. 由于患者個體生理各項指標的不確定性以及醫療環境的特殊性, 抗菌藥物智能輔助判斷需要慎重, 專業知識、用藥習慣和臨床經驗以及合理的算法起著至關重要的作用, 因此本研究在對某類疾病的抗菌藥物使用合理情況與否進行智能判斷時, 沒有直接判斷是否合理, 而是以既定指標的“符合”或“不符合”標準進行分類.
測試結果表明該挖掘方法在一定程度上能夠幫助醫生對抗菌藥物的輔助使用及診斷準確性問題, 對抗菌藥物輔助知識庫的數據可以進行有效更新, 對其中的干擾數據進行了加權修正, 為醫生的輔助決策提供了良好的數據基礎[10]. 總之, 抗菌藥物的合理使用是一個復雜過程, 為了增強模型的說服力, 需要采用更多的樣本數據進行模型的完善.
1 Afzal KAK, Mirshad PV, Rashed MR, Banu G. A study on the usage pattern of antimicrobial agents for the prevention of surgical site infections (SSIs) in a tertiary care teaching hospital. J. Clin. Diagn. Res., 2013, 7(4): 671–674.
2 Alp E, Elmali F, Ersoy S, et al. Incidence and risk factorsof surgical site infection in general surgery in adeveloping country. Surg. Today, 2014, 44(4): 685–689.
3史占軍,張亞莉,景宗森.規范化與長期應用抗生素預防術后傷口感染的效果對比.中華醫院感染學雜志,2003,13(1): 57–59.
4杜建強,聶斌.數據挖掘在中醫藥領域應用研究進展.中國中醫藥信息雜,2013,20(6):109–112.
5肖偉平,何宏.基于遺傳算法的數據挖掘方法及應用.湖南科技大學學報,2009,24(3):82–86.
6於時才,梁治鋼.基于免疫遺傳算法的移動機器人路徑規劃.微計算機信息,2008,24(2):264–266.
7 Jiao LC, Wang L. A novel genetic algorithm based on immunity. IEEE Trans. on System, Man and Cybernetics-Part A: Systems and Humans, 2000, 30(5): 552–561.
8蘇婭,劉杰,黃亞樓.在線醫療文本中的實體識別研究.北京大學學報(自然科學版),2016,52(1):1–9.
9譚文明,甘琴,龔世菊,賴小紅,覃海坤.三甲醫院處方點評軟件系統的開發和應用.北方藥學,2015,(2):142–144.
10翟曉波,何志高,方芳,鮑思蔚,徐婷,文傳民. “圍手術期抗菌藥物監控系統”的臨床應用.藥學與臨床,2012,10: 1458–1460.
Data Mining of Antimicrobial Drug Based on Immune Genetic Algorithm
WANG Yi-Min, LIANG Zhi-Gang
(Networks Center, Gansu Provincial Hospital, Lanzhou 730000, China)
In this paper, we study data mining of the antimicrobial drug based on immune genetic algorithm. The accuracy of traditional approach for data mining is poor. The immune genetic algorithm technology, which is applied to the data mining of antimicrobial drug can improve the accuracy and timeliness of data mining. Data mining provides a new idea for the effective analysis of the relationship between the disease and its occurrence regularities, which helps better curing the disease and improving the treatment effect. By immune genetic algorithm, it analyzes and mines antibacterialdrug data in HIS, and obtains the rules and trends of potential, which gradually establishes the diagnosis knowledge database of antibacterial drug. According to the doctor’s order data of HIS system and autonomous learning and updatding the knowledge database, the approach provides a reasonable assistant decision for doctors to treat patients.
immune genetic algorithm; antibacterial drug; knowledge database; data mining
甘肅省青年科技基金(2014GS03498)
2016-06-20;
2016-08-08
[10.15888/j.cnki.csa.005657]