張 慶 李 夢 于曉涵
濟寧醫學院醫學信息工程學院(276826)
數據挖掘(data mining)是應用一系列技術從大型數據庫和數據倉庫中提取人們事先未知而潛在有用的隱含的信息和知識的過程[1]。常用的數據挖掘方法主要包括決策樹、聚類分析、關聯規則與關聯分析。關聯規則挖掘技術是最流行和有效的無監督數據挖掘方法之一,用于從數據庫大量存儲的數據中提取有用信息,發現數據中項目之間的關系。
在生物醫學領域,關聯規則分析常用于中藥制劑處方用藥規律分析[2-4]、穴位配伍規律分析[5]、經典名方用藥規律分析[6]、基于電子病歷的患者用藥規律分析[7]、慢性病共病分析[8]、新型冠狀病毒(COVID-19)基因組序列分析[9]、患者高額住院費用分析[10]等。近年來,為全面實施健康中國戰略,建立健全電子病歷信息化建設工作機制,電子病歷中蘊涵的各種臨床信息(包括人口統計學、診斷史、藥物、實驗室檢測結果等)越來越豐富,電子病歷已成為大規模健康數據分析的重要來源。對電子病歷的挖掘分析有助于醫學專業人員了解疾病的診療過程,確定治療的有效性。
本文擬通過對糖尿病住院患者電子病歷的用藥信息進行關聯規則分析,探尋其用藥規律,挖掘診療過程中的核心藥物組合及其聯合用藥信息,以期為臨床決策提供參考。
本研究選取2020年8月-2021年1月煙臺市蓬萊區某三甲醫院46090條糖尿病住院患者的用藥記錄為數據源,合并刪減不同時間用藥記錄的重復冗余信息,整理出501位主要診斷為糖尿病的患者。95.41%的患者不同程度地伴有糖尿病視網膜病變、糖尿病周圍神經病變、糖尿病腎病、糖尿病伴多個并發癥、冠狀動脈粥樣硬化性心臟病等合并癥。
本文主要對糖尿病住院患者的用藥數據進行預處理,去除氯化鈉注射液、葡萄糖氯化鈉注射液、滅菌注射用水等沒有實質意義的用藥信息,刪除頻次、用法、藥品規格、用藥劑量等字段信息,保留原始病歷信息數據中與數據挖掘相關的有效字段,即患者的住院號、用藥名稱。參照《中國藥典》(2015年版)對藥物名稱進行統一規范處理,如將“鹽酸二甲雙胍片” “鹽酸二甲雙胍片(格華止)”統一記作“二甲雙胍”, 最終獲取診斷記錄501條。
(1)關聯規則與關聯分析
關聯分析是用于發現隱藏在大型數據集中有意義的聯系的一種數據挖掘方法[11]。最初用于市場購物籃分析,可用于探查消費者的購買行為記錄,以便進行更好的商業決策。大型數據集中所發現的聯系常用頻繁項集(frequent itemset)或者關聯規則(association rule)來表示。
關聯規則表示兩個項集之間的關系,是形如“X→Y”的蘊含表達式。關聯規則常用支持度、置信度與提升度這三個度量指標來衡量。支持度指關聯規則在總體中發生的頻率,反映規則出現的頻繁程度;置信度表示構成關聯規則的前項集X發生時,后項集Y的發生概率,即X、Y共同發生的記錄數除以X發生的記錄總數;提升度表示規則的準確度,是置信度與后項集Y的比值,一般而言,只有當比值大于1時,所產生的規則才有意義[12]。
(2)Apriori算法
Apriori算法是由Agrawal等人提出的[13],采用逐層搜索的迭代方法來完成頻繁項集的挖掘工作。k項集用于探索k+1項集。在本研究中將上述通過數據預處理得到的糖尿病用藥記錄數據構建數據庫,掃描數據庫,累積每個項的計數,挖掘滿足最小支持度的項,找出頻繁1項集的集合L1,即治療糖尿病的高頻藥物;L1用于找頻繁2項集的集合L2,即兩種藥物的關聯規則,L2用于找L3,即三種藥物的關聯規則,直到不能再找到頻繁k項集為止。
將糖尿病的治療信息進行數據規范后導入書目共現分析系統[14](bibliographic items co-occurrence matrix builder,BICOMB),對藥用頻次進行統計,生成患者-藥物矩陣,導出至excel表格,對數據進行轉置,設置真值為T,反之為F,組成藥物事實表。將該表導入到SPSS Clementine 12.0源中的“Excel”節點,選取字段選項中的“類型”節點連接到數據源,然后將該節點連接到所構建模型中的“Apriori”節點以及圖形中的“網絡”節點等,形成數據流;按順序執行數據流,得到關聯規則結果。
糖尿病臨床用藥共涉及263種藥物。用藥頻次較高的藥物有門冬胰島素、硫辛酸、依帕司他、二甲雙胍等。其中使用頻次大于39的藥物有20種,具體結果如表1所示。

表1 糖尿病高頻藥物頻次統計
其中,門冬胰島素、德谷胰島素、德谷門冬雙胰島素、地特胰島素為基礎胰島素類似物,用于治療糖尿病。二甲雙胍、阿卡波糖、達格列凈、利拉魯肽、瑞格列奈分別通過不同的機制達到降低血糖的目的。硫辛酸、依帕司他用于預防、改善和治療糖尿病并發的神經病變;纈沙坦、纈沙坦氫氯噻嗪、厄貝沙坦氫氯噻嗪用于治療高血壓。由此可見,在糖尿病患者的治療中,用藥以降低血糖并預防治療其并發癥為主。
將支持度≥30%的項集視為頻繁項集,置信度≥80%的項集視為強規則,分別得到兩種藥物、三種藥物、四種藥物及五種藥物的關聯規則,共計62條。所有規則提升度均大于1,說明所有規則都有意義。其中關聯規則的含義表示當“前項”出現時,“后項”可能會出現的藥物;“置信度”表示“前項”出現時,“后項”藥物出現的概率,表示藥物之間比較強的關聯關系。
(1)兩種藥物關聯規則與關聯分析
通過對糖尿病患者電子病歷的用藥信息進行關聯規則挖掘分析,得到兩種藥物的關聯規則,如表2所示。由表2可知,規則{硫辛酸→門冬胰島素}在用藥記錄中出現的頻率較高,即支持度高達75.75%,說明治療糖尿病時,硫辛酸與門冬胰島素常常聯合使用。硫辛酸用于糖尿病周圍神經病變引起的感覺異常,門冬胰島素為速效胰島素類似物,具有降血糖的作用,兩者聯合使用,達到治療糖尿病及其并發癥的目的。

表2 兩種藥物關聯規則
規則{甲鈷胺→依帕司他}的置信度為96.82%,表示兩者之間存在較強的關聯關系,從不同的作用機制來延緩糖尿病神經病變的進展和惡化。兩種藥物從不同的靶點發揮神經保護作用,甲鈷胺更傾向于神經細胞的修復和營養,依帕司他則通過抑制高血糖狀態下,葡萄糖代謝過程中的有害衍生物對神經細胞的破壞來發揮神經保護作用。
(2)三種藥物關聯規則與關聯分析
通過對糖尿病患者電子病歷的用藥信息進行關聯規則挖掘分析,得到三種藥物的關聯規則,如表3所示。由表3可知,規則{硫辛酸+門冬胰島素→依帕司他}的支持度最高,達到64.44%,意味著三者頻繁出現在糖尿病患者的治療過程中,三者聯合用于降低血糖并防治糖尿病引發的神經病變。
硫辛酸[15]是一種強有力的抗氧化因子,能夠通過抑制脂質過氧化,增加神經營養血管的血流量,提高神經Na+-K+-ATP酶活性,直接清除活性氧簇和自由基,保護血管內皮功能。
依帕司他[16]是一種醛糖還原酶抑制劑,能抑制多元醇通路異常、改善代謝紊亂,有效改善糖尿病神經病變的主觀癥狀和神經傳導速度。依帕司他聯合甲鈷胺、硫辛酸治療糖尿病神經病變,優于單藥治療。
規則{阿卡波糖+甲鈷胺→依帕司他}的置信度最高,達到98.08%,表明三者之間存在很強的關聯關系,阿卡波糖為常用的α-糖苷酶抑制劑,主要減小由食物在腸道轉化成的葡萄糖被吸收入血液中的速度,從而減少餐后血糖的濃度。
甲鈷胺[17]作為活性維生素B12制劑,可以促進神經元內核酸和蛋白質的合成,對髓鞘形成和軸突再生具有顯著的促進作用,能夠修復損傷的神經細胞,改善神經傳導速度。甲鈷胺可明顯改善糖尿病神經病變患者的臨床癥狀、體征以及神經傳導速度,與依帕司他聯用可達到較好的治療效果。
(3)四種藥物關聯規則與關聯分析
通過對糖尿病患者電子病歷的用藥信息進行關聯規則挖掘分析,得到四種藥物的關聯規則,如表4所示。由表4可知,阿卡波糖、甲鈷胺 、硫辛酸、依帕司他、門冬胰島素、二甲雙胍是關聯規則中出現的六種藥物,也是糖尿病治療過程中最常出現的藥物(表1)。聯合用藥均是以上幾種藥物從不同機制降低血糖(阿卡波糖、門冬胰島素、二甲雙胍)與營養神經(硫辛酸、甲鈷胺、依帕司他)改善神經病變的藥物的組合。

表4 四種藥物關聯規則
(4)五種藥物關聯規則與關聯分析
通過對糖尿病患者電子病歷的用藥信息進行關聯規則挖掘分析,得到五種藥物的關聯規則,如表5所示。降糖藥物的種類很多,目前認為,可以根據不同種類藥物的作用機制和特點,采取聯合用藥的方式,以達到降糖作用相加、副作用相抵消的效果。許多國家和國際組織制定的糖尿病診治指南中均推薦二甲雙胍作為糖尿病患者控制高血糖的一線用藥和藥物聯合中的基本用藥。口服降糖藥(阿卡波糖、二甲雙胍)聯合胰島素治療(門冬胰島素)聯合營養神經(甲鈷胺、依帕司他、硫辛酸)來達到治療糖尿病及其并發癥的目的。

表5 五種藥物關聯規則
本文通過挖掘分析糖尿病患者的電子病歷信息,在501條診療用藥信息中獲得使用頻次超過39次的藥物20種,聯合用藥關聯規則62則。對藥物的關聯規律的挖掘多達五種,即5-項集的挖掘分析。在五種藥物關聯規則中,共涉及二甲雙胍、依帕司他、硫辛酸、門冬胰島素、甲鈷胺、阿卡波糖六種藥物,說明這些藥物屬于治療糖尿病較為固定的聯合用藥組合。每項組合均含有甲鈷胺、依帕司他、硫辛酸、門冬胰島素,說明糖尿病以降糖治療、防治糖尿病神經病變為主。
中國2型糖尿病防治指南(2020年版)[18]與糖尿病神經病變診治專家共識(2021年版)[19]等臨床指南強調了聯合治療的重要性以及個體化血糖控制的臨床工作原則。指南建議:應用一種降糖藥物血糖沒有達標時,應該加用第二種和第三種降糖作用機制不同的藥物聯合應用協助降糖達標。也可以加用胰島素,常以基礎胰島素起始。對于患者體重指數高、腹型肥胖明顯,有心血管并發癥的老年人可根據患者指定個體化的血糖控制策略。糖尿病神經病變是糖尿病最常見的慢性并發癥。這與對電子病歷進行挖掘后得出的結論一致,在得出的關聯規則中,主要是降糖聯合營養神經的藥物組合,在治療過程中,對于糖尿病的治療以聯合用藥控制血糖與防治神經病變相一致。
目前針對糖尿病神經病變的病因和發病機制治療包括控制血糖、營養神經藥物(甲鈷胺)、抗氧化應激藥物(硫辛酸)、抑制醛糖還原酶活性藥物(依帕司他)、改善微循環等。經核驗糖尿病診療規范等臨床指南,文中對電子病歷進行關聯挖掘分析后得出的結論與臨床指南中關于該病的診療規范相符合,由此可管窺糖尿病診療過程中的聯合用藥信息,為醫學專業人員了解疾病的診療過程及用藥規律提供了不同視角與可行性路徑。
本文通過數據挖掘技術中的關聯規則方法從大量電子病歷數據中對糖尿病住院患者的用藥信息進行挖掘分析,獲得其診療過程中的高頻藥物以及使用較為固定的聯合藥物組合。因數據量不支持,本文并未根據患者合并癥的不同進行分層用藥規律的分析,存在一定局限。在后續研究中將結合主要合并癥對其電子病歷進行挖掘分析,獲得更有針對性的研究結果,了解疾病的診療過程,為探尋其用藥規律提供參考。