基于數據挖掘的門診輔助知識決策系統的應用研究

2022-06-27 08:56:20劉東麗袁玉妹王羨欠

江西科學 2022年3期

劉東麗，袁玉妹，王羨欠

(江西省人民醫院，330006，南昌)

0 引言

隨著社會的發展，人們對自身的健康越發關注，我國優質醫療資源相對集中，醫院面臨的就診壓力越發增加，尤其體現在門診就診中。此對門診資源的配置會在很大程度上影響廣大患者的就醫體驗和醫院的核心競爭力[1-3]。如何科學、合理并充分地利用門診資源，成為醫院面臨的一大挑戰[4]。依靠傳統的人工門診資源調配已經無法適應新形勢的發展，隨著信息技術的發展，借力于信息化技術優化門診資源配置成為一種新的趨勢[5-8]。

數據挖掘(Data mining)又譯為資料探勘、數據采礦。它是數據庫知識發現(英語：Knowledge-Discovery in Databases，簡稱：KDD)中的一個步驟[9]。一般是指從大量的數據中通過算法搜索隱藏于其中信息的過程。數據挖掘通常與計算機科學有關，并通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。隨著醫院信息化的建設不斷完善，在功能模塊上越來越豐富，數據量也越來越大，如何有效利用現有數據為醫療服務已經成為各個醫院不得不面臨的問題。為了解決在醫學領域具有普遍性的“知識發現”問題，近幾年來產生了一項從海量數據中提取知識的技術數據挖掘[10]。國內很多研究嘗試將數據挖掘應用于醫院信息系統和統計分析與決策中[11-14]，如何在計算機的幫助下，發現隱藏在這些海量數據背后的那些新的有學術價值的醫學信息，是系統面臨的重大挑戰[15-20]。

門診輔助知識決策系統是一種利用信息化技術和數據挖掘技術，展示一家醫院門診量分布、門診病種分布、季節性疾病規律、門診醫療資源配置等綜合指標的系統。

本文利用醫院現有數據，通過基于數據挖掘的門診輔助知識決策系統的建立與應用，挖掘門診患者在就診時間上的分布情況，掌握門診患者量高峰時間段，為醫院合理安排醫護力量和醫療設備提供輔助決策支持，減少患者的等待時間，避免因為醫療資源緊張導致不必要的醫療糾紛；挖掘季度性的門診患者量增長及季節性疾病情況，找出其特定的規律，為醫院在次年相應季度提前建立應對預案提供輔助決策支持，以優化醫療設備，增加相應疾病藥品的庫存量；挖掘門診醫療數據，為醫院制定最佳的醫療服務舉措和最優化的醫療資源配置提供決策支持，增強醫院對環境變化的適應性，改善患者就醫體驗。

1 方法

1.1 數據納入

某省級三甲綜合醫院2016—2021年10月門診醫療數據包含就診、門診診療數據、門診人員配備數據。就診數據包括：就診序號、日期、付費方式、患者ID號、就診科室、就診類別；門診診療數據包括：患者卡號、性別、出生日期、診斷編碼、診斷名稱、就診日期。核查數據，剔除性別異常數據59條，剔除出生日期異常數據257條，共納入數據2 830 770例門診就診記錄。分析數據，對采集的數據進行分析處理如下(表1)。

表1 研究變量及其量化情況

1.2 統計方法

利用ORACLE數據庫存儲原始數據，Python3.8進行數據清洗和處理，根據診斷對性別字段空置進行處理。在Python3.8中編寫代碼對診斷數據進行處理，生成診斷詞云圖。運用SPSS25工具對數據進行分類、估計、預測、相關性分組或關聯規則分析。運用EViews 進行預測模型建立。

1.3 結果與分析

對2009—2020年10月門診就診數據進行描述性統計分析，數據近似正態分布(偏度0.386<1，峰度-0.845<1)，可以用t檢驗和方差分析，以P<0.05為差異性具有統計學意義。

1.3.1 不同年齡就診情況表2可以看出年齡6歲及以下27 227，中位數為344；7—17歲81 244，中位數為993；18—40歲660 726，中位數為8 056；41—65歲1 161 725，中位數為15 329。66歲及以上899 848份，中位數為12 490。采用ANOVA檢驗，得統計量：F=393.88，P<0.05，即不同年齡組的就診數量存在統計學差異。

1.3.2 不同性別就診情況表3可以看出男性就診量1 505 449，女性就診量1 325 321，男:女=1:0.88。男性就診量的就診數量中位數為20 341，女性病例為17 483(表3)。通過T檢驗得到統計量T= 2.585，P=0.663，P>0.05，即不同性別的就診數據差別沒有統計學意義。

表2 不同年齡就診數量

表3 不同性別就診統計

1.3.3 診斷分布診斷數據存在較多自用的編碼和名稱，為了統計診斷數據的差異性，根據國際疾病分類ICD-10標準編碼對診斷數據進行清洗，通過T檢驗得到統計量T= 5.935，P=0.000，P<0.05，即不同診斷的就診數量存在統計學差異，通過Python生成診斷詞云圖(圖1)，排名前10的診斷為高血壓病、糖尿病、腦梗死、心臟病、腹痛、屈光不正、尿毒癥、胃炎、腎移植狀態、睡眠障礙。

1.3.4 付費方式窗口途徑1 838 029例，自助途徑992 741例，窗口:自助= 1.85:1。窗口途徑的就診數量中位數為25 819，自助途徑中位數為13 743(表4)。通過T檢驗得到統計量T= 7.068，

圖1 診斷詞云圖

P=0.000，P<0.05，即不同途徑的就診數量存在統計學差異。通過分析每年就診途徑數據發現隨著信息技術發展自助就診的數量也在逐年增加。

1.3.5 就診科室按科室就診數量排名前10的為心血管內科、神經內科、內分泌骨質疏松與骨病科、急診科、消化內科、眼科、骨科、呼吸與危重癥醫學科、腎臟內科、婦科，通過T檢驗得到統計量T= 267.315，P=0.000，P<0.05，即不同科室的就診數量存在統計學差異。

1.3.6 就診類別專家就診579 230例、普通就診1 989 920 例、急診就診169 952例、義診就診79 608例、特需就診12 060例；專家就診數量中位數為7 828，普通就診數量中位數為25 497，急診就診數量中位數為2 286，義診就診數量中位數為2 770，特需就診數量中位數為102(表5)。采用ANOVA檢驗，得統計量：F=140.83，P<0.05，即不同類別的就診數量存在統計學差異。

表4 不同性別就診數量統計

表5 不同性別就診數量統計

1.3.7 回歸分析單因素分析結果顯示，納入變量中有多個變量在就診數量組間存在統計學差異，因此需進行回歸分析，找出主要影響因素。本研究選用能夠反映變量與就診數量之間直接影響作用的逐步回歸模型。

1)變量納入。因變量為就診數量，自變量選取影響因素(表1)。通過以上分析可知就診數量呈偏近似正態分布，對因變量和自變量進行逐步回歸分析。變量入選標準為α=0.05，剔除標準為β=0.10。

2)標準化回歸方程的建立。從圖2中可以看出經過回歸后6個變量中只進入了5個變量即X2、X3、X4、X5、X6。根據模型的偏回歸系數、標準回歸系數、回歸系數假設檢驗t值、P值。建立逐步回歸方程如下：

Y=-7.535+5.868X2-6.611X3+3.654X4+0.256X5-0.005X6

圖2 回歸分析結果

3)回歸方程檢驗。回歸方式檢驗結果為F=25.254，P<0.05，認為回歸方程有統計學意義。從標準化回歸方程回歸結果可以看出，影響就診數量的主要因素從大到小為：途徑、年齡、就診類別、科室、診斷。在控制其它因素的條件下，就診數量與年齡、就診類別、科室、診斷呈顯著正相關，就診數量與途徑呈顯著負相關。通過上面分析可以看出，納入的6個變量中途徑、年齡、就診類別、科室、診斷5個變量對就診數量存在一定影響，與單因素分析結果一致。

1.3.8 預測模型選取2016年1月至2021年10月的月門診就診數量，進行統計預測建模及分析。共納入70個月門診就診數量作為樣本。根據數據特點可進行時間序列建模。

1)平穩性時序圖檢驗。將EXCEL中數據導入Eviews軟件中生成時序圖，從圖3中可以看出門診就診數量(ghcount)序列是平穩的。

圖3 時序和自相關性檢驗圖

樣本自相關性檢驗。從樣本相關函數圖(圖3)可以看到月門診就診數量(ghcount)的樣本相關函數是緩慢的遞減趨于零的，且具有一定。所以，通過月門診就診數量(ghcount)的樣本相關圖，可初步判定該年門診就診數量(ghcount)時間序列是平穩。

單位根檢驗(ADF-Schwarz Info Criterion檢驗)。對月門診就診數量(ghcount)進行ADF檢驗，結果顯示在1%的顯著性水平下，單位根統計量ADF=-4.934 538大于Eviews給出的ADF臨界值-3.476 275(圖4)。所以拒絕原假設，即月人均就診數量(ghcount)序列是平穩的。

圖4 月門診就診數量(ghcount)單位根檢驗

2)估計月門診就診數量統計預測模型。從時序圖(圖3)可以看出，序列既有長期趨勢又有周期性，季節性因素會導致統計數據不能客觀反映數據變化情況，因此使用Eviews軟件中時間序列指數平滑模型exponential smoothing方法對月門診就診數量進行調整(圖5)，除掉季節波動因素的影響，可初步建立模型ARIMA(1,0,1)×(1,0,1)12和模型ARIMA(1,0,0)×(0,0,1)12。模型檢驗結果顯示：ARIMA(1,0,0)×(0,0,1)12模型的SAR(12)系數、C值系數、MA(1)系數的T檢驗P值大于0.05，不滿足參數有統計學意義要求；模型ARIMA(1,0,1)×(1,0,1)12的SMA(12)系數、AR(1)系數的T檢驗P值均小于0.05(圖6)，滿足參數有統計學意義要求。

圖5 月門診就診數量平滑指數處理

3)模型檢驗。對滿足參數有統計學意義的模型ARIMA(1,0,1)12進行殘差檢驗，根據殘差相關圖可以看出，滯后階數為10時，Q統計量為10.5，P值為0.389，P>0.05(圖7)。因此，可以確定的預測模型為ARIMA(1,0,1)12，其表達式為：

(1-0.966B)▽12▽Xt=(1+0.45B)εt。

圖6 ARIMA(1,0,1)

圖7 ARIMA(1,0,1)殘差檢驗

Theil′s inequality coefficients表示Theil不相等系數，介于0～1之間；數值越小表明擬合值和真實值之間的差異越小，預測精度越高。covariance proportion 表示協方差誤，反映殘存非系統預測誤差，該誤差占比越大，預測效果越好。擬合統計模型ARIMA(1,0,1)，結果顯示Theil不相等系數為0.05，其中協方差誤為0.969(圖8、圖9)，大于方差誤(0.002 665)，說明模型的預測結果較理想，擬合效果良好，提取序列的信息充分，模型精簡。

圖8 模型預測

4)模型預測。為檢驗模型的預測誤差，現以2016—2020年數據為樣本，對2021年1—10月進行預測，并與其真實值進行對比，計算預測誤差，誤差均值為5.35%(表6)。

圖9 模型擬合

表6 2021年1—10月門診就診數量預測

3 結論

通過基于數據挖掘的門診輔助知識決策系統的建立與應用，挖掘門診患者在就診時間上的分布情況，掌握門診患者量高峰時間段，為醫院合理安排醫護力量和醫療設備提供輔助決策支持，減少患者的等待時間，避免因為醫療資源緊張導致不必要的醫療糾紛；挖掘季度性的門診患者量增長及季節性疾病情況，找出其特定的規律，為醫院在次年相應季度提前建立應對預案提供輔助決策支持，以優化醫療設備，增加相應疾病藥品的庫存量；挖掘門診醫療數據，為醫院制定最佳的醫療服務舉措和最優化的醫療資源配置提供決策支持，改善患者就醫體驗。