楊婷婷
(如皋市人民醫院, 江蘇, 如皋 226500)
患者流向監測是實現分級診療制度的關鍵。目前,患者流向監測主要依靠統計性指標,但由于醫療信息化水平的提高,采用該方法進行流向監測存在效率低、可靠性差等問題。因此,為提高患者流向監測效率和可靠性,研究以數據產生源頭為出發點,通過大數據聚類分析和異常檢測,挖掘異常的醫院患者流向及其異常流向原因。現今,常用的數據聚類分析方法包括DBScan、Hierarchical Clusterer、k-means算法等,如武煒杰等[1]、張巧等[2]、李玥等[3]分別采用上述算法,完成了各個領域海量數據的分類,更好地實現了目標跟蹤等目的;異常檢測方法主要為基于偏差法檢測,如孫宇豪等[4]、秦婉亭等[5]基于偏差法完成了對微信和颶風軌跡異常的檢測?;谏鲜鲅芯浚C合考慮醫院患者流向異常數量巨大等特殊因素,本文決定首先采用k-means算法對患者數據分類,然后借助偏差法進行識別,實現患者流向異常檢測。
k-means算法是一種常見的劃分聚類分析算法,其聚類思想是對給定的樣本集,按照樣本間的距離大小劃分為k個類簇,并盡量使每個類簇間的距離最大。該算法初始k值為隨機設置,且通常以所有點平均值作為質心,故其對含有噪聲的數據集聚類效果差[6]。本研究中,醫療患者數據復雜且噪聲明顯,因此為提高聚類效果,提出兩個階段的k-means改進算法。
第一階段,確定聚類個數k1和初始質心進行聚類。研究采用最大最小距離法確定初始質心,以保證每次選擇的質心均遠離已經選擇的質心。最后,根據確定k1值和質心,進行聚類,得到聚類結果。
第二階段,根據第一階段聚類結果劃分為常見患者、罕見患者、極罕見患者集合。由于極罕見患者數量較少,因此研究對其進行刪除處理,并采用k-means算法分別對常見患者和罕見患者集合進行聚類,并輸出結果。
改進的k-means算法流程如圖1所示。

圖1 改進k-means算法流程
基于改進k-means的醫院患者流向異常檢測流程主要分為兩步,具體如下。
(1) 異常聚類。根據基層患者特征,采用改進k-means算法進行聚類。首先,對不同k取值進行反復實驗,確定最優k值,并將其作為最終聚類簇個數;然后,采用最大最小距離法選擇初始質心;最后,選取最優的指標進行聚類并存儲聚類結果。
(2) 異常識別。假設患者跨級就診均為合理,則患者靠近特殊簇,遠離基層患者簇。采用歐氏距離d量化“靠近”和“遠離”的關系;采用向量表示跨級患者x的11維特征[x1,x2,…,x11],標記每個類簇的質心c為向量[c1,c2,…,c11],則通過式(4)可計算x到每個類簇質心c的距離,標記距離最近的類簇i到質心c的歐式距離為dxi,
(1)
上述患者流向異常檢測流程如圖2所示。

圖2 異常識別流程
研究以2020年住院病案首頁及人口信息庫650多萬條記錄為原始數據集,并從中任意抽取連續10天的病案數據約20萬條記錄作為實驗數據集。考慮到數據集中存在無關或冗余或缺失的字段,研究對實驗數據集進行了數據清洗、缺失值填補、標準化預處理。
對于格式錯誤的數據,采用正則表達式進行查找并進行人工修正;對于重復數據,研究采用刪除保留一條數據;采用模糊匹配[7]和推理填補[8]的方式對缺失字段進行填補;采用標準差標準化(z-score)[9]對所有數據進行標準化。標準化公式如下:
(2)
式中,μ為均值,σ為標準差。根據上述標準化處理,得到均值為0,標準差為1的標準正態分布數據集。
3.1.1 特征選擇
為更好地識別患者流向異常,根據患者健康狀況、經濟狀況、社會因素等關鍵特征進行篩選,最終確定了跨級流向的患者特征,如表1所示。

表1 跨級流向患者特征
選取誤差平方和(SSE)、鄧恩指數(DVI)、戴維森堡丁指數(DBI)作為評估基于改進k-means算法的醫院患者流向異常檢測方法效果,其計算方法如式(3)~式(5)[10]:
(3)
(4)
(5)

3.3.1 算法驗證
為驗證本研究改進k-means算法的有效性,研究對比傳統k-means算法,在相同參數設置下進行了實驗,結果如圖3、圖4所示。

圖3 不同k值下算法性能

圖4 改進k-means與傳統k-means聚類結果統計
由圖3可知,隨著算法第一階段k值增大,算法運行時間逐漸上升,迭代次數逐漸增加,誤差平方和逐漸減小。當k<200時,誤差平方和下降幅度較大;當k>200時,誤差平方和下降幅度逐漸趨于平緩,因此可確定本研究提出的改進k-means算法第一階段k=200。由圖4可知,相同聚類個數條件下,取任意k值,改進k-means算法的誤差平方和均低于傳統k-means算法的誤差平方和,且隨著類簇個數的減小,優化效果更明顯。
3.3.2 算法比較
為進一步驗證本研究算法聚類效果的優越性,研究對比cobweb、DBScan、Hierarchical Clusterer算法進行聚類實驗,結果如表2所示。由表2可知,不同算法的聚類時間和聚類結果不同。其中,Hierarchical Clusterer算法因復雜度較高,無法完成建模分類;cobweb、DBScan算法聚類時間較長,且聚類個數較多;傳統k-means算法聚類時間最短,但其聚類效果最差;改進k-means算法建模時間略長于傳統k-means算法,但其聚類效果優良。因此,綜合考慮算法聚類時間與聚類效果,本研究提出的改進k-means算法性能優于cobweb、DBScan、Hierarchical Clusterer和傳統k-means算法。

表2 不同算法結果對比
為驗證本醫院患者流向異常檢測方法的有效性,分別在不同臨界值(dxi)下進行實驗。不同臨界值下患者分布如圖5所示。由圖5可知,當臨界值dxi≤max(i)時,有59%的患者跨級異常但不屬于特殊簇,會被判斷為異常流向;當dxi≤max(i)/2時,有18%的患者跨級異常但不屬于特殊簇,會被判斷為異常流向。由此說明,目前就醫情況異??缂壍尼t院患者較多。

(a) dxi≤max(i)條件下患者分布

(b) dxi≤max(i)/2條件下患者分布圖5 不同臨界值下患者分布
選取dxi≤max(i)時,被判斷為異常跨級的醫院患者與正??缂壍尼t院患者進行疾病難度等多維度對比,結果如表3所示。由表3可知,在年齡、入院病情、疾病難度等多維度特征分布上,本研究檢測方法對異常流向的跨級醫院患者的判定結果與預期基本相符,說明該檢測方法合理。

表3 正常跨級與異??缂壔颊邔Ρ?/p>
為進一步評估本研究提出的醫院患者流向異常檢測模型的準確性,研究抽取400條數據進行專家審核。根據專家評審結果可知,采用本研究提出方法標記的跨級就診中,被判斷為異常流向的患者均被專家評審為異常流向,判斷準確率為100%;有31.83%異常流向的醫院患者被判斷為正常流向,判斷準確率為68.17%;有14.73%被判斷為異常流向的患者屬于合理跨級就診,判斷準確率為85.27%。由此說明,本研究提出的醫院患者流向異常檢測模型可有效識別出政策難以界定的患者流向。
為分析造成醫院患者流向異常的原因,研究將未納入政策評判的收入水平、住址與醫院距離等指標加入模型進行深入分析。根據分析結果可知,85.92%的異??缂壘驮\患者收入水平高于該省平均收入水平;64%的異??缂壘驮\患者在距離大型醫療機構10 km范圍內。由此可知,中高等收入或居住地在大型醫療機構附近的人群很可能選擇越過基層醫療機構,直接到大型醫療機構就診。
通過上述分析可知,本研究提出的基于醫療大數據的醫院患者流向異常檢測模型,可根據正常流向患者聚類結果,有效識別出跨級異常流向的患者,并結合異常流向患者特征找到造成異常流向的原因,提出改善異常流向的對策。