朱光 鄧弘林



摘要:目的? 了解目前醫院預約診療服務中患者爽約行為的現狀,探討和鑒別患者爽約的關鍵特征,運用這些特征建立機器學習算法模型預測未來患者爽約行為。方法? 挖掘2018年河北省某大型三甲醫院預約大數據,首先用Stata采取傳統Logistic回歸找出患者爽約的顯著因子,再將數據劃分為訓練集和預測集,采用SVM、決策樹、隨機森林和BP神經網絡等不同模型學習訓練患者爽約行為和特征,檢驗每種算法對患者爽約預測的準確率。結果? 目前醫院患者預約爽約率為16.16%,Logistic回歸分析顯示年齡、性別、預約時間和預約科室是爽約行為的關鍵性特征;使用這些特征進行機器學習和預測能取得較好效果,SVM、決策樹、隨機森林和BP神經網絡各個算法準確率均超過75%,其中SVM和BP神經網絡準確率最高,是該特定情境下的最優算法。結論? 我國大型三甲醫院預約診療服務有待進一步加強,在大數據時代的背景下,機器學習方法可為醫院預測并降低爽約率提供強有力支持。
關鍵詞:預約診療;爽約率;機器學習;大數據
中圖分類號:R197.3? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:B? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? DOI:10.3969/j.issn.1006-1959.2020.22.004
文章編號:1006-1959(2020)22-0013-04
An Investigation of Predicting Patient Missing Appointment Behavior Under the Big Data Background
ZHU Guang1,DENG Hong-lin2
(1.Department of Publicity and Planning,Cangzhou Central Hospital, Cangzhou 061000,Hebei,China;
2.School of Business,Sun Yat-sen University,Guangzhou 510000,Guangdong,China)
Abstract:Objectives? To understand the current situation of patients'missing-appointment behavior in the appointment service of hospitals; to explore and identify the key features of patients'missing appointment.Use these features to build a machine learning algorithm model to predict future patient missing-appointment behavior. Methods? Mining the big data of appointments in a large tertiary hospital in Hebei Province in 2018. First, Stata adopts traditional Logistic regression to find the significant factors of patients' appointments, and then divides the data into training sets and prediction sets, using SVM, decision tree, random forest and BP Different models, such as neural networks, learn and train patients' absentee behavior and characteristics, and test the accuracy of each algorithm in predicting patient absenteeism. Results? The current appointment rate of hospital patients is 16.16%. Logistic regression analysis shows that age, gender, appointment time and appointment department are the key features of appointment cancellation behavior; using these features for machine learning and prediction can achieve better results, SVM, decision tree accuracy of each algorithm of random forest and BP neural network exceeds 75%. Among them, SVM and BP neural network have the highest accuracy, which is the best algorithm in this specific situation. Conclusion? The appointment diagnosis and treatment services of my country's large tertiary hospitals need to be further strengthened. In the context of the era of big data, machine learning methods can provide strong support for hospitals to predict and reduce the rate of missing-appointment.
Key words:Appointment of diagnosis and treatment;Missing-appointmentrate;Machine learning;Big data
國家提出的互聯網+等戰略,表明以互聯網和大數據為核心的科技和社會變革已形成了推動國家醫療發展的新浪潮。在此環境下,全國范圍內推廣電子渠道預約掛號(如微信平臺)的醫院越來越多。然而,許多醫院反映預約掛號存在著爽約率較高的局面,造成了醫療資源的浪費,更在一定程度上擾亂了醫院的診療秩序[1]。因此,如果可以從患者預約時輸入的多維信息(如性別、年齡、預約時間、預約科室等多個變量)鑒別其中的關鍵因素,并利用這些因素對該預約的爽約概率進行預測,可大大提高預約診療服務的管理效率[2]。以往研究大多從現象表面出發,以單一維度對爽約行為進行定性探討,無法準確地預測每個預約的爽約概率。本研究從大數據驅動的角度出發,構建不同的機器學習算法模型對爽約行為進行預測和識別,通過比較預測準確率選擇最優算法,為醫療資源配置優化提供可行性建議。
1資料與方法
1.1資料來源? 本研究選取華北地區某大型三甲醫院2018年全年通過電子渠道(包括微信平臺、醫院官網)共94651例預約。
1.2研究變量和測量工具? 本研究的因變量為二元變量,即患者赴約(標記為1)或爽約(標記為0),自變量包括患者年齡、性別(類別變量,男性=1,女性=0)、預約就診時間與訂單時間差、預約科室(類別變量,共41個科室類別)、醫生預約名額上限(即預約醫生每天可供預約名額)。
1.3機器學習算法? 采用Stata進行邏輯回歸分析,考察和篩選患者爽約行為的關鍵性特征。然后運用Python中的sklearn庫對篩選后的關鍵性特征進行建模、分析和預測。運用支持向量機(SVM,RBF核函數)、決策樹(C4.5算法)、隨機森林和BP神經網絡機器學習模型對患者爽約行為的特征進行學習和預測,比較不同算法的準確率,探討當前情境下的最優算法[3]。
在大數據分析的算法中,SVM是目前最為廣泛應用的為二進制分類而設計的算法。本文的實證場景為患者“是”或“否”爽約,符合SVM的研究情境。利用核函數(最常用的為RBF核函數)機制構造一個最優的超平面,從而使負數據集和正數據集之間的間隔最大 [4]。
決策樹是(DT)一個有監督分類與回歸算法,其中每個內部節點表示一個屬性上的判斷,每個分支代表一個判斷結果的輸出,最后每個葉節點代表一種分類結果[5]。在機器學習里的決策樹主要優點是在克服傳統方法的缺點的同時,利用邏輯模型對數據進行分類,具有更高的精度。最常見的決策樹類型為C4.5算法(以信息增益率為分枝方式)。然而,決策樹容易過度擬合,此時隨機森林(random forest)很好地緩解了這個問題。隨機森林是決策樹的集合,其結果被聚合為一個最終結果。隨機森林算法能限制過擬合的問題并且不會因為偏差而大大增加誤差。
BP神經網絡是一種按照誤差逆向傳播算法訓練的多層前饋神經網絡,是目前應用最廣泛的神經網絡,其主要利用鏈式規則的梯度來優化算法,特點是其迭代、遞歸和有效的計算權值更新的方法,以改進網絡,直到能夠執行訓練任務為止[6]。
1.4統計學方法? 采用Stata進行邏輯回歸分析,考察和篩選患者爽約行為的關鍵性特征。然后運用Python中的sklearn庫對篩選后的關鍵性特征進行建模、分析和預測。
2結果
2.1患者預約爽約行為分析? 進行預約的94,651例患者的平均年齡為37.04歲,以女性較多,通常患者提前一天半進行預約,該醫院共有41個可供預約的科室類別,每個醫生平均可接受預約的名額約為23個,較為充足,在預約實例中,爽約率達到16.16%,有15,300例,見表1。
2.2患者爽約行為的關鍵性特征分析? 構建方程:Logit(患者是否爽約)=α + β1年齡+ β2性別+ β3預約就診時間與訂單時間差+ β4預約科室+ β5醫生預約名額上限 + μiLogistic回歸模型用以預測事件發生或不發生概率。預測值最大時趨向1,最小時趨向0,即如果通過模型計算出來的概率大于0.5,則預測該患者會爽約。在上式中,βi(i = 1, 2, 3, 4, 5)為自變量的相關系數,α為常數項,μ為殘差。通過Stata軟件進行Logistic回歸分析的結果顯示,①患者的爽約行為與年齡呈正相關,患者年齡每增加1歲,其爽約的可能性便上升約0.22%;②患者的爽約行為與性別顯著相關,其中女性更容易爽約;③患者的爽約行為與預約時間顯著負相關,越提早預約的患者越不容易爽約;④不同科室的爽約概率也不同,其中外科的爽約率最高,達到55.56%,皮膚科的爽約率也超過33%,爽約率最低的為產科,約11.28%;⑤醫生的預約名額與患者是否爽約沒有顯著關系,見表2。
2.3基于機器學習的患者爽約行為預測? 針對數據驅動的患者爽約行為預測,本研究采用SVM、C4.5決策樹、隨機森林和BP神經網絡對數據進行分析。主要使用Python語言的進行建模、訓練和預測。首先指定機器將118627條數據劃分為訓練集和測試集,其中訓練集占70%原始數據。在SVM分析中,首先驗證RBF核函數下的預測準確率,gamma值設置為1/4(即0.25),懲罰系數C設置為1。在決策樹模型中采用C4.5算法,不指定最大深度和最大子葉節點以提高準確率,而隨機森林算法的最大迭代次數設置為100。BP神經網絡模型則設置3層隱藏層,每層50個神經元,即hidden_layer_sizes=(50,50,50),最大迭代次數為200次。各項測試結果顯示,機器學習的方法能獲得較高的預測準確率(均超過70%);在各種大數據建模分析方法中,最適合預測患者爽約行為的算法是BP神經網絡算法和采用RBF核函數的SVM算法,預測患者是否爽約的準確率均達到83.80%,其次是隨機森林算法,準確率為79.80%。見表3。
3討論
預約診療能合理、有效、公平地分配和利用醫療資源。對改進患者就醫秩序,縮短患者等待時間,提高診療效率發揮了重要作用[7]。因此我國各醫療機構充分發揮多種手段和渠道開展預約診療。本文的實證研究和分析有以下三點發現。①患者預約爽約率總體上比較高,預約就診服務仍需改善:預約就診服務能為醫院管理高效地、有計劃地分配資源,當中最常見也最難以解決的問題就是患者爽約,過高的爽約率使得預約就診服務失去其促進資源分配的意義[8]。本研究發現,目前醫院一年內預約次數已達將近10萬人次,大部分科室也已經開始推廣預約就診服務,但是預約爽約率較為偏高,與以往研究的爽約率相仿,證明就降低患者爽約行為而言,目前預約就診服務尚未得到明顯改善。因此,本文的研究,先從患者預約的多維信息中檢測其中的關鍵因素,再通過機器學習預測患者是否爽約的策略,可為醫院改善預約診療服務提供思路。②患者的社會人口學特征、預約時間和預約科室對爽約行為的影響較大:本研究結果表明,決定患者是否爽約的關鍵因素包括了患者本身的特征、提前多久預約以及預約的科室。其中,在預約的患者當中,女性患者占了大多數,不過,女性患者相比男性患者而言也更容易出現爽約行為,同時高齡患者也比年輕患者爽約的概率高,而越早進行預約的患者更不容易爽約,提早預約說明患者對該次診療更為重視,因此赴約的可能性更高。科室之間的爽約率也相差甚遠,這可通過科室診療特點進行解釋[9]。例如,婦產科的患者爽約的比例最低,主要因為婦產科患者的復診率較高而且有相對固定醫生,接診醫生會給予明確的復診時間,因此患者通常會依照醫生指引預約特定的時間復診。③在大數據背景下通過機器學習預測患者爽約行為:盡管大數據機器學習的方法越來越流行,但能否以及如何應用到醫院預約診療服務管理尚未有定論,本文立足于預測患者爽約行為的特定情境,發現總體而言機器學習的方法在大數據環境下能有效地預測患者該次預約爽約的可能性(多個算法的預測準確率均超過70%),然而同時,本文發現了選擇合適的算法才是最關鍵的,不同算法得出的準預測確率也有區別。
4對策建議
各醫療機構要高度重視預約爽約問題,根據本研究,提出改進和提高醫院預約診療服務管理具體建議:①將日常預警和跟蹤作為預約診療服務的中心工作。可根據爽約率高的人群進行VIP管理,如事前提醒,事后服務跟蹤,就醫過程無障礙化等。②需對預約診療的人群進行現場滿意度測評和定期回訪,根據患者的意見和建議改善醫療服務。③對爽約率較高的科室和人群進行個案分析,找出具體原因,提出對應策略,提高患者的認同感。④患者就醫過程是對醫院多項服務的綜合體驗,醫院需根據跟蹤的意見,改善全院服務,因此研究患者爽約行為也是發現醫院服務缺陷的一個重要途徑。
總之,患者爽約率高是目前醫院推行預約診療服務的亟待解決的一個瓶頸,深入研究患者爽約行為的特征和要素,結合大數據時代下的先進技術,從而采取相應的管理措施降低爽約率,提高管理質量,是進一步推行預約診療服務和提高醫院工作效率的關鍵所在。
參考文獻:
[1]喻锎.探索精準預約服務建立通暢就醫流程--武漢市第一醫院預約診療服務實踐和探索[J].中國醫院管理,2019,459(10):2-3.
[2]Kogan S,Moskowitz TJ,Niessner M.Fake News:Evidence from Financial Markets[D].SSRN Electronic Journal,2018.
[3]黃洛.醫院門診預約掛號爽約的現狀及對策[J].現代醫院,2019,19(4):63-66.
[4]陳默,蔡苗,黃阿紅,等.基于K-means聚類與支持向量機的大病患者住院費用影響因素與控制策略研究[J].中國醫院管理,2019,39(5):45-47.
[5]吳越,徐叢劍,程子桐,等.二值響應模型與決策樹在門診失約行為研究中的應用[J].中國醫院管理,2018,38(10):36-38.
[6]易焱琪,鞠水,家曉艷,等.淺析BP神經網絡技術在醫院信息系統中的應用[J].科技創新與生產力,2017(2):107-109.
[7]周奇.醫院門診預約系統的優化分析:基于國內某大型醫院的研究[D].中國科學技術大學,2017.
[8]周萍,馮笑,趙嶺,等.醫院預約掛號爽約現象的調查分析[J].中醫藥管理雜志,2018,26(18):29-31.
[9]劉玉琦,郝曉剛,馬亞飛.某三級醫院預約掛號爽約情況及其原因調查[J].武警醫學,2018,29(2):117-119.
收稿日期:2020-07-10;修回日期:2020-08-19
編輯/成森
作者簡介:朱光(1991.10-),女,黑龍江大慶人,本科,經濟師,主要從事醫院人力資源、醫療管理及市場營銷
通訊作者:鄧弘林(1987.7-),男,廣東湛江人,博士,助理教授,主要從事電子商務、醫療大數據分析及機器學習研究