李趙興,崔巧云
(1.榆林學院信息工程學院,陜西榆林 719000;2.榆陽區電視臺,陜西榆林 719000)
隨著交通的便利和人民生活的提高,患者傾向于去三甲醫院看病,導致三甲醫院看病擁堵、看病難等問題一直沒有得到很好的解決,然而基層醫療公共衛生所和基層醫療機構的患者相對較少,伴隨著老齡化、城鎮化等社會轉型,城鎮居民大量的增長,給大醫院帶來了很大的挑戰。隨著城市的發展,老齡化的人越來越多,慢病患者越來越多,慢病患者基本上每周或者兩周就要去醫院開藥,導致大醫院、好大夫被慢病患者消耗了很多的資源和精力。另外,隨著人民生活水平的提高,人民基本健康需求增長迅速,出現了多樣化的特征,給基本醫療體系帶來了挑戰[1],主要原因是現有的醫療衛生服務體系配置不完善、優質醫療資源不足和配置不合理,不能有效配置優質醫療資源,不能有效地滿足治理、護理等需求服務。另外,基本醫療衛生服務體系面臨分配不均衡的問題,以大醫院和三甲醫院為例,常見病、多發病不僅占用了大量的優質醫療資源,還造成了優質醫療資源的負擔,同時還引起了患者就醫不方便,不利于從根本上解決“看病難,看病貴”的問題[2-3]。
目前國內對分級診療制度的研究主要聚焦在制度層面的評價,對醫療資源配置的分類較少,包括對病種分類的具體方法研究較少,在具體實施時,缺少有效的分類方法(哪些病應該分配到哪一級醫院),造成了我國目前的分級診療只是停留在制度層面。該文以醫療資源有效資源配置為研究目標,采用決策樹算法對患者進行有效分類[4],從而降低醫院、患者的成本。
C4.5 算法是在ID3 算法[5]基礎上的改進,由于ID3 算法無法對連續屬性進行分類,針對此問題,Ross Quinlan 提出了C4.5 算法。C4.5 算法[6-8]用 信 息增益率來選擇屬性,提高了衡量屬性劃分數據的廣度和均勻性,對連續型屬性進行了增強,同時對屬性值空缺方面進行了很好的處理,和ID3 算法相比,不僅分類準確率高而且速度快,生成的決策樹分支也較少。C4.5 算法在選擇連續性測試屬性方面做了如下處理,將訓練數據集S中的樣本按連續描述屬性A的值進行遞增排序,一般采用快速排序法。假設S中屬性A有m個不同的取值,則排好序的取值序列為a1,a2,…,am。按該順序逐一將兩個相鄰的平均值a′作為分割點,分割點將S劃分為兩個子集,分別對應屬性A小于a′和大于a′的兩個子集。這樣共有m-1 個分割點,分別計算每個分割點的信息增益比率,選擇具有最大信息增益比率的分割點。按照上述方法求出當前候選屬性集中所有屬性的信息增益比率,找出其中信息增益比率最高的屬性作為測試屬性[9]。

把區間[ai,ai+1)的中位點作為分割點t,然后同離散值一樣計算切分點的信息增益,即可以得到處理連續值的信息增益率的計算公式為:

其中,Gain(D,a,t)是樣本集D基本劃分點t二分后的信息增益。劃分時,選擇最大的劃分點Gain(D,a,t)
分裂信息熵在訓練樣本集D中,特征a的分裂信息熵計算公式如下:

其中,S為特征值a的取值個數,Dj為數據集D中a特征值第j個值的子集。
通過式(1)和式(2)或者式(3)可得到特征a信息增益率的數學公式為:

基于改進的C4.5 算法[10-14]的最后階段成績預測,根據各特征在分級診療中所占的權重大小,引入權重后特征av的信息增益公式如下:

改進的C4.5 算法[15-16]偽代碼如下:
輸入:訓練數據集

其中,xi的特征集合為A={a1,a2,…,ad},xi各個特征對應的權重數組為v=[v1,v2,…vd]。
輸出:根節點為N的決策樹
執行流程:創建對應的S的節點Node(初始化決策樹的根節點)
If(S中的樣本屬于同一類別c)


將Ai作為Node 的測試屬性;
根據最佳劃分點t將數據集劃分為兩部分;
if(Ai為連續屬性)找該屬性的分割閾值
For(Ai的每個可能取值aij)
遞歸執行
遞歸執行
其中,A/{ai}代表從A中除去的特征ai,選擇改進的最佳分裂函數,執行過程如下:
Input:訓練數據集

其中xi的特征集合為A={a1,a2,…,ad}
xi的各個特征對應的權重數組v=[v1,v2,…vd]
輸出:最好分裂特征bestFeature 和最好的分裂點bestSplitPoint
初始化:

根據式(1)計算特征ai的候選劃分點集合T,T={t1,t2,…tn}
設最大信息增益為0
FortiinT
分裂信息熵為零
根據劃分點ti將數據集劃分為兩部分
根據式(2)計算劃分點ti的信息增益
If GainRatio>max GainRatio
根據式(3)計算分裂屬性
If GainRatio=max GainRatio
根據式(4)劃分點ti的信息

該文以孕婦歷史就醫數據集為實驗數據,根據孕婦到醫院的距離、孕婦的家庭人均年收入、產檢次數、有無流產史作為屬性,采用改進的C4.5 算法對屬性進行決策樹劃分和預測。研究對象為20 歲到45 歲的孕婦,數據分別來源于榆林市一級醫院、二級醫院、三級醫院,研究對象的屬性設置是和相關醫院和醫療管理中心一起研究確定的主要影響孕婦去不同等級醫院的因素。

表1 不同基本資料的孕產婦選擇醫療機構級別比
對已經獲得的孕婦就診數據進行分類,從圖1~3 可以得出孕婦就診的決策樹分類模型,然后對榆林市一級、二級、三級醫院就診的孕婦進行分類調查,結果顯示,不同等級醫院就孕婦在年齡、距離、等候時間、家庭年人均收入、產檢次數等方面做統計,通過圖1~圖3 可以得出,孕婦去一級和二級醫院的特征不是很明顯,主要區別還是與醫院距離的遠近和醫院花銷,孕婦選擇二級醫院和三級醫院相對較為明顯,如果產檢次數正常,大部分選擇三級醫院,如果產檢次數不正常,去二級醫院的孕婦比較多,但是由于去一級醫院的孕婦普遍收入比較低、學歷比較低、產檢次數也比較少,所以在分類時,在二級醫院和三級醫院之間有一定的誤差。整體分析顯示,收入高的人群去三甲醫院的比較多,收入低的人群去一二級醫院的比較多,這也符合人們正常的推理,通過改進的決策樹分析顯示,一級醫院和二級醫院、二級醫院和三級醫院、一級和三級醫院的預測正確率分別為56.9%、71.2%、66.8%。

圖1 一級和二級醫院分類模型

圖2 二級和三級醫院分類模型

圖3 一級和三級醫院分類模型

表2 孕產婦選擇醫療機構級別的決策樹分析賦值表
該文以孕婦就醫為例,采用改進C4.5 算法對孕婦合理選擇醫療機構進行分類診療,通過對影響孕婦去不同級別醫院的因素分析,可以提高孕婦去不同級別醫院的分類效率、降低錯誤的預測分析指數、提高分類的準確性,從而提高醫療資源的配置效率,建立合理的衛生服務體制架構,推進建立分級診療制度,改變目前存在的不合理的醫療資源配置問題,可以解決醫療衛生資源配置不均衡的問題,有效盤活現有的醫療資源、提高醫療資源配置使用效率,還可以到達降低看病貴看病難的問題。以前普遍分級診療都是當地的醫保辦根據病情來分類,但是這樣有一定的不足之處,因為不同的孕婦有不同的情況,經常有一些孕婦因為生產而失去小孩甚至自身的生命,該文在和醫院合作的基礎上統計了孕婦來醫院就診的數據,在數據里面分析出影響孕婦就診的一些主要的因素,采用改進的決策樹算法進行孕婦就診分類,可以提高分類的效率和精確度。該文研究的不足之處就是統計的影響孕婦就診的因素還不夠全面,包括孕婦的年齡、孕婦的整體身體素質等,需要做進一步研究。