宋恒曉, 蔡巖
(1.衡水市人民醫院 醫保科(城鄉結算處),河北 衡水 053000;2.河北師范大學 軟件學院,河北 石家莊 050024)
有效的經濟規劃是確保醫療組織財務可行性的必要基礎。大型醫療機構如果能夠制定出合理和準確的財務決策,則能夠在應對市場的變化時具有顯著的競爭優勢。在醫療機構內部,財務風險控制是維護醫院的正常運營和可持續發展的關鍵[1],是公立醫院長期總體規劃能夠安全執行的重要保障。
目前主流方法是對財務管理系統進行改進,通過服務端的記錄、統計和計算來實現財務的自動化數據分析,以解決用戶從海量財務信息中快速獲取價值數據并進行預警的問題[2-4]。例如,庾致瑋[5]提出的利用基于熵權方法來構建大型金融風險預警系統,對房地產公司的財務預警能夠基本符合現實情況。Qu M等[6]針對傳統主成分分析方法只關注全局結構特征而忽略局部結構特征的問題,提出一種基于改進核主成分分析的公立醫院財務風險預警模型,以提高風險評估能力。蔡歡等[7]提出了基于遺傳算法優化徑向基函數(Radial Basis Function,RBF)神經網絡的公司財務預警模型,主要利用遺傳算法對徑向基函數神經網絡模型進行改進。實證結果表明,基于遺傳算法的徑向基函數神經網絡模型的預測準確率有所提高。然而,上述已提出的方法均沒有分析并解決大數據技術下財務數據的復雜性問題,并且大多數僅對短期預測有效[8-10],因此無法滿足公立醫院長期發展需求。
因此,針對公立醫院財務風險較為集中的特點,本文提出構建基于深度卷積網絡的預測模型,并采用狼群算法優化(Wolf Pack Algorithm Optimization)偏向參數,將偏向參數作為狼群進行訓練,以便提高其參數優化效率,最終的實驗結果驗證了其可行性。
公立醫院財務管理系統中各部門之間數據的用途和格式均存在較大差異,此外,還包含大量對于財務預警沒有關聯的冗余數據,因此必須在數據分析之前對系統中現有的所有報表進行數據清洗。
針對公立醫院財務風險較為集中但是存在缺失、格式不統一和重復內容等問題,本研究采用4個過程來實現數據清洗功能,具體如下。
1)步驟1:缺失值補全。根據經驗分析,將判斷是否存在缺失的條件設為0.8,且根據0.8的條件對輸入的財務數據特征序列進行分類,過濾并保留小于0.8條件的特征列,需要注意的是,這里刪除序列的缺失值需要以“0”值進行填充補全。
2)步驟2:格式標準化。對輸入財務數據的保存格式進行標準化處理,例如每一條數據的錄入時間的格式均修改為“2020-11-08”;
3)步驟3:重復內容刪除。在步驟2結束之后對數據進行第二次重復的篩選,這次篩選的目的是剔除掉具有重復內容的特征列[11],需要注意的是,在剔除多個重復的特征列時必須保留一個,從而避免過度刪除。
4)步驟4:非必須數據刪除。刪除掉數據樣本中不處于財務預測周期中的數據特征列,從而大幅降低需要處理的數據規模。
最后,利用逗號對處理后的數據進行固定長度的分隔,從而形成文本數據,這種方法有利于數據的降維。
為了盡可能地減少過擬合現象的發生,就需要加強預測關系映射的樣本列的關聯度。
由于財務預警任務屬于非線性應用問題,因此本研究嘗試使用在非線性問題中表現較好的L1范數正則化來完成特征選擇。首先,計算數據清洗后特征序列的L1范數評分值。然后,適應度的閥值設置為0.6,也就是說過濾掉評分值小于0.6的特征,從而進一步促進數據降維。最后,過濾后的特征序列中僅剩下如“68.12,床位費用”“2 000.37,藥品費和門診收入”等關鍵信息。
在清洗和特征選擇后,財務數據已經進行了有效的降維處理,但是數據特征的取值范圍仍存在不同的問題,無法進行后續的模型預測。因此,本研究通過簡單快捷的均值方差歸一化方法對清洗和特征選擇后的樣本進行歸一化,具體計算式如式(1)。
(1)
其中,min表示最小值;max表示最大值;X表示輸入特征值;Xscale表示歸一化后的特征值。
對大型公立醫院來說,財務預測問題呈現出規律性的周期性模式,類似于資本運行的時間窗模式。因此,本研究借鑒圖像處理技術中常用的滑動窗口技術,對數據樣本進行滑動處理。這種技術在基于神經網絡模型的圖像識別應用中經常出現。窗口長度具體選擇為1年,滑動樣本生成的示例如圖1所示。

圖1 滑動樣本生成的示例
在數據清洗、特征選擇和歸一化預處理后,通過2年時長的窗口生成財務預警模型的輸入序列X=(x1,x2,…,xn),其中n為樣本的數量,每個樣本都需要第l層的卷積處理,具體方式如式(2)。
(2)
其中,Bl為第l層的預置值;wji為第j個輸入樣本所對應的偏向參數[12-13],函數f(·)的計算方式如式(3)。
(3)
網絡模型通過具有n個樣本的m個特征卷積池化進行預測分析,主要分為2種形式[14],如式(4)、式(5)。
(4)
(5)
其中,h×w為卷積核的大小。為了降低計算的復雜度,本研究利用式(5)的方式進行池化處理。設M=n/(h×w),輸入序列X經過卷積池化后新的序列表示如式(6)。
X′=(x1,x2,…,xM)
(6)
新的樣本序列X′利用式(2)完成轉換過程。
令yk表示輸出層中第k個節點的預測值,那么如果真實值為dk,則誤差項δk的計算方式如式(7)。
δk=(dk-yk)yk(1-yk)
(7)
在財務預警模型進行訓練時,網絡模型中全部節點的誤差E的計算式如式(8)。
(8)
為了減小卷積神經網絡模型的輸出誤差,傳統方法主要利用梯度遞減方法對式(2)的偏向參數進行多次迭代,從而找到最佳的網絡架構,然而傳統方法需要具有專業經驗的工程師人工調節,導致精度和工作效率無法滿足實際需求。

(9)
其中,Ci表示第i個病人的醫療費用估計誤差。

在集合Q中隨機選取Tnum個狼作為領航者,那么領航者的遷移過程如式(10)。
(10)
其中,h為遷移的方向;S為權重值。i=1,2,…,Tnum,g=1,2,…,h。
根據領航者的前進方向,其他狼的遷移過程如式(11)。
(11)
其中,dk為第k個狼和頭狼之間的距離,且dk∈(0,Dk)。i=1,2,…,N-Tnum-1。Dk可表示為式(12)。
(12)
其中,ω為距離權重。
最后所有狼開始向目標聚集,遷移過程如式(13)。
(13)
其中,λ表示一個隨機數,取值范圍為[-1,1]。z=1,2,…,N-1。

所提財務預警流程如圖2所示。

圖2 所提財務預警流程
為了驗證所提預警模型在實際醫院財務應用中的有效性,在全國范圍內選擇了5家省級三甲醫院,統計了5家醫院近4年的財務數據,其中70%作為訓練用數據集,其余部分作為模型測試用數據集。如上所述,實驗過程中預測窗口的長度設置為1年。
實驗通過均方根誤差(Root Mean Square Error,RMSE)和擬合優度(R-Square,R2)作為量化評估指標。
RMSE的定義為式(14)。
(14)

R2的定義為式(15)。
(15)
在不同網絡層數下的預測性能比較如表1所示。

表1 在不同網絡層數下的預測性能比較
從表1可以看出,隨著層數的增加,測試集的預測性能逐漸提高,在層數為3時達最佳,R2為92.36%,RMSE為3.30%。當層數為4時又開始下降。因此,最佳的層數設置為3,后續實驗中卷積神經網絡模型的層數均設置為3。
此外,實驗還采用了熵權方法、B核主成分分析和遺傳優化RBF神經網絡模型以便進行預測性能對比。如上所述,狼群優化卷積神經網絡模型中隱含層層數設定為3層。4種方法的預測性能比較如表2所示。

表2 4種模型的預測性能比較
如表2所示,本研究所提狼群優化卷積神經網絡在4種預測模型中表現出最好的綜合性能,測試集的R2最大,為91.53%,同時RMSE最小,為3.31%。
本文提出了一種基于深度卷積網絡的醫院財務預測模型,并采用狼群算法優化偏向參數,將偏向參數作為狼群進行訓練,以便提高其參數優化效率。仿真實驗結果表明所提預警模型的R2為91.53%,RMSE為3.31%,相比其他模型表現出更好的預測準確性。未來將嘗試不同深度學習模型和其他先進群體智能算法的結合。