劉曉靜
(河北北方學(xué)院附屬第一醫(yī)院,河北張家口 075000)
隨著數(shù)字化建設(shè)的高速發(fā)展,現(xiàn)代化醫(yī)院每天均會產(chǎn)生大量的數(shù)據(jù),這其中就包括人力資源數(shù)據(jù)。現(xiàn)階段,員工一年的工作量已無法用幾個指標(biāo)進(jìn)行簡單的量化。而傳統(tǒng)的數(shù)理統(tǒng)計(jì)方法僅依靠簡單的指標(biāo)公式對員工的績效進(jìn)行衡量,例如層次分析法(Analytic Hierarchy Process,AHP)[1]使用主觀評價的方式對員工進(jìn)行評價,其主觀性較強(qiáng)、無統(tǒng)一標(biāo)準(zhǔn),且無法處理當(dāng)今海量的數(shù)據(jù)。因此,需使用現(xiàn)代化的數(shù)理算法構(gòu)建一套標(biāo)準(zhǔn)的員工績效評價體系。近年來,云計(jì)算、大數(shù)據(jù)與人工智能等技術(shù)的應(yīng)用[2]大幅提升了醫(yī)院快速處理海量數(shù)據(jù)的能力。該文設(shè)計(jì)了一種改進(jìn)的SVM 算法,并將其應(yīng)用于醫(yī)療人力資源數(shù)據(jù)的分析與處理,最終建立了一套客觀且科學(xué)的員工績效數(shù)據(jù)分析系統(tǒng)。
支持向量機(jī)(Support Vector Machine,SVM)[3-6]于1995 年提出,并被廣泛應(yīng)用于數(shù)據(jù)回歸與分類中,其本質(zhì)是一種監(jiān)督機(jī)器學(xué)習(xí)的方法。支持向量機(jī)不僅可彌補(bǔ)傳統(tǒng)統(tǒng)計(jì)學(xué)方法的不足,還能夠解決數(shù)據(jù)維度高、線性度較差及樣本數(shù)量少而導(dǎo)致的訓(xùn)練準(zhǔn)確度偏低等問題。
支持向量機(jī)通過非線性變換將輸入數(shù)據(jù)矩陣升維,進(jìn)而在該高維空間內(nèi)求解最優(yōu)線性分類面。其分類函數(shù)的結(jié)構(gòu)近似于神經(jīng)網(wǎng)絡(luò),具體如圖1 所示。

圖1 支持向量機(jī)結(jié)構(gòu)
支持向量機(jī)所實(shí)現(xiàn)的功能,即將傳統(tǒng)統(tǒng)計(jì)學(xué)算法無法正確分類的數(shù)據(jù)使用特定函數(shù)向特征空間內(nèi)投影,同時在該特征空間中找尋最優(yōu)的分類超平面對數(shù)據(jù)進(jìn)行切分,分類超平面切分?jǐn)?shù)據(jù)如圖2 所示。

圖2 分類超平面
因此,問題的關(guān)鍵在于尋找最優(yōu)的分類超平面。假設(shè)兩類數(shù)據(jù)為(xi,yi),i=1,2,…,n,分類超平面可用wx+b=0 表示。其中,w、b均為平面函數(shù)權(quán)值。此時,該超平面需滿足的約束條件為:


需使用拉格朗日函數(shù)對式(2)進(jìn)行求解,構(gòu)建的函數(shù)如下所示:

式中,L為拉格朗日變換算子,a為構(gòu)造函數(shù)權(quán)值?;跀?shù)理知識,該求解問題可轉(zhuǎn)化為:

由式(4)可計(jì)算得到最優(yōu)的參數(shù)w*和b*,二者的計(jì)算公式為:

因此,由式(5)-(6)可推導(dǎo)得到最優(yōu)分類函數(shù)為:

式中,sgn 為符號函數(shù)。由此可見,對于線性可分的數(shù)據(jù),使用以上公式即可推導(dǎo)得到最優(yōu)分類函數(shù)。若數(shù)據(jù)是線性不可分的,需在函數(shù)表達(dá)式中加入懲罰因子C,則式(2)將變?yōu)椋?/p>

式中,ζ為拉格朗日乘子。為求解式(8),需引入核函數(shù)K(xi,x),此時可將線性劃分切換到非線性劃分,得到最終的優(yōu)化分類函數(shù)為式(9)所示。此外,具體是使用線性公式或非線性公式需依據(jù)實(shí)際數(shù)據(jù)情況界定。

SVM 算法可對非線性的數(shù)據(jù)映射及少量樣本數(shù)據(jù)進(jìn)行學(xué)習(xí),但該算法的時序性較差,故無法挖掘時序性較強(qiáng)的數(shù)據(jù)。人力資源管理數(shù)據(jù)通常包含有整個年度的數(shù)據(jù),且具備一定的時序性,因此使用長短時神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)對數(shù)據(jù)進(jìn)行特征挖掘與訓(xùn)練,并使用SVM 算法作為分類器對數(shù)據(jù)進(jìn)行分類輸出。
LSTM[7-11]也被稱為長短時循環(huán)神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)由循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)改進(jìn)而來,其主要特征是在RNN 網(wǎng)絡(luò)的各單元中加入了各種特征門以實(shí)現(xiàn)算法的完整功能。
特征門包括輸入門、遺忘門與輸出門等。通過這些特征門,LSTM 便可實(shí)現(xiàn)記憶網(wǎng)絡(luò)狀態(tài)、存儲網(wǎng)絡(luò)時間特征等功能[12-13]。長短時神經(jīng)網(wǎng)絡(luò)的神經(jīng)元組成結(jié)構(gòu)如圖3 所示。

圖3 LSTM神經(jīng)元結(jié)構(gòu)
遺忘門的作用是對上一時刻數(shù)據(jù)神經(jīng)單元的狀態(tài)ct-1進(jìn)行選擇性存儲或遺忘,同時將該數(shù)據(jù)ct輸出迭代至當(dāng)前狀態(tài)。遺忘門結(jié)構(gòu)的表達(dá)式為:

式中,Wf為遺忘門的特征因子矩陣,bf為遺忘門的偏置常數(shù)項(xiàng),ft為遺忘門數(shù)據(jù)輸出函數(shù)。
輸入門為數(shù)據(jù)的輸入端,其作用是將網(wǎng)絡(luò)的輸入數(shù)據(jù)保存至單元狀態(tài)。輸入門的結(jié)構(gòu)公式為:

式中,Wi為輸入門的特征因子,bi為輸入門的偏置項(xiàng),it為輸入門的輸入函數(shù)。
輸出門為LSTM 單元狀態(tài)的輸出值,該單元的表達(dá)式如下:

式中,ot為輸出門的輸出函數(shù),Wo為輸出門的特征因子,bo為輸出門的偏置項(xiàng)。
LSTM 網(wǎng)絡(luò)的最終輸出由輸出門與最終時刻的單元狀態(tài)共同決定,輸出的公式為:

式中,°表示哈密爾頓積運(yùn)算。
系統(tǒng)設(shè)計(jì)以醫(yī)院人員績效評估體系為例,構(gòu)建了基于SVM 和LSTM 算法的績效評估系統(tǒng)。該系統(tǒng)共分為四個模塊,分別為人員數(shù)據(jù)采集模塊、數(shù)據(jù)預(yù)處理模塊、基于LSTM 的數(shù)據(jù)訓(xùn)練模塊與基于SVM 算法的結(jié)果分析模塊,具體的系統(tǒng)架構(gòu)如圖4所示。

圖4 系統(tǒng)結(jié)構(gòu)
人員數(shù)據(jù)采集模塊按照DRGs(Diagnosis Related Groups)標(biāo)準(zhǔn)醫(yī)院評價指標(biāo)體系進(jìn)行采集,DRGs 可從多個維度對醫(yī)生進(jìn)行評價。評價指標(biāo)包括一級與二級指標(biāo),具體的數(shù)據(jù)指標(biāo)和指標(biāo)權(quán)重,如表1 所示。需要說明的是,設(shè)計(jì)指標(biāo)權(quán)重為歸一化數(shù)值,因此數(shù)據(jù)預(yù)處理模塊需要對人力資源數(shù)據(jù)進(jìn)行初步處理,并實(shí)行歸一化。人力資源數(shù)據(jù)量化后,便可輸入至處理模塊中加以訓(xùn)練。

表1 數(shù)據(jù)采集種類
基于LSTM 的數(shù)據(jù)訓(xùn)練模塊能對數(shù)據(jù)的各方面特征進(jìn)行學(xué)習(xí),并最終輸出特征區(qū)分顯著的人力資源績效特征數(shù)據(jù)集合?;赟VM 的分類數(shù)據(jù)模塊訓(xùn)練特征數(shù)據(jù),并對這些人力資源數(shù)據(jù)進(jìn)行分類評分,進(jìn)而得到排名結(jié)果。
為了能對實(shí)驗(yàn)進(jìn)行客觀評價,選擇以下評價指標(biāo)對實(shí)驗(yàn)結(jié)果加以評估。實(shí)驗(yàn)指標(biāo)分別為ACC(平均準(zhǔn)確率)、MAPE(平均絕對百分比誤差)、MSE(均方誤差)及RMSE(均方根誤差)值。表達(dá)式分別如式(14)-(17)所示:

在上述表達(dá)式中,T和F分別表示判斷正確和錯誤的事件數(shù),為實(shí)驗(yàn)正確率值,yi為理論正確率值,n為樣本總數(shù)量。四項(xiàng)指標(biāo)可從算法準(zhǔn)確率與穩(wěn)定性兩方面對算法進(jìn)行評估。
文中使用的數(shù)據(jù)集為某公司在2015-2020 年間某項(xiàng)目人力分配及產(chǎn)出數(shù)據(jù)。首先對該數(shù)據(jù)進(jìn)行預(yù)處理操作,之后再完成特征分類。數(shù)據(jù)測試的環(huán)境如表2 所示。

表2 測試的軟硬件環(huán)境
在算法對比仿真中,從算法的性能及效率兩個方面進(jìn)行綜合評估。
在算法性能測試方面,文中使用的對比算法為算法1(傳統(tǒng)統(tǒng)計(jì)學(xué)方法)、算法2(RNN-SVM 算法)以及算法3(LSTM-Softmax 算法)[14-16]。算法性能測試則使用ACC、MAPE、MSE 及RMSE 指標(biāo)值進(jìn)行評估。
由表3 可以看出,所提算法的準(zhǔn)確率ACC 均領(lǐng)先于其他算法,說明其可以對人力資源數(shù)據(jù)進(jìn)行有效的績效評估。同時,所提算法的MAPE、MSE 及RMSE 誤差指標(biāo)在所有算法中均為最小,證明所提算法的穩(wěn)定度良好,綜合性能也較為優(yōu)越。

表3 各算法測試指標(biāo)值
除算法性能外,算法效率也是評價中較為重要的指標(biāo),其是算法是否能夠進(jìn)行實(shí)時性交互的直觀體現(xiàn)。該實(shí)驗(yàn)使用2016 年的數(shù)據(jù)對所有算法的運(yùn)行時間進(jìn)行了測試,時間統(tǒng)計(jì)標(biāo)準(zhǔn)為算法訓(xùn)練完數(shù)據(jù)并對分類結(jié)果進(jìn)行輸出的時間。各算法的運(yùn)行時間如表4 所示。

表4 實(shí)時性測試結(jié)果
由表4 可以看出,傳統(tǒng)統(tǒng)計(jì)學(xué)算法的運(yùn)行時間為122 s,在所有算法中排名最后。而所提的LSTM-SVM算法在所有算法中運(yùn)行最快,說明其結(jié)合了LSTM與SVM 算法的優(yōu)勢,因此算法效率有所提升。
績效評估通過多項(xiàng)指標(biāo)體系對醫(yī)務(wù)工作者進(jìn)行綜合評價,隨著醫(yī)院信息化規(guī)模的發(fā)展,科學(xué)、有效的績效評估將成為醫(yī)療系統(tǒng)高效運(yùn)行的重要保障。以層次分析法為例的傳統(tǒng)數(shù)理統(tǒng)計(jì)方法僅依靠簡單的指標(biāo)公式對人員的績效進(jìn)行主觀的衡量,無統(tǒng)一標(biāo)準(zhǔn),同時也難以處理現(xiàn)代化醫(yī)療體系中產(chǎn)生的海量數(shù)據(jù)。文中通過LSTM 算法融合改進(jìn)了SVM 算法,并將新的算法用于人力資源數(shù)據(jù)的訓(xùn)練與分析,彌補(bǔ)了傳統(tǒng)SVM 算法無法訓(xùn)練時序數(shù)據(jù)的不足。實(shí)驗(yàn)測試結(jié)果表明,所提算法具備較為理想的性能及良好的運(yùn)行效率,具有一定的應(yīng)用價值。