郭克難
(河北北方學(xué)院附屬第一醫(yī)院,河北張家口 075000)
在當(dāng)前數(shù)字化建設(shè)廣泛普及的背景下,社會(huì)各單位對(duì)辦公、財(cái)務(wù)及業(yè)務(wù)系統(tǒng)的信息化建設(shè)均較為重視。尤其當(dāng)進(jìn)入大數(shù)據(jù)時(shí)代后,財(cái)務(wù)系統(tǒng)的設(shè)計(jì)與應(yīng)用更加趨向于智能化和高效化,這對(duì)于財(cái)務(wù)數(shù)據(jù)準(zhǔn)確率的提升也有極大幫助[1-2]。財(cái)務(wù)數(shù)據(jù)具有維度高、數(shù)據(jù)量大的特點(diǎn),因此分析平臺(tái)中核心算法的性能優(yōu)劣直接決定了該數(shù)據(jù)流通以及信息整合的效率[3-4]。
在多數(shù)醫(yī)療機(jī)構(gòu)中,由于數(shù)據(jù)繁雜、遷移不便與投入較少等原因,存在信息化平臺(tái)老化、數(shù)據(jù)處理性能不佳的問(wèn)題。已有的系統(tǒng)設(shè)計(jì)難以適用于當(dāng)前多變的財(cái)務(wù)環(huán)境,檢測(cè)系統(tǒng)異常數(shù)據(jù)的準(zhǔn)確率也較低,從而導(dǎo)致壞、死賬率過(guò)高。因此,該文對(duì)傳統(tǒng)K-means 算法進(jìn)行改進(jìn),使其具有處理大數(shù)據(jù)的能力,進(jìn)而在不改變?cè)邢到y(tǒng)架構(gòu)的前提下提升了財(cái)務(wù)系統(tǒng)檢測(cè)異常數(shù)據(jù)的能力。
該文所采用的基礎(chǔ)K-means 算法[5-7]首先需要確定數(shù)據(jù)簇的數(shù)量K,即有K個(gè)簇中心,且這些簇中心在初始數(shù)據(jù)樣本集合D中產(chǎn)生。確定簇中心后,計(jì)算簇?cái)?shù)據(jù)點(diǎn)xi到每個(gè)中心點(diǎn)的歐氏距離,計(jì)算公式為:
式中,Ci表示數(shù)據(jù)點(diǎn)xi與簇之間距離最近的類別;μj為數(shù)據(jù)類的簇中心,其計(jì)算公式如下:
其中,l{·}表示距離的集合,根據(jù)距離最短原則將xi劃入某個(gè)簇中并進(jìn)行多次迭代,直至數(shù)據(jù)點(diǎn)被分類完畢,算法結(jié)束。該算法的執(zhí)行流程如圖1所示。

圖1 K-means算法執(zhí)行流程
由上述流程可見(jiàn),該文采用K-means 聚類算法的實(shí)現(xiàn)難度低且建模準(zhǔn)確度高,可以對(duì)數(shù)據(jù)進(jìn)行初步分類。但聚類數(shù)量選擇的隨機(jī)性會(huì)造成一定的誤差,因此需要對(duì)原始K-means 算法進(jìn)行一系列的優(yōu)化。
密度峰值聚類(Density Peaks Clustering,DPC)算法[8-10]能對(duì)K-means 算法的缺陷進(jìn)行改進(jìn)。對(duì)于DPC 而言,有兩個(gè)關(guān)鍵性指標(biāo):兩個(gè)不同點(diǎn)之間的局部密度值和數(shù)據(jù)點(diǎn)到更高密度簇點(diǎn)的距離。文中使用這兩個(gè)關(guān)鍵性指標(biāo)對(duì)密度峰值進(jìn)行定義。假設(shè)某簇中的數(shù)據(jù)點(diǎn)為xi,則該點(diǎn)的局部密度值可表示為:
式中,ψ(·)是一種狄利克雷函數(shù),當(dāng)自變量>0時(shí),該函數(shù)為0,否則函數(shù)為1;dc為截?cái)嗑嚯x;ρi為xi數(shù)據(jù)點(diǎn)的局部密度。
數(shù)據(jù)點(diǎn)到更高密度簇點(diǎn)的距離Di可表示如下:
在選取聚類中心時(shí),通常選擇Di和ρi數(shù)值較大的數(shù)據(jù)點(diǎn)。設(shè)在數(shù)據(jù)集合D中有數(shù)據(jù)點(diǎn)xi及xj,若xi的局部密度大于xj,則稱xj依賴于xi,此時(shí)可將該例引申至數(shù)據(jù)集合中;若其中的一組數(shù)據(jù)存在遞進(jìn)依賴鏈,則最強(qiáng)的依賴項(xiàng)即為簇的聚類中心。
在傳統(tǒng)的K-means 聚類算法中,核心思想均是在已知聚類簇?cái)?shù)量的情況下完成后續(xù)的算法操作。這種方式主觀性較強(qiáng),對(duì)于維度較高的樣本,無(wú)法通過(guò)數(shù)據(jù)直觀地對(duì)聚類簇?cái)?shù)量進(jìn)行判斷。同時(shí),若直接確定簇的數(shù)量,則在后續(xù)分類過(guò)程中對(duì)隸屬度較低邊緣模糊點(diǎn)的分類準(zhǔn)確率也偏低。因此,該文通過(guò)主成分分析法(Principal Component Analysis,PCA)[11-13]對(duì)數(shù)據(jù)的聚類簇?cái)?shù)量進(jìn)行確定,并使用聚類有效性指標(biāo)改進(jìn)算法,最終根據(jù)數(shù)據(jù)的特征,自適應(yīng)地確定最優(yōu)聚類數(shù)量。
由于醫(yī)療財(cái)務(wù)數(shù)據(jù)的維度較高且具有諸多邊緣特征,因此,文中首先使用PCA 算法對(duì)數(shù)據(jù)進(jìn)行降維操作。該算法的作用主要體現(xiàn)在兩個(gè)方面:1)消除數(shù)據(jù)在高維度空間中存在的冗余信息;2)對(duì)高維數(shù)據(jù)中難以計(jì)算和分析的特性進(jìn)行簡(jiǎn)化。通過(guò)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,將所得結(jié)果表征為矩陣的形式。設(shè)矩陣中的元素為xkj,然后計(jì)算數(shù)據(jù)集中兩個(gè)不同變量的協(xié)方差參數(shù)為:
根據(jù)式(6)構(gòu)建矩陣的特征值方程,同時(shí)計(jì)算該矩陣的特征值λi以及其所對(duì)應(yīng)的特征向量,同時(shí)將特征值進(jìn)行排列。然后再計(jì)算主成分貢獻(xiàn)率,并對(duì)數(shù)據(jù)進(jìn)行降維。主成分方差貢獻(xiàn)率和累計(jì)方差貢獻(xiàn)率的計(jì)算公式為:
最終輸出主成分?jǐn)?shù)量,進(jìn)而得到預(yù)處理后的數(shù)據(jù)。
局部異常因子(Local Outlier Factor,LOF)算法[14-16]是一種用來(lái)描述數(shù)據(jù)點(diǎn)離群程度的因子,該算法可根據(jù)K-means 聚類算法的結(jié)果來(lái)獲得離群點(diǎn)周圍的數(shù)據(jù)密度。該文將LOF 算法放置于K-means 算法之后,后者聚類會(huì)產(chǎn)生一些離群點(diǎn),而前者則將聚類得到的簇作為算法的一個(gè)檢測(cè)域。設(shè)某點(diǎn)的局部密度和領(lǐng)域內(nèi)數(shù)據(jù)點(diǎn)的密度接近,即認(rèn)為該點(diǎn)是正常數(shù)據(jù);否則為異常數(shù)據(jù)。LOF 離群點(diǎn)檢測(cè)示意圖如圖2所示。

圖2 LOF離群點(diǎn)檢測(cè)示意圖
假設(shè)數(shù)據(jù)集D的維度為d,且D中的數(shù)據(jù)點(diǎn)用xi表示,則數(shù)據(jù)集中任意相鄰兩點(diǎn)的歐氏距離可表示為:
而點(diǎn)xi的第k個(gè)距離可定義為dk,其是指點(diǎn)xi附近的密度值,當(dāng)dk值較大時(shí),表示周圍的密度較??;反之亦然。從該定義可引申至第k個(gè)鄰域的概念,由此可知,數(shù)據(jù)集合中點(diǎn)xi到xi+1的可達(dá)距離如下:
由式(10)可知,任意兩點(diǎn)的可達(dá)距離實(shí)際就是點(diǎn)xi+1的第k個(gè)距離與xi到xi+1真實(shí)距離的最大值。因此局部的可達(dá)密度則表示為:
點(diǎn)xi的離群因子使用可達(dá)密度進(jìn)行表示,則有:
由此可見(jiàn),利用LOF 算法對(duì)數(shù)據(jù)離群因子進(jìn)行計(jì)算時(shí),由于使用了改進(jìn)的K-means 算法完成分簇,所以產(chǎn)生的離群點(diǎn)較少,因此僅使用少量計(jì)算資源便可以對(duì)離群因子進(jìn)行計(jì)算并排名,從而得到異常數(shù)據(jù)的檢測(cè)結(jié)果。
基于上文的理論分析和模塊改進(jìn),該文在上述算法優(yōu)化的基礎(chǔ)上提出了一套醫(yī)療財(cái)務(wù)異常數(shù)據(jù)識(shí)別算法,其總體結(jié)構(gòu)如圖3 所示。

圖3 算法結(jié)構(gòu)
首先,融合PCA 算法對(duì)數(shù)據(jù)進(jìn)行降維;降維后的數(shù)據(jù)輸出到基礎(chǔ)K-means 算法中完成分簇,且簇?cái)?shù)量由數(shù)據(jù)維度決定;同時(shí),使用DPC 對(duì)K-means 聚類中心加以優(yōu)化;然后采用LOF 算法對(duì)模型的數(shù)據(jù)離群點(diǎn)進(jìn)行檢測(cè);最終,根據(jù)離群因子的排名判斷出異常數(shù)據(jù)。
該文使用Matlab 平臺(tái)對(duì)算法進(jìn)行實(shí)現(xiàn),實(shí)驗(yàn)的環(huán)境配置如表1 所示。

表1 硬件環(huán)境
該文所采用的聚類數(shù)據(jù)集為人工和真實(shí)數(shù)據(jù)集,其中前者為虛假二維數(shù)據(jù)集,主要是不規(guī)則的分簇點(diǎn)集合,其可以對(duì)算法的聚類性能進(jìn)行有效驗(yàn)證;而后者則為某大型醫(yī)療機(jī)構(gòu)2017-2021 年的財(cái)務(wù)數(shù)據(jù),且對(duì)該數(shù)據(jù)進(jìn)行了歸一化預(yù)處理。
首先使用人工數(shù)據(jù)集對(duì)文中所提算法的數(shù)據(jù)聚類性能進(jìn)行驗(yàn)證,該數(shù)據(jù)集選擇的標(biāo)簽為:Ring、FuzzyX、Zigzag、Para 與Moon。同時(shí),采用基礎(chǔ)Kmeans、FMK-means、DBSCAN 以及K-means-DPC 這四種對(duì)比算法來(lái)驗(yàn)證該文算法的性能。此外,還選擇了調(diào)整蘭德系數(shù)(Adjusted Rand Index,ARI)指標(biāo)對(duì)算法進(jìn)行評(píng)估,ARI 指數(shù)越趨近于1,表示算法的聚類效果越優(yōu),具體測(cè)試結(jié)果如表2 所示。

表2 不同算法的聚類性能對(duì)比
從表2 中可以看出,該文算法對(duì)多個(gè)不平衡人工數(shù)據(jù)集的聚類效果均較優(yōu),且在所有算法中ARI的指標(biāo)最高,而基礎(chǔ)K-means 算法在所有數(shù)據(jù)集中的表現(xiàn)均最差。由此表明,該文對(duì)基礎(chǔ)算法的改進(jìn)是有效的。
除了算法的理論性能外,文中還對(duì)算法檢測(cè)真實(shí)異常數(shù)據(jù)的能力進(jìn)行了檢測(cè)[17-19]。通常而言,異常數(shù)據(jù)均為離群數(shù)據(jù),因此使用離群因子對(duì)該數(shù)據(jù)的離群能力進(jìn)行測(cè)試。使用的數(shù)據(jù)集為真實(shí)數(shù)據(jù)集,并對(duì)其中的異常數(shù)據(jù)均做了標(biāo)記,評(píng)估指標(biāo)為檢測(cè)準(zhǔn)確率,而使用的對(duì)比算法則為K-means-LOF、FMK-means-LOF、DBSCAN-LOF、K-means-DPCLOF 以及該文算法。算法測(cè)試結(jié)果如表3 所示。

表3 不同算法對(duì)異常數(shù)據(jù)的檢測(cè)準(zhǔn)確率
由表3 可知,基礎(chǔ)K-means 算法的準(zhǔn)確率最低,僅為68.5%;在其基礎(chǔ)上增加了DPC 的改進(jìn)算法,準(zhǔn)確率達(dá)到了76.8%;而該文算法則進(jìn)一步引入了PCA降維的環(huán)節(jié),因此準(zhǔn)確率達(dá)到了79.2%,在所有算法中最高。
為了提高醫(yī)療機(jī)構(gòu)財(cái)務(wù)系統(tǒng)對(duì)異常數(shù)據(jù)檢測(cè)的準(zhǔn)確性,該文基于改進(jìn)K-means 算法提出了一種適用于各類常見(jiàn)平臺(tái)的異常數(shù)據(jù)檢測(cè)算法設(shè)計(jì)。針對(duì)基礎(chǔ)K-means 算法簇中心點(diǎn)選擇隨機(jī)與分簇精度較差的問(wèn)題,文中結(jié)合了DPC 算法對(duì)數(shù)據(jù)集合的密度情況進(jìn)行計(jì)算,進(jìn)而選擇出最優(yōu)簇中心點(diǎn)。同時(shí)融合了PCA 方法對(duì)數(shù)據(jù)進(jìn)行降維,提高了運(yùn)算的速度并確定簇?cái)?shù)量。最后通過(guò)LOF 對(duì)離群點(diǎn)進(jìn)行測(cè)試,進(jìn)而檢測(cè)出異常數(shù)據(jù)。實(shí)驗(yàn)結(jié)果表明,該文算法在人工和真實(shí)數(shù)據(jù)集測(cè)試中的指標(biāo)均為最優(yōu),證明了該算法的綜合性能良好,可以對(duì)常見(jiàn)的異常財(cái)務(wù)數(shù)據(jù)進(jìn)行準(zhǔn)確地檢測(cè)。