999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度半非負矩陣分解的醫保異常行為檢測

2022-09-07 06:38:18許子豪
科技創新與應用 2022年25期

許子豪

(湖南工商大學 理學院,長沙 410006)

構建良好的社會保障體系是當今時代保障社會生活穩定發展,不斷滿足人民日益增長的美好生活需要的必要舉措。作為中國社會保障體系的重要組成部分,自20 世紀50 年代以來,中國逐步建立起具有時代特征的醫療保險制度,而這一制度為中國經濟快速發展、人民安居樂業、社會安定和諧奠定了基礎[1]。截至2019年末,全口徑基本醫療保險參保人數為135 436 萬人,參保覆蓋面率穩定在95%以上[2]。

1 醫?;鹣M數據異常檢測技術研究現狀

1.1 研究背景

在醫保制度具體推行過程中,由相關利益驅使導致的醫療服務違規現象和過度醫療行為層出不窮[3],醫保詐騙等違法犯罪行為也一直存在。醫保詐騙一般是指基于非法方式詐騙醫療保險資金的犯罪行為。據統計,每年詐騙所造成的醫?;饟p失數以億計,而2021 年6 月由國家醫藥保障局披露的太和縣50 家醫療機構均存在著不同程度地違規占用醫療保險基金的問題,涉案醫療保險基金5 795.1 萬元。其中,以太和縣第五人民醫院為牽頭的11 家公立醫院的非法違規騙?,F象較為嚴重,涉案醫療保險基金1 387.3 萬元[4]。所以,關于醫療保險詐騙問題的深入調查是非常有必要的,政府必須及時防范,減少詐騙的產生。

1.2 研究問題

醫療保險數據主要來自國家醫療機構和地方衛生行政部門的信息系統。它包括了數字型、文字型和日期型等類別,有結構化與非結構化數據類型,并各自存放在不同的信息系統。而此類數據都具備傳統大數據的5 項基本特性,即規模性、價值性、高速性、真實性和多樣性[5]。

隨著醫療保險數據的爆炸增長,對醫保數據的有效合法性審查工作愈發困難。醫保大數據屬于高維數據,數據提供的信息量與數據維度大小息息相關。一般來說,其信息量與維度成正比。然而,計算機的處理能力一般難以達到直接分析處理原始信息維數的水平,從而會導致“維數災難”的問題。而且,直接處理原始高維數據也難以達到預期的結果。因此,通常需要對高維數據進行降維,再對降維后的數據進行處理[6]。通過降維,數據處理變得更加方便、容易,其作用大致如下:①在低維空間中,數據更易于被處理;②在低維空間中,數據能夠更清楚地表現出其關鍵特性,尤其是重要特性;如果數據位于二維或三維空間中,則數據還能實現可視化顯示;③減少計算成本;④消除數據處理噪音。

對于高維數據的降維問題,一直是各學科領域研究的熱點。作為矩陣分解的一種新思路,非負矩陣分解在實現將高維數據降維的目標之外,還將分解后的因子做非負處理,使分解具有實際的物理意義[7]。自非負矩陣分解提出到現在,尤其在人臉識別領域,已經收獲了豐富的研究成就,非負矩陣分解取得了重大的突破。但其在實際應用中仍然存在許多困難需要進一步攻克,例如分解結果過多、迭代次數過多及不能充分提取特征等。因此,分析與解決非負矩陣分解存在的問題,將其運用于實例中具有非常重要的價值。

1.3 相關研究工作分析

1846 年,Bracais 提出了一個使新變量彼此獨立的新策略:旋轉多元正態橢球到“主坐標”上。Hotelling 的推導模型,進一步推動了主成分分析算法的發展。主成分分析(Principal Components Analysis,PCA)以正交轉換的思想方式,將原樣本隨機向量通過轉換得到新隨機向量,進而通過降維處理并建立相應的價值函數,從而使原多維變量系統逐漸轉化成一維系統[8]。

1999 年,Lee 等[9]首次建立了非負矩陣分解(Nonnegative Matrix Factorization,NMF)。NMF 算法的主要思路為對樣本集展開分析,使用低秩非負系數矩陣的乘積近似高維樣本集矩陣V,將高維矩陣中的各個樣本數據使用基向量的非負線形構成表達,并表現為基矩陣W,其中線形構成的系數構成表現為系數矩陣H。他們還將其應用于人臉圖像的表示和文本文檔的語義分析,體現了部分構成整體的表現思想。2000 年,Lee 等[10]在初始NMF 的基礎上得到了新的目標函數——廣義Kullback-Leibler 散度(GKLD),GKLD 通過實驗結果的目標函數值就可以直接評判優化結果的優劣,這樣的評價方法直觀而簡便。Lee 等[10]還提供了以歐氏距離的平方(Square of Euclidian Distance,SED)為目標函數的迭代算法,此算法有效地縮小了算法實現效率和實現簡單性間的間隙,被廣泛運用并加以拓展。

2001 年,Li 等[11]提出了局部NMF 算法(Local Non-negative Matrix Factorization,LNMF)。在GKLDEM 算法的基礎上,Li 做出了更深入的調整:對W 矩陣進行列正交的限制,從而使得W 矩陣更加稀疏化,但這樣操作也付出了一定的代價——使得H 非常稠密。Xu[12]等提出了受限NMF(Constrained Non-negative Matrix Factorization,CNMF)算法,CNMF 算法與LNMF 算法計算的最大差異之處就是對罰項的權重決策。2002 年,Hoyer[13]提出了NMF With Sparseness Constraints(NMFSC)算法,此算法有效提高了矩陣稀疏性,其方法是以SED 為目標函數進行非線性投影。

2006 年,Cichocki 等使[14]用SED 中分別為W 和H的凸函數的特性,通過求非線性投影空間和在無非負約束下的解析解,達到了對非負性的要求,提高了稀疏性的精度,由此得到了SED-FD+NP 算法。Cichocki等[15]同時提出了多層非負矩陣分解(Multilayer Nonnegative Matrix Factorization,MNMF) 以解決單層的NMF 對模型的表征能力不足的問題。2008 年,Ding等[16]沖破了傳統思想,重新調整了原有NMF 的非負性約束,使得在初始矩陣和分解矩陣中都出現了負數,提出了半非負矩陣分解(Semi-Nonnegative Matrix Factorization,semi-NMF),拓寬了算法的應用范圍。2016年,Trigeorgis 等[17]提出了深度半NMF 算法(Deep Semi-Nonnegative Matrix Factorization,Deep semi -NMF),此算法對不同層次進行了深入數據分析,并顯示出無法發現的復雜數據特性。

2 模型原理概述

2.1 PCA

主成分分析(Principal Components Analysis,PCA),是當今數據分析和降維領域中一個傳統且較為主要的降維方式,即運用正交變換,將線性關聯的一個變量轉化為一個線性但不關聯的新變量或主要成分,以便于在更小的維度下發展使用新變量表示數據分析的主要特性。PCA 算法步驟如下[18]。

假設高維樣本集D={x1,x2,…xn},第一步是對D中樣本進行中心化:

第二步是統計進行中心化后的樣本的協方差矩陣XXT,再分解其特征值。

第三步是取最大的d 個特征值所相應的特性向量為w1,w2,…,wd。則投影矩陣是W=(w1,w2,…,wd)。

最終結論為得到了d 個低維正交基v1,v2,…,vd,并使基向量與重構高維數據結果X 的重構偏差平方和最小化,公式如下

其中:(xi·vj)表示xi與vj做內積運算。

PCA 通過線性投影降低更高維空間的樣本維度,且計算速度較快,因此能夠很好地解決線性相關,但是無法處理高階相關性的樣本,并且數據分布須服從高斯分布,有一定的局限性。

2.2 NMF

非負矩陣分解(Non-negative Matrix Factorization,NMF)[9],指將樣本數據集分解成2 個矩陣相乘,這2 個矩陣具有低秩、非負的特性。其公式如下

公式(1)中的原數據集V 是一個m×n 維的矩陣,其中每一列就是空間中的一個向量,共m 個向量;基矩陣W 是一個m×k 維的矩陣,即k 個基;H 是k×n 的矩陣,每一列為V 投影到W 上得到的向量。實際結果中,基矩陣W 與系數矩陣H 的乘積近似于原數據集V,這是由于確保結果的非負性的過程中存在一定的誤差。

NMF 可轉換為以下優化問題求解

式中:fA(W,H)表示V 與WH 的差異程度,fA是度量標準,常用的2 種是GKLD 和SED[10]。

GKLD 定義為

其迭代公式如下

SED 定義為

其迭代公式如下

NMF 與PCA 的主要區別是:

(1)NMF 是一種內在非負的代數分解方法和表示形式。

(2)NMF 實現了非線性的維數約減,這是因為NMF 算法使得基矩陣W 和系數矩陣H 兩者都與原矩陣相關,故系數矩陣H 不是簡單的映射。

2.3 深度半NMF

為使NMF 的應用范圍更廣,Ding 等[16]放寬了非負性的約束條件,提出半非負矩陣分解(Semi-Nonnegative Matrix Factorization,semi-NMF)。其近似的分解如下:

為解決單層的NMF 對模型的表征能力不足的問題,Cichocki 等[15]提出了多層非負矩陣分解(Multilayer Non-negative Matrix Factorization,MNMF)。這一算法實則是一個簡單分層多序列分解過程,其執行序列分解過程的公式如下:第一步,運用非負矩陣分解(NMF);第二步,從第一步的分解結果中得到類似的分解;第三步,重復分解進程,直到終止條件。最后建立起一個基矩陣為Z1Z2…ZL的模型。

但通過大量實驗證明,MNMF 的表征無法合理解釋聚類的結果。

所以,在Semi-NMF 的基礎上,為了解決MNMF的這一弊端,Trugeirgus 等[17]提出了深度半NMF 算法(Deep Semi -nonnegative Matrix Factorization,Deep Semi-NMF)。其主要公式如下

訓練算法的步驟大致如下:首先分別初始化數據矩陣X≈Z1H1,接著分解特征矩陣H1≈Z2H2,直至遍歷了所有層。然后交替優化2 個因子以減少重構誤差,目標函數如下

對比MNMF,Deep Semi-NMF 對每一層的分解并非獨立的,各層分解是交替實現的。因此更新ZL法則如下

更新Hi規則如下

Deep Semi-NMF 能自動學習潛在層次屬性,能找到最合適聚類的數據表征。

3 實例分析

在模擬數據集合中有10 000 個樣本數據,利用公式(10)和公式(11)分別對矩陣Z 和矩陣H 進行迭代更新,并對收斂后的H 矩陣進行K-means 聚類。基于聚類的結果,計算簇內每個點到簇中心的距離,如果其大于閾值則認為是異常。對這些異常樣本點進行分析,發現不合理診斷治療,如參保人員多次重復檢查,甚至以某疾病為由,進行遠超出常規檢查的診療項目,后續需要人工進行跟蹤并加以核實。

4 結束語

本文基于醫保診療的大規模數據,利用深度半非負矩陣分解模型,檢測異常參保人員,對醫保數據進行有效的評估和分類。實驗結果表明,運用深度半非負矩陣分解模型對醫保數據進行異常行為檢測和分析,檢測結果與真實結果相符。因此,在深度半非負矩陣分解模型的基礎上,進一步構建完整的醫療保險異常行為的檢測和識別系統,能夠及時有效地監控醫保數據,對提高醫保管理服務水平,維護醫保基金安全和保障醫保體系高效運行有著重要的作用。

主站蜘蛛池模板: 国产成人亚洲毛片| 特级欧美视频aaaaaa| 试看120秒男女啪啪免费| 亚洲精品福利视频| 青青久视频| 亚洲天堂免费| 日本久久免费| 婷婷激情亚洲| 精品久久久无码专区中文字幕| 欧美日韩精品一区二区在线线| 99激情网| 国产小视频a在线观看| 成人在线观看不卡| 日本欧美中文字幕精品亚洲| 国产一区亚洲一区| h视频在线播放| 亚洲国产精品国自产拍A| 国产91av在线| 亚洲人成网址| 国产在线观看精品| 呦女精品网站| 国产成人91精品| 国产在线精彩视频论坛| 国产高清无码麻豆精品| 精品国产www| 国产成人无码AV在线播放动漫| 精品国产香蕉在线播出| 久久人人97超碰人人澡爱香蕉| 亚洲美女一区二区三区| 久久久久亚洲精品无码网站| aaa国产一级毛片| 超清无码一区二区三区| 无码人妻热线精品视频| 成年人福利视频| 91久久夜色精品国产网站| 2020精品极品国产色在线观看| 无码区日韩专区免费系列| 色九九视频| 中文字幕日韩欧美| 午夜视频www| 国产99欧美精品久久精品久久| 在线a网站| 国产亚洲精| 成人在线综合| 中文字幕无码电影| 色欲色欲久久综合网| 蜜芽国产尤物av尤物在线看| 精品国产自| 日韩欧美色综合| 国产日韩欧美黄色片免费观看| 人妻丰满熟妇AV无码区| 麻豆国产原创视频在线播放| 国产高清又黄又嫩的免费视频网站| 国产三区二区| 高清国产在线| 色综合日本| 青青国产视频| 国产一区二区免费播放| 欧美第二区| 国产成人综合亚洲欧美在| 国产白浆一区二区三区视频在线| 国产毛片片精品天天看视频| 精品国产一区91在线| 亚洲国产欧美国产综合久久| 久久综合AV免费观看| 五月天久久综合| 国产美女免费| 老司机精品99在线播放| 亚洲一区波多野结衣二区三区| 国产欧美日韩视频怡春院| 亚洲第一成人在线| 久草性视频| 免费看av在线网站网址| 日本一本正道综合久久dvd| 波多野结衣第一页| 日韩黄色大片免费看| 国产超碰一区二区三区| 国产在线一二三区| 久久一本精品久久久ー99| 超清无码一区二区三区| 国产在线一二三区| 无码乱人伦一区二区亚洲一|