◎龔錦道
隨著國內(nèi)醫(yī)療保險行業(yè)的飛速發(fā)展,覆蓋面也正在持續(xù)擴大,醫(yī)療保險基金欺詐騙保形勢也隨之越來越嚴峻。由于違規(guī)騙保的方式非常多,而且違規(guī)操作隱秘,加上國內(nèi)針對醫(yī)保基金防騙防詐的有關經(jīng)驗略微落后,因此一直以來醫(yī)保基金防騙防詐的任務都面臨比較嚴峻的考驗。當前階段對醫(yī)保欺詐行為的審核,很大一部分仍然需要依靠醫(yī)保管理機構的相關工作人員檢查大量的醫(yī)保記錄,根據(jù)以往的工作經(jīng)驗進行查驗。這種查驗過程不但工作量非常大、效率較低下,而且不足以完全確保騙保行為被正確判斷,因此需要構建醫(yī)保防欺詐智能審核系統(tǒng)從而強化信息審查,改善醫(yī)保防欺詐工作的技術水平,為醫(yī)保欺詐審核與監(jiān)管提供現(xiàn)代技術支撐。本論文主要介紹醫(yī)保防欺詐智能審核系統(tǒng)的總體設計、主要功能模塊設計及成果預測展示。
針對目前存在基本醫(yī)療保險基金監(jiān)管乏力,同時全國醫(yī)院信息化系統(tǒng)中存儲了大量患者的醫(yī)保數(shù)據(jù),醫(yī)保數(shù)據(jù)資源并沒有得到充分利用的現(xiàn)狀,對海量醫(yī)保使用的病例數(shù)據(jù)進行異常識別,實現(xiàn)智能化的醫(yī)保數(shù)據(jù)智能審核、醫(yī)保數(shù)據(jù)查詢、新醫(yī)保記錄預測、醫(yī)保基金趨勢預測、醫(yī)保基金統(tǒng)計分析,以及基本醫(yī)療保險基金收支預警,構建能夠減少基金欺詐、分辨醫(yī)保騙保的技術支撐。提供基本醫(yī)療保險醫(yī)療服務管理和質(zhì)量控制服務的決策依據(jù)和技術支持,為政府多部門聯(lián)合決策提供數(shù)據(jù)支撐,通過海量復雜的已知醫(yī)保數(shù)據(jù)建立某種數(shù)據(jù)模式,從而預測騙保行為的可能趨勢,進一步保證基本醫(yī)療保險基金的合理有效利用提供有力的技術支撐。
基于醫(yī)保欺詐數(shù)據(jù),醫(yī)保防欺詐智能審核系統(tǒng)選取目前Python的主流Web開發(fā)框架Django進行醫(yī)保審核系統(tǒng)的實現(xiàn);使用MySQL作為底層的數(shù)據(jù)庫以及醫(yī)保數(shù)據(jù)的持久化管理軟件。該系統(tǒng)主要的功能模塊包括:智能分析模塊、智能服務模塊、可視化模塊,本文所設計的系統(tǒng)架構如圖1所示:

圖1 醫(yī)保智能審核系統(tǒng)架構
醫(yī)保智能審核系統(tǒng)框架主要包含數(shù)據(jù)處理層、數(shù)據(jù)智能分析層、應用展示層和用戶層。數(shù)據(jù)處理層通過對從數(shù)據(jù)庫中提取的數(shù)據(jù)進行數(shù)據(jù)清洗,主要包含缺失值處理、噪聲處理以及數(shù)據(jù)規(guī)約與壓縮,再對清洗過后的數(shù)據(jù)進行特征處理,主要包含特征選擇、特征降維、特征工程三個步驟,得到最終可直接用于分類模型訓練的醫(yī)保數(shù)據(jù)。數(shù)據(jù)智能分析層是系統(tǒng)的核心算法層,主要利用本文提出的改進算法ALO-KM、KM-LR,以及傳統(tǒng)的機器學習算法GradientBoosting、隨機森林等算法對處理過后的醫(yī)保數(shù)據(jù)集中費用異常和違規(guī)行為進行檢測,并給出檢測結果供相關審核人員進行決策。應用展示層通過構建醫(yī)保數(shù)據(jù)管理及搜索、醫(yī)保分類模型訓練、新記錄上傳審核、審批基金趨勢預測、醫(yī)保基金統(tǒng)計分析以及醫(yī)保基金篩選預警等可視化模塊,為相關用戶提供應用服務。最后用戶層中為相關用戶如醫(yī)務人員、智能部門等提供系統(tǒng)的使用接口,幫助用戶對醫(yī)保費用異常等行為進行高效檢測。
在對醫(yī)保防欺詐智能審核系統(tǒng)的總體結構和功能模塊進行分析時,應該通過從一個用戶進行使用的角度來將系統(tǒng)中所有相關的功能與服務來設計規(guī)劃,從而對系統(tǒng)的模塊進行進一步的分析設計,通過對該系統(tǒng)的分析與研究,從而對醫(yī)保智能審核系統(tǒng)有更進一步的了解。功能模塊分析就是在設計系統(tǒng)功能模塊的基礎上把它細化、分化,在這個過程中找到問題并解決問題,發(fā)現(xiàn)缺陷并彌補缺陷,在完成各個功能模塊的基礎上優(yōu)化每個模塊接口的處理過程。本文搭建的醫(yī)保防欺詐智能審核系統(tǒng)中各功能模塊大致可分為智能分析模塊、智能服務模塊、可視化模塊。
基于醫(yī)保大數(shù)據(jù)的分析審核,能夠提供對結算數(shù)據(jù),電子病歷數(shù)據(jù),藥品進銷存數(shù)據(jù),參保人參保數(shù)據(jù),經(jīng)辦數(shù)據(jù)等全體量的數(shù)據(jù)綜合分析挖掘,將數(shù)據(jù)挖掘和機器學習技術應用到醫(yī)保欺詐檢測中,挖掘病人就診記錄中的潛在價值,對醫(yī)保使用記錄中欺詐與違規(guī)等不合理的行為進行查驗。
智能分析模塊主要是利用多種算法所組成的智能分析算法核心。智能分析算法核心主要分為兩部分,一部分包含對現(xiàn)有醫(yī)保欺詐數(shù)據(jù)進行模型擬合的算法,如本文提出的KM-LR、ALO-KM算法,以及SpectralClustering、GradientBoosting、KNN、決策樹、隨機森林等算法,用經(jīng)過數(shù)據(jù)處理和特征處理后的醫(yī)保樣本進行訓練并進行優(yōu)化,最終得到用于醫(yī)保防欺詐審核的分類模型;另一部分主要是針對醫(yī)保數(shù)據(jù)中醫(yī)保基金的審批趨勢情況進行預測,該功能使用自回歸整合滑動平均模型(AutoregressiveIntegratedMovingAverageMode,ARIMA)來實現(xiàn),它是一種用來進行時間序列分析預測的模型,利用ARIMA算法對醫(yī)保基金數(shù)據(jù)進行建模,對基金審批情況進行預測。
(1)醫(yī)保審核模型在線訓練模塊。
醫(yī)保審核模型在線訓練模塊主要基于處理過后的醫(yī)保數(shù)據(jù),對本文提出的ALO-KM、KM-LR算法,以及SpectralClustering、GradientBoosting、KNN、決策樹、隨機森林等算法進行在線擬合,得到可靠高效的醫(yī)保異常審核模型,為后續(xù)的醫(yī)保數(shù)據(jù)審核提供模型基礎,醫(yī)保審核模型在線擬合模塊處理流程如圖2所示。

圖2 醫(yī)保審核模型在線擬合模塊處理流程
如圖2所示,用戶可以根據(jù)自己的需求選擇不同的算法,對當前數(shù)據(jù)庫中經(jīng)過處理的醫(yī)保數(shù)據(jù)進行在線模型擬合,以規(guī)避反復使用一個陳舊的模型對日益累積的新數(shù)據(jù)進行審核時效果有所下降的弊端。新訓練好的模型會暫存在系統(tǒng)中,以供后續(xù)的新醫(yī)保記錄進行審核,到下一次模型訓練時將會被自動覆蓋。進行模型擬合時,把經(jīng)過數(shù)據(jù)預處理和特征處理之后的醫(yī)保欺詐數(shù)據(jù)樣本劃分為訓練集和測試集兩部分,其中訓練集用來訓練分類模型,再用測試集對模型進行測試可以得到當前模型在測試集上的G-mean、BER、分數(shù)與混淆矩陣,使用戶可以方便清晰的了解到當前模型的分類性能,為后續(xù)對其他新的醫(yī)保樣本審核結果提供可靠的依據(jù)。之所以采用這四種分數(shù)作為各個算法優(yōu)劣的評價指標,是因為醫(yī)保欺詐數(shù)據(jù)屬于正負樣本不平衡的數(shù)據(jù),而這幾種分數(shù)是評估一個不平衡類分類算法綜合性能的評價指標,可以同時考慮到多個方面。
(2)醫(yī)保報銷審批基金在線預測模塊。
醫(yī)保報銷基金審批金額的趨勢預測模塊,主要是通過對醫(yī)保數(shù)據(jù)進行統(tǒng)計提取后,對提供的按審批日期進行排序的醫(yī)保基金報銷審批金額,利用ARIMA算法對基金的審批金額趨勢進行預測,通過提前對基金審批趨勢的了解,可以根據(jù)最近的基金審批情況,在一定程度上模擬出接下來的審批金額變化,從而讓決策部門更早的發(fā)現(xiàn)基金運行中潛在的問題,并及時調(diào)整政策進行處理,其處理流程如圖3所示。

圖3 醫(yī)保審批基金在線預測處理流程
智能服務模塊主要是以底層的智能核心算法為支撐,實現(xiàn)醫(yī)保智能審核系統(tǒng)中圍繞審核醫(yī)保欺詐數(shù)據(jù)的相關核心功能及服務,主要包括醫(yī)保數(shù)據(jù)展示及搜索、醫(yī)保基金統(tǒng)計分析、醫(yī)保記錄上傳審核以及醫(yī)保基金費用預警等服務。
(1)醫(yī)保數(shù)據(jù)展示及搜索模塊。
你遇到困難了?那是一件好事!為什么?因為,通過不斷地克服困難所取得的一次又一次勝利是你成功的階梯,每一次勝利都會幫助你增長智慧和積累經(jīng)歷,每次你遇到困難都用積極的心態(tài)克服困難,那么,你就會成為一個更好、更重要、更成功的人.
本模塊通過MySQL作為底層數(shù)據(jù)庫,可以為用戶分頁顯示現(xiàn)有的醫(yī)保數(shù)據(jù)記錄。并且可以通過騙保記錄單號或個人編碼來搜索查看相應的記錄,對當前頁面的醫(yī)保記錄進行打印或導出。
(2)醫(yī)保基金統(tǒng)計分析模塊。
本模塊能提供層次豐富、維度多樣的統(tǒng)計分析圖表,從不同的維度將數(shù)據(jù)轉化為更容易理解的圖形解釋,使數(shù)據(jù)更容易被理解,對基金的使用情況進行側面的分析展示。提供的維度包括對患者的藥品費、檢查費、治療費、床位費、手術費等各種費用。通過這些不同的維度對基金報銷的審批情況進行分析,能更好地讓決策部門掌握醫(yī)保基金使用的全局,并更好地定位其中存在的問題,為制定科學有效的決策提供強有力的數(shù)據(jù)報表分析支持。可以采用可視化工具包或第三方可視化工具對中間結果和最終結果進行數(shù)據(jù)可視化展示,本文中該模塊使用Highcharts圖表庫設計了有一定交互性的柱狀圖和餅狀圖,對比了騙保患者與沒有騙保的患者在藥品費、檢查費、治療費、床位費、手術費等費用上的差異,以及各項費用占總費用的比例,形成了簡潔明了的匯總分析,有助于更好地識別異常行為。
(3)醫(yī)保記錄上傳審核模塊。
本模塊主要是利用醫(yī)保審核模型在線擬合模塊中訓練得到的分類模型,對新上傳的醫(yī)保樣本進行在線的快速審核。由于上傳的醫(yī)保數(shù)據(jù)多為沒有經(jīng)過處理的原始數(shù)據(jù),因此需要先對上傳的樣本數(shù)據(jù)進行預處理,再進行預測,最終向用戶分頁展示出審核結果,即是否涉及騙保,本系統(tǒng)中僅支持上傳。csv格式的醫(yī)保數(shù)據(jù)文件。醫(yī)保記錄上傳審核模塊的處理流程如圖4所示。

圖4 醫(yī)保記錄上傳審核處理流程
(4)醫(yī)保基金費用預警模塊。
對各模塊進行可視化,主要是為用戶提供清晰、簡潔、明了的可視化界面,為用戶提供方便有效的醫(yī)保智能審核服務交互并展示各個服務的結果,醫(yī)保系統(tǒng)界面一致、可靠、高效,有良好的用戶體驗,以便用戶能輕易上手進行操作并且保證用戶操作的有效性,主要包括醫(yī)保數(shù)據(jù)展示,模型訓練結果展示,新記錄審核結果展示,醫(yī)保基金審批金額趨勢展示,統(tǒng)計圖表展示,醫(yī)保基金篩選預警展示等。
醫(yī)保防騙智能審核系統(tǒng)的可視化模塊使用主流Web開發(fā)框架Django及其MTV模式進行可視化界面的實現(xiàn),前端頁面使用了JavaScript、Bootstrap、Ajax等技術。
(1)醫(yī)保數(shù)據(jù)展示界面可以通過在搜索框輸入騙保記錄的順序號或個人編碼來查詢數(shù)據(jù)庫中相應的醫(yī)保記錄信息。
(2)醫(yī)保審核模型訓練模塊分成兩部分,一部分集成A LO-KM、SpectralClustering、AgglomerativeClustering等算法對無監(jiān)督模型進行訓練;另一部分集成KM-LR、GradientBoosting、KNN、決策樹以及隨機森林等算法,對有監(jiān)督模型進行訓練,并進行測試。通過選擇不同的算法來擬合醫(yī)保數(shù)據(jù)分類模型。
(3)醫(yī)保記錄上傳審核模塊利用已經(jīng)訓練好的機器學習算法模型,對新上傳的醫(yī)保樣本數(shù)據(jù)進行審核,預測醫(yī)保樣本是否涉及騙保。
(4)醫(yī)療保險基金審批金額趨勢預測模塊通過應用ARIMA算法,對醫(yī)保報銷審批金額時間序列進行預測。首先利用大數(shù)據(jù)挖掘算法、統(tǒng)計分析技術對醫(yī)保數(shù)據(jù)集按時間進行匯總分析,得到按時間排序的每天醫(yī)保審批金額的總值,然后把該基金審批金額的總值應用在ARIMA算法中,對基金的消耗趨勢進行了解,可以得到真實值和預測值變化的擬合過程。
(5)醫(yī)保基金統(tǒng)計分析模塊使用Highcharts圖表庫提供了層次豐富,維度多樣的統(tǒng)計分析報表,從不同的維度,側面對基金的使用情況進行分析展示。為用戶展示了經(jīng)過醫(yī)保數(shù)據(jù)樣本的詳細特征信息,包括個人編碼、交易時間、檢查費發(fā)生金額、手術費發(fā)生金額、本次審批金額等相關信息。并提供了多樣的數(shù)據(jù)分析對比圖表,更好地讓決策部門掌握基金使用的全局情況,并更好地定位其中存在的問題,為制定科學的決策提供強有力的數(shù)據(jù)報表分析支持。
(6)醫(yī)保基金預警篩選模塊通過系統(tǒng)定義的記錄篩選指標,并對每個指標設置一個閾值,當指標的值超過閾值則篩選出異常樣本,此處該模塊定義的篩選指標包括藥品花銷,治療花銷,住院花銷,床位花銷,手術花銷等。
本文主要初步研究設計了人工智能在醫(yī)保防欺詐數(shù)據(jù)的智能審核應用,對其進行了初步的總體設計、功能模塊設計與實現(xiàn)。總體劃分為智能分析模塊、智能服務模塊、可視化模塊,并對其中的每個功能模塊進行了介紹闡述。本文的實現(xiàn)證實基于醫(yī)保欺詐數(shù)據(jù)的醫(yī)保防騙智能審核系統(tǒng)具備可行性,為醫(yī)保欺詐審核與醫(yī)保基金的合法利用提供現(xiàn)代化、智能化的技術支持,為醫(yī)療保險管理機構制定及修改政策、有效利用醫(yī)保數(shù)據(jù)資源、提升審核查驗質(zhì)量提供數(shù)據(jù)支持,具有一定的現(xiàn)實意義。