基于數據挖掘的標準化醫療保險監控模型構建*

2015-03-13 11:35:22孫聽雪何小軍李吉輝邢亞文辛均益

醫學信息學雜志 2015年3期

關鍵詞：數據挖掘分類信息

梁俊孫聽雪何小軍李吉輝邢亞文辛均益

(浙江大學醫學院附屬第二醫院杭州 310000) (浙江大學醫學院附屬邵逸夫醫院杭州 310000) (浙江大學醫學院附屬第二醫院杭州310000) (浙江醫學高等?？茖W校杭州 310000)

?醫學信息研究?

基于數據挖掘的標準化醫療保險監控模型構建*

梁俊孫聽雪何小軍李吉輝邢亞文辛均益

(浙江大學醫學院附屬第二醫院杭州 310000) (浙江大學醫學院附屬邵逸夫醫院杭州 310000) (浙江大學醫學院附屬第二醫院杭州310000) (浙江醫學高等專科學校杭州 310000)

從數據集建立、模型設計、醫保審核模型相關指標建立、原始數據集預處理、基于K-means的聚類特征生成、數據分類、后處理模塊幾方面介紹基于數據挖掘的標準化醫療保險監控模型構建，提高醫療費用審核效率，減少醫療資源浪費。

數據挖掘；醫保費用；異常檢測

1 引言

《中共中央關于全面深化改革若干重大問題的決定》明確提出：“要深入改革醫保支付方式，健全全民醫保體系”[1]，2014年《浙江省人力資源和社會保障工作要點》進一步要求建立健全醫保監管信息平臺，強化對醫療費用的全面審核和智能監管，嚴格控費控藥，全力打造陽光醫保[2]，可見醫療保險信息化是國家大力開展的建設項目，人人享有健康是醫療保障建設的普遍性目標[3]。隨著醫療保障事業的發展，信息化管理改革的深化，信息技術廣泛應用，國內在醫保支撐信息系統的可用性、安全性、互操作性建設以及數據積累上已經獲得了一些階段性成果[4-7]，如何有效二次利用這些沉淀數據，提高醫保管理效率，降低差錯發生是當前醫學信息領域的研究熱點之一。數據挖掘技術將數據經過標準化處理并轉成計算機可處理的信息，將這些信息用于決策或驗證，然后積累形成知識。將數據挖掘技術用于醫療保險數據分析，能有效分析大量的沉淀數據，找出隱含的規則和模式，促進醫學的發展[8]。因此，醫療保險數據的信息化、標準化是醫療保險制度建設和管理服務中兩個互為依存的重要工作，也是提高醫療服務質量、構建完善的醫療保險信息網的基礎和進行大數據挖掘的前提[9]。本研究利用數據挖掘技術，建立一套分類模式，以協助醫保中心進行醫療費用審查的工作，研究的目的如下：(1) 結合樸素貝葉斯分類算法(NB)和K-means聚類算法，發展更有效的數據分析模式。(2)找出醫療費用審查的關鍵因素。(3)利用本研究發展的數據挖掘技術，輔助醫保中心進行醫療費用審查業務。

2 研究方法

2.1 建立數據集

首先創建所需的醫療費用數據子集，包含1 000人次就診所產生的相關費用數據集，同時進行了標準的匿名化處理，去除患者的病人ID、姓名、性別、年齡、所在病區、床位號等識別信息；然后由專家對這些費用進行人工審核，手工分配1個狀態

標簽，包括“正?！焙汀爱惓！睜顟B。

2.2 模型設計

醫保費用審查主要包括兩個方面：行政審查和專業審查。專業審查需要結合患者病歷對治療行為及其相關費用的合理性進行判斷，但當前醫保費用審核并不涉及患者病歷上傳工作，因此本研究主要針對行政審查，即關注對醫保報銷醫療費用的整體審查。本研究假設在一個醫療機構中，不同醫生治療類似疾病所產生的醫療費用金額是接近或符合一定規律的。系統整體架構，見圖1。

圖1 系統架構

2.3 醫療費用醫保審核模型相關指標的建立

分析醫療費用審核業務因素形成分析模型中的各種初步屬性。因為NB中假設各維度互相獨立，因此需要注意各維度之間的相關性，利用業務規則刪除相關性過高的屬性，避免各個維度之間的依賴。最終確定的醫療費用審核指標，見表1。

表1 醫療費用審核指標及其數據分布(元)

2.4 原始數據集預處理

研究對象是經過匿名化處理的患者醫療費用匯總數據集，采用Yang等[10]提出的標準化數據挖掘步驟進行研究。需要首先進行數據的前置處理，包括數據清洗、合并、轉換(在本研究中對應連續值屬性的離散化)，盡量避免不完整、錯誤數據對醫保審核數據模型的影響。數據清洗的目的是針對所收集的數據集執行初步清理和過濾動作，以獲得有用的信息，確保數據質量，包括檢查各個字段是否有不屬于或違反字段約束的數據；檢查就診科室、診斷、醫保類別等字段是否有Null值；合計費用是否為0等。該過程將移除從業務角度看有問題的記錄并檢查數據記錄的完整性。數據合并則是建立符合之前醫療費用醫保審核模型相關指標所需的數據表。數據轉換的目的是確保數據格式或類型符合數據挖掘模型和方法的要求。鑒于此，首先進行了就診科室、診斷等維度的粗粒度合并，以免這些維度值的過于分散影響后續基于K-means的聚類特征的生成。另外，在樸素貝葉斯模型中，如果屬性值是連續性的，數值的連續性變化會對最終的概率分配產生較大影響，同時處理連續性維度的密度函數定義復雜，對數據中的連續性屬性需要首先界定范圍并將連續性數值離散化，簡化計算過程，提高計算精度。在研究中，采用了基于信息增益的離散化方法，通過迭代比較不同斷點值的信息增益值來確定最佳斷點集。信息增益(IG)[11]被定義為子集S的信息上與斷點s1針對集合S的信息熵之差：

IG(s1)=H(S)-H(s1)

(1)

(2)

(3)

基于上述定義，對診療費、檢查費、手術費、藥費、麻醉費、材料費、化驗費、輸血費、自費金額、報銷金額等連續值維度進行了離散化處理。經過預處理后，獲得有效數據樣本996份。該數據集中的標記的分布情況是：對應“正?！睒擞浀臉颖緸?07份，對應“異?！睒擞浀臉颖?89份。從兩種樣本中各隨機抽取了80%作為訓練集，20%作為測試集。

2.5 基于K-means的聚類特征生成

K-means[12]是一種被廣泛使用的半監督算法，當作為有監督環境下的特征時被證實很有效，能提高有監督學習算法的績效。在訓練集{x(1),...x(n)}，每個x(i)∈?n，隨機選取k個聚類質心點為μ1,μ2,μ3,...μk∈?n，重復迭代下列過程直到收斂。

對于每個樣本i，計算其應該屬于的類：

(4)

對于每個樣本類j，重新計算該樣本類的質心：

(5)

式中：c(i)表示樣本i與k個類中距離最近的類別，c(i)∈{1...k}。k的決定是聚類分析中最重要的決策之一，當k較大時，所分類別中的同質性較好，但會無法得出有意義的分類方法；當k較小時，雖然能較好地完成聚類工作，但是會出現同質性較差的情況。在本研究中，利用K-means獲得不同時間段內，不同就診科室、診斷、醫生性別的聚類特征以供NB使用。綜合考慮先將k∈{2,4}代入K-means進行聚類分析。評估所產生各聚類群集之間的標準差來決定最終所使用的k值，標準差結果，見表2。

表2 數據集聚類標準差

注：考慮到最終的研究目標是二元分類，綜合考慮選擇k=4。

2.6 使用NB對數據進行有監督分類

在這個模塊中，使用NB[13]對剩余的訓練集進行分類，區分出“正?！睒颖竞汀爱惓！睒颖尽B分類器是通過某對象的先驗概率，利用貝葉斯公式計算出其后驗概率，即該對象屬于某一類的概率，選擇具有最大后驗概率的類作為該對象所屬的類。設C表示類別節點集，cj∈C，[v1,v2,...vn]為n個特征屬性，且假設這n個特征屬性各自條件獨立則P(cj|v1,v2,...vn)的定義如下：

P(cj|v1,v2...vn)=

(6)

定義：設Nex為樣本數，Ncl為分類節點數，而N(cj)為屬于分類cj的樣本數。

Laplace校準：

(7)

M估計：

(8)

式中：N(vi)表示滿足vi的樣本數，N(cj&vi)表示屬于cj分類且滿足vi的樣本數，而m是修正系數，在本研究中m=2。因此，本研究對原有的電子健康檔案系統整合分類應用(EHRS Combined Classification Application，EHRCCA)[14]進行了擴展，加入了WEKA[15]中的NB實現，同時計算了醫療費用審核狀態二元分類各自的事前概率，基于之前模塊產生的特征子集，利用從訓練集、離散特征子集和K-means的聚類特征子集構建出一個NB分類器模型。

2.7 后處理模塊

經過前4個組件的處理，訓練集中的每個條目均被分配了兩個概率，分別是屬于‘正?！母怕屎蛯儆凇爱惓！钡母怕?。在本模塊中，使用了基于規則的方法，計算出最終樣本條目所述的類別狀態。規則定義如下：

Max(P(c1|v1,v2...vn),P(c2|v1,v2...vn))?Labela

(9)

式中，c1表示正常分類，c2表示異常分類，a表示訓練集中的1條數據樣本條目。

3 性能評估方法和結果

本研究使用了醫學統計學領域通用的評價指標[13]對系統性能進行了評估并與基線方法的性能-頻率分布法進行了對比，這些指標項包括準確率(Precision)、召回率(Recall)、F1分值(F-score)：

(10)

(11)

(12)

式中：TP表示金標準結果是正常，實際分類結果也是“正?！钡臉颖緮盗?；TN表示金標準結果是異常，實際分類結果也是異常的樣本數量；FP表示金標準結果是異常，實際分類結果是正常的樣本數量；FN表示金標準結果是正常，實際分類結果是異常的樣本數量。表3給出了系統在測試集上輸出結果的混淆矩陣，表4給出了相應的性能評估。

表3 系統在測試集上輸出結果的混淆矩陣

表4 系統的性能評估結果

從測試集上的評估結果來看，正常分類和異常分類的F1分數分別達到了0.919和0.719，可以看出針對測試集，模型達到了設計要求。

4 結語

本文描述了結合半監督K-means聚類技術和樸素貝葉斯分類技術，利用費用審核中常見的一些關鍵指標構建數據挖掘系統。通過對醫保費用數據子集的分析，找出隱含的數據模型，形成正確且公平的審核模式，可作為現有依賴基于規則的費用審核和人工抽樣審核混合模式的合理補充。

1 中共中央關于全面深化改革若干重大問題的決定[EBOL].[2014-08-30].http://news.xinhuanet.com/politics/2013-11/15/c_118164235.htm.

2 2014年全省人力資源和社會保障工作要點 [EB/OL].[2014-08-30]. http://www.zjhrss.gov.cn/art/2014/2/27/art_12_57482.html.

3 “三醫聯動”促進醫改[J] .醫學信息學雜志,2012,33(3):94.

4 劉學鵬,曾世鴻,曲建明，等.協調工作在醫院數字化建設中的作用[J].醫學信息學雜志,2011, 32(4):33-35.

5 楊瑩,李超峰,林達峻. 遠程技術對醫保結算的優化 [J] .醫學信息學雜志,2014, 35(3):34-37.

6 李亞子,田丙磊,李艷玲，等.醫療健康信息二次利用中安全隱私保護研究[J].醫學信息學雜志,2014, 35(9):1-6.

7 李亞子,尤斌,王暉，等.醫療保險信息泄露案例分析及對我國安全隱私保護的借鑒[J].醫學信息學雜志,2014,35(2):6-12.

8 Hripcsak G, Bloomrosen M, Flatelybrennan P, etal. Health Data Use, Stewardship, and Governance: ongoing gaps and challenges: a report from AMIA′s 2012 health policy meeting[J].J Am Med Inform Assoc, 2014, 21(2): 204-211.

9 Rose J S, Fisch B J, Hogan W R, et al. Common Medical Terminology Comes of Age, Part One: standard language improves healthcare quality [J]. J Healthc Inf Manag, 2001, 15(3): 307-318.

10 Yang H, Spasic I, Keane J A, et al. A Text Mining Approach to the Prediction of Disease Status from Clinical Discharge Summaries [J]. J Am Med Inform Assoc, 2009, 16(4): 596-600.

11 Forman G. An Extensive Empirical Study of Feature Selection Metrics for Text Classification [J]. Journal of Machine Learning Research, 2003, 3(3): 1289-1305.

12 Domingos P. A Few Useful Things to Know about Machine Learning [J]. Communications of the Acm, 2012, 55(10): 78-87.

13 Nadkarni P M, Ohno-machado L, Chapman W W. Natural Language Processing: an introduction [J]. Journal of the American Medical Informatics Association, 2011, 18(5): 544-551.

14 Liang J, Zheng X, Xu M, et al. A Combined Classification Model for Chinese Clinical Notes [J]. International Journal of Applied Mathematics and Statistics, 2013, 49(19): 201-209.

15 Hall M, Frank E, Holmes G, et al. The WEKA Data Mining Software: an update [J]. SIGKDD Explor Newsl, 2009, 11(1): 10-18.

2015年《醫學信息學雜志》征訂啟事

《醫學信息學雜志》是國內醫學信息領域創刊最早的醫學信息學方面的國家級期刊。主管：國家衛生和計劃生育委員會；主辦：中國醫學科學院；承辦：中國醫學科學院醫學信息研究所。中國科技核心期刊(中國科技論文統計源期刊)，RCCSE中國核心學術期刊(武漢大學中國科學評價研究中心，Research Center for Chinese Science Evaluation)，美國《化學文摘》、《烏利希期刊指南》及WHO西太區醫學索引(WPRIM)收錄，并收錄于國內3大數據庫。主要欄目：專論，醫學信息技術，醫學信息研究，醫學信息組織與利用，醫學信息教育，動態等。讀者對象：醫學信息領域專家學者、管理者、實踐者，高等院校相關專業的師生及廣大醫教研人員。

2015年《醫學信息學雜志》國內外公開發行，每冊定價：15元(月刊)，全年180元。郵發代號：2-664，全國各地郵局均可訂閱。也可到編輯部訂購：北京市朝陽區雅寶路3號(100020)醫科院信息所《醫學信息學雜志》編輯部；電話：010-52328673,52328674，52328671。

《醫學信息學雜志》編輯部

Construction of Standardized Health Insurance Monitoring Model Based on Data Mining

LIANGJun,

SecondAffiliatedHospital,CollegeofMedicine,ZhejiangUniversity,Hangzhou310000，China;

SUNTing-xue,

SirRunRunShawHospital,CollegeofMedicine,ZhejiangUniversity,Hangzhou310000,China;

HEXiao-jun,LIJi-hui,XINGYa-wen,

SecondAffiliatedHospital,CollegeofMedicine,ZhejiangUniversity,Hangzhou310000,China;

XINJun-yi,

ZhejiangMedicalCollege,Hangzhou310000,China

The paper introduces the construction of standardized health insurance monitoring model based on data mining from the following aspects: data set establishment, model design, health insurance audition related indexes construction, original data set preprocessing, clustering feature generation based on K-means, data classification, post-processing model and so on, in order to improve audition efficiency of medical expenses and reduce the waste of medical resources.

Data mining; Health insurance fee; Abnormal detection

2014-12-03

梁俊，碩士，中級職稱，發表論文8篇；通訊作者，辛均益。

浙江省人力資源和社會保障科學研究課題(項目編號：L2014A002)；浙江省醫藥衛生科技基金(項目編號：2013KYB140)。

R-058

A 〔DOI〕10.3969/j.issn.1673-6036.2015.03.010