續婧 范杰
(1.中國中鋼集團有限公司審計部 北京 100080;2.首都醫科大學附屬北京中醫醫院 北京 100010)
隨著綜合國力的不斷強大,我國的各行業發展不斷擴大[1-2]。例如:為了便于國民使用醫療保險,定點零售藥店和定點醫療服務機構的數量持續增加[3-5]。這給國民帶來方便的同時,也導致審計變得越來越困難。違規使用保險的現象層出不窮,違反審計的手段多樣且隱蔽,僅利用傳統的審核方式來加強資金的監控難以滿足當今各行業對審計的需求[6-7]。
針對上述問題,如何快速有效地對特定行業的審計數據進行分析,從而發現違反審計的行為是非常重要的。關聯規則可以快速分析變量之間的依賴或關聯關系,因此常被用于分析審計數據中的異常行為數據[8-9]。例如:可以發現異常參保人通常同時購買那種中藥品,進一步結合購藥金額、數量等信息分析是否存在醫保欺詐行為[10]。該文對關聯規則在特定行業審計數據分析中的應用進行研究,并以分析醫保欺詐審計數據為例進行了實驗。實驗結果表明,該方法通過數據分析數據中的關聯規則能夠快速識別醫保欺詐行為。
該文篩選在定點零售藥店和定點醫療機構都有過醫保刷卡記錄的參保人作為研究群體,總人數共計47 028 人,其中異常購藥參保人數為1 037 人,正常購藥參保人數為45 991人。購藥異常參保人判斷依據具體如表1 所示。數據包含參保人1 年以內分別在定點零售藥店和定點醫療機構的購藥交易記錄數據和交易明細數據。實驗中訓練數據集占總樣本數據的75%,測試數據集占總樣本數據的25%。該文主要分析異常參保人的購藥序列中的藥品關聯情況,判斷異常情況下通常同時購買什么藥品。因此,只保留參保人的購藥記錄序列,其中時間以月為分界點,分界點內藥品按照金額大小排序。

表1 異常數據篩選標準
項是數據庫中的最小單位,通常用符號i表示。設I={i1,i2,…,in}是項的集合,其中ij(j∈[1,n])表示第j種藥品。設購藥記錄數據庫為D,其中每個元素有若干項組成,通常表示為E。E是I的子集,表示為E?I。給定一個項集A,如果A?E,則元素E包含A。對于任意兩個項集A?I和B?I,關聯規則表示為A?B,其中A∩B=?。ms表示最小支持度,mc表示最小置信度。
定義1 項集的支持度sup(A)。在數據集D中,對于任意項集A,它的支持度為A在D中出現的概率,即sup(A)=P(A)。
定義2 關聯規則的支持度sup(A?B)。對于任意兩個項集A?I和B?I,關聯規則A?B的支持度sup(A?B)表示為A∪B在D中的出現概率,即
定義3 關聯規則的置信度conf(A?B)。對于任意兩個項集A?I和B?I,關聯規則A?B的置信度conf(A?B)表示為在包含A的元素中包含B的概率P(B|A),即
定義4 最小支持度閾值ms。最小支持度由用戶設定,取值范圍為[0,1],它表示關聯規則或項集的最低重要性/有用性。
定義5 最小置信度閾值mc。最小支持度由用戶設定,取值范圍為[0,1],它表示關聯規則的最低可靠性/確定性。
定義6 頻繁項集。給定一個項集A,如果sup(A)=P(A)≥ms,則A為頻繁項集。
定義7 強關聯規則。對于關聯規則A?B,如果A∪B是頻繁項集(P(A∪B)≥ms),且cconf(A?B)≥mc,則A?B是強關聯規則。
關聯規則挖掘的基本步驟主要分為兩個部分:第一,從數據集中挖掘所有的頻繁項集,該文通過FPgrowth 算法[11]挖掘參保人購藥記錄中的頻繁項集;第二,從第一步中得到的頻繁項集中挖掘強關聯規則。相較于挖掘關聯規則,挖掘頻繁項集的工作較為繁瑣,且工作量大,因此該文重點介紹如何挖掘頻繁項集。
該文采用關聯規則挖掘技術對參保人的購藥記錄中的關聯藥品進行分析,發現異常參保人通常同時購買什么藥品,通過藥品購買頻率和購買數量判定是否存在代刷醫保卡,代替購買藥物等醫保欺詐行為。圖1是基于關聯規則挖掘技術的醫保審計數據分析建模示意圖。

圖1 審計建模流程圖
FP-growth 算法的核心思想是構建FP-tree 樹節點,以減少所需項集的數量。假設I={i1,i2,…,in}是數據庫D中所有項的集合,Eset={E1,E2,…,Ed}是數據庫D中所有元素的集合。每個元素包含I中的若干項。
假設參保人的購藥序列為i5、i2、i1、i3、i5、i2、i4、i2、i3、i5、i4、i2、i5、i3、i6、i1、i2、i4、i6、i5、i3、i5、i4、i2、…。將序列以月為分界點劃分為元素,得到元素集合列表,如表2 所示。通過掃描數據庫D,計算每個項的支持度,即包含項的元素個數與總元素個數之比。
表2中的內容表示一個參保人的購藥序列的元素劃分,假設D中有m個參保人,則經過元素劃分完成后得到12×m個元素。設最小支持度閾值為0.2,支持度小于0.2 的項視為可忽略項,將其從元素中刪除,剩余項按照支持度大小降序排列,假設對表2 重新排序后的結果如表3 所示,從表3 可以看出,元素E7中的項i7由于支持度小于最小支持度閾值而被去除,而sup(i2)>sup(i5)>sup(i3)>sup(i1)>sup(i4)>sup(i6)。

表2 元素劃分表
假設表3 是小型數據庫,計算每個項的支持度如圖2 中左邊表格所示,依據表3 中項的排列順序將12個元素中的項依次加入FP-tree 中,得到如圖2所示的FP-tree樹狀圖。

表3 元素包含有序項劃分表

圖2 構建FP-tree
圖3展示了在異常參保人購藥記錄中常購買的前15種藥品。其中,前4種藥物購買率高達60%以上,除第三種藥物是糖尿病人為控制血糖可能需要長期服用以外,剩余3種藥物均為非長期服用類藥物,因此正常情況下的購買頻率較低。顯然這是一種異常現象。圖4是圖3中頻繁項中存在的強關聯規則,其中group1表示“頭孢可肟分散片”和“鹽酸二甲雙胍片”組合,group2 表示“布洛芬緩釋膠囊”和“格列齊特片(II)”組合,group3 表示“布洛芬緩釋膠囊”和“蓮花清瘟顆粒”組合,group4 表示“頭孢可肟分散片”和“牛黃解毒片”組合。這4組規則是有效的,并且是強規則,說明具有異常購藥行為的參保人所購的藥品是存在一定關聯的。

圖3 藥品購買頻率

圖4 藥品中的強關聯規則
該文基于關聯規則挖掘技術對對醫保審計數據進行分析。首先,對參保人的購藥記錄數據進行預處理,得到以月為單位的參保人的購藥項集;其次,通過關聯規則挖掘建立醫保審計數據集分析模型,通過模型可以得到具有異常行為的參保人購藥記錄中的不合理現象和組合。