許思特 張?zhí)焯?盛 韜 劉佳興 羅 力△
1.復(fù)旦大學(xué)公共衛(wèi)生學(xué)院(200032) 2.復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院 3.復(fù)旦大學(xué)軟件學(xué)院
隨著我國(guó)醫(yī)保覆蓋面的擴(kuò)大和保障水平的提高,違規(guī)騙保、過(guò)度診療、資源浪費(fèi)等問(wèn)題愈演愈烈。與此同時(shí),根據(jù)國(guó)家進(jìn)一步促進(jìn)社會(huì)辦醫(yī)持續(xù)健康規(guī)范發(fā)展的要求,醫(yī)保將面臨越來(lái)越多的社會(huì)辦醫(yī)納保的局面,更加大了醫(yī)保基金的風(fēng)險(xiǎn)和監(jiān)管壓力。
近20年來(lái),國(guó)內(nèi)外有大量學(xué)者,將數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等應(yīng)用于醫(yī)保費(fèi)用監(jiān)管、住院費(fèi)用分析以及騙保行為甄別等。國(guó)外如Biafore使用數(shù)據(jù)挖掘技術(shù)從大量的復(fù)雜的異構(gòu)數(shù)據(jù)中發(fā)現(xiàn)一定的數(shù)據(jù)模式及趨勢(shì),并以此提供決策支持[1];Milley將數(shù)據(jù)挖掘技術(shù)應(yīng)用到醫(yī)療費(fèi)用檢測(cè),并給出成功實(shí)施的案例[2];William J.Rudman,John S.Eberhardt等學(xué)者通過(guò)歸納分析了美國(guó)健康保險(xiǎn),利用機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘的相關(guān)技術(shù)構(gòu)建模型對(duì)欺詐與騙保行為進(jìn)行甄別并對(duì)其進(jìn)行分析[3]。國(guó)內(nèi)高臻耀,張敬誼等學(xué)者提出了利用數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等技術(shù)構(gòu)建模型庫(kù)與方法庫(kù)[4];藍(lán)英、李春吉、王川等學(xué)者將機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)應(yīng)用于多種疾病的住院費(fèi)用分析中[5]。
現(xiàn)在國(guó)內(nèi)主流的醫(yī)保控費(fèi)模式,主要有三種,基于規(guī)則集的智能控費(fèi)模式、PBM第三方控費(fèi)和DRGs組合控費(fèi),三種方式各有優(yōu)勢(shì),但也存在著規(guī)則不完備、第三方盈利點(diǎn)不透明、付費(fèi)服務(wù)項(xiàng)目不夠精細(xì)的問(wèn)題。根據(jù)國(guó)辦發(fā)[2020]20號(hào)《國(guó)務(wù)院辦公廳關(guān)于推進(jìn)醫(yī)療保障基金監(jiān)管制度體系改革的指導(dǎo)意見(jiàn)》,結(jié)合本研究對(duì)醫(yī)保管理部門(mén)的咨詢結(jié)果,為有利事前、事中的監(jiān)管引導(dǎo),應(yīng)對(duì)相關(guān)醫(yī)療機(jī)構(gòu)的費(fèi)用加強(qiáng)大數(shù)據(jù)應(yīng)用,制定“模糊規(guī)則”進(jìn)行監(jiān)管[6]。
如今,上海市有超過(guò)40家護(hù)理院,但對(duì)相關(guān)住院費(fèi)用的監(jiān)管始終缺少有效的手段。根據(jù)文獻(xiàn)研究進(jìn)展與實(shí)際管理情況,主要存在以下問(wèn)題。
(1)建模問(wèn)題
基于前期的調(diào)研結(jié)果與臨床醫(yī)生們的反饋,專家們表示難以給出明確的監(jiān)管細(xì)則標(biāo)準(zhǔn),因而傳統(tǒng)通過(guò)專家咨詢形成規(guī)則的建模方式在本研究中無(wú)法實(shí)現(xiàn)。參考相關(guān)文獻(xiàn),考慮將人工智能技術(shù)引入,對(duì)醫(yī)生們的經(jīng)驗(yàn)進(jìn)行歸納建模。但受限于人力成本,在以往的住院費(fèi)用研究中,大多采用了非監(jiān)督學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等無(wú)需人工標(biāo)記的方法。這樣的建模方式雖然效果較好,但可解釋性較差,難以對(duì)實(shí)際管理操作產(chǎn)生有效反饋。
(2)管理問(wèn)題
受限于管理者的臨床專業(yè)知識(shí)與人力成本,對(duì)相關(guān)住院費(fèi)用的監(jiān)管始終沒(méi)有成型的金標(biāo)準(zhǔn),僅僅是采用一刀切的監(jiān)管方法,即日均床位費(fèi)不得超過(guò)400元。這種傳統(tǒng)監(jiān)管方法不僅不利于事前、事中的引導(dǎo),同時(shí)使部分有違規(guī)收費(fèi)傾向的醫(yī)生掌握主動(dòng)權(quán),采取規(guī)避處罰的診療方向。
針對(duì)建模中可解釋性差的問(wèn)題,本研究采用機(jī)器學(xué)習(xí)中可解釋性較強(qiáng)的決策樹(shù)模型,從而有效反饋特征重要程度、機(jī)器決策路徑關(guān)鍵信息。針對(duì)建模與管理中人工標(biāo)記的成本問(wèn)題,本研究采用主動(dòng)學(xué)習(xí)算法,甄別較難分類的高價(jià)值標(biāo)注數(shù)據(jù),進(jìn)行重點(diǎn)標(biāo)記,從而通過(guò)較少成本提升算法的效果。針對(duì)管理中一刀切的方式,本研究將病人基本信息與費(fèi)用信息悉數(shù)囊括,綜合考慮有效數(shù)據(jù)特征,從而更為準(zhǔn)確地判別相關(guān)住院費(fèi)用數(shù)據(jù)的合理性。
綜上,為捕捉結(jié)合醫(yī)學(xué)、管理學(xué)、計(jì)算機(jī)的契合點(diǎn),理解醫(yī)生思維,輔助醫(yī)保更有效地對(duì)護(hù)理院住院費(fèi)用進(jìn)行監(jiān)管控制,本研究嘗試將人工智能技術(shù)引入,以腦梗死后遺癥為例,構(gòu)建護(hù)理院住院費(fèi)用合理性判別模型。
1.資料來(lái)源
研究的數(shù)據(jù)來(lái)源是上海市醫(yī)保中心提供的2016-2018年上海市病案首頁(yè)數(shù)據(jù)庫(kù),選擇以腦梗死后遺癥(ICD編碼為I69.300)為主疾病的病例資料,收集患者信息字段與費(fèi)用字段,包括年齡、住院天數(shù)、住院次數(shù)、有無(wú)手術(shù)、并發(fā)癥詳情等;統(tǒng)計(jì)患者各單項(xiàng)住院費(fèi)用字段,包括一般醫(yī)療服務(wù)費(fèi)、一般治療操作費(fèi)、西藥費(fèi)、護(hù)理費(fèi)等。
2.數(shù)據(jù)預(yù)處理
本研究變量賦值及預(yù)處理的基本情況見(jiàn)表1,具體處理過(guò)程如下:
(1)剔除年齡、主疾病等關(guān)鍵患者信息字段有缺失的數(shù)據(jù);
(2)剔除費(fèi)用字段缺失超過(guò)1/3的數(shù)據(jù),用中位數(shù)填補(bǔ)費(fèi)用字段缺失不超過(guò)1/3的數(shù)據(jù);
(3)患者住院費(fèi)用屬于偏態(tài)分布,對(duì)數(shù)據(jù)進(jìn)行Box-Cox變換,使其近似正態(tài)分布。繼而對(duì)數(shù)據(jù)進(jìn)行歸一化,使其收斂于[0,1]之間;
(4)運(yùn)用獨(dú)熱編碼與啞變量處理分類型的信息特征字段,如性別、醫(yī)療付費(fèi)方式等。其中,由于“新農(nóng)合”、“城鎮(zhèn)職工”、“其他”三種付費(fèi)方式,在病案首頁(yè)數(shù)據(jù)庫(kù)中均記錄為“醫(yī)保”,因而未做進(jìn)一步分類;
(5)運(yùn)用二值化與分段處理連續(xù)型的信息特征字段,如年齡等。

表1 變量賦值及預(yù)處理
3.建模方法
(1)抽樣與標(biāo)記
從全市邀請(qǐng)了204位,從醫(yī)5年以上的護(hù)理院臨床醫(yī)生,參與大型的線上專家咨詢。對(duì)抽樣的18697條病案數(shù)據(jù)進(jìn)行第一輪合理性的判斷,并利用費(fèi)用字段構(gòu)建初步模型。所有相關(guān)資質(zhì)醫(yī)生基于自身經(jīng)驗(yàn),在閱讀完整病案信息的情況下進(jìn)行費(fèi)用量和費(fèi)用構(gòu)成的合理性判斷。一條數(shù)據(jù),若被醫(yī)生判斷為‘費(fèi)用量合理’且‘費(fèi)用構(gòu)成合理’,則認(rèn)為該條數(shù)據(jù)合理;若被醫(yī)生判斷為‘費(fèi)用量不合理’或‘費(fèi)用構(gòu)成不合理’,則認(rèn)為該條數(shù)據(jù)不合理。每條數(shù)據(jù)會(huì)由三位專家進(jìn)行判斷,判別一致的數(shù)據(jù)用于建模,以保證標(biāo)簽與模型的準(zhǔn)確性。
由于受相關(guān)資質(zhì)醫(yī)生的數(shù)量限制,本文以系統(tǒng)抽樣為基礎(chǔ),借鑒梯度下降法的思想,進(jìn)行抽樣標(biāo)記。按主疾病分別抽取樣本記錄,以均值為中心點(diǎn)。由歐氏距離最遠(yuǎn)處開(kāi)始以學(xué)習(xí)率α(即步長(zhǎng))逼近中心點(diǎn),并給醫(yī)生判斷是否合理。每條數(shù)據(jù)由多位專家判斷。學(xué)習(xí)率α視判斷一致率情況進(jìn)行調(diào)整,離中心點(diǎn)較近或較遠(yuǎn)處,α較大。
共抽樣18697條數(shù)據(jù),有效回收15488條,回收率82.8%。其中,經(jīng)數(shù)據(jù)預(yù)處理,腦梗死后遺癥疾病相關(guān)數(shù)據(jù)共2352條。
(2)決策樹(shù)模型的建立
采用C 4.5決策樹(shù)算法進(jìn)行建模,該算法采用節(jié)點(diǎn)二分法,追求信息增益最大化。當(dāng)選擇某個(gè)特征作為節(jié)點(diǎn)時(shí),我們就希望這個(gè)特征的信息熵趨近于0(即概率趨近于1),此時(shí)不確定性最小。為保證損失函數(shù)下降,即父子節(jié)點(diǎn)信息熵差為正的情況下,根據(jù)準(zhǔn)確率與各參數(shù)的可視化,確定調(diào)參方向。
本文設(shè)置70%樣本量為訓(xùn)練集,30%樣本量為測(cè)試集,特征選擇標(biāo)準(zhǔn)criterion選擇信息熵entropy,特征劃分點(diǎn)選擇標(biāo)準(zhǔn)splitter選擇random,最大深度max_depth選擇3層,max_features選擇None,隨機(jī)種子數(shù)random_state選擇420,內(nèi)部節(jié)點(diǎn)再劃分所需最小樣本數(shù)min_samples_split和葉子節(jié)點(diǎn)最少樣本數(shù)min_samples_leaf選擇5,類別權(quán)重class_weight選擇balanced,節(jié)點(diǎn)劃分最小不純度min_impurity_split選擇0.3。
(3)主動(dòng)學(xué)習(xí)反饋
主動(dòng)學(xué)習(xí)是指通過(guò)一定的算法找到未進(jìn)行類別標(biāo)注的樣本數(shù)據(jù)中最有標(biāo)記價(jià)值的數(shù)據(jù),交由專家進(jìn)行人工標(biāo)注后,將標(biāo)注數(shù)據(jù)及其類別標(biāo)簽,納入到訓(xùn)練集中迭代優(yōu)化分類模型,改進(jìn)模型的處理效果。主動(dòng)學(xué)習(xí)的模型為A=(C,Q,S,L,U)。如圖1所示進(jìn)行迭代循環(huán)。

圖1 主動(dòng)學(xué)習(xí)模型
本研究中,機(jī)器學(xué)習(xí)模型C為經(jīng)第一輪標(biāo)記結(jié)果構(gòu)建的決策樹(shù)模型;查詢規(guī)則Q為經(jīng)第一輪標(biāo)記的數(shù)據(jù)分別訓(xùn)練5個(gè)算法不同的分類器,如果某條樣本被5個(gè)分類器按2∶3的比例給出了不同的預(yù)測(cè),則將這個(gè)樣本視為有重標(biāo)價(jià)值;專家組S為參與標(biāo)記的醫(yī)生群體;標(biāo)記樣本集L為經(jīng)第一輪標(biāo)記過(guò)的數(shù)據(jù)集;未標(biāo)記樣本集U為未經(jīng)第一輪標(biāo)記過(guò)的數(shù)據(jù)集。
具體而言,我們將原始數(shù)據(jù)投入第一輪構(gòu)建的模型中,得出機(jī)器的判斷,并將機(jī)器的判斷的結(jié)果給醫(yī)生們進(jìn)行二輪驗(yàn)證,驗(yàn)證模型的可靠性。第二輪驗(yàn)證過(guò)程中,選取經(jīng)多種分類器判斷不一的數(shù)據(jù)以第一輪的原則進(jìn)行主動(dòng)學(xué)習(xí)的反饋,給醫(yī)生重新標(biāo)記投入模型。每條數(shù)據(jù)會(huì)由6位專家進(jìn)行判斷。由于數(shù)據(jù)正負(fù)類別比例較高,采取少數(shù)服從多數(shù)原則進(jìn)行驗(yàn)證結(jié)果的確定。重標(biāo)后重新投入模型中形成反饋,對(duì)模型進(jìn)行完善,直至模型在測(cè)試集準(zhǔn)確率達(dá)到80%以上。
(4)統(tǒng)計(jì)分析
本研究中,決策樹(shù)模型采用信息熵entropy作為模型的不純度,主動(dòng)學(xué)習(xí)算法采用邊緣采樣margin sampling作為查詢函數(shù)。
其中,信息熵entropy的公式為:
邊緣采樣margin sampling的公式為:
Scikit-learn、Pytorch庫(kù)用于實(shí)現(xiàn)相關(guān)機(jī)器學(xué)習(xí)算法的編寫(xiě),Numpy庫(kù)用于維度數(shù)組與矩陣運(yùn)算,Pandas庫(kù)用于數(shù)據(jù)分析與處理,Matplotlib庫(kù)用于圖表繪制及可視化。所有統(tǒng)計(jì)分析基于均運(yùn)用Python語(yǔ)言實(shí)現(xiàn)。
1.基本情況
經(jīng)人工標(biāo)記與數(shù)據(jù)預(yù)處理,腦梗死后遺癥疾病相關(guān)2352條病案首頁(yè)數(shù)據(jù)中。患者男性1027例,占43.7%;女性1325例,占56.3%。患者平均年齡(82.7±8.6)歲。其中,<40歲組0人;40~59歲組39人,占1.7%;60~79歲組573人,占24.4%;80~99歲組1731人,占73.6%;≥100歲組9人,占0.4%。患者實(shí)際住院天數(shù)最短1天,最長(zhǎng)1151天,平均實(shí)際住院天數(shù)(148.1±143.0)天。其中,≤9天組167人,占7.1%;10~49天組347人,占9.3%;50~99天組523人,占22.2%;100~199天組859人,占36.6%;200~299天組219人,占9.3%;≥300天組237人;占10.1%。
2.住院費(fèi)用基本情況
護(hù)理院腦梗死后遺癥患者住院總費(fèi)用最低162.5元,最高361936.8元,住院總費(fèi)用中位數(shù)(四分位數(shù)間距)為38453.36(50342.96)元。從患者住院費(fèi)用構(gòu)成比來(lái)看,在人均住院費(fèi)用中,康復(fù)費(fèi)、治療費(fèi)、西藥費(fèi)占比較高。其中,康復(fù)費(fèi)平均11992.4元,占22.3%,治療費(fèi)平均7687.4元,占14.3%;西藥費(fèi)平均7273.4元,占13.5%。護(hù)理院腦梗死后遺癥患者住院日均費(fèi)用最低54.2元,最高2095.2元,住院日均費(fèi)用中位數(shù)(四分位數(shù)間距)為356.9(161.8)元。患者住院費(fèi)用構(gòu)成情況見(jiàn)表2。

表2 患者住院費(fèi)用構(gòu)成
3.醫(yī)生判斷結(jié)果與二輪驗(yàn)證結(jié)果
考慮醫(yī)生人數(shù)及工作量,本研究共抽取800條數(shù)據(jù)進(jìn)行醫(yī)生判斷一致性檢驗(yàn),每條數(shù)據(jù)由3位醫(yī)生判斷。共反饋有效數(shù)據(jù)696條,合理性判斷一致率為68.5%。醫(yī)生對(duì)合理性判斷的一致性情況見(jiàn)表3。

表3 醫(yī)生對(duì)合理性判斷的一致性
由前文的判斷原則,若被醫(yī)生判斷為“費(fèi)用量合理”且“費(fèi)用構(gòu)成合理”,則認(rèn)為該條數(shù)據(jù)合理;若被醫(yī)生判斷為“費(fèi)用量不合理”或“費(fèi)用構(gòu)成不合理”,則認(rèn)為該條數(shù)據(jù)不合理。可得費(fèi)用量與費(fèi)用構(gòu)成綜合后的醫(yī)生判斷情況。進(jìn)行費(fèi)用合理性綜合判斷的腦梗死后遺癥數(shù)據(jù)共計(jì)2352條。其中,被標(biāo)記為不合理的609條,總費(fèi)用最小值240.4元,最大值282703.2元,住院總費(fèi)用中位數(shù)(四分位數(shù)間距)為40499.6(53507.8)元;被標(biāo)記為合理的1743條,總費(fèi)用最小值162.5元,最大值361936.8元,住院總費(fèi)用中位數(shù)(四分位數(shù)間距)為38090.7(49074.1)元。合理性綜合判斷情況見(jiàn)表4。

表4 合理性綜合判斷情況
考慮醫(yī)生人數(shù)及工作量,本研究為驗(yàn)證模型的可推廣性,隨機(jī)抽取500條數(shù)據(jù),分別進(jìn)行人工和機(jī)器的二輪判斷。邀請(qǐng)5位未參與第一輪標(biāo)記的臨床醫(yī)生對(duì)其進(jìn)行人工判別,另用主動(dòng)學(xué)習(xí)后的機(jī)器學(xué)習(xí)模型進(jìn)行機(jī)器判別,將兩者的判別結(jié)果進(jìn)行比對(duì)。500條數(shù)據(jù)中,420條數(shù)據(jù)判別結(jié)果一致,一致率達(dá)84.0%。
4.住院費(fèi)用合理性判別模型構(gòu)建及影響因素分析
應(yīng)用決策樹(shù)對(duì)住院費(fèi)用影響因素重要性進(jìn)行分析。結(jié)果顯示:康復(fù)費(fèi)、并發(fā)癥數(shù)量、住院天數(shù)等是影響腦梗死后遺癥費(fèi)用數(shù)據(jù)合理與否的重要因素。其中,特征重要程度(feature_importances_)的數(shù)值越高,表明該特征相對(duì)模型越重要[7]。本次模型擬合共納入特征重要程度高于0.03的9個(gè)特征。其余特征在加入模型后,模型效能出現(xiàn)下降,準(zhǔn)確率降低或假陽(yáng)性率升高,因此予以剔除。
其中,“入院病情”“有無(wú)手術(shù)”“血液和血液制品類”字段的特征重要程度均為0。經(jīng)觀察,所有數(shù)據(jù)的上述三類字段均一致,故而出現(xiàn)特征重要程度為0的情況。模型特征重要程度見(jiàn)表5。

表5 模型特征重要程度
5.模型完善與評(píng)價(jià)
基于醫(yī)保需求,本研究確定模型完善方向,著重于模型準(zhǔn)確率的增高與假陽(yáng)性率的降低(本研究以“不合理”為陽(yáng)性,“合理”為陰性)。分別繪制“數(shù)據(jù)量-模型準(zhǔn)確率、假陽(yáng)性率趨勢(shì)圖”和“特征量-模型準(zhǔn)確率、假陽(yáng)性率趨勢(shì)圖”,分別見(jiàn)圖2、圖3。每個(gè)數(shù)據(jù)點(diǎn)建模10次,剔除兩端極值取平均,消除隨機(jī)性造成的誤差;同時(shí),在特征量趨勢(shì)圖中,將特征逐一投入,結(jié)合醫(yī)學(xué)規(guī)律與模型敏感程度不斷調(diào)整順序。

圖2 數(shù)據(jù)量-模型準(zhǔn)確率、假陽(yáng)性率趨勢(shì)圖

圖3 特征變量-模型準(zhǔn)確率、假陽(yáng)性率趨勢(shì)圖
在現(xiàn)有數(shù)據(jù)量和特征量的基礎(chǔ)上。在不考慮假陽(yáng)性率的情況下,模型準(zhǔn)確率能夠達(dá)到90%以上;在考慮假陽(yáng)性率穩(wěn)定在最低3.2%的情況下,模型準(zhǔn)確率能夠達(dá)到80.9%。其中,醫(yī)生與醫(yī)生的判斷一致率達(dá)84%。可以證明該決策樹(shù)模型相對(duì)合理。同時(shí)模型中,節(jié)點(diǎn)的信息熵普遍低于0.3,表明信息增益較大,模型不確定性小,也可以證明該決策樹(shù)模型相對(duì)合理。
我們將傳統(tǒng)方法與前面的分類方法進(jìn)行對(duì)比,這里我們選取兩條主疾病為腦梗死后遺癥的數(shù)據(jù)進(jìn)行比較。以傳統(tǒng)監(jiān)管標(biāo)準(zhǔn),即護(hù)理院日均費(fèi)用不得超過(guò)400元/天,此時(shí)數(shù)據(jù)1為合理,數(shù)據(jù)2為不合理。但基于我們的費(fèi)用合理性判別模型,綜合了并發(fā)癥數(shù)量、住院天數(shù)等基本信息后,合理性結(jié)果完全相反。進(jìn)一步觀察可以發(fā)現(xiàn),研究所得模型明顯比傳統(tǒng)方法更能說(shuō)明問(wèn)題。對(duì)于數(shù)據(jù)1,雖然日均費(fèi)用未超過(guò)400元/天,但諸多單項(xiàng)費(fèi)用為0,不符合合理情況;而對(duì)于數(shù)據(jù)2,雖然日均費(fèi)用超過(guò)400元/天,但經(jīng)查病人的并發(fā)癥數(shù)量達(dá)到了11種,病情嚴(yán)重,確實(shí)有合理的依據(jù)。傳統(tǒng)一刀切的方法明顯無(wú)法辨別這類數(shù)據(jù)的合理性。數(shù)據(jù)1、數(shù)據(jù)2的各項(xiàng)費(fèi)用情況及兩種方式判別結(jié)果見(jiàn)表6。

表6 數(shù)據(jù)選取
6.不合理類型臉譜
基于最終的合理性判別模型,本研究嘗試對(duì)常見(jiàn)的護(hù)理院腦梗死后遺癥疾病的不合理類型進(jìn)行臉譜畫(huà)像。常見(jiàn)不合理臉譜歸為以下三類,具體見(jiàn)圖4~6。機(jī)構(gòu)名稱等敏感信息已遮蓋。
1.監(jiān)管建議
針對(duì)研究結(jié)果反饋的情況,本研究對(duì)多家不合理數(shù)據(jù)較多的護(hù)理院進(jìn)行了實(shí)地調(diào)研,為醫(yī)保管理部門(mén)提出以下需要關(guān)注討論的問(wèn)題。
(1)重點(diǎn)費(fèi)用特征
結(jié)合機(jī)器學(xué)習(xí)模型與人工臉譜歸納,醫(yī)保管理部門(mén)應(yīng)著重對(duì)護(hù)理院住院費(fèi)用中的康復(fù)費(fèi)、治療費(fèi)、西藥費(fèi)等進(jìn)行重點(diǎn)監(jiān)管核查。
(2)病案首頁(yè)信息質(zhì)量
在調(diào)研過(guò)程中,發(fā)現(xiàn)多家護(hù)理院的病案首頁(yè)數(shù)據(jù)存在分列錯(cuò)位等數(shù)據(jù)質(zhì)量問(wèn)題,建議加強(qiáng)對(duì)病案首頁(yè)數(shù)據(jù)收集的質(zhì)量控制。
(3)機(jī)構(gòu)端數(shù)據(jù)接口
在調(diào)研過(guò)程中,發(fā)現(xiàn)多家護(hù)理院存在醫(yī)保數(shù)據(jù)上傳接口不完備的情況,包括單項(xiàng)費(fèi)用字段細(xì)化程度不一、上傳費(fèi)用字段不同等問(wèn)題。建議統(tǒng)一第三方信息公司對(duì)數(shù)據(jù)上傳接口搭建的規(guī)范,保證相關(guān)數(shù)據(jù)的可用性、有效性。
2.模型實(shí)際應(yīng)用
為將本研究的成果更好地投入實(shí)際應(yīng)用,向醫(yī)保決策者提供切實(shí)可用的工具,本文基于研究所構(gòu)建的判別模型,進(jìn)行了完整的系統(tǒng)設(shè)計(jì)。具體設(shè)計(jì)見(jiàn)圖7。

圖4 不合理類型(1)

圖5 不合理類型(2)
總的來(lái)說(shuō),判別模型對(duì)費(fèi)用數(shù)據(jù)合理性給出判斷,醫(yī)保對(duì)聚類后的不合理數(shù)據(jù)進(jìn)行二次判斷,醫(yī)院對(duì)二次判斷仍不合理數(shù)據(jù)進(jìn)行解釋,專家對(duì)解釋進(jìn)行核查。如若解釋可接受,則對(duì)數(shù)據(jù)標(biāo)簽進(jìn)行更新,并重新投入模型中,從而達(dá)到不斷完善數(shù)據(jù)及模型的目的。
3.模型不足及推廣
本研究的模型構(gòu)建方法,雖然能夠更準(zhǔn)確地甄別費(fèi)用數(shù)據(jù)的合理性,但也需要較大的審核人力進(jìn)行假陽(yáng)病例的篩查。按現(xiàn)有正負(fù)類別比例6∶1,假使每年全市病案數(shù)據(jù)量為300萬(wàn),仍需借助系統(tǒng)人工審核7萬(wàn)左右假陽(yáng)病例。因此模型仍需要不斷完善。通過(guò)上文模型準(zhǔn)確率、假陽(yáng)性率趨勢(shì)圖,可以明顯發(fā)現(xiàn),如果數(shù)據(jù)量不斷增大,有效特征不斷增多,模型的效能仍有提升的空間。
理論上,對(duì)于分類模型,Vapnik有經(jīng)典結(jié)論,證明了如果想要構(gòu)建一個(gè)強(qiáng)壯的機(jī)器學(xué)習(xí)模型,我們應(yīng)該同時(shí)需要較大的數(shù)據(jù)量和特征量[8]。Jason Brownlee認(rèn)為訓(xùn)練機(jī)器學(xué)習(xí)模型需要多少數(shù)據(jù)要根據(jù)很多因素,其中要考慮到類的數(shù)量、輸入特征的數(shù)量以及模型參數(shù)的數(shù)量。非線性算法往往需要更多數(shù)據(jù)。一般把復(fù)雜的機(jī)器學(xué)習(xí)算法稱為非線性算法,它們可以學(xué)習(xí)輸入和輸出特征之間復(fù)雜的非線性關(guān)系,但也需要更多的訓(xùn)練數(shù)據(jù)。Jason認(rèn)為,對(duì)于簡(jiǎn)單的線性算法,每個(gè)類需要幾百個(gè)訓(xùn)練樣本,對(duì)于復(fù)雜的非線性算法,每個(gè)類需要幾千個(gè)訓(xùn)練樣本[9]。

圖6 不合理類型3

圖7 系統(tǒng)設(shè)計(jì)
因而模型完善方向可歸納如下。
(1)細(xì)化病案首頁(yè)信息特征,適量增加特征數(shù)量;
(2)不斷收集病案首頁(yè)數(shù)據(jù),增加模型數(shù)據(jù)量;
(3)通過(guò)模型判別-醫(yī)院解釋-醫(yī)保評(píng)判-數(shù)據(jù)反饋的完整系統(tǒng),形成良性反饋。
本研究顯示,對(duì)于護(hù)理院腦梗死后遺癥疾病,上述方法學(xué)可有效監(jiān)管判別其住院費(fèi)用合理性。經(jīng)嘗試,該套方法學(xué)也可應(yīng)用于其他疾病的監(jiān)管,并可進(jìn)一步推廣至其他基層醫(yī)療機(jī)構(gòu)或二、三級(jí)醫(yī)院。本研究的方法也為行政部門(mén)制定適合腦梗死后遺癥等疾病按診斷相關(guān)分組預(yù)付費(fèi)方式、降低醫(yī)療費(fèi)用提供參考,有助于提高醫(yī)保服務(wù)質(zhì)量與管理效率,遏制醫(yī)保基金的不合理消耗,使得醫(yī)保、醫(yī)療機(jī)構(gòu)、患者各方效益最大化。
中國(guó)衛(wèi)生統(tǒng)計(jì)2022年1期