999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種醫療票據圖像數據結構化方法及系統

2023-05-14 18:57:50黃葉玨褚一平
計算機時代 2023年5期

黃葉玨 褚一平

摘? 要: 提出一種醫療票據圖像數據結構化方法,針對醫療票據圖像,設計了紅章去除、文字定位、文字識別和費用明細項目數據結構化等方法。在此基礎上,設計了一套醫保零星報銷系統,實現醫療票據從圖像掃描、OCR識別、醫保目錄匹配到數據入庫自動化操作。經多個省市使用,累計處理10萬份票據,使用該系統后報銷票據每份處理時間由原先的2小時縮短到15分鐘。

關鍵詞: 醫療票據圖像; 紅章去除; 文字定位; 文字識別

中圖分類號:TP391? ? ? ? ? 文獻標識碼:A? ? 文章編號:1006-8228(2023)05-99-04

Data structuring method and system for medical bill image

Huang Yejue1, Chu Yiping2

(1. Zhejiang Institute of Economics and Trade, Hangzhou, Zhejiang 310018, China; 2. Hangzhou Mass Information Technology Co., Ltd)

Abstract: In this paper, we propose a medical bill image data structuring method, which is designed for medical bill images, including red stamp removal, character positioning, character recognition and expense item data structuring. Based on this, a medical insurance sporadic reimbursement system is designed to realize automated operation of medical bills such as image scanning, OCR recognition, medical insurance catalog matching and data warehousing. It has been used in many provinces and cities, and 100,000 bills have been processed in total. The processing time of each reimbursement bill has been shortened from 2 hours to 15 minutes after using this system.

Key words: medical bill image; red stamp removal; character positioning; character recognition

0 引言

我國在跨地區就醫的事情上,要實現異地醫保直接結算還需要走較長的路。現今,異地就醫的醫保結算流程由患者先提交醫保經辦部門相關報銷憑證,醫保經辦人員人工審核費用明細項目,確定各項報銷比例,并按報銷大類名稱錄入到系統中。由于報銷時費用明細眾多,花費時間巨大,手工計算又容易產生錯誤,所以醫保主管部門開始要求把費用明細項目也錄入到系統中,把報銷流程制度化、系統化和透明化,以減少出錯概率。但是如此多的費用明細錄入到系統中,目前的人手根本無法用手工完成。

光學字符識別(OCR)技術是圖像處理領域中一項歷史悠久的技術,近幾年隨著深度學習技術的發展,OCR技術獲得了長足的進步,不但識別準確率大幅提高,而且對各種環境的應用能力也大大增強。采用OCR技術替代人工對醫療票據圖像中的費用明細進行錄入,可以大大減輕工作量,提高錄入效率。由于醫療票據圖像存在一定的特殊性,采用通用的OCR引擎無法取得高識別準確率。本文提出了一種醫療票據圖像數據結構化方法,針對醫療票據圖像進行專門的優化,實現對醫療票據圖像數據的檢測、識別和版面結構化,使得結構化的費用明細數據項可以直接入庫。

本文提出的醫療票據圖像數據結構化方法的貢獻如下:①針對醫療票據圖像中存在印章,影響文字的檢測和識別效果,提出了一種紅章去除方法;②針對醫療票據中大量存在容易漏檢的短數字問題,提出一種改進的方法;③針對通過OCR不能很好識別醫療票據中醫學術語的問題,通過構造專門的數據集對模型進行微調;④針對醫療票據數據,提出了一種版面結構化方法,提取費用明細中項目名稱、數量、單價和金額這些結構化的數據。

1 醫療票據圖像數據結構化方法

醫療票據圖像數據的結構化方法由圖像預處理、文字檢測、文字識別和費用明細結構化四個部分組成。

1.1 醫療票據圖像中的紅章去除方法

很多醫療票據都有紅章,而且這些紅章一般會蓋在文字上。如果不對醫療票據圖像中的紅章進行處理,會影響OCR識別效果。醫療票據圖像中文字一般呈黑色或者深色,而紅章是鮮艷的紅色。觀察圖像紅色通道上的直方圖可以發現,圖像中的常規文字信息與紅章信息分布直方圖的兩端,所以可以通過分割的方法把紅章去除。令[H]為醫療票據圖像紅色通道的直方圖,對應的累積直方圖可以通過下式計算:

[Γi=Γi-1+Hi]? ⑴

其中,[Γ0=0],[0≤i≤255]。接著可以在累積直方圖[Γ]上搜索分割的閾值:

[th=argmin Γi+1-Γi-1]? ⑵

得到分割閾值[th]之后,則逐像素掃描醫療票據圖像,如果當前像素的紅色分量值大于閾值[th],則令該像素的三通道分量都為255。處理完所有像素之后,即可得到去除紅章的醫療票據圖像(圖1)。

1.2 醫療票據圖像文字定位方法

醫療票據中,版面上會出現很多單個字符,比如數量那一列中,存在很多單獨的“1”。考慮到標注成本,目前通用的OCR商業引擎都采用單詞級別文字定位方法[1,2]。但是這些單詞級別文字定位方法對醫療票據中單獨數字的漏檢率非常高。為了解決這個問題,本文設計了一種基于字符級別的文字定位方法。受字符文字定位方法CRAFT算法[3]的啟發,采用高斯熱力圖來表示單個字符的標簽。為了提高運行速度采用MobileNetV3網絡[4]作為模型的編碼網絡,解碼網絡由4層解碼模塊組成,每層解碼模塊先對上一層解碼模塊的輸出作線性插值進行上采樣,再和同一層的編碼網絡的輸出進行通道合并,再把合并的結果輸入到由兩個卷積層構成的卷積模塊中,其輸出作為該層解碼模塊的輸出。模型采用平方損失函數進行訓練。

由于醫療票據圖像中單個字符在圖像尺寸上的占比很小,精確標注圖像中的每一個字符給標注人員帶來很大麻煩。為了解決該問題,編寫腳本工具把醫療票據圖像等分成16個圖像塊,標注人員在每個圖像塊上對每個字符進行標注,標注完成之后又通過腳本代碼把16塊的標注合成到一起。復核人員通過腳本工具把標注結果生成高斯熱力圖繪制到醫療票據圖像全圖上,以檢查標注是否準確。大約標注了3萬張各類醫療票據圖像,利用這些數據對模型進行訓練,獲得了預期的效果(圖2)。

1.3 醫療票據圖像文字識別方法

由于各地醫院打印設備各不相同,醫療票據圖像上的文字質量參差不齊,而且費用明細項目中存在很多醫學藥學專用術語,通用OCR的識別效果不是很理想。本文的文字識別模型采用典型的CRNN算法[5],主干網絡采用Resnet18網絡結構[6]。先在通用文字識別數據集上進行訓練,直至收斂,得到通用文字識別模型[ma]。

收集大約20萬張不同類型的醫療票據圖像,先用本文的文字定位方法進行文字定位,根據文字的外接包圍盒把文字切成圖像塊,并等比縮放到高度為32的圖像塊中。把該圖像塊輸入到文字識別模型[ma],得到識別結果。根據識別結果中判斷每個字符的識別置信度是否大于85%,如果是,則把該圖像塊和對應識別結果歸入數據集[A]中;否則把該圖像塊歸入數據集[B]中。用人工對數據集[B]進行標注,得到數據集[C],合并數據集[A]和數據集[C],得到最終的訓練數據集[D]。

凍結識別模型[ma]的主干網絡參數,在訓練數據集[D]上對識別模型[ma]以較小的學習率進行微調,直至收斂,得到醫療票據圖像文字識別[mb]。

1.4 醫療票據圖像數據結構化方法

醫療票據圖像數據結構化需要提取圖像中每項費用的“項目名稱”、“單價”、“數量”和“金額”,以便后繼的醫保目錄匹配和報銷比例的計算。通過觀察可以發現,“項目名稱”以中文字符為主要構成,而后三項以字符為0~9的數字、小數點和逗號分隔符構成。構建一張與醫療票據圖像同大小的字符類型掩碼圖像[M],并把所有像素值初始化為0。如圖3,根據文字識別結果的UTF-8編碼判斷字符類型,如果屬于中文,則在掩碼圖像[M]中把該字符外接包圍內的所有像素值置為128;如果字符屬于中文0~9的數字、小數點或者逗號,則在掩碼圖像[M]中把該字符外接包圍內的所有像素值置為255。

對掩碼圖像[M]作垂直投影,統計每列中像素值為128的像素個數,得到中文像素直方圖[HC]。計算直方圖[HC]極大值[mv]以及其下標[mx],令搜索閾值[t=mv/5],從下標[mx]開始分別向兩端搜索直方圖[HC],當[HC]的元素值小于閾值[t]時停止,則可以得到左邊界的下標[hl]和右邊界的下標[hr]。區間[[hl,hr]]即為“項目名稱”的左右邊界,在識別的文字內容中,搜索該區間內的關鍵字“項目名稱”,可以得到上邊界。按類似的方式,可以得到“單價”、“數量”和“金額”的左右邊界和上邊界。

對掩碼圖像[M]作水平投影,統計每行中像素值不為0的像素個數,得到中文像素直方圖[HZ]。按閾值[t=5],可以把每行文字切分開來,結合上一步切分得到的列邊界結果,就可以逐行提取“項目名稱”、“單價”、“數量”和“金額”的內容,實現數據結構化。

2 醫療票據圖像數據結構化應用系統

基于醫療票據圖像數據結構化方法為核心,結合當前醫保經辦部門的需求,設計開發了一套醫保零星報銷系統。該系統由業務受理、掃描票據、票據識別、結構化數據、醫保目錄匹配、人工審核和生成報銷清單等7個業務流程模塊組成。系統可以實現從醫保核心業務系統中接受患者報銷材料開始,輔助經辦人員完成醫療票據的掃描、自動實現醫療票據識別和數據結構化、自動實現醫保目錄匹配和報銷費用的清算、輔助審核人員對結果審核,最終生成報銷清單,上傳到醫保核心業務系統中。

該系統已在浙江、廣西、山西、湖北、黑龍江、四川、陜西和天津等省市中使用(試用),據后臺數統計,至今年以來已完成醫療票據約10萬份。據山西某地市醫保經辦人員統計,使用該系統后每份報銷單的處理時間由2小時降低到15分鐘,大大提高了業務處理的效率。報銷系統界面如圖4所示。

3 結論

本文提出了一種醫療票據圖像結構化方法,針對醫療票據圖像的特點,分別設計了醫療票據圖像預處理模塊、文字定位模塊、文字識別模塊和數據結構化模塊。根據異地醫保報銷的現狀,設計了一套醫保零星報銷系統,把本文的方法應用于該系統中,經多個省市使用(試用)反饋,取得了良好效果,大大節省了報銷處理時間。

雖然系統已經取得了很好結果,但目前設計的流程是處于醫療票據圖像質量可控的環境下,即醫療票據圖像要求經辦人員使用高速掃描儀進行掃描獲得,這就要求報銷人報銷時需跑一次經辦窗口,只能實現“最多跑一次”的目標。下一步,需要對醫療票據圖像質量檢測和多視角校正方法進行研究,以便報銷人員可以通過手機拍攝醫療票據圖像數據并提交,以實現“零跑路”的目標。

參考文獻(References):

[1] Minghui Liao, Zhaoyi Wan, Cong Yao, et al. Real-time

Scene Text Detection with Differentiable Binarization.AAAI,2020

[2] Liao, Minghui and Zou, Zhisheng and Wan, Zhaoyi and

Yao, Cong and Bai.Real-Time Scene Text Detection with Differentiable Binarization and Adaptive Scale Fusion.IEEE Transactions on Pattern Analysis and Machine Intelligence,2022

[3] Youngmin Baek, Bado Lee, Dongyoon Han, et al.

Character region awareness for text detection. IEEE/CVF Conference on Computer Vision and Pattern Recognition,2019

[4] Andrew Howard, Mark Sandler, Grace Chu, et al.

Searching for MobileNetV3. IEEE/CVF International Conference on Computer Vision (ICCV),2019

[5] Baoguang Shi, Xiang Bai, Cong Yao. An End-to-End

Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(11):2298-2304

[6] Kaiming He, Xiangyu Zhang, Shaoqing Ren, et al.

Deep Residual Learning for Image Recognition.IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2016

主站蜘蛛池模板: 精品无码一区二区三区电影| 日韩欧美国产另类| 91亚洲免费视频| 国产在线专区| 91极品美女高潮叫床在线观看| 欧美成人怡春院在线激情| 欧美日韩成人在线观看| 国产91麻豆视频| 国产人成在线视频| 思思99热精品在线| 国产一区二区在线视频观看| 欧美黑人欧美精品刺激| 丁香婷婷综合激情| 欧美另类精品一区二区三区| 免费高清毛片| 亚洲第一成网站| 国产精品吹潮在线观看中文| 免费在线不卡视频| 国产十八禁在线观看免费| 欧美成人亚洲综合精品欧美激情 | 三区在线视频| 精品国产乱码久久久久久一区二区| 自慰网址在线观看| 国产成人精品午夜视频'| h视频在线播放| 亚洲综合精品香蕉久久网| 爆操波多野结衣| 日韩精品毛片人妻AV不卡| 久久国产香蕉| 亚洲人精品亚洲人成在线| 久久中文字幕2021精品| 国产成人精品一区二区| 手机在线看片不卡中文字幕| 国产欧美视频在线| 国产在线观看成人91| 91九色最新地址| 亚洲第一区精品日韩在线播放| 亚洲无码高清一区| 亚洲成AV人手机在线观看网站| 久久福利网| 国产精品手机在线播放| 一区二区三区成人| 久久国产精品麻豆系列| a级毛片一区二区免费视频| 激情无码字幕综合| 麻豆精品久久久久久久99蜜桃| 无码中文字幕加勒比高清| 国产永久无码观看在线| 亚洲日韩欧美在线观看| 99热这里只有精品国产99| 亚洲成人网在线观看| 日韩国产精品无码一区二区三区| 伊人查蕉在线观看国产精品| 亚洲综合片| 热99re99首页精品亚洲五月天| av在线无码浏览| 98超碰在线观看| 亚洲日韩日本中文在线| 美女裸体18禁网站| 伊人色综合久久天天| 亚洲天堂网视频| 亚洲精品爱草草视频在线| 国产精品99一区不卡| 欧美激情综合一区二区| 亚洲第一香蕉视频| 99成人在线观看| 国产无码高清视频不卡| 欧美日韩激情在线| 丰满人妻中出白浆| 国产精品美乳| 国产情精品嫩草影院88av| 青青草a国产免费观看| 小说区 亚洲 自拍 另类| 五月婷婷亚洲综合| 国产又色又刺激高潮免费看| 国产一区二区色淫影院| 天天干天天色综合网| 亚洲国产成人在线| 亚洲天堂在线免费| 久久久久88色偷偷| 成人免费网站久久久| 久久永久免费人妻精品|