999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

BHS-CTPN:一種自然場景下的化驗單文字檢測方法

2022-10-10 09:25:38黃慶浩呂學強游新冬
計算機應用與軟件 2022年9期
關鍵詞:文本區域檢測

黃慶浩 呂學強 何 健 游新冬

1(北京信息科技大學網絡文化與數字傳播北京市重點實驗室 北京 100101) 2(北京洛奇智慧醫療科技有限公司 北京 100015) 3(清華大學互聯網產業研究院 北京 100084)

0 引 言

國家統計局2018年的統計數據顯示中國人口數量已接近14億[1]。龐大的人口基數為國家的繁榮強盛提供豐富的人力資源,但隨之而來出現的問題也越來越多,其中看病難已經成為困擾人民群眾生活的一個很普遍的問題,并引起了政府的高度重視。同年,中國就醫人次突破83.1億,平均每人就醫次數接近7次,每次就醫患者需要做多個化驗檢測,并產出大量的化驗單,極大地增加了醫生的工作量[2]。患者數量龐大,醫生數量有限,患者能夠及時進行化驗檢測,并得到化驗結果,但是不能及時對化驗單進行解讀,最終導致病情延誤。這也是近幾年醫患糾紛問題時常發生的主要原因。

近年來,人工智能的發展為智慧醫療提供了強大的技術支持[3],以計算機視覺為基礎的化驗單解讀能夠有效地提高就醫效率,減緩就醫壓力。自2014年起,R-CNN[4]深度學習算法在目標檢測領域取得優異的成績,使整個學術界以及工業界掀起了一股人工智能的浪潮,各類檢測算法應運而生。在現代生產活動中,機器大有取代人類完成復雜繁重的工作之勢,智慧醫療的出現能夠很好地緩解看病難的問題[5]。

基于人工智能的化驗單智能解讀可以把患者孤立的信息之間建立聯系,同時以更加直觀的方式展現給患者。患者不僅能夠充分了解自身的病情,而且能夠正確地選擇就醫,提高就醫效率,減緩就醫壓力[6]。BHS-CTPN方法旨在研究如何對化驗單中的文本位置進行準確的檢測和定位,其檢測的精度對后期OCR文字識別和準確地與后臺醫學知識數據進行關聯奠定了堅實的基礎,是化驗單智能解讀的重要前期工作。

1 相關研究

通過查閱相關資料,印刷體文字檢測準確率達到了99%以上,但是盡管如此,對于自然場景中化驗單的文字檢測而言,仍然是一個有待突破的任務,其主要原因是自然場景中的圖像受背景多樣性、光照強度等多種因素的影響,給自然場景中的文字檢測帶來了很大的困難。

2011年,Wang等[7]提出了一種基于滑動窗口機制,使用隨機森林分類器和Hog[8]特征的自然場景文字檢測算法。該算法是使用多尺度滑動窗口在檢測圖像上進行自上而下、自左到右的滑動,滑動中產生的區域作為候選字符區域。對于每一個候選字符區域,進行特征提取,然后對這些候選區域特征訓練分類器進行分類。該方法的缺點是得到的候選區域數量巨大,檢測效率低。

2010年,Epshtein等[9]提出了一個使用筆畫寬度變換算法(SWT),通過提取出邊緣圖像平行的邊緣生成筆畫寬度圖。但SWT算法的缺點顯而易見,通常是基于邊緣圖像質量高的圖片做檢測。2014年,Yin等[10]提出了一種基于最大穩定極值區域算法(MSER)的文字檢測算法來提取字符候選區域。該算法開始應用MSER算法來生成大量的候選字符區域,然后定義一些既定的規則來篩選剔除掉部分候選字符區域負樣本,接著又使用聚類算法將剩下的候選字符區域聚集成連通的文本區域,之后對這些文本區域的單個字符訓練分類器進行分類,篩選剔除掉部分非字符區域,從而得到文本檢測的目標區域。基于MSER算法的缺點是對于復雜的場景檢測效果不盡如人意。

近年來,基于深度學習的檢測算法不斷涌出,如Faster-RCNN[11]、SSD[12]、YOLO[13]等,但這些檢測方法對于不定長文本序列檢測效果欠佳。Tian等[14]提出了CTPN網絡用于自然場景下文本檢測。CTPN不同于RPN網絡,CTPN加入了雙向LSTM獲取時序方向信息,使得模型可以序列性地預測文本小片段。CTPN網絡對于不定長的文本序列,是將文本分成若干個小片段,然后將文本行的檢測轉化為小片段的檢測,最后利用規則將屬于同一水平行的小片段組合成文本行,化繁為簡。CTPN能夠很好地解決自然場景下不定長文本序列檢測問題,但存在的最大問題是對于復雜場景和傾斜文本檢測效果欠佳。

綜上所述,對于自然場景下化驗單文字檢測并去除敏感區域,目前存在的檢測方法都存在一定的缺陷,滑動窗口和MSER算法檢測效率極慢,適應場景簡單,Faster-RCNN、SSD、YOLO等算法對不定長文本序列檢測效果欠佳,CTPN算法對復雜場景和傾斜文本檢測效果達不到預期要求。本文提出了BHS-CTPN:一種自然場景下的化驗單文字檢測方法。首先提出了一系列預處理方法,針對洛奇智慧醫療實驗室特有的真實數據集,對化驗單進行矯正、切割、增強處理。預處理能夠很好地解決傾斜問題、切除敏感信息問題、光照不均勻、字跡模糊等問題。然后提出了改進的CTPN網絡模型,引入多尺度卷積核和對卷積核進行拆分,不僅能加速網絡訓練,而且能夠使網絡提取特征更加豐富。根據洛奇智慧醫療實驗室特有的真實數據集設定相對應的Anchor,使網絡預測的文本框位置更貼切真實文本框位置。

2 方法設計

本文主要分四步對自然場景下化驗單的文字區域進行檢測:第一步圖像矯正,將傾斜的圖片矯正為水平方向。第二步圖像切割,切除脫敏信息區域,只保留待檢測區域。第三步使用前景提取和二值化進行圖像增強。第四步訓練基于改進的CTPN網絡。整體流程如圖1所示。

圖1 整體流程框架

2.1 基于BRISK算法的圖像矯正

自然場景下化驗單并不是水平拍攝的,存在不同程度的傾斜,為了解決這個問題,引用了BRISK[15]角點檢測匹配算法,使最終的化驗單都呈現水平方向。BRISK角點檢測匹配算法具有旋轉不變形、尺度不變形,有較好的魯棒性,性能極為出色。BRISK角點檢測匹配算法主要包含三步:角點檢測、特征描述、特征匹配;主要利用匹配的特征角點,構建映射關系,然后通過模板匹配還原任意角度拍攝的化驗單。

首先,構建尺度空間金字塔,構造n個2倍下采樣層和n個1.5倍下采樣層。接下來通過FAST5-8和FAST9-16對2n+1幅圖進行特征點檢測,選取26鄰域FAST的得分最大值作為特征點。然后對位置方向進行二維二次函數插值,再對尺度方向進行一維插值,得到比較精確的特征點。特征點的描述采用均勻采樣模式,為了解決旋轉不變性,需要對特征點周圍的采樣區域進行旋轉到主方向,得到新的采樣區域。最后通過計算特征描述的漢明距離進行特征點匹配。

根據化驗單表頭不變性進行矯正設計,使用場景化驗單與模板化驗單進行特征匹配,最終可以得到場景化驗單到模板化驗單的變化對應關系,通過變化軌跡構建擬合函數,如式(1)所示,其中:k表示比例系列,x表示場景化驗單特征點對應的坐標位置,y表示模板化驗單特征點對應的坐標位置。通過使用擬合的函數,可以將任意角度拍攝的化驗單進行矯正處理。

(1)

2.2 基于改進的霍夫直線檢測

在化驗單檢測過程中,化驗單中可能會包含用戶的一些敏感信息。為了脫敏,基于改進的霍夫變換直線檢測算法[16],剔除敏感信息部位,保留必要的檢測區域。霍夫變換直線檢測,是將圖像空間映射到參數空間,圖像空間中的點與參數空間中的直線是一一對應的。因此檢測圖像空間中的直線可以轉換為檢測參數空間中直線的交點。霍夫變換過程如圖2所示。

圖2 霍夫變換過程

在實際應用中,當圖像空間上的直線垂直x軸時,無法映射到參數空間。采用極坐標方式作為參數空間:

r=xcosθ+ysinθ

(2)

由于圖像的復雜性,圖像中的直線并不在同一水平線上。通過霍夫直線檢測,會得到許多小的直線線段,這些小線段分布在直線的兩側。采用水平掃描,線段覆蓋的思想來拼接線段,為了避免傾斜問題,設定線段上下k個像素波動,統計每一行像素覆蓋的情況,最大覆蓋行即為直線行。將檢測的若干條水平直線進行排序,最大間隔的相鄰直線之間即為待檢測區域,最后對化驗單進行裁切,剔除敏感區域,保留待檢測區域。

2.3 基于Sauvola算法的圖像增強

自然場景下化驗單數據一般是通過手機拍照,其中存在了很多干擾因素,例如光照強度、手機像素、拍攝抖動等影響,會導致拍出的照片出現不同程度的噪聲。同時還存在字跡不清晰、化驗單表面污漬等問題。這些問題極大地干擾后期工作的進行,因此需要對圖像進行增強,從而減少或消除這些干擾因素對文字檢測的干擾[17]。故提出了對不均勻光照下化驗單圖像進行二值化。

首先進行前景提取,通過預估出原圖的背景圖與原圖做差得到前景圖。通過選取某點鄰域最高亮度的n個點,去掉最大值,剩余值的平均值設為該點的背景像素值。對于深色背景,若直接利用原圖減去背景,會造成提取的文本字跡模糊,根據背景像素值來提升文本對比度。s(x,y)表示原圖像素值,p(x,y)表示背景像素值,e(x,y)表示圖像增強后的像素值,k表示對比度放大倍數。圖片背景顏色越深,那么k的值對應就越小。其中B1=2.5,B2=1.0,分段函數如下:

(3)

增強后的圖像像素值如下:

e(x,y)=255-k(p(x,y)-s(x,y))

(4)

通過上述步驟得到增強后的圖像,然后對圖像進行二值化,選用Sauvola算法[18]進行局部閾值二值化,以某像素點為中心,根據當前像素點鄰域內的灰度均值與標準方差來動態計算該像素點的閾值。m(x,y)表示均值,s(x,y)表示標準差。閾值T(x,y)計算如式(5)所示,其中R=128表示8位的灰度圖像,k∈(0,1)表示修正參數。

(5)

2.4 改進的CTPN網絡模型

通過上述一系列預處理步驟,可以得到一張方便網絡處理的化驗單,接下來需要對化驗單的文本位置進行檢測。本文提出了一種改進的CTPN文本檢測模型,主要在以下三個方面進行了改進:(1) 特征提取時卷積核的設計方面。(2) anchor(初始區域建議窗口)的設定方面。(3) 文本框合并方面。

CTPN網絡使用VGG網絡作為骨干網絡進行特征提取[19]。通過修改VGG網絡來提取更加豐富的圖像特征。首先引入1×1卷積核,主要用來調節通道數,對不同通道上的像素進行線性組合,達到降維的效果。其次引入多尺度卷積核,對于不同尺度的卷積核其感受野不同,提取特征的著重點也不同,使最終提取的特征更加豐富。最后是對n×n卷積核進行1×n和n×1拆分,達到同樣的提取效果,但是參數量和計算量大幅降低。

統計分析洛奇實驗室提供的真實化驗單數據,可以將不定長文本檢測轉化為固定寬度的anchor進行預測,化繁為簡。根據真實場景下的化驗單每個字符的寬度約為16個像素,將anchor寬度設置為16像素;通過不同角度和距離遠近拍攝發現,可以將anchor的高度設置為16~198像素之間,每個anchor高度計算公式如式(6)所示,系數k=0.7。

(6)

通過特征提取,anchor預測,可以得到若干個文本塊,接下來需要對文本塊進行合并得到文本線。主要思想是將相鄰的兩個文本塊進行合并,直至無法合并為止。結合實際數據,兩個文本框合并的條件是先將文本框按得分排序,然后從最大得分的文本框向前和向后搜索32像素,尋找范圍內得分最大的文本框,進行合并操作,合并時同時要求兩文本框的垂直重復率大于0.7。重復上述操作直至得到最后的文本檢測框。

模型采用的損失函數由三部分構成:第一部分是二分類(文本/非文本),使用交叉熵損失函數;第二部分垂直方向偏移量回歸,使用smooth L1損失函數;第三部分為水平方向偏移量回歸,使用smooth L1損失函數。

(7)

模型整體結構如圖3所示,第一步是淺層特征提取,第二步使用改進的VGG網絡進行深度特征提取,第三步使用BiLSTM進行位置關聯,第四步通過設定anchor進行位置預測,并通過NMS對文本框進行過濾。最后構造文本線得到最終的預測結果。

圖3 模型結構圖

3 實 驗

3.1 數據和評價指標

由洛奇智慧醫療科技有限公司提供真實數據5 000幅,后期通過檢驗指標項進行數據合成,盡可能多地擴充數據集,使數據集覆蓋全部檢測項目,數據最終擴充至10 000幅。訓練集、驗證集、測試集的比例按照6 ∶2 ∶2的比例劃分,化驗單數據樣例如圖4所示。

圖4 化驗單數據樣例

使用準確率(Precision)、召回率(Recall)和F-Measure(F1值)對模型做性能評估。TP表示正類判斷成正類的數目,TN表示負類判斷成負類的數目,FP表示負類判斷成正類的數目,FN表示正類判斷成負類的數目。正確率計算公式如下:

(8)

召回率計算公式如下:

(9)

F1值計算公式如下:

(10)

3.2 實驗細節

(1) 化驗單預處理。針對自然場景下化驗單擺放多樣性、光線復雜以及敏感信息等問題,需要對化驗單進行預處理。首先對化驗單進行矯正處理,利用BRISK算法進行角點檢測和角度匹配,計算映射關系,將化驗單進行矯正。然后基于改進的霍夫直線檢測算法,去除敏感信息區域,保留檢驗項的檢測區域。最后利用背景差分法和Sauvola算法進行圖像增強。預處理流程如圖5所示。

圖5 預處理流程

(2) 實驗設置。實驗環境配置如下:Intel Xeon E5-2603 v4處理器,64 GB內存,Nvidia Tesla k80顯卡,操作系統為Ubuntu 16.04.10,開發語言為Python3.6.8,VGG和BiLSTM中所有參數都采用正態分布進行隨機初始化,為了提高模型訓練速度和最優效果,每10個epoch學習率衰減為原來的一半。詳細參數如表1所示。

表1 模型參數

3.3 實驗結果

(1) 定量分析。將提出的BHS-CTPN方法分別與Hog+SVM、MSER、Faster-RCNN、YOLO、SSD、CTPN等方法在洛奇智慧醫療實驗室提供的真實化驗單數據集上進行了對比實驗,結果如表2所示。與CTPN模型相比,準確率、召回率、F1值分別提升了8%、10%、9%,FPS增加了16,表明修改后的網絡提取的特征更加豐富預測文本框的位置更加準確。與改進的CTPN模型但沒有預處理操作的方法相比,準確率、召回率、F1值分別提升了4%、6%、5%,表明一系列預處理操作能有效地提高檢測的精度。通過本組實驗的對比和這些指數的提升,可以有效地證明BHS-CTPN模型的有效性和優越性。

表2 學術界檢測結果對比

如表3所示,為了進一步證明BHS-CTPN方法的有效性,本文還分別與目前在中文OCR檢測領域知名的三家企業提供的API進行了對比,分別是百度、騰訊、華為。通過調用相應的API接口,與最好性能的華為OCR 接口相比,準確率、召回率、F1值分別提升了6%、3%、5%,但FPS卻減少了39,主要是因為硬件差異和使用更復雜的網絡結構。結果表明BHS-CTPN方法檢測效果值得肯定,以稍慢的效率換取更高的檢測精度。

表3 行業界檢測結果對比

(2) 定性分析。在洛奇智慧醫療實驗室提供的真實化驗單數據集上選取一張最具代表性的化驗單,它包含箭頭、密集間距、多行對應等復雜情況。檢測結果對比如圖6所示,左側為BHS-CTPN方法進行檢測的結果,檢測結果全部正確。右側百度API接口檢測結果會出現一些箭頭和檢驗項漏框的現象,騰訊API接口檢測結果同樣會出現箭頭漏框的現象,華為API接口檢測結果相對好些,但是會存在粘連的問題。CTPN檢測結果會出現一些框的交叉現象,傳統方法和常見的目標檢測方法效果則有較大問題,漏框、錯框現象嚴重。通過定性分析進一步體現了BHS-CTPN方法的有效性和優越性。

圖6 檢測結果對比

4 結 語

針對傳統文字檢測方法和基于深度學習的文字檢測方法在自然場景下化驗單檢測效果欠佳的情況下,提出了一種自然場景下的化驗單文字檢測方法——BHS-CTPN,主要包括一系列預處理方法和改進的CTPN模型。在預處理方面,引入了針對性的預處理,進行圖像矯正、敏感信息去除和圖像增強。在模型改進方面,使用不同尺度的卷積核以及對卷積核進行拆分,并且根據真實數據設定相應的anchor。我們進行了大量的實驗,分別與傳統方法、基于深度學習的方法,以及與知名企業產品進行對比。實驗證明,提出的BHS-CTPN方法在特定的應用場景下具有明顯的優勢,對構建智慧醫療、檢驗結果解讀一體化具有重要的作用。但BHS-CTPN方法還有一些不足之處,如化驗單折疊變形等問題。在未來的工作中,我們將從兩個方面來提升模型檢測準確率,一方面將進行數據增強,減少折疊噪聲對檢測結果的影響;另一方面將增加數據集的多樣性,使數據集覆蓋折疊變形等情況。

猜你喜歡
文本區域檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
小波變換在PCB缺陷檢測中的應用
關于四色猜想
分區域
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
基于嚴重區域的多PCC點暫降頻次估計
電測與儀表(2015年5期)2015-04-09 11:30:52
主站蜘蛛池模板: 在线欧美日韩国产| 手机在线免费不卡一区二| 97se亚洲综合在线天天| 理论片一区| 高潮毛片免费观看| 日本一区中文字幕最新在线| 亚洲欧洲综合| 国产亚洲精品无码专| 亚洲精品成人福利在线电影| 久久国产毛片| 国产a网站| 在线观看国产精品第一区免费| 99无码中文字幕视频| 福利国产微拍广场一区视频在线| 欧美日韩动态图| 久爱午夜精品免费视频| 亚洲精品中文字幕午夜| 思思99热精品在线| 国产女人18毛片水真多1| 精品99在线观看| 久久一日本道色综合久久| 国内精品一区二区在线观看| av在线5g无码天天| 欧美亚洲一区二区三区导航| 99伊人精品| 国产视频入口| 在线一级毛片| 国产精品任我爽爆在线播放6080| 亚洲人人视频| 午夜福利亚洲精品| 午夜毛片免费看| 日本黄色a视频| 最新国语自产精品视频在| 中文字幕资源站| 国产xxxxx免费视频| 亚洲天堂视频在线观看| 老色鬼久久亚洲AV综合| 人妻丝袜无码视频| 91av国产在线| 国产精品精品视频| 欧美色综合久久| 国产欧美在线视频免费| 国产成人无码AV在线播放动漫| 国产丰满大乳无码免费播放 | 中文字幕在线视频免费| 日韩在线永久免费播放| 露脸真实国语乱在线观看| 日韩精品资源| 亚洲无码高清一区| 国产精品嫩草影院av| 九九热这里只有国产精品| 國產尤物AV尤物在線觀看| 免费无码在线观看| 欧美亚洲一区二区三区导航 | 91在线播放国产| 国产主播喷水| 久草视频中文| 久久婷婷国产综合尤物精品| 伊人久久青草青青综合| 看国产毛片| 国产女人爽到高潮的免费视频| 国产国语一级毛片在线视频| 成人在线观看一区| 国产激情无码一区二区免费| 国产精品3p视频| 国产免费人成视频网| 国产精品欧美激情| 国产jizzjizz视频| 国产精品久久自在自线观看| 91欧美在线| a毛片在线| 久久人人97超碰人人澡爱香蕉| 97在线碰| 26uuu国产精品视频| 亚洲色图欧美一区| 26uuu国产精品视频| 亚洲中文字幕97久久精品少妇| 亚洲小视频网站| 91破解版在线亚洲| 欧美午夜理伦三级在线观看 | 一区二区无码在线视频| 青青草国产一区二区三区|