病例文字識別與提取方法綜述

2020-12-22 10:36:54田紅楠

機電產品開發(fā)與創(chuàng)新 2020年6期

袁偉，郭欣，田紅楠

（1.河北工業(yè)大學人工智能與數據科學學院，天津 300130；2.國家康復輔具研究中心秦皇島研究院，河北秦皇島 066000）

0 引言

病例識別說到底就是識別其中的文字信息，早期文字識別[1]的處理方法有模板匹配，幾何特征[2]等，但是以上方法的識別率都不是很高，而且費時費力。

文字識別作為圖像方面的熱點問題，引來許多學者不斷的為此研究和創(chuàng)新。隨著信息化時代的全面開展，OCR 技術在國內各行各業(yè)開始應用，比如文檔識別，路牌識別[3]等。現在基于深度學習神經網絡的文字識別與提取得到了很好地應用，因為其特征提取簡單，并且學習性強，易于訓練。在這方面做的研究包括：Utkarsh Porwal[4]等提出了DBN 來捕獲數據分布，通過使用幾個隱藏層在不同抽象級別表示數據實現脫機手寫文本識別。孫巍巍[5]提出了一種基于深度信念網絡融合模型對手寫漢字識別的方法。浙江大學黃攀[6]提出了基于CNN 和BiRNN 的結合上下文的圖像編碼方法與基于ARSG 的文字解碼方法。劉水麗[7]等人論述了基于深度學習的文字識別技術的性能優(yōu)勢以及應用場景，并和傳統(tǒng)的技術做了對比。在圖像檢索研究方面，馬冬梅[8]提出了一種基于深度學習中隱層神經網絡的圖像檢索系統(tǒng)。 Zeinab Akhbari 等人利用模糊理論[9]對彩色圖像進行文本檢測的一種改進方法，應用于車牌識別、宣傳片和視頻幀中的文本識別、彩色信封的標題識別和地址識別。

1 基于深度學習的文字檢測技術

1.1 文字檢測網絡

（1）Faster RCNN 網絡。Faster RCNN[10]網絡基于VGG16，支持任意大小圖片的輸入，主要由conv layers，RPN，Roi Pooling，Classifier 四層組成。在結構上，它已經將特征提取，候選區(qū)域提取，regression 回歸，classification 分類都集成在了一個網絡中，它引入了RPN 網絡，用于生成候選區(qū)域。 Faster RCNN 由于集成在了一個網絡中，因此在檢測的速度上有了明顯的提高。

（2）CPTN 網絡。 CPTN[11]是一種基于目標檢測方法的文本檢測模型，是目前主流的文本檢測算法，CTPN 算法是在Faster RCNN 基礎上改進而來，加入了LSTM 層，CTPN 與CNN、LSTM 結合，可以檢測出復雜場景中的橫向分布的文字位置。其中CNN 采用VGG16 作為預訓練模型進行底層特征提取，LSTM 神經網絡學習文字的序列特征，有助于文本檢測。它的優(yōu)點是可以很好的預測文本水平位置，缺點是對于預測豎直方向及旋轉方向的文本會很困難。

（3）RRPN 網絡。RRPN[12]，旋轉區(qū)域候選網絡，其實也是在Faster R-CNN 的基礎上，引入了RPN，相較于CPTN算法只能檢測水平方向的文本，此網絡可以檢測旋轉方向的文本，即任意方向，通過調整角度信息進行邊框回歸，使其更加適合文本區(qū)域。

（4）EAST 網絡。 EAST[13]網絡是一個高效和準確的場景文本檢測網絡，它可以直接預測圖像中任意方向和矩形形狀的文本或文本行，它有兩個階段的任務。第一個階段是基于全卷積網絡（FCN）模型，來預測生成文本框；第二個階段是對生成的文本預測框（可以是旋轉矩形或矩形）經過非極大值抑制以產生最終結果。 EAST 的優(yōu)點是放棄了不必要的中間步驟，進行端到端的訓練和優(yōu)化。

表1 對幾種文本檢測網絡進行了對比分析。

表1 通用文本檢測網絡對比

2 基于深度學習的文字識別技術

2.1 文字識別網絡

（1）CRNN 網絡。 CRNN 主要用于端到端地對不定長的文本序列進行識別，它是在CPTN 的基礎上，將CPTN網絡檢測到的文字，送入到CRNN 卷積神經網絡中進行訓練，提取特征。 CRNN 卷積神經網絡結構包含三部分，分別為：①卷積層CNN，提取輸入圖像的特征序列；②循環(huán)層RNN，從卷積層得到的特征序列，使用RNN 對其進行預測，得到預測標簽的分布；③轉錄層CTC，循環(huán)層獲取的預測標簽通過CTC 變成最終的標簽序列。最難的還是在于第三步，CTC 轉錄。

CTC 主要用于序列解碼，將RNN 層所做的預測轉換成標簽序列。

（2）RARE 網絡。RARE[14]網絡由STN（空間變形網絡）和SRN（序列識別網絡）組成。 STN 網絡起到了變形矯正的作用，通過STN 對圖像進行矯正，之后通過SRN 對文本進行識別。因此RARE 網絡在處理變形的文本時候效果會很好。但是由于使用了tanh 激活函數，導致收斂速度較慢。

圖1 RARE 網絡結構圖

（3）ESIR 網絡。ESIR[15]是一種端到端場景文本識別網絡，它提出了一種新穎的文本姿態(tài)估計網絡，該網絡包括兩部分，一個是采用迭代的文本校正網絡，另一個是序列識別網絡。其中場景文本扭曲會被更正到一個正面平行視圖。此外，ESIR 還不需要參數初始化，訓練只需要場景文本圖像和文字注解。但是ES 它在圖形變換時，會進行雙線性插值，容易導致丟失關鍵像素信息。

（4）FAN 網絡。FAN[16]網絡，解決了在一些復雜的或者質量低的圖像中的文字識別效果不太好的情況，因為現有的基于注意力的方法效果非常差。FAN 網絡包括AN 和FN 兩個主要部分。 AN 和現有的基于注意力的方法一致，FN 是用來檢測AN 的注意力區(qū)域是否與圖像中目標字符的位置對齊，然后自動的跳轉這個注意點，所以它識別的圖像文本更加準確。但是注意力機制的對齊若產生錯誤，就會疊加。

表2 對幾種文本檢測網絡進行了對比分析。

表2 文本識別網絡對比

3 信息提取

經過文字識別之后，就需要提取關鍵信息，涉及的關鍵技術有實體抽取、關系抽取和屬性抽取。

3.1 實體抽取

實體抽取也就是命名實體識別NER[17]方法，此方法的任務[18]是識別文檔中表示個人姓名、組織名稱、地點名稱、時間和數量等的短語。命名實體識別方法主要分為三類：

（1）基于規(guī)則和詞典的方法。它是由手工編寫而來，人為設定的規(guī)則。但是不同的領域內的實體都有著不一樣的規(guī)則，因此當此方法用在不同的領域時就需要改動，例如醫(yī)學領域就有著自己特定的實體，因此基于特定領域的規(guī)則往往是不通用的，所以這種方法是耗時耗力的。如果規(guī)則能較好的反映實體關系時，基于規(guī)則和詞典的方法還是較為方便的。

（2）基于統(tǒng)計的學習方法。基于統(tǒng)計的學習方法主要有最大熵、支持向量機、條件隨機場CRF，隱馬爾可夫模型等。

它是基于分類和序列標注的方法，利用大規(guī)模語料來進行學習，進而標注出模型，通過語料內容進行統(tǒng)計和分析，從其中發(fā)現出特征。語料的標注不需要很多的專業(yè)知識，并且它優(yōu)于基于規(guī)則的方法的一點就是在其他領域使用時，可以不用在做很多繁瑣的工作，可以直接使用。

但是它對語料庫的依賴很大，但是評估命名實體識別系統(tǒng)的大規(guī)模通用語料庫又比較少，所以不是最好的方法。

（3）基于神經網絡的學習方法。無論是基于規(guī)則和詞典還是基于統(tǒng)計的學習方法，都需要大量的人工處理數據。傳統(tǒng)的基于統(tǒng)計的方法需要很多的領域知識，而基于深度學習的方法可以從輸入中獲取信息并學習。深度學習中的神經網絡[19-20]也可以有效的處理很多自然語言任務的模型，同時不需要人工預處理數據，此種方法對序列標注的處理是類似NER 的，采用端到端的識別方法，不需要基于規(guī)則和詞典方法中所要求的領域資源，其可以自動學習和提取特征。蔡成章[21]基于深度學習的命名實體識別技術，完成了對醫(yī)學文本中的實體名詞的識別與提取，從而達到電子病歷的后結構化目的。楊紅梅提出的基于Bi-LSTM[22]與CRF[23]的實體識別模型，抽取了入院記錄和出院小結的醫(yī)學命名實體，解決了RNN 解決不了的長時依賴的問題。

因此，基于深度學習的命名實體識別對病例的識別提取要優(yōu)于前兩種方法。但是目前還是存在問題的，如重疊的實體關系還做的不是很好。表3 提供了幾種方法的優(yōu)缺點。

表3 命名實體識別方法對比

3.2 關系抽取

語料經過上一步之后，得到的命名實體達不到要求，它得到的僅僅是一些離散的實體，因此為了得到語義信息，需要我們提取出實體之間的關系，通過關系將這些實體聯系起來。研究關系抽取技術的目的，就是為了解決怎樣從語料中得到實體間的關系。

3.3 屬性抽取

屬性抽取的目標是從不同信息源中采集特定實體的屬性信息.針對病例來說，可以從每一張病例信息中的到其名字，性別，診斷癥狀，損傷部位，治療方案等關鍵信息，而此技術就是從如此多的數據中匯集這些信息。

4 結束語

本文首先介紹了病例文字識別的相關背景以及應用方向，其次概括了在文字檢測時近幾年所用到的網絡模型，對它們進行了綜合性的分析比較，之后又概括了文字識別所用到的網絡模型，并對他們進行了綜合分析，最后對信息提取時所用到的方法進行了概括分析。作為信息化的時代，文字識別技術已經涉及到生活中的方方面面，未來的生活一定離不開文字識別技術，文字識別對于語義的理解與檢索很重要。但是盡管目前的識別技術已經很先進，但文字識別仍然是有技術難點的，比如被遮蔽的，標注有問題的文字等如何進行更好的識別，還是需要繼續(xù)深入研究。