賈曉光,伍星,何中市,但靜培
(重慶大學計算機學院,重慶 400000)
歷史文檔是學者對于古代社會、人文等方面研究必不可少的重要資料,有必要將這些文明的瑰寶以電子化的形式保存。然而無論是學者的研究還是歷史文檔的保存,均需要語義分割技術的支持,尤其是通過OCR(光學字符識別)對文本圖像提取文字,細粒度分割后的文本圖像能夠大大提升OCR 的識別效果。但是不同于傳統文檔圖像,歷史文檔版式復雜、頁面黃化和不同的寫作風格等原因,使得對歷史文檔文本區域分割難度大大增加。
歷史文檔圖像分割方法可分為傳統和基于深度學習的方法。傳統文檔圖像分割方法程序復雜,并且依賴人工提取特征,要求提取特征的人具有相關的知識背景。深度學習分割方法利用CNN 提取更豐富圖像特征,然后對像素點或超像素進行分類,相比傳統方法能夠取得更好地分割結果,但是現有的深度學習網絡模型特征提取網絡結構簡單,并且增加了較多的后處理工作,大大降低了分割效率,同時沒有考慮數據集中類別不均衡的問題。
因此,本文提出了一個端對端的像素級別歷史文檔分割模型,貢獻如下:①構建了以DenseNet[1]為骨干網的U-Net[2]融合更豐富的圖像特征以解決歷史文檔圖像布局復雜的問題。同時在DenseNet 骨干網中加入空洞卷積[3]來擴大感受野來融入更多地上下文信息;②使用了Focal Loss[4]函數進行輔助監督訓練以解決數據集類別極不均衡問題;③針對歷史文檔數據集圖像數量少的問題,本文使用數據增強對數據集進行數據擴充;通過對歷史文檔圖像類別布局分析,使用over?lap-tile 策略對圖像進行分割預處理。本文模型在歷史文檔分割數據集上進行實驗并取得了當前最好的分割效果。
通過對數據集的分析,發現數據集圖像數量較少且每張圖像尺寸大。所以使用數據增強與基于over?lap-tile 策略的圖像切割方法進行數據預處理。
圖像數量較少不利于網絡模型的監督學習,本文使用圖像增強的鏡像操作方法進行數據集擴充,得到了比原數據更豐富的圖像信息,擴充后的訓練集大小為150 張圖像。
由于圖像尺寸較大以及硬件設備的限制,網絡無法進行監督訓練,而大幅度的縮放圖像會造成大量信息的丟失,甚至會更改圖像信息,本文按比例將原圖切割為相同大小的圖像塊來作為網絡的輸入。為了更精確地分割圖像邊緣部分,本文借鑒U-Net 中的overlaptile 策略,它通過重疊平鋪策略無縫分割任意大的圖像,補全了要獲得圖像的上下文信息。見圖1,右側圖像即是左側圖像中橘色框內的圖像,若要對右側圖像進行分割,則需要將左側藍色框大小圖像放入網絡,最后通過裁剪預測圖得到。

圖1 通過overlap-tile策略預測右側圖像
本文設計了如圖2 所示的U-Net 網絡模型。網絡采用DenseNet 作為骨干網提取特征并加入空洞卷積模塊,主要作用是通過特征圖拼接加強圖像特征的融合,最后使用帶有Focal Loss 的混合損失函數進行監督訓練。

圖2 網絡結構圖
對于具有復雜版面布局的歷史文檔圖像,本文UNet 使用了具有特征融合性更強的DenseNet 骨干網來提取特征。它是在ResNet[5]的基礎上進行改進的卷積神經網絡,由多個DenseBlock 和過渡層交叉堆疊構成,相比較其他骨干網,加強了特征的傳遞、復用和融合,還具有一定的抗過擬合的能力。本文選擇DenseNet-169,對每個Block 的輸出做上采樣操作,同時與下采樣相同尺寸的特征圖進行拼接,構成了新的U-Net 網絡結構。通過多次低階與高階特征復用、拼接融合,能更好地提取具有復雜版面布局的歷史文檔圖像的特征。
歷史文檔圖像分割依賴更多的上下文信息,因此需要更大的感受野,因此使用了空洞卷積核,同時Peng、Chao 等人[6]驗證了多個小卷積核堆疊的實際感受野達不到理論感受野大小。
本文對每個DenseBlock 的輸出做 rate=3 的 3×3空洞卷積,然后與原特征圖進行拼接,這樣能夠融合更多的上下文信息。本文對多個DenseBlock 的輸出均進行了空洞卷積操作,可以認為實現了多個空洞卷積核的串行堆疊,更大大擴大了感受野,能更好地提升分割效果。堆疊感受野分別為R1 和R2 的空洞卷積核,其感受野 R 見公式(1):

目標檢測領域中通過使用Focal Loss[4]來消除類別不平衡造成的分類錯誤。歷史文檔數據集同樣存在類別極不平衡的情況,因此本文使用Focal Loss 來輔助監督訓練。Focal Loss 可以看作帶有權重的交叉熵損失函數,其定義見公式(2):

其中(λ-pk)γ為交叉熵損失對應的權重,pk 為第k類的預測概率。本文設置γ為2,λ為0.5 進行實驗,在裝飾類別提升了較大的效果。最終的損失函數由多分類交叉損失函數和Focal Loss 函數相加得到,見公式(3):

將網絡右側與左側分支的輸出相加,從標記圖像中獲得監督信號來計算損失,通過BP 更新網絡參數。
DIVA-HisDB[7]是在2017 年發布的最新歷史文檔分割數據,包括CB55、CS18、CS863 三種類型的中世紀手稿圖像數據集,具有復雜的布局版式、多樣的手寫樣式、黃化的頁面等具有挑戰性文檔分割的特點,每種類型的數據集均含帶有標記的20 張訓練集、10 張測試集和10 張驗證集。其中CB55 每張圖像尺寸為4872×6496,其余數據集尺寸為3228×4992。
數據集中,像素點共分四類:背景(頁面和四周黑色背景)、正文、評論(分布在正文兩側或正文行與行之間的注釋)、裝飾(紅色的字符等),圖像使用黑色背景包圍文檔圖像。統計每個類別的像素數,得到被標注的41.37%為評論,1.69%為裝飾,56.94%為正文。值得注意的是,裝飾類別面積只占有總頁面的1.69%,可見類別數目極不均衡。
本文使用ICDAR 官方提供的歷史文檔圖像分割評價工具[8],即 Accuracy(像素精度)、mAcc(平均像素精度)、mIou(平均交并比)、FwIou(頻率加權交并比)。Accuracy、mAcc、mIou 和 FwIou 的定義分別見公式(4)、(5)、(6)和(7)所示。


其中k 表示類別數目,Nc表示類別總數,Ti表示類別i 的像素點總數,Nij表示標記為類別i 預測類別為j的像素點數目。以上四種指標,均是數值越大分割效果越好,反之則越差。
本文設計了4 個實驗分別闡述了本文模型、融合空洞卷積的DenseNet、圖像切割比例和Focal Loss 對歷史文檔圖像分割的有效性。
(1)深度學習模型間對比
本實驗是本文模型與其它深度學習模型的對比實驗,其分割圖如圖2 第2 列所示。表1 顯示,本文模型在三個數據集各指標上均優于文獻[9]。經過對文獻[9]的分析得到,SLIC[10]超像素分割時就存在較多的錯誤,同時CNN 也會出現分類錯誤,串行的操作大大降低了分割精度,同時[9]將原圖切成較小的圖像塊作為CNN的輸入,網絡無法獲取更多的上下文信息,進而導致超像素分類錯誤,進而出現區域性分割錯誤。
(2)Focal Loss 的有效性
為消除裝飾類別占比極不平衡對分割帶來的影響,本文做了消融實驗來驗證Focal Loss 的有效性。通過表3 得到,針對裝飾類別占比最小的CB863(<1%),Focal Loss 在mIou 提升最大,達到1.04%左右。而針對裝飾類別占比最大(<%2)的 CB55,使用 Focal Loss 后雖然平均精度有所下降,但是mIou 在提升,說明CB55分割的主要矛盾并不在類別不平衡,Focal Loss 對其裝飾分割貢獻不大,反而影響了對于區域面積相差不大的評論和正文的分割。結合實驗,可以認為Focal Loss對類別極不平衡的圖像分割是有效的。

表1 不同模型的實驗結果(百分比)

表2 1/4 比例切割下Focal Loss 的消融實驗結果

表3 本文方法在不同切割比例下的實驗結果
(3)圖像切割比例大小的影響
根據實驗結果可以看到,切割比例對圖像分割效果影響較大,圖2 展示了右側1/4 切割遠遠好于左側1/8 切割的分割結果。本文認為數據集中圖像類別區域有較為固定的布局,每張切割后的圖像都需要保留獨特的布局特征,而無論是1/8 還是1/15 切割原圖,切割后的圖像尺寸太小,那么圖像塊中只含較少或不含有獨特的布局特征,CNN 在訓練時無法獲得足夠的上下文信息,不能提取出圖像塊特有的高階特征,可以間接地認為網絡無法通過圖像本身的高階特征去學習其在原圖的位置信息,從而出現大面積的分割錯誤。
尤其是 CB55,通過表 3 得到 1/4 比 1/8 切割在mIou 和mAcc 兩個指標提升了近一倍,相比較另外兩個數據集,CB55 的正文和評論在文字顏色、書寫筆跡等方面較為相似,而且較小尺寸的圖像又無法通過網絡學習到位置信息。另外兩個數據集也出現了較多的小區域分割錯誤。根據實驗結果證明了切割比例對最終圖像分割結果有著重要的影響。

圖3 CB55在不同切割比例下的分割圖

圖4 標記可視化圖像,本文模型和1/8分割示例圖
本文對于歷史文檔分割的研究是基于歷史文檔數據本身的特點和前人研究方法的不足之處,提出了一個基于U-Net 的端到端的像素級別的歷史文檔圖像分割網絡,通過合理的數據處理和模型設計,在DIVAHisDB 頁面分割任務上獲得了最優的效果。后續會考慮其它造成歷史文檔圖像分割難的特點進行研究和模型設計。