淺談復雜場景下利用聚類的文字分割算法

2021-07-08 07:56:04賈茂盛李紹銘王勇王子

科學與信息化 2021年18期

關鍵詞：利用

賈茂盛李紹銘王勇王子

安徽工業大學電氣與信息工程學院安徽馬鞍山 243000

引言

在復雜場景下分割非常困難，本文提出的方案是先預處理得到灰度圖，接著進行二值化，進行一些形態學操作去除噪聲，此時可以大概將圖像前景與背景分離開，自然場景的圖像中的文字大多傾斜，利用投影法得到大致文字區域，利用分水嶺算法框出大致范圍并分割，這時會出現細分和未分割出來的字符，利用kmeans算法進行聚類，從而準確分割目標文字，為后續OCR識別提供輸入。

1 相關研究

在現有文字識別分割算法中，主要有以下幾種。

1.1 分水嶺算法

所謂分水嶺算法，是根據分水嶺的構成來考慮圖像的分割。現實中我們可以想象山有湖的景象，當然在需要的時候，要人工構筑分水嶺，以防集水盆之間的互相穿透。而區分高山與水的界線，以及湖與湖之間的間隔或都是連通的關系。分水嶺算法一般有以下幾種優點：①計算速度快；②對物體的微弱邊緣響應強?？烧怯捎趯ξ矬w的微弱邊緣響應過強，容易過度分割，從而提取失敗。

1.2 K-means聚類算法

K-means聚類算法[2]，它采用距離作為相似性的評價指標，即認為兩個對象的距離越近，其相似度就越大。該算法認為類簇是由距離靠近的對象組成的，因此把得到緊湊且獨立的簇作為最終目標。其原理簡單，且易于實現，但其缺點也是十分顯著，如收斂較慢，時間復雜度高。

從以上結合多種算法的優缺點分析來看，無論采用哪一種單獨的方案均不可行。

2 算法概述

2.1 算法總體設計

本文采取了一種基于聚類[3]的文字識別及分割算法，具體流程圖如圖1所示。

圖1 算法流程圖

2.2 圖像預處理

復雜環境下干擾極大，原圖如圖2(a)所示，故需要圖像預處理，這相對于文字分割及識別而言是不可缺少的組成部分。二值化，腐蝕以及膨脹是可以增強文字部分的一些手段，二值化大致分開前景與背景，次而利用腐蝕和膨脹[4]去除周圍毛刺，填充中間空洞，加強文字間的聯系，預處理后如圖2(b)所示。

圖2 預處理前后對比圖

2.3 投影初分割

投影法是基于像素分布，通過灰度圖及二值化是圖像前景和背景分開，通過累加像素值與給定閾值比較，從而利用水平投影找到圖像上下文字區域，再利用垂直投影找到左右大致文字區域，如圖3所示。

圖3 投影初分割圖

由上圖可看出文字區域被大致分割開，但有很多字不僅未被分開，且未識別，不滿足于需求。

2.4 分水嶺最大值抑制

分水嶺算法是一種圖像區域分割法，在分割的過程中，它會把和臨近像素間的相似性作為重要的參考依據，從而將在空間位置上相近并且灰度值相近的像素點互相連接起來構成一個封閉的輪廓[5]。最大值抑制取超過所設閾值，當采用分水嶺算法后和最大值抑制算法之后，我們可以得到如下圖4。

圖4 分水嶺最大值抑制效果圖

可見，文字區域得到一定的劃分。

2.5 K-means聚類終分割

k-means算法前文已介紹，在此便不做贅述，我們僅關注于應用此算法之后的結果，如圖5所示。

圖5 最終效果分割圖

3 算法性能比較

為了進一步驗證本文算法的可靠性，將前文所提及的單獨聚類算法及正交投影法進行了對比，識別率取前十次實驗的平均值，結果如圖6所示。

圖6 算法性能對比圖

4 結束語

通過對圖像進行預處理，結合投影法對圖像進行初分割，進而進行分水嶺算法及最大值抑制對圖像進行次分割，最終通過k-means算法對圖像進行終分割，得到可被OCR模型識別的圖像，此套算法可處理復雜背景下的圖像，且具有極高的準確度及其速度，效果顯著。