王 正,鄧雪原,2
基于自適應尺度邊緣特征的建筑施工圖重疊字符識別方法研究
王 正1,鄧雪原1,2
(1. 上海交通大學船舶海洋與建筑工程學院,上海 200240;2. 上海市公共建筑和基礎設施數字化運維重點實驗室,上海 200240)
目前非重疊字符的識別技術已趨于完善,但難以識別建筑工程圖紙標注等場景中的重疊字符,阻礙了基于二維掃描圖紙的自動建模技術的突破。針對傳統字符識別方法無法識別重疊字符的現狀,提出了一套基于自適應尺度邊緣特征的建筑施工圖重疊字符識別新方法。基于像素空間分布特征初步確定重疊字符區域,定義并提取字符的自適應尺度邊緣特征;借助雙變量匹配概率函數篩選“位置+內容”的結果組合,并以全局最優原則代替絕對閾值作為識別標準,最終輸出正確的識別結果。不同于先修復后識別的常規思路,該方法將特征匹配與干擾過濾相結合、字符定位與字符識別相關聯,能解決百度等成熟商用OCR無法解決的重疊字符識別問題,且經數據實驗證實具備較高的識別準確率。
重疊字符;字符識別;自適應尺度;分布概率;投影分割
隨著我國建筑行業信息化[1]和智慧城市建設的不斷推進,建筑信息模型(building information modeling,BIM)技術已越發廣泛應用于建筑行業設計、施工、運維的全過程。BIM技術目前在運維階段的主要問題是大量既有建筑缺乏準確、規范的BIM,需要根據工程藍圖人工建模。為節省建模成本,ZHAO等[2]提出從工程圖紙圖像上識別圖形及標注,實現既有建筑快速、準確地自動化建模,但工程藍圖中普遍存在的標注字符重疊問題,其嚴重影響識別準確率。因此,如何有效解決重疊字符的識別問題成為BIM技術在運維階段應用的重要一環。圖1為工程標注中重疊字符的舉例。

圖1 含有重疊字符的工程標注圖像
光學字符識別由字符檢測和字符識別2個核心任務組成,主要包含預處理、分割、特征提取和識別4個步驟。重疊導致的信息缺失給特征提取和匹配造成困難,導致傳統OCR方法無法識別重疊光學字符(簡稱重疊字符);機器學習在處理高維圖像時具備明顯優勢,但用于識別重疊字符等特征簡單圖像并不經濟。
重疊字符識別需要從根本上解決信息缺失的問題。本文通過改進字符識別的流程,實現了無需預先確定匹配區域的字符識別,為圖像識別提供了新的思路;用C++語言編寫測試程序,證明該方法具備可行性且具有較高的識別準確率。
重疊字符識別方面,CAO和TAN[3]根據圖線長度分離圖線和字符,而后識別其中的字符,平均識別準確率達到82.2%,但只適用于被簡單線條干擾的字符;CHAME和KUMAR[4]借助顏色閾值檢測重疊邊界,使用支持向量機(support vector machine,SVM)分類器區分字符,重疊字符的識別率可達93%,但需要字符的顏色各異。
在重疊手寫體識別領域,LIANG等[5]提出一種基于過分割的識別方法;WAN等[6]采用筆劃級別評估與字符級別評估相結合的合并策略;LV等[7]基于筆劃序列的路徑搜索;LIANG等[8]后續又開展了幾何特征降維、候選模式精簡以及識別方法的改進研究。但手寫體的重疊區域占比小,筆劃特征易于簡單,其研究方法對重疊字符的識別并不適用。
目前國內識別干擾字符的思路是先修復后識別。肖堅[9]根據亮度差異識別并去除干擾區域;段熒等[10-11]依據筆畫的寬度特征修復干擾字符。此類識別方法要求干擾與字符特征區別明顯,且不具備重疊字符識別條件。
重疊字符識別的關鍵是如何有效彌補信息的缺失。圖2(a)為傳統識別流程,紅色箭頭表示無法適用于重疊字符的環節,位置信息和尺寸信息的缺失阻礙了特征提取區域和尺度的判定;圖2(b)為本文方法的識別流程:改進的行切分獲取字符高度和自適應尺度,同時提取同一行所有字符特征;根據空間分布概率篩選匹配結果,即可求出該行內的字符種類、個數及順序。
為數字化、規范化描述,圖像像素的位置表示默認采用像素坐標系,即以圖像左上角為原點建立的以像素為單位的坐標系-,像素的橫坐標與縱坐標分別是圖像中該像素所在的列數與行數。圖1的像素坐標系如圖3所示,圖像寬為像素,高為像素。
本研究的目的是找到適合重疊字符改進的行切分方法(如圖4中區域2),為自適應尺度和特征提取區域選擇創造條件。

圖2 識別流程對比((a)傳統識別流程;(b)本文識別流程)

圖3 像素坐標系示例

圖4 精確行切分示意圖
傳統字符識別中列分割通常采用水平投影的方法。定義(,)為二值化圖像(,)處像素的灰度值(0或255),分別取1和0作為圖像中黑白像素的代表值,即


式(2)統計了各像素行黑色像素的個數,其中1為水平投影值。圖5是圖1的水平投影統計圖,由圖5可以看出,傳統方法的水平投影法在重疊字符行切分時并不適用。

圖5 水平投影統計圖
在水平投影基礎上補充考慮像素的垂直分布特征。首先對圖像做垂直投影,得到

其中,為各像素列黑色像素的個數。
然后在式(1)的基礎上引入–2,用2重新表示圖像中的像素,即

其中,–2可使所在列黑色像素少的區域2值更大,而這些區域均處于目標區域。
對每一像素行中的垂直投影的像素表示值2進行逐行求和,得到改進后的水平投影值為

圖6是圖1改進的水平投影統計圖。相較于圖5,圖6中區域邊界更加清晰。改進行切分的成果如圖7所示完整準確。該方法綜合考慮圖像在水平和垂直方向的像素分布特征,求得的重疊字符真實高度確保了自適應尺度的有效性。事實上,改進前的水平投影可以看作式(4)中恒取1時的特殊情況。
找到具有較強表示能力且易于提取的特征是圖像識別的關鍵。當前圖像識別中常用的幾類圖像特征見表1。

圖6 改進后的水平投影統計圖

圖7 圖像切分結果

表1 常用于識別的圖像特征
重疊字符的干擾區域面積占比高,顏色無明顯邊界,代數、區域等特征并不適用。圖像邊緣是圖像區域屬性突變處,不同于灰度屬性的區域之間的灰度分割線。盡管重疊字符邊緣存在一定干擾,但可較好保留原有的邊緣特征(圖8實線)。二值化圖像邊緣明確且易于提取,所以選取邊緣作為識別特征。

圖8 重疊字符邊緣特征
提取得到的像素坐標數據多、利用難,且像素尺度不易反映宏觀特征,于是基于改進的行切分方法,在自適應尺度下提取特征線段表示邊緣特征。
若行切分圖像的高度為像素,做+1條等距水平輔助線將圖像分為個區域,2條相鄰平行線間距為/,可稱其為特征描述的尺度。將輔助線穿過的邊緣像素作為特征點,沿邊緣路徑每2個相鄰特征點確定一條特征線段,圖像的邊緣特征可簡化為若干個成對的端點坐標。圖9展示了尺度為/9時特征點和特征線段。

圖9 尺度為h/9時特征示意圖((a)特征點示意圖;(b)特征線段示意圖)
為避免特征遺漏,通常取30~60之間,再結合即可確定特征提取時特征點的坐標。
尺度選取合理的前提是準確地切分,本文方法在自適應尺度選取過程中引入了改進的行切分方法,相比傳統方法更易獲取最合理的特征尺度。
傳統方法的匹配是基于字符切分,為多個比對字符圖像和一個未知字符圖像的匹配;重疊字符無法實現字符切分,需要引入空間分布變量,多個比對圖像和同一行中所有字符同時匹配。
將行切分圖像(圖7)作為目標圖像0,寬度為0像素,高度為0像素;將37個無重疊字符(10個數字,序號為1~10;26個大寫英文字母,序號為11~36;1個連字符“–”,序號為37;如圖10所示)作為比對圖像P(=1,2,···,37),等比例縮放至高為0像素,寬度為w像素(w<0)。

圖10 比對圖像示例
分別建立0和P的像素坐標系如圖11所示,并得到相同自適應尺度下邊緣特征。圖中箭頭指向圖像區域的特征線段,紅色線段為匹配的特征線段。線段匹配的定義如下:若0中某條特征線段1的端點為(1,1)和(1?,2?),P(=1,2,···,37)存在特征線段2,其端點(2,2)和(2¢,2¢)滿足

則稱1為0在=處與P(=1,2,···,37)匹配的一條特征線段。

圖11 匹配示例
0在=處與P的分布概率函數為

其中,為比對圖像序號,=1,2,···,37;為空間分布變量,表示0中匹配區域左邊界的橫坐標,取整數且0≤≤0–w;M為P的特征線段總數;為0在=處與P匹配的特征線段數。
分布概率的匹配方法較傳統方法額外考慮了字符的空間位置,表示目標圖像的不同位置與比對圖像匹配的可能性。考慮到縮放對圖像邊緣的影響,匹配時可將判定線段匹配的條件適度放寬,在式(6)中用約等號代替等號進行線段匹配的判定。圖12為比對字符“3”在0各處的分布概率,其中有2處位置概率較高。

圖12 P0中“3”的分布概率
自適應尺度下分布概率較高即作為備選,匯總如圖13所示,不同字符的分布概率用顏色區分。

圖13 分布概率匯總
重疊字符概率數值低,所以不能僅憑概率數值選取結果,需做進一步篩選。
篩選逐輪進行。每輪在未經篩選的備選結果中選出最大的一組,若其在0的匹配區域與已通過篩選的區域存在交集,則放棄該組;若不存在交集,則通過篩選。表2記錄了圖13中所有備選結果的篩選過程。

表2 識別結果篩選過程
經過16輪,第1~5,15~16輪中的“-” “H” “K” “L” “3” “3” “2”7個比對字符依次通過篩選。根據其各自區域位置確定字符順序,輸出結果“KL-H323”。
基于概率分布對整行所有字符同時進行匹配,其充分利用空間關系,無需字符切分也能實現字符識別。盡管該方法旨在解決重疊字符的識別問題,但對同一行中非重疊字符的識別同樣適用,故識別時無需預先區分字符是否存在重疊。
樣本圖集包含56張樣本圖,根據字符行列數分為1×1,1×2,2×1,2×2,2×3,3×2和3×3的7類,每類各8張圖像。圖像每行/列均含字符6~10個不等,內容均為隨機產生。圖集中待識別字符共900個,其中有重疊字符443個,無重疊字符457個。圖14為3×3樣本圖中的一張,其中25個橫排字符(無重疊字符10個,有重疊字符15個)為待識別的字符,其他均視為干擾。

圖14 樣本圖示例
實驗采用Intel(R) Core(TM) i9-10900K處理器,128 G內存以及NVIDIA GeForce RTX 3090顯卡的硬件配置,在Windows 10操作系統上運行整個實驗過程,選擇C++為編程語言并搭配OpenCV庫實現程序編寫。
初始實驗結果見表3。其中:56張圖片全部實現正確行切分;無重疊字符識別率為100%,重疊字符平均識別率為90.52%。重疊字符識別率不高,需做出改進。

表3 初始實驗結果(%)
實驗中錯誤識別包括3類:
錯誤1:受干擾“H”識別為“L” “1”和“E”等字符,如圖15(a)所示。
錯誤2:“D”的右半部分受到重疊干擾被錯誤識別為“L”,如圖15(b)所示。
錯誤3:圖15(c)中“E”識別成“P”,為重疊造成干擾過大的偶然情況,不易修正。

錯誤1和2均由于相似度計算時以比對圖像的特征線段數作為分母,使“L”等特征線段少的字符更易取得較大的相似度。
在原方法基礎上做出以下改進:當最終識別結果為“L” “T”和“1”時,補充計算該處與“H”和“D”的相似度,當大于80%時判定為“H”或“D”。
改進后再次實驗,結果見表4。改進前后對比發現2類系統性錯誤得到有效修正,識別率大幅提高,重疊字符平均識別率提升至97.74%,證明該法能較好實現重疊字符的識別。

表4 改進前后結果對比(%)
圖16對比了本文方法與已有OCR產品的識別效果。圖16(b)和(c)分別是本文識別方法和調用百度api“通用文字識別(高精度位置版)”的結果。百度OCR共識別出4部分,分別為“/” “5R6” “40Y8”和“(”,效果不佳。圖16(d)為百度OCR軟件排行榜中表現最好的2款軟件,其測試結果如圖16(e)和(f)所示,可以看出成熟的OCR產品也無法準確識別重疊字符。這證明了該方法在重疊字符識別問題上的創新性和先進性。

圖16 已有產品與本文方法對比((a)測試圖;(b)本文方法識別結果;(c)百度高精度含位置版通用文字識別結果;(d)市面常用的幾款OCR軟件;(e)轉易俠掃描王識別結果;(f)閃電OCR識別結果)
從建筑工程圖紙中的字符重疊問題出發,提出一套基于自適應尺度邊緣特征的重疊字符識別方法。該方法不同于先修復后識別、先定位后識別的常規思路,基于改進投影、自適應尺度邊緣特征、分布概率函數等新概念,將干擾過濾與特征匹配相結合、字符定位與字符識別相關聯,無需確定干擾區域即可實現重疊字符的識別。不僅解決了商用OCR尚未解決的技術難題,也為局部數據缺失的復雜重疊圖像識別(如口罩或眼鏡遮擋下的人臉識別等實際場景)提供了新思路。然而,該方法主要針對簡單字符的重疊識別,是否適用于重疊漢字或重疊復雜圖像的識別尚需進一步研究。
[1] 國務院. 國務院關于印發“十三五”國家信息化規劃的通知[J]. 中華人民共和國國務院公報, 2017(2): 35-68.
State Council of the People’s Republic of China. Circular of the State Council on printing and distributing the “Thirteenth Five-Year” national informatization plan[J]. Gazette of the State Council of the People’s Republic of China, 2017(2): 35-68 (in Chinese).
[2] ZHAO Y F, DENG X Y, LAI H H. Reconstructing BIM from 2D structural drawings for existing buildings[J]. Automation in Construction, 2021, 128: 103750.
[3] CAO R N, TAN C L. Separation of overlapping text from graphics[C]//The 6th International Conference on Document Analysis and Recognition. New York: IEEE Press, 2001: 44-48.
[4] CHAME S D, KUMAR A. Overlapped character recognition: an innovative approach[C]//2016 IEEE 6th International Conference on Advanced Computing. New York: IEEE Press, 2016: 464-469.
[5] LIANG J J, ZHU B L, KUMAGAI T, et al. Character-position-free on-line handwritten Japanese text recognition by two segmentation methods[J]. IEICE Transactions on Information and Systems, 2016, E99.D(4): 1172-1181.
[6] WAN X, LIU C S, ZOU Y M. On-line Chinese character recognition system for overlapping samples[C]//2011 International Conference on Document Analysis and Recognition. New York: IEEE Press, 2011: 799-803.
[7] LV Y F, HUANG L L, WANG D H, et al. Learning-based candidate segmentation scoring for real-time recognition of online overlaid Chinese handwriting[C]//2013 12th International Conference on Document Analysis and Recognition. New York: IEEE Press, 2013: 74-78.
[8] LIANG J J, NGUYEN C T, ZHU B L, et al. An online overlaid handwritten Japanese text recognition system for small tablet[J]. Pattern Analysis and Applications, 2019, 22(1): 233-241.
[9] 肖堅. 基于學習的OCR字符識別[J]. 計算機時代, 2018(7): 48-51.
XIAO J. OCR character recognition based on Learning[J]. Computer Era, 2018(7): 48-51 (in Chinese).
[10] 段熒, 龍華, 瞿于荃. 中文文字圖片同色長干擾線的去除算法[J]. 數據通信, 2021(4): 42-46.
DUAN Y, LONG H, QU Y Q. An algorithm for removing long interference lines with the same color in Chinese text images[J]. Data Communications, 2021(4): 42-46 (in Chinese).
[11] 段熒, 龍華, 瞿于荃, 等. 文字圖像不規則干擾修復算法研究[J]. 小型微型計算機系統, 2021, 42(7): 1427-1434.
DUAN Y, LONG H, QU Y Q, et al. Irregular interference inpainting algorithm research on text image[J]. Journal of Chinese Computer Systems, 2021, 42(7): 1427-1434 (in Chinese).
Research on recognition method of overlapped characters in construction drawings based on adaptive scale edge feature
WANG Zheng1, DENG Xue-yuan1,2
(1. School of Naval Architecture, Ocean & Civil Engineering, Shanghai Jiao Tong University, Shanghai 200240, China; 2. Shanghai Key Laboratory for Digital Maintenance of Buildings and Infrastructure, Shanghai 200240, China)
At present, the recognition technology of non-overlapped characters has been perfected, but it remains difficult to solve the recognition problem of common overlapped characters in scenarios such as the annotation of architectural engineering drawings, which hinders the breakthrough of automatic modeling technology based on 2D scanned drawings. To address the incapability of traditional character recognition methods to recognize overlapped characters, a new method was proposed for overlapped characters recognition in construction drawings based on adaptive scale edge features. Based on the spatial distribution characteristics of pixels, the overlapped character areas were preliminarily determined, and the adaptive scale edge features of characters were defined and extracted. The result combination of “position + content” was screened with the help of the bivariate matching probability function, and the global optimal principle was used instead of the absolute threshold as the identification standard. Finally, the correct recognition of overlapped characters was achieved. Different from the conventional idea of recognizing after repairing, the new method combined feature matching and interference filtering, character positioning and character recognition. The proposed method can solve the overlapping character recognition problem insolvable for mature commercial OCR such as Baidu,and the data experiment proves that this method is of high recognition accuracy.
overlapped characters; character recognition; adaptive scale; distribution probability; projection segmentation
5 January,2022;
“Thirteenth Five-Year” National Key R&D Plan (2016YFC0702001)
WANG Zheng (1997-), master student. His main research interest covers image recognition based on computer vision. E-mail:907022655@qq.com
TU17
10.11996/JG.j.2095-302X.2022040729
A
2095-302X(2022)04-0729-07
2022-01-05;
2022-02-07
7 February,2022
“十三五”國家重點研發計劃項目(2016YFC0702001)
王 正(1997-),男,碩士研究生。主要研究方向為基于計算機視覺的圖像識別。E-mail:907022655@qq.com
鄧雪原(1973-),男,副教授,博士。主要研究方向為建筑CAD協同設計與集成、基于BIM技術的建筑協同平臺等。Email:dengxy@sjtu.edu.cn
DENG Xue-yuan (1973-), associate professor, Ph.D. His main research interests cover architectural CAD collaborative design and integration, building collaborative platform based on BIM technology, etc. E-mail:dengxy@sjtu.edu.cn