王夢錦 擁措 李善琛



摘要:該文主要介紹了在過去十幾年內自然場景文本檢測最常用的算法以及其研究趨勢,仔細闡述了藏文在文本檢測與識別上的發展歷程,講述了眾多研究學者根據藏文文字的結構特征,音節符特征等方面進行研究,為后期的藏文古籍文獻檢測試驗打下基礎。
關鍵詞:藏文古籍文該文獻;文本檢測;深度學習;OCR
中圖分類號:TP399 文獻標識碼:A
文章編號:1009-3044(2020)10-0204-04
隨著電子科技和移動互聯網的快速發展,移動電話,相機和其他的移動端的普及,基于傳統的文本搜索已經不能滿足人們的日常需求,人們意識到識別復雜場景下圖片上的文字的必要性。順應時代與信息科技發展的需求,藏文古籍文獻數字化也變得必不可少。藏文古籍文獻的數字化,有助于藏文古籍文獻的保存與文化傳承,有效促進西藏文化的發展。但藏文古籍文獻的文本環境特殊,可用數據集較少,再加上掃描或者用相機進行拍照錄入時,會導致其分辨率降低。而藏文古籍文獻本身就存在眾多問題,隨著時代的變遷,介于藏文古籍文獻的保存完好程度來看,不同的文獻會出現不一樣的清晰度,字體的大小,顏色,尺寸也大不相同,有些文獻會出現字跡模糊,文字扭曲等現象,還有一些非文字區域出現類似于文字的紋理,其干擾檢測的準確率。
針對以上困難,國內外專家對其進行多次的研究,最常見的算法來源于國外,如文獻等;但我國國內對這些經典算法改進迅速,如文獻等。文本檢測傳統方法有:SWT、MSER等;深度學習的方法有:R-CNN、Fast R-CNN、Faster R-CNN、CTPN等。本文將自然場景文本檢測的算法進行總結,闡述了藏文在文字檢測、識別上發展歷程。
1文本檢測研究現狀
1.1自然場景文本檢測研究現狀
傳統文檔分析與現代文檔分析區別在于數據集外觀上的不同,傳統的文檔分析所用的是光學字符識別(Optical Charac-ter Recognition,OCR),OCR技術這一概念是早在20世紀20年代由德國的一位科學家提出,后來由美國的一位科學家將其運用到文字識別上。OCR發展到至今其技術已經相當成熟,但由于OCR技術都運用文本文檔字符排列整齊、背景相對于簡單等特點,他是運用傳統的算法對其進行識別,其識別率較高;而場景文本檢測則具有多樣性、復雜性與不確定性,它包含了不同的文字、語言、不同的字體結構,每一個文字又有可能存在不同的大小,顏色,字體,亮度等,復雜程度大,識別率不高。
我國在20世紀90年代才開始對自然場景文本檢測的研究,相對于其他國家而言起步較晚,但自然場景文本識別在我國發展迅速,目前已成為計算機視覺與模式識別、文檔分析與識別領域的一個研究熱點,一些國際頂級會議,如:CVPR(國際計算機視覺與模式識別會議)、ICCV(國際計算機視覺大會)、EC-CV(歐洲計算機視覺會議),已將其列為重要主題之一。特別是自2003年以來,自然場景文本檢測定期在國際學術會議一文檔分析與識別國際會議(International Conference on DocumentAnalysis and Recognition,ICDAR)上進行比賽,作為該領域最重要的權威比賽之一。該比賽分析了自然場景文本檢測在其領域的研究現狀和發展趨勢,及時地跟蹤和促進該技術的研究和發展。2011年10月,ICDAR首次在國內舉辦,由清華大學電子工程系的丁曉晴教授擔任大會主席。此次會議有助于我國文字識別研究的發展以及國際學術界的交流。文字檢測的效果主要分為P:準確率(Precision,),R:召回率(Recall)和F:標準指數。這三個指標的公式為:
經過ICDAR比賽給出的不同類型的數據集進行訓練后,由于數據集的圖片不同,其評價指標也有所不同。隨著越來越多的研究人員加入這個領域進行研究,越來越多的公開數據集可以提供給這些研究人員來進行對自己的想法進行研究。自此使自然場景文本檢測的技術的瓶頸與難點得以解決,以下就是ICDAR大賽上具有權威性的檢測數據:
由此可見,經過研究學者們這些年的努力,使自然場景文本檢測在我國有了飛躍般的發展。目前自然場景文本識別是眾多研究者研究的對象,主要分為三部分:文本檢測,文本識別和端到端的文本識別嘲。文本檢測是對圖片中的文字進行定位,為后期的文字識別服務,提高文字識別的準確率。自然場景文本檢測主要經歷了兩個階段:首先是基于傳統算法的文本檢測,后在2014年前后出現了基于深度學習的方法,目前基于深度學習的方法已經成了該領域的主流技術。
1.2藏文文本檢測研究現狀
目前為止還沒有看到有關于藏文方面的文本檢測的相關文獻,但藏文識別有關工作從20世紀90年代開始就有相關的研究人員對其進行研究,研究的主要方向都是端到端的文字識別,中國藏文識別的主要研究核心力量是由這5所高校的科研團隊組成:西北民族大學、西藏大學、中國科學院軟件研究所、青海師范大學、西安電子科技大學。
1999年西北民族學院的周毛仁增將藏文字形結構進行了分析跟統計,提出抓住單字,部件之間的分解與組合對藏文文字識別,這個方法對編碼輸入很有用處,其按照藏文的字型結構特點,在理論上通過黑像素總數、用邊熵、黑像素段及單部件四個方向進行藏文字形的統計分析。
2001年清華自動化系的王浩軍,趙南元,鄧鋼鐵三人將文字識別系統中的一些預處理方法成功運用到藏文識別系統上,在此基礎上,他們考慮到藏文本身的書寫方式,提出了一些新的處理方法,并在這些方面上都取到了良好的效果㈣。
2008年西藏大學的普次仁教授為了提高藏文文字的識別率,提出了一些技術方案,在數字圖像識別技術的基礎上,對在有外界干擾的情況下,從二值化,特征提取等方面提高了藏文文字的識別率。
2013年西藏大學的白瑪玉珍同學在藏文文字特征的提取方法上進行了研究,從藏文的結構上提出來一些新的算法:網絡點陣圖形投影法,由于藏文的機構復雜筆畫密度較小,使用該方法應用到藏文識別中會具備更好的效果。
2016西藏民族大學信息工程學院的陳小瑩對不同藏文文本中不規范文本進行分類后,針對不同文字文本制定出不同的規范化處理方法,最后達到實現對藏文文本的規范化處理。
2017年西安電子科技大學的袁道昱在藏族同胞的幫助下將基于深度學習和特征提取的文字識別方法,用到了藏文音節識別的研究中,本文統計出500多種最常用的藏文音節字,同時采集出60套手寫藏文音節字樣本,建立了三萬多個藏文手寫音節字樣本的數據庫,在預處理步驟中,為了保留藏文音節字的特殊結構信息,該文獻用線性歸一化的方法,與非線性歸一化、平滑處理等方法進行結合,最大限度上保留了手寫藏文音節字的原始信息,去除了冗余,更方便于特征的提取與分類識別。
2017年艾金勇提出了一套層次化、基于規則的藏文文本規范處理方案的藏文信息處理,該方案準確的分析整理了藏文文本中各種不規范得文本類型,根據這些不同的文本類型分別設計不同類型的規范化算法,并用程序實現了藏文文本的規范化。
2018年張西群就藏文歷史文獻圖像的文本區域相較其他區域角點密度比較大的問題,提出了一種基于塊投影的藏文歷史文獻文本提取方法,該方法通過結合連通區域分類信息和角點密度信息,對均分的藏文歷史文獻的圖像塊進行過濾;分析過濾后圖像塊的投影,可以獲取文本區域的近似邊緣位置;結合文本區域的近似邊緣位置和文本區域邊緣搜索策略可以搜索得到文本區域的近似邊緣;最后為了矯正由于字符粘連等造成的文本區域邊緣不規則,通過矯正策略對文本區域邊緣點進行坐標矯正。
2018年張西群,馬龍龍,段立娟,劉澤宇,吳健就針對基于卷積降噪自編碼器的藏文歷史文獻版面分析方面做出研究,此次研究提出了一種新的方法,就是將藏文歷史文獻圖像進行超像素聚類獲得超像素塊,再利用卷積降噪自編碼器從中提取特征,最后再使用SVM分類器對其進行分類預測,從而提取出文獻版面的各個部分;此方法在藏文歷史文獻的數據集上多次實驗表明,該方法能夠對藏文歷史文獻的不同版面元素進行有效的分離。
2018年李顏興就主要分析了藏文文本中影響切分的藏文筆畫的原因以及主要因素,提出了兩種方法,該兩種方法都是基于基線的文本行切割方法,其中一種方法是通過模板匹配的方式來計算圖像前半部分,從而估算文本行的個數以及基線的起始位置撮后通過動態追蹤點的方法構建基線;而另一種則是使用Sobel算子,提取每個在藏文音節中的基線。自左向右連接基線構成文本行的基線。最后通過分析基線之間的連通部件,進一步確定文本行切分位置。
2自然場景文本檢測算法
在過去的20年內,研究人員就針對復雜彩色圖像中的文字檢測提出來眾多算法,尤其是近10年內,研究頗多,文獻就是專門研究場景圖片文字檢測的,其檢測的主要兩個核心步驟是:候選文本區域提取與文本/非文本區域。而算法一般來說可以分為基于傳統的算法與基于深度學習的算法這二大類。
2.1基于傳統的文字檢測算法
基于紋理及連通區域的算法大多是將文字看成某種的特定的紋理特征或者某類特定的區域。首先,我們可以用一些方法在圖像中提取候選區域作為文字的候選,這些特殊包括顏色特征、紋理特征、邊緣特征、筆畫寬度變換、極值區域等㈣。這類算法最主要的是在提取文字候選區域,最常用的經典方法是SWTt211(Slroke Width Transform,筆畫寬度變換)和MSER(Maxi-mallv Stable Extremal Regions,最大穩定極值區域)。圖1為基于連通區域的文本檢測算法流程:
SWT算法是有Epshtein等人在2010年提出的一種建立于邊緣檢測的算法上的算法,這一方法最大的優勢在于:筆畫特征基本上屬于穩住獨有的特征。
MSER是2002年作為一種放射區域提取方法被提出直到2010年才被引入文字檢測領域。它是一種圖形結構,對于圖像的平移,旋轉,放射變換等具有不變性。用一個閾值給圖像做二值化處理,極值區域邊界包括區域內大部分的像素值為1,極值區域邊界外的像素值大部分為0,最大穩定極值區域就是指區域內的像素值與區域外的像素值差異明顯,并且區域的面積不會隨著閾值的改變而改變。有些連通區域面積隨閾值上升變化較小,其公式為:
MSER的特點是:對圖像灰度具有仿射變換的不變性;具有相同閾值范圍內所支持的區域才會被選擇的穩定性;無須任何平滑處理就可以實現多尺度檢測,即小的和大的結構都可以被檢測到。
2.2基于深度學習的算法
深度學習是近些年來人工智能方面最熱門的一類方法,自2012年深度學習在ImageNet上面大放異彩之后,大家就注意到深度學習在計算機在視覺領域的巨大潛力。我們先對比一下傳統的文本檢測與基于深度學習的目標檢測之間的不同點f表4來源網絡):
而在文本檢測領域方面最常用的方法有以下幾種:基于候選框的文本檢測(Proposal-based)、基于分割的文本檢測(Seg-mentation-based)、基于兩者方法混合的文本檢(Hybrid-based)、其他方法的文本檢測。近年來,人們嘗試采用CNN網絡進行文本檢測,最經典的算法就是基于Faster-RCNN、SSD、RFCN等。
3文本檢測數據集
現階段,網絡上有著各種不同的數據集供研究學者參考實驗,以此提高檢測,識別的準確率,藏文在數據集上并沒有公開的數據集,需要自己申請,并對申請到的少量數據集采用殘差網絡進行圖像處理,將一張圖片進行處理后會產生很多虛擬圖片,對這些圖片在進行訓練。以下表5為公開實驗數據集的特點:
4總結與展望
從20世紀90年代開始,就有相關的研究人員對藏文進行研究,由于藏文的結構特殊,它是由30個輔音,4個元音組成,而藏字又分為烏金跟烏梅,這就大大提升了文字檢測的難,眾多研究學者就此根據藏文的結構特點,文字特征等方面對藏文進行識別;也有一些研究學者從藏文的音節符出發,提出了新的處理方法;這些方法對后期藏文文獻的識別做出巨大貢獻。由于藏文是7世紀中期,也就是吐蕃贊普松贊干布(617-650)執政時期,創制的文字,后期邀請了印度、尼泊爾、克什米爾、中原內地等周邊國度和區域的學者,協調吐蕃譯師吞彌桑布扎翻譯了大量佛教文獻,而這些文獻是人工手寫翻譯,故有著許多的難點,人工手寫,必定帶有書寫者不同的寫字習慣,文本行可能會存在不同方向,彎曲,旋轉,扭曲等樣式,在進行文字檢測中,很容易出現錯誤。時間的流逝,會使部分古籍上的文字變得模糊不清,再加上我們對這些古籍進行數字化錄入時,掃描出的圖片會受到但是天氣,燈光等不同自然條件的影響,使檢測困難加大,便有專家學者在在前人研究的基礎上,提出用神經網絡對藏文古籍進行研究。這些研究學者提出的新的處理方法,使藏文古籍文獻的檢測識別率提升,也為后人提供了較大的研究基礎。
自然場景下得到的圖片若用在自然場景下得藏文文本檢測的話,這將大大提升了藏族人民的生活質量。現階段自然場景文本識別技術在一些特定的領域有了一些新的應用,比如:智能交通系統(如:美國Hi-Teeh公司的See/Car svstem以及香港Asia Vision Technology公司的VECON-VIS等);基于內容的視頻檢索系統f如:美國卡耐基梅隆大學的Informe-dia DigitalVideo Library以及美國哥倫比亞大學的Web Seek等1:可穿戴/便攜式視覺系統(美國麻省理工學院的Finger Reader以及Goggles等),除了上述應用以外,一些研究者還將自然場景文本檢測技術應用到圖像理解,文種識別等領域,相比自然場景文本檢測技術的潛在應用市場,上述應用只是“冰山一角”在生活方面,自然場景文本識別可以輔助無人駕駛車來讀取交通標識信息,通過識別來提高形式規劃能力等,自然場景文本檢測將會隨著時代的進行,在時代發展的驅動下不斷擴展,不斷成熟。