基于視覺顯著性的信封地址塊定位方法

2015-12-06 06:11:44程美玲張漢超續(xù)晉華

計算機工程 2015年11期

關(guān)鍵詞：特征區(qū)域檢測

程美玲，張漢超，續(xù)晉華

（華東師范大學(xué)計算機科學(xué)技術(shù)系，上海200241）

基于視覺顯著性的信封地址塊定位方法

程美玲，張漢超，續(xù)晉華

（華東師范大學(xué)計算機科學(xué)技術(shù)系，上海200241）

貼條信封具有背景復(fù)雜、貼條地址塊不固定等特點，傳統(tǒng)的基于規(guī)則的地址塊定位方法難以準(zhǔn)確識別信封的背景和目標(biāo)地址塊。針對該問題，提出一種基于視覺顯著性的貼條信函地址塊定位方法。采用二值化歸一梯度方法快速檢測出圖像中與訓(xùn)練地址塊具有相似局部顯著性分布的塊狀區(qū)域，作為候選區(qū)域，抽取候選區(qū)域的位置、灰度、梯度、紋理等基于外觀的特征，使用協(xié)方差進行非線性融合，生成區(qū)域協(xié)方差描述子，利用支持向量機實現(xiàn)訓(xùn)練和分類。為了精確定位地址塊區(qū)域中的文字，用圖像簽名技術(shù)計算稀疏顯著性并通過高斯濾波器進行平滑。實驗結(jié)果表明，該方法能快速準(zhǔn)確定位目標(biāo)地址塊，平均準(zhǔn)確率達(dá)到85.8%，比基于條件隨機場的地址塊定位方法高33.5%。

視覺顯著性；地址塊定位；區(qū)域協(xié)方差；二值化歸一梯度；支持向量機

1 概述

隨著我國經(jīng)濟的高速發(fā)展，信函和包裹的數(shù)量呈現(xiàn)爆炸性增長，對郵政自動化分揀系統(tǒng)提出了更大的挑戰(zhàn)。郵政自動化分揀通常是采集信件和包裹的圖像，通過對圖像的分割與處理獲取郵政編碼區(qū)域和目的地址區(qū)域，再采用字符識別系統(tǒng)進行字符識別，從而實現(xiàn)自動分揀。由分揀流程可知，信函上目的地址塊的定位和識別是郵政分揀機的重要組成部分，是實現(xiàn)信件和包裹自動分揀的關(guān)鍵。

直接郵遞廣告/郵政商業(yè)廣告，是區(qū)別于傳統(tǒng)的電視、廣播、報刊、戶外廣告的第五大廣告媒體，由于其市場定位精確、針對性強、效果顯著等優(yōu)勢受到越來越多企業(yè)青睞。貼條信函作為郵政商業(yè)廣告信函最通用的信函，使用的用戶也越來越多。貼條信函與傳統(tǒng)信函顯著不同，首先郵政編碼以及目的地址的位置較為隨機，其次貼條信函通常采用透明塑料材質(zhì)，因此，信封上的地址和信封內(nèi)的廣告內(nèi)容相混合，使得背景更加復(fù)雜。由于傳統(tǒng)的基于規(guī)則的地址塊定位方法不能適應(yīng)貼條信函的這2種特性，自動分揀機對貼條信函的分揀效率和準(zhǔn)確率大大降低，因此研究專門針對這種具有復(fù)雜背景的貼條信函的地址塊定位方法具有現(xiàn)實意義和應(yīng)用價值。

信封的目的地址塊定位方法大致可以分為2類：（1）基于候選區(qū)域的方法，即先將信封圖像進行區(qū)域分割，得到若干目的地址塊的候選區(qū)域，然后從中選取一個或多個最佳的區(qū)域作為定位結(jié)果；（2）直接從信封圖像中提取目的地址塊。Jeong等提出了一種經(jīng)典的從候選集中選擇最佳塊作為地址塊的方法：首先從閾值圖像中抽取連接的成分，依次將點合并成線、將線組合成塊，最后從所有的塊中選擇出一個最佳塊作為地址塊［1］。文獻［2］基于分形維數(shù)提出了一種更有效的方法，該方法使用k-means方法對所有的像素進行標(biāo)記，即標(biāo)記成背景、噪音或者語義對象（如地址塊、郵戳等）。文獻［3］基于分層圖著色以及圖像金字塔提出了一種有效的定位方法，該方法對已有的地址塊提取方法進行了折衷。文獻［4］利用圖像分割算法對圖像進行二值化并使用形態(tài)學(xué)方法消除與地址塊無關(guān)的部分。文獻［5］主要使用小波分解將圖像轉(zhuǎn)換成基礎(chǔ)塊，將郵票、地址塊等轉(zhuǎn)換成標(biāo)識的顯著性點，該模型也取得了較準(zhǔn)確和健壯的結(jié)果。文獻［6］針對貼條信封提出了通過對像素點求橫向投影的方法來確定地址行，該方法直觀且易于實現(xiàn)，但只適用于背景簡單的信封圖像，對地址行的傾斜、郵戳、圖片等大塊污染的適應(yīng)性較差。文獻［7］先將信封圖像轉(zhuǎn)化為二值圖像再經(jīng)過噪聲濾波等預(yù)處理后提取連通域。用模式分類的方法將非文本特性的連通域（如噪聲塊、圖形塊、圖像塊）去除，并由文本塊合并成文本行。這類基于規(guī)則的方法難以準(zhǔn)確識別廣告信封中復(fù)雜的背景和目標(biāo)，因此，本文提出一種基于視覺顯著性的信封地址塊定位方法（Address Block Localization M ethod Based on V ision Saliency，ABLVS），模擬人類的視覺注意機制進行地址塊定位。

2 相關(guān)工作

本文方法是專門針對具有復(fù)雜背景的貼條信函提出的。首先根據(jù)貼條信封中目的地址塊、發(fā)件人地址塊、郵戳、郵票、廣告圖案等多為塊狀區(qū)域，并存在一定距離的特性，采用兩級的檢測結(jié)構(gòu)即基于候選的檢測框架。先通過簡單、有效的特征和運算方法對圖像進行快速分析，計算候選地址塊。再對所有候選地址塊提取精確特征，運用分類算法進行判定，從而獲得目的地址塊。

同時ABLVS構(gòu)建了三級顯著性檢測機制。首先通過構(gòu)建自上而下的顯著性模型，選取與訓(xùn)練地址塊具有相似局部顯著性分布的區(qū)域，作為候選地址塊，接著構(gòu)建自上而下基于外觀的顯著性檢測模型，包含以下步驟：提取候選地址塊基于外觀的特征、計算區(qū)域協(xié)方差、采用支持向量機（Support Vetor M achine，SVM）計算候選地址塊的顯著性；由于候選地址塊具有稀疏顯著性特性，ABLVS進一步構(gòu)建稀疏顯著性檢測機制如提取圖像簽名、進行高斯濾波；最后進行簡單的后處理，確定結(jié)果。如圖1所示，ABLVS定位方法的測試流程主要包含候選塊選取、特征提取、區(qū)域協(xié)方差矩陣計算、SVM分類、文字定位和后處理6個部分。

圖1 基于視覺顯著性的地址塊定位方法流程

2.1 視覺顯著性

認(rèn)知心理學(xué)表明，人們在觀察圖像和場景時，有些區(qū)域能吸引人的注意，而這些區(qū)域含有大量的信息［8］。信封圖像中的目標(biāo)地址塊就是這樣的區(qū)域，人們往往一眼看中地址條區(qū)域，而自動忽略郵戳、郵票、廣告、圖案等背景信息。本文方法正是模擬人類的這種視覺注意機制進行自動化地址定位。視覺顯著性檢測根據(jù)是否利用目標(biāo)信息分為自上而下的機制和自下而上的機制。自下而上的機制是一種非監(jiān)督模型，直接通過特征分析，檢測圖像中與其他物體差異最大的區(qū)域即最顯著的目標(biāo)。自上而下的機制則和任務(wù)有關(guān)，是一種監(jiān)督學(xué)習(xí)模型，在圖像中尋找特定的目標(biāo)。

2.2 區(qū)域協(xié)方差

區(qū)域協(xié)方差是近年來興起的一種描述圖像區(qū)域特征的描述子。最早由Tuzel，Porikli等在2006年提出［9］。區(qū)域協(xié)方差比梯度方向直方圖（Histogram of Gradient，HOG）特征、尺度不變特征變換等區(qū)域描述子更加通用，可以對目標(biāo)的多維特征進行非線性融合，并且對目標(biāo)的形變、旋轉(zhuǎn)、尺度變化都具有很強的不變性，同時對光照的變化也具有不敏感的特性，被廣泛應(yīng)用于目標(biāo)檢測和目標(biāo)跟蹤［10-11］、自然場景分類［12］、人臉識別［13］等領(lǐng)域，并取得了較好的結(jié)果。

2.3 支持向量機

支持向量機是在解決小樣本、非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢。由于低維空間向量集難以線性劃分，解決的最好方式就是使用核函數(shù)將它們映射到高維空間，得到高維空間上的分類函數(shù)。LibSVM［14］是一個開源的SVM工具包，具有運算速度快、使用靈活、易于擴展等優(yōu)點，是目前應(yīng)用較多的支持向量機庫。

3 ABLVS方法

3.1 基于自上而下視覺顯著性的候選地址塊檢測

現(xiàn)有的自下而上的視覺顯著性大多只適用于簡單場景，如只有單一物體。而貼條信封的背景十分復(fù)雜，地址塊區(qū)域往往不是信封圖像中最顯著的區(qū)域，確切地說不能只利用現(xiàn)有自下而上模型求得顯著性值較大的區(qū)域。本文認(rèn)為在復(fù)雜背景下，區(qū)域的局部顯著性分布（如中心顯著性高，周邊顯著性低）比顯著性的值更有意義，為方便計算，本文采用梯度絕對值度量區(qū)域的局部顯著性，構(gòu)建自上而下的顯著性檢測機制。實際上本文是利用最新的研究成果二值化歸一梯度（Binarized Normed Gradient，BING）方法［15］，進行顯著性計算，從而選取與訓(xùn)練地址塊具有相似局部顯著性分布的區(qū)域為候選地址塊。

BING方法以簡單的8×8維的二值化歸一梯度為特征，采用支持向量機，計算不同尺度下圖像窗口的物體完整性。而每個圖像窗口只需要進行2次浮點數(shù)的乘法、一次浮點數(shù)的加法以及十幾個位運算，計算速度快，每秒能處理300幅圖像以上。需要注意的是本文運用的BING方法與文獻［15］不同。首先文獻［15］BING的提出是為了檢測完整的物體，而本文用它來檢測具有相似局部顯著性分布的區(qū)域。文獻［15］假設(shè)完整的物體是中心梯度較小周邊梯度較大的區(qū)域，而本文假設(shè)目標(biāo)區(qū)域是與訓(xùn)練集具有相似顯著性分布的區(qū)域。其次文獻［15］是在多類物體上進行訓(xùn)練以提高檢測一般“完整性”的能力，而本文只在目的地址塊上進行訓(xùn)練，以檢測相似顯著性分布。圖2為BING方法檢測出的與人工標(biāo)記最接近的候選地址塊（每幅圖像可檢測出300個左右）。由圖可知，該方法得了較好的結(jié)果。而采用傳統(tǒng)的滑動窗口（Sliding W indow，SW）機制，如大小設(shè)定為80×160像素、步長為16像素，一幅480× 640像素的測試圖像的檢測窗口數(shù)多達(dá)806，而且由于窗口大小、步長等參數(shù)需人為設(shè)置，自適應(yīng)能力較差。

圖2 基于BING的候選地址塊選取

3.2 基于外觀的顯著性檢測

3.2.1 區(qū)域協(xié)方差描述子

區(qū)域協(xié)方差具有表征區(qū)域的結(jié)構(gòu)信息，可以對不同類型的特征進行非線性融合，對旋轉(zhuǎn)、尺度以及亮度變化都具有有一定的不變性。本文將其作為候選地址塊的區(qū)域特征描述子。對于一個大小為W× H像素的圖像I，其特征圖像F（x，y）定義為：

其中，φ（I，x，y）為圖像中像素點（x，y）的特征向量；d為特征向量的維數(shù)。特征向量可以為像素的空間位置信息、灰度、顏色、梯度、中心-邊緣特征，也可以為各種濾波器的響應(yīng)值。特征向量的選擇可以根據(jù)具體的任務(wù)來確定，本文采用基于外觀的特征提取。

對于給定的區(qū)域R，R內(nèi)的點的特征向量為μR為｛zk｝k=1，2，…，n，則該區(qū)域的d×d維的協(xié)方差矩陣定義為：

其中，n為區(qū)域內(nèi)像素的個數(shù)；μR為｛zk｝k=1，2，…，n的均值向量：

本文采用區(qū)域協(xié)方差矩陣將區(qū)域內(nèi)像素點的d維特征φ（I，x，y）進行非線性的融合，構(gòu)成d×d維的實對稱正定矩陣。區(qū)域協(xié)方差矩陣的對角線為區(qū)域內(nèi)每個獨立特征的方差，非對角線上的元素則表示不同元素之間的相關(guān)性。因此，區(qū)域協(xié)方差矩陣只與特征向量的維數(shù)有關(guān)，而與區(qū)域的大小無關(guān)，從而適用于由BING方法獲得的大小不一的候選地址塊。

3.2.2 基于外觀的特征提取

為準(zhǔn)確描述貼條信封圖像的特征，式（1）中φ（I，x，y）為每個像素的位置、灰度、梯度以及紋理等特征，構(gòu)成基于外觀的特征描述子：

（1）位置特征

區(qū)域內(nèi)每個點的橫坐標(biāo)和縱坐標(biāo)。位置特征在區(qū)域協(xié)方差中廣泛應(yīng)用。它能夠表征同一個區(qū)域內(nèi)不同像素點之間的相對位置。由于BING方法生成的候選地址塊的大小均不相同，因此位置特征是有效的。它的重要性還體現(xiàn)于與協(xié)方差矩陣中非對角線元素的關(guān)系上［10］。

（2）灰度特征

由于人類的視覺機制對顏色信息非常敏感，因此彩色圖像中的顏色以及灰度圖像中的灰度值是非常重要的特征。在信函的灰度圖中，雖然存在文字、郵戳、郵票、圖片等不同物體，但是相同物體的灰度值接近甚至是相同的。而且地址條通常由黑色的文字和空白區(qū)域交替構(gòu)成。因此，灰度特征是非常重要的線索。

（3）梯度特征

本文采用灰度的一階和二階梯度，定義為：

其中，采用的模板為［-1 0 1］T，［-1 2-1］T。

（4）紋理特征

在現(xiàn)實世界中，各種不同的物體表面上往往具有不同的紋理，對紋理的研究也產(chǎn)生了很多方法，如灰度直方圖、邊緣直方圖、灰度共生矩陣、濾波器響應(yīng)等。信函圖像的紋理特征也很明顯，本文采用濾波器響應(yīng)作為其紋理特征。所使用的9個濾波器來自于文獻［16］中的濾波器庫，分別是6個方向濾波器、2個中央-邊緣濾波器，以及一個高斯低通濾波器。圖3為所采用的濾波器及其響應(yīng)示意圖。從圖中可以看出前6維方向特征刻畫出圖像各個方向的梯度信息，2個中央-邊緣濾波器則刻畫了中心和周邊的關(guān)系，最后一個是經(jīng)過高斯低通濾波后的效果圖。

圖3 采用濾波器的紋理特征提取

至此本文提取了4種類型的特征，分別是2維、1維、4維、9維，共16維。對每個候選地址塊，先提取特征向量，再生成16×16維的區(qū)域協(xié)方差矩陣。

3.3 SVM分類

本文采用SVM作為分類器。由于區(qū)域協(xié)方差矩陣是一種實對稱正定矩陣，為黎曼流形空間，傳統(tǒng)的向量化后采用歐式距離度量的方法將破壞其結(jié)構(gòu)特征，因此徑向基等核函數(shù)并不適用。文獻［17］提出了一種行之有效的方法：對數(shù)歐式高斯核。設(shè)S，T是正定矩陣，則對數(shù)歐式高斯核定義為：

當(dāng)A為對角矩陣如A=diag｛β｝，且β＞0時，式（5）為：

在訓(xùn)練階段，通過計算訓(xùn)練樣本中人工標(biāo)記獲得的目的地址塊的區(qū)域協(xié)方差矩陣，并采用該核函數(shù)進行訓(xùn)練，獲得SVM分類器模型。在測試階段，將候選地址塊的區(qū)域協(xié)方差矩陣送入SVM模型進行分類，求得屬于目的地址塊的概率。概率越高，顯著性越大，其屬于目的地址塊的可能性越大。

由于BING方法計算的候選地址塊相互重疊以及單個候選地址塊所含目標(biāo)不完整等原因，本文選取SVM概率最高的5個候選地址塊作為目標(biāo)地址塊的初步結(jié)果。

3.4 基于稀疏顯著性的文字定位方法

稀疏性是注意力分布的重要特征。可以自然地假設(shè)，在地址塊上，注意力會集中在文字部分，因此，求出地址塊上的顯著部分，也就求出了文字部分。而初步結(jié)果中的地址條區(qū)域一般為白底黑字，文字部分相對于地址塊是稀疏的，即占據(jù)了一部分的高頻率區(qū)域，由此，本文采用圖像簽名技術(shù)求出稀疏顯著性，快速定位出地址塊中的文字部分。

圖像簽名［18］利用壓縮感知原理，從理論上證明了在稀疏背景條件下，利用相位譜可以把目標(biāo)標(biāo)注為顯著區(qū)域，從而有效分離目標(biāo)和背景。本文采用離散余弦變換（Discrete Cosine Transform，DCT）的符號作為圖像簽名的值，定義為：

再將圖像簽名的值求反離散余弦變化，求得重構(gòu)圖像：

由此顯著性圖Sal定義為：

由于圖像簽名技術(shù)求得的顯著性圖存在噪聲、孤立點、細(xì)紋等，因此需要使用高斯濾波器進行平滑。經(jīng)高斯濾波器平滑后的顯著性圖為：

3.5 后處理操作

為了使檢測結(jié)果更加規(guī)整，本文進行了簡單的后處理操作，首先去掉面積較小的孤立區(qū)域，再采用形態(tài)學(xué)的開關(guān)操作去除較小的孔洞。圖4顯示了一幅測試圖像ABLVS定位的整個流程，其中，圖4（h）中框內(nèi)為檢測出的目的地址區(qū)域。

圖4 ABLVS地址塊定位過程

4 實驗結(jié)果與分析

本文采用的數(shù)據(jù)庫是從中國郵政院采集到的288幅貼條信封圖像。這些信件均為廣告信件，采用透明塑料信封，郵戳、郵票也采用貼條形式，與目標(biāo)地址塊存在較大相似性，因此，加大了檢測的難度。

在實驗中，首先將信封平均分為兩部分，分別用于訓(xùn)練模型和測試。其次人工標(biāo)記出所有信函的目的地址區(qū)域。在訓(xùn)練階段，對于每個訓(xùn)練圖片，以人工標(biāo)記的目的地址塊為正樣本，再隨機抽取5個160× 80像素的與正樣本不重合的區(qū)域為負(fù)樣本。由于郵戳、郵票也多采用貼條的形式，與目的地地址具有較大相關(guān)性，為了增強對它們的辨識能力，本文增加了150個人工標(biāo)記的郵戳、郵票區(qū)域為負(fù)樣本。對所有訓(xùn)練樣本，均提取基于位置和外觀的特征向量，生成區(qū)域協(xié)方差矩陣，采用LibSVM［14］訓(xùn)練模型。

在測試階段，對每個測試圖片，采用BING方法計算候選地址塊。再對每個候選地址塊提取基于外觀的特征向量，計算區(qū)域協(xié)方差矩陣。實驗中對數(shù)歐式高斯核函數(shù)的β為0.02，高斯濾波器中σ為25。

圖5展示了ABLVS算法的部分實驗效果。由圖可知，該算法對信封光照變化、地址條位置變化、旋轉(zhuǎn)、褶皺以及郵戳、郵票等干擾信息均具有較強的適應(yīng)性。這是因為區(qū)域協(xié)方差矩陣的計算和特征的順序以及個數(shù)無關(guān)，所以對物體的形變和旋轉(zhuǎn)具有較好的不變性。其次，從式（2）可知，在計算區(qū)域協(xié)方差矩陣時減去了均值分量，因而對光照等變化不敏感。從圖中也可以看出，本文方法可以精確定位到地址條中的文字區(qū)域，這是由于采用了稀疏顯著性的文字定位方法。

圖5 本文方法實驗結(jié)果

為了量化BING方法相對滑動窗口機制的優(yōu)勢，表1顯示了ABLVS算法和基于條件隨機場算法［19］的比較結(jié)果?；跅l件隨機場算法是采用HOG特征，通過聯(lián)合訓(xùn)練條件隨機場以及字典的方法定位目的地址塊的方法。由表可知，ABLVS算法平均準(zhǔn)確率和平均召回率分別為85.8%和84.7%，比基于條件隨機場算法分別高33.5%和54.5%，具有準(zhǔn)確率和召回率高，拒識率低的特點。這是因為一方面，ABLVS算法是專門針對具有復(fù)雜背景的貼條信封設(shè)計的，考慮了貼條信封的一些特性；另一方面協(xié)方差矩陣是將不同類型的特征進行非線性融合，而HOG則是進行線性融合。再者，ABLVS算法采用了兩級檢測機制，檢測準(zhǔn)確率高，而漏檢率低，后者采用固定大小的滑動窗口機制，自適應(yīng)能力差，且容易漏檢。表1中第2行采用滑動窗口作為候選地址塊，其他步驟同本文方法。從表中可以看出采用BING方法定位候選地址塊效果優(yōu)于滑動窗口。一方面是因為采用滑動窗口機制最終需要通過插值算法計算像素點的顯著性，而BING方法檢測出的候選區(qū)域反映了圖像的區(qū)域顯著性，它比像素點顯著性更有意義。另一方面，滑動窗口沒有利用訓(xùn)練圖像的底層特征，而BING方法則考慮了訓(xùn)練圖像的底層特征。滑動窗口人為設(shè)置窗口的大小和步長，是單一尺度，而BING方法考慮了多尺度檢測。圖6為2種方法實驗效果的比較，ABLVS方法檢測效果更好。然而，本文方法也存在著不足，如在光照過暗的情況下目的地址塊和郵戳不能有效區(qū)分、地址條存在漏檢等。圖7為部分檢測效果不佳的效果圖。

表1 3種方法的實驗結(jié)果比較%

圖6 2種方法的實驗結(jié)果比較

圖7 本文方法檢測效果不佳的圖片

5 結(jié)束語

本文提出一種基于視覺顯著性的貼條信封目的地址塊定位方法。該方法模擬人的視覺注意機制，構(gòu)建了3級顯著性檢測模型。實驗結(jié)果表明，盡管貼條信封的背景信息很復(fù)雜，ABLVS方法依然取得了較好的效果，不僅能夠有效提取貼條信封的目的地址塊，而且能精確定位地址條中的文字區(qū)域，對信封圖像中郵戳、郵票、圖片以及廣告文字等具有較強適應(yīng)性，具有定位準(zhǔn)確、召回率高等優(yōu)點。另外該方法利用了BING方法避免了滑動窗口機制對整幅圖像進行遍歷搜索所帶來的耗時問題。后續(xù)工作將一方面考慮對協(xié)方差的計算進行優(yōu)化，進一步縮短方法時間。另一方面BING方法檢測出的候選窗口大多相互重疊，因此，將考慮使用多尺度檢測方法將重疊的窗口融合，以減少候選區(qū)域。

［1］ Jeong S H，Jang S I，Nam Y S.Locating Destination Address Block in Korean Mail Images［C］//Proceedings of the 17th International Conference on Pattern Recognition.Cambridge，UK：［s.n.］，2004：387-390.

［2］ Eiterer L F，F(xiàn)acon J，Menoti D.Postal Envelope Address B lock Location by Fractal Based Approach［C］// Proceedings of Computing Graphics and Im age.Curitiba，Brazil：IEEE Computing Society Press，2004：90-97.

［3］ Gaceb D，Eglin V，Lebourgeois F，et al.A New Pyramidal Approach for the Address Block Location Based on Hierarchical Graphcoloring［C］//Proceedings of International Conference on Image Analysis and Recognition. Montreal，Canada：［s.n.］，2007：1276-1288.

［4］ Dong Xinghui，Dong Junyu，Wang Shengke.Segmentation of Chinese Postal Envelope Images for Address Block Location［C］//Proceedings of International Conference on Advances in Visual Computing.Las Vegas，USA：［s.n.］，2009：558-567.

［5］ Menoti D，Leandro B D，Britto A S.Salient Features and Hypothesis Testing：Evaluating a Novel Approach for Segmentation and Address Block Location［C］// Proceedings of CVPR'03.Madison，USA：［s.n.］，2003：29.

［6］呂岳，鄔建中.窗口信函郵政編碼分割與識別系統(tǒng)的研究和實現(xiàn)［J］.計算機研究與發(fā)展，1999，36（8）：988-991.

［7］薛君良，丁曉青，劉長松，等.中文手寫信封目的地址塊的定位［J］.清華大學(xué)學(xué)報：自然科學(xué)版，2000，40（1）：35-38.

［8］樓甜甜.基于自然場景統(tǒng)計特性的視覺顯著性模型研究［D］.上海：華東師范大學(xué)，2011.

［9］ Tuzel O，Porikli F，Meer P.Region Covariance：A Fast Descriptor for Detection and Classfification［C］//Proceedings of ECCV'06.Berlin，Germany：Springer-Verlag，2006：589-600.

［10］ Erdem E，Aykut E.Visual Saliency Estimation by Nonlinearly Integrating Features Using Region Covariances［J］.Journal of Vision，2013，13（4）：1-20.

［11］ Hu Weiming，Li Xi，Luo Wenhan，et al.Single and Multiple Object Tracking Using Log-euclidean Riemannian Subspace and Block-division Appearance Model［J］. IEEE Transactions on Pattern Analysis and Machine Intelligence，2012，34（12）：2420-2440.

［12］ Wang Liwei，Li Yin，Jia Jiaya，et al.Learning Sparse Covariance Patterns for Natural Scenes［C］//Proceedings of CVPR'12.Providence，USA：［s.n.］，2012：2767-2774.

［13］ Pang Yanw ei，Yuan Yuan，Li Xuelong.Gabor-based Region Covariance Matrices for Face Recognition［J］. IEEE Transactions on Circuits and Systems for Video Technology，2008，18（7）：989-993.

［14］ Chang Chihchung，Lin Chihjen.LIBSVM——A Library for Support Vector Machines［EB/OL］.（2014-11-15）. http：//www.csie.ntu.edu.tw/～cjlin/libsvm/.

［15］ Cheng M ingm ing.BING：Binarized Normed Gradients for Objectness Estimation at300fps［C］//Proceedings of CVPR'14.Washington D.C.，USA：IEEE Press，2014：3286-3293.

［16］ Leung T，M alik J.Representing and Recognizing the Visual Appearance of Materials Using Three-dimensional Textons［J］.International Journal of Computing Vision，2001，43（1）：29-44.

［17］ Li Peihua，W ang Qilong，Zuo Wangmeng，et al.Logeuclidean Kernels for Sparse Representation and Dictionary Learning［C］//Proceedings of ICCV'13. Sydney，Australia：［s.n.］，2013：1601-1608.

［18］ Hou Xiaodi，Harel J，Koch C.Image Signature：Highlighting Sparse Salient Regions［J］.IEEE Transactions on PAM I，2012，34（1）：194-201.

［19］ Cheng Meiling，Xu Jinhua.Address Block Localization for Chinese Postal Envelopes with Clutter Background［C］// Proceedings of the 11th International Conference on ICNCFSKD.Washington D.C.，USA：IEEE Press，2014：638-643.

編輯劉冰

Envelope Address Block Localization Method Based on Vision Saliency

CHENG Meiling，ZHANG Hanchao，XU Jinhua
（Department of Computing Science&Technology，East China Normal University，Shanghai200241，China）

Traditional address localization methods based on rules are difficult to accurately identify the background and target address block in envelope with cluster background due to its complicated background，not fixed position，etc.This paper presents an address block localization method based on vision saliency.It uses the Binarized Normed Gradient（BING）method to identify the candidate regions，whose local saliency maps are similar with the training blocks.Region covariance descriptors are adopted to nonlinerly fuse various low-level features，for example，pixel location，intensity，gradient and texture features.Support Vector Machine（SVM）are applied to classify the cadidate regions into address or non-address block.In order to further pinpoint the address block's text region in envelopes，it uses the image signature to compute sparsity saliency and Gaussian filter to smooth the saliency map.Experimental results show that this method can accurately locate the target address block with the accuracy of 85.8%，which is 33.5%higher than methods based on conditional random fields.

vision saliency；address block localization；region covariance；Binarized Normed Gradient（BING）；Support Vector Machine（SVM）

程美玲，張漢超，續(xù)晉華.基于視覺顯著性的信封地址塊定位方法［J］.計算機工程，2015，41（11）：232-238.

英文引用格式：Cheng Meiling，Zhang Hanchao，Xu Jinhua.Envelope Address Block Localization Method Based on Vision Saliency［J］.Computing Engineering，2015，41（11）：232-238.

1000-3428（2015）11-0232-07

TP18

10.3969/j.issn.1000-3428.2015.11.040

國家自然科學(xué)基金資助項目（61175116）；上海高校知識服務(wù)平臺可信物聯(lián)網(wǎng)產(chǎn)學(xué)研聯(lián)合研發(fā)中心基金資助項目（ZF1213）。

程美玲（1988-），女，碩士研究生，主研方向：圖形圖像處理，計算機視覺；張漢超，碩士研究生；續(xù)晉華，副教授、博士。

2014-11-25

2014-12-27 E-m ail：jhxu@cs.ecnu.edu.cn