基于OCR的圖像型垃圾郵件過濾系統研究

2013-09-04 00:47:08秦偉

機械工程與自動化 2013年6期

秦偉

（長治職業技術學院，山西長治 046000）

0 引言

隨著互聯網的迅速發展，電子郵件以其方便快捷、低成本等優點得到了迅速而廣泛的應用，并成為人們日常交流溝通的主要工具之一。與此同時，大量的垃圾郵件的涌現，尤其是近年發展起來的圖像型垃圾郵件，不僅給垃圾郵件過濾軟件帶來了極大的挑戰，還給大多數用戶和公司帶來了不可想象的各種損失。因此，圖像型垃圾郵件的過濾顯得尤為重要。

1 圖像型垃圾郵件過濾策略

目前大多數學者針對圖像型垃圾郵件的特點所使用的過濾方法有黑白名單過濾算法、貝葉斯過濾算法、決策樹算法和支持向量機（SVM）分類算法。在傳統的垃圾郵件檢測過濾技術的基礎上，對于圖像型郵件過濾步驟是：先經過黑白名單過濾算法過濾，然后使用OCR技術（光學字符識別，Optical Character Recognition）提取出圖像型郵件中的文本，最后使用支持向量機（SVM）分類算法對郵件進行分類，判斷出郵件的類型。

光學字符識別（OCR）技術，通過模式識別的方法將包含有文字的圖像文件轉化成可以編輯的文本文件。OCR軟件對二值化文檔圖像中文字的提取效果非常理想，但這種效果也僅僅局限于二值化的圖像。使用OCR軟件提取圖像郵件中圖像的文字信息，首要任務就是對圖像進行處理，檢測出圖像中的文本區域，然后對其進行二值化。郵件圖像文本檢測和識別系統整體結構見圖1。

2 圖像型郵件圖像文本檢測

對圖像型郵件中圖像文本進行檢測，即對出現在圖像中的文字信息進行文本區域定位。首先要對圖像進行初級處理，即圖像邊緣集提取；其次是對圖像中可能含有文字信息的文本區域進行融合；最后，對候選文本區域進行驗證。

圖1 郵件圖像文本檢測和識別系統整體結構

2．1 圖像邊緣集提取

2．1．1 求圖像邊緣

在大量的圖像邊緣檢測算法中，John F．Canny在1986年提出的Canny算子以最優化算法為基礎，是迄今為止最有效、應用最為廣泛的圖像邊緣提取算法［1］。本文將采用Canny算子檢測郵件圖像的垂直和水平方向的邊緣。

Canny算子的算法具體步驟如下：用高斯濾波平滑圖像，以減少甚至去除圖像中的噪聲；用一階微分偏導數有限差分計算圖像中每個像素點的梯度值和方向；對圖像的梯度幅值進行非極大值抑制；采用雙閾值算法來檢測并連接邊緣，盡量減少偽邊緣段的數量。2．1．2 圖像邊緣細化

通過Canny算子檢測之后，我們得到了目標區域的邊緣圖像，但得到的圖像還很粗糙。由于采用Safe point thinning algorithm（SPTA）細化算法［2］對圖像進行處理后，得到的圖像非常圓潤，幾乎不會出現圖像紋理斷裂現象；且該算法的時間復雜度較低，是公認的處理效果非常好的細化算法，因此，采用SPTA邊緣細化算法來對經Canny算子處理后的圖像進行邊緣細化。

SPTA算法一般使用窗口模式，通過對平滑處理之后圖像的所有像素進行掃描，并以一定的規則對像素點的鄰域進行計算，然后在橫向和縱向兩個方向上同時檢測判斷安全點和可能要被刪除的像素點，進行圖像的細化。

2．2 候選文本區域融合

通過Canny算子［3］對郵件圖像進行邊緣提取，并用SPTA算法進行邊緣細化，得到的圖像邊緣具有較好的連通性，而且邊緣細膩清晰。然而，圖像中還存在一些與圖像文本類似的具有一定規則的背景物體，在圖像邊緣集的提取過程中保存了下來。因此，為了更好地提取郵件圖像中的關鍵文字，接下來主要是去除這些具有干擾性的背景區域，即非文本區域。

對圖像中非文本區域的去除方法是：首先，將圖像區域按顏色視覺特征進行聚類；然后，將那些分布特征較為近似的區域使用小波變換進行圖像的分解，以簡化后續圖像的處理工作；最后，構造出區域能量圖像，并通過文字方向上的投影斷層檢測算法來構建出文字塊。

2．3 候選文本區域融合驗證

經過圖像候選文本區域融合之后，明確了文字的方向，并去除了圖像中文字的重疊部分，接下來就是將候選文本區域中的非文本區域與文本區域進行分離。在此，使用支持向量機SVM分類方法［4］來對相應的特征進行分類，以便得到圖像中的文本區域。

3 圖像型郵件圖像文本識別

經過檢測算法的處理，篩選出了圖像中的文本區域。但是，要使用OCR軟件提取出圖像中的文字，還需要將圖像進行二值化處理。

在對圖像進行二值化處理的過程中［5］，由于背景圖像的影響，很容易引入大量的噪聲。因此，為了提高文本的識別率，對二值化得到的圖像進行去噪處理是圖像識別的另一個重要任務。在眾多的圖像去噪處理方法中，使用目前盛行的基于小波的方法進行去噪，因為它能很好地保持原始圖像中的紋理細節特征，不破壞邊緣輪廓。在圖像文本的識別過程中，將文字的筆畫特征圖和圖像文本顏色層兩種算法相結合，實現組合式過濾模式，可得到質量較高的二值化圖像。

4 結束語

通過成熟的OCR技術識別提取出二值化圖像中的文本，從而實現圖像型垃圾郵件的過濾，效果比較理想。加強對其他郵件過濾技術的學習研究，融合各種技術實現郵件過濾系統是未來的趨勢。

［1］劉偉，張鳳荔，程紅蓉，等．改進ReliefF算法在圖像型垃圾郵件檢測中的應用研究［J］．計算機應用研究，2009，26（9）：3256－3258．

［2］ Lin Jia－zhen，Cao Jiu－xin，Cheng Jie．New approach for spam sample collection［J］．Journal of Southeast University：Natural Science Edition，2008，38（2）：244－248．

［3］ Anayat S，Ahmad ＨＦ．Using aprobable weight based Bayesian approach for spam filtering［G］／／Proceedings of INMIC 2004 8th International Multitopic Conference．［s．l］：［s．n］，2004：340－345．

［4］張長君．郵件服務器中基于地址的一種電子郵件過濾方法［J］．大連大學學報，2002，23（2）：13－15．

［5］耿技，萬明成，程紅蓉，等．基于文本區域特征的圖像型垃圾郵件過濾算法［J］．計算機應用，2008，28（8）：1904－1906．