999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于OCR的圖像型垃圾郵件過濾系統研究

2013-09-04 00:47:08
機械工程與自動化 2013年6期
關鍵詞:文本區域檢測

秦 偉

(長治職業技術學院,山西 長治 046000)

0 引言

隨著互聯網的迅速發展,電子郵件以其方便快捷、低成本等優點得到了迅速而廣泛的應用,并成為人們日常交流溝通的主要工具之一。與此同時,大量的垃圾郵件的涌現,尤其是近年發展起來的圖像型垃圾郵件,不僅給垃圾郵件過濾軟件帶來了極大的挑戰,還給大多數用戶和公司帶來了不可想象的各種損失。因此,圖像型垃圾郵件的過濾顯得尤為重要。

1 圖像型垃圾郵件過濾策略

目前大多數學者針對圖像型垃圾郵件的特點所使用的過濾方法有黑白名單過濾算法、貝葉斯過濾算法、決策樹算法和支持向量機(SVM)分類算法。在傳統的垃圾郵件檢測過濾技術的基礎上,對于圖像型郵件過濾步驟是:先經過黑白名單過濾算法過濾,然后使用OCR技術(光學字符識別,Optical Character Recognition)提取出圖像型郵件中的文本,最后使用支持向量機(SVM)分類算法對郵件進行分類,判斷出郵件的類型。

光學字符識別(OCR)技術,通過模式識別的方法將包含有文字的圖像文件轉化成可以編輯的文本文件。OCR軟件對二值化文檔圖像中文字的提取效果非常理想,但這種效果也僅僅局限于二值化的圖像。使用OCR軟件提取圖像郵件中圖像的文字信息,首要任務就是對圖像進行處理,檢測出圖像中的文本區域,然后對其進行二值化。郵件圖像文本檢測和識別系統整體結構見圖1。

2 圖像型郵件圖像文本檢測

對圖像型郵件中圖像文本進行檢測,即對出現在圖像中的文字信息進行文本區域定位。首先要對圖像進行初級處理,即圖像邊緣集提取;其次是對圖像中可能含有文字信息的文本區域進行融合;最后,對候選文本區域進行驗證。

圖1 郵件圖像文本檢測和識別系統整體結構

2.1 圖像邊緣集提取

2.1.1 求圖像邊緣

在大量的圖像邊緣檢測算法中,John F.Canny在1986年提出的Canny算子以最優化算法為基礎,是迄今為止最有效、應用最為廣泛的圖像邊緣提取算法[1]。本文將采用Canny算子檢測郵件圖像的垂直和水平方向的邊緣。

Canny算子的算法具體步驟如下:用高斯濾波平滑圖像,以減少甚至去除圖像中的噪聲;用一階微分偏導數有限差分計算圖像中每個像素點的梯度值和方向;對圖像的梯度幅值進行非極大值抑制;采用雙閾值算法來檢測并連接邊緣,盡量減少偽邊緣段的數量。2.1.2 圖像邊緣細化

通過Canny算子檢測之后,我們得到了目標區域的邊緣圖像,但得到的圖像還很粗糙。由于采用Safe point thinning algorithm(SPTA)細化算法[2]對圖像進行處理后,得到的圖像非常圓潤,幾乎不會出現圖像紋理斷裂現象;且該算法的時間復雜度較低,是公認的處理效果非常好的細化算法,因此,采用SPTA邊緣細化算法來對經Canny算子處理后的圖像進行邊緣細化。

SPTA算法一般使用窗口模式,通過對平滑處理之后圖像的所有像素進行掃描,并以一定的規則對像素點的鄰域進行計算,然后在橫向和縱向兩個方向上同時檢測判斷安全點和可能要被刪除的像素點,進行圖像的細化。

2.2 候選文本區域融合

通過Canny算子[3]對郵件圖像進行邊緣提取,并用SPTA算法進行邊緣細化,得到的圖像邊緣具有較好的連通性,而且邊緣細膩清晰。然而,圖像中還存在一些與圖像文本類似的具有一定規則的背景物體,在圖像邊緣集的提取過程中保存了下來。因此,為了更好地提取郵件圖像中的關鍵文字,接下來主要是去除這些具有干擾性的背景區域,即非文本區域。

對圖像中非文本區域的去除方法是:首先,將圖像區域按顏色視覺特征進行聚類;然后,將那些分布特征較為近似的區域使用小波變換進行圖像的分解,以簡化后續圖像的處理工作;最后,構造出區域能量圖像,并通過文字方向上的投影斷層檢測算法來構建出文字塊。

2.3 候選文本區域融合驗證

經過圖像候選文本區域融合之后,明確了文字的方向,并去除了圖像中文字的重疊部分,接下來就是將候選文本區域中的非文本區域與文本區域進行分離。在此,使用支持向量機SVM分類方法[4]來對相應的特征進行分類,以便得到圖像中的文本區域。

3 圖像型郵件圖像文本識別

經過檢測算法的處理,篩選出了圖像中的文本區域。但是,要使用OCR軟件提取出圖像中的文字,還需要將圖像進行二值化處理。

在對圖像進行二值化處理的過程中[5],由于背景圖像的影響,很容易引入大量的噪聲。因此,為了提高文本的識別率,對二值化得到的圖像進行去噪處理是圖像識別的另一個重要任務。在眾多的圖像去噪處理方法中,使用目前盛行的基于小波的方法進行去噪,因為它能很好地保持原始圖像中的紋理細節特征,不破壞邊緣輪廓。在圖像文本的識別過程中,將文字的筆畫特征圖和圖像文本顏色層兩種算法相結合,實現組合式過濾模式,可得到質量較高的二值化圖像。

4 結束語

通過成熟的OCR技術識別提取出二值化圖像中的文本,從而實現圖像型垃圾郵件的過濾,效果比較理想。加強對其他郵件過濾技術的學習研究,融合各種技術實現郵件過濾系統是未來的趨勢。

[1] 劉偉,張鳳荔,程紅蓉,等.改進ReliefF算法在圖像型垃圾郵件檢測中的應用研究[J].計算機應用研究,2009,26(9):3256-3258.

[2] Lin Jia-zhen,Cao Jiu-xin,Cheng Jie.New approach for spam sample collection[J].Journal of Southeast University:Natural Science Edition,2008,38(2):244-248.

[3] Anayat S,Ahmad H F.Using aprobable weight based Bayesian approach for spam filtering[G]//Proceedings of INMIC 2004 8th International Multitopic Conference.[s.l]:[s.n],2004:340-345.

[4] 張長君.郵件服務器中基于地址的一種電子郵件過濾方法[J].大連大學學報,2002,23(2):13-15.

[5] 耿技,萬明成,程紅蓉,等.基于文本區域特征的圖像型垃圾郵件過濾算法[J].計算機應用,2008,28(8):1904-1906.

猜你喜歡
文本區域檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
小波變換在PCB缺陷檢測中的應用
關于四色猜想
分區域
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
基于嚴重區域的多PCC點暫降頻次估計
電測與儀表(2015年5期)2015-04-09 11:30:52
主站蜘蛛池模板: 嫩草国产在线| 国产亚洲欧美日韩在线一区| 国产精品自拍合集| 免费一级毛片| 精品综合久久久久久97| 亚洲成人在线网| 69国产精品视频免费| 天堂亚洲网| 国产屁屁影院| 亚洲成A人V欧美综合| 亚洲精品无码日韩国产不卡| 亚洲IV视频免费在线光看| 一区二区在线视频免费观看| 潮喷在线无码白浆| 国产成人亚洲无吗淙合青草| 999精品色在线观看| 91在线一9|永久视频在线| 亚洲 成人国产| 性视频一区| 99热这里只有精品国产99| 天天躁夜夜躁狠狠躁躁88| 99re热精品视频中文字幕不卡| 全部免费毛片免费播放| 亚洲黄网在线| 国产高清自拍视频| 国产乱子精品一区二区在线观看| 欧美成人一级| 99精品免费欧美成人小视频| 四虎国产精品永久一区| 毛片手机在线看| 免费jizz在线播放| 国产成人精品日本亚洲77美色| hezyo加勒比一区二区三区| 黄片在线永久| 成人久久18免费网站| 中文字幕伦视频| 久久综合五月婷婷| 亚洲香蕉久久| 91精品啪在线观看国产60岁 | 欧美日韩导航| 2021天堂在线亚洲精品专区| 波多野结衣爽到高潮漏水大喷| 亚洲国产高清精品线久久| 高清无码手机在线观看| 九九热精品视频在线| 成人小视频网| 呦视频在线一区二区三区| 亚洲开心婷婷中文字幕| 国产在线自乱拍播放| 欧美三级日韩三级| 免费黄色国产视频| 国产精品亚洲一区二区三区在线观看| 制服丝袜 91视频| 国产一级小视频| 青青草91视频| 99视频有精品视频免费观看| 亚洲男人的天堂在线观看| 中文字幕丝袜一区二区| 久久频这里精品99香蕉久网址| 欧美成人午夜视频| 中国一级特黄大片在线观看| 国产亚洲精品无码专| 中文字幕无码中文字幕有码在线| 老司机精品一区在线视频| 欧美精品二区| 国产激情无码一区二区免费| 成人久久精品一区二区三区| 激情無極限的亚洲一区免费| 国产一区二区丝袜高跟鞋| 福利一区三区| 亚洲欧美不卡| 免费看a级毛片| 色天天综合久久久久综合片| 色网站免费在线观看| 国产精品手机在线观看你懂的| 国产精品男人的天堂| 中文字幕在线免费看| 美女无遮挡免费视频网站| 精品国产免费第一区二区三区日韩| 国产丝袜91| 中文字幕在线视频免费| 55夜色66夜色国产精品视频|