999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

垃圾圖像判別中的特征提取與選擇研究

2009-01-01 00:00:00程紅蓉秦志光萬明成曾志華
計算機應用研究 2009年6期

摘 要:對垃圾圖像判別問題中的特征提取和特征選擇研究現狀進行了總結。從特征的可區分性、魯棒性和提取效率三個方面比較了垃圾圖像判別中的主要特征,分析了特征的優缺點。結合分類學習算法、仿真實驗結果,對已有的主要特征選擇和分析方法進行比對,為進一步研究特征提取、特征選擇方法,提高垃圾圖像分類器的性能和效率提供有價值的參考。

關鍵詞:垃圾圖像;特征提取;特征選擇;分類器

中圖分類號:TP309文獻標志碼:A

文章編號:1001-3695(2009)06-2001-03

doi:10.3969/j.issn.1001-3695.2009.06.001

Research of feature extraction and selection for spam image identification

CHENG Hong-rong,QIN Zhi-guang,WAN Ming-cheng,ZENG Zhi-hua

(School of Computer Science Engineering, University of Electronic Science Technology of China, Chengdu 610054, China)

Abstract:This paper was a review of the methods of feature extraction and feature selection for spam image identification.It compared the characteristics of the extracted features based on discriminability, robustness, and efficiency.Explained the strengths and weaknesses of different features.Combined with the related classification learning algorithms and experimental results,analyzed the feature selection methods.This survey is a valuable reference for further research on feature extraction and selection to improve the performance of spam image detection.

Key words:spam image; feature extraction; feature selection; classification

圖像垃圾郵件是指郵件正文以圖像方式表達的垃圾郵件[1]。鑒于郵件正文的圖像反映了以前由文本表達的垃圾信息,以下將其簡稱為垃圾圖像。通常,圖像垃圾郵件偽裝性很強,除了郵件正文的垃圾圖像外,郵件的其余部分可能與正常郵件沒有顯著差異,一般的垃圾郵件過濾技術(如黑白名單、文本郵件過濾器等)對它們不能奏效。識別這類垃圾郵件需要采用基于內容的垃圾郵件識別方法,深入到郵件正文的圖像內容進行分析判別。目前,基于內容的垃圾郵件判別主要通過基于內容的機器學習方法進行模式識別,即根據一定數量的樣本之間的相似性設計分類器,而后用所設計的分類器對待識別的新郵件進行分類決策。樣本特征是衡量樣本之間相似性的依據,強烈影響了分類器的設計和性能[2,3]。因此,特征提取與特征選擇在模式識別過程中至關重要。目前基于內容的圖像垃圾郵件過濾研究主要集中在分類器設計方面,缺少在特征提取和特征選擇方面的系統分析和總結。

本文研究重點在于分析、比較目前在垃圾圖像判別方面主要的特征提取、特征選擇方法,以及不同特征形成的分類器的性能對比。

1 垃圾圖像判別模型

垃圾圖像判別屬于基于內容的圖像分類問題,其過程如圖1所示。首先,根據收集的圖像樣本分析,提取具有較好區分性的特征。經過特征提取后,圖像從原始測量空間轉換到特征向量空間,表示為一組D維特征向量(原始特征向量)。由于原始特征向量的維數仍然可能較高,而且其中可能包含大量冗余的或者不相關的特征,會降低分類器的性能,一般還需要對原始特征向量進行特征選擇,形成較低維的最優特征子集作為分類器的輸入。最后,分類器將圖像按照特征的突出程度歸為不同種類。從圖像分類的過程可知,特征提取和特征選擇形成的特征向量將直接影響到分類器的判別性能。

2 垃圾圖像特征提取

一幅圖像在原始測量空間通常表示為m×n維的矩陣,這種表示一般不直接用于分類器的設計。因為原始測量數據的維數可能很高,而且不能反映類別的本質,容易受噪聲信息的干擾。特征提取就是將樣本從高維的原始測量空間映射(或變換)到低維的特征空間[3],即A:X→Y。其中:X是原始測量空間;Y是特征空間。主成分分析、獨立主成分分析是常用的特征提取方法[4,5]。但是,目前針對垃圾圖像判別的特征提取方法相對簡單,僅限于從原始測量數據中抽取出一些具有區分性的屬性,形成一組基本特征(原始特征)。這些屬性包括:

a)圖像顏色。垃圾圖像由計算機產生,因而其色彩表現不如自然圖像細膩。研究者采用不同方法分析圖像顏色,提取出顏色直方圖[6]、顏色異質性[7,8]、顏色矩[7]、顏色飽和度[8,9]、主色出現頻度[10]以及三原色均值[10]等顏色特征。

b)圖像邊緣。邊緣信息能夠很好地反映圖像中對象的形狀特征,而垃圾圖像中的文字邊緣通常比較豐富。研究者已從圖像中提取出若干與邊緣相關的特征,包括邊緣方向[11]、邊緣方向自相關圖(autocorrelogram)[11]、邊緣方向直方圖[6]。

c)圖像元數據。它包含了圖像維度(高、寬)、面積、幀數、顏色表、索引值等信息。S. Krasser等人[9]提取出了圖像元數據中的部分信息,通過直接或者簡單計算將其作為分類依據的特征。

d)圖像噪聲。垃圾圖像常被加入噪聲以阻止OCR工具識別圖像文字[6],而正常圖像一般不會含有這類干擾?;谶@種觀察,B. Biggio等人[12~14]提取出圖像中文字區域周圍的噪聲干擾作為垃圾圖像的判別特征。

e)圖像中的文本區域?;趯颖镜挠^察,一些研究者[8,15~17]發現垃圾圖像通常比正常圖像包含更多文字,因而提取出與文本區域相關的信息,如文本區域的數量、面積、文本區域總面積與整幅圖像面積的比例等,作為區分垃圾圖像和正常圖像的基本特征之一。

f)圖像文字的文本特征。G. Fumera等人[18,19]借助OCR(optical character recognition)工具識別圖像中的文字,將關注焦點從圖像轉移到文本,從而將垃圾圖像判別問題轉換為文本垃圾郵件判別問題。

此外,Wang等人[6]采用2-D Haar小波變換提取出原圖像的低分辨率信息,以作為判別垃圾圖像和正常圖像的基本特征之一。

除了可區分性之外,在提取垃圾圖像特征時還應兼顧特征的魯棒性和提取效率。表1是目前提取出的垃圾圖像基本特征在可區分性、魯棒性和提取效率三個方面的大致對比。

表1中,“*”越多表示該特征直接與圖像內容的聯系程度越弱、特征的魯棒性越差或者提取效率越低;相同數目的“*”表示兩類特征在該屬性上大致相當。“/”表示特征不具備該屬性或者不便衡量。

為了便于定性地衡量特征的可區分性,以特征與圖像內容的聯系程度作為參考。因為筆者觀察到:如果特征與圖像的語義內容聯系越緊密,越有利于體現出類別特征;反之,越不利于體現類別特征。對于特征的魯棒性,則主要考慮了平移不變和旋轉不變兩個方面。從表1可以看出,沒有在可區分行、魯棒性和提取效率三個方面都占優的特征。圖像文字的文本特征直接與圖像語義內容相關,可區分性最好,但是在魯棒性方面,只有顏色特征同時具有平移不變和旋轉不變性。在提取效率上,圖像元數據幾乎不涉及圖像處理操作,提取速度最快,但凡是涉及文字定位或者文字識別的特征,提取效率相對較低。

3 垃圾圖像特征選擇與分析

特征選擇是從一組D維特征向量中選出一組維數為d(D>d)的最優特征子集,以達到降低特征空間維數,提高分類器性能的目的[20,21]。特征選擇的兩個關鍵問題是:選擇高效率的特征子集搜索算法和合適的特征子集評價準則[22]。在垃圾圖像判別研究領域,目前已有的特征選擇方法普遍為次優搜索算法,主要的評價策略包括互信息、信息熵、相似度、均值和標準差等。文獻[7,8,11~14]直接將原始特征向量作為分類器的判別依據,而未進行特征選擇或特征分析。

1)基于互信息的特征選擇

互信息具有較強的理論基礎,且實現簡單,在特征選擇中常用來評價特征和目標屬性間的緊密程度[23,24]。M. Dredze等人[10]依據互信息公式:

MI(X;Y)=x∈Xy∈Y p(x,y)log [p(x,y)/(p(x)p(y))]

計算出每個特征x與圖像標簽y的互信息,然后將得到的互信息得分由高到低排列,選擇前24個互信息得分最高的特征。由于特征之間可能存在復雜的相互關系,如果僅對每個單獨的分量按照一定的統計或者可分性判據進行排隊,取排在前面的d個分量,這種方法所取得的結果在大多數情況下并不是最優特征組[2]。

考慮到特征提取付出的時間代價,M. Dredze等人提出一個基于互信息的時間敏感特征選擇算法MIt:

score(x)=(1-α)(1-MI(x,y))+α×tx

其中:tx是提取特征x的平均時間;α是一個比例因子,用于調節特征的有效性與特征提取需付出的時間代價之間的權重。

2)基于均值和標準差的特征分析

標準差RMS(root mean square)是概率統計中測量統計分布程度(statistical dispersion)最常使用的方法。標準差用σ表示,定義為方差的平方根,即σ=ni=1(si-)/n。S. Krasser等人[9]提出用均值μ和標準差σ構成S2N=|μspam-μham|/|σspam+σham|,作為特征分析的主要依據。其中標準差反映樣本類內離散程度,均值之差反映樣本類間離散程度。S2N越大說明類之間的可區分性越好。

3)其他方法

Wu等人[17]采用Boosting算法對提取的509維位置無關特征(position independent feature,PIF)進行特征選擇,并形成分類器。G. Fumera等人[18,19]提取出圖像中的文字,將垃圾圖像的特征選擇轉換為文本特征的選擇。N. P. Nhung等人[11]采用L1距離公式:

表2對主要的垃圾圖像選擇方法、特征分析方法以及構建分類器采用的算法在仿真實驗數據集下的實驗結果作了大致對比。由于缺乏公信的垃圾圖像評測數據集(benchmark),研究者采用的實驗數據集各不相同,只能根據文獻中的實驗結果對特征、特征選擇方法、特征分析方法以及分類算法的實驗效果作大致比較。

從表2可以看出,在分類學習算法相同的情況下,如都采用支持向量機作為分類學習算法,Phung通過提取圖像邊緣特征,并在此特征基礎上計算形成特征的相似度向量,在仿真實驗中取得了較優的識別率。而且筆者觀察到以邊緣特征作為分類依據之一的分類器的識別率普遍高于未采用邊緣特征的分類器。但是從總體來說,在垃圾圖像判別方面目前已有的特征選擇和分析工作還不深入,對于如何選擇更適宜于垃圾圖像判別的特征子集搜索算法和特征子集評價準則等一系列問題的答案還是未知數。

4 結束語

本文從特征的類型、可區分性、魯棒性、提取時間、特征選擇方法、仿真實驗結果等方面總結了目前在垃圾圖像判別研究領域特征提取和特征選擇方面的主要研究現狀。雖然基于內容的垃圾圖像判別研究已取得了一定成績,但是分類器的性能和效率離真正實用化還有較大差距。特征是分類的重要依據,因而很有必要進一步開展針對圖像特征提取與選擇方法的深入研究。

參考文獻:

[1]Image spam[EB/OL].http://en.wikipedia.org/wiki/Image_spam.

[2]GANESHANANDAM S,KRZANOWSKI W.On selecting variables and assessing their performance in linear discriminate analysis[J].Australian Journal of Statistics,1989,31(3):433-447.

[3]邊肇棋,張學工.模式識別[M].2版.北京:清華大學出版社,2000.

[4]FORTUNA J,CAPSON D.Improved vector classification using PCA and ICA feature space modification[J].Pattern Recognition,2004,37(6):1117-1129.

[5]CAO L J,CHUA K S,CHONG W K,et al.A comparison of PCA, KPCA and ICA for dimensionality reduction in support vector machine[J].Neurocomputing,2003,55(1/2):321-336.

[6]WANG Zhe,JOSEPHSON W,LV Qin.Filtering image spam with near-duplicate detection[C]//Proc of the 4th Conference on E-mail and AntiSpam.2007.

[7]BYUN B, LEE C H,WEBB S. A discriminative classifier learning approach to image modeling and spam image identification[C]//Proc of the 4th Conference on E-mail and AntiSpam.2007.

[8]ARADHYE H B, MYERS G K,HERSON J A.Image analysis for efficient categorization of image-based spam e-mail[C]//Proc of the 8th International Conference on Document Analysis and Recognition.Seoul: IEEE Computer Society,2005:914-918.

[9]KRASSER S, TANG Yu-chun,GOULD J.Identifying image spam based on header and file properties using C4.5 decision trees and support vector machine learning[C]//Proc of IEEE Workshop onInformation Assurance and Security Workshop.2007.

[10]DREDZE M,GEVARYAHU R,BACHRACH A E.Learning fast classifiers for image spam[C]//Proc of the 4th Conference on E-mail and AntiSpam.California:ACM Press,2007:255-261.

[11]NHUNG N P,PHUONG T M.An efficient method for filtering image-based spam[C]//Proc of IEEE International Conference on Research, Innovation and Vision for the Future.Hanoi, Vietnam: IEEE Computer Society,2007:96-102.

[12]BIGGIO B,FUMERA G,PILLAI I.Image spam filtering by content obscuring detection[C]//Proc of the 4th Conference on E-mail and AntiSpam.2007.

[13]BIGGIO B, FUMERA G, PILLAI I. Image spam filtering using visual information[C]//Proc of the 14th International Conference on Image Analysis and Processing.Italy: IEEE Computer Society,2007:105-110.

[14]FUMERA G, PILLAI I, ROLI F.Image spam filtering using textual and visual information[C]//Proc of MIT Spam Conference.2007.

[15]許洋洋,袁華.一種基于內容的圖像垃圾郵件過濾方法[J].山東大學學報:理學版, 2006,41(3):37-42.

[16]KIM J S,KIM S H,YANG H J,et al.Text extraction for spam-mail image filtering using a text color estimation technique[C]//LNCS,vol 4570/2007.Berlin:Springer,2007:105-114.

[17]WU C T,CHENG K T,ZHU Qiang,et al.Using visual features for anti-spam filtering[C]//Proc of IEEE International Conference on Image Processing.[S.l.]:IEEE Computer Society Press,2005:501-503.

[18]FUMERA G,PILLAI I,ROLI F.Spam filtering based on the analysis of text information embedded into images[J].Journal of Machine Learning Research,2006,7:2699-2720.

[19]ISSAC B,RAMAN V.Spam detection proposal in regular and text-based image e-mails[C]//Proc of IEEE Region 10 Conference on TENCON.[S.l.]:IEEE Computer Society,2006:1-4.

[20]DASH M,LIU Huan.Consistency-based search in feature selection[J].Artificial Intelligence,2003,151(1/2):155-176.

[21]DASH M,LIU Huan.Feature selection for classification[J].Intelligent Data Analysis,1997,1(3):131-156.

[22]SUN Ze-hang,BEBIS G,MILLER R.Object detection using feature subset selection [J].Pattern Recognition,2004,37(11):2165-2176.

[23]BATTITI R.Using mutual information for selecting features in supervised neural net learning[J].IEEE Trans on Neural Network,1994,5(4):537-550.

[24]HAMMING R W.Coding and information theory[M].Englewood Cliffs, NJ: Prentice-Hall,1986.

主站蜘蛛池模板: 国产免费a级片| 熟女视频91| 国产区网址| 人妻丰满熟妇αv无码| 国产交换配偶在线视频| 五月婷婷欧美| 亚洲欧美成人在线视频| 在线网站18禁| 国产va在线观看| 中文字幕精品一区二区三区视频| 欧洲精品视频在线观看| 9cao视频精品| 国产色婷婷视频在线观看| 免费av一区二区三区在线| 欧美精品v欧洲精品| 亚洲色图欧美激情| 久久黄色小视频| 色成人综合| 久久久久国产精品嫩草影院| 理论片一区| 国产精品亚洲va在线观看| 日本精品αv中文字幕| 免费无遮挡AV| www.91在线播放| 国产女人在线视频| 亚洲中文字幕在线一区播放| 亚洲无码在线午夜电影| 精品福利网| 91小视频在线| 992Tv视频国产精品| 乱色熟女综合一区二区| 99这里只有精品在线| 欧美激情视频二区| 欧美全免费aaaaaa特黄在线| 日韩资源站| 成人精品视频一区二区在线| 亚洲国产欧美国产综合久久| 成人一级黄色毛片| 国产内射一区亚洲| 中文字幕免费在线视频| 国产精品视频公开费视频| 美女无遮挡被啪啪到高潮免费| 国产香蕉国产精品偷在线观看| 国产成人一区二区| 国产在线小视频| 91成人免费观看在线观看| 久草网视频在线| 四虎成人精品| 在线日韩日本国产亚洲| www.精品国产| 久久精品无码一区二区国产区| 欧美精品成人| 国产精品99r8在线观看| 久久免费视频6| 国产精品无码翘臀在线看纯欲| 欧美亚洲中文精品三区| 国产成人8x视频一区二区| 国产激情无码一区二区免费| 国产精品一区二区不卡的视频| 国产国语一级毛片在线视频| 久久精品国产91久久综合麻豆自制| 亚洲最大福利网站| 国产精品成人不卡在线观看 | 中文字幕2区| 福利在线一区| 91久久精品国产| 国产成人亚洲综合A∨在线播放| 亚洲香蕉久久| 亚洲免费福利视频| 亚洲69视频| 日本a∨在线观看| 国产一区二区三区免费观看| 试看120秒男女啪啪免费| 亚洲免费人成影院| 欧美精品不卡| 亚洲日韩在线满18点击进入| 亚洲国产中文在线二区三区免| 麻豆精品视频在线原创| 欧美午夜性视频| 另类综合视频| 尤物特级无码毛片免费| 国产色婷婷|