999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

改進(jìn)支持向量機(jī)的電子郵件分類

2017-02-16 11:23:31張潔
現(xiàn)代電子技術(shù) 2017年1期
關(guān)鍵詞:特征提取

張潔

摘 要: 電子郵件分類有利于垃圾郵件的過濾,節(jié)省網(wǎng)絡(luò)資源。為了提高郵件分類的精度,提出了改進(jìn)支持向量機(jī)的電子郵件分類器模型。首先提取電子郵件的原始特征,并采用主成分分析法對(duì)特征進(jìn)行選擇,減少特征數(shù)量,提高郵件分類效率;然后采用支持向量機(jī)建立電子郵件分類器,并對(duì)傳統(tǒng)支持向量機(jī)參數(shù)選擇方法進(jìn)行改進(jìn),改善郵件分類效果,最后采用郵件分類的標(biāo)準(zhǔn)數(shù)據(jù)庫——UCI進(jìn)行性能分析。結(jié)果表明,改進(jìn)支持向量機(jī)解決了當(dāng)前電子郵件分類模型的不足,獲得了理想的電子郵件分類效果,分類結(jié)果可以幫助管理人員攔截垃圾郵件。

關(guān)鍵詞: 電子郵件; 分類模型; 特征提取; 垃圾郵件; 主成分分析

中圖分類號(hào): TN915.08?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)01?0077?03

Abstract: The E_mail classification is conducive to filter out the spam mail and save the network resources. In order to improve the accuracy of the E_mail classification, an E_mail classifier model using improved support vector machine is proposed. The original features of E_mail are extracted, and selected with the principal component analysis to reduce the feature quantity and improve the E_mail classification efficiency. The support vector machine is used to establish the E_mail classifier. The parameter selection method of the traditional support vector machine was improved to perfect the E_mail classification effect. The standard database UCI of the E_mail classification is used to analyze the classification performance. The results show that the improved support vector machine has solved the insufficient of the current E_mail classification model, and obtained the satisfied E_mail classification effect, which can help managers to block the spam mail.

Keywords: E_mail; classification model; feature extraction; spam mail; principal component analysis

0 引 言

隨著經(jīng)濟(jì)水平的不斷提高,家家戶戶有了計(jì)算機(jī),網(wǎng)民越來越多。電子郵件(E_mail)是一種人們?cè)诰W(wǎng)絡(luò)上交流的常用工具,受到了人們的廣泛關(guān)注[1]。網(wǎng)絡(luò)是一個(gè)新興事件,網(wǎng)絡(luò)中有大量垃圾郵件,它們不僅浪費(fèi)網(wǎng)絡(luò)資源,給人們工作帶來困擾,而且給一些不法分子提供了可乘之機(jī),因此,對(duì)E_mail進(jìn)行有效分類找出其中的垃圾郵件具有重要的實(shí)際意義[2]。

E_mail與文本有很多相似之處,為此一些學(xué)者將文本分類方法引入E_mail分類中,通過分類算法將郵件分為正常郵件和垃圾郵件[3]。同時(shí)E_mail是一種半結(jié)構(gòu)化文本,具有自身的特殊性,采用傳統(tǒng)文本分類方法用于E_mail分類,分類的精度低,郵件錯(cuò)分現(xiàn)象嚴(yán)重,導(dǎo)致一些正常郵件被攔截,而且一些垃圾郵件沒有被過濾掉[4]。近些年來,一些學(xué)者將模式識(shí)別技術(shù)引入到E_mail分類中,首先提取E_mail的原始特征,然后采用K近鄰算法和神經(jīng)網(wǎng)絡(luò)等建立E_mail分類模型,獲得了不錯(cuò)的E_mail分類效果[5]。E_mail的原始特征維數(shù)高,若直接輸入到K近鄰算法和神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,分類時(shí)間長、效率低,而且可能存在一些無用特征,對(duì)E_mail分類效果產(chǎn)生干擾[6]。特征篩選可以去除無用特征,減少特征數(shù)量,提高學(xué)習(xí)效率[7]。K近鄰算法假設(shè)E_mail的類別與特征間是線性變化關(guān)系,這與實(shí)際情況不相符,分類精度要低于神經(jīng)網(wǎng)絡(luò)[2]。神經(jīng)網(wǎng)絡(luò)雖然可以描述E_mail的類別與特征間的變化關(guān)系,但要求樣本多,網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,當(dāng)特征維數(shù)高時(shí),出現(xiàn)“維數(shù)災(zāi)”現(xiàn)象的概率高[8]。支持向量機(jī)(Support Vector Machine,SVM)是一種新型機(jī)器學(xué)習(xí)算法,避免了“維數(shù)災(zāi)”現(xiàn)象的出現(xiàn),且分類效果要優(yōu)于神經(jīng)網(wǎng)絡(luò),在E_mail分類中得到了廣泛的應(yīng)用[9]。支持向量機(jī)參數(shù)優(yōu)化問題一直懸而未解,影響在E_mail分類中的應(yīng)用范圍[10]。

針對(duì)當(dāng)前E_mail分類模型存在的難題,為了提高郵件分類的精度,提出一種改進(jìn)支持向量機(jī)的電子郵件分類器模型(ISVM),結(jié)果表明,改進(jìn)支持向量機(jī)獲得了良好的電子郵件分類效果,可以滿足垃圾郵件處理的要求。

1 E_mail分類模型的工作原理

E_mail分類模型的工作原理如圖1所示。從圖1可以看出,特征提取和選擇是獲得較優(yōu)E_mail分類結(jié)果的基礎(chǔ),當(dāng)前E_mail特征提取和選擇研究少,主要采用人工憑經(jīng)驗(yàn)確定特征的數(shù)量,特征選擇具有主觀性,影響E_mail分類器的構(gòu)建;E_mail的分類器是獲得理想分類結(jié)果的關(guān)鍵,雖然SVM可以描述E_mail的變化特點(diǎn),但如果核函數(shù)及參數(shù)選擇不合理,E_mail分類效果很差,本文采用布谷鳥搜索算法選擇SVM的核函數(shù)參數(shù),以獲得高精度的E_mail分類結(jié)果。

2 改進(jìn)支持向量機(jī)

2.1 標(biāo)準(zhǔn)支持向量機(jī)

支持向量機(jī)根據(jù)最優(yōu)分類超平面將訓(xùn)練樣本分開,而且類別之間的間隔最大。對(duì)于包含兩個(gè)樣本的訓(xùn)練集,如果超平面可將它們?nèi)糠珠_,表示訓(xùn)練樣本集是線性可分的,訓(xùn)練集的數(shù)量為那么訓(xùn)練集描述為:其中表示樣本輸入;表示樣本的類別。支持向量機(jī)的超平面如圖2所示。

基于支持向量機(jī)的懲罰參數(shù)和徑向基核參數(shù)影響的性能,本文選擇布谷鳥搜索算法確定和的值。

2.2 布谷鳥搜索算法

布谷鳥搜索算法(CS)是一種應(yīng)用范圍很廣的智能搜索算法,假設(shè)有三種狀態(tài),具體如下:

(1) 一只布谷鳥僅下一個(gè)蛋,并隨機(jī)分布于鳥巢中。

(2) 部分較優(yōu)的鳥巢直接進(jìn)入到下一代,組成新的鳥巢[11]。

(3) 每一個(gè)鳥巢中的布谷鳥蛋被宿主發(fā)現(xiàn)的概率是相等的。

將支持向量機(jī)參數(shù)和編碼成為一個(gè)鳥巢位置,根據(jù)訓(xùn)練樣本計(jì)算每一組參數(shù)的和目標(biāo)函數(shù)值,并選擇目標(biāo)函數(shù)值最優(yōu)者作為當(dāng)前最優(yōu)鳥巢,然后對(duì)布谷鳥搜索的路徑和位置不斷迭次,產(chǎn)生新一代的鳥巢,當(dāng)?shù)螖?shù)達(dá)到最大迭代次數(shù)時(shí),最優(yōu)鳥巢位置對(duì)應(yīng)的和即為找到的最優(yōu)參數(shù)。

3 改進(jìn)支持向量機(jī)的E_mail分類

改進(jìn)支持向量機(jī)的E_mail分類步驟為:

Step1:收集相應(yīng)數(shù)量的E_mail,并進(jìn)行一些預(yù)處理,如刪除其中沒有意義的數(shù)據(jù),將它們轉(zhuǎn)換為相應(yīng)的格式。

Step2:提取E_mail特征,通過詞和類別的互信息量作為E_mail原始特征,對(duì)它們進(jìn)行歸一化處理。

Step3:采用主成分分析法對(duì)E_mail原始特征進(jìn)行選擇,提取最優(yōu)的特征子集,并根據(jù)特征子集對(duì)E_mail訓(xùn)練樣本和測(cè)試樣本進(jìn)行處理,減少數(shù)據(jù)規(guī)模。

Step4:將訓(xùn)練樣本輸入到支持向量機(jī)進(jìn)行訓(xùn)練,并采用布谷鳥搜索算法確定最優(yōu)參數(shù)和建立E_mail分類器。

Step5:采用測(cè)試樣本對(duì)E_mail分類器的性能進(jìn)行測(cè)試和分析。

4 實(shí)驗(yàn)結(jié)果與分析

為了分析ISVM的E_mail分類性能,選擇郵件分類的標(biāo)準(zhǔn)數(shù)據(jù)集——UCI數(shù)據(jù)庫作為研究對(duì)象,該數(shù)據(jù)集共有4 601個(gè)樣本,每一個(gè)樣本有58個(gè)特征,垃圾郵件的標(biāo)簽為“1”,正常郵件的標(biāo)簽為“0”,在Matlab 2014工具箱編程中實(shí)現(xiàn)E_mail分類模型。由于數(shù)據(jù)庫中的樣本比較多,隨機(jī)選擇30%的樣本進(jìn)行仿真實(shí)驗(yàn),訓(xùn)練樣本和測(cè)試樣本數(shù)量采用31的形式進(jìn)行劃分。采用分類準(zhǔn)確率(Precision)、分類召回率(recall)對(duì)結(jié)果進(jìn)行分析,具體如下:

5 結(jié) 語

為了消除垃圾郵件對(duì)人們工作和生活的負(fù)面影響,提高電子郵件分類精度,本文提出一種改進(jìn)支持向量機(jī)的電子郵件分類模型,結(jié)果表明,改進(jìn)支持向量機(jī)解決了當(dāng)前電子郵件分類模型存在的不足,獲得了理想的電子郵件分類效果,減少了系統(tǒng)分發(fā)郵件的工作量,分類結(jié)果可以幫助管理人員攔截垃圾郵件,具有廣泛的應(yīng)用前景。

參考文獻(xiàn)

[1] 蒲筱哥.Web自動(dòng)郵件分類技術(shù)研究綜述[J].情報(bào)學(xué)報(bào),2009,28(2):233?241.

[2] 劉赫,劉大有,裴志利,等.一種基于特征重要度的郵件分類特征加權(quán)方法[J].計(jì)算機(jī)研究與發(fā)展,2009,46(10):1693?1703.

[3] 陳東亮,白清源.基于詞頻向量的關(guān)聯(lián)郵件分類[J].計(jì)算機(jī)研究與發(fā)展,2009,46(2):464?469.

[4] 吳江寧,劉巧鳳.基于圖結(jié)構(gòu)的中文郵件表示方法研究[J].情報(bào)學(xué)報(bào),2010,32(4):618?624.

[5] 王波,黃迪明.遺傳神經(jīng)網(wǎng)絡(luò)在電子郵件過濾器中的應(yīng)用[J].電子科技大學(xué)學(xué)報(bào),2005,34(4):505?508.

[6] 李惠娟,高峰,管曉宏,等.基于貝葉斯神經(jīng)網(wǎng)絡(luò)的垃圾郵件過濾方法[J].微電子學(xué)與計(jì)算機(jī),2005,22(4):107?111.

[7] 陳華輝.一種基于潛在語義索引的垃圾郵件過濾方法[J].計(jì)算機(jī)應(yīng)用研究,2000,17(10):17?18.

[8] 宋勝利,王少龍,陳平.面向郵件分類的中文郵件語義表示方法[J].西安電子科技大學(xué)學(xué)報(bào),2013,40(2):89?97.

[9] 張兢,侯旭東,呂和勝.基于樸素貝葉斯和支持向量機(jī)的郵件智能分析系統(tǒng)設(shè)計(jì)[J].重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,24(1):77?81.

[10] 陳功平,沈明玉,王紅,等.基于內(nèi)容的郵件分類技術(shù)[J].華東理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,37(6):770?774.

[11] YANG X S, DEB S. Engineering optimization by cuckoo search [J]. International journal of mathematical modeling and numerical optimization, 2010, 11(4): 330?343.

猜你喜歡
特征提取
特征提取和最小二乘支持向量機(jī)的水下目標(biāo)識(shí)別
基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
電子制作(2019年15期)2019-08-27 01:12:00
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
基于DNN的低資源語音識(shí)別特征提取技術(shù)
Bagging RCSP腦電特征提取算法
一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
基于DSP的直線特征提取算法
基于改進(jìn)WLD的紋理特征提取方法
淺析零件圖像的特征提取和識(shí)別方法
基于CATIA的橡皮囊成形零件的特征提取
主站蜘蛛池模板: 天天摸天天操免费播放小视频| 国产又大又粗又猛又爽的视频| 亚洲成人免费看| 亚洲精品欧美重口| av在线5g无码天天| 真实国产乱子伦高清| 欧美一级在线| 亚洲天堂精品在线| 国产v欧美v日韩v综合精品| 99视频精品全国免费品| 久久国产精品77777| 久久久久人妻一区精品色奶水| 国产精品hd在线播放| 亚欧美国产综合| 亚洲国产成人麻豆精品| 久久九九热视频| 亚洲高清在线天堂精品| 国产91特黄特色A级毛片| 欧洲亚洲欧美国产日本高清| 无码精品国产VA在线观看DVD| 国产第一色| 国产成人免费| 欧美在线导航| 国产成+人+综合+亚洲欧美| 久久精品无码专区免费| 国产va欧美va在线观看| 中文无码精品a∨在线观看| 女人天堂av免费| 日韩精品成人网页视频在线| 日韩在线1| 一边摸一边做爽的视频17国产| 亚洲视频a| 久久a毛片| 精品综合久久久久久97超人该| 国产欧美日韩va另类在线播放 | 国产在线观看99| 青青青国产免费线在| 自拍偷拍一区| 尤物午夜福利视频| 亚洲精品欧美重口| 国产a在视频线精品视频下载| 伊人久久久久久久| 黄色网在线| 婷婷六月激情综合一区| 2018日日摸夜夜添狠狠躁| 亚欧美国产综合| 国产精品毛片一区| 亚洲精品高清视频| 亚洲区欧美区| 国产精品太粉嫩高中在线观看| 久久免费观看视频| 日韩久久精品无码aV| 永久在线精品免费视频观看| 久久久久青草线综合超碰| 黄色网站不卡无码| 特级欧美视频aaaaaa| 网友自拍视频精品区| 日本一区中文字幕最新在线| 91精品综合| 麻豆AV网站免费进入| 国产精品美女在线| yjizz视频最新网站在线| 国产鲁鲁视频在线观看| 亚洲 欧美 中文 AⅤ在线视频| 欧美国产精品拍自| 无码专区在线观看| 国产喷水视频| 熟女视频91| 亚洲精品在线影院| 四虎永久在线精品国产免费| 欧美一级大片在线观看| 亚洲午夜天堂| 中日韩欧亚无码视频| 中文字幕首页系列人妻| 国产成人av一区二区三区| 日本欧美视频在线观看| 国产日产欧美精品| 色噜噜综合网| 丁香婷婷激情综合激情| 无码内射中文字幕岛国片| 久久精品国产电影| 怡春院欧美一区二区三区免费|