999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

改進支持向量機的電子郵件分類

2017-02-16 11:23:31張潔
現代電子技術 2017年1期
關鍵詞:特征提取

張潔

摘 要: 電子郵件分類有利于垃圾郵件的過濾,節省網絡資源。為了提高郵件分類的精度,提出了改進支持向量機的電子郵件分類器模型。首先提取電子郵件的原始特征,并采用主成分分析法對特征進行選擇,減少特征數量,提高郵件分類效率;然后采用支持向量機建立電子郵件分類器,并對傳統支持向量機參數選擇方法進行改進,改善郵件分類效果,最后采用郵件分類的標準數據庫——UCI進行性能分析。結果表明,改進支持向量機解決了當前電子郵件分類模型的不足,獲得了理想的電子郵件分類效果,分類結果可以幫助管理人員攔截垃圾郵件。

關鍵詞: 電子郵件; 分類模型; 特征提取; 垃圾郵件; 主成分分析

中圖分類號: TN915.08?34 文獻標識碼: A 文章編號: 1004?373X(2017)01?0077?03

Abstract: The E_mail classification is conducive to filter out the spam mail and save the network resources. In order to improve the accuracy of the E_mail classification, an E_mail classifier model using improved support vector machine is proposed. The original features of E_mail are extracted, and selected with the principal component analysis to reduce the feature quantity and improve the E_mail classification efficiency. The support vector machine is used to establish the E_mail classifier. The parameter selection method of the traditional support vector machine was improved to perfect the E_mail classification effect. The standard database UCI of the E_mail classification is used to analyze the classification performance. The results show that the improved support vector machine has solved the insufficient of the current E_mail classification model, and obtained the satisfied E_mail classification effect, which can help managers to block the spam mail.

Keywords: E_mail; classification model; feature extraction; spam mail; principal component analysis

0 引 言

隨著經濟水平的不斷提高,家家戶戶有了計算機,網民越來越多。電子郵件(E_mail)是一種人們在網絡上交流的常用工具,受到了人們的廣泛關注[1]。網絡是一個新興事件,網絡中有大量垃圾郵件,它們不僅浪費網絡資源,給人們工作帶來困擾,而且給一些不法分子提供了可乘之機,因此,對E_mail進行有效分類找出其中的垃圾郵件具有重要的實際意義[2]。

E_mail與文本有很多相似之處,為此一些學者將文本分類方法引入E_mail分類中,通過分類算法將郵件分為正常郵件和垃圾郵件[3]。同時E_mail是一種半結構化文本,具有自身的特殊性,采用傳統文本分類方法用于E_mail分類,分類的精度低,郵件錯分現象嚴重,導致一些正常郵件被攔截,而且一些垃圾郵件沒有被過濾掉[4]。近些年來,一些學者將模式識別技術引入到E_mail分類中,首先提取E_mail的原始特征,然后采用K近鄰算法和神經網絡等建立E_mail分類模型,獲得了不錯的E_mail分類效果[5]。E_mail的原始特征維數高,若直接輸入到K近鄰算法和神經網絡進行分類,分類時間長、效率低,而且可能存在一些無用特征,對E_mail分類效果產生干擾[6]。特征篩選可以去除無用特征,減少特征數量,提高學習效率[7]。K近鄰算法假設E_mail的類別與特征間是線性變化關系,這與實際情況不相符,分類精度要低于神經網絡[2]。神經網絡雖然可以描述E_mail的類別與特征間的變化關系,但要求樣本多,網絡結構復雜,當特征維數高時,出現“維數災”現象的概率高[8]。支持向量機(Support Vector Machine,SVM)是一種新型機器學習算法,避免了“維數災”現象的出現,且分類效果要優于神經網絡,在E_mail分類中得到了廣泛的應用[9]。支持向量機參數優化問題一直懸而未解,影響在E_mail分類中的應用范圍[10]。

針對當前E_mail分類模型存在的難題,為了提高郵件分類的精度,提出一種改進支持向量機的電子郵件分類器模型(ISVM),結果表明,改進支持向量機獲得了良好的電子郵件分類效果,可以滿足垃圾郵件處理的要求。

1 E_mail分類模型的工作原理

E_mail分類模型的工作原理如圖1所示。從圖1可以看出,特征提取和選擇是獲得較優E_mail分類結果的基礎,當前E_mail特征提取和選擇研究少,主要采用人工憑經驗確定特征的數量,特征選擇具有主觀性,影響E_mail分類器的構建;E_mail的分類器是獲得理想分類結果的關鍵,雖然SVM可以描述E_mail的變化特點,但如果核函數及參數選擇不合理,E_mail分類效果很差,本文采用布谷鳥搜索算法選擇SVM的核函數參數,以獲得高精度的E_mail分類結果。

2 改進支持向量機

2.1 標準支持向量機

支持向量機根據最優分類超平面將訓練樣本分開,而且類別之間的間隔最大。對于包含兩個樣本的訓練集,如果超平面可將它們全部分開,表示訓練樣本集是線性可分的,訓練集的數量為那么訓練集描述為:其中表示樣本輸入;表示樣本的類別。支持向量機的超平面如圖2所示。

基于支持向量機的懲罰參數和徑向基核參數影響的性能,本文選擇布谷鳥搜索算法確定和的值。

2.2 布谷鳥搜索算法

布谷鳥搜索算法(CS)是一種應用范圍很廣的智能搜索算法,假設有三種狀態,具體如下:

(1) 一只布谷鳥僅下一個蛋,并隨機分布于鳥巢中。

(2) 部分較優的鳥巢直接進入到下一代,組成新的鳥巢[11]。

(3) 每一個鳥巢中的布谷鳥蛋被宿主發現的概率是相等的。

將支持向量機參數和編碼成為一個鳥巢位置,根據訓練樣本計算每一組參數的和目標函數值,并選擇目標函數值最優者作為當前最優鳥巢,然后對布谷鳥搜索的路徑和位置不斷迭次,產生新一代的鳥巢,當迭代次數達到最大迭代次數時,最優鳥巢位置對應的和即為找到的最優參數。

3 改進支持向量機的E_mail分類

改進支持向量機的E_mail分類步驟為:

Step1:收集相應數量的E_mail,并進行一些預處理,如刪除其中沒有意義的數據,將它們轉換為相應的格式。

Step2:提取E_mail特征,通過詞和類別的互信息量作為E_mail原始特征,對它們進行歸一化處理。

Step3:采用主成分分析法對E_mail原始特征進行選擇,提取最優的特征子集,并根據特征子集對E_mail訓練樣本和測試樣本進行處理,減少數據規模。

Step4:將訓練樣本輸入到支持向量機進行訓練,并采用布谷鳥搜索算法確定最優參數和建立E_mail分類器。

Step5:采用測試樣本對E_mail分類器的性能進行測試和分析。

4 實驗結果與分析

為了分析ISVM的E_mail分類性能,選擇郵件分類的標準數據集——UCI數據庫作為研究對象,該數據集共有4 601個樣本,每一個樣本有58個特征,垃圾郵件的標簽為“1”,正常郵件的標簽為“0”,在Matlab 2014工具箱編程中實現E_mail分類模型。由于數據庫中的樣本比較多,隨機選擇30%的樣本進行仿真實驗,訓練樣本和測試樣本數量采用31的形式進行劃分。采用分類準確率(Precision)、分類召回率(recall)對結果進行分析,具體如下:

5 結 語

為了消除垃圾郵件對人們工作和生活的負面影響,提高電子郵件分類精度,本文提出一種改進支持向量機的電子郵件分類模型,結果表明,改進支持向量機解決了當前電子郵件分類模型存在的不足,獲得了理想的電子郵件分類效果,減少了系統分發郵件的工作量,分類結果可以幫助管理人員攔截垃圾郵件,具有廣泛的應用前景。

參考文獻

[1] 蒲筱哥.Web自動郵件分類技術研究綜述[J].情報學報,2009,28(2):233?241.

[2] 劉赫,劉大有,裴志利,等.一種基于特征重要度的郵件分類特征加權方法[J].計算機研究與發展,2009,46(10):1693?1703.

[3] 陳東亮,白清源.基于詞頻向量的關聯郵件分類[J].計算機研究與發展,2009,46(2):464?469.

[4] 吳江寧,劉巧鳳.基于圖結構的中文郵件表示方法研究[J].情報學報,2010,32(4):618?624.

[5] 王波,黃迪明.遺傳神經網絡在電子郵件過濾器中的應用[J].電子科技大學學報,2005,34(4):505?508.

[6] 李惠娟,高峰,管曉宏,等.基于貝葉斯神經網絡的垃圾郵件過濾方法[J].微電子學與計算機,2005,22(4):107?111.

[7] 陳華輝.一種基于潛在語義索引的垃圾郵件過濾方法[J].計算機應用研究,2000,17(10):17?18.

[8] 宋勝利,王少龍,陳平.面向郵件分類的中文郵件語義表示方法[J].西安電子科技大學學報,2013,40(2):89?97.

[9] 張兢,侯旭東,呂和勝.基于樸素貝葉斯和支持向量機的郵件智能分析系統設計[J].重慶理工大學學報(自然科學版),2010,24(1):77?81.

[10] 陳功平,沈明玉,王紅,等.基于內容的郵件分類技術[J].華東理工大學學報(自然科學版),2011,37(6):770?774.

[11] YANG X S, DEB S. Engineering optimization by cuckoo search [J]. International journal of mathematical modeling and numerical optimization, 2010, 11(4): 330?343.

猜你喜歡
特征提取
特征提取和最小二乘支持向量機的水下目標識別
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
基于DNN的低資源語音識別特征提取技術
自動化學報(2017年7期)2017-04-18 13:41:09
Bagging RCSP腦電特征提取算法
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于DSP的直線特征提取算法
基于改進WLD的紋理特征提取方法
計算機工程(2015年4期)2015-07-05 08:28:02
淺析零件圖像的特征提取和識別方法
機電信息(2015年3期)2015-02-27 15:54:46
基于CATIA的橡皮囊成形零件的特征提取
主站蜘蛛池模板: 国产91精品调教在线播放| 欧美午夜视频在线| 亚洲日韩精品伊甸| 99激情网| 成人亚洲国产| 国产精品福利一区二区久久| 精品视频第一页| 97视频免费在线观看| 99在线观看视频免费| 欧美中文字幕在线视频| 国产精品高清国产三级囯产AV| 国产精品一区不卡| 亚洲av无码久久无遮挡| 亚洲成年网站在线观看| 国产日韩av在线播放| 国产午夜人做人免费视频中文| 亚洲国产综合自在线另类| h网址在线观看| 九九热视频精品在线| 日日碰狠狠添天天爽| 一本一本大道香蕉久在线播放| 日韩免费视频播播| 日韩欧美国产三级| 亚洲精品天堂自在久久77| 精品国产美女福到在线直播| 国产免费观看av大片的网站| 狠狠v日韩v欧美v| 在线精品欧美日韩| 人妻精品久久久无码区色视| 国产成人亚洲精品无码电影| 国产精品开放后亚洲| 成年A级毛片| 国产精品部在线观看| aa级毛片毛片免费观看久| 亚洲第一区欧美国产综合| 久久一色本道亚洲| 精品视频第一页| 亚洲二区视频| 亚洲男人天堂2020| jizz在线免费播放| 日本午夜三级| 亚洲欧美日韩色图| 国产精女同一区二区三区久| 狠狠色丁婷婷综合久久| a级毛片免费播放| 亚洲国产精品无码久久一线| www亚洲天堂| 日韩无码真实干出血视频| 亚洲精品人成网线在线| 亚洲色无码专线精品观看| 免费久久一级欧美特大黄| 国产成人免费| 亚洲va在线∨a天堂va欧美va| 国产成人乱无码视频| 91在线播放免费不卡无毒| 在线观看欧美国产| 日韩AV手机在线观看蜜芽| 亚洲看片网| 欧美日韩午夜| 国产精品片在线观看手机版| 99热这里只有精品国产99| 天堂va亚洲va欧美va国产 | 亚洲品质国产精品无码| 国产微拍精品| 在线观看国产精品一区| 国产高潮视频在线观看| 亚洲精品中文字幕午夜| 欧美成人h精品网站| 成AV人片一区二区三区久久| 国产人前露出系列视频| 欧美视频二区| aaa国产一级毛片| 国产精品七七在线播放| 色婷婷天天综合在线| 国产欧美在线观看一区 | 亚洲精品麻豆| 欧美亚洲国产一区| 久久综合成人| 97国产精品视频自在拍| 91精品国产综合久久香蕉922 | 亚洲第一中文字幕| 亚洲天堂在线免费|