999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學(xué)習(xí)的郵件信息處理技術(shù)的研究

2016-05-14 22:34:54薛益定劉楊圣
網(wǎng)絡(luò)空間安全 2016年4期
關(guān)鍵詞:機器學(xué)習(xí)

薛益定 劉楊圣

【 摘 要 】 針對當前網(wǎng)絡(luò)上垃圾郵件無法識別的問題,論文設(shè)計出郵件信息處理系統(tǒng)來分析郵件。首先,對機器學(xué)習(xí)進行詳細的描述;其次,對電子郵件的數(shù)字信息處理的流程和關(guān)鍵算法進行分析;最后,給出了郵件信息處理系統(tǒng)的分類器的模型及功能實現(xiàn)。論文對于辦公人員和人工智能研究人員都具有一定的積極意義。

【 關(guān)鍵詞 】 機器學(xué)習(xí);郵件;信息處理

【 Abstract 】 Aiming at the problem that the spam can not be identified on the current network, this paper designs the mail information processing system to analyze mail. Firstly, to describe the machine learning; secondly to e-mail the digital information processing process and key algorithms are analyzed. In the end, the model and function realization of the classifier of mail information processing system are presented. This paper has a certain positive significance for the office staff and the artificial intelligence researchers.

【 Keywords 】 machine learning; mail; information processing

1 引言

隨著信息技術(shù)的不斷提高,電子郵件信息的傳遞已經(jīng)不僅僅局限于文字的描述,圖片、動畫、視頻、音頻等表現(xiàn)形式越來越多地出現(xiàn)在郵件中,傳統(tǒng)的信息處理技術(shù)已經(jīng)不能滿足當前郵件信息處理的需要。機器學(xué)習(xí)是通過數(shù)字信息處理的經(jīng)驗不斷進行在我學(xué)習(xí)的智能信息處理技術(shù),利用機器學(xué)習(xí)可以有效解決當前郵件中各類信息的處理難題。

2 機器學(xué)習(xí)

2.1 機器學(xué)習(xí)概況

用機器代替人類,一直是IT行業(yè)研究和關(guān)注的熱點話題,人類除了會主動自覺勞作以外,最主要是人類具有學(xué)習(xí),而機器只會按照預(yù)先設(shè)定步驟進行工作。人工智能研究的重點就是使機器具有一定的學(xué)習(xí)能力,這樣可以使得機器不斷自我完善,進而獲得知識,這使得機器學(xué)習(xí)在智能研究中占據(jù)著非常重要的地位。

機器學(xué)習(xí)是研究讓機器模擬人類自我學(xué)習(xí)的一門學(xué)科,具有學(xué)習(xí)能力的機器可以在不斷的重復(fù)工作中根據(jù)情況的變化而使得自身的適應(yīng)能力不斷加強和改進,進而提高了工作的效率。機器學(xué)習(xí)是建立在一定的環(huán)境之上,不斷進行學(xué)習(xí),并將學(xué)習(xí)的內(nèi)容加入到知識庫中,為以后的工作提供參考,在工作的過程中,根據(jù)知識庫提供的經(jīng)驗和要求,去執(zhí)行相對應(yīng)的步驟。

機器學(xué)習(xí)主要有兩個任務(wù):一是對數(shù)據(jù)進行分類,如文字識別、圖像處理、語音信號等;二是獲得控制分析、解決問題的能力,通過分類的精度和分析的正確與否來對學(xué)習(xí)的性能進行評價。

2.2 機器學(xué)習(xí)方法

機器學(xué)習(xí)自誕生以來,就受到了業(yè)內(nèi)的歡迎,特別是近20年來,機器學(xué)習(xí)隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,得到了迅猛的發(fā)展,機器學(xué)習(xí)的相關(guān)學(xué)術(shù)探討活動日益活路,越來越多的機器學(xué)習(xí)方法得以在實踐中應(yīng)用。當前,機器學(xué)習(xí)的方法主要有幾種。

(1)貝葉斯分類,通過對樣本的屬性概率進行計算,進而得出待解決問題樣本隸屬類的概率大小,該方法是統(tǒng)計學(xué)分類的范疇。

(2)K-最鄰近分類,通過搜索數(shù)據(jù)空間,查找出與未知樣本最相似的K個樣本進行計算分析,進而預(yù)測推出未知樣本的輸出值。

(3)遺傳算法,該方法是模擬生物進化的過程,首先隨機的方式創(chuàng)建一個群體,根據(jù)生物學(xué)中“適者生存、優(yōu)勝劣汰”的原則,通過制定合適的規(guī)則產(chǎn)生新的群體,并利用變異和交叉等遺傳操作來不斷進化,直至達到合適的閾值為止。

(4)回歸分析,通過對客觀事物進行大量的觀察和實驗,分析變量間的統(tǒng)計關(guān)系,找到隱含在變量之中的規(guī)則。

(5)判定樹歸納分類,將眾多樣本生成樹結(jié)構(gòu),分析每個樹上節(jié)點的屬性,分支代表測試的輸出,而節(jié)點表示類。通過判定樹來確定待分析樣本的具體分類。

(6)人工神經(jīng)網(wǎng)絡(luò),將一組相互有聯(lián)系的輸入和輸出樣本進行學(xué)習(xí),不斷調(diào)整彼此聯(lián)系的權(quán)值,進而得到預(yù)測值。

3 郵件數(shù)字信息特征提取方法

電子郵件以速度快、內(nèi)容量大的優(yōu)點給人們帶來了巨大的便利,但是隨著信息技術(shù)的不斷發(fā)展,人們對于電子郵件的利用越來越廣泛,同時也產(chǎn)生了大量的垃圾郵件,給人們的生活帶來了巨大的不便,影響了企事業(yè)單位的日常辦公。通過機器學(xué)習(xí)技術(shù)對郵件進行處理,分析電子郵件的特征,劃分正常郵件和垃圾郵件,將垃圾郵件剔除,可以極大地提高個人的辦公效率。

3.1 郵件數(shù)字信息處理的流程

首先對電子郵件的數(shù)字信息進行分詞,將一個完整的電子郵件信息分解成由若干分詞組成的數(shù)據(jù)信息集合空間;然后對郵件的數(shù)據(jù)空間進行處理,降低數(shù)據(jù)空間的維度,進而縮小數(shù)據(jù)空間向量的規(guī)模,使得機器學(xué)習(xí)算法更容易去處理,減少系統(tǒng)計算的時間;其次針對數(shù)字信息的特征進行選擇,計算數(shù)字信息特征項在整個電子郵件中的比重,得出郵件數(shù)字信息特征向量;最后將郵件信息中的分詞與特征項進行計算比對,對于不符合要求的電子郵件進行剔除,從而保留了正常郵件。

對于郵件的分詞數(shù)據(jù)空間進行降維操作,其主要是電子郵件的數(shù)據(jù)信息量非常龐大復(fù)雜,其分詞空間的維數(shù)一般情況下都非常高,甚至可能達到幾萬維,這使得機器學(xué)習(xí)算法在對樣本進行處理時,完全超出了計算的范疇。

3.2 郵件信息處理算法

4 基于機器學(xué)習(xí)的郵件信息處理系統(tǒng)的實現(xiàn)

4.1 系統(tǒng)的分類器模型

接收的新郵件是正常郵件還是垃圾郵件,通過貝葉斯算法為核心的分類器得出。整個系統(tǒng)由訓(xùn)練模塊和分類識別模塊兩部分組成,訓(xùn)練模塊主要進行新郵件的數(shù)字信息預(yù)處理、對分詞進行特征選擇、分類器組成;分類識破析模塊主要由郵件決策判斷過程組成。分類器是整個系統(tǒng)的核心,分類器如圖2所示。

由樸素貝葉斯算法設(shè)計的分類器由三個階段完成。

(1)準備工作階備。根據(jù)電子郵件的特性,設(shè)置分詞空間的特征屬性,并從樣本空間中獲取一部分分類項作為訓(xùn)練樣本。

(2)分類器訓(xùn)練階段。根據(jù)每個類別在訓(xùn)練樣本中的出現(xiàn)的頻率計算其概率P(yi),并根據(jù)每個特征屬性計算所有劃分的條件概率。

(3)應(yīng)用階段。計算每個類別P(x/yi)P(yi),其中最大項就是樣本所屬的類別。進而判斷郵件屬于正常郵件還是垃圾郵件。

4.2 功能模塊實現(xiàn)

5 結(jié)束語

基于機器學(xué)習(xí)的郵件信息處理技術(shù)可以有效地判斷正常郵件和垃圾郵件,幫助人們提高日常的工作效率,使之不受垃圾郵件的干擾。本文對機器學(xué)習(xí)中的樸素貝葉斯算法進行分析,并作為郵件處理系統(tǒng)的核心算法,由于本文的篇幅所限,對于系統(tǒng)的其他代碼無法具體給出。

參考文獻

[1] 紀思捷,胡豪杰.基于機器學(xué)習(xí)算法的大數(shù)據(jù)處理[J].電子技術(shù)與軟件工程,2015,23,202.

[2] 蘇翔.基于機器學(xué)習(xí)方法實現(xiàn)購物網(wǎng)站用戶反饋信息聚類[J].信息與電腦,2015,8,42-44.

[3] 吳啟暉,邱俊飛,丁國如.面向頻譜大數(shù)據(jù)處理的機器學(xué)習(xí)方法[J].數(shù)據(jù)采集與處理,2015,4,703-713.

[4] 賈慧星,章毓晉.智能視頻監(jiān)控中基于機器學(xué)習(xí)的自動人數(shù)統(tǒng)計[J].電視技術(shù),2009,4,78-81.

[5] 谷強,汪叔淳.智能制造系統(tǒng)中機器學(xué)習(xí)的研究[J].計算機工程與科學(xué),2000,1, 59-62.

作者簡介:

薛益定(1991-),男,浙江蒼南人,碩士研究生;主要研究方向和關(guān)注領(lǐng)域:機器學(xué)習(xí)、文本挖掘、文本情感分析。

劉楊圣 (1992-),男,貴州貴陽人,本科;主要研究方向和關(guān)注領(lǐng)域:數(shù)據(jù)額挖掘。

猜你喜歡
機器學(xué)習(xí)
基于詞典與機器學(xué)習(xí)的中文微博情感分析
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數(shù)據(jù)分析研究
基于Spark的大數(shù)據(jù)計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統(tǒng)
基于圖的半監(jiān)督學(xué)習(xí)方法綜述
機器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
極限學(xué)習(xí)機在圖像分割中的應(yīng)用
主站蜘蛛池模板: 亚洲欧美日韩色图| 精品人妻一区二区三区蜜桃AⅤ| 亚洲天堂自拍| 日本黄色不卡视频| 亚洲青涩在线| 五月天福利视频| 国内自拍久第一页| 国产丝袜精品| 黄色片中文字幕| 国产99精品视频| AV不卡国产在线观看| 亚洲天堂网在线观看视频| 国产毛片不卡| 毛片免费视频| 国产成人久久综合777777麻豆| 国产精品区视频中文字幕| 免费国产小视频在线观看| 狼友视频国产精品首页| 国产伦精品一区二区三区视频优播| jizz在线免费播放| 美女黄网十八禁免费看| 沈阳少妇高潮在线| 四虎在线高清无码| 美女裸体18禁网站| 成AV人片一区二区三区久久| 日韩欧美中文字幕在线精品| 亚洲国产欧美国产综合久久 | 91色在线视频| 99久久性生片| www.亚洲天堂| 色综合久久88| 精品一区二区三区波多野结衣| 欧美中出一区二区| 亚洲成a人片| 老司机精品一区在线视频| 激情综合网激情综合| 国产喷水视频| 中文字幕在线观| 国产91麻豆视频| 国产欧美视频综合二区| 思思99热精品在线| 亚洲欧美日韩中文字幕在线| 无码日韩视频| 国产视频入口| 国产在线啪| 日韩专区欧美| 亚洲无码一区在线观看| 国产成人啪视频一区二区三区| 欧美日在线观看| 国产精品亚洲综合久久小说| 日本国产精品| 91国内在线观看| 999国产精品永久免费视频精品久久 | 亚洲天堂啪啪| 99久久精品免费观看国产| 五月婷婷综合网| 国产成人AV综合久久| 欧美性猛交一区二区三区| 精品三级网站| 91香蕉视频下载网站| 日韩黄色在线| 国产亚洲精久久久久久无码AV| 又大又硬又爽免费视频| 国产真实乱子伦精品视手机观看 | 99热线精品大全在线观看| 成人毛片免费观看| 精品福利视频网| 国产精彩视频在线观看| www.日韩三级| 狠狠色综合网| 亚洲第一天堂无码专区| 亚洲va精品中文字幕| 92精品国产自产在线观看| 欧美日韩精品在线播放| 精品国产自在在线在线观看| 高h视频在线| 欧美日韩在线亚洲国产人| 极品私人尤物在线精品首页| 亚洲女同一区二区| 伊人久久婷婷| 伊人色在线视频| 欧美成人午夜影院|