基于機器學(xué)習(xí)的郵件信息處理技術(shù)的研究

2016-05-14 22:34:54薛益定劉楊圣

網(wǎng)絡(luò)空間安全 2016年4期

薛益定　劉楊圣

【摘要】針對當前網(wǎng)絡(luò)上垃圾郵件無法識別的問題，論文設(shè)計出郵件信息處理系統(tǒng)來分析郵件。首先，對機器學(xué)習(xí)進行詳細的描述；其次，對電子郵件的數(shù)字信息處理的流程和關(guān)鍵算法進行分析；最后，給出了郵件信息處理系統(tǒng)的分類器的模型及功能實現(xiàn)。論文對于辦公人員和人工智能研究人員都具有一定的積極意義。

【關(guān)鍵詞】機器學(xué)習(xí)；郵件；信息處理

【 Abstract 】 Aiming at the problem that the spam can not be identified on the current network， this paper designs the mail information processing system to analyze mail. Firstly， to describe the machine learning； secondly to e-mail the digital information processing process and key algorithms are analyzed. In the end， the model and function realization of the classifier of mail information processing system are presented. This paper has a certain positive significance for the office staff and the artificial intelligence researchers.

【 Keywords 】 machine learning； mail； information processing

1 引言

隨著信息技術(shù)的不斷提高，電子郵件信息的傳遞已經(jīng)不僅僅局限于文字的描述，圖片、動畫、視頻、音頻等表現(xiàn)形式越來越多地出現(xiàn)在郵件中，傳統(tǒng)的信息處理技術(shù)已經(jīng)不能滿足當前郵件信息處理的需要。機器學(xué)習(xí)是通過數(shù)字信息處理的經(jīng)驗不斷進行在我學(xué)習(xí)的智能信息處理技術(shù)，利用機器學(xué)習(xí)可以有效解決當前郵件中各類信息的處理難題。

2 機器學(xué)習(xí)

2.1 機器學(xué)習(xí)概況

用機器代替人類，一直是IT行業(yè)研究和關(guān)注的熱點話題，人類除了會主動自覺勞作以外，最主要是人類具有學(xué)習(xí)，而機器只會按照預(yù)先設(shè)定步驟進行工作。人工智能研究的重點就是使機器具有一定的學(xué)習(xí)能力，這樣可以使得機器不斷自我完善，進而獲得知識，這使得機器學(xué)習(xí)在智能研究中占據(jù)著非常重要的地位。

機器學(xué)習(xí)是研究讓機器模擬人類自我學(xué)習(xí)的一門學(xué)科，具有學(xué)習(xí)能力的機器可以在不斷的重復(fù)工作中根據(jù)情況的變化而使得自身的適應(yīng)能力不斷加強和改進，進而提高了工作的效率。機器學(xué)習(xí)是建立在一定的環(huán)境之上，不斷進行學(xué)習(xí)，并將學(xué)習(xí)的內(nèi)容加入到知識庫中，為以后的工作提供參考，在工作的過程中，根據(jù)知識庫提供的經(jīng)驗和要求，去執(zhí)行相對應(yīng)的步驟。

機器學(xué)習(xí)主要有兩個任務(wù)：一是對數(shù)據(jù)進行分類，如文字識別、圖像處理、語音信號等；二是獲得控制分析、解決問題的能力，通過分類的精度和分析的正確與否來對學(xué)習(xí)的性能進行評價。

2.2 機器學(xué)習(xí)方法

機器學(xué)習(xí)自誕生以來，就受到了業(yè)內(nèi)的歡迎，特別是近20年來，機器學(xué)習(xí)隨著網(wǎng)絡(luò)技術(shù)的發(fā)展，得到了迅猛的發(fā)展，機器學(xué)習(xí)的相關(guān)學(xué)術(shù)探討活動日益活路，越來越多的機器學(xué)習(xí)方法得以在實踐中應(yīng)用。當前，機器學(xué)習(xí)的方法主要有幾種。

（1）貝葉斯分類，通過對樣本的屬性概率進行計算，進而得出待解決問題樣本隸屬類的概率大小，該方法是統(tǒng)計學(xué)分類的范疇。

（2）K-最鄰近分類，通過搜索數(shù)據(jù)空間，查找出與未知樣本最相似的K個樣本進行計算分析，進而預(yù)測推出未知樣本的輸出值。

（3）遺傳算法，該方法是模擬生物進化的過程，首先隨機的方式創(chuàng)建一個群體，根據(jù)生物學(xué)中“適者生存、優(yōu)勝劣汰”的原則，通過制定合適的規(guī)則產(chǎn)生新的群體，并利用變異和交叉等遺傳操作來不斷進化，直至達到合適的閾值為止。

（4）回歸分析，通過對客觀事物進行大量的觀察和實驗，分析變量間的統(tǒng)計關(guān)系，找到隱含在變量之中的規(guī)則。

（5）判定樹歸納分類，將眾多樣本生成樹結(jié)構(gòu)，分析每個樹上節(jié)點的屬性，分支代表測試的輸出，而節(jié)點表示類。通過判定樹來確定待分析樣本的具體分類。

（6）人工神經(jīng)網(wǎng)絡(luò)，將一組相互有聯(lián)系的輸入和輸出樣本進行學(xué)習(xí)，不斷調(diào)整彼此聯(lián)系的權(quán)值，進而得到預(yù)測值。

3 郵件數(shù)字信息特征提取方法

電子郵件以速度快、內(nèi)容量大的優(yōu)點給人們帶來了巨大的便利，但是隨著信息技術(shù)的不斷發(fā)展，人們對于電子郵件的利用越來越廣泛，同時也產(chǎn)生了大量的垃圾郵件，給人們的生活帶來了巨大的不便，影響了企事業(yè)單位的日常辦公。通過機器學(xué)習(xí)技術(shù)對郵件進行處理，分析電子郵件的特征，劃分正常郵件和垃圾郵件，將垃圾郵件剔除，可以極大地提高個人的辦公效率。

3.1 郵件數(shù)字信息處理的流程

首先對電子郵件的數(shù)字信息進行分詞，將一個完整的電子郵件信息分解成由若干分詞組成的數(shù)據(jù)信息集合空間；然后對郵件的數(shù)據(jù)空間進行處理，降低數(shù)據(jù)空間的維度，進而縮小數(shù)據(jù)空間向量的規(guī)模，使得機器學(xué)習(xí)算法更容易去處理，減少系統(tǒng)計算的時間；其次針對數(shù)字信息的特征進行選擇，計算數(shù)字信息特征項在整個電子郵件中的比重，得出郵件數(shù)字信息特征向量；最后將郵件信息中的分詞與特征項進行計算比對，對于不符合要求的電子郵件進行剔除，從而保留了正常郵件。

對于郵件的分詞數(shù)據(jù)空間進行降維操作，其主要是電子郵件的數(shù)據(jù)信息量非常龐大復(fù)雜，其分詞空間的維數(shù)一般情況下都非常高，甚至可能達到幾萬維，這使得機器學(xué)習(xí)算法在對樣本進行處理時，完全超出了計算的范疇。

3.2 郵件信息處理算法

4 基于機器學(xué)習(xí)的郵件信息處理系統(tǒng)的實現(xiàn)

4.1 系統(tǒng)的分類器模型

接收的新郵件是正常郵件還是垃圾郵件，通過貝葉斯算法為核心的分類器得出。整個系統(tǒng)由訓(xùn)練模塊和分類識別模塊兩部分組成，訓(xùn)練模塊主要進行新郵件的數(shù)字信息預(yù)處理、對分詞進行特征選擇、分類器組成；分類識破析模塊主要由郵件決策判斷過程組成。分類器是整個系統(tǒng)的核心，分類器如圖2所示。

由樸素貝葉斯算法設(shè)計的分類器由三個階段完成。

（1）準備工作階備。根據(jù)電子郵件的特性，設(shè)置分詞空間的特征屬性，并從樣本空間中獲取一部分分類項作為訓(xùn)練樣本。

（2）分類器訓(xùn)練階段。根據(jù)每個類別在訓(xùn)練樣本中的出現(xiàn)的頻率計算其概率P（yi），并根據(jù)每個特征屬性計算所有劃分的條件概率。

（3）應(yīng)用階段。計算每個類別P（x/yi）P（yi），其中最大項就是樣本所屬的類別。進而判斷郵件屬于正常郵件還是垃圾郵件。

4.2 功能模塊實現(xiàn)

5 結(jié)束語

基于機器學(xué)習(xí)的郵件信息處理技術(shù)可以有效地判斷正常郵件和垃圾郵件，幫助人們提高日常的工作效率，使之不受垃圾郵件的干擾。本文對機器學(xué)習(xí)中的樸素貝葉斯算法進行分析，并作為郵件處理系統(tǒng)的核心算法，由于本文的篇幅所限，對于系統(tǒng)的其他代碼無法具體給出。

參考文獻

[1] 紀思捷，胡豪杰.基于機器學(xué)習(xí)算法的大數(shù)據(jù)處理[J].電子技術(shù)與軟件工程，2015，23，202.

[2] 蘇翔.基于機器學(xué)習(xí)方法實現(xiàn)購物網(wǎng)站用戶反饋信息聚類[J].信息與電腦，2015，8，42-44.

[3] 吳啟暉，邱俊飛，丁國如.面向頻譜大數(shù)據(jù)處理的機器學(xué)習(xí)方法[J].數(shù)據(jù)采集與處理，2015，4，703-713.

[4] 賈慧星，章毓晉.智能視頻監(jiān)控中基于機器學(xué)習(xí)的自動人數(shù)統(tǒng)計[J].電視技術(shù)，2009，4，78-81.

[5] 谷強，汪叔淳.智能制造系統(tǒng)中機器學(xué)習(xí)的研究[J].計算機工程與科學(xué)，2000，1， 59-62.

作者簡介：

薛益定（1991-），男，浙江蒼南人，碩士研究生；主要研究方向和關(guān)注領(lǐng)域：機器學(xué)習(xí)、文本挖掘、文本情感分析。

劉楊圣（1992-），男，貴州貴陽人，本科；主要研究方向和關(guān)注領(lǐng)域：數(shù)據(jù)額挖掘。