999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

MD5算法在重復(fù)郵件識別方面的研究和實現(xiàn)

2011-08-29 05:39:44謝平華
科技傳播 2011年24期
關(guān)鍵詞:用戶信息系統(tǒng)

謝平華

貴州大學(xué)計算機科學(xué)與信息技術(shù)學(xué)院,貴州貴陽 550025

隨著網(wǎng)絡(luò)和通信技術(shù)的發(fā)展,國際互聯(lián)網(wǎng)正日漸成為全球最大的信息媒體,在人們的生活中發(fā)揮著越來越重要的作用。其中,電子郵件作為一種新的聯(lián)系方式,在互聯(lián)網(wǎng)上的應(yīng)用十分普遍,郵件服務(wù)器眾多,用戶數(shù)量巨大。通過電子郵件,人們可以方便、快捷地向他人傳遞信息,可以和他人實現(xiàn)跨時間、跨地域的相互交流。電子郵件正代替?zhèn)鹘y(tǒng)的通信信件,成為人們生活當(dāng)中不可或缺的一部分。

在實際的應(yīng)用中,輿情監(jiān)測系統(tǒng)每天從互聯(lián)網(wǎng)上實時獲取大量的電子郵件信息,存儲在本地之后,再進行后續(xù)地處理和分析,因為存在著以下的情況,很多重復(fù)的郵件也被采集存儲下來:同一封郵件同時向地址簿中的多個聯(lián)系人發(fā)送;向同一個人重復(fù)發(fā)送同一封郵件。重復(fù)郵件的存在,不僅浪費了寶貴的存儲空間和帶寬資源,而且大大增加了后端人員對郵件的處理和分析工作量。因此,對重復(fù)郵件進行識別和過濾,成為提高工作效率的關(guān)鍵環(huán)節(jié)。

但是,若采用直接比較郵件內(nèi)容的方法來識別重復(fù)郵件,不僅需要將郵件原文全部保存入庫,而且對大文本進行逐字匹配的效率也不高,算法在時間復(fù)雜度和空間復(fù)雜度上都有較大的缺憾,還會影響新郵件的實時接收。鑒于此,我們經(jīng)過認真研究,決定在郵件分析程序中構(gòu)造郵件要素的特征值,并應(yīng)用MD5算法,實現(xiàn)對重復(fù)郵件的識別,從而準(zhǔn)確、快速地將無用郵件過濾出來。

1 MD5算法描述

MD5的全稱是Message-Digest Algorithm 5(信息-摘要算法)[2],在90年代初由MIT Laboratory for Computer Science和RSA Data Security Inc的Ronald L. Rivest開發(fā)出來,經(jīng)MD2、MD3和MD4發(fā)展而來。它的作用是讓大容量信息在用數(shù)字簽名軟件簽署私人密匙前被“壓縮”成一種保密的格式(即將一個任意長度的字節(jié)串變換成一個定長的大整數(shù))。MD5的典型應(yīng)用是對一段信息產(chǎn)生信息摘要(Message-Digest),以防止信息內(nèi)容被篡改。比如,在UNIX下有很多軟件在下載的時候都有一個相同的擴展名為.md5的文件,在這個文件中通常只有一行文本,大致結(jié)構(gòu)如:

MD5(tanajiya.tar.gz)=0ca175b9c0f726a831d895e269332461

這就是tanajiya.tar.gz文件的數(shù)字簽名。MD5將整個文件當(dāng)作一個大文本信息,通過其不可逆的字符串變換算法,產(chǎn)生了這個唯一的MD5信息摘要。如果在以后傳播這個文件的過程中,無論文件的內(nèi)容發(fā)生了任何形式的改變(包括人為修改或者下載過程中線路不穩(wěn)定引起的傳輸錯誤等),只要對這個文件重新計算MD5,就會發(fā)現(xiàn)信息摘要不相同,由此可以確定得到的是一個不正確的文件。

MD5還廣泛用于加密和解密技術(shù)上。比如在UNIX系統(tǒng)中,用戶的密碼就是以MD5(或其它類似的算法)經(jīng)加密后存儲在文件系統(tǒng)中。當(dāng)用戶登錄的時候,系統(tǒng)把用戶輸入的密碼計算成MD5值,然后再去和保存在文件系統(tǒng)中的MD5值進行比較,進而確定輸入的密碼是否正確。通過這樣的步驟,系統(tǒng)在并不知道用戶密碼的明碼的情況下就可以確定用戶登錄系統(tǒng)的合法性。這不但可以避免用戶的密碼被具有系統(tǒng)管理員權(quán)限的用戶知道,而且還在一定程度上增加了密碼被破解的難度。

MD5算法輸入是一個任意長度的字節(jié)串,每個字節(jié)是8個bit。算法的執(zhí)行分為以下幾個步驟:

1)補位

MD5算法先對輸入的數(shù)據(jù)進行補位,使得數(shù)據(jù)的長度(以byte為單位)對64求余的結(jié)果是56。即數(shù)據(jù)擴展至LEN=K*64+56個字節(jié),K為整數(shù)。補位方法:補一個1,然后補0至滿足上述要求。相當(dāng)于補一個0x80的字節(jié),再補值為0的字節(jié)。這一步里總共補充的字節(jié)數(shù)為0個~63個。

2)附加數(shù)據(jù)長度

用一個64位的整數(shù)表示數(shù)據(jù)的原始長度(以bit為單位),將這個數(shù)字的8個字節(jié)按低位的在前,高位在后的順序附加在補位后的數(shù)據(jù)后面。這時,數(shù)據(jù)被填補后的總長度為:LEN=K*64+56+8=(K+1)*64 Bytes。

3)初始化MD5參數(shù)

設(shè)置四個32位整數(shù)變量(A,B,C,D)用來計算信息摘要,每一個變量被初始化成以下用十六進制數(shù)表示的數(shù)值:

A=0x67452301;B=0xefcdab89;C=0x98badcfe;D=0x10325476

4)定義四個MD5基本的按位操作函數(shù)

F(X,Y,Z) = (X and Y) or (not(X) and Z)

G(X,Y,Z) = (X and Z) or (Y and not(Z))

H(X,Y,Z) = X xor Y xor Z

I(X,Y,Z) = Y xor (X or not(Z))

其中,X,Y,Z均為32位整數(shù)。

5)定義四個分別用于四輪變換的函數(shù):

設(shè)Mj表示消息的第j個子分組(從0到15),常數(shù)ti為4294967296*abs(sin(i))的整數(shù)部分,i的單位是弧度, i的取值從1到64,s表示左移的位數(shù),a、b、c、d的初值分別取A、B、C、D:

FF(a,b,c,d,Mj,s,ti)表示a=b+((a+F(b,c,d)+Mj+ti)<

GG(a,b,c,d,Mj,s,ti)表示a=b+((a+G(b,c,d)+Mj+ti)<

HH(a,b,c,d,Mj,s,ti)表示a=b+((a+H(b,c,d)+Mj+ti)<

II(a,b,c,d,Mj,s,ti)表示a=b+((a+I(b,c,d)+Mj+ti)<

四輪變換分別是:

第一輪:

FF(a,b,c,d,M0,7,0xd76aa478);

FF(d,a,b,c,M1,12,0xe8c7b756);

… FF(b,c,d,a,M15,22,0x49b40821);

第二輪

GG(a,b,c,d,M1,5,0xf61e2562);

GG(d,a,b,c,M6,9,0xc040b340);

… GG(b,c,d,a,M12,20,0x8d2a4c8a);

第三輪

HH(a,b,c,d,M5,4,0xfffa3942);

HH(d,a,b,c,M8,11,0x8771f681);

… HH(b,c,d,a,M2,23,0xc4ac5665);

第四輪

II(a,b,c,d,M0,6,0xf4292244);

II(d,a,b,c,M7,10,0x432aff97);

… II(b,c,d,a,M9,21,0xeb86d391);

6)對輸入數(shù)據(jù)作變換

處理步驟2中得到的被填補后的數(shù)據(jù),以64個字節(jié)為一組,每組作一次循環(huán),每次循環(huán)進行四輪操作。

7)輸出結(jié)果

循環(huán)完成后,將a、b、c、d的值順序拼接在一起,共128位,再轉(zhuǎn)換為16進制,以字符串的形式輸出。

例:MD5 ("") = d41d8cd98f00b204e9800998ecf8427e

2 MD5算法在重復(fù)郵件識別中的具體實現(xiàn)

在實際系統(tǒng)中,我們針對每封郵件抽取其發(fā)件人郵箱、郵件主題、郵件正文的文本內(nèi)容、附件名稱、附件大小等五種要素,采用字符串拼接的方式,構(gòu)造郵件的特征值T,則T=發(fā)件人郵箱+郵件主題+郵件正文文本+附件名稱+附件大小,

對特征值T采用MD5算法進行運算,得到每封郵件唯一的哈希值:H=MD5(T),將已有郵件i的哈希值Hi保存在數(shù)據(jù)庫中。當(dāng)新郵件j到達時,比較Hj和Hi,若Hj=Hi,則j為重復(fù)郵件,丟棄,否則將j作為有用郵件進行后續(xù)處理,并將Hj寫入數(shù)據(jù)庫保存。程序流程如下圖所示。

基于MD5算法的成熟和易實現(xiàn)性,系統(tǒng)采用比較郵件的MD5哈希值的方法來識別重復(fù)郵件,程序的可移植性強,對重復(fù)郵件的判斷準(zhǔn)確,過濾效果較好,克服了直接比較郵件內(nèi)容在時間復(fù)雜度和空間復(fù)雜度上的缺點,在實際工作中發(fā)揮了巨大的作用。基于這種理論思路,我們將其擴展到整個系統(tǒng)的數(shù)據(jù)去重的處理上面,達到了很好的實際效果。

3 結(jié)論

本文首先簡要介紹了海量數(shù)據(jù)挖掘及輿情分析技術(shù),然后規(guī)劃了整個系統(tǒng)的系統(tǒng)模型。隨后本文以BBS輿情分析系統(tǒng)的實現(xiàn),闡述了輿情分析系統(tǒng)的具體實現(xiàn)方式和原理。然后,本文又重點研究了MD5算法在重復(fù)郵件識別中的應(yīng)用,并將其廣泛應(yīng)用于數(shù)據(jù)去重方面的處理。

[1]王永成,沈州,許一震.改進的多模式匹配算法[J].計算機研究與發(fā)展,2002,39(1):55-60.

[2]萬國根,秦志光.改進的AC-BC字符串匹配算法.電子科技大學(xué)學(xué)報,2006,35(4).

[3]Rivest, R., "MD4 信息摘要算法", RFC 1320, MIT and RSA Data Security, Inc., 1992,四,.

[4]Rivest, R., "MD4 信息摘要算法", in A.J. Menezes and S.A.Vanstone, editors, Advances in Cryptology -CRYPTO '90 Proceedings, pages 303-311, Springer-Verlag,1991.

猜你喜歡
用戶信息系統(tǒng)
Smartflower POP 一體式光伏系統(tǒng)
WJ-700無人機系統(tǒng)
ZC系列無人機遙感系統(tǒng)
北京測繪(2020年12期)2020-12-29 01:33:58
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 国产三级视频网站| 试看120秒男女啪啪免费| 国产精品极品美女自在线网站| 国产免费福利网站| av一区二区无码在线| 人妻免费无码不卡视频| 国产精品jizz在线观看软件| 白浆视频在线观看| 午夜精品影院| 国产高清精品在线91| 欧美一级高清免费a| 91亚瑟视频| 国产精品自在自线免费观看| 国产高清国内精品福利| 日韩成人在线视频| 国产福利一区在线| 国产女人18毛片水真多1| 欧美A级V片在线观看| 91欧美在线| 热久久这里是精品6免费观看| 国产人成午夜免费看| 香蕉精品在线| 欧美日韩国产成人高清视频| 亚洲男人在线天堂| 26uuu国产精品视频| 亚洲第一香蕉视频| 91精品国产综合久久香蕉922| 国产永久免费视频m3u8| 国产在线自乱拍播放| 香蕉伊思人视频| 老司机精品久久| 日韩av在线直播| 无码丝袜人妻| 欧美在线观看不卡| 国产免费福利网站| 久久久久久国产精品mv| 在线观看国产黄色| 在线另类稀缺国产呦| 亚洲区第一页| 免费观看亚洲人成网站| 国产毛片一区| 热思思久久免费视频| 亚洲三级影院| 久久a毛片| 波多野结衣亚洲一区| 国产精品女同一区三区五区| 国模极品一区二区三区| 99热国产在线精品99| 一区二区三区四区精品视频| 丁香六月综合网| 国产本道久久一区二区三区| 国产福利2021最新在线观看| 在线观看91精品国产剧情免费| 99久久精品久久久久久婷婷| 97视频精品全国在线观看| 国产中文在线亚洲精品官网| 国产精品手机在线播放| 成人韩免费网站| 国产成人亚洲欧美激情| 亚洲一区二区三区香蕉| 毛片网站在线播放| 国产区福利小视频在线观看尤物| 天堂成人在线| 台湾AV国片精品女同性| 日韩欧美国产精品| 久久婷婷五月综合色一区二区| 日韩第九页| 久操线在视频在线观看| 高潮毛片无遮挡高清视频播放 | 综合亚洲网| 国产打屁股免费区网站| 免费99精品国产自在现线| 伊人查蕉在线观看国产精品| 日本影院一区| 欧美狠狠干| 国产在线精彩视频论坛| 亚洲啪啪网| 色综合久久无码网| www.91中文字幕| 国产成人高清精品免费| 老司机精品99在线播放| 五月天天天色|