湖北工業大學 曹麗君
基于興趣認知的垃圾郵件過濾技術研究
湖北工業大學 曹麗君
本文詳細介紹了基于興趣認知的垃圾郵件過濾技術的總體設計,以及初始化處理模塊和基于層疊隱馬模型的詞語切分模塊,最后介紹了算法實現和數據庫設計。
垃圾郵件;過濾技術;研究
隨著信息技術等現代科學技術的發展,郵件已經成為現在人們信息交流必不可少的一部分了。但是垃圾郵件也十分猖獗,并且垃圾郵件的種類也不斷翻新。所以要采取更有效的反垃圾郵件技術。
早在1997年,垃圾郵件已經開始泛濫了。2003年全球企業因垃圾郵件引起的損失已超過205億美元。據調查網民每天需要花費6.5 min來處理無用郵件,單是下載垃圾郵件所花費的上網費與電話費,每年就要花掉全球網民94億美元。國際著名分析機構Ferris公司的最新分析報告預測,2005年垃圾郵件給全球的生產力造成的損失和其他反垃圾郵件的投資將達到500億美元。IDC公司預測,到2008年反垃圾郵件軟件收入及其服務收入將能夠達到17億美元的規模;屆時用戶每年在反垃圾郵件上花費132美元。
它是一種自適應的、具有統計智能的技術,可以阻止日益變化的垃圾郵件,以前用的技術,如屏蔽過多郵件發送的IP地址,屏蔽指定用戶郵箱,已經跟不上現在的垃圾郵件的變化了,只有用具有智能性和具有自學習型的反垃圾郵件系統才能更加有效地抵制垃圾郵件。
現在主流的垃圾郵件過濾技術有黑名單技術、白名單技術,實時黑名單技術、內容過濾技術、自定義過濾技術。而這些過濾技術,只能過濾一般性的垃圾郵件,不能因人而異。比如某人興趣是喜歡體育,那么關于培訓和教育類的郵件對他來說就是垃圾郵件,要過濾掉,但是用以上常規的過濾技術是不能識別的,所以本文提出了基于興趣認知的垃圾郵件過濾技術。
該技術先區分郵件的正文和標題,再對正文進行詞語的切分,切分完后再存進數據庫,記錄字頻,再根據貝葉斯來計算概率。系統先根據用戶的判斷來確定哪些郵件是用戶感興趣的,經過一段時間學習后,再自行判斷。
垃圾郵件是指收件人事先沒有提出要求或者同意接收的廣告、電子刊物、各種形式的宣傳品等宣傳性的電子郵件,收件人無法拒收的電子郵件,隱藏發件人身份、地址、標題等信息的電子郵件,含有虛假的信息源、發件人、路由等信息的電子郵件。垃圾郵件一般具有批量發送的特征,在Internet上同時傳送多個副本:從內容上看,它們通常是商業廣告、宣傳資料或者其它一些無關內容。垃圾郵件是 Internet發展的副產品,起源于美國,在英文中有3個稱呼:UCE(Unsolicited Commercial Email)、UBE(Unsolicited Bulk Email)和Spain,常用的是Spain。 UCE是專指以商業廣告為內容的垃圾郵件,UBE則還包含一些無關內容。
中國互聯網協會定義的垃圾郵件有4種:
(1)收件人事先沒有提出要求或者同意接收的廣告、電子刊物、各種形式的宣傳品等宣傳性的電子郵件。
(2)收件人無法拒收的電子郵件。
(3)隱藏發件人身份、地址、標題等信息的電子郵件。
(4)含有虛假的信息源發件人、路由等信息的電子郵件。
目前,垃圾郵件的定義被擴大了,除了上述在《中國互聯網協會反垃圾郵件規范》中對垃圾郵件定義外,病毒、色情、反動、NULL等等無用的郵件,也被包括在垃圾郵件的定義中。
隨著Internet的日益普及,電子郵件已成為人們生活中不可缺少的一部分,它不僅為人們的工作和生活帶來了極大的便利。而且逐漸成為人們進行信息交流的一種重要手段。然而,垃圾郵件卻給廣大的網絡用戶帶來了無窮的煩惱,它不僅嚴重地干擾了用戶正常的電子郵件的收發,而且消耗了網絡帶寬,使用戶上網速度減慢,給網絡造成極大的危害。自互聯網普及以來,電子郵件逐漸成為人們生活中便捷的通信手段之一。然而,隨之產生的垃圾郵件像瘟疫一樣蔓延,造成極大的危害:占用大量的網絡帶寬,導致郵件服務器擁塞,降低整個網絡的運行效率;侵占收件人信箱空間,耗費收件人的時間、精力和金錢;易被黑客利用,成為攻擊工具;竊取用戶的網上行蹤,侵犯收件人的隱私權;嚴重影響ISP的服務形象,使服務商的主機名有可能被列入國際垃圾郵件數據庫,從而導致該主機不能訪問國際網絡;妖言惑眾、騙人錢財,傳播不良內容的垃圾郵件,對現實社會造成了危害。垃圾郵件危害之大、影響之深使得反垃圾郵件行動刻不容緩,因此,對反垃圾郵件技術的研究已經成為影響互聯網發展的重要課題之一。
[1]拒垃圾郵件于門外.微電腦世界,2005,(3):112-124.
[2]孟昭蘭.普通心理學.北京大學出版社,1994.
[3]曹麒麟.張千里編.垃圾郵件與反垃圾郵件.人民郵電出版社,2003.
2017-09-10)