摘要:在垃圾郵件分類和樸素貝葉斯算法研究的基礎上,提出了基于用戶知識的貝葉斯分類算法。通過在分類過程中引入用戶知識,克服了電子郵件內容是非結構化、解讀依賴于用戶的問題。實驗證明,面向用戶知識的貝葉斯分類算法在商業(yè)郵件分類中比普通貝葉斯算法有更好的性能。
關鍵詞:電子郵件分類;樸素貝葉斯;文本分類;用戶知識表示
中圖分類號:TN915文獻標志碼:A
文章編號:1001—3695(2007)03—0263—02
隨著互聯(lián)網(wǎng)的發(fā)展,越來越多的用戶通過互聯(lián)網(wǎng)來交流,電子郵件成為人們日常生活交流的重要工具。用戶每星期可能收到成百上千的電子郵件,但是大部分是垃圾郵件。據(jù)時代雜志估計,1994年人們發(fā)送了7760億封電子郵件,1997年則是26000億封,2000年更是達到了66000億封。電子郵件特別是垃圾郵件的泛濫已經嚴重影響電子商務活動的正常開展。人們通常要花費很多時間對電子郵件進行處理,但效果卻不明顯,嚴重影響了正常的商務活動。對郵件進行合理的分類,為用戶挑選出有意義的電子郵件是所有用戶的迫切要求。
電子郵件分類的研究包括兩方面的內容,一方面是電子郵件分類應用的研究;另一方面是電子郵件分類算法的研究。
從電子郵件分類的應用來說,其他研究者進行了多方面的研究,研究的內容有郵件中心內容的析取、郵件的分類、郵件的應答、與企業(yè)的業(yè)務開展緊密結合。KenricMock提出了一個電子郵件分類的實驗性框架。DerekLam等人開發(fā)了電子郵件內容摘要系統(tǒng)。GerdMaderlechner提出了根據(jù)格式與內容進行文檔分類的實驗系統(tǒng)。AniNenkova研究了在聯(lián)系中心怎樣開展電子郵件分類。SungShunWeng開展了根據(jù)電子郵件內容進行自動應答的研究。目前電子郵件的分類應用研究集中于垃圾郵件分類和反垃圾郵件的研究。但是把電子郵件分類成垃圾郵件和非垃圾郵件還不能滿足企業(yè)在電子商務和客戶關系管理中的應用需求。電子郵件分類應用的趨勢是把郵件分類技術應用到各種各樣的商業(yè)環(huán)境中,提高用戶處理電子郵件的效率。本文研究的目的就是要把郵件分類的技術應用到電子商務中,進行商業(yè)郵件分類,把電子郵件分類成商業(yè)來往郵件和私人郵件。
從分類算法方面來說,常用的文檔和郵件分類算法有下面四種:決策樹、貝葉斯分類、K-NN和SVM。決策樹算法是一種歸納推理的算法;貝葉斯是一種概率學習方法;K-NN是基于實例學習的;SVM則為核方法的一種應用。當前貝葉斯方法是最為成熟和應用最廣泛的電子郵件分類方法。MehranSahami提出了利用貝葉斯方法進行垃圾郵件分類。IonAndroutsopouos對貝葉斯分類方法的性能進行了評估。LeZhang對貝葉斯分類方法和其他統(tǒng)計學習方法進行了比較。AlexanderK.Seewald研究了結合貝葉斯方法和規(guī)則推理的垃圾郵件分類方法。LudovicDenoyer提出利用貝葉斯方法對半結構化的文檔進行分類。
目前的郵件分類方法大多是將郵件分為垃圾郵件與非垃圾郵件,從而實現(xiàn)對郵件的自動過濾。但是經過濾后的電子郵件數(shù)量還是巨大的,用戶需要花費大量的時間來處理電子郵件。對已過濾的電子郵件進行分類,把電子郵件分成商業(yè)往來郵件和個人往來郵件,可以為用戶處理郵件提供支持,使用戶先處理比較重要的郵件,提高用戶處理郵件的效率。對于電子郵件這樣一種非結構化的文檔,現(xiàn)在的分類算法只考慮了電子郵件本身的客觀知識,不能很好地滿足這一應用的要求。本文提出了基于用戶知識的電子郵件分類算法,通過結合電子郵件本身的客觀知識和用戶的主觀知識,對電子郵件進行商業(yè)應用的分類。
1研究方法
1.1基本的貝葉斯分類器
樸素貝葉斯分類器是基于貝葉斯理論構造的。貝葉斯理論是貝葉斯學習方法的基礎。貝葉斯理論如下:
其中,D是訓練數(shù)據(jù)集,H是備選的假設集,h是任一個備選的假設。
在進行貝葉斯訓練的過程中關鍵是對P(D|h)進行估計,通常情況下可以用頻數(shù)來估計,即
1.2用于文本分類的樸素貝葉斯分類器
當使用上面的方法來估算一篇文檔的目標值時,我們假設詞組的概率與詞組在文檔中的位置無關,每個詞組在任何一個位置出現(xiàn)的概率都是一樣的。根據(jù)極大后驗假設有
1.3電子郵件分類算法
在電子郵件分類的過程中,把用戶的知識考慮進去以提高算法的正確性。用戶的背景或知識可以用關鍵字來表示,用戶根據(jù)自己的行業(yè)知識、社會背景等,設定每一類電子郵件的關鍵字,分別對關鍵字設定權重,各個類別的關鍵字應該具有更高的先驗概率。這實際是一種把主觀知識應用到先驗概率的估計當中。要在算法中利用用戶知識,可以利用如下所示的加權的m-估計:
在實驗模型中,每個用戶都有他自己關于關鍵字集與第一個關鍵字的權重W(wk),所以加權的m-estimate如式(6)所示。
所分類的電子郵件是中文電子郵件,從語義上來說,不同詞性的詞在語義上的作用是不同的。有些詞用于表達內容,有些則只是用于表達語氣,很明顯根據(jù)內容對文檔進行分類時,只需過濾出表達主要內容的詞就可以了。在算法中,加入了詞性過濾的步驟。在文檔分類之前,會先對文檔進行分詞,并根據(jù)詞性對詞組進行過濾,只保留名詞和動詞來代表一篇文檔,這樣可以提高算法的效率。實驗中使用了ICTCLAS(InstituteofComputingTechnology,ChineseLexicalAnalysisSystem)對文檔進行分詞,分詞后每個詞組都有詞性。
電子郵件的分類算法的訓練過程如下所示:
Examples為一組文本文檔以及它們的目標值。V為所有可能目標值的集合。此函數(shù)作用是學習概率項,它描述了從類別中的一個文檔隨機抽取一個單詞為中文詞組的概率。該函數(shù)也學習類別的先驗概率。
(1)對文檔進行分詞,并根據(jù)詞性對詞組進行過濾,用Examples′表示根據(jù)分詞和過濾的文檔集。
(2)Vocabulary←在Examples′中出現(xiàn)的單詞的集合。
2實驗與結果
2.1實驗結果的評價標準
采用偶然事件表(表1)對分類算法進行評測。
2.2實驗結果
實驗中使用的訓練數(shù)據(jù)集包括了120封電子郵件,其中60封是個人郵件,60封是商業(yè)來往郵件。測試數(shù)據(jù)集包括30封個人郵件和30封商業(yè)來往郵件。實驗結果顯示,改進的算法可以提高郵件分類的準確率,如表2—4所示。
3結束語
將電子郵件分類成商業(yè)來往郵件和個人來往郵件是電子商務發(fā)展的需要。對于電子郵件這樣一種非結構化的文檔,現(xiàn)在的分類算法只考慮了電子郵件本身的客觀知識,不能很好地滿足這一應用的要求。本文在對現(xiàn)在的文本分類算法和垃圾郵件分類研究的基礎上提出了基于用戶知識的電子郵件分類算法,通過結合電子郵件本身的客觀知識和用戶的主觀知識,對電子郵件進行商業(yè)應用的分類,解決了電子郵件是一種非結構化文檔,要根據(jù)用戶背景知識進行理解這一問題。
本文是通過用戶自定義關鍵字,并為不同關鍵字設定權重的方法來表現(xiàn)用戶知識的。怎樣更好地在算法中表示用戶知識,提高算法的效率是下一步研究的主要工作。
本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。