999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于用戶知識的中文電子郵件分類

2007-01-01 00:00:00謝偉全李一軍
計算機應用研究 2007年3期

摘要:在垃圾郵件分類和樸素貝葉斯算法研究的基礎上,提出了基于用戶知識的貝葉斯分類算法。通過在分類過程中引入用戶知識,克服了電子郵件內容是非結構化、解讀依賴于用戶的問題。實驗證明,面向用戶知識的貝葉斯分類算法在商業(yè)郵件分類中比普通貝葉斯算法有更好的性能。

關鍵詞:電子郵件分類;樸素貝葉斯;文本分類;用戶知識表示

中圖分類號:TN915文獻標志碼:A

文章編號:1001—3695(2007)03—0263—02

隨著互聯(lián)網(wǎng)的發(fā)展,越來越多的用戶通過互聯(lián)網(wǎng)來交流,電子郵件成為人們日常生活交流的重要工具。用戶每星期可能收到成百上千的電子郵件,但是大部分是垃圾郵件。據(jù)時代雜志估計,1994年人們發(fā)送了7760億封電子郵件,1997年則是26000億封,2000年更是達到了66000億封。電子郵件特別是垃圾郵件的泛濫已經嚴重影響電子商務活動的正常開展。人們通常要花費很多時間對電子郵件進行處理,但效果卻不明顯,嚴重影響了正常的商務活動。對郵件進行合理的分類,為用戶挑選出有意義的電子郵件是所有用戶的迫切要求。

電子郵件分類的研究包括兩方面的內容,一方面是電子郵件分類應用的研究;另一方面是電子郵件分類算法的研究。

從電子郵件分類的應用來說,其他研究者進行了多方面的研究,研究的內容有郵件中心內容的析取、郵件的分類、郵件的應答、與企業(yè)的業(yè)務開展緊密結合。KenricMock提出了一個電子郵件分類的實驗性框架。DerekLam等人開發(fā)了電子郵件內容摘要系統(tǒng)。GerdMaderlechner提出了根據(jù)格式與內容進行文檔分類的實驗系統(tǒng)。AniNenkova研究了在聯(lián)系中心怎樣開展電子郵件分類。SungShunWeng開展了根據(jù)電子郵件內容進行自動應答的研究。目前電子郵件的分類應用研究集中于垃圾郵件分類和反垃圾郵件的研究。但是把電子郵件分類成垃圾郵件和非垃圾郵件還不能滿足企業(yè)在電子商務和客戶關系管理中的應用需求。電子郵件分類應用的趨勢是把郵件分類技術應用到各種各樣的商業(yè)環(huán)境中,提高用戶處理電子郵件的效率。本文研究的目的就是要把郵件分類的技術應用到電子商務中,進行商業(yè)郵件分類,把電子郵件分類成商業(yè)來往郵件和私人郵件。

從分類算法方面來說,常用的文檔和郵件分類算法有下面四種:決策樹、貝葉斯分類、K-NN和SVM。決策樹算法是一種歸納推理的算法;貝葉斯是一種概率學習方法;K-NN是基于實例學習的;SVM則為核方法的一種應用。當前貝葉斯方法是最為成熟和應用最廣泛的電子郵件分類方法。MehranSahami提出了利用貝葉斯方法進行垃圾郵件分類。IonAndroutsopouos對貝葉斯分類方法的性能進行了評估。LeZhang對貝葉斯分類方法和其他統(tǒng)計學習方法進行了比較。AlexanderK.Seewald研究了結合貝葉斯方法和規(guī)則推理的垃圾郵件分類方法。LudovicDenoyer提出利用貝葉斯方法對半結構化的文檔進行分類。

目前的郵件分類方法大多是將郵件分為垃圾郵件與非垃圾郵件,從而實現(xiàn)對郵件的自動過濾。但是經過濾后的電子郵件數(shù)量還是巨大的,用戶需要花費大量的時間來處理電子郵件。對已過濾的電子郵件進行分類,把電子郵件分成商業(yè)往來郵件和個人往來郵件,可以為用戶處理郵件提供支持,使用戶先處理比較重要的郵件,提高用戶處理郵件的效率。對于電子郵件這樣一種非結構化的文檔,現(xiàn)在的分類算法只考慮了電子郵件本身的客觀知識,不能很好地滿足這一應用的要求。本文提出了基于用戶知識的電子郵件分類算法,通過結合電子郵件本身的客觀知識和用戶的主觀知識,對電子郵件進行商業(yè)應用的分類。

1研究方法

1.1基本的貝葉斯分類器

樸素貝葉斯分類器是基于貝葉斯理論構造的。貝葉斯理論是貝葉斯學習方法的基礎。貝葉斯理論如下:

其中,D是訓練數(shù)據(jù)集,H是備選的假設集,h是任一個備選的假設。

在進行貝葉斯訓練的過程中關鍵是對P(D|h)進行估計,通常情況下可以用頻數(shù)來估計,即

1.2用于文本分類的樸素貝葉斯分類器

當使用上面的方法來估算一篇文檔的目標值時,我們假設詞組的概率與詞組在文檔中的位置無關,每個詞組在任何一個位置出現(xiàn)的概率都是一樣的。根據(jù)極大后驗假設有

1.3電子郵件分類算法

在電子郵件分類的過程中,把用戶的知識考慮進去以提高算法的正確性。用戶的背景或知識可以用關鍵字來表示,用戶根據(jù)自己的行業(yè)知識、社會背景等,設定每一類電子郵件的關鍵字,分別對關鍵字設定權重,各個類別的關鍵字應該具有更高的先驗概率。這實際是一種把主觀知識應用到先驗概率的估計當中。要在算法中利用用戶知識,可以利用如下所示的加權的m-估計:

在實驗模型中,每個用戶都有他自己關于關鍵字集與第一個關鍵字的權重W(wk),所以加權的m-estimate如式(6)所示。

所分類的電子郵件是中文電子郵件,從語義上來說,不同詞性的詞在語義上的作用是不同的。有些詞用于表達內容,有些則只是用于表達語氣,很明顯根據(jù)內容對文檔進行分類時,只需過濾出表達主要內容的詞就可以了。在算法中,加入了詞性過濾的步驟。在文檔分類之前,會先對文檔進行分詞,并根據(jù)詞性對詞組進行過濾,只保留名詞和動詞來代表一篇文檔,這樣可以提高算法的效率。實驗中使用了ICTCLAS(InstituteofComputingTechnology,ChineseLexicalAnalysisSystem)對文檔進行分詞,分詞后每個詞組都有詞性。

電子郵件的分類算法的訓練過程如下所示:

Examples為一組文本文檔以及它們的目標值。V為所有可能目標值的集合。此函數(shù)作用是學習概率項,它描述了從類別中的一個文檔隨機抽取一個單詞為中文詞組的概率。該函數(shù)也學習類別的先驗概率。

(1)對文檔進行分詞,并根據(jù)詞性對詞組進行過濾,用Examples′表示根據(jù)分詞和過濾的文檔集。

(2)Vocabulary←在Examples′中出現(xiàn)的單詞的集合。

2實驗與結果

2.1實驗結果的評價標準

采用偶然事件表(表1)對分類算法進行評測。

2.2實驗結果

實驗中使用的訓練數(shù)據(jù)集包括了120封電子郵件,其中60封是個人郵件,60封是商業(yè)來往郵件。測試數(shù)據(jù)集包括30封個人郵件和30封商業(yè)來往郵件。實驗結果顯示,改進的算法可以提高郵件分類的準確率,如表2—4所示。

3結束語

將電子郵件分類成商業(yè)來往郵件和個人來往郵件是電子商務發(fā)展的需要。對于電子郵件這樣一種非結構化的文檔,現(xiàn)在的分類算法只考慮了電子郵件本身的客觀知識,不能很好地滿足這一應用的要求。本文在對現(xiàn)在的文本分類算法和垃圾郵件分類研究的基礎上提出了基于用戶知識的電子郵件分類算法,通過結合電子郵件本身的客觀知識和用戶的主觀知識,對電子郵件進行商業(yè)應用的分類,解決了電子郵件是一種非結構化文檔,要根據(jù)用戶背景知識進行理解這一問題。

本文是通過用戶自定義關鍵字,并為不同關鍵字設定權重的方法來表現(xiàn)用戶知識的。怎樣更好地在算法中表示用戶知識,提高算法的效率是下一步研究的主要工作。

本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。

主站蜘蛛池模板: 久久精品国产免费观看频道 | 大香伊人久久| 亚洲乱码视频| 日韩精品专区免费无码aⅴ| 毛片在线看网站| 大香网伊人久久综合网2020| 日本www色视频| 99ri精品视频在线观看播放| 88av在线| 亚洲香蕉伊综合在人在线| 五月婷婷伊人网| 大陆精大陆国产国语精品1024| 欧美成人亚洲综合精品欧美激情| a级毛片免费看| 中文字幕有乳无码| www亚洲精品| 熟女视频91| 激情无码视频在线看| 日本欧美中文字幕精品亚洲| 亚洲视频在线网| 精品三级网站| 免费一级毛片在线播放傲雪网| 国产福利在线免费| 国产成人欧美| 亚洲人精品亚洲人成在线| 狠狠操夜夜爽| 欧美www在线观看| 亚洲人成电影在线播放| 欧美日韩亚洲综合在线观看| 一级黄色欧美| 欧美日韩亚洲综合在线观看 | 天堂成人在线| 免费看一级毛片波多结衣| 综合色88| 精品人妻无码区在线视频| 欧美成人精品欧美一级乱黄| 亚洲精品无码不卡在线播放| 成人va亚洲va欧美天堂| 91精品视频播放| 国产女人在线观看| 精品久久久无码专区中文字幕| 精品国产Av电影无码久久久| 国产成人高清亚洲一区久久| 日韩AV无码一区| a毛片免费观看| 国产毛片基地| 91丝袜美腿高跟国产极品老师| 久久综合婷婷| 日韩高清欧美| 精品无码人妻一区二区| 精品国产成人a在线观看| 小13箩利洗澡无码视频免费网站| 青草视频网站在线观看| 福利片91| 欧美亚洲综合免费精品高清在线观看| 久久综合AV免费观看| 亚洲高清日韩heyzo| 久久精品国产电影| 色亚洲成人| 中文字幕不卡免费高清视频| 成人国产精品网站在线看| 亚洲成av人无码综合在线观看| 国产成人精品免费av| 亚洲国产亚洲综合在线尤物| 亚洲日本中文字幕天堂网| 亚洲制服丝袜第一页| 中文国产成人精品久久一| 日韩免费视频播播| 亚洲色图综合在线| 国产又色又爽又黄| 999精品视频在线| 国产免费一级精品视频| 欧美国产日韩在线播放| 91美女视频在线观看| 国产凹凸视频在线观看 | 精品视频一区在线观看| 99久久国产综合精品2023| 中文成人在线| 丁香婷婷在线视频| 高清免费毛片| 囯产av无码片毛片一级| 999福利激情视频|