基于貝葉斯算法的中文垃圾郵件過濾系統研究

2019-01-31 02:34:38劉浩然丁攀郭長江常金鳳崔靜闖

通信學報 2018年12期

劉浩然，丁攀，郭長江，常金鳳，崔靜闖

（1. 燕山大學信息科學與工程學院，河北秦皇島 066004； 2. 河北省特種光纖與光纖傳感重點實驗室，河北秦皇島 066004；3. 燕山大學里仁學院，河北秦皇島 066004）

1 引言

隨著信息技術和網絡技術的不斷發展，垃圾郵件在互聯網上急速蔓延，其內容往往是廣告或虛假信息，甚至是電腦病毒等不良信息。大量垃圾郵件的傳播不僅給人們工作和生活帶來極大的困擾，而且還造成了網絡資源的浪費。

目前垃圾郵件過濾技術主要可分3類：黑白名單過濾、基于規則過濾和基于內容統計過濾。其中，基于內容統計過濾常見算法有樸素貝葉斯（NB,naive Bayesian）、支持向量機（SVM, support vector machine）、最近鄰（KNN, k-nearest neighbor）等。

早期研究對垃圾郵件過濾奠定了良好基礎。1998年Sahami首次將樸素貝葉斯算法應用到垃圾郵件過濾中[1]。2000年Androutsopoulos等[2]證明樸素貝葉斯算法明顯優于基于關鍵字的過濾器方法。2002年Drucker等[3]將SVM用于垃圾郵件過濾中，并證明SVM算法優于貝葉斯和其他基于規則過濾的方法。2005年Healy等使用k-NN算法過濾垃圾郵件，2008年Wu等使用貝葉斯學習提取關鍵詞的方法過濾垃圾郵件，且都通過實驗證明了各自算法的有效性[4]。

近年來，研究者在對傳統算法做改進的同時，其他算法也被應用，如lazy learning、C5.0、J48和隨機森林等[5]。文獻[6]將粗糙集理論應用于垃圾郵件過濾，并證明其性能優于當下其他方法。文獻[7]將特征加權應用于垃圾郵件過濾，并在計算概率的過程中定義了2個風險因素以提升過濾準確率。文獻[8]采用支持向量機和 k-mean聚類混合算法來增強SVM，提高了垃圾郵件分類的準確率。

不同分類模型適用于不同的文本特征，無論是根據特征尋求分類模型改進還是直接對模型改進都可提升過濾性能。文獻[9]采用基于信息熵和增量學習的方法分析各種特征如何影響基于RBF（radial basis function）的SVM垃圾郵件分類器的性能，從而通過提取有意義的特征來提高垃圾郵件過濾性能；類似地，文獻[10]采用CN2-SD（CN2-subgroup discovery）算法對每個領域提取語義特征，分別建立適合于每個領域的分類器來提高垃圾郵件過濾性能，二者都根據特征屬性建立模型。文獻[11]提出的TSVM-NB（twin support vector machine-naive Bayesian）算法先用NB對樣本初次訓練后用SVM構造最優分類超平面，再用NB訓練生成分類模型；文獻[12]表明基于生成分類模型的 RNN對數據分布的變化更具有頑健性，證明了生成模型優于判別模型，二者都對分類模型做分析和改進。文獻[13]對SVM、gradient boosting、神經網絡和隨機森林分類器進行性能比較，實驗結果顯示，不同分類模型對不同特征集的分類性能具有差異性。

垃圾郵件過濾算法各有優缺點，有的提高了過濾速度卻犧牲了準確率，有的則犧牲過濾速度來提高準確率。文獻[14]對NB、SVM、J48、KNN、NB-M（multinomial naive Bayes）、NB-MU（updatable naive Bayes）、NB-C（cost sensitive naive Bayes）和隨機森林8種算法進行對比，結果表明NB與SVM的過濾性能相當，在速度和準確率上表現更好；隨機森林在建模和過濾上速度緩慢，但準確率高；其余算法速度快但準確率低。從正確率、準確率、查全率和F1-Measure這4項過濾性能來看，文獻[15]表明其提出的語義長短期記憶網絡(SLSTM, semantic long short term memory)的過濾性能最佳，NB、SVM、隨機森林和人工神經網絡表現相當，但明顯優于KNN。

與其他方法相比，貝葉斯方法具有數學基礎堅實、分類效率穩定、模型清晰等優點，但也存在屬性之間的獨立性假設不成立的缺點[16]。通過放松條件獨立性的假設可做出改進，如結構擴展、局部學習、特征選擇、特征加權等[17]。為提高垃圾郵件過濾效果，本文首先提出一種基于中心詞擴展的TF-IDF特征提取算法，以增加特征節點的表達能力，達到特征降維；其次，采用3層的貝葉斯網絡結構模型，以增加特征多樣性，避免分類模型中特征局限的缺陷；再次，在訓練3層的貝葉斯網絡結構模型時，提出一種 GWO_GA結構學習算法，旨在放松屬性間的條件獨立性假設，使得數據與模型結構更好地擬合；最后，通過實驗驗證基于中心詞擴展的 TF-IDF特征提取及GWO_GA結構學習的 3層貝葉斯算法的可行性和有效性。

2 基于中心詞擴展的TF-IDF特征提取算法

針對特征提取時因中文文本稀疏性導致特征維度過高的問題，本文提出一種基于中心詞擴展的TF-IDF特征提取算法，選擇高頻特征詞作為中心詞，設置權重閾值向其周邊做特征擴展，可增加網絡中特征節點的表達能力，實現特征降維。

2.1 中心詞擴展

向量空間模型(VSM, vector space model)是一種不考慮特征詞出現的位置、次序及上下文關系的詞袋模型，將特征詞在文本中出現的頻率作為文本分類的依據[18]。

定義 1中心詞擴展。設定某個單詞作為中心詞，以一定的方式搜尋文本中與其相關的詞作為擴展詞，并將這些詞放在同一個詞袋中，這種擴展詞袋的方法叫做中心詞擴展。

中心詞擴展是為了增加詞袋的表達能力，降低特征維度。凡包含在中心詞詞袋內的單詞都可表示該中心詞屬性。假如以 word作為中心詞，經過中心詞擴展后，以word作中心詞的詞袋中就包含x1、x2、x3等單詞，則只要x1、x2、x3等中至少一個單詞出現，即認為word屬性出現。如圖1所示，若“蘋果”“華為”“三星”等中至少一詞出現，就可表征“手機”屬性。

在貝葉斯網絡結構中，以一個中心詞詞袋作為特征節點，當越來越多的單詞被視為與中心詞同屬性而加入詞袋中時，該特征節點可以表示的特征詞增多，表達能力自然得以提升。

圖1 中心詞擴展模型

2.2 TF-IDF特征提取

經過文本特征統計發現，在所有詞性中，對文本分類貢獻最大的是名詞，選用名詞作為特征詞最具優勢。然而，不同名詞對文本分類的貢獻不盡相同，因此，名詞特征需要做加權處理。

特征加權是根據某種標準對特征子集內的特征詞賦予一定的權重，特征詞對分類越有利，被賦予的權值越大。特征加權使同類文本的空間結構更緊湊，異類文本的空間結構更稀疏[19]，這有助于改善文本稀疏性帶來的特征高維問題。

TF-IDF是目前應用較多的一種特征加權算法，由詞頻(TF, term frequency)和逆文檔頻(IDF, inverse document frequency)兩部分組成，用W表示特征詞x的權重，可計算TF-IDF權重如式(1)所示。

其中，N為文本集T={T1,T2,…,Tn}中的文本總數，n為文本集中包含特征詞x的文檔數量，Ti表示文本集中第i個文本，f(Ti,x)表示單詞x在文本Ti中出現的頻率。

2.3 基于中心詞擴展的TF-IDF特征提取

為了增強網絡結構中特征節點的表達能力，降低特征維度，本文提出基于中心詞擴展的 TF-IDF特征提取算法，選擇高頻特征詞作為中心詞，設置權重閾值向其周邊做特征擴展。

采用詞關聯方式為特征做中心詞擴展，以某個詞作為中心詞向外做詞意擴展，將與之相關聯的特征詞放在同一詞袋中作為一個特征集。文本在分詞和去停用詞的文本預處理后，遍歷所有文本，找出權值高于閾值g（權值的平均值）的詞作為關聯詞，加入到中心詞詞袋中擴充詞袋詞量。

算法1是基于中心詞擴展的TF-IDF特征提取算法。首先，統計文本集T中所有單詞的詞頻f(T,x)，用詞頻最高的前m（高于詞頻數學期望值的單詞量）個單詞組成中心詞集C= {C1,C2, …,Cm}；其次，統計每一個文本Ti中單詞x的詞頻f(Ti, x)，并統計含有單詞x的文本在文本集T中的數量n；然后，通過式(1)計算每個單詞的權重W(x)；最后，遍歷所有文本，若第j個中心詞Cj在文本Ti中出現，則將文本Ti中權值大于閾值g的所有單詞加入到該中心詞詞袋中，作為特征集X={X1,X2, … ,Xm}中第j個特征子集Xj的特征詞

采用基于中心詞擴展的TF-IDF算法提取特征，使得特征節點具有更大的多樣性，達到一詞多意的效果，在增加貝葉斯網絡特征節點表達能力的同時特征詞也得以降維。

余弦相似度用向量空間中2個向量夾角的余弦值來衡量2個文本間差異，計算測試文本特征A與貝葉斯網絡中第j個特征子集Xj的余弦相似度，如式(2)所示。

在提取到測試文本特征并進行歸一化處理后，使用余弦相似度s(i)作為測試文本特征與類特征相似度量方式，比較所有相似值，選用相似值最大的特征節點來表征測試文本。

3 3層貝葉斯網絡分類算法

針對分類模型存在特征局限的缺陷，本文采用3層貝葉斯網絡結構模型建立分類器。3層貝葉斯網絡模型的本質是對特征詞層次式的組織，在類與特征節點之間增加細分類層，旨在提高特征覆蓋面，改善文本特征局限的缺陷。提出一種GWO_GA結構學習算法，混合灰狼算法的頭狼引導和遺傳算法的選擇、交叉及變異算子進行結構尋優，通過結構學習算法放松屬性間的條件獨立假設。

3.1 3層貝葉斯網絡結構模型

定義 2 特征局限。假設中文郵件中包含有n種類型的垃圾郵件，由于某類郵件數量較多、特征詞出現頻次高和敏感詞多等因素，在特征層選定特征詞時，大量該類特征詞被標記為垃圾郵件特征而其他類特征詞未被標記，把這種特征過于偏向或局限于某類的現象稱為特征局限。

從結構上分析，直接由類節點連接特征節點的結構模型容易導致特征局限，特征局限使得某些垃圾郵件的特征無法與類特征匹配，從而將垃圾郵件誤判為正常郵件，這對多領域郵件過濾不利。針對分類模型特征局限的缺陷，本文采用3層貝葉斯網絡結構模型以效彌補該缺陷，在類節點與特征節點中間加入一個細分類層，對特征詞層次式的組織，讓中文郵件類下存在更多細分類以保證每個細分類的特征都被覆蓋，從而避免了特征局限的問題。

基于3層貝葉斯網絡結構如圖2所示，根據本文收集郵件的具體情況，將郵件大體分成3個細分類：廣告類(ad)、工作類(work)、財務類(finance)。當然，根據郵件過濾需要，細分類數量可增多。

圖2 3層貝葉斯網絡結構模型

3.2 GWO_GA結構學習算法

貝葉斯分類算法需要通過適度放松其所需條件獨立性假設的方法對其做出改進。本文根據3層貝葉斯網絡模型的結構特點，結合垃圾郵件過濾的具體需求，提出一種混合灰狼和遺傳的結構學習算法——GWO_GA算法，用以對分類器模型進行結構學習，并只對特征層到細分類層做結構學習訓練。

3.2.1 遺傳算法

遺傳算法(GA, genetic algorithm)中包含3個核心算子——選擇、交叉和變異，本文參考文獻[20]中所采用的方法，用于對垃圾郵件過濾系統中的分類器篩選結構和增加結構的多樣性，并使評分高的結構被留下，保證訓練垃圾郵件分類器的迭代過程中出現更多的繼承父代基因且優于父代的新結構，以獲取全局最優的網絡結構。

垃圾郵件分類器中，分類器結構為GA算法的種群個體，對分類器網絡結構評分為GA算法的個體的適應度。

分類器結構選擇。采用輪盤賭選擇可提高選中次優結構的機會，增加分類器結構的多樣性，避免陷入局部最優[20]。輪盤賭選擇中，將對所有分類器網絡結構的評分置于同一圓盤中，隨機轉動圓盤，停止后指針所指區域為所選結構。圖3為輪盤賭選擇操作，由于評分越高的結構在輪盤中所占面積越大，在分類器結構選擇操作中，選到評分高的結構的可能大于評分低的結構，但評分低的結構仍有選中的機會，因此在評分高的結構得以保留的同時又增加了結構的多樣性，避免搜索像 HC（hill climbing）算法那樣陷入局部最優。

圖3 輪盤賭選擇操作

分類器結構交叉。采用行（列）間交換進行分類器結構的隨機交換，2個父代網絡結構的部分結構交換重組以產生新結構[20]。圖4為行交換交叉操作，將2個父代網絡結構Ga和Gb的同行進行交換（可一行交換，也可多行交換），如行a1—a4與行b1—b4交換。分類器網絡結構在通過交叉操作后，結構不斷更新，提高了分類器的搜索能力。

分類器結構變異。對分類器網絡中細分類與特征間互信息值較大的邊做加邊操作，互信息值較小的邊做減邊操作[20]。依據細分類與特征間的互信息對結構向量中的邊進行變動，由于細分類與特征間的互信息是表征2個節點存在因果關系的量度，在變異過程中，隨機選擇結構列進行變異操作，若選中邊的節點間互信息值較高，則對該邊做加邊操作，反之則對該邊做減邊操作。

圖4 行交換交叉操作

3.2.2 GWO_GA算法

在對垃圾郵件過濾分類器進行結構學習時，受灰狼優化算法(GWO, grey wolf optimizer)[21]中3只頭狼引導種群更新位置的思想啟發，迭代中，在分類器網絡結構更新后，選出3個評分最高的結構，并將它們的交集作為下次迭代的初始結構。3個結構都存在各自的缺陷，需找出3個最優結構的共同列作為最終的分類器結構，即求交集。

算法2為GWO_GA結構學習算法，先通過計算分類器的細分類與特征節點間的互信息，來構建最大支撐樹G0。給僅能表示節點間有無關系的無向圖隨機定向會降低搜索效率，故采用節點間輪流當父子節點做BIC評分，將評分高的作為分類網絡中邊的方向，以獲取初始化結構G。獲得初始化結構后，算法進入迭代尋優，搜索最優的分類器結構。

迭代中，首先通過隨機加邊、減邊和轉邊的方式獲得分類器的初始結構，并對其BIC評分。其次采用轉盤賭選擇，從初始結構中選出10個結構（依據為GWO算法的狼群數量）作為父代結構；每2個結構間進行交換交叉操作產生子代結構；對子代結構中互信息值大的進行加邊操作，小的進行減邊操作，并對新結構BIC評分。最后，對新結構中最優的前3個結構求交集，將3個最優結構的共同邊作為下次迭代的初始結構。在滿足迭代停止條件前，重復以上迭代過程，多次迭代直至搜索到最優結構，并將評分最優的結構作為最終分類器結構。

在垃圾郵件過濾系統中，使用GWO_GA算法訓練分類器結構，通過對已標記的郵件數據進行結構學習，擬合出較貼合實際數據的分類器結構。

4 垃圾郵件過濾系統

本垃圾郵件過濾系統可分為特征提取和貝葉斯分類兩大部分，其中，貝葉斯分類部分需經過結構學習、參數學習和推理3個過程，這是貝葉斯網絡研究的一個完整過程。首先，通過結構學習建立拓撲網絡；然后，通過參數學習為計算條件概率；最后，通過貝葉斯推理進行文本分類。

在使用以上算法完成特征提取、建立模型和結構學習后，在已知網絡拓撲結構的情況下，用最大期望算法(EM, expectation maximization)[22]對節點進行參數學習，通過給定文本數據，學習整個貝葉斯網絡的概率分布。用聯合樹推理算法[23]進行類別推理，將待測文本特征作為證據，去除與文本特征及類無關的所有節點后，求其屬于某類的后驗概率，即利用條件概率推出聯合概率后，計算出最終類別的邊緣概率。

圖5為垃圾郵件過濾系統流程，在特征提取部分，經過文本分詞和去除停用詞等文本預處理后，采用基于中心詞擴展的 TF-IDF特征提取算法對文本做特征提取，并將特征向量化。在貝葉斯網絡部分，首先，使用GWO_GA結構學習算法訓練3層貝葉斯網絡結構模型，構建拓撲結構；其次，通過EM參數學習訓練樣本數據，計算節點的先驗概率，并保存到條件概率表(CPT, conditional probability table)中；最后，在給出待測文本d提供證據的情況下，結合CPT采用聯合樹推理算法進行推理，使用垃圾郵件與正常郵件的概率比是否高于均值給出類別判定，并標定垃圾郵件。

圖5 垃圾郵件過濾系統流程

垃圾郵件過濾系統過濾流程可以分為如下5個步驟。

步驟1文本預處理。先使用NLPIR漢語分詞系統對文本進行分詞處理，將非名詞單詞以及英文詞作為停用詞去除，做去停用詞處理。

步驟 2特征提取。依據本文提出的基于中心詞擴展的 TF-IDF特征提取算法，對訓練樣本做特征提取，并將所提取特征向量化。

步驟3結構學習。手動建立本文提出的3層貝葉斯網絡結構模型，同時，使用本文提出的GWO_GA算法對該模型進行結構訓練。

步驟4參數學習。使用EM參數學習算法對樣本數據進行參數學習，計算節點發生的先驗概率，并保存到CPT中。

步驟 5推理。將待測文本與特征集做相似度量，選擇相似度最高的特征節點作為證據，采用聯合樹推理算法進行推理，計算出給定證據是否為垃圾郵件類的后驗概率，并對郵件進行類別標定。

5 實驗

本文實驗部分首先對本文算法和原始GA算法進行收斂性分析，證明本文算法的可行性。其次，對本文算法與樸素貝葉斯算法的性能進行比較，以證明3層結構模型的可行性和有效性。然后，將本文算法與使用經典HC算法、GA算法和本實驗室已有的SHC（simplify hill climbing）算法[24]貝葉斯網絡結構訓練后的中文垃圾郵件過濾效果同時進行性能對比，以證明本文算法對經典算法改進的有效性和優越性。最后，為使本文算法更具有普遍意義，實驗還增加了TREC公共垃圾郵件語料庫中文版 trec06c數據集下，當前新的過濾算法與本文算法的對比結果。

5.1 實驗數據

在互聯網科技迅速更新的環境下，網絡用語也在不斷更新。由于網絡上大多數開源的郵件數據庫相對老舊，大多數郵件不符合當下郵件過濾的實際需求，故本文選擇自己收集郵件。根據筆者個人工作環境，本文收集了3 000封郵件文本作為數據來源，其中包括廣告、工作和財務的3類郵件，而這3類郵件文本中，正例文本(垃圾郵件)占比 60%，反例文本(正常郵件)占比 40%。同時，為使結果更具普遍意義，實驗還使用2006年TREC公共垃圾郵件語料庫中文版 trec06c作為實驗樣本，選用trec06c前10 000封郵件作數據來源，其中，垃圾郵件6 631封，正常郵件3 369封。

在樸素貝葉斯郵件過濾中，沒有將郵件文本分為廣告、工作和財務的3類郵件，而是只分正例文本和反例文本。本文收集的3 000封郵件文本中，2 000封為訓練樣本，其余1 000封為待測樣本。

在3層貝葉斯網絡郵件過濾系統中，則將郵件文本分為廣告、工作和財務3類郵件，每類郵件分正例文本和反例文本。同樣，3 000封郵件文本中，2 000封為訓練樣本，其余1 000封為待測樣本。

5.2 評價指標

收斂(收斂性)是指函數或數列是否存在極限，設數列{Li}，若存在常數a，對于給定任意小的正數b，總存在正整數I，使得i＞I時，|Li-a| ＜b恒成立，則稱數列{Li}收斂。

本文把GWO_GA算法和原始GA算法迭代過程中對最優結構的BIC評分作為判斷依據，將每次得到的評分放在同一數列中，并通過繪制數列曲線圖來判斷算法的迭代是否收斂。由于BIC評分結果為負值，為方便繪圖，對評分取絕對值，因此，繪制數列曲線圖中評分值越小，實際評分越高。

使用正確率(accuracy)、準確率(precision)、查全率(recall)和 F1-Measure作為垃圾郵件過濾的性能評價指標。設判斷正確的郵件量記為at，判斷錯誤的郵件量記為af，全部測試郵件量記為at+af。將垃圾郵件判定為垃圾郵件的總量記為tp，將正常郵件判定為垃圾郵件的總量記為fp，將垃圾郵件判定為正常郵件的總量記為fn。

正確率A表示為

準確率P表示為

查全率R表示為

F1-Measure表示為

5.3 實驗結果及分析

如5.2小節所述，曲線評分值越小，實際評分越高。圖6中，隨著迭代次數的不斷增加，本文GWO_GA算法和原始GA算法的BIC評分在10次以內曲線急劇下降，表示實際評分值急劇上升，20次到30次以內優勢減緩，而后則維持在一定值上下小幅度波動。由此可證明，本文算法具有收斂性，且本文算法的收斂效果優于原始GA算法，說明本文算法具有可行性。

圖6 BIC評分曲線

圖7中，隨著訓練樣本量的增多，樸素貝葉斯算法的正確率先是基本維持在60%左右，后有所下降；而本文算法的正確率則穩定在75%左右。

圖7 分類正確率對比

對樸素貝葉斯算法而言，由于訓練文本的不斷增加，提取到的特征基本穩定。而由于中文文本特征具有稀疏性，文本特征具有一定噪聲，樣本基數不斷上升，導致先驗概率變小，故分類效果出現穩定到下滑的變化，當測試文本中有用的特征達到飽和時，訓練樣本的增多就成為負擔，反而導致先驗概率變小，分類效果下降。然而，對本文算法而言，3層結構使得特征覆蓋面增大，特征多樣性增加，在細分類與特征節點的關系確定的情況下，盡管訓練文本在不斷增加，分類效果也保持穩定。由此可證明，本文算法比樸素貝葉斯算法具有更強的頑健性，3層結構模型具有可行性和有效性。

圖8為4種算法在不同數據集下的正確率、準確率、查全率和F1-Measure的表現。從圖8中可以看出本文GWO_GA算法和原始GA算法在正確率、準確率、查全率和F1-Measure這4個分類指標上都比較穩定，而經典HC算法和SHC算法波動較大，尤其是在查全率上，遺傳算法穩定性優于HC算法。隨著訓練樣本數據量的上升，本文算法整體上呈現上升的趨勢，說明隨著訓練學習的增加，分類性能也在上升；同時，本文算法各項性能都明顯優于其他算法，可見本文算法的性能優越性。

正確率高說明將正常郵件和垃圾郵件判定正確的數量多，準確率高說明將正常郵件判定為垃圾郵件的數量少，查全率高說明將垃圾郵件判定為正常郵件的數量少，F1-Measure值則是綜合表現。從各項數值來看，本文算法相較于其他算法分類性能提升近10%。而所有算法的查全率高說明算法對垃圾郵件的特征把握得較好，原因可能是選取郵件樣本中，正例文本偏多。

圖8 4種算法分類性能指標

表1為使用2006年TREC公共垃圾郵件語料庫中文版 trec06c作為實驗樣本的情況下本文算法與當前新算法分類性能的比較，從表1可看出，用RBF-SVM 算法表示文本向量的加權分布特征算法，PTw2v算法[25]對垃圾郵件有較優的分類性能，相比之下，本文算法與逐層添加注釋語義特征提取的C4.5算法[26]相當，而優于SHC算法。

表1 trec06c語料庫4種算法分類性能對比

使用公開垃圾郵件語料庫實驗的分類性能比自己收集的實驗數據集優，說明該公開語料庫更適合進行實驗。與當前新的過濾算法相比，本文算法在查全率上凸顯出優勢，說明層次式特征細化類別可降低誤判率。本文算法在準確率上略顯不足，原因可能是本文在特征選擇上將高頻詞作為中心詞，會將某些對特征不明顯的詞當成特征并擴展，將普通詞作為特征會使正常郵件的特征與垃圾郵件特征關聯性增加，從而使正常郵件誤判為垃圾郵件，降低準確率，下一步將針對此問題做出改進。

3層結構模型這種層次式特征在單一類別垃圾郵件過濾中并不能使分類性能提升，但對于多領域分類而言，層次式特征的3層結構模型降低了誤判率。真正對分類性能有提升作用的是新的分類器，新的結構學習算法對分類器結構進行了優化，相比根據專家知識做出的屬性間條件獨立性假設，GWO_GA算法訓練的貝葉斯網絡結構對數據擬合得更好。

6 結束語

本文基于GWO_GA結構學習算法和3層貝葉斯網絡模型建立了中文垃圾郵件過濾的系統，通過GWO算法的頭狼引領和GA算法選擇、交叉和變異算子的混合實現了網絡結構的遺傳迭代尋優，使得數據與結構充分擬合。而基于中心詞擴展的TF-IDF算法則極大降低特征維度，直接增加了特征節點的表達能力。在貝葉斯網絡的3層結構模型改善特征覆蓋面局限缺陷的同時，使用GWO_GA結構學習算法放松模型結構屬性之間的獨立性假設。使得整個垃圾郵件過濾系統具有良好的過濾性能，提高了垃圾郵件過濾的效果。