






關(guān)鍵詞:樸素貝葉斯;屬性約簡(jiǎn);對(duì)稱不確定性;加權(quán)
中圖分類號(hào):O211. 9 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-8395(2023)04-0532-08
doi:10. 3969 / j. issn. 1001-8395. 2023. 04. 014
0引言
分類[1]作為數(shù)據(jù)挖掘中的一個(gè)重要研究分支,被廣泛應(yīng)用于文本、生物學(xué)、多媒體等各個(gè)領(lǐng)域,它主要通過(guò)分析已知類別的訓(xùn)練數(shù)據(jù)集來(lái)構(gòu)造合適的分類模型,得到分類規(guī)則,從而對(duì)未知類別的待判樣本進(jìn)行分類. 目前,已存在理論較為成熟的幾種分類算法[23],其中樸素貝葉斯[45]與其他分類算法相比簡(jiǎn)單高效,是機(jī)器學(xué)習(xí)探究領(lǐng)域中較為經(jīng)典的分類算法,它假設(shè)屬性之間在給定類別下是條件獨(dú)立的,且每個(gè)屬性對(duì)分類的影響是相同的,但在實(shí)際問(wèn)題中這些都難以被滿足,使得在應(yīng)用上具有一定的局限性,其分類性能也受到影響. 于是,針對(duì)屬性的“條件獨(dú)立性假設(shè)”問(wèn)題,李楚進(jìn)等[6]利用主成分分析方法將原屬性集映射到新的特征空間,使得新屬性間互不相關(guān),然后再對(duì)新屬性集建立樸素貝葉斯模型,從而提高了分類準(zhǔn)確率;王峻[7]根據(jù)χ2 統(tǒng)計(jì)量計(jì)算出的屬性相關(guān)性大小及文中定義的規(guī)則,刪除了所有的冗余屬性和無(wú)關(guān)屬性,以盡量滿足獨(dú)立性假設(shè),改善了其分類效果. 另外,針對(duì)各屬性對(duì)結(jié)果影響程度相同的問(wèn)題,Zhang等[8]通過(guò)計(jì)算屬性和類變量的增益比來(lái)衡量各屬性的重要性,從而提出了加權(quán)的樸素貝葉斯算法;張步良[9]將各屬性的分類準(zhǔn)確率作為權(quán)重來(lái)建立加權(quán)樸素貝葉斯模型,提高了其分類精度;胡勝利等[10]通過(guò)計(jì)算屬性的增益率大小與關(guān)聯(lián)度得分,將其平均值作為新的權(quán)重,提高了分類準(zhǔn)確度;張偉等[11]利用各待測(cè)樣本的近鄰集合來(lái)求得其各屬性的權(quán)重,得到了較好的分類結(jié)果;謝小軍等[12]使用了核密度估計(jì)的屬性加權(quán)模型,并將條件屬性與類屬性的相關(guān)系數(shù)和互信息作為權(quán)重,增強(qiáng)了其分類性能. 同時(shí),針對(duì)以上2 個(gè)問(wèn)題,楊立洪等[13]根據(jù)各屬性的信息值和屬性間的相關(guān)性大小對(duì)屬性進(jìn)行篩選,并將信息值作為權(quán)重進(jìn)行加權(quán),提升了算法的準(zhǔn)確率;王行甫等[14]通過(guò)CFS 算法中的評(píng)估函數(shù)來(lái)選擇屬性集合,去除了原屬性集中的一些不相關(guān)屬性,有效地提升了分類效率;寧可等[15]通過(guò)計(jì)算出的類條件概率來(lái)刪除類別個(gè)數(shù)相同的冗余屬性,再將保留下的屬性的平均置信度作為權(quán)重,進(jìn)而提升分類效果.
因此,為了降低屬性間的相關(guān)性,并考慮到在分類過(guò)程中,不同屬性的貢獻(xiàn)程度不同,本文針對(duì)屬性“獨(dú)立性假設(shè)”和“各屬性對(duì)分類的影響程度相同”的2 個(gè)問(wèn)題,提出了基于屬性約簡(jiǎn)的加權(quán)樸素貝葉斯分類算法,該算法考慮了各屬性不同取值對(duì)分類結(jié)果的影響及屬性間的相關(guān)度,從而選出分類能力強(qiáng)的屬性,使得被去除的屬性與類屬性的關(guān)聯(lián)度低,而與其余屬性的冗余程度高,然后再結(jié)合屬性與類變量間應(yīng)該具有較高的關(guān)聯(lián)性,而屬性間應(yīng)具有較低的關(guān)聯(lián)性來(lái)計(jì)算得到各屬性不同的權(quán)重,最后進(jìn)行加權(quán)分類,由此得到了ARWNB 模型,提高了分類準(zhǔn)確率.
1 樸素貝葉斯算法
樸素貝葉斯分類算法在各個(gè)領(lǐng)域都得到了廣泛的應(yīng)用,它主要在貝葉斯定理的基礎(chǔ)上假設(shè)屬性之間是條件獨(dú)立的,由此計(jì)算出待判樣本在不同類別下的條件概率,然后將其判別為概率最大的那一類.