黃永毅+鈕靖+王秋紅
摘 要 隨著社會信息化的發展,數據庫技術、數據倉庫等的發展,社會發展各領域都面臨著海量數據處理的問題,其中不確定數據的處理成為熱點問題,文章通過分析不確定性數據分類問題的研究現狀,在對各種貝葉斯分類器的特點進行總結的基礎上,基于Weka平臺研究使用貝葉斯分類算法在不同類型的不確定性數據上的分類性能。
關鍵詞 不確定性數據;數據挖掘;樸素貝葉斯;貝葉斯網絡
中圖分類號:TP311 文獻標識碼:A 文章編號:1671-7597(2014)02-0043-02
傳統數據挖掘分類算法是建立在確定性數據的基礎上的,其數據集合其屬性特征都是確定的,且樣本的屬性值是準確無誤的,而現實生活中由于各種原因屬性完全確定的樣本集是很難收集到的,其中必然會有屬性缺失或者偏移的情形,也就是說樣本里有噪聲,當這些噪聲多到足以影響所構造的分類器的分類精度,我們就不能忽略這些不確定數據的存在了。
一般來講,數據的不確定性主要表現在以下兩個方面:1)樣本存在不確定性,即樣本具有特定的存在概率,而且一個樣本存在對其他樣本的存在有一定的影響;2)樣本屬性特征值的不確定性,即樣本的屬性特征值不是單一確定的數值,而是依一定分布特征的一段區間取值。該分布區間通常用概率密度函數PDF或其他分布函數如均值、方差等表示。在不確定性數據分類問題中,我們需要處理的數據樣本的屬性值不再是唯一確定的值,而是服從一定分布的一段范圍,通常每一個屬性值都是以符合一定分布的一段區間范圍用來表示。……