劉力+王立松+吳非



摘 要:由于客觀世界的復雜性,信息缺失、不確定信息是普遍存在的。數據庫作為表達現實世界的一種工具,使用空值來表達信息缺失的問題。針對關系數據庫中的空值問題,提出一種基于模糊聚類和線性回歸的空值估計方法。該方法首先對數據表中的數據進行挖掘,找出與被估計屬性相關聯的屬性集。該過程僅利用數據本身提供的信息,避免了由專家決定條件屬性時由于主觀性造成的誤差。其次根據所得屬性集進行模糊聚類得到對原始數據的一個劃分,再基于所得分簇和線性回歸給出一個估計關系表中空值的方法。最后利用平均絕對錯誤率來衡量算法估值的準確率。實驗結果表明該方法估值的結果與其他方法相比具有較高的準確率。endprint