錢卓昊
(西安石油大學 計算機學院,西安710065)
現實生活中,屬性值分類(AVT)又稱層次屬性值(Hierarchical Attribute Value),是廣泛存在的,如時間屬性上日、月、季、年等具有層次特征的屬性值[1]。可以利用概念層次將原始基礎數據抽象到不同層次,實現數據泛化。同時,基于多層次(Multiple Levels)數據挖掘,可能會從較高層次數據中發現更普遍或更重要的知識,且獲取的規則也更易于理解[2]。數據集中AVT樹型結構可由相關領域專家提供,也可根據訓練集自動構建而成。
具有層次結構的數據已被廣泛應用,Han等提出了一種利用概念分類法和自頂向下遞進深化方法在不同層次上尋找概念之間的關聯規則的算法XLT2L1[3];如Hong等基于粗糙集理論提出一種獲取跨層次確定性規則和可能性規則的方法[4];研究了具有層次結構的模糊粗糙集[5];Feng等利用層次結構提出一種自上向下的挖掘層次決策規則的方法[6]。
雖然AVT的有效性已被證明,但針對構建AVT的研究還比較少。涉及AVT時,大多是基于相關專家意見所構建的AVT,這使得AVT具有主觀成分,且在研究高維度數據時其準確度降低。在已有的從數據中構建AVT研究中,都是將AVT直接與分類模型綜合在一起來處理數據,而沒有進行屬性泛化約簡,這使得處理后的數據依舊可以進一步泛化。如AVT-NBL模型,在構建AVT時如何度量屬性值間的相似關系目前也沒有最佳標準,用JS散度來度量[1]。為了研究AVT在離散屬性中的應用,本文采用VDM距離來度量。
本文利用VDM度量樣本屬性值間的距離,進而利用層次聚類設計了一種依據數據自動構建AVT的VDM-AVT學習器。……