咸陽師范學院計算機學院 張璐璐
多尺度數據挖掘應用領域廣泛,是一個跨學科課題,其在數據挖掘基礎之上,利用多尺度理論,多層次、多方位對數據進行分析,學習更全面的信息。多尺度數據挖掘在不同學科、不同領域有著不同的應用,針對一般數據集而言,主要集中在多尺度關聯規則、多尺度聚類和多尺度分類。為了便于理解,從概念、步驟和分類三方面對多尺度數據挖掘研究進行了簡要的闡述以及分析。
數據挖掘旨在從大量的數據中搜索隱藏于其中的信息[1]。隨著多尺度科學的發展和實際需求的增加,單純利用數據挖掘算法獲取知識有時難以達到理想效果。將多尺度理論引入數據挖掘領域,便于拓寬知識學習的深度和廣度。多尺度數據挖掘涉及學科廣泛,是一個典型的跨學科課題,融合了地理、圖像、生態等不同領域知識,且表現形式各不相同。目前,多尺度數據挖掘已取得一定成果。以一般數據集為例,對多尺度數據挖掘研究進行簡要的闡述以及分析。
多尺度數據挖掘以數據挖掘算法為基礎,結合多尺度理論知識,對數據的尺度特性進行操作,便于知識轉換,提高挖掘效率。簡單來說,多尺度數據挖掘就是采取智能手段獲取信息的過程。
多尺度數據挖掘是指從多個尺度剖析數據,構建多尺度數據集,使用數據挖掘算法獲取知識,采用合適的尺度轉換方法進行知識轉換,推衍得到其他尺度知識的過程。其主要包含兩部分內容:數據的多尺度轉換和知識的多尺度轉換[2]。前者是指發掘數據的尺度特性,將單一尺度數據變化為不同尺度數據;后者是指挖掘某一尺度數據信息,對得到的知識采取一定轉換機制,得到其他尺度信息。其核心思想在于“一次挖掘,多次利用”。
如圖1 所示,多尺度數據挖掘主要分為3 步:構建多尺度數據集、基準尺度選擇和知識尺度轉換。

圖1 多尺度數據挖掘步驟Fig.1 The steps of multi-scale data mining
在利用多尺度數據挖掘方法獲取數據之前,需要先對數據進行預處理,得到不同尺度數據,便于進行信息提取。通過明確尺度含義,利用尺度特性,采取尺度劃分方法,對數據進行尺度化操作。多尺度數據集是指結合數據特點,根據尺度層次關系,得到不同尺度具有偏序關系的數據集的集合。
基于數據屬性的尺度特征,將數據集多尺度化。目前,構建多尺度數據集有很多方法,例如概念分層、粒計算等價類劃分和概率密度估計離散化計算等。需要注意,在構建多尺度數據集時,不僅要考慮到尺度特征的復雜性,還要思考尺度劃分后數據復雜程度的變化。采用數據熵[3]對數據多尺度進行評價,其公式如下所示:

式中,m表示尺度層次,Nm表示m層數據劃分塊數,Pij表示數據j在第i塊中出現的概率。通過公式可以看出,選擇數據熵的尺度越高,建立的多尺度數據集覆蓋度就會越大。
基準尺度是指首次進行數據挖掘,獲取信息的尺度,常位于上下層尺度之間。利用基準尺度信息,可以得到其他尺度信息。基準尺度選擇面向對象主要有2 種:帶標簽數據和不帶標簽數據。針對帶標簽數據而言,用尺度劃分后數據能與原始數據最大程度的保持一致性作為衡量基準尺度選擇的標準。基于粒計算最優尺度選擇思想[4],可以利用待決策域隨尺度變化情況確定基準尺度。隨著尺度增長,當待決策域不再變化時,選取基準尺度。針對不帶標簽數據而言,不同尺度下數據表現信息量不同,即每當數據尺度被轉換時,都會改變少許信息量,因此可以利用信息熵進行選擇[5]。根據信息熵衰減結果,選擇轉換后信息熵衰減少、信息損失低的尺度作為基準尺度。
在前兩步基礎之上,對獲取的知識進行尺度推衍。知識尺度轉換是指根據現實需要,針對數據集特點和挖掘結果,采用轉換方法進行知識推衍,從而得到其他尺度上的信息。根據轉換方向不同,尺度轉換主要分為尺度上推和尺度下推,如圖2 所示。在獲取某一尺度知識后,根據尺度轉換,可以推斷其他尺度知識。知識尺度轉換效率較高,但由于尺度效應[6]的存在,一般情況下,不同尺度之間進行知識或結論推衍時很難達到無差別轉換。為了降低尺度效應帶來的影響,可以采取合適的尺度轉換方法,減少信息損失。目前,常用的尺度轉換方法有克里格法、斑塊模型、小波變換等。不同轉換方法側重點不同。實際操作過程中,可以根據需求靈活進行選擇。

圖2 尺度上推、尺度下推示意圖Fig.2 The inference map of upscaling and downscaling
多尺度數據挖掘從多層次、多角度對數據進行分析,有利于獲取信息的全面性,目的在于利用尺度轉換得到不同尺度知識。其在不同學科、不同領域有著不同的分類,針對一般數據集而言,主要集中在多尺度關聯規則、聚類和分類挖掘。
多尺度關聯規則挖掘是指基于多尺度理論構建多尺度數據集,使用關聯規則方法獲取基準尺度數據集中的知識,利用尺度轉換得到目標尺度數據集知識的過程。
對于多尺度關聯規則挖掘而言,目的在于得到不同尺度下數據對應的關聯規則,而關聯規則可由頻繁項集推導生成。因此,在進行多尺度關聯規則挖掘過程中,核心在于獲取對應尺度頻繁項集。首先,對數據進行尺度劃分,得到多尺度數據集,挖掘基準尺度頻繁項集;然后,將頻繁項集作為轉換對象,采取合適的尺度轉換方法,得到其他尺度數據中頻繁項集;最后,利用頻繁項集推導關聯規則。
多尺度聚類挖掘是指通過尺度化手段構建多尺度數據集,使用聚類挖掘方法獲取基準尺度聚類結果,利用尺度轉換得到目標尺度聚類結果的過程。
針對多尺度聚類挖掘而言,尺度上推和尺度下推側重點略有不同。對于尺度上推而言,是從小尺度到大尺度信息轉換,常表現為減少簇的個數、平滑信息。在尺度上推過程中,以簇心為轉換對象,通過計算基準尺度簇心相似度,獲取目標尺度簇心。對于尺度下推而言,是從大尺度到小尺度信息轉換,常表現為增加簇的個數、細化信息。此時,如果繼續單純以簇心作為轉換對象,難以保證獲取信息的正確性。在尺度下推過程中,通過計算樣本間相似度,利用插值方法,得到目標尺度聚類結果。
多尺度分類挖掘是指結合尺度特性構建多尺度數據集,使用分類挖掘方法獲取基準尺度分類模型,利用尺度轉換得到目標尺度分類模型的過程。
挖掘的目的在于得到不同尺度分類模型,對數據進行分類。不同分類模型具備特點不同,在進行尺度轉換時,涉及轉換對象也有所差異。例如利用決策樹進行學習,主要表現為屬性值與對象值之間的映射關系轉換;在支持向量機訓練中,主要表現為支持向量轉換;而對于神經網絡模型而言,則表現為神經元轉換。多尺度分類挖掘核心在于獲取基準尺度數據知識后,確定轉換對象,通過知識推衍得到上下層尺度分類模型。
不管是多尺度關聯規則、聚類還是分類,均是對基準尺度信息進行操作,獲取目標尺度信息。
多尺度數據挖掘本質在于對不同尺度下的數據集進行全面系統的分析,利用數據之間的關聯性,最終得到對應尺度信息。本文從多尺度數據挖掘概念入手,在此基礎上,展開介紹多尺度數據步驟,給出多尺度數據挖掘分類,指出不同挖掘方式的特點和過程,對多尺度數據挖掘的研究進行了簡要的闡述。
引用
[1] WU X D,ZHU X Q,WU G Q,et al.Data Mining with Big Data[J].IEEE Transactions on Knowledge and Data Engineering,2014,26(1):97-107.
[2] 柳萌萌,趙書良,韓玉輝,等.多尺度數據挖掘方法[J].軟件學報,2016,27(12):3030-3050.
[3] 張煜睿.基于多尺度數據挖掘的數據尺度劃分方法[J].電子技術與軟件工程,2020(21):144-145.
[4] HAO C,LI J H,FAN M,et al.Optimal Scale Selection in Dynamic Multi-scale Decision Tables Based on Sequential Threeway Decisions[J].Information Sciences,2017,415-416:213-232.
[5] 張昉,趙書良,武永亮.面向多尺度數據挖掘的數據尺度劃分方法[J].計算機科學,2019,46(4):57-65.
[6] 趙祎驊,田偉.多尺度數據挖掘方法的應用研究[J].電腦編程技巧與維護,20186):129-131.