王赫楠
(遼寧中醫藥大學 遼寧沈陽 110000)
數據挖掘技術利用一些數據分析算法,在某些條件的限制下,從海量的數據中挖掘出有價值的信息[1-4],是目前各領域挖掘數據信息采用的主要技術手段。通常情況下,數據挖掘技術可以對各種類型的數據進行操作,如各種類型的數據庫(關系數據庫、數據倉庫、事務數據庫或其他一些高級數據庫系統等),還有平面文件和網絡上的數據[5]。以上的各種數據庫中,有一種較為特殊的數據形式,數據集的各個數據之間存在著時間上的先后順序,隨時間的變化、動態的改變,這類數據即為時間序列數據集。目前,時間序列數據集在各領域都廣泛存在。例如,某個人的心電圖數據、水位監測數據、圖形圖像數據等都具有時間特性。從以上一些時間序列數據中挖掘出有價值、有規律的信息,對于各個領域都具有重要的研究意義。
隨著科學技術的不斷發展,各領域的時間序列數據增長飛快,大量的數據背后隱藏著極具價值的信息,越來越多的研究人員投身其中進行研究工作。研究的目的就是從海量的時間序列數據集中提取有價值、有規律的信息,此項工作也成為數據挖掘領域研究的熱點之一[6-8]。時間序列的數據集具有時間特性,它是一種高維度,并且隨時間變化而改變的一種數據形式,同時,也存在大量的冗余數據。利用可視化方式來反映時間序列的主要形態特征,并從中提取一些有價值的信息數據,這對于各個領域的發展和科研都有非常重要的現實意義。時間序列的數據量大、維度高,給數據的挖掘工作帶來一定的困難。在進行時間序列數據挖掘過程中,需要先進行降維處理,提取一些特征點,反映時間序列的主要形態特征。同時,結合一些經典算法去處理時間序列,對時間序列數據進行挖掘工作,提取出有價值、有規律的數據信息。
隨著信息技術的不斷發展,獲取數據及提取數據極其方便,這使得各領域的數據量迅猛增長,出現了數據量很大,但無法有效提取有價值信息的情況。數據量的增大、維度的提高,給人們的數據分析工作帶來了巨大的挑戰,增加了數據分析工作的難度。而為有效地提取海量數據的有價值、有規律的信息,數據挖掘技術應運而生。數據挖掘技術的目的就是在巨大的數據量中能夠積極地獲取有價值的信息數據,用來指導金融市場、醫療服務、電商銷售及科學研究等。
在進行數據挖掘的過程中,需要使用者對數據所在領域知識有一定的了解。數據挖掘技術也屬于多學科交叉的一門技術,涵蓋數理統計、模式識別、機器學習等方面的技術和方法。數據挖掘技術的功能很廣泛,概括起來有兩個方面:分類和預測。數據挖掘技術的分類和預測既可以分類數據庫中的數據信息,又可以根據有效信息進行數據趨勢的預測,找出數據信息各屬性間的關系。這項技術在銀行的信用評價、工業制造故障診斷、入侵檢測等領域應用廣泛。
關聯規則、分類聚類、預測等都是數據挖掘的主要研究方向。根據不同的數據分析需求,可以采用不同的數據挖掘方法。關聯規則也是數據挖掘技術的一個重要方法,它是針對某個特定的數據集,挖掘出現頻率較高的信息數據,進而發現這些信息之間的關聯。
在數據挖掘技術中,聚類是主要的方法之一。在應用于數據集的過程中,聚類會使得具有相似特征的數據聚合到一起,具有不同特征的數據自動分開,形成多個聚合的簇。同一簇中的數據具有很高的相似度,不同的簇之間數據的差別很大,主要通過數據之間的距離來衡量數據的相似程度。
傳統的數據挖掘算法可以處理均衡數據的分類問題。但是隨著數據量及種類的不斷增加,數據庫中所包含的數據十分復雜,僅應用傳統的數據挖掘方法不能解決各類數據的處理問題,如時間序列的數據處理、非均衡數據的數據處理、多分類數據的數據處理等。已經有越來越多的研究人員對以上時間序列等特殊數據集的數據挖掘方法開展研究工作。與此同時,數據挖掘的各個領域也正在進行深入的研究。
時間序列的數據集依據時間的變化,數據值不斷改變,從而表現出數值在時間上變化的特征。提取有價值的數據信息是時間序列研究的目的,可以通過分類聚類、奇異值檢測等方式來進行時間序列的分析和挖掘工作。近年來,時間序列的數據挖掘是研究者們主要研究的一個方向。
時間序列在各領域都廣泛存在,較為典型的應用,如在互聯網基礎上產生的交易平臺。用戶在使用互聯網進行交易購物時,隨著時間的變化,是有一定的購買習慣和消費模式的。通過對在線交易的數據進行獲取,并使用數據挖掘方法進行分析,可以掌握用戶的購買習慣。平臺可以通過數據的分析,為不同的用戶推薦其感興趣的商品,做到精準營銷。
在醫療檢測過程中,會產生很多檢測數據,如患者的心電圖數據。心電圖數據屬于時間序列范疇,隨著時間的變化,數據呈現出某種變化趨勢。通過時間序列的數據挖掘方法,對序列進行分析,發現某一類病癥的患者檢測數據的變化規律,可以幫助醫生制訂出更加合理和科學的診療方案,實現智慧醫療。
在工業制造過程中,基于傳感器等硬件設備可以實時監測到設備運行的某些數據,對其進行分類分析研究,及時掌握設備的運行狀況、異常發生、機器損耗等數據,這樣管理者可以更好地了解設備的運行情況,控制制造的操作,促進制造業的發展。
存儲技術、信息技術的不斷發展,使得用戶可以比較方便地獲取大量的數據信息。時間序列數據也是其中一種數據集形式,在各行各業都廣泛存在,如醫療領域中某個病人的心電圖數據、金融領域中的股票數據變化、水量檢測中水量的實時變化數據等。時間序列是隨著時間的推移,數據信息連貫性變化的一種數據集形式。在一段連續的時間內,采集與時間所對應的數據信息,是有一定規律的。如何在海量的時間序列中挖掘出有價值有規律的數據信息,是研究者們要解決的主要問題。因此,數據挖掘技術在時間序列數據集分析中的應用受到了廣泛的關注。
數據的變換也可以理解為數據的預處理。由于時間序列的數據量巨大、數據維度高,直接在原始的時間序列上進行數據挖掘操作,不容易得出較好的結果。因此,可以對數據進行預處理,達到降維的目的;也可以選取某些關鍵點,反映時間序列的變化特性,這樣既可以保留原時間序列的已有變化規律,又可以降低數據集的維度,減少計算的成本。
相似性度量是數據挖掘領域的研究熱點,同時,也是時間序列數據挖掘的常見技術手段之一。時間序列的數據值有其固有的特點,如時間特性、連續性等。那么,如何去衡量時間序列的相似度、相似性如何定義,是時間序列衡量相似性操作首要解決的問題。通過距離來衡量時間序列的相似程度,是當前較為常見的一種方式。時間序列的數據值之間不是孤立的,而是存在時間上的連續性。對時間序列進行索引操作,需要更加有效的機制提高索引的效果。基于空間索引是當前較為流行的一種相似性索引結構。
分類聚類是數據挖掘領域的常見操作。同樣,對于時間序列也要進行分類聚類的操作。對于時間序列的分類簡單點來說,在已有類別的基礎上,將某一個給定的新的時間序列數據集劃分到某個指定的類別中。在分類的過程中,需要首先對時間序列進行分割,分割的原則是根據指定的模式長度和時間粒度,對需要分類的時間序列數據集進行分割,然后再進行分類聚類的操作。
可視化操作是目前各領域研究的熱點問題之一。對于時間序列,可視化技術也是值得研究的一項課題。時間序列的可視化操作可以基于圖形圖像技術、虛擬現實技術及數據挖掘技術,將時間序列以一種更易理解、更容易被用戶接受的形式展現出來。
時間序列作為數據序列的一種特殊形式,不僅具有傳統數據的特性,如數據量大、維度高,還具有時間序列本身的特性,比如,隨著時間的變化實時更新、流數據等。正是由于時間序列的特性,使得在進行時間序列數據挖掘過程中,使用傳統的數據挖掘方法效果不理想。那么,在對時間序列進行分析之前,就要對時間序列數據集進行特征表示。特征表示的目的是要對時間序列數據集進行降維處理,這是后期對時間序列數據集進行其他操作的基礎。常用的時間序列特征表示有以下幾種類型:域變化特征表示、模型特征表示、分段特征表示、符號特征表示。
經過以上方法特征表示后的數據,不僅要適用于后續的數據挖掘方法,還要準確地反映原始時間序列的形態特征。因此,時間序列特征表示需要滿足以下幾點:能夠降低時間序列數據集的維度;對原始時間序列能夠準確反映其主要形態特征以及局部的數據值變化特征;所選取的特征表示方法具有很好的表示精確度。圖1所示為特征表示方法效果。

圖1 特征表示方法效果圖
時間序列數據挖掘日益成為數據挖掘的一個重要方面,各行業都會產生大量的時間序列。如何從海量的數據中挖掘出有價值的信息,是目前時間序列數據挖掘急需解決的問題,也是未來數據挖掘研究的熱點問題之一。