段淑敏
[摘 要]時間序列作為當前人們生產和生活中常見的一類數據形式,被廣泛應用于經濟管理和工程設計等領域中。由于其本身所具備的動態性、繁雜性和高維性以及大規模的特征,所以如果直接對其進行數據挖掘,則不僅會花費高昂的價格來儲存和計算相關數據,而且會影響算法的可靠性和準確性。本文以時間序列數據挖掘為研究對象,就其在實際應用中的幾個關鍵問題進行了探究。
[關鍵詞]數據挖掘;時間序列;數據庫
[DOI]10.13939/j.cnki.zgsc.2016.03.038
在數據庫技術迅猛發展和數據庫管理系統日臻完善的今天,數據庫的規模與日俱增,數量不斷增多,并且這些激增的數據中包含著非常重要的信息,所以傳統的數據庫存儲和查詢方法已經無法滿足人們對數據中隱含知識的渴求。而時間序列數據挖掘技術則可以有效地解決上述問題,并且可以在確保數據挖掘可靠性和準確性的基礎上大大降低運行成本。因此,對于時間序列數據挖掘在實踐應用中的關鍵問題進行分析和探究具有非常重要的意義。
1 時間序列數據挖掘概述
1.1 時間序列數據挖掘的含義
通常而言,各個數據單元均可以由一個數據變量和時間變量所組成的二元組來加以表示,比如股票價格和商品的銷售金額等,所以可以將這些數據按照時間的順序加以排列,這樣就構成了所謂的時間序列數據庫。在這些時間序列數據中包含著許多未知的有用信息,具有很高的挖掘價值。而時間序列數據挖掘就是從這些大型的時間序列數據庫中找到人們所需要的各種有用數據。
1.2 時間序列數據挖掘的內容
在對當前國內外就時間序列數據挖掘方面的研究進行分析,可以將其歸納為時間序列數據變換、時間序列數據可視化、時間序列數據庫相似搜索、時間序列聚類分類分析、時間序列預測以及時間序列分割與模式發現等幾個主要的組成部分。其中的時間序列數據變換實際上就是將原始狀態下所對應的時間序列在某個特征空間下的映像時間序列來對最初的原始時間序列進行描述,其可以有效地減少計算所花費的成本,并且實際的數據壓縮率更高;時間序列數據可視化則是將那些繁雜的時間序列在數據挖掘技術、虛擬現實技術以及圖形圖像技術等先進技術的應用下而變得直觀化、形象化,以便于人們更好地理解;時間序列聚類和分類分析則是根據時間粒度和模式長度的不同而將待處理的序列數據進行適當的分割和聚類處理,以便于更好地進行分析;時間序列數據庫相似搜索則是遵循相應的搜索算法來對于那些相似性時間序列數據庫進行搜索,以避免出現漏報問題;時間序列分割與模式發現主要用于時間序列的分割算法應用中以及系統模型變化的檢測中,其已經成為當前我國在時間序列數據挖掘研究中的重要課題,具有很高的研究價值。
2 時間序列數據挖掘中若干關鍵問題的分析
2.1 傳統時間序列數據挖掘的過程和分類分析
首先,從數據挖掘的過程來講,傳統時間序列數據挖掘過程可以主要分成以下幾個步驟:數據準備、數據挖掘、結果分析和知識同化。其次,從數據挖掘的分類來講,時間序列數據挖掘的主要任務就是從龐大的數據庫中找尋到用戶所需的數據。根據數據挖掘作用模式的不同,可以將其分成分類模式、偏差分析和序列模式等預測性模式和關聯模式、聚類模式等描述型模式,并且描述型模式一般不能直接應用于預測。而就具體的時間序列數據挖掘的分類而言,其主要包括分類模式、關聯規則、聚類模式偏差分析、序列模式和回歸模式等幾個部分,下面就這幾個部分的主要內容進行詳細的闡述。
第一,序列模式。序列模式是數據挖掘中一個非常重要的研究課題,其已經廣泛應用于各行各業中,比如疾病診斷、DNA序列分析、自然災害預測、Web訪問模式的預測等,并且該種模式與管理規則之間比較類似,其也是重點把握數據間的聯系。但是為了發現序列模式,相關人員必須要確定事件有無發生以及事件發生的時間。比如,在購買彩色電視的人群中,有50%的人群會選擇在半年內購買影碟機。
第二,關聯規則。關聯規則又被稱為管理模式,其實際上就是形如X→Y的邏輯關系式,并且其中的X和Y分別代表數據庫中屬性取值的判斷。在當前的管理規則算法中,常用的關聯規則算法策略是將其分解成兩個主要的子任務,即頻繁項集的產生和規則的產生。
第三,分類模式。分類的概念實際上就是在已有訓練集或者數據集的基礎上來構造一個分類模型或者分類函數,并將其應用于實際的數據預測中來確保數據的挖掘的質量。
第四,回歸模式。與分類模式類似,回歸模式的函數定義也是借助相應的數學集合模型來表示,但是其預測值是連續的,這點與分類模式預測值的離散性是相互區別的。
第五,偏差分析。在時間序列數據庫中不可避免地會出現一些異常的記錄,找出這些異常記錄在確保數據挖掘質量方面具有重要的意義。偏差包含許多潛在的知識,比如分類中不規則的特例、反常實例或者偏差預測值過大的模型等。
第六,聚類模式。所謂的聚類實際上就是將一組時間序列數據按照差異性和相似性規程來進行合適的分類,以盡可能地減小同類別數據間的差異性,增強他們之間的相似性,提高數據挖掘的質量。
2.2 傳統時間序列數據挖掘的方法分析
理論上來講,傳統時間序列數據挖掘方法主要包括決策樹方法、神經網絡方法、粗集方法、遺傳算法、模糊集方法、統計分析方法、概念樹方法、可視化技術和貝葉斯網絡等幾種常用的數據挖掘方法。比如其中的神經網絡方法具有自適應性、自組織性和魯棒性好的優勢,非常適合用于解決數據挖掘中存在的各種問題,是近些年人們關注度比較大的一種方式,并且其更加適合于當前我國市場數據庫的建模與分析;概念樹方法則是對時間序列數據庫中記錄的屬性字段按照歸類的方法進行抽象所得到的層次結構,這點與我國所指定的省市縣地區結構分布類似;可視化技術則大大拓寬了我國傳統圖表所具有的功能,可以使人們更加清楚地剖析時間序列數據,同時也可以更好地歸納數據中存在的規律性;粗集方法則是一種研究不確定、不精確數學知識的工具,其具有操作簡便、算法簡單等優點,所以是當前常用的一種方法。
2.3 傳統時間序列數據挖掘的局限性
通常而言,建模是時間序列數據挖掘的前提和基礎,但是所建模型大都局限于常參數、平穩的單變量CARMA模型或ARMA模型,所以實際的數據挖掘過程中可能存在一定的誤差,準確性和可靠性無法得以保證。另外,其局限性還表現為以下幾個方面:建模方法所采用的非線性最小二乘法或者最大似然法的計算量非常大,并且計算的可靠性比較低;沒有考慮到噪聲污染所對應的時間序列,即數據的濾波問題沒有得到有效地估計處理;實際所用的分析方法主要為譜分析法(或頻域方法)等,所以為了確保結果的可靠性和準確性,就必須要對這些局限性問題進行切實解決。而現代時間序列數據挖掘方式則可以有效地突破上述傳統時間序列數據挖掘中存在的種種局限點,不僅可以簡化建模及其計算的方法,也可以用新型的新息方法和狀態空間方法來取代傳統時間序列,還可以有效地應用自校正和自適應預測原理來分析現代時間序列,同時也可以有效地提升時間序列挖掘的質量。因此,在實際的應用中,相關人員必須要不斷發展、改造和創新時間序列的分析方式和手段。
總之,隨著數據收集技術和存儲技術的快速發展以及數據庫管理系統的日臻完善,人們所積累的數據也越來越多,同時這些與日俱增的數據背后也涵蓋了大量的重要數據信息,但是傳統的時間序列數據挖掘手段卻無法深入分析這些數據。因此,相關人員必須要采用現代時間序列數據挖掘手段,同時要不斷完善和創造新的方法,從而更好地使用當前與日倶增的時間序列數據。
參考文獻:
[1]劉勁松.數據挖掘中的現代時間序列分析方法[J].信息技術,2014,11(7):100-102.
[2]賈澎濤.時間序列數據挖掘綜述[J].計算機應用研究,2015,24(11):15-17.
[3]武紅江,趙軍平,等.基于波動特征的時間序列數據挖掘[J].控制與決策,2014,22(2):160-163.