盧海濤
摘 要:論文闡述了基于時間序列的模式挖掘的基本概念,對基于時間序列的模式挖掘經典算法和增量挖掘、時間序列分段線性表示及相似性算法進行了相對全面的介紹,對算法的特征做了詳細的論述。
關鍵詞:時間序列 序列模式 增量挖掘 數據挖掘
中圖分類號:TP311 文獻標識碼:A 文章編號:1672-3791(2014)06(b)-0204-01
1993年,Agrawal提出關聯規則挖掘算法,但是關聯規則挖掘只針對單次事務內部模式,不能挖掘出與時間關聯的事務間的聯系和趨勢。針對這個問題,在1995年,Agrawal和Srikant再次提出序列模式挖掘算法,這是序列模式挖掘算法的第一次提出,算法概要為:給定一個序列集合,由項集構成單一序列,然后給定由用戶指定的最小支持度閾值,序列模式挖掘算法發現所有出現頻率大于或等于指定的最小支持度閾值的頻繁子序列。序列模式挖掘在關聯挖掘中加入了時間屬性,用以挖掘事務之間在時間上的順序聯系,其作用是能夠從數據集中發現可以反映事務間聯系和規律的一些模式,進而能夠預測事務將來的發展趨勢。
序列模式挖掘算法一般可將其大致分為一般算法、增量式序列模式挖掘算法和時間序列分段線性表示及相似性算法等。
1 一般序列模式挖掘算法研究
早期的序列模式挖掘算法大多是基于Apriori算法進行的改進,一般都基于在Agrawal提出的關聯規則挖掘中提及的所謂Apriori特性:任一個頻繁模式的子模式必須是頻繁的。Apriori All[1]、Apriori Some、Dynamic Some、GSP[2]等算法都是基于這個特性而構造出來的。……