劉雪梅,王亞茹
(華北水利水電大學 信息工程學院,河南 鄭州 450045)
南水北調工程是緩解我國北部地區水資源緊張,優化水資源配置的一項戰略性基礎設施工程。在工程安全監測中有一類數據是按照發生的時間順序保存的,這類數據叫做時間序列。在時間序列大量的數據中,有些極少出現的子序列與其他子序列有顯著的不同,使得人們懷疑它是由不同的機制產生的,這些子序列稱為異常模式[1]。在工程安全中,異常模式往往更能夠幫助人們認識事物。因此,從海量數據中挖掘出異常模式,對保證南水北調工程的安全具有重要意義。
時間序列具有高維性、海量性、含有大量噪聲等特征,直接在原始時間序列上進行異常模式挖掘要花費大量的時空代價,會影響算法的可靠性。
目前常用的時間序列表示法主要有頻域表示法[2]、奇異值表示法[3]、分段線性表示法[4-5]、符號化表示法[6]。文獻[7]中,通過離散傅里葉變換,將時間序列從時域映射到頻域,傅里葉變換會平滑掉具有重要特征的點,對非平穩的時間序列不適用。奇異值表示法的時空復雜度高。分段線性表示方法通過首尾相連的線段將時間序列分割成多個子序列,目前常用的主要有兩種:一是限制分段數目。文獻[8-9]中使用了分段聚集近似法(piecewise aggregate approximation),也稱PAA算法。PAA算法忽略了時間序列的特征值,出現了較大的擬合誤差。第二種方法是通過限制分段誤差將時間序列劃分成長度不等的子序列,分段誤差的閾值對分段的影響較大?!?br>