王赫楠 孫艷秋 張柯欣
(遼寧中醫藥大學信息工程學院 沈陽 110847)
在統計學研究中,數據序列數據挖掘是研究的重點之一[1~3]。它的研究對象是事物在不同時刻變化情況所形成的數據值。目前,各行業都存在海量的數據集。比如:醫療、金融、農業等行業。通過對數據序列變化趨勢的分析和預測,揭示事物的內在規律和關聯,是當下數據集處理問題的主要方向。數據集的處理研究主要有以下幾個方面:數據序列的擬合[4~6]、數據序列的劃分[7~8]、數據序列的分類聚類[9~11]、數據序列的應用研究[12~14]、數據序列的可視化研究。
數據集的壓縮以及奇異值點的識別是數據序列數據挖掘的研究重點。做好數據集的處理,是后續進行數據分析和預測的根基。本文在分析了典型數據集處理模型的前提下,提出了數據集壓縮模型以及奇異值識別模型。數據集壓縮模型使用了自定義函數,符合數據集的時間局部性原理,考慮了數據集的時間特性,并且支持實時數據的處理問題。奇異值識別模型在原有模型的基礎上,對于一些關鍵奇異值數據的識別更具優勢。
數據集壓縮是對數據結構進行優化的一種非常重要的手段。幾年來,經過計算機、數學等各方面研究人員的不斷探索,提出了很多消除數據冗余的方法,在數據處理、數據壓縮等方面取得了非常大的進步。
原始數據集存放在一個n 維的向量中,數據集的數據量過大及維數過高,會對后期數據的整理及分析造成干擾。……