湯震,劉珂
基于小樣本時間序列的數據挖掘技術研究
湯震,劉珂
時間序列數據是一類典型的關系型數據,尤其是小樣本時間序列數據。針對其樣本少、部分信息未知的特點,提出將灰色系統和神經網絡相融合,構建灰色神經網絡,充分利用兩種方法的優勢對小樣本時間序列數據進行有效挖掘。實驗表明:構建的這種網絡具有較高的預測精度,非常適用于小樣本時間序列數據的挖掘。
灰色模型;時間序列;數據挖掘;神經網絡
隨著計算機和網絡的應用普及,人類進入了一個信息爆炸的時代,每天都會直接或間接接觸大量的數據信息。但并不是所有的信息都是人們用得著和感興趣的,如何根據某種規則或是某種關聯性從海量數據中提取出有用的信息成為研究的熱點。要實現對其進行數據信息的挖掘,目前所使用的算法有多種[1]。其中對時間序列數據的挖掘,已經成為數據挖掘研究的一個重要分支,在時間序列數據中,不僅數據相互之間存在一定的時間相關性,而且數量少、部分信息未知。對于這類數據,由于其本身數據量較小,而且部分信息未知,所以數據挖掘的難度較大。為了解決這一問題,本文結合灰色系統理論處理小樣本數據的能力,以及神經網絡強大的數據分類能力,提出建立灰色神經網絡模型,來實現對于小樣本時間序列數據的挖掘。通過仿真實驗,結果表明本文提出的這種方法對于小樣本時間序列數據具有較好的分類能力。
時間序列數據是一系列跟時間有關的數據[2-3],用t代表時間,d代表數據,因此可以將每一個單獨的數據看作為一個二元組(t,d),它可以有多種意義,比如股票的價格、庫區的水深、某種商品的價格等。那么,我們可以作如下定義:
如果集合R{(t1,d1),(t2,d2),…,(tn,dn)}是一個有限的時間序列集,并且滿足條件ti 灰色理論善于處理小樣本、貧信息問題,而神經網絡則對復雜非線性映射問題比較有優勢,將這兩種方法結合起來,構建一個灰色神經網絡,可以很好地對小樣本時間序列數據進行分類挖掘,同時這兩種方法可以互相彌補各自的缺陷[4-5]。 n個參數的灰色神經網絡模型的微分方程表達式為公式(1): 其中,為方程系數,為網絡輸入參數,為網絡輸出參數。 式(1)的時間響應式為公式(2): 令公式(3): 則公式(3)可變為公式(4): 經過變換,將(4)式映射到一個擴展的 BP神經網絡中,可以得到n個輸入參數和1個輸出參數的灰色神經網絡,其拓撲結構如圖1所示: 圖1 灰色神經網絡拓撲結構 依據上述分析,灰色神經網絡的學習過程可以歸納如下: 步驟 1:確定網絡結構,初始化網絡,計算 a、b、u 參數; 步驟 2:計算網絡權值; 步驟 3:按照下式計算各層輸出: 步驟 4:按照下式計算網絡輸出誤差,如果誤差滿足要求,訓練停止;否則 轉到步驟 5; LC 層誤差: LB 層誤差: 步驟 5:根據誤差調整網絡權值和閾值 調整閾值: 步驟 6:判斷是否達到最大訓練次數,如果是,訓練停止;否則轉到步驟3。 本實驗完成的是對某品牌空調銷售訂單的預測。對于空調的銷售情況,有很多因素會對其銷量產生影響。例如:品牌認知度、成本、售后服務、價格、性價比、競爭對手、宣傳力度、產品結構、產品生命周期等。為了能夠比較客觀的完成該實驗,同時檢驗本文所提方法的有效性,本文選取了該品牌空調近3年的銷售訂單數據,其中前30個月的數據用于訓練網絡,后6個月的數據用來評價所構建網絡的預測性能。 首先,我們要對網絡進行初始化,確定網絡各層節點的數量。對于灰色神經網絡模型來說,LA層只有一個節點,輸入的是時間序列;LB層只是對LA層輸入的變換因此也只有一個節點;確定LC層節點個數時需要綜合考慮,本文選取對空調銷售影響較大的5個因素,即價格、性價比、品牌認知度、售后以及市場份額,因此,LC層共有6個節點;LD層輸出的為空調的預測銷售訂單,所以,也只有一個節點。根據以上分析,最終確定網絡結構為1×1×6×1。 下面進行數據預處理以及權值/閾值初始化。數據預處理主要是LC層數據的預處理,由于各個節點輸入的量綱不同,因此這里只需要做歸一化處理即可。對于網絡的初始權值,令則網絡初始權值可表示為公式(5): LD層中輸出節點的閾值為公式(6): 將所有訓練數據處理完成以后,將值輸入到網絡中,然后進行訓練,網絡進化次數設定為100,其網絡訓練結果如圖2所示: 圖2 灰色神經網絡訓練過程 僅考慮數據域:如果數據域使用浮點數進行表示,則為了表示傾斜角和方位角,共需要 12+12=24位二進制。Huffman編碼壓縮后平均長度也才是15.5,明顯小于用浮點數表示時的長度24。 從圖2可以明顯看出網絡的訓練效果很好,很短的時間內就進化達到誤差的要求。 首先,把已訓練好的網絡保存,然后將用于測試的后6個月的數據輸入網絡,同時將預測結果與實際的訂單數進行比對,比對結果如圖3所示: 圖3 灰色神經網絡預測結果對比 圖3實驗結果表明,本文建立的灰色神經網絡的預測結果較好,與實際訂單之間的平均誤差僅為 8.9%,說明該網絡對于小樣本、貧信息的時間序列數據具有較好的挖掘性能。 時間序列數據一直是數據挖掘中研究的一個熱點,尤其是小樣本、貧信息的時間序列數據。本文根據這類數據的特點,充分利用灰色理論處理小樣本數據和神經網絡強大的數據分類能力,將灰色系統理論與神經網絡相融合,來構建灰色神經網絡模型,通過仿真實驗也充分反映出,對于小樣本的時間序列數據,本文的灰色神經網絡具有較好的挖掘能力,為這類數據的挖掘處理提供了一條新的思路。 [1] 羅芳瓊,吳春梅.時間序列分析的理論與應用綜述[J].柳州師專學報, 2009,24(03):113-117 [2] 陳湘濤,李明亮,陳玉娟.基于時間序列相似性聚類的應用研究綜述[J].計算機工程與設計, 2010,31(3):577-581. [3] 何典,梁英.金融時間序列數據挖掘的研究與應用[J].世界科技研究與發展, 2008,30(1):104-106. [4] 李愛國,覃征.在線分割時間序列數據[J].軟件學報,2004,15(11):1672-1679 [5] 李斌,譚立湘,章勁松等.面向數據挖掘的時間序列符號化方法研究[J].電路與系統學報,2000,5(2):9-14. Research on Mining Technology for Small Sample Time Series Data Tang Zhen, Liu Ke Time-series data is a kind of typical relational data, especially the small sample time-series data. According to the limited samples and part of unknown information, this paper integrates the gray system with neural network and build gray neural network. It makes full use of the advantages of these two methods to exavate small sample time series data mining effectively. Experiments show that the network has higher prediction accuracy. It is quite fit for small sample time-series data mining. Gray Model; Time Series; Data Mining; Neural Networks TP311.13 A 2014.09.08) 1007-757X(2014)12-0018-02 河南省教育廳科技攻關計劃資助項目(14B520036) 湯震(1983-),男,漢,黃淮學院信息工程學院,講師,碩士,研究方向:計算機網絡,數據挖掘等,駐馬店,463000 劉珂(1980-),男,漢,黃淮學院信息工程學院,講師,碩士,研究方向:計算機網絡,駐馬店,4630002 灰色神經網絡







3 仿真試驗和結果分析




4 總結
(School of Information Engineering, Huanghuai University, Zhumadian 463000, China)