甘昕艷,唐曉年
(廣西中醫藥大學,廣西 南寧 530200)
關聯規則主要是指對象或者事件之間存在關聯聯系,這種聯系建立在對象或者事件兩者同時出現的基礎上。關聯規則早期被應用于商業中,代表顧客是否同時購買某些商品[1]。上述這種關系具有較強的商業價值,能夠輔助人們進行市場運作、投資以及決策管理等。
時序數據關聯規則主要是指時間序列局部變化趨勢之間所具有的時間約束關聯關系,這種局勢變化趨勢之間的關聯規則能夠為決策者提供決策幫助。時間序列本身具有數據密集性以及時間波動性[2],而且局部變化趨勢之間的時序關聯規則均被隱藏在數據中,只有通過挖掘才能夠獲取。
時序數據關聯規則挖掘是一項系統工作,需要經歷時間序列預處理、時間序列壓縮等步驟,各個挖掘方法的好壞主要取決于挖掘關聯規則的可靠性,也就是制約時序關聯規則的有效性。
當前,國內外相關專家對時序數據關聯規則挖掘方面的研究已經取得了一些較好的研究成果,例如:王立亞[3]等人通過區間概念的不確定性,設定區間關聯規則的度量標準—精確度和不確定度,然后組建基于帶參數區間概念的時序數據關聯規則挖掘模型;程廣[4]等人通過MapReduce完成對并行關聯規則增量更新挖掘模型的設計,通過MapReduce進行參數設定以及突觸權值更新,然后改進初始算法中的能量函數,將其和標準能量函數對齊,同時采用憶阻值表示權值,將偏置和權值放大,組建關聯規則挖掘模型。以上模型現階段雖然取得了較為滿意的研究成果,但是由于未能考慮時序數據特征提取問題,導致計算開銷增加,時序數據關聯規則挖掘準確率以及效率降低。
為此,本研究提出并設計了一種基于卷積神經網絡(Convolutional Neural Network,CNN)的時序數據關聯規則挖掘模型。經仿真結果表明,該模型能夠不僅能夠有效減少計算開銷,還能夠提高時序數據關聯規則挖掘準確率和效率。
為了有效實現時序數據關聯規則挖掘,首先組建時序數據的分布式數據結構模型,通過四元組的方式表示時序數據的存儲中心,然后設定d代表組合時序數據的相空間嵌入維數,通過多個非線性成分聯合統計方法對時序數據的高維特征空間進行重構[5],并且結合對應的分類方法完成時序數據關聯規則挖掘。通過上述分析,能夠組建時序數據關聯規則挖掘模型,具體流程如圖1所示。

圖1 時序數據關聯規則挖掘模型組建流程圖
時序數據在進行關聯規則挖掘的過程中,會受到外界多方面因素的影響,具有實時變動以及隨機性。以下主要采用模糊聚類方法對時序數據進行融合處理,同時組建關聯規則項約束方程來表示時序數據的信息流模型,具體的表現形式為

(1)
式(1)中,h(·)代表時序數據分布式時間序列,同時也代表包含多維數據結構模型的函數;ωn代表時序數據進行融合過程中產生的觀測誤差。
時序數據中分布式結構模型的分布函數采用以下公式表示

(2)
式(2)中,p代表時序數據存儲結構的階數;α代表統計信息采樣的時間窗口寬度。
在上述分析的基礎上,組建時序數據的時態結構模型,完成時序數據的關聯規則重建,同時建立關聯規則知識庫,根據時序數據結構的特征標識函數[6],再通過統計回歸方法組建時序數據的非線性時間序列模型,能夠獲取以下形式的線性組合模型,即

(3)
式(3)中,an代表時序數據規劃模型的幅值。針對一個連續的時序數據,主要通過連續模板匹配技術進行分布式時序數據結構分析,結合匹配相關檢測技術進行時序數據的融合處理。
設定m個時序數據節點分別為:A1,A2,…,Am;n個閉頻繁項集特征提取輸出能夠表示為:a1,a2,…,an。通過極限學習方法進行時序數據特征提取的全局尋優,構建時序數據挖掘的線性規劃問題。


(4)
式(4)中,NI和NR代表時序數據的平均互信息特征向量;NS代表時序數據的狀態分布集。
在機器學習領域中,CNN是一種深度前饋神經網絡,主要是由卷積層、激活層、池化層以及分類器組成,其中分類器主要使用多層感知器來完成,也可將其稱為全連接層。
神經元是組成ANN的基本單元,它主要是針對收到的其它神經元的輸出或者外部信息進行計算以及輸出[8]。各個神經元可能包含多個輸入,但是只包含一個輸出,各個輸入分別包含不同的權值,主要用來體現不同輸入對模型產生的影響,其中單一神經節點模型可以采用函數進行表示,即
y=f(x1,x2,…,xn)
(5)
為了方便處理,需要將全部的輸入進行帶權的線性疊加,同時加上一個偏移,將其能夠表示為
g(x)=w1×x1+w2×x2+…wn×xn+b
(6)
由于在現實生活中,大部分問題均為非線性問題,所以用來描述實際問題的模型一定是非線性模型,其中函數f就是一種非線性函數,也被稱為激勵函數,激勵函數的引入就是為了促使神經元的輸出轉換為非線性輸出[9],從而促使模型成為非線性模型,其中卷積神經網絡結構如圖2所示。

圖2 卷積神經網絡結構圖
網絡中輸入的信息qn首先需要經過一個卷積層,卷積層的核心作用就是用來提取數據特征,它和多層感知機制不同之處在于:卷積層的傳導并不是全連接,一個卷積節點只包含一個輸入和一個輸出,同時輸入以及輸出均為向量,并不是單純的數字。
在卷積神經網絡中卷積層的定義和數學里面卷積層的操作并不相同,首先,卷積層的輸入除了數據本身外,還需要加上一個維度,這個維度通常情況下被稱為通道[10]。另外,卷積層中全部卷積核的核函數也是不同的,各個核函數都能夠提取任意一個原始數據的特征,這些函數在初始節點都是隨機形成的,但是隨著訓練的不斷進行,核函數序列不斷進行調整,最終獲取最能夠代表輸入數據的特征。在整個訓練的過程中,能夠進行調整的只有核函數序列的數值,卷積移動的步長和核函數的長度均應該在訓練前期決定好,當訓練開始后,則不能夠進行更改。
在卷積層后,通常都會增加一個池化層,池化層的主要目的就是在保留重要信息的前提下降低數據的長度,從而減少計算時間,同時還能夠有效防止池化層出現過度擬合的現象。和卷積層相同,池化層也只有一個輸入和輸出,同樣滑動一個窗口進行池化操作。和卷積層不同的是,池化在運行的過程中,并不是通過窗口內的數據進行加權累加操作,而是結合實際需要進行不同的操作。
在上述分析的基礎上,結合CNN,采用統計平均方法,建立時序數據挖掘的回歸分析模型,即

(7)
結合多元統計特征方程描述時序數據的擬合狀態,同時組建擬合狀態模型,即

(8)


(9)
式(9)中,η為學習步長。經過n步訓練以及學習之后,通過自適應加權方法,獲取CNN進行時序數據特征分類器的加權系數,然后通過卷積神經網絡學習算法,能夠獲取時序數據分類的自適應學習加權系數,即

(10)
在采用CNN進行屬性分類的基礎上,為了減少整個算法的計算開銷,結合特征壓縮方法對分類輸出的時序數據進行降維處理,利用公式(11)給出特征壓縮器的表達形式

(11)
對分類輸出的時序數據進行降維處理后,采用模糊聚類方法完成基于CNN的時序數據關聯規則挖掘模型的建立,具體的操作過程如下所示:
1)計算全部時序數據樣本中挖掘到的規則項特征點;
2)組建CNN分類器,獲取卷積神經網絡分類器的加權值;
3)通過特征降維進行大數據特征分離以及壓縮處理,它是二值化擬合效果。
4)在設定的范圍內進行時序數據的關聯規則挖掘;當滿足收斂條件時,迭代停止,則停止計算。
為驗證基于CNN的時序數據關聯規則挖掘模型的綜合有效性,設計如下仿真加以驗證。實驗在WinlO操作系統中展開(Intel(R)Core(TM)i5-8250U處理器,4G內存),開發環境為MATLAB2019。
為避免實驗結果的單一性,將文獻[3]中的帶參數區間關聯規則挖掘模型和文獻[4]中的基于MapReduce的并行關聯規則增量挖掘模型作為對比,與本文模型共同完成性能驗證。
1)計算開銷檢驗
首先以挖掘過程計算開銷設定為測試指標,利用表1給出不同模型的計算開銷對比結果。

表1 不同模型的計算開銷對比結果
分析表1中的實驗數據可知,本文模型挖掘過程的平均計算開銷為0.2034萬元,明顯低于兩種對比模型,在三種模型中為最低。
2)時序數據關聯規則挖掘準確率檢驗
為驗證各個模型關聯規則挖掘結果的優良,以挖掘準確率為測試指標,得到對比結果如表2所示。

表2 不同模型的時序數據關聯規則挖掘準確率對比
分析表2中的實驗數據可知,本文模型的挖掘準確率最高可達到98.85%,文獻[3]模型的平均挖掘準確率為94.63%,文獻[4]模型的平均挖掘準確率僅為87.02%。通過對比可知,本文模型的挖掘準確率更高。
3)時序數據關聯規則挖掘效率
為進一步驗證不同模型的應用效果,以關聯規則挖掘效率為指標對不同模型展開檢驗,具體實驗對比結果如圖3所示。

圖3 不同模型的時序數據關聯規則挖掘效率對比結果
分析圖3中的實驗數據可知,隨著測試樣本數量的持續增加,不同模型的時序數據關聯規則挖掘效率也不斷變化。但是相比兩種對比模型,本文模型的挖掘效率明顯更高一些,均保持在96%以上。
綜合分析上述實驗數據可知,由于在實際應用的過程中,本文模型有效解決了時序數據特征提取問題,促使整個模型的時序數據關聯規則挖掘效率和準確率得到有效上升,同時整體計算開銷存在明顯下降。
針對傳統模型存在的一系列問題,本研究結合CNN技術,設計了新的時序數據關聯規則挖掘模型,并通過仿真結果證明了該模型不僅能夠有效降低挖掘過程的計算開銷,同時還能夠有效提升時序數據關聯規則挖掘準確率以及效率。但是在實際應用的過程中,該模型對環境噪聲的抵抗性相對較弱,因此,在后續的研究中將對該模型展開進一步完善。