劉太明, 鄧祖兵
(中國煙草總公司貴州省公司, 貴州, 貴陽 550001)
現階段,經濟發展是社會發展的核心,也是社會穩定的基本要求。高質量發展的前提是改善供給的高效性,達到供需動態平衡,這為我國經濟發展起到推動作用,也指引了未來經濟發展方向,具有現實意義。我國的高質量發展區域逐漸增多,經濟決策成為發展的核心內容。在決策過程中,必須收集當地相關經濟數據,從大量數據中尋找規律,發現經濟數據異常,并對可能出現的異常趨勢進行預測,避免不利事件的發生,進而做出更加合理的決策,確保地方經濟健康發展。因此,對于經濟數據的異常趨勢預測已經成為值得深入探究的話題。
文獻[1]探究一種將長短記憶網絡與滑動窗口相結合的異常數據檢測方法,利用長短記憶網絡完成數據預測,獲取預測值和真實值之間的差值,針對所有數據選取恰當的滑動窗口,并將窗口內全部差值進行建模,結合差值的概率密度分布情況獲取出現異常的可能性,實現異常趨勢預測。文獻[2]提出基于深度學習的異常趨勢預測方法,利用抽樣法對數據進行預處理,確保處理后的數據尺度相同,將數據輸入到具備4層隱藏層的卷積神經網絡模型中進行異常檢測,結合檢測結果實現異常趨勢預測。
上述兩種方法發現的某些異常值是由于統計操作不當而導致的,并非實質意義上的異常值[3],在分析時應去除。由于數據預處理方式不當,導致最終的預測趨勢不夠準確,為此本文使用基于時間序列的決策樹方法對高質量發展區域的經濟數據異常趨勢進行智能預測。本文通過數據集成、標準化與歸一化處理等過程,完成預測前的數據預處理,提高預測精度,構建決策樹預測模型,實現對異常趨勢的預測。此方法對于防范異常事件發生具有現實意義,為高質量發展區域的經濟提供保障。
對高質量發展區域的經濟數據異常趨勢進行分析需遵循經濟學原理,采集的數據要能夠反映出高質量發展。數據采集原則需遵循下述幾點。
(1) 由于本文的分析目標是區域經濟數據,因此必須采集能夠全面體現高質量經濟發展的數據,即所有數據需具有經濟分析的實際意義。
(2) 高質量發展關系到眾多指標,不同指標數據對其關聯程度[4]不同,因此在采集數據時需獲取相關性較強的數據。
(3) 確保采集到的數據類型具備周期性,這樣能夠保證指標穩定性,避免數據分析出現偏離狀況,確保預測結果的精準。
(4) 為減少預測時間,避免數據類型重復,所采集的經濟數據必須是最小集合,同時還能達到全面預測目的。
按照上述要求,對某區域高質量發展經濟數據進行采集,得到的數據種類如圖1所示。

圖1 經濟數據類型
在采集數據過程中,往往會獲取一些冗余數據或出現缺失,導致數據出現人為的異常,為此需利用下述方法實現數據預處理。
數據預處理在數據分析過程中起到舉足輕重的作用,可將原始數據處理成容易聚類、方便分組的數據。本文預處理過程分為數據集成、標準化與歸一化處理等步驟。
(1) 數據集成
數據集成[5]的本質就是將不同格式、類型的數據集中為某個大數據,為其他預處理過程提供便捷服務。其可以解決的關鍵問題是減小數據的分散性與冗余性。
針對數據分散性特征可使用數據倉庫完成。此技術的關鍵是使分布在不同數據源中的數據集中存放在數據庫中,其優勢在于能夠對采集到的數據實現最優管理。
針對數據的冗余特征可使用數據清洗方式,找出重復數據,并對其過濾,能夠減少儲存空間,提高異常檢測效果。
針對數據的異構特征可制定相關變換準則,使數據具有一致性特征,提高預測精度。
(2) 標準化處理
研究采集的數據類型較多,因此度量標準也存在一定差異,這會影響異常特征提取結果。為了將采集的各類經濟數據進行標準化處理,將采集的初始數據從多元化空間變換到統一空間,消除分布產生的度量誤差,且能夠保持經濟數據樣本的間距,突出異常的經濟數據。本文利用z-score標準化算法[6]完成預處理,算法步驟如下。
步驟一 計算數據集X={x1,x2,…,xn}的平均值x-,公式如下:
x-=1n∑ni=1xi
(1)
式中,x-代表全部數據的平均值,xi表示集合中第i個數據,n描述數據集合中全部數據數量。
步驟二 用式(2)對數據集合中的數據做標準化處理:
yi=xi-x-1n-1∑ni=1(xi-x-)2
(2)
式中,yi表示第i個數據經過標準化之后的形式。
標準化處理后的變量會在0上下浮動,如果高于0表明大于平均水平。
(3) 歸一化處理
在對經濟數據進行標準化處理后,由于量綱的不同,在統一計算時帶來不便。為此,通過歸一化[7]方式對存在量綱的公式進行轉換,變為無量綱表達式。本文利用極大極小值方法完成數據的歸一化處理,其主要過程是對初始數據做線性轉換,令轉換后的數據值在[0,1]范圍內,具體的數據表達式如下:
zi=xi-minXmaxX-minX
(3)
式中,zi代表第i個數據經過歸一化操作的形式,maxX和minX分別代表集合X中的極大值與極小值。
應用歸一化操作的數據會提高收斂速度,減少預測時間。
對預處理后的經濟數據進行異常特征提取[8],選取最具代表性的特征向量,根據該向量辨別正常和異常數據。特征提取的越精準,后續預測也會越準確。
本文采用主成分分析法實現特征提取,從經過處理的數據集合中選擇少量但是具備代表性的數據,用其描述數據集合中的多數變量,此處代表性較強的數據即為要尋找的數據特征。該算法的經濟數據異常特征提取過程如下:
(1) 輸入經濟數據樣本集,進行SMOTE采樣,對初始經濟數據進行排列,構建經濟數據矩陣T:
T=t11t12…t1n
t21t22…t2n
???
tm1tm2…tmn
(4)
其中,有n條經濟數據,每條數據具有m個屬性值。
(2) 針對矩陣T做均值化處理;
(3) 為保證均值Ψ等于0,令矩陣中全部經濟數據均減掉均值,達到中心化處理目的;
(4) 計算均值Ψ的協方差矩陣F,表達式為
F=1n∑ni=1Ψ2i
(5)
(5) 根據線性代數原理,計算矩陣F的特征值e1,e2,…,en和其相對的特征向量v1,v2,…,vn;
(6) 對特征值e1,e2,…,en進行降序排序,正交化特征向量v1,v2,…,vn,得到正交化后的特征向量為V1,V2,…,Vn;
(7) 獲取所有特征屬性的貢獻程度[9],并按照由小到大的順序排列,提取前t個主分量;
在決策樹[10]方法中具有根節點、決策節點與葉子節點三種重要節點。其中,根節點表示樣本集合的初始分類,可訓練集合中全部實例;決策節點能夠對這些實例進行保存。根據某屬性值進行分裂,能得到下一層次的決策節點,如果決策節點的數據屬性都相同則停止分裂,此時為葉子節點,不同分支代表結果輸出。
決策樹能夠體現出分類規則,通過由上至下的遞歸方式將上述提取的最佳特征當作根節點,完成屬性比較,再結合各屬性值從根節點進行分支,并在葉節點得到結果。該算法就是在建立決策樹時,根據不同屬性分裂到葉節點,進而發現分類規則,每條路徑均與一條分類準則對應。
在構建決策樹的過程中,將信息增益率當作度量,并通過信息熵完成數據的分類預測。熵(Entropy)是表示數據集合純度的指標,對其定義如下:
Entropy(S)=∑n′i′=1pi′log2pi′
(6)
式中,S為樣本數據集合,結合某屬性將數據分為n′個子集,任意一種類型子集取得的概率表示為pi′。
如果根據屬性A將樣本集合S分解成v個種類,j為屬性類別數量,則劃分后的信息熵計算公式如下:
EntropyA(S)=∑vj=1SjSEntropy(Sj)
(7)
式中,SjS代表屬性為Sj的數據集合在初始樣本集合S中的占比。
某屬性完成數據集合劃分后,信息熵的理想差值稱作信息增益,其可以衡量屬性的劃分能力。屬性A對集合S進行劃分的信息增益Gain(S,A)表達式如下:
大量研究表明,對文化的認識也離不開對交際的認識。文化和交流是不可分割的統一體。沙皮爾(Sapir)指出,文化是交際的同義詞,實際上二者在很大程度上同構、同質[5]。語言交際與文化既共存于一體又相互依賴、相互制約形成一個對立統一的辯證關系。
Gain(S,A)=Entropy(S)-EntropyA(S)
(8)
判斷屬性分裂數據的均勻程度稱作分裂信息度量,SplitInfo(S,A)表示利用屬性A將樣本集合S分割成v個輸出時產生的信息,表達式如下:
SplitInfo(S,A)=∑vj=1Si′Slog2Si′S
(9)
樣本集合S按照屬性A進行劃分后的信息增益率為
InfoGainRatio(S,A)=Gain(S,A)SplitInfoA(S,A)
(10)
綜上所述,構造決策樹的詳細過程如下:
輸入:經濟數據屬性集合V、分類屬性C與樣本集合S;
輸出:決策樹。
步驟一 建立某節點表示為N′;
步驟二 如果S中的數據屬性均為C,此時節點N計作N′,即某個具有C類特征的節點,反之進行下一步;
步驟三 如果S屬于空集,將N′當作葉節點,若S為非空集合,繼續執行下一步;
步驟四 獲取不同屬性的信息增益率,并確定增益率最高的屬性,通過該屬性標出節點N′;
步驟五 獲得屬性V的任意一個屬性Vi′,通過節點M得出一個V=Vi′的分支;
步驟六 如果Si′表示訓練集合E內Vi′屬性的集合,那么當Si′為空集,此時加入某葉節點,并將其當做集合S中的一類,反之加入某(V-Vi′,C,Ei′)返回節點;
步驟七 通過遞歸方法反復進行上述操作,即可構建出完整的決策樹。
引入時間序列相關概念,利用上述構造的決策樹建立異常數據趨勢預測模型。預測模型構建過程如下:
(1) 建立時間序列矩陣D,D=(x′1,x′2,…,x′k),其中,k代表時間序列數量,由于j為屬性類別數量,則akj描述一條數據。因此有:
x′1=(a11,a12,…,a1j)
(11)
x′k=(ak1,ak2,…,akj)
(12)
D=a11…a1j
??
ak1…akj
(13)
(2) 任意挑選兩個時間序列x′1與x′2,對這兩個序列進行整合,變為序列對s=〈x′1,x′2〉,同時在序列對集合中保存;
(3) 直到序列對數量為設置的數量n′,構成候選序列對集合S′:
S′=(s1,s2,…,sn′)
(14)
(4) 對全部候選數據對的信息熵進行計算:
Entropy(S′1)=∑2k=1(Childk)·H(Childk)=
-∑cj=1x′1·log2(x′1)∑2k=1P(Childk)·H(Childk)
(15)
式中,Childk為子結點,H為序列熵。
(5) 對所有候選數據對存在的信息增益量運算:
Gain(D,S′1)=Entropy(D)-Entropyx′1(D)
…
Gain(D,S′n)=Entropy(D)-Entropyx′n(D)
(16)
(6) 利用式(17)獲取所有數據對的信息增益率:
InfoGainRatio(D,S′1)=Gain(D,S′1)EntropyS′1(D)
…
InfoGainRatio(D,S′n)=Gain(D,S′n)EntropyS′n(D)
(17)
(7) 將信息增益率值最高的數據對當做分裂目標;
(8) 獲取其余全部數據對和分裂數據對的動態時間規整距離DTW:
DTW(S′1=〈x′1,x′2〉)=min∑kk=1Dkk
…
DTW(S′n=〈x′a,x′b〉)=min∑kk=1Dknk
(18)
(9) 如果分裂數據對表示為S′r,根據距離值進行劃分,d>DTW(S′r)表示無異常趨勢,d (10) 重復操作(2)~(9),完成對決策樹不同分支的劃分,同時也實現了對全部數據類型的異常趨勢智能預測。 為證明本文提出的預測方法性能,在SQL Server 2000數據庫系統基礎上進行仿真實驗。仿真參數如表1所示,仿真環境如圖2所示。 表1 仿真實驗參數表 經濟數據異常主要通過GDP數據體現出來,按照圖1所示的數據類型,對2006—2012年某高質量發展區域的經濟數據進行采集,并將采集到的數據作為訓練樣本,利用本文方法首先將經濟數據存儲于數據庫中,經過標準化處理和歸一化處理,獲得統一格式的反映宏觀經濟趨勢的低頻信息;再利用主成分分析法提取數據異常信息,建立經濟數據的決策樹分類算法,并進行經濟異常數據的預測。將本文方法與文獻[1]和文獻[2]進行比較,對2013—2019年時間段內的經濟異常趨勢進行預測,得出的結果如圖3所示。 由圖3可知,本文預測的結果與實際結果較為接近,均在2018年時出現異常趨勢,其余年份隨著社會經濟水平的整體發展呈現上升趨勢。在2018年時,因該地區失業率增加且貨幣政策收緊,影響了GDP總值的增量,因此經濟數據出現異常。本文方法預測的結果與該地區實際狀況相符,這是因為本文方法應用了決策樹算法,可以更加全面地對所有類型的數據進行劃分,通過主成分分析法判定數據的異常,并分為正常與異常兩類,提高分類精度,進而使預測結果更加準確。 算法執行時間是體現智能化的重要因素,本文方法與文獻[1]、文獻[2]方法均表現出一定智能化,人工干預過程較少,因此對3種方法的預測時間進行對比,結果如圖4所示。 通過圖4可以看出,隨著預測年份的增多,所需的訓練數據也不斷增加,如本文方法在預測2016年數據時需要8.2 s,而到2019年需要13.9 s,這是因為在分析當年份的經濟情況時,需要參考之前年份的數據,隨之需要分析的數據量逐年增加。因此3種方法的執行時間均呈上升趨勢。但本文方法相對于文獻[1]、文獻[2]方法耗費的執行時間較少,這是因為本文方法在預測之前對全部經濟數據進行預處理,通過標準化去除冗余,利用歸一化統一格式,簡化了數據的體量,能夠為經濟數據的處理減少計算量,進而大大減少了預測耗費的時間。 圖4 不同算法執行時間對比圖 高質量發展區域屬于經濟更加穩定的地區,穩定是每個國家發展的必然前提,如果經濟無法穩定,則不具備發展的持久性。因此,本文利用決策樹方法對高質量發展區域的經濟數據異常趨勢進行智能預測。仿真實驗證明了所提方法預測出的異常趨勢與實際狀況相符,同時也體現出高度智能化優勢。但本文研究還存在一定局限性,應從更多方面采集地區經濟數據,擴展數據來源,讓預測結果存在更大價值。3 仿真實驗數據分析與研究


4 總結