劉言哲,柳炳祥
(景德鎮陶瓷大學 信息工程學院,江西 景德鎮 333403)
有效的國家經濟數據分析,能夠為政府在宏觀調控以及政策制定上提供非常有價值的參考,可以大幅度提高政府決策的準確性及工作效率,促進經濟社會快速發展。同時,國家大數據分析也可以為企業的經營規劃、采購運輸和個人的工作規劃、學習方向等方面提供可靠的指導。但是由于國家數據涉及的領域非常廣,僅在國家數據網列出的第一大類指標就多達28項,導致以往數據分析往往比較片面,對于國家宏觀調控意義不大。本文選取了國民經濟、交通運輸等對經濟數據影響較大的6個方面21項指標,構建了基于Apriori關聯算法的數據分析模型,以探索在宏觀層面上國家各經濟數據之間的潛在聯系。
關聯分析方法是用于挖掘大量數據中具有潛在聯系的一種數據挖掘研究方法,其挖掘結果可用頻繁集和關聯規則表示。關聯規則挖掘算法有搜索算法、寬度優先算法(分層算法)、深度優先算法、數據集劃分算法、抽樣算法、增量式更新算法和并行算法7大類。Apriori算法是寬度優先算法(分層算法)的典型代表,也是目前比較經典的挖掘頻繁集和產生關聯規則的挖掘算法。
若有I={i1,i2,…,im},則I是m個不同的項目的集合,每個I稱為一個項目,項目的集合I稱為項集,其元素個數稱為項集的長度,長度為k的項集稱為k-項集,k項集?I,若干個項目組成一個事務T,事務T?I,事務全體構成了事務數據庫D,|D|表示為事務數據庫D中事務的總個數。一個項集X的事務數在事務數據庫D中所占的比例稱為項集X的支持度。

最小支持度是設定的項集的最小支持閾值,記為SUPmin,支持度不小于SUPmin的項集被稱為頻繁項集,長度為k的頻繁項集被稱為k-頻繁集。
關聯規則是一個蘊含式:R:X?Y,其中X?I,Y?I,且X∩Y=?,關聯規則的強度可以用他的支持度和置信度度量。關聯規則的支持度是同時包含項集X和Y的事務在總事務中所占的比例,描述的是關聯規則的普遍性,表達式為:

關聯規則的置信度是同時包含項集X和Y的事務數與只包含X的事務數的比值,也是該關聯規則的支持度與項集X的支持度之比,表達式為:

最小置信度CONFmin是關聯規則必須滿足的最小置信度閾值,若關聯規則R的置信度和支持度都不小于最小置信度CONFmin和最低支持度SUPmin,則稱規則R為強關聯規則。
關聯規則挖掘主要有兩個問題:頻繁集的產生和關聯規則的產生。針對以上兩個問題,Agrawal等人在1993年提出了Apriori算法,該算法采用自底向上的方法,從1-項頻繁集開始逐步找出高階頻繁集,Apriori算法的流程如圖1所示。
其中,連接步是為了產生頻繁k項集而通過JOIN運算得到候選頻繁k項集的集合Ck的步驟,Ck中包含了所有有可能成為頻繁k項集的項集;剪枝步是依據任何非頻繁(k-1)項集必定不是頻繁k項集的子集這一性質,從候選頻繁k項集中去除非頻繁的(k-1)子集,以減少Ck規模,大幅度減少計算量;剔除則是將Ck中不滿足最低支持度SUPmin的項集剔除,最終形成由頻繁k項集構成的集合Lk。
本文數據源于國家統計局1999-2018年年度數據,選取的原始數據包括6個方面21項指標。因為近20年中國各方面均快速發展,因此各個指標都呈上升趨勢,僅僅依據單個指標的增減無法表示真實變化,因此需要對數據進行預處理,通過占比、增速、相關數據比例等表示某項數據的實際情況,最終經過數據整理提煉出住宅房均價/城鎮人均收入變化、國企經濟占比變化、財政收入增速變化等19項指標,并以0(或1)代表該數據較去年降低(或升高)作為算法的輸入數據,如表1所示。

圖1 Apriori算法流程
將模型的最低支持度設為0.5,最低可信度設為0.9,將2001-2017年共17年323項數據作為輸入值讀取到模型中,最終產生頻繁集3個(表2所示),強關聯規則10個,先按支持度排序,再按置信度排序(表3所示)。
針對挖掘到的規則可以得到以下結論。第一,旅游花費的相對上升和第三產業占比的上升保持同步,驗證了旅游業對于促進產業轉型尤其是對于第三產業的發展具有較大影響這一規律,同時也為推動第三產業發展情況提供了新思路,可以根據旅游業的發展情況預測第三產業整體的發展情況。第二,第三產業的發展與第二產業占比的下降保持同步,即工業比重下降而服務業比重上升,此時工業部門的產出增長速度要快于農業部門,但要慢于服務業部門,此現象也代表中國目前已經進入“后工業化”階段。第三,國企經濟占比下降對應旅游花費相對上升,適當降低國企經濟占比有助于激發多樣性競爭,而旅游業多元化發展與經濟發展呈正相關關系,經濟發展程度越高,對應旅游業多元化程度越高。綜合可知,國企經濟下降推動旅游業發展,本質上是國企經濟占比適當下降,促進了社會經濟發展,國企經濟占比下降的同時,旅游業繼續發展,也說明了國企經濟對旅游行業的貢獻不大。

表3 強關聯規則
將關聯規則Apriori算法應用在國家經濟數據中,可以分析出各經濟數據中具有強關聯的因素。該方法可以獲得“意外性知識”的發現,但是不同的數據處理方式得出的結論也不盡相同,需要有較合理的數據處理方法。此方法對研究國家經濟發展具有實際意義,對于驗證國家政策執行效果、政府的宏觀調控等具有一定的借鑒意義。