丁健 邱俊強 吳笑笑
摘 要:隨著時代的不斷變遷,我們的生活方式更加便捷。然而,于此同時,我們所生存的環境由此變惡劣了,雖然現在我們在不斷地治理環境,然而還是未能制止住環境的惡化。因此,我們現在在治理環境的同時,也要預防環境的變化。所以,本文利用關聯規則算法,通過數據挖掘,找出環境數據的CONDITION、AQI、PRES、HUM這四項數據進行研究,得到了如下結論:研究數據的變化與天氣變化情況關聯不大,尤其是AQI值的變化難以推斷。最后,本文證實了根據CONDITION、AQI、PRES、HUM這四項數據難以推測出天氣的變化。
關鍵詞:關聯規則;數據挖掘;
一、引言
如今的環境氣候的變化難測,雖然總體是呈現溫度上升,但氣候的升升跌跌難以猜測。所以,為了方便我們的日常穿衣出行,我們需要做出環境氣候變化的預測。
因此,環境的大數據分析成為了一項十分重要的用來預測天氣變化的武器。通過關聯規則,分析出環境中各個成分的變化的聯動性,從而的出環境中各個成分的關聯性,用來預測未來環境中各個成分的變化情況從而得出氣候的變化趨勢,有利于我們對氣候變化的把握。
在利用關聯規則對環境數據進行分析時,本文選取了我國南京地區的2016年~2018年的CONDITION、AQI、PRES、HUM這四項數據進行實證研究。為了使數據更具有可比性、價值性、直觀性,對數據進行篩選,剔除了沒有成效的數據。
二、相關研究
我國主要通過環境統計分析,通過檢測空氣中各成分的變化,利用環境模糊聚類分析、環境判別分析、環境主成分分析和環境因子分析這些常用的環境統計分析模型;也有少數利用現代環境數據處理常用的人工神經網絡方法和空間統計分析方法。不過這些都存在一些局限性:缺乏有關制度的結合,主要是環境監測制度,排污許可證制度和環境信息公開制度;指標體系還不完善;缺乏數據質量保障制度和規范。
三、關聯規則對我國環境數據的分析
(一)關聯規則簡介
關聯規則的一般性描述是: 設I={Itemset 1 , Itemset 2 , ? ,Itemset m }是項的集合, D是數據庫事務的集合,其中每個事務T是一個非空項集,使得T∈I,關聯規則是形如A =>B的蘊涵式,其中A∈I , B∈I,A≠?,B≠?,并且 A∩B = ?,對于關聯規則 A =>B 在事務集D中成立:
支持度: Sup=P(A?B)=|A?B|/|D| (1)
置信度: Conf=P(B|A)=|A?B|/|A| (2)
其中 P(A?B) 表示事務數據庫D中包含A∪B的概率,P(B|A) 事務數據庫D 中包含 A的事務同時也包含 B的事務的概率。定義同時滿足最小支持度閾值(min_Sup)和最小置信度閾值(min_Conf)的規則稱為強關聯規則。強關聯規則不一定都是有趣的,在此引入提升度來擴充關聯規則的支持度-置信度框架,過濾掉無趣的相關規則。
提升度: Lift=P(B|A)/P(B)=Conf(A=>B)/Supp(B)(3)
即B在包含A 的事務集中出現的概率與B在事務數據庫D中出現的概率的比值,探究A的出現“提升”B出現的程度。若提升度大于1,則說規則是有趣的。若規則提升度等于1,則兩者相互獨立,沒有相關性。若該規則提升度小于1,實為負相關的偽規則,可能會對決策產生誤導。
(二) 算法簡介
Apriori 算法是Agrawal和R.Srikant 于1994年提出的一種發現頻繁項集的基本算法, 使用逐層搜索的迭代方法,其思想是利用已知的高頻數據項集推導更高層的高頻數據項集。Apriori 算法是一種寬度優先算法,其具體步驟過程為:
S1:首先掃描數據庫,計算 D 中所有單個項集的支持度, 找出1- 頻繁項集的集合,記為 L1。
S2:利用已生成的L k-1 ,即(k-1)-頻繁項集來生成Lk,即 k-頻繁項集。
S3:第S2步利用先驗性質壓縮搜索空間,其應用分為以下兩步過程:
連接步:假定事務或項集中的項按字典序排序。對L k-1中的元素兩兩進行比對, 如果它們前k-2項相同 ,而最后一項不同,則將二者進行連接得到k-候選項集。
剪枝步:對候選k-項集C k 進行剪枝,從C k 中刪除所有(k-1)-子集不全包含在L k- 1 中的項集,從而得到k-頻繁項集。
S4:依次循環調用連接步和剪枝步,直至產生所有頻繁項集。
(三)通過環境數據的算法實現
首先我們將我們需要的數據導出來,這里我先用2016年1月的數據做例子,見表1:
因為我們想要觀察這些數據之間的聯系,為了輸入數據的方便,我們首先設立事件:
將COND數據中的晴設置為事件1,多云設置為事件2,陰設置為事件3,小雨設置為事件4,雨夾雪設置為事件5,小雪設置為事件6,小到中雪設置為事件7。
同理,將AQI中的1~50設置為事件a,51~100設置為事件b,101~150設置為事件c,151~200設置為事件d,201~250設置為事件e,251+設置為事件f。
PRES中,1011~1015設置為事件g,1016~1020設置為事件h,1021~1025設置為事件i,1026~1030設置為事件j,1031+設置為事件k。
HUM中,1~20設置為事件l,21~40設置為事件m,41~60設置為事件n,61~80設置為事件o,81~100設置為事件p。
接下來,我們需要設立支持度和置信度,就暫且將支持度和置信度都先設置為0.6。
四、分析結果
首先看表2,表2是將數據轉換之后的圖,接下來我們將表2中的數據導入到算法中,帶入計算。我們首先通過天氣分類,將為同一類型的天氣的各成分輸入其中,通過設置最小支持度和最小置信度,從而得出天氣狀況和環境成分的關聯。
表3是事件1即晴的時候將最小支持度和最小置信度設為0.1所得到的結果。通過觀察可以猜測數d,j,p這三個類型與晴天的關聯較大,即出現d,j,p時,晴天可能性較大;表4是事件2即多云的時候將最小支持度和最小置信度設為0.1所得到的結果。有結果可推出d,i,p這三個因素對應著多云著一天氣情況;表5是事件3即陰天的時候將最小支持度和最小置信度設為0.1所得到的結果。結果表明i,o,p對其影響較大,但由于o,p同屬于HUM中,所以需要取舍,由F1的出現頻率所以選p......表6和表7的結果以此類推即可得出。
不過,經過檢查發現,通過這樣得到的結果并不完全可靠,其中還欠缺不少未考慮到的因素,例如:國家政策對AQI值的影響,節假日對環境的影響等。所以我們統計的結果在與之后的數據對比中,發現不少有出入的地方。所以我們暫且還不能單憑一些環境成分就能準確地預測出未來的天氣狀況。我們還需要加以改進。
參考文獻:
[1]楊恩. 關聯規則挖掘方法的改進及應用研究[EB/OL]. 北京:中國科技論文在線 [2009-05-06].
[2]崔妍, 包志強. 關聯規則挖掘綜述[J]. 計算機應用研究, 2016, 33(2): 330-334.
[3]劉林東,齊德昱.一種改進的關聯規則挖掘算法研究[J]. 2018.6
[4]王曉峰,王天然,趙越.一種自頂向下挖掘長頻繁項的有效方法[J].計算機研究與發展,2004,41(1):148-155.
*雙創項目:南京審計大學金審學院雙創項目201813994005Y