宋薇, 郭東恩, 范玉龍(南陽理工學(xué)院, 南陽 473000)
基于SPSSModeler的氣象數(shù)據(jù)分析
宋薇, 郭東恩, 范玉龍
(南陽理工學(xué)院, 南陽 473000)
隨著信息化的普及,氣象信息化的程度日益提高。氣象部門積累了大量的氣象數(shù)據(jù),如何充分利用這些數(shù)據(jù),獲取其中蘊藏的價值,已經(jīng)成為大數(shù)據(jù)時代面臨的主要任務(wù)。基于SPSS Modeler對某站點的氣象數(shù)據(jù)進行分析,介紹了數(shù)據(jù)加載、數(shù)據(jù)抽取、離群值極值處理、數(shù)據(jù)分析、數(shù)據(jù)挖掘等步驟。
數(shù)據(jù)分析; 時間序列模型; ARIMA模型; 氣象數(shù)據(jù)預(yù)測
隨著信息化的普及,氣象信息化的程度日益提高,氣象部門積累了大量的氣象數(shù)據(jù)。海量的數(shù)據(jù)隱藏著很多重要的信息,如何充分利用這些數(shù)據(jù),獲取其中蘊藏的價值,順利擺脫“數(shù)據(jù)豐富,信息貧乏”的困境,已經(jīng)成為大數(shù)據(jù)時代面臨的主要任務(wù)。氣象數(shù)據(jù)的研究與分析對于生產(chǎn)實踐與社會生活具有越來越重要的意義[1-2]。本文是基于SPSS Modeler對某站點的氣象數(shù)據(jù)進行分析,主要包括數(shù)據(jù)加載、數(shù)據(jù)抽取、離群值極值處理、數(shù)據(jù)分析、數(shù)據(jù)挖掘等步驟。
SPSS Modeler(12.0以前叫Clementine)是企業(yè)級的數(shù)據(jù)挖掘工作平臺。SPSS Modeler封裝了最先進的統(tǒng)計學(xué)和數(shù)據(jù)挖掘技術(shù)來獲得預(yù)測知識,并將相應(yīng)的決策方案部署到現(xiàn)有的業(yè)務(wù)系統(tǒng)和業(yè)務(wù)過程中,從而提高企業(yè)的效益[3]。SPSS Modeler是一個業(yè)界領(lǐng)先的數(shù)據(jù)挖掘平臺,全面支持?jǐn)?shù)據(jù)挖掘CRISP-DM的標(biāo)準(zhǔn)流程。SPSS Modeler擁有直觀的操作界面、自動化的數(shù)據(jù)準(zhǔn)備和成熟的預(yù)測分析模型,可提供數(shù)據(jù)挖掘相關(guān)的數(shù)據(jù)理解、數(shù)據(jù)抽取加載轉(zhuǎn)換、數(shù)據(jù)分析、建模、評估、部署等全過程的功能[4]。IBM SPSS Modeler以圖形化的界面、簡單的拖拽方式來快速構(gòu)建數(shù)據(jù)挖掘分析模型著稱,它提供了完整的統(tǒng)計挖掘功能,包括來自于統(tǒng)計學(xué)、機器學(xué)習(xí)、人工智能等方面的分析算法和數(shù)據(jù)模型,包括如關(guān)聯(lián)、分類、預(yù)測等完整的全面挖掘分析功能。
2.1 數(shù)據(jù)預(yù)準(zhǔn)備
數(shù)據(jù)預(yù)處理是指在主要的處理以前對數(shù)據(jù)進行的一些處理。高數(shù)據(jù)質(zhì)量是數(shù)據(jù)分析的前提和分析結(jié)論可靠性的保障[5-6]。通過預(yù)處理數(shù)據(jù)提高數(shù)據(jù)質(zhì)量,從而提高數(shù)據(jù)分析、數(shù)據(jù)挖掘結(jié)果的質(zhì)量。本文是基于SPSS Modeler對某站點的氣象數(shù)據(jù)進行分析。數(shù)據(jù)源文件是Excel文件,分別是該站點采集的1990年-2010年地表溫度數(shù)據(jù)、濕度數(shù)據(jù)、日照時間數(shù)據(jù)、氣溫數(shù)據(jù)。本文數(shù)據(jù)預(yù)處理的步驟是從源文件讀取數(shù)據(jù)并對數(shù)據(jù)進行合并、對日期時間數(shù)據(jù)進行處理、對無關(guān)數(shù)據(jù)進行過濾、通過數(shù)據(jù)審核節(jié)點對離群值和極值進行處理。數(shù)據(jù)預(yù)處理過程,如圖1所示。
首先通過源節(jié)點讀取Excel文件的內(nèi)容,使用合并節(jié)點對多個文件的內(nèi)容進行合并,通過站點編號、年、月、日、經(jīng)度、維度等字段對文件進行合并。源文件中日期是通過年、月、日三列的值進行表示。通過導(dǎo)出節(jié)點增加新的字段,字段名稱為date。導(dǎo)出節(jié)點的導(dǎo)出公式為datetime_date(to_integer(year),to_integer(month),to_integer(day))。源文件中包含很多字段,通過過濾節(jié)點對無關(guān)的字段進行過濾。對字段進行過濾之后,主要保留時間平均地表溫度、最高地表溫度、最低地表溫度、平均濕度、最低濕度、日照時間、平均氣溫、日最高氣溫、日最低氣溫等數(shù)據(jù)。通過數(shù)據(jù)審核節(jié)點查看數(shù)據(jù)質(zhì)量。操作部分選擇強制替換離群值/丟棄極值,然后在生成選項離群值和極值的超節(jié)點,運行之后生成超節(jié)點用來丟棄數(shù)據(jù)集中的離群值和極值。

圖1 數(shù)據(jù)預(yù)處理
2.2 數(shù)據(jù)分析
本文分析氣象數(shù)據(jù)主要是分析前十年和后十年,該站點的地表溫度數(shù)據(jù)、濕度數(shù)據(jù)、日照時間數(shù)據(jù)、氣溫數(shù)據(jù)有無明顯的變化或者有無什么規(guī)律。以平均地表溫度為例,數(shù)據(jù)分析過程,如圖2所示。

圖2 數(shù)據(jù)分析過程
以平均地表溫度為例數(shù)據(jù)分析過程:通過選擇節(jié)點選取前十年數(shù)據(jù)以及后十年的數(shù)據(jù),選取條件為datetime_year(date)<2000或者datetime_year(date)>=2000。選取之后通過直方圖、統(tǒng)計量、數(shù)據(jù)審核節(jié)點查看前后十年數(shù)據(jù)分布情況。通過平均地表溫度分布直方圖可以看出2000年以前數(shù)據(jù)較2000年以后數(shù)據(jù)范圍廣,而且2000年以前平均地表溫度前4名分布的集中在較低的地表溫度,2000年以后平均地表溫度前4名分布集中在較高的地表溫度。
2.3 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是一個交叉學(xué)科領(lǐng)域,受數(shù)據(jù)庫系統(tǒng)、統(tǒng)計學(xué)、機器學(xué)習(xí)、可視化和信息科學(xué)等學(xué)科的影響。它是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取其中隱含的、未知的、潛在有用的信息和知識的過程[7],對知識庫、商務(wù)策略、生產(chǎn)控制、科學(xué)研究等諸多領(lǐng)域做出重大貢獻。在數(shù)據(jù)挖掘領(lǐng)域,時間序列數(shù)據(jù)的挖掘技術(shù)取得了很大的進展。時間序列分析是根據(jù)系統(tǒng)觀測得到的時間序列數(shù)據(jù),通過曲線擬合和參數(shù)估計來建立數(shù)學(xué)模型的理論和方法[8]。時間序列分析法是根據(jù)過去的變化預(yù)測未來的發(fā)展,前提是假定事物的過去延續(xù)到未來。根據(jù)客觀事物發(fā)展的連續(xù)規(guī)律性,運用過去的歷史數(shù)據(jù),通過統(tǒng)計分析,進一步推測未來的發(fā)展趨勢[9]。時間序列的數(shù)據(jù)變動存在著規(guī)律性與不規(guī)律性,因此時間序列數(shù)據(jù)的變動分為趨勢性、周期性、隨機性、綜合性四種類型。季節(jié)變動指時間序列在一年內(nèi)重復(fù)出的有規(guī)律的周期性變動。有以一年為周期,也有以一月、一周、一日為周期的。
本文以平均地表溫度為例,對該站點的氣象數(shù)據(jù)進行預(yù)測。時間序列建模,如圖3所示。

圖3 時間序列建模
首先通過時間區(qū)間節(jié)點構(gòu)建時間區(qū)間,以月為單位,查看每月的平均地表溫度的平均值,數(shù)據(jù)顯現(xiàn)明顯的季節(jié)性,周期為一年。因此時間序列分析時需要選擇帶有季節(jié)性模型,本文使用專家模型選擇適用的ARIMA模型[10]并且專家建模器考慮季節(jié)模型。將數(shù)據(jù)集中其他數(shù)據(jù)用來建模考慮這些數(shù)據(jù)對平均地表溫度的影響,包括最高地表溫度、最低地表溫度、平均濕度、最低濕度、日照時間、平均氣溫、日最高氣溫、日最低氣溫等數(shù)據(jù),通過類型節(jié)點選擇這些字段為輸入,平均地表溫度作為目標(biāo),生成的模型的部分統(tǒng)計量,如見圖4所示。
其中“固定R**2”列是固定的R平方值,該值越高,表示模型擬合得越好。用該模型對2010年到2012年月均平均地表溫度進行預(yù)測,在時間區(qū)間節(jié)點預(yù)報選項勾選將記錄擴展至未來36,在預(yù)報中使用未來值里指定最高地表溫度、最低地表溫度、平均濕度、最低濕度、日照時間、平均氣溫、日

圖4 模型的部分統(tǒng)計量
最高氣溫、日最低氣溫這三年的數(shù)據(jù),模型預(yù)測序列圖,如圖5所示。

圖5 模型預(yù)測序列圖
其中圖形中平均地表溫度為原始值,TS-平均地表溫度為每列原始數(shù)據(jù)的生成模型數(shù)據(jù),TSLCI-平均地表溫度為每列生成模型數(shù)據(jù)的置信區(qū)間下限值,TSUCI-平均地表溫度為每列生成模型數(shù)據(jù)的置信區(qū)間上限值。從圖5可以看出圖形擬合效果良好,預(yù)測的數(shù)據(jù)誤差較小。
本文主要圍繞基于SPSS Modeler進行氣象數(shù)據(jù)分析,主要從數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析、時間序列模型建模等方面展開。本文以某站點氣象數(shù)據(jù)為例進行分析,下一步可以完善數(shù)據(jù),研究更多站點的數(shù)據(jù)以及研究氣象數(shù)據(jù)和其他數(shù)據(jù)之間的關(guān)聯(lián)。
[1] 李社宏. 大數(shù)據(jù)時代氣象數(shù)據(jù)分析應(yīng)用的新趨勢[J]. 陜西氣象, 2014(2):41-44.
[2] 姜文瑞. 基于數(shù)據(jù)挖掘的氣象數(shù)據(jù)分析[D]. 西安:西安建筑科技大學(xué), 2012.
[3] 王國平, 郭偉宸, 汪若君. IBM SPSS Modeler數(shù)據(jù)與文本挖掘?qū)崙?zhàn)[M]. 北京:清華大學(xué)出版社, 2014.
[4] 薛薇, 陳歡歌. Clementine數(shù)據(jù)挖掘方法及應(yīng)用[M]. 北京:電子工業(yè)出版社, 2010.
[5] 劉明吉, 王秀峰, 黃亞樓. 數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理[J]. 計算機科學(xué), 2000, 27(4):54-57.
[6] 菅志剛, 金旭. 數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理的研究與實現(xiàn)[J]. 計算機應(yīng)用研究, 2004, 21(7):117-118.
[7] Jiawei Han, Micheline Kamber. 數(shù)據(jù)挖掘:概念與技術(shù)[M]. 范明, 孟小峰,譯. 北京:機械工業(yè)出版社, 2001.
[8] 羅芳瓊, 吳春梅. 時間序列分析的理論與應(yīng)用綜述[J]. 柳州師專學(xué)報, 2009, 24(3):113-117.
[9] 張美英, 何杰. 時間序列預(yù)測模型研究簡介[J]. 江西科學(xué), 2009, 27(5):697-701.
[10] 孫苗, 孔祥超, 耿偉華. 基于ARIMA模型的山東省月降水量時間序列分析[J]. 魯東大學(xué)學(xué)報(自然科學(xué)版), 2013, 29(3):244-249.
AnalysisofMeteorologicalDataBasedonSPSSModeler
Song Wei,Guo Dongen,Fan Yulong
(Nanyang Institute of Technology, Nanyang Henan 473000)
With the popularization of information technology, the degree of meteorological information is increasing day by day. The meteorological department has accumulated a large amount of meteorological data. How to make full use of these data, and access to the hidden value has become the main task in the era of big data. This paper is based on SPSS Modeler analysis of the meteorological data of a site. It includes the steps of data loading, data extraction, outlier value processing, data analysis, data mining and so on.
Data analysis; Time series model; ARIMA model; Forecasting of meteorology data
TP311
A
2017.03.20)
國家自然科學(xué)基金(61572420)
宋薇(1987-),碩士,講師,研究方向:數(shù)據(jù)挖掘。
郭東恩(1978-),男,碩士,副教授,研究方向:大數(shù)據(jù)相關(guān)技術(shù)。
范玉龍(1978-),男,博士研究生,講師,研究方向:景觀生態(tài)學(xué)。
1007-757X(2017)10-0005-02