孫濤+高軍暉


摘 要:該文利用機器學習軟件Weka,對江蘇13個地級市的溫度數據進行聚類分析研究。我們的數據來自中國氣象數據網,采用1981—2010年日平均氣溫。我們在Weka中分別用HierarchicalCluster、SimpleKMeans、Cobweb三種方法按3個簇進行聚類。從三種聚類方法得出的結果來看,第1、2種方法結果更加相近,第3種方法更加細致,導致每個情況各成一類。對照溫度聚類的結果和城市之間的空間距離,蘇北城市之間的溫度互相之間更加靠近,蘇中、蘇南城市由于處于長江兩側,互相之間溫度也更加靠近。
關鍵詞:聚類分析 Weka 城市溫度
中圖分類號:TP391 文獻標識碼:A 文章編號:1674-098X(2016)07(c)-0092-03
氣溫是重要的氣候指標,對人類的生產生活狀況以及農業生產都有著非常重要的影響,并且在自然科學領域中建立的諸多氣候模型中,氣溫已經成為一個不可或缺的影響因素,因此有關氣溫空間分布規律的研究一直都是地理、氣象、生態等研究和應用領域廣泛關注的熱點問題之一[1]。影響氣溫分布的主要因素包括:宏觀的地理條件,觀測點的海拔高度、地形(坡向、坡度等)、下墊面性質等,其中尤以海拔高度和地形的影響最顯著[2]。
聚類分析是數據挖掘的重要研究內容[3,4],是計算機科學中較為前沿的研究方式,因為地理、氣象等數據有時間性和空間性并具的特點,所以聚類分析方法在地理數據研究上從傳統上的空間聚類發展成帶有時間性質的時空聚類,其中代表性的聚類分析方法有基于密度的,有基于層次的,還有基于劃分的,比如FCM算法[5,6],在聚類分析與地理結合研究這方面,國外學者如Bilgin T T等對土耳其的氣象站每日的溫度數據進行了聚類分析,得到趨勢相同的溫度區域,從而根據土耳其的氣溫特性進行氣象區域劃分[7];Moller-Levet等[8]利用模糊c均值聚類算法對短時間序列進行了聚類[9]。
1 數據來源
該文所有數據均來自中國氣象數據網[10],使用的溫度為1981—2010年日平均氣溫,單位:℃。
獲取數據時,共有9列數據,分別是城市、日序、累年日平均氣溫、累年平均日最高氣溫、累年平均日最低氣溫、累年日平均水汽壓、累年20-20時日降水量、累年08-08時日降水量、累年日平均風速。
該文基于平均氣溫做數據分析,時間是365天,城市為江蘇省13所地級市。數據采集時的城市排序為:無錫、蘇州、常州、徐州、連云港、鹽城、淮安、南京、揚州、泰州、南通、宿遷、鎮江。
由于部分地級市數據并未給出,所以,該文中的數據由地理位置最近的相關縣級市或區的數據代替,常州數據由金壇代替,宿遷數據由宿豫代替,鎮江數據由丹陽代替,南通數據由于本身產生時間分段難以處理,由通州代替。
2 聚類分析介紹
我們這里借用MBA智庫百科[11]來描述聚類分析。聚類分析,英文Cluster Analysis,是根據“物以類聚”的道理,對樣品或指標進行分類的一種多元統計分析方法。它們討論的對象是大量的樣品,要求能合理地按各自的特性來進行合理的分類,沒有任何模式可供參考或依循,即是在沒有先驗知識的情況下進行的。聚類分析起源于分類學,在古老的分類學中,人們主要依靠經驗和專業知識來實現分類,很少利用數學工具進行定量的分類。隨著人類科學技術的發展,對分類的要求越來越高,以致有時僅憑經驗和專業知識難以確切地進行分類,于是人們逐漸地把數學工具引用到了分類學中,形成了數值分類學,之后又將多元分析的技術引入到數值分類學形成了聚類分析。
聚類是將數據分類到不同的類或者簇的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。聚類分析的目標就是在相似的基礎上收集數據來分類。聚類源于很多領域,包括數學、計算機科學、統計學、生物學和經濟學。在不同的應用領域,很多聚類技術都得到了發展,這些技術方法被用作描述數據,衡量不同數據源間的相似性,以及把數據源分類到不同的簇中。
聚類分析計算方法主要有如下幾種:分裂法(partitioning methods),層次法(hierarchical methods),基于密度的方法(density-based methods),基于網格的方法(grid-basedmethods),基于模型的方法(model-based methods)。
3 數據分析方法
Weka[12]的全名是懷卡托智能分析環境(Waikato Environment for Knowledge Analysis),是一款免費的、非商業化的、基于JAVA環境下開源的機器學習以及數據挖掘軟件。Weka作為一個公開的數據挖掘工作平臺,集合了大量能承擔數據挖掘任務的機器學習算法,包括對數據進行預處理,分類,回歸、聚類、關聯規則以及在新的交互式界面上的可視化。選擇HierarchicalCluster聚類方法,操作流程如下[13]:
加載天氣-江蘇.csvs數據集,切換到Cluster選項卡,單擊Choose按鈕,在打開的算法選擇對話框中,選擇HierarchicalCluster聚類算法。
設置相似度度量方法。單擊Choose按鈕后面的算法文本框,在設置算法屬性對話框中,設置距離函數distanceFu nction為歐氏距離EuclideanDistance,設置num集群nu mClusters為3。
在Cluster mode面板中選擇Use training set選項,單擊Start按鈕執行挖掘,結果如表1所示。
在Result-list(right-click for options)列表中選擇本次訓練條目,右擊,從彈出的快捷菜單中選擇Visualize tree命令,打開分層聚類樹,如圖1所示。
從空間角度看,蘇北城市之間的溫度互相之間更加靠近,蘇中、蘇南城市由于處于長江兩側,互相之間溫度也更加靠近,靠近太湖的幾個城市中,只有蘇州市一個離群值,推測有由于蘇州的地理位置在長江和太湖之間,以及蘇州市內湖泊較多使得溫度產生了偏離。
4 討論
考慮到不同的聚類方法結果可能不一樣,我們有必要選擇其他的方法進行聚類。
使用Weka中的SimpleKMeans聚類方法。與第1 種方法相比,加入了隨機種子,數量為3。其他參數如下: displayDevs:False,distanceFunction:EuclideanDist ance -Rfirst-last,dontReplaceMissingValues: False,maxTterations:500,numClusters:3,preserveInstancesOrder:False。得到的聚類結果如表2所示。
使用Cobweb聚類方法。與第1種方法相比,加入了隨機
種子,數量為3。其他參數如下:acuity:1.0,cuteoff:0.002
8209479177387815,saveInstanceData:False。結果與前面兩種方法有很大的差別。除了無錫、泰州、南通、鎮江4個城市在一個簇里面,其他9個城市分別形成一個簇。圖2是對應的聚類樹。
從三種聚類方法得出的結論看,第1、2種方法結果更加相近,第3種方法更加細致,導致每個情況各成一類。
5 結語
該文利用機器學習軟件Weka,對江蘇13個地級市的溫度數據進行聚類分析研究。
首先回顧了其他學者對氣候數據進行聚類分析的工作,接著,我們分別描述了數據來源和聚類分析的原理。在數據分析部分,我們用HierarchicalCluster進行聚類分析,指定3個簇。得到的結果是無錫、常州、南京、揚州、泰州、南通、鎮江7個城市在一個簇里面,徐州、連云港、鹽城、淮安、宿遷5個城市在一個簇里面,蘇州單獨在一個簇里面。
考慮到不同的聚類方法結果可能不一樣,我們在討論部分還利用SimpleKMeans、Cobweb兩種方法對同樣的數據進行聚類。我們發現第1、2種方法結果更加相近,第3種方法更加細致,導致每個情況各成一類。
對照溫度聚類的結果和城市之間的空間距離,蘇北城市之間的溫度互相之間更加靠近,蘇中、蘇南城市由于處于長江兩側,互相之間溫度也更加靠近。
參考文獻
[1] 曾燕,邱新法,何永健,等.復雜地形下黃河流域平均氣溫分布式模擬[J].中國科學,2009,39(6):774-786.
[2] 袁淑杰,谷曉平,廖啟龍,等,貴州高原復雜地形下月平均日最高氣溫分布式模擬[J].地理學報,2009,64(7):888-896.
[3] 馮立娟.基于Web數據挖掘的推薦系統算法研究[D].河北:河北工程大學,2014.
[4] 屈家安,曹杰.主成分分析與聚類分析在青島夏季氣溫變化研究中的應用[J].大氣科學學報,2014,37(4):517-520.
[5] Dunn J.C.Well-separated clusters and the optimal fuzzy partitions[J].Cybernet,1974(4):95-105.
[6] Bezdek J.C.Pattern recognition with fuzzy objective function algorithns[J].Plenum Press,1981,22(1171):203-209.
[7] Bilgin T T,Camuren A Y.A Data Ming Application on Air Temperature DataBase[J].Lecture Notes in Computer Science,2005(3261):68-76.
[8] C S Moller levet,F Klawonn,KH Cho,et al.Fuzzy clustering of short time-series and unevenly distributed sampling points[C]//Proceedings of the 5th International Symposium on Intelligent Data Analysis.2003.
[9] 謝娟英,蔣帥,王春霞,等.一種改進的全局K-均值聚類算法[J].陜西師范大學學報:自然科學版,2010,38(2):18-22.
[10] 聚類分析[EB/OL].http://wiki.mbalia.com/wiki/.
[11] 氣候數據源:http://data.cma.cn/.
[12] Weka 3:Date Mining Software in Java [EB/OL].http://www.cs.waikato.ac.nz/ml/weka/.
[13] 戴紅,常子冠,于寧.數據挖掘導論[M].清華大學出版社,2015.