馬佳琪 滕國文
摘要:由于近些年來火災時有發生,被稱為“地球之肺”的最大雨林區亞馬遜也不斷面臨著威脅。因此,了解和分析火災發生的時間和空間勢在必行。基于此,在亞馬遜火災的分析評價中,試采用主成分分析法(PCA)建立數學模型,從時間、空間的不同維度對亞馬遜火災的發生情況進行了可視化分析。最終得出具體的時間和地點是火災的高峰期。為預防更多火災的發展,阻止全球氣候變暖的發展提供參考方向。
關鍵詞:數據可視化;PCA;亞馬遜火災
【Abstract】TheAmazon,therainiestforestintheworldandknownasthe"lungsoftheworld",isunderconstantthreatbecauseofirregularfiresinrecentyears.Therefore,itisimperativetounderstandandanalyzethetimeandspaceoffire.Basedonthis,intheanalysisandevaluationofAmazonfire,amathematicalmodelisestablishedbyprincipalcomponentanalysis(PCA),andavisualanalysisisconductedontheoccurrenceofAmazonfirefromdifferentdimensionsoftimeandspace.Soitisconcludedthatthespecifictimeandplaceisthepeakofthefire.Topreventthedevelopmentofmorefiresandthedevelopmentofglobalwarming,theresearchinthepapercouldprovidereferencedirection.
【Keywords】datavisualization;PCA;Amazonfire
作者簡介:馬佳琪(1995-),女,碩士研究生,主要研究方向:數據可視化;滕國文(1963-),男,教授,碩士生導師,主要研究方向:人工智能。
0引言
在人工智能發展的今天,可視化憑借計算機和數字圖像處理方法,把批量高維數據轉換為圖表后進行展示和處理。當處理科研問題及其數據時,人們往往遇到甚至會達到數百萬維度的真實數據[1]。盡管在其原來的高維結構中,數據能夠得到最好的表達,但有時就可能需要給數據進行降維。降維的需求往往與可視化有關(減少兩三個維度,方便人們繪圖),但這只是原因之一。有時候,人們認為性能比精度更重要,那么就可以將1000維的數據降至10維,從而讓人們可以更快地對這些數據進行操作(比如計算距離)。綜上可知,對降維的需求是存在的并且有很多應用。
1數據可視化
可視化分析作為大數據分析的一個重要分支,已經廣泛應用于科學計算研究和商業智能[2]。因此,數據可視化分析是大數據分析不可缺少的手段和工具[3]。可視化分析(Visualanalytics)是科學可視化、信息可視化、人機交互、數據挖掘等研究領域交叉集成而產生的一種新的研究方向[2],也是一種通過交互式可視化界面幫助用戶分析和推理大規模復雜數據集的科學技術[4]。分析過程在數據和知識轉化的過程中不斷循環,可將大數據分析和挖掘方法與視覺信息處理過程相結合,將計算機的處理能力和人類的認知能力相結合,最終挖掘出大規模高維數據集所包含的價值[1]。
大部分存儲的原始數據都是沒有價值的,只有在提取信息后,才能發現價值。人類處理視覺信息的速度非常快,可以立即捕捉到隱藏在數字中的關鍵信息。因此,數據可視化已成為提取關鍵信息的最佳途徑。
2主成分分析法
主成分分析(PrincipalComponentAnalysis,PCA)[4]將包含冗余信息的高維數據轉化為少量的低維數據,即主成分,每個主成分包含原始數據幾乎所有的有效信息[5]。這將復雜的數據分析問題轉化為只需要幾個主成分的問題,不僅能夠對問題進行更深入的分析,而且使分析過程更加容易[4]。基本思想是在最小均方誤差的約束下,尋找一個最能代表原始數據主要特征的投影變換矩陣。在新的投影空間中,可以降低原始數據的維數,保留大部分信息[5]。整個轉換過程遵循2個原則。一個是近期重構,即:利用無量綱數據重構原始數據時誤差之和最小。另一個是最大可分性,即:數據要在低維投影空間中盡可能分離[5]。其實可以證明,這兩個原理是等價的[5]。
2.2PCA主成分分析降維
亞馬遜雨林區是世界最大的雨林區,可以消耗大量二氧化碳,阻止氣候變暖;林區還藏有豐富的動植物資源,種類高達300萬種。但不容忽視的是,雨林生態系統卻正不斷面臨著眾多的威脅,越來越多的森林砍伐導致雨林面積逐年縮小。同時,全球變暖也增加了發生野火的可能性和頻率。本文對1999~2019年、總共20年間的亞馬遜雨林火災數據進行探索分析與可視化。
本次研究將基于在kaggle下載的巴西國家太空研究所(INPE)公開的衛星圖像檢測數據,該數據中詳盡記錄了亞馬遜地區火災的情況。研究中,還將用到主成分分析,其目標是旨在找到數據中最重要的元素和結構,去除噪聲和冗余,降低原始復雜數據的維數,揭示隱藏在復雜數據背后的簡單結構[7]。混沌數據通常由3部分組成:噪聲、旋轉和冗余[7]。區分噪聲時,可以用信噪比或方差來衡量。方差是主要信號或主要成分。小的方差被認為是噪聲或次要成分;對于旋轉,旋轉基向量,使得具有大信噪比或方差的基向量是主分量方向。在判斷觀測變量之間是否存在冗余時,可以用協方差矩陣來度量和判斷[7]。
3數據分析
將樣本集PCA降維后進行數據分析。amazon_fires.csv是按州、月份和年份統計在從1999~2019年巴西亞馬遜地區發生的火災次數文件。數據共計2104條,各數據字段含義見表1。
3.1導入所需的庫并讀取數據
研究中可得統計量圖表見表2。由表2可以看到所有字段均為數字型,且不存在缺失值。對此,研究擬通過描述性統計函數describe()檢查數據中有無明顯異常值。年份、月份的最小最大值分別為(1999,2019),(1,12),且經緯度數據、火災發生次數均不存在明顯異常,說明降維后的數據較為“干凈”。
3.2火災發生時間的可視化分析
研究中將按年份進行分組,計算1999~2019年間每一年的火災發生總數,并通過折線圖的方法進行可視化。仿真結果如圖1所示。
由圖1可以看到,亞馬遜地區的火災爆發在2002年達到了一個高峰,從2002年以來,火災情況呈逐年減少態勢。從2010~2019年,每一年的火災爆發情況出現了小范圍波動。在此基礎上,本次研究又按月來統計了火災爆發的情況,具體結果如圖2所示。通過統計12月中每月的平均火災數進行分析。
由圖2中可以明顯看出,下半年平均受火災的影響比上半年高很多,平均著火點數目位列前三的月份分別是9月、8月和10月。
一般情況下,亞馬遜的旱季從7月持續到10月,在9月底達到頂峰。在一年的其他時間里,潮濕的天氣會將火災的風險降到最低。但在旱季,降雨量的減少可能對火災情況有較大影響。
3.3火災發生地點的可視化分析
巴西一級行政區劃包括26個州和1個聯邦區,亞馬遜雨林分布在其中的9個州,這里擬通過計算每個州的火災發生總數來分析哪個州受雨林火災影響最大。研究后得到的仿真結果如圖3所示。
由圖3中可以看到,帕拉州(PARA)和馬托格羅索州(MATOGROSSO)是受亞馬遜河大火影響最大的巴西州,其火災著火點總數是其他州加起來的至少兩倍。后續可通過經緯度數據進行地理繪圖,將火災發生地點標記出來。
3.4時間地點分析
為了更好地了解問題和當前狀況,現將特征進行組合,更加深入地開展數據研究。在此,即根據州和年份進行組合,分析多年來每個州的火災情況。由此得到的時間地點分析后的結果曲線如圖4所示。對應地,也給出了該次研究編寫的部分主要代碼參見如下。
fig,ax=plt.subplots(3,3,figsize=(14,10),sharex=True)
sns.set_style("whitegrid")
ax=ax.flat
i=0
forxinstate_name:
sns.lineplot(data=amazon_fires[amazon_fires['state']==x],x='year',
y='firespots',estimator='sum',ax=ax[i],color='teal',ci=None)
ax[i].set_title(x,size='large')
ax[i].set_xlabel("年份",size='large',fontproperties=font)
ax[i].set_xticks([2000,2005,2010,2015,2020])
ax[i].grid(False)
ax[i].set_xticklabels([2000,2005,2010,2015,2020],fontsize='large')
ifi==0ori==3ori==6:
ax[i].set_ylabel("火災爆發總次數",size='large',fontproperties=font)
else:
ax[i].set_ylabel("")
i+=1
plt.subplots_adjust(wspace=0.16,hspace=0.12)
plt.show()
由圖4可以看出,每個州在2002年左右都出現了火災高峰,因此導致整體上2002年火災數目非常高,2002年后大部分州的火災數目都逐漸減少。但是其他州也有例外,例如AMAZONAS州和RORAIMA州在2002年減少后又開始逐年增加,并且RORAIMA州在2019年達到了頂峰。
接下來再根據州和月份進行組合,分析不同月份下每個州的火災情況,圖5顯示了每個州在每個月爆發火災次數的平均值。
除羅賴馬州(RORAIMA)之外,所有州的火災都集中在下半年(7~10月),即亞馬遜雨林的旱季。綜上研究后,則結合年份、月份和州三個屬性進行可視化,分析火災爆發的次數,研究得到的熱力圖如圖6所示,該圖顯示了每年各州每月份的火災爆發量,顏色越深代表火災爆發次數越多。
由圖6可以看出,幾乎每個州在所有年份的火災高峰期都在7~10月,這印證了之前的結論。并且在防范火災方面,就需要在1~4月份格外注意RORAIMA州,因為只有該州的火災高峰期不在7~10月。從PARA、MATOGROSSO、RONDONIA、MARANHAO和TOCANTINS五個州的數據來觀察可知,隨著年份的推移,火災爆發的次數大大減少了。
4結束語
近年來,數據可視化技術的發展日趨成熟,從結果圖中研究者們能夠直接找出自己所需要的信息。亞馬遜雨林的面積約是印度的兩倍,在調節全球氣候和提供諸如水凈化和二氧化碳吸收等其他服務方面發揮著至關重要的作用。在本文中,分別從時間、空間的不同維度對亞馬遜火災的發生情況進行了可視化分析,研究發現7~10月是火災的高峰期。同時,本文繪制了豐富的可視化圖形,對于數據的探索性分析可以提供有益參考。
參考文獻
[1]馬佳琪,滕國文.基于Matplotlib的大數據可視化應用研究[J].電腦知識與技術,2019,15(17):18-19.
[2]馬佳琪,滕國文.基于大數據的幸福感可視化技術研究[J].電腦知識與技術,2020,16(7):263-264.
[3]王振宇,高東健.智慧城市大數據平臺[J].中國新通信,2018,20(19):30.
[4]little_angle.主元分析PCA原理以及應用[EB/OL].[2012-05-29].https://blog.csdn.net/j123kaishichufa/article/details/7614234.
[5]曲學超.基于高分辨距離像的雷達目標識別算法研究[D].成都:電子科技大學,2018.
[6]劉浩昌,林匯峯,張英,等.基于PCA法的汽車產業競爭力的綜合評價[J].科技經濟導刊,2020,28(31):224-225.
[7]黃瀟.基于聚類分析的專家分類方法研究[D].南京:東南大學,2017.