鄔林松
(大連東軟信息學院信息與商務管理學院,遼寧 大連 116000)
根據目前的空氣污染調查顯示來看,[1]當前,我國大部分城市都出現了霧霾天氣,霧霾不僅危害人們身體健康,還造成一定的經濟損失以及生活的諸多負面影響,根據研究調查表明,導致問題的直接源頭就是人們的消費與生產模式。
世界衛生組織最新更新的城市空氣質量數據庫顯示,[2]在全世界103個國家和地區的3000多個監測空氣質量的城市中,80%以上的城市空氣顆粒物(PMIO)和細顆粒物(PM2.5)污染水平超過了世界衛生組織(世衛組織)建議的標準。顯然,世界衛生組織的監測數據向我們揭示了一個令人震驚的事實——全球城市空氣污染已經非常嚴重,環境問題是國際關系中的一個非傳統安全問題,由于空氣污染的擴散性和遠距離遷移性,它已成為國際合作的焦點。空氣污染不僅是經濟社會發展的產物,是人們消費和生產的產物,也是影響人類健康和經濟社會可持續發展的重要因素,空氣污染的跨界趨勢已經成為世界各國政府應該處理和人們密切關注的社會問題。
SAP Analytics Cloud(中文簡稱SAP分析云,縮寫SAC)是SAP提供的一種SaaS(軟件即服務)解決方案,用于各種企業業務場景下的數據分析、數據可視化、計劃和預測。
在這個大數據時代,大規模、高緯度、非結構化的數據層出不窮,用傳統的顯示技術很難將這類數據以完美的可視化形式展現出來。SAC就是為解決這一問題而開發的,它具有大屏幕、純色、高亮度、高分辨率等顯示優勢,結合實時數據渲染技術、數據可視化技術、實時圖形化可視化數據、場景和實時交互,讓用戶更容易理解演示的數據和空間知識。此外,SAC工具的數據可視化可以幫助人們根據數據的特點找到合適的可視化方法,直觀地呈現數據,而發現海量數據中包含的規律或信息,則有助于用戶通過認知數據做出新的發現,發現這些數據所反映的本質。
SAC是基于SAP HANA Cloud Platform(SCP)構建的,因此SAC是天然和SCP集成在一起的,具有所有SaaS的特性,可幫助企業用戶打通信息孤島,實現由數據支持的最佳業務決策。它是一款非常易用的數據分析產品,用戶通過簡單地點擊、拖拽等動作即可完成數據的連接、準備、分析和預測工作。SAC具有數據連接、數據準備、數據分析、數據預測、數字董事會等模塊,可以通過一個個模塊使得數據能夠更好地達到可視化的效果。
其中,Model(模型)和Story(故事)是SAC中的兩個最基本的概念,依據業務數據建立模型,在創建模型的過程中,可以對原始數據進行清洗和處理。然后基于模型建立故事,故事也是分析結果的展現形式,在故事中可以包括各種各樣的可視化圖表。
數據是開展可視化研究的基礎。在收集消費與生產相關的數據中,可以選擇國內、國際兩個層面的三個方面進行數據收集及分析處理。
1.氣候變化
隨著工業生產的發展,溫室氣體的排放,全球溫室效應變得越來越顯著,全球的氣候變化也客觀的體現出當代人們消費與生產的現狀。通過調查表明,歐非地區的氣候變化尤為明顯,我們通過對歐非氣候數據的收集、清洗,從其平均氣侯的差異來體現消費與生產的現狀。
2.能源消費
根據調查統計顯示,2014 年我國生活用能源消費中,商品能源消費總量為 23207 萬 tce,占生活能源消費總量的66%,其中電能消費量為 7727.29 萬 tce,煤炭為 14053.85tce,液化氣為 1426.13 萬 tce,生物質能中柴薪和秸稈為 9783.75萬 tce,可再生能源中沼氣的消費量為 1102.37 萬 tce,太陽能為 1114.02 萬 tce,[3]我國能源消費中商品能源的消費比重在不斷增加,高品位清潔能源如太陽能、天然氣、沼氣等也有較大幅度的增長。借此我們收集國內的能源消費相關數據,來體現能源消費的現狀。
3.空氣污染
我們以美國空氣污染為例,通過對美國空氣污染數據的收集,對排放的CO、NO2、O3、SO2等污染性氣體進行比較,來直觀地體現出美國空氣污染的嚴重性,及反應不可持續性的消費與生產帶來的危害。
在數據導入后,SAC提供了很多預制的功能,可對數據進行清洗和建模,這個環節也稱之為數據處理。數據處理分為三個步驟:數據清洗、數據校準、數據聚類。
剛收集的原始數據中存在大量不確定性和雜數據,不能直接進行數據分析,必須進行數據清洗。對于異常的數據,可以通過設定一些規則,使用有效性驗證的方法進行篩選。對于缺失的數據,可以采取刪除或填充的方法進行處理。此外,數據清洗還包括重復值的刪除以及數據類型的檢查等。
基于數據的定位服務是數據可視化研究的一個重要方面,然而由于定位覆蓋范圍較大、分布不均勻,使得其準確度較低,需要進行數據校準。利用多源數據融合的方法進行數據校準,從而提高定位數據的精確度。
收集的消費與生產數據屬于粗數據,不能直接聚類,需要進行特征提取。[4]傳統特征提取的方法有:基于基本統計方法的特征提取、基于模型的特征提取、基于快速傅里葉變換(fast Fourier transform,FFT)的特征提取。
數據可視化指的是基于不同的數據模型,終端用戶可以創建可視化的故事(Story), 并基于此業務場景進行數據的鉆取和分析,梳理可視故事化的特征有助于理解其實現方法的選擇。[5]可視故事化的特征包括:敘事主體平衡性、圖像敘事獨立性和情感聯結性。SAC提供了預制的預測模型,以及Smart Assist等功能,可以幫助用戶輕松地實現數據的自動分析和預測。
根據負責任的消費與生產主題,我們選擇了歐非氣候變化、中國能源消費量、美國空氣污染以及全球空氣質量指數的相關數據來進行可視化展示,借氣候變化、能源消費、空氣污染及空氣質量指數來體現當前消費與生產所帶來的負影響,應該得到社會的關注與重視。
在分析歐非氣候變化的數據中,通過國家城市的經緯坐標確立其地理分布,并用不同顏色來體現其平均氣侯的差異(見圖1)。運用SAC工具的這種表現形式,準確直觀地把歐非地區的氣候變化情況展現出來,美觀而又清晰。

圖1 歐非氣候變化地理分布圖
在進行歐非氣候變化可視化時,歐非不同國家每年的平均氣候也在變化,想要準確看出其趨勢及反應消費與生產的負影響主題,可通過SAC工具繪制熱圖的形式(見圖2),來展現其規律性。以橫坐標為時間年限,縱坐標為國家名稱,再通過不同顏色來表示平均氣候的高低,每個方塊的值是歐非不同國家當年的平均氣候值。比如通過顏色就可以看出,Nigeria每年平均氣候普遍高于其他國家,且每年氣候溫度呈現上升趨勢,Egypt、Turkey每年平均氣候次之。此外,整體而言,歐非各個國家氣候溫度都呈現上升趨勢,全球溫室效應變得越來越顯著,我們應該給予重視。

圖2 歐非不同國家每年的平均氣候熱圖
在分析中國能源消費量之前,我們以中國黑龍江省為例子分析了中國局部地區能源消費現狀,發現黑龍江省在消耗能源種類中,各種能源在省內村鎮生活用能源中占的比例,從圖表中可以看出能源消耗巨大(見圖3)。

圖3 黑龍江省各地區村鎮生活用不同種類能源人均消費量視圖
接下來是對全國的生活用能源消費量現狀的分析(見圖4),全國能源消費總量整體呈現的是西低東高的趨勢,東北等部分地區能源消費總量明顯高于全國其他各地區,對于清潔性能源的分析發現中部地區和南方部分地區清潔性能源消費總量要高于全國其他各地區,北方地區的清潔性能源消費總量和人均清潔性能源消費量均較低。總的來說,全國總的能源消耗量還是比較大的,對于清潔能源還沒有相對普及,能源消耗,環境污染比較嚴重,我們需要去重視。

圖4 全國各省村鎮商品能源消費量視圖
對于美國的空氣污染狀況,我們通過分析2009年美國的污染氣體排放量,對NO2、O3、SO2、CO進行對比分析,體現出污染氣體的排放量都比較高,在一些發達的城市更是如此。比如California、New York等地區的污染氣體排放量尤為的高,空氣污染嚴重(見圖5)。

圖5 美國各州氣體污染平均值比較圖
為了更好地展現出美國各城市的空氣污染狀況,能夠使得美國城市與城市,污染氣體與污染氣體之間有明顯的比較,通過SAC工具繪制了美國各城市的空氣質量指數趨勢圖(見圖4-6),根據不同城市不同污染氣體的空氣質量指數來可視化比較。在對污染氣體CO、NO2、SO2這三種氣體分析中,從圖中可以明顯看出CO氣體是美國大多城市的主要污染氣體,普遍高于其他兩種氣體的空氣質量指數。
數據分析是一個檢查、清理、轉換和建模數據可視化的過程,目的是發現有用的信息、告知結論和支持決策。數據分析有多個方面和方法,包括不同名稱下的不同技術,并用于不同的商業、科學和社會科學領域。在當今的商業世界,數據分析在使決策更加科學并幫助企業更有效地運營方面發揮著作用。本文基于SAC對消費與生產進行數據分析和可視化展示,從國內、國外兩個層面,氣候變化、能源消費、空氣污染三個方面,來有效進行數據的收集與分析,且在分析過程中加入數據挖掘模塊,使得信息搜集更加高效,提高信息處理動態分配的效率,從而突出現如今消費與生產的弊端,我們應該采取更加可持續的生產與消費模式,貫徹落實可持續發展之路。

圖6 美國各城市的空氣質量指數比較趨勢圖