劉丹妮 王穎 周丹
(浙江省氣象服務中心,浙江 杭州 310017)
“大數據”一詞是隨著信息時代發展而產生的,是當前當仁不讓的熱詞。隨著數據源的多樣化,數據量的積累,當前信息時代也被稱為“大數據時代”。無論在科學研究、應用還是互聯網領域,“大數據”都占據不可忽視的地位。韓學艷等利用大數據方法分析了探索治療心力衰竭常見證型的用藥規律[1];鄭楊利用大數據方法,實現了檔案數據從采集、整理、分析到展示4個層次的優化管理[2];賈應麗分析銷售數據,指導客戶分類,實現了差異化的客戶關系管理[3];施麗等將大數據方法應用于分析電網用戶需求,實現了主動服務,降低了服務成本,提高了服務效率[4];何泰伯將大數據分析應用于教學多媒體信息檢索系統,在速度、精度和檢索能力上較傳統檢索系統有明顯提高[5];呂梅認為大數據在電視新聞策劃中的應用可以增強節目的競爭力[6];高子初等在分析了各種復雜多車道道路上的車輛行駛行為的基礎上,提出了用大數據智能交通技術管理復雜多車道道路的新策略[7]。
大數據真正的價值不在于數量的龐大,而在于數據背后潛藏的關系和規律。海量的數據提高了信息的復雜程度[3],要尋找數據背后的關系和規律,需要通過“數據挖掘”來實現。“數據挖掘”,即從數據中挖掘出有價值的信息和知識的過程,它建立在對數據集全面而深刻認識的基礎上,是對數據內在和本質的高度抽象與概括,也是對數據從理性認識到感性認識的升華。數據背后的關系和規律的呈現,則稱為數據的可視化。
氣象部門本身積累了大量的觀測數據,是“大數據”的一種。氣象數據與許多其他類型數據(交通出行、用電/水量、服裝銷售、電器銷售數據等)相關聯,反映了氣象條件對行業的影響。但就氣象數據本身而言,其隱含的氣候背景和規律,是為公眾答疑解惑的“原材料”,也是判斷當前天氣是否異常的標準,因此歷史氣象數據挖掘對公眾氣象服務而言不可或缺。
此外,隨著智能手機的普及和天氣類APP的涌現,公眾獲取常規氣象信息的途徑大大增加,氣象部門發布的常規文字信息權威性和吸引力已大大削弱。網絡時代新媒體的傳播方式和公眾的閱讀習慣,要求氣象信息有“吸睛”、“有趣”,這就必然要對氣象數據進行深加工和熱點挖掘。可視化是數據背后規律的表達,成功的可視化能夠提高氣象信息的展現能力和美觀度。經歷“數據挖掘”和“可視化”過程的原創氣象數據新聞或預報、科普產品,在增強氣象信息可讀性的同時,可以避免其他媒體對于文字類氣象信息的錯誤解讀,從而維護氣象部門的權威發布品牌。中國天氣網原創的“數據會說話”、“數據帝扒天氣”等欄目就是氣象數據挖掘和可視化的典范。
天氣條件影響著生活的多個方面,單純的氣象數據分析并不一定能引起閱讀者的興趣,但從人們的認知、感知或身邊的事、物入手,則更容易引發人閱讀的欲望。
1)以認知、感知為切入點。人們看到熟悉的認知或類似的感知,比較容易產生共鳴,引發探究的欲望。例如,夏季高溫科普作品《扒一扒三伏天那些事兒》、《越來越熱是你的錯覺嗎?》,前者從人們熟知的“三伏天”出發,后者從人們對“天越來越熱”的感知入手,分析了夏季高溫的特征;冬季科普作品《“大寒”PK“小寒”》,對比兩個節氣的寒冷程度,讓冬季低溫特征更有趣;《清明時節雨紛紛的降雨魔咒》從“清明時節雨紛紛”詩句出發,分析了清明假期浙江各地的降水特點;《凍成狗?數據告訴你我國寒潮變少了》把感知與數據的沖突點相結合,對我國寒潮發生的頻次和降溫幅度進行了分析。
2)以身邊的事、物為切入點。每個人的生活都離不開“衣食住行”四個字,以公眾身邊的事或物為切入點也能夠引發關注。《氣溫降1℃,關跑步什么事兒?》從跑步運動入手,揭示了氣溫、大風和降水對于跑步的影響;《一天過兩季4月亂穿衣指數大放送》從4月“亂穿衣”入手,引出4月晝夜溫差大的特點;《暴雨和高溫是怎么影響我們的菜籃子的?》把天氣和菜價相結合,指出了高溫髙濕天氣對于蔬菜種植、運輸等的影響;《大數據教你應對高考“意外”天氣》以高考為著眼點,分析了全國多個城市在高考期間可能出現的不利天氣,并給出了防范措施。
數據挖掘本身是從數據的表象升華到數據背后規律的過程,通過挖掘得到的數據背后的規律必然要用數據呈現,但規律的呈現并不是歷史數據的簡單羅列,而需要發現其內涵并凝練成結論。以科普長圖《越來越熱是你的錯覺嗎?》為例,闡述結論在數據挖掘中的重要性。
《越來越熱是你的錯覺嗎?》利用1961—2016年浙江11地市氣溫記錄分析了高溫和暖夜的變化特征。圖1a展現的結論是1961年以來浙江的高溫日數呈增長趨勢,但逐年的高溫日數序列并不是逐年增長的而是波動的,因此高溫日逐年的羅列并不能表現高溫日的變化趨勢。為此加入了序列的趨勢線,高溫日數趨勢線呈明顯增長趨勢,有力地體現了“高溫日數越來越多”這一結論。除添加趨勢線方法外,還可以按照年代將54個時次的時間序列分成6段,縮減后的高溫序列也能夠較明確地表現高溫日數量的增加(圖1b)。

圖1a 1961—2016年浙江平均高溫日數

圖1b 1961—2016各年代平均高溫日數
圖2需體現的結論是“7、8月高溫最兇猛”。圖中以餅圖的形式表示各月高溫日(最高氣溫≥35 ℃)、酷熱日(最高氣溫≥40 ℃)出現的比例,不僅說明了4—9月曾出現高溫日、7—9月曾出現酷熱日,還通過扇形的面積大小明確展示了高溫日和酷熱日主要出現在7月、8月,對結論起到了充分支撐作用。

圖2 浙江平均高溫日月分布占比
數據證明了浙江的高溫日的增加趨勢和集中月份后,圖3將省內11地市高溫日數進行了對比,得出“麗水是浙江的吐魯番”這一結論。從條形圖上可以明確的看出,麗水平均高溫日數達45.8 d,高居榜首;最少的是舟山平均僅3.5 d。

圖3 浙江11地市高溫日排行(單位:d)
高溫代表了白天熱的程度,到了夜里是否還熱?圖4利用暖夜(最低氣溫≥28 ℃)日數序列進行說明。這里值得注意的是,暖夜并不是每年都出現,且與高溫日數一樣也存在序列過長,難以表現的問題,圖4采用5 a暖夜總日數展現暖夜變化趨勢,有效地避免了有些年份不出現暖夜的問題,同時也達到了縮減序列長度的目的,清晰地展現出“夜間越來越熱”這一結論。

圖4 1961—2016年浙江暖夜日數變化(單位:d)
由上面案例可知,每組數據規律的呈現都需落腳到結論,并且成為結論的有力支撐,這就涉及到數據規律的挖掘方法。氣象數據挖掘的常用方法有平均、極值、趨勢線、頻率統計等,有時還可根據對數據進行分類對比。
數據挖掘是“深入”的過程,那么可視化則是“淺出”的展現。可視化就是把數據、信息和知識轉化為可視的表示形式的過程[8]。在“全媒體”時代,以文字呈現的信息不具備圖片的視覺沖擊力,富有創意的視覺語言更能幫助人們快速獲得信息,因此“看圖說話”的形式能更好地傳播氣象信息。
隨著大數據技術的發展,可視化技術也不斷提高,目前數據可視化技術已實現借助計算機的強大處理能力、計算機圖形學算法和可視化算法,將大量的數據集轉化為靜態或者動態圖像,并具有一定的人機交互能力。互聯網上已有許多在線可視化平臺如Google Chart、Data Driven Documents[9]、“鏑數”及“百度?圖說”等,中國氣象局華風創新2015年也推出了氣象數據的可視化解決方案——“藍PI螞蟻”[10]。
在數據規律的展現方式上需要考慮多樣化和美觀,除常見的柱狀和折線表達方式外,餅圖、玉玦圖、瀑布圖、玫瑰圖、面積圖、象形圖、甘特圖等的搭配使用能給人耳目一新的感覺,更好地詮釋數據規律(如圖5)。
在可視化工具選擇上,Excel和Power point可以呈現大部分圖形的制作,例如柱狀圖、折線圖、餅圖、玫瑰圖、雷達圖、面積圖,玉玦圖等,但相對復雜的圖形制作則需要借助線上工具或編程語言(Matlab、R語言)來實現。當然,Photoshop也可以幫助實現圖形的美化。值得注意的是,氣象數據的可視化并不局限于圖表,還可以用視頻、動畫、H5等多多種形式進行展現,甚至可以根據用戶數據來實現“私人訂制”,例如“今日頭條”政務號的年度數據解讀。
本文以氣象大數據為出發點,簡述了在當前的“全媒體”時代氣象數據挖掘的關鍵點,以及數據可視化的重要性,主要結論如下:

圖5 氣象數據可視化圖形舉例(統計時段為1961—2016年)
1)對于公眾氣象服務而言,歷史氣象數據挖掘與可視化是適應當前信息獲取方式的必然選擇,也是氣象部門掌握信息主動權,制作原創新聞,打造品牌效應的重要手段。歷史氣象數據挖掘不僅有利于對當前天氣的判斷,也有利于氣象規律的總結和傳遞。
2)氣象數據挖掘要引起公眾的關注,需要找準切入點,從人們的認知、感知或身邊的事、物進行切入,能夠取得較好的效果。
3)氣象數據的可視化是數據規律表達的重要步驟,需要設計人員的思考和經驗。除卻簡單的柱狀和折線表達方式外,面積圖、象形圖、玫瑰圖、玉玦圖等的使用可以為規律的呈現增色、吸睛。
在大數據火爆的今天,有人把數據比作新的“石油”或“尚未發掘的金礦”,數據新聞是大數據時代的精品,也是許多大型網站保留的原創欄目,例如搜狐的“數字之道”、網易的“數讀”。將數據挖掘與可視化技術應用于氣象數據,可以大大增強氣象信息的趣味性,給氣象信息傳播帶來新機遇、開拓新思路。不同視角、不同形式呈現出創新性的氣象信息,其傳播將獲得“1+1>2”的效果。盤活歷史氣象數據,讓數據訴說自己的故事,能夠豐富公眾氣象服務產品,提升公眾服務水平,真正體現氣象數據之美。