文|許秋里 王丹寧
網易新媒體實驗室:
數據的準確和敘事的嚴謹是數據新聞的生命
文|許秋里 王丹寧


數據新聞是把雙刃劍,準確的數據選擇和嚴謹的邏輯敘事是關鍵。這是網易新媒體實驗室近期在嘗試“用數據解讀新聞”、進行數據可視化產品制作時尤為重視的兩點。
數據新聞是基于數據的獲取、挖掘、分析、敘事并進行可視化呈現的新聞報道方式,其核心是用數據來報道新聞。當提取的數據跟內容主題不吻合時,這個數據可視化的呈現是無效的;當選用的一套數據難以構成跟主題相符的完整敘事邏輯時,這個數據新聞報道是生硬的。要讓一個數據新聞產品能真正實現讓用戶簡明易懂地通過數據獲取新聞,引用數據的規范和數據表達的邏輯主題的統一,是重要的一環。
數據新聞可視化需要用大量數據來解讀新聞和傳達觀點,作為嚴肅的新聞報道,被引用的數據必須注明出處,且來源需要權威可靠。一般來說,政府部門是權威數據的主要來源,如果數據來源于社會調查機構,則需要考量它的影響力和樣本量等是否值得引用。
網易新媒體實驗室一開始在制作數據可視化專題《PX項目在中國》時,并沒有給每個數據都添加來源,只是突出展示了重要數據來佐證觀點。比如在展現“PX項目在中國的地理分布”時,對“無公開投產年份”“和未見相關批復”的城市沒有進行標注,事實上造成了某些信息的缺失和整體邏輯表達的不完整。同時,不同跨度的年份進行等比的年份繪制,屬于信息呈現不對稱。我們在進行第二版制作時,針對這些問題進行了修改。就效果而言,相對于直接鋪開重點數據信息,完整和嚴謹的信息更容易凸顯數據趨勢,且這樣的趨勢不是“編輯去告訴用戶的”而是通過嚴謹數據“用戶自行感受和判斷的”。
相反,非權威性的數據或者數據比例展示不當、數據單位缺失會帶來用戶對新聞觀點真實性的懷疑。

新聞強調時效性,新近且全面的數據在表現上更具說服力。同時,我們在選用數據時尤其注意數據的時效與敘事主題的統一。在數據可視化專題《失衡的中國網費與網速》中,我們引用了中國工信部網站、《中國互聯網絡發展狀況統計報告》的數據,選用了截止到2014年的全國各省網民人數、網民增速和網民普及率,信息量大且新,能更好地說明目前中國各省區互聯網人口規模、網民普及率和增速的現狀。
除了最近一年度的數據能更好地描繪最新情況外,我們也從報告中去掉了“移動電話使用人數分布”、“手機網民的分布”等與這一頁的敘事主題關系度很弱的數據信息,僅保留為“規模”、“普及率”、“增速”的各省分布相關的數據,與這一幅圖想傳達的“在沿海省市,網民人口比例超6成,增速加快”的主題相吻合。
在搜集數據的過程中,我們最先找到的是各類數量大、內容雜的初始數據,這時就要進行“數據清洗”,即從不同來源的數據中抽取我們需要的部分,進行統計分析,重新整合為一組新的多重維度的數據。這樣構成的多維度圖表,綜合了不同衡量標準下的數據,體現出新的關聯。相應的,每組數據都需要在圖中分別標明來源和時間。
數據可視化專題《PX項目在中國》中,網易新媒體實驗室用三個維度的數據共同展示PX產能較高的省份與年產能、投產時間的關系。左側將省份按照“GDP”從高到低排序,中間按照“PX年產能”從大到小排序,右側則是按“投產年份”從早到晚排序,中間餅圖是該省多個PX項目的產能分布。這三個維度的數據,其來源和呈現信息的角度都是不同的,所以網易新媒體實驗室在標注上特別注明GDP的截止年限,年產能的定義,年份上若“無公開投產時間”亦加以標注,確保多維度的數據呈現時也能保證每個數據有據可考、信息準確。
數據新聞要求編輯將新聞思維和數據的良好使用相結合,用數據為受眾詮釋新聞、敘述這組數據的新意義。就H5形態的數據新聞可視化專題而言,每一頁中數據所傳達的信息,必定要和每頁想要表達的觀點所吻合。整體上,各部分的數據邏輯推進也要和觀點邏輯推進保持相一致。

比如,在“PX世界產能過剩,中國供不應求”這個小標題下,我們挑選了多維度數據來支撐想表達的小標題邏輯,數據所展現的直觀趨勢和小觀點相吻合。用戶可以一目了然的看到,從2009年到2013年,PX的產量折線逐年遞增,PX的需求量折線遞增趨勢明顯,而中國的PX自給率卻是在逐年下降。即使沒看到標題,用戶根據數據也可輕易理解到“中國PX供不應求”這個層面。
在數據可視化專題《失衡的中國網費與網速》中,我們把每頁的小觀點抽離出來放在一起,也可以看到完整的邏輯演繹。
封面是“失衡的中國網費和網速”,內文的邏輯呈現包括以下六點:1.中國網速落后世界,僅上海一地略高于世界平均水平;2.網費遙遙領先他國,寬帶資費占人均GDP比重大;3.接受高網費低網速的中國網民規模10年間不斷擴大;4.尤其在沿海省市,網民人口比例已超6成,增速加快;5.與規模化遞增的網絡人口相反,通信基建增速放緩;6.總理注意到這個問題,工信部承諾大幅提網速降網費。
敘事邏輯從中國網速落后世界切入,談到網費卻領先他國。繼而提到中國龐大的網民人口、普及率和增速,說明網絡幾成生活必需品,網速和資費對每個中國人都息息相關。接著延伸至通信基建的行業的發展現狀,稱與規模化遞增的網絡人口不協調的是通信基建增速放緩。最后落在新聞李克強總理注意到網速、網費和通信基建相對落后的問題后,工信部承諾大幅提網速降網費的新聞。整個數據新聞產品的邏輯結構,也是一個新聞專題的報道邏輯。
為了保證信息量和邏輯順暢,數據可視化專題往往要在有限的空間內同時呈現多維度信息。網易新媒體實驗室在數據新聞可視化的嘗試中,把單一的時間、人數、速度、高度、面積等數據維度,進行重新組合和疊加,生成一個具有多維度信息的圖表。這就要求新聞編輯用不同的方式幫助用戶理清維度,清楚明了地劃分數據信息。除了用文字區分,顏色和圖例是我們常用的區分復雜多維邏輯關系的方式。

比如,在“PX項目糾紛發生時間與當地人均GDP、城市人口關系圖”這頁中,我們用圓圈的大小表示“PX項目糾紛地人口多少”,用圓圈的不同顏色對應圖例中不同的“PX項目糾紛處理結果”。同時增加傳統坐標軸,縱坐標用人均GDP數值來體現城市的經濟發展水平,橫坐標說明各次糾紛發生的時間。整張圖看下來,用戶先注意到色塊內的城市,然后即可順著坐標軸、顏色、圖例了解到糾紛時間、糾紛地發展水平、糾紛處理結果等信息。看起來直觀且有延伸性。
同樣,在專題《失衡的中國網費與網速》中,表現近年中國網民規模趨勢時也用到了類似的方法。(如圖)
不論是偏向內容呈現的信息可視化還是專注數據邏輯演繹的數據可視化,呈現給用戶的內容都要和整個新聞產品想要傳達的核心觀點相吻合。在封面這一留給用戶“第一印象”的重要地方,簡潔有力的體現出主題和暗喻想表達內容的可視化設計亦十分重要。
比如專題《中國十年撤僑路》在封面就體現出中國和歷年撤僑國家的聯系,專題《失衡的中國網費與網速》的封面用天平的形式表現出網費和網速不平衡的現狀,讓用戶對主題一目了然。
對網易新媒體實驗室來說,數據新聞產品的完成不是某個編輯的一己之功,它需要每個人都變身“內容產品經理”進行團隊作戰,從數據的獲取、數據的呈現、數據的敘事等方面進行內容包裝和產品制作。同時,一個數據新聞產品的完成,也非我們策劃、制作團隊一方的功勞,數據來源包括眾多媒體人和專業調查機構的辛勞和付出。對我們而言,最關鍵的是完成的數據新聞產品需保證數據的準確性和邏輯呈現的嚴謹性,引用客觀公正吻合主題的數據、結合數據嚴謹敘述新的事實,這是數據新聞的生命。
(作者單位:網易新媒體實驗室主管許秋里;網易新媒體實驗室編輯王丹寧)