?
“數說”新聞離不開數據素養
數據新聞起源于計算報道,現在已涵蓋計算機輔助報道,并演變成交互式、閱讀體驗等多樣的報道方式。Simon Rogers的觀點認為,數據新聞不一定是可視化,可以是交互式、簡單信息圖表、傳統文字等多樣形式。但采用什么樣的方式,數據說了算。由數據來判斷是什么哪樣的方式呈現。
Simon Rogers還認為,不管用什么方式呈現的數據新聞,它們有兩個共同點:一定有數據,一定有統計。不光有數據還要進行分析,這才是數據新聞。在此澄清一個概念,只呈現數據并不是數據新聞,這只能稱為數字新聞。

Data Literacy
還有一種觀點認為,數據新聞只提供相關性,不用考慮因果性。我不太認同這個觀點,因為數據新聞基于數據分析,但核心還是新聞,需要完整的新聞敘事。這個新聞很多時候并不只是單篇的新聞,它是一個完整的、基于數據邏輯分析的。因此講述新聞故事,不能只提供相關性。
此外,數據新聞記者也有責任幫助受眾,跟受眾一起尋找真相。若不以因果關系為目的,則更多的是自己在玩數據,自娛自樂。
在我們看來,數據新聞的重要性在于:在不缺失個體的同時,能更宏觀地把真實的世界呈現在人們面前。我們傳統選擇報道標準在于追求案例的典型性、重大性,并找尋新奇的切入點,但這無法用比較宏觀的角度來報道新聞事件。大量的普通人的正常生活被置于新聞之外,更多的是日常中的個案被媒體報道,甚至是被發酵、演繹、傳播。
作為普通公民,其實很難分清什么是真實世界的面貌,也許出于好奇心,會對觸動人心的新奇個案感興趣,但從社會參與角度來講,我們更要知道這些個案在真實世界中所處的位置。
我們需要了解這些真相,以便恰當判斷個案的影響與意義,并且在此基礎之上,才能更加準確地認知自我以及與社會的關系。如果說媒體只專注和致力于報道社會個案、截面,那我們如何能夠自信、坦蕩地說我們揭示了社會現象?
數據新聞并不一定比傳統訪談調研的采寫報道更科學、更有深度、更高明,把握不好甚至容易產生更大的偏誤。但數據新聞確實為我們提供了從更宏觀的角度來看世界的可能,避免了個案有可能帶來的偏見,數據新聞更有可能呈現真相,而不僅是事實。
數據新聞的邏輯與呈現信息的特點,在展現問題的全貌、趨勢與提供個性化閱讀方面有自己獨特的優勢。
數據新聞建立在對數據的分析之上,因為媒體的特殊性,一旦發生錯誤,影響非常廣泛。所以不論是記者或是讀者都應具備一定的理解數據、辨別數據的能力。以下推薦這本書給大家閱讀:《數據素養》,作者是密蘇里的副教授、IRE的學術顧問,中國傳媒大學的沈浩目前正在組織翻譯,應該很快就會和大家見面。
在正式講何謂數據素養之前,先給大家看一張圖片(圖1)。

圖1
這張圖片選用的是一個非洲婦女在勞動的照片,并搭配文字與數據。通過這張圖我們可以了解到:婦女做66%的工作、生產世界50%的食物,但所得非常少,只占10%的收入,僅僅擁有1%的資產。圖的下方加上了這么一句很有動員性的話:我們可以改變這個事實。如果你是女權主義者,或者你對性別平等非常關注,你會不會被這張照片深深震撼呢?
這張照片的數據來源是聯合國發展計劃,其數據來源讓人覺得可信,但是經過核查,數據并不真實。由此可見,這是為了自己的宣傳目的而在數據選用上并不嚴謹。
接下來給大家看另一個案例,標題為:在尼日利亞被綁架的女孩(圖2)。這種情況越來越嚴重。

圖2
其中分析的數據圖如下(圖3)。

圖3
藍色的線表示綁架的數量,橫軸是時間。可以看出,綁架情況越來越嚴重。但這其實和當地人的認知并不一致,因此讓人不禁對數據的可信度產生質疑。
對數據源查實后發現,這些數據并不是來自處理相關案件的政府部門,而是來自媒體報道的數據庫。這不是真實發生案件的數據,而是被媒體紀錄下來的綁架數量。
為了回應受眾的質疑,數據新聞網站538(FiveThirtyEight)對這組數據進行歸一化的處理,通過算法排除因媒體報道量的多寡對數據量的影響,我們可以看到數據圖表(圖4)顯示的綁架情況并不是越來越嚴重。雖然從統計學的方法上來處理數據,讓它能更代表真實情況,但因為數據源的選用并不合適,因此統計學的運用在此篇報道無法從根本上解決問題。

圖4
另外一個案例:共和黨民主黨誰更愛看色情網頁(圖5)?

圖5
藍色、紅色分別代表民主黨、共和黨,并在每個州標明了相應的顏色。這篇報道雖然排除了因人口多寡引起的瀏覽數不同的問題(所有瀏覽的總數/總人口數),但仍存在一個問題:IP并不是真實地址,IP無法反映州的真實情況。
還有很多在數據處理的過程中會遇到虛假相關的情況,如以下兩張圖片(圖6、圖7)。
隨著時間的變化,美國在科學領域的花費與上吊自殺的人數趨近吻合,但兩者間到底有關系嗎?

圖6

圖7
從圖7也可以看到,掉進池塘人的數量與尼古拉斯凱奇出現在電影的次數,大體兩者趨同。
從這兩張圖片可以得知,我們在分析數據時,若發現特別有意思、反常識的內容,我們更要抑住內心的激動,仔細去核查數據來源與計算。
通過上面的舉例,常見的數據陷阱有:1、相關不等于因果;2、數據源使用不當會帶來結果偏差,草率帶入無法代表A 的B;3、忽略數據背景,個體無法指代全體;4遺漏方法論,在報道中沒有注明是使用什么方法。這些都會是使報道被質疑詬病的因素。
當遇到異常數據,第一時間要想到數據異常是什么原因造成:可能是數據錄入、數據搜集、數據計算的錯誤;確定數據異常的原因后,需要判斷是否值得進一步深挖異常數值。此外,也要報道呈現規律性的趨勢,這對公眾來說很重要。
數據素養對于數據新聞記者很重要,我們要通過數據來有效揭示事實真相,在新聞倫理道德標之下來講故事,為了達成這些目標,數據素養是我們需要具備的知識與能力。
這些知識與能力,至少應該包括以下五點:1、對數據有批判性思維;2、對數據有敏感性;3、有數據搜集能力;4、有數據分析處理能力;5、利用數據進行決策。
對于公眾而言,數據新聞常常會用信息圖、交互性新聞來呈現,在第一印象上會讓讀者認為“數據比文字更生動、更加可信”,而無法分辨真偽。因此,作為普通的閱聽人,首先要看數據是否有注明數據來源,注明方法論。國外一些國家進行數據的處理時,若不是涉密或是商業合作數據,一般都會公布出來。
若沒有數據庫,我們可以簡單計算、抽檢,來看數據是否可信。我們也要有基本的判斷能力,數據揭示的現象是否與現實有差異,公布數據的機構之間是否有利益瓜葛。
最后,數據新聞的質量很大一部分取決于我們可以獲得什么數據,希望大家一同參與中國數據開放的進程,也希望媒體可以更多的分享你們在報道中使用的數據,供閱聽人做一些核查,并方便其他媒體朋友在已有的數據基礎上來做更多的挖掘與報道。
論劍Kendo Forum