巧婦難為無米之炊,在前面解讀了數據新聞的發展方向、選題策劃、可視化技術,甚至商業模式之后,回到本源問題上,數據缺失怎么辦?
目前數據來源主要有五個渠道:官方數據門戶、企業創建的數據平臺、社交媒體平臺采集的數據、時空和氣象數據,以及搜索引擎。
自2009年美國數據門戶網站data.gov上線以來,開放數據運動在全球范圍內迅速興起。英國,2010年創建數據開放網站data.gov.uk。2011年,巴西、印度尼西亞、墨西哥、挪威、菲律賓、南非、英國、美國等八個國家聯合簽署《開放數據聲明》,成立開放政府合作伙伴(OGP,Open Government Partnership)。截至2014年2月10日,全球已有63個國家加入開放政府合作伙伴。國際組織歐盟、經濟合作與發展組織(OECD)、聯合國(UN)、世界銀行(WB)也加入到了開放數據運動,建立了數據開放門戶網站。
另外,很多企業尤其是互聯網企業建立了自己的數據發布平臺,比如國外有Google public data、DataMarket、Guardian Data Store,國內有數據堂、阿里研究院、百度指數等。但是,目前國內的數據平臺仍然偏少,公開數據非常有限,數據缺失成為數據新聞發展的最大阻礙。
為此,本刊記者與沈陽、楊溟、張亞彬和任遠展開對話,請他們談一下對這一問題的見解。
就此問題,清華大學教授沈陽、新華網融媒體未來研究院院長楊溟、網易數讀編輯張亞彬,以及財新網數據可視化設計師任遠各抒己見。
沈陽:數據缺失是在做數據分析時非常常見的現象,大部分情況下,我們都不太可能拿到所有的數據。比如在做一個30年普法教育的選題時,需要知道互聯網出現之前,人們對普法教育的認識,那么收集這部分數據就非常困難,那個時代只有報紙的數據或者一些讀者來信上的數據。
數據缺失是一種常態,那么我們需要做的就是根據現有的數據,來比較精準地做分析和表達,不要把范圍無限地擴大,而是有多大范圍的數據就說多大范圍的事。
比如我們要分析北京地區不同地點的百姓消費水平,換個思路,我們或許就可以通過大眾點評網上各地店鋪的平均消費額來進行分析。但考慮到餐飲消費者流動性的問題,我們也可以考慮通過各地區房屋租賃的數據來分析,租房子的數據是本地居民的實際消費情況。當然,這個數據并不一定百分之百精準,所以我個人認為,在缺失數據的情況下,一定要標注準確數據來源、數據集,以及得到結論的限制條件等,這樣會更加嚴謹些。
另外,數據源單一也是比較普遍的問題,目前來說,社交媒體這塊,從微博抓取數據較為普遍,微信朋友圈和微信群的數據基本上是不可獲得的。社交網絡中有非常大一塊是社交的暗網絡,比如陌陌的數據肯定一般人都沒有。
在數據源單一的情況下,分析的某種網絡言論并不能真正地代表中國整體的情況,而且還涉及我一直強調的三個一致性問題:一是言行的一致性,分析到的結論都是一種言論,但真實情況是否如此,并不能保證,因為言行不一的行為非常多;二是公開網絡傳播和私密網絡傳播中的一致性;三是某個人或群體的前后言論的一致性。
所以在采集數據時,需要選擇性地選擇一些典型代表,如果數據源單一或某些數據是缺失的,可以找一些替代數據。比如現在有微博的數據了,微信的數據就可以用搜狗或“新媒體指數”等微信公眾號提供的微信數據,或者用一些貼吧的數據,這樣多種信息源的交叉有利于彌補一些缺陷。
未來應該會有更多的數據平臺,及更多的社交媒體數據挖掘、收集處理與分析的工具出現。
楊溟:現在我們看到的數據新聞的實踐中運用的數據,嚴格來說,都是小數據,沒有大數據。
我們在做大數據實踐時,發現最大的問題就是,真正基于社會公眾需要的數據是嚴重短缺的。現在在網絡或社交網絡中看到的數據只是很小的一部分,其實各個部門壟斷的這些信息,在有些國家可能是公共資源,是可以被作為大數據收集和分析的。但在國內,這部分信息很難獲得,所以在一些公共利益或公共信息資源的分析上存在問題。從這方面來說,數據源缺失,影響最大的倒不是數據新聞,而是數據的應用和數據的服務。
但反過來想,正因為政府部門對信息的壟斷造成數據缺失,這種缺失才給媒體創造了機會。比如在新加坡這樣政府服務非常到位和充分的社會,媒體服務的空間相對就會變小許多。
另外,目前通過搜索引擎獲取數據的方式還停留在對關鍵詞的搜索上,圖像和影像如人臉識別技術還有較大的發展空間,而對人的生理數據的挖掘和分析則是另一層意義上的“大數據”,是對人的了解的深入。
張亞彬:我們在搜集數據時,關于中國的數據我們是很希望能夠從國內渠道獲得,但是國內很多政府機構在壟斷信息資源以后沒有進行足夠的開放,所以在做一些國內專題時,我們還是會通過一些國外的網站或是從聯合國相關組織的一些報告中收集數據。
現在英國和美國是在數據開放領域做得最好的兩個國家,在英國的數據開放網站上,可以以公民的身份提交數據開放申請,只要要求是合理的,這個信息沒有涉及到國家安全等問題,網站承諾會在一定的時間之內開放數據。
我們曾經打算做一個中國城市自行車租賃狀況的選題,杭州、北京等城市在08年前后,上馬了很多這樣的公共事業,我們想看看這些自行車的利用率有多少。最終,我們只在國外一個NGO網站上看到了中國少數幾個城市的相關數據,而國內只有零星的媒體報道,比如杭州有多少輛,利用率是多少等極少的干巴巴的數字,但這不是一個系統的、全國范圍的數據。
另外,對于國家統計局等公布的一些數據,我們也保持懷疑態度,不會完全相信或完全不相信。舉一個簡單的例子,中國失業率的數據,眾所周知,國家統計局公布的是“登記失業率”,這個數字常年都維持在4%上下浮動,數字本身就是不科學不可信的。西方國家一般都是采用“調查失業率”,由調查咨詢公司或者政府機構通過調查得到數據,這樣的數據才更可信。所以,在做相關專題時,我們不可能用國家統計局上的這類數據。
考慮到開放程度和數據的可信程度,我們會采納自己認為過硬的數據來源去做選題,并且我們會將數據來源標注在相關選題的信息圖上。如果數據不過硬,我們寧可放棄選題。
任遠:有時候,數據缺失也屬于數據。我們需要尋找缺失數據的原因,在尋找過程中或許會發現新的有新聞價值的信息。比如我們之前做過一個關于諾貝爾獎的數據新聞,制作了1901—2013年所有諾貝爾獎及獲獎人的信息圖,收集數據時,我們發現二戰期間1940—1942的數據是沒有的。所以其實數據缺失可能是會有歷史意義的,它也是有價值的。■