文/郭俊義 戴 玉 薛 葵 高 赫
“戴玉數據圈”沙龍:央視大數據新聞的開創和探索
文/郭俊義 戴 玉 薛 葵 高 赫
編者按:“戴玉數據圈”是資深數據新聞人戴玉創辦的數據新聞群,聚集了中國最頂尖的數據新聞媒體主編和團隊負責人,匯聚各大智庫、數據源公司的對接人,以及各大高校教授數據新聞的老師。中國的這些數據新聞人,正在開創什么樣的報道新形式?群內定期舉辦最前沿的沙龍,揭秘中國數據新聞新動向。
主持人:戴玉
《南風窗》原編輯、人民日報原中央廚房數據新聞項目負責人。率團隊獲得中國首屆數據新聞大賽二等獎,入圍2016英國信息之美設計大賽長名單。

戴 玉
嘉賓:郭俊義
央視新聞聯播編輯部副制片人、中國大數據新聞創始人。

郭俊義
各位數據圈的朋友,大家好!今天我主要想介紹幾個央視大數據報道的開創之作和經典案例,然后再聊聊我對大數據新聞未來的一些想法。
1. 《據說春運》系列
相信大家比較了解的是我們最早跟百度合作的《據說春運》系列。很多人都記得央視播放的百度春運遷徙圖,但并不知道這個新聞是怎么做出來的,今天可以給大家揭秘一下。
當時是2014年1月,臨近春節,百度開發了一個“百度春運遷徙圖”的產品。在3年前大家可能會覺得這個遷徙圖很酷炫,但它是一款可視化產品,還不是新聞作品。我特別強調一下,一個可視化產品是不具有新聞性的,也就不會吸引大家來看。
但究竟怎么從大數據里面挖掘出新聞?當時也是非常費腦筋。百度并沒有給我們提供新聞點,所以全靠我們自己挖掘。當時我從百度春運遷徙圖里面仔細看了很多城市的人員流入流出、熱門線路等,花了很長時間發現了一個新聞點。
大家知道,中國春運以往的特點在年前主要是從特大城市向中小城市遷徙,東南沿海向中西部城市遷徙,但這種常規規律就不足以構成一個新聞點。當時我發現,北京遷往成都的遷徙量非常大,但從成都遷往北京的流出量也非常大,連續幾天都是排行前三名。我們就從這個數據發現了一個春運新變化——出現了逆向遷徙,即從中西部城市向特大城市遷徙。當然,這僅僅是從百度給我們提供的手機定位大數據來分析的。
因為當時第一次做大數據新聞,我們從一家商業公司給我們提供的遷徙大數據得出了一個新聞點,心里并不踏實。作為國家媒體央視來說,這么輕率地發布是不是有權威性?所以我們當時還利用了傳統的調查方式,請我們四川記者站的記者采訪了成都鐵路局的工作人員。發現他們得到的數據也支撐了我們的新聞點,即從實際售票的情況來講,成都的遷出量確實非常大。
即便是基于成都鐵路局提供的售票數據,我們當時覺得還是不踏實。因為電視的話,需要有一個直觀的畫面來證實我們的新聞點。我們就請成都火車站的工作人員給我們拍了一些成都火車站候車大廳的現場實況。這個現場實況當時也非常符合我們的新聞點。因為在畫面中,比較明顯的是有很多老人要出行。當時還有6天就要除夕了,老人為什么要出行?他們不可能出去打工也不可能出去旅游,更多的可能是逆向遷徙到子女所在的城市過年。
所以我們第一期節目的內容就是通過交叉印證的方法確定了新聞點,支撐了我們的內容。接下來就是如何把它變成比較酷炫的可視化產品搬上屏幕。當時想到很多辦法,比如翻拍電腦、用筆記本電腦直接接入演播室大屏等,但是效果都不好。后來想了一個辦法——現在看來也是比較簡單的辦法,就是通過錄屏的方式。我們直接用錄屏軟件把百度遷徙圖flash格式的動態圖轉換為一個視頻格式,就可以直接在電視屏幕上呈現了。
我們第一期節目成功地推出后,影響是非常大的。因為很多觀眾也好,學界業界的朋友也好,從來沒看過這種形式,所以反響比較大,我們也比較受鼓舞。后來我們接連做了很多個以《據說》為名稱的系列報道,有據說春運、據說春節、據說兩會、據說世界杯、據說APEC等。
2.大數據人群畫像
再跟大家分享一個我自己覺得做得比較好的一期節目。這期節目就是我們跟360公司合作的一期“兩會”報道。當時比較重要的一個熱點就是網絡詐騙,我們與360公司的首席安全員裴博士商量怎么用360的安全大數據來做相關報道。
裴博士問我說,他們有很多安全大數據,是不是可以從中選取。但是,這些技術性很強的大數據并不能成為新聞,就是說我們媒體自己還要在選題上想辦法。后來我就想到一個角度,請裴博士用360安全大數據做一個人群畫像,給我描述一下什么樣的人上網最容易上當受騙。360公司就花了兩三天時間做了這個畫像。
畫像的結果是,生活在廣東的,16歲到25歲,即“90后”男孩,在上午10點到12點時,從事網絡兼職、網上購物和網絡游戲等幾項活動,就很容易被騙。畫像出來之后我們覺得很有意思,但它畢竟只是從大數據得來的人群特征,現實中是不是真的是這樣呢?
當時也是很湊巧,在做出人群畫像的前一天,中山大學的官方微博就發了一條微博,說近期本校有多位男生,因為上網找工作、找兼職等上當受騙。這個案例我們一看到,就發現與大數據挖掘出來的人群畫像非常吻合,所以說大數據真的很神奇。
3.上海外灘踩踏事件
我還想跟大家分享一個案例,上海外灘的踩踏事件。大家都知道,2014年12月31號,上海外灘發生了踩踏慘劇,當時踩踏死亡36人。第二天我聽說了這個慘劇之后想到,大數據有預警功能,我們能不能使用大數據來對相關的大型活動人群聚集做一個預警。
人流密度,我們現在叫熱力圖,其實它也就是來源于基于手機定位的LBS大數據。當時我找到騰訊地圖,把我的這個需求跟他們交流了一下,他們配合我做了一個踩踏事故當天、前一天和后一天上海外灘的人流變化熱力圖,還有一張人流變化趨勢圖。
這兩個圖都能夠非常明顯地看到人流隨時間而發生的變化。如果說我們上海外灘所在的黃浦區的相關部門能夠早做大數據預警的話,這個慘劇就有可能被避免。
挖掘這種人流聚集的防踩踏的大數據,我覺得很有現實意義,所以后來我就跟中國移動的相關領導聊了這么一個想法。中國移動后來請北京移動公司專門做了一個北京廟會的防踩踏的軟件,2015年春節應用在地壇廟會,作為防踩踏預警,效果很好。
4.數據微述評
接下來我想講一下我們最近的一個新的做法。新聞聯播在2016年底做了一個年度報道叫《點點改革年度賬》。這個系列報道做了八集。在這里我們有個新的探索,可以跟大家分享一下。
《點點改革年度賬》這個系列報道,前面一個“點”是盤點,后面一個“點”是點評。盤點就是用數據來盤點改革的措施、成效等;點評就是我們每一個數據都附上一句話點評。我們后來把它總結為“數據微述評”,這個形式在新聞報道中比較少見,算是有一點新的突破。
做了3年數據新聞后,我有些體會和想法。大數據新聞有門檻,需要大數據來源的同時,也需要數據工程師、數據分析師等專業性比較強的專業人員,需要一個團隊去操作。未來希望與相關大數據公司合作,組成大數據新聞團隊,挖掘出有新聞價值和實際價值的數據新聞產品。
主持人戴玉:
非常感謝郭老師給我們帶來的鮮活案例。央視將大數據分析、現場采訪調查、數據可視化和畫面語言結合到一起,做出來的產品綜合性很強,影響力也很廣。那么我想問一下,您覺得電視媒體做數據新聞跟其他形式、媒體相比有什么優勢和劣勢呢?
郭俊義:
我覺得電視媒體的優勢就是視覺效果吧,電視可以運用很豐富的多種動態可視化效果去呈現包括數據在內的內容,做出來的東西很好看,也很直觀。但劣勢就是深度報道的推理在電視節目中不容易展開,而且一期數據新聞的制作成本也比較高。

戴玉:
您剛才提到了成本的問題。有的圈友也很 好奇,央視和大數據公司合作生產數據新聞,是否需要向數據公司付費?
郭俊義:
我們的成本主要還是花在后期制作上面了,跟大數據公司的合作不涉及經費。新聞媒體做數據新聞的第一考量肯定是新聞價值,我們要新聞價值,大數據公司要傳播價值,雙方都有合作需求。當然,央視的傳播平臺大,也是一個吸引公司合作的重要因素。
戴玉:
也有大數據公司向我抱怨過,雖然跟媒體合作確實能挖掘出很多意料之外的結果,但對于大數據公司來說,調用數據和人力好不容易得出來的一些數據結論,未被媒體采用的話就浪費掉了,他們也會考慮數據分析成本和媒體傳播效果之間的性價比。
郭俊義:
這可以理解,但作為媒體來說,新聞價值是第一選擇,媒體的版面也是有限的呀!大數據新聞的投入是比較大,百度跟我們合作,最多時安排了20多人的團隊來配合,但選題的社會影響力也相當可觀。媒體報道之外的那些數據結論,大數據公司也可以放到自己的公眾號上去發布。當然,話說回來,這可能需要媒體和數據公司更好地溝通。如果記者提出的選題緯度需求更精準,就可以避免數據結論的浪費。
戴玉:
的確,好的數據記者需要能夠駕馭大數據為新聞所用,有時候解讀上的偏差也會造成“誤報”。剛才群里也有社科院的老師提出來,一些學者并不認可數據的科學意義,仍然認為只有傳統的社會田野調查才更真實一些,不知道您怎么看待大數據新聞的科學性?
郭俊義:
我曾跟一個法學教授探討過運用大數據研究法學,他們沒聽說過,后來真有運用大數據研究法學的相關論文出現。我不是社會學家,但我知道傳統的社會調查都是抽樣調查,而大數據是全樣本,我覺得全樣本更有價值。但我也不是統計學家,也不敢否認抽樣調查的價值,但是既然有了大數據及挖掘分析能力,為什么不能嘗試分析一下海量的大數據呢?我覺得對大數據來源的選擇,一是要權威,在各自領域領先,另外媒體可以利用傳統調查、交叉印證等手法規避數據來源的片面性。
戴玉:
數據科學家的數據挖掘,再加上記者的實地調查采訪,或許這種綜合研究和多面核實正是未來數據界和新聞界共同的趨勢吧。