文/李 明
*本文系2012年度教育部人文社會科學研究青年基金項目“基于互聯網的傳播內容分析法:理論、方法與應用”(12YJC860020)的研究成果之一
據統計,到2013年,全世界儲存的信息如果記錄在光盤上,再把這些光盤疊加起來,高度等于從地球到月球的距離。美國互聯網數據中心指出,目前世界上90%以上的數據是近幾年才產生的。互聯網上的數據每年將增加50%,每兩年翻一番。因此有學者認為,人類進入了大數據時代。一般意義上,大數據是指無法在可容忍的時間內用傳統IT技術和軟硬件工具對其進行感知、獲取、管理、處理和服務的數據集合。[1]業界將大數據的特點歸納為4個“V”,即Volume(數據量大)、Variety(數據類型多樣)、Velocity(數據生成快速)和Value(數據價值大但密度低)。
2012年3月22日,奧巴馬宣布美國政府投資2億美元啟動“大數據研究和發展計劃”,將大數據研究上升為國家意志,大數據成為了全球熱門話題。其實大數據并非一個全新的事物,麥當勞、Zara等大公司早就通過數據跟蹤、挖掘分析為企業營銷提供服務。近年來隨著數據積累越來越豐富,上述技術和工具開始從商業領域向其他領域延伸,傳媒業也是其中之一。
在新聞報道中使用數據,以增強報道的說服力和趣味性,可謂由來已久。20世紀60年代興起的“新新聞學”主張拋棄傳統新聞寫作禁忌,利用小說寫作技巧進行新聞報道。許多記者、學者則不以為然,菲利普·邁耶針鋒相對地提出了“精確新聞”思想,他認為記者在報道新聞時,應該靈活運用調查、內容分析等社會科學研究方法收集和分析數據,以查證事實,最大限度地避免報道的主觀性和可能的錯誤。精確新聞理論在20世紀70年代風行于美國新聞界,后來又先后影響到世界各國新聞界。20世紀70~80年代,計算機技術的迅速發展和普及,精確新聞報道中的數據收集、處理和分析任務越來越多地由計算機輔助完成,精確新聞學由此提升為“計算機輔助報道”。特別是20世紀90年代以來互聯網的迅猛發展,極大地擴展了計算機輔助報道的能力和范圍。
基于大數據的“數據新聞”明顯不同于計算機輔助報道,可以說是后者在互聯網時代的升級版。數據新聞分析的對象是海量的大數據,而計算機輔助報道往往基于有限的數據集;在計算機輔助報道中,收集和分析數據只是加強新聞報道的一種輔助方式,而在數據新聞中,使用數據不是一種手段,整個新聞工作流程是圍繞數據的收集、挖掘和解釋展開的。傳媒業本身就是信息產業,在大數據時代擁有先天優勢。肯錫全球研究所2011年對美國17個行業擁有的數據量做了估算,離散式制造業擁有的數據量居首位,共有966PB(拍字節);美國政府列第二位,數據總量達848PB;傳媒業居第三位,共有715PB數據量。[2]近年來大數據的急劇膨脹主要來自于網絡營銷、社交媒體等基于互聯網的服務。大數據的飆升催生了數據新聞等新的報道模式,必將給新聞生產帶來巨大變革。
傳統的新聞生產流程一般是線性的,記者獲取新聞線索后,自行收集相關信息,確定報道方向并實施采訪,然后根據獲得的新聞素材提煉報道主題,撰寫稿件。新聞編輯在對稿件進行編輯加工后,提交出版部門發表,新聞生產就此完成。在這個過程中,新聞信息的流動是單向且不可逆的,新聞報道的真實性和精確性取決于記者的識見和編輯的把關。傳統新聞業條塊分割繁復,記者獲取信息的渠道單一,導致對反映全局性態勢和規律的報道表現乏力。基于大數據的數據新聞則可以彌補這一缺陷,經過挖掘和分析的大數據不僅可以展現宏觀新聞事實,而且可以更加客觀、準確地揭示新聞事件發生的原因,往往比記者觀察和采訪所得的結果更準確、更具說服力。2011年英國倫敦騷亂爆發后,英國政界一度將騷亂歸罪于Facebook(臉譜)、Twitter(推特)等社交媒體,英國《衛報》記者搜集了騷亂發生地點信息和倫敦各地區經濟指標信息,通過數據可視化方式,在地圖上標出騷亂發生的地點,用不同的色塊標示倫敦各區的經濟狀況,發現騷亂發生地點與當地的貧困程度有關。《衛報》記者還對Twitter信息進行內容分析,發現Twitter并非只是傳播謠言,相反在糾正謠言方面發揮了積極作用。《衛報》的數據新聞批駁了英國政界對社交媒體煽動騷亂的誤解,揭示了騷亂發生的深層次原因,顯示了數據新聞報道的優勢。
在傳統新聞生產的線性流程中,新聞信息是從媒體到受眾的單向流動,媒體處于新聞信息流動的上游,對新聞價值的判斷、對新聞事件的解讀往往依賴記者編輯的經驗,很難顧及受眾的個性化需求。數據新聞強調用戶體驗,追求新聞信息傳播的互動性。數據新聞要解讀數據分析的結果,以引導受眾理解新聞事實,但這種解讀不是唯一正確的答案,也無法包容數據的全部信息。數據新聞通過可視化方式將數據展現出來,鼓勵受眾從中尋找自己感興趣的信息,并對之進行個性化的解讀。基于互聯網的交互式圖表在這方面堪稱典范,英國《衛報》2011年10月制作了一幅關于政府各部門開支的交互式圖表,將政府各部門的開支按比例以氣泡的方式在圖上展示出來,點擊后可以通過縮放效果看到不同部門之間花費的對比。受眾可以選擇自己關注的政府部門進行比較,做出自己的判斷。
數據新聞正式將數據收集、數據分析、數據可視化等環節引入新聞生產流程,與之相適應的新聞編輯部的人員組成也會發生相應變化。在傳統新聞生產中,數據的使用并不是必須的,處理數據圖表是美工部門偶爾的工作,而在數據新聞生產中,收集和分析數據、數據的可視化是經常性的工作,而且居于核心地位。《衛報》、BBC(英國廣播公司)、《芝加哥論壇報》、ABC(澳大利亞廣播公司)等數據新聞的先行媒體都成立了專門的數據新聞團隊,這些團隊一般由記者、編輯、信息設計師、數據研發人員等組成。數據新聞的諸多成功范例都是專業團隊精誠合作的結果,光靠記者編輯的單打獨斗是很難勝任數據新聞的報道任務的。
面臨大數據時代的挑戰,新聞從業人員除了要熟練掌握文字、圖像等傳統技能外,還要具備收集數據、分析數據和解析數據的能力,才能順利進行數據新聞報道。
數據新聞的報道方式大致有以下兩種:①發現新聞線索、確定報道主題后,根據新聞主題尋找相關數據;②從已有的大數據中發現新聞線索,提出問題。不管使用哪種方式,獲取大數據是數據新聞報道的基礎。數據新聞報道所使用的數據主要來自兩個方面:①從政府、企業、媒體等機構的數據庫中直接或申請獲取的二手數據;②媒體自行抓取或調查獲得的一手數據。媒體本身就是大數據的重要來源。傳統媒體經過多年積累,已經擁有大量內容資源,但這些資源大多以報紙版面、錄音帶、錄像帶等方式保存,尚未進行數字化并建立相關數據庫。更重要的是,傳統媒體內容資源往往缺乏與受眾互動的記錄,這就不可避免地會限制數據報道的效力。傳統媒體應該積極建設多功能、綜合性的數字化平臺,增強與受眾的互動,并建立專門的讀者數據庫。2012年4月,浙江日報報業集團發布公告宣稱,斥資32億元收購邊鋒浩方網絡平臺,該平臺擁有500多款游戲,活躍用戶達2000多萬。無獨有偶,同年11月,美國赫斯特傳媒集團宣布對Spooky Cool Labs(怪酷研究室)社交游戲公司進行股權投資。兩家傳媒集團不約而同地選擇網絡游戲作為其內容產業延伸的新方向,看中的正是網絡游戲平臺對互動性數據的收集和積累,及其在數據新聞、數據庫營銷等方面的開發價值。
政府是大規模數據的原始采集者,而且這些數據大都關乎國計民生,是數據新聞報道的重要數據來源。在中國現行體制下,政府在獲取數據方面的能力甚至比美國政府更強,但在數據公開方面做得還不盡如人意。美國奧巴馬政府開設專門網站(Data.gov),向公眾提供聯邦政府數據。英國政府的政務大數據公開項目(Data.gov.uk)也相當成功,澳大利亞、新西蘭等國都相繼建立了政府數據網站。我國一些部門和機構雖然擁有大量數據,卻不多與社會公眾分享,導致數據新聞報道中政府數據獲取不足。為此,一方面,政府應通過機制改革打破數據割據與封鎖,重視信息公開;另一方面,新聞記者編輯應該了解檔案管理、公開的相關法律規定,加強與政府部門的溝通,在獲取數據的前提下,盡可能幫助政府提高決策和管理水平,力爭達到雙贏的效果。
除了從政府、媒體、企業獲取二手數據外,數據新聞從業人員還應具備從互聯網收集所需數據的能力。最常用的方法是通過搜索引擎,采用關鍵詞搜索的方式獲取相關數據,也可以運用現有的或開發特定的數據抓取工具,從網頁直接抓取所需要的數據。眾包(crowdsourcing)是最新出現的數據收集方法,這種方法以互聯網為平臺,將數據收集任務分割后,發動受眾參與完成,目前還處于試驗階段。
大數據是數據新聞報道的重要資源,但這并不意味著數據新聞就是大數據的堆積,必須對大數據進行準確的分析,才能從大數據中挖掘有價值的新聞信息。因此,數據新聞從業人員必須具備分析數據的能力。數據雖然是數據新聞的核心,但數據新聞從業人員應該對數據保持謹慎態度,切不可盲從數據。大數據來源多樣,質量也良莠不齊,數據新聞從業人員首先要對所獲取的數據質量進行評價,評估數據來源是否可靠、數據收集方法是否科學、數據是否具有時效性。然后對數據進行校核,去除冗雜的、干擾性的數據,清理數據中的誤差,并將數據轉換為統一可處理的格式。
對數據的前期處理完成后,下一步就是對數據進行挖掘分析,這就要求數據新聞從業人員具備數據庫設計和管理能力、統計分析與建模能力、網絡工程與分析能力,從大數據中發現具有新聞價值的信息。數據新聞通過數據分析呈現新聞事實,比傳統新聞報道更具可信度。盡管并非所有的數據新聞記者編輯都要具備上述能力,但數據新聞記者編輯都有必要理解數據分析的方法和意義。
數據新聞從業人員還要具備數據可視化能力。數據本身是不可見的,數據可視化可以將數據分析的結果以直觀可見的方式呈現出來,吸引受眾觀看,并引導讀者從中挖掘更深層的東西。數據可視化具有強大的認知優勢,因為人類大腦的一半是用于處理可視化信息的,一幅設計精妙的數據可視化圖表能夠穿透紛繁蕪雜的信息直達問題的核心,給受眾留下難以泯滅的印象。而且數據可視化圖表與圖像、視頻等視覺媒體相比,更少受主觀情緒的影響,更客觀可信。常見的數據可視化方式有表格、數據圖、地圖和網絡圖譜等,一般需要通過專門軟件制作實現,因此數據新聞從業人員還應掌握數據可視化軟件的操作和編程技術。
數據經過挖掘分析和可視化后,數據新聞報道還沒有完成,因為大數據挖掘分析的結果數據量往往比較大,數據新聞記者還應該對結果進行必要的解讀,以引導受眾理解新聞信息,并對數據分析結果進行個性化解讀。傳統新聞記者也常常扮演新聞信息“解讀者”的角色,只是他們解讀新聞信息所依據的是個人的認知和經驗。數據新聞記者對新聞信息的解讀同樣離不開自身的認識和經驗,但這些都不如數據來得客觀可信,因此數據新聞記者應該把對數據的解讀放在首要位置,但也不能拋開傳統的經驗和技術。數據記者解讀數據的能力應該體現在對社會環境和新聞事實的全面經驗的基礎上,從數據分析結果中提煉出有新聞價值的信息,并做出合乎邏輯的解析。
對數據的解讀實質上是對數據中變量之間關系的揭示。《大數據時代》的作者舍恩伯格認為,大數據時代對數據的解讀,應該尋找變量之間的相關關系,而不是因果關系。[3]這在市場營銷、工程技術等應用領域無可厚非,因為在這些領域只要發現兩個現象之間存在顯著的相關關系,就可以創造巨大的經濟效益,而不必弄清楚現象之間可能的因果關系。但在新聞傳播領域,對新聞信息的解析止步于相關性層面是不夠的。在現代社會,人們很容易知道“發生了什么”,可能更關心的是“為什么發生”的問題,新聞傳播的獨特性和社會使命規定了數據新聞不能放棄對因果關系的探求。大數據一般由彼此之間存在弱關系的數據點構成,正如麻省理工學院教授克勞福德所指出的,大數據的研究方法只能統計某件事情發生的頻率和相關性,但不能得出因果關系。將大數據策略和小數據研究相結合也許是更好的科學研究途徑。[4]因此,數據新聞解讀數據的方向應該是在對大數據相關性分析的基礎上,進一步探討可能的因果關系。
有人認為,中國大數據研究起步不久,數據新聞報道在近期內發展的可能性不大。這種觀點是非常短視的,數據新聞報道本身在全球尚處于探索階段,還未形成固定的模式,我國新聞界應該緊緊抓住這個歷史機遇,參與全球數據新聞的研究與實踐。況且,我國新聞業發展數據新聞的外部條件已漸趨成熟。大數據的收集和積累已初具規模,以互聯網為例,新浪微博用戶每天發的微博數量超過1億條,百度每天要處理幾十億次搜索請求,淘寶網每天發生數千萬筆交易,聯通用戶的上網記錄一天就達10TB(太字節)……這些大數據的積累為數據新聞報道提供了條件。國內有些新聞網站已經開設專門的圖表新聞欄目,比如新浪的“圖解新聞”、搜狐的“數字之道”、網易的“數讀”等,雖然略嫌簡單粗糙,但引起了網民的廣泛關注。有些平面媒體也開始了類似的探索,說明新聞業界已經開始嘗試數據新聞報道。
數據新聞報道要求新聞從業人員具備收集、分析和解讀大數據的能力,這些能力是傳統媒體記者編輯所缺乏的。英國《衛報》、BBC等探索數據新聞的先驅媒體的做法是在傳統媒體編輯部成立專門的數據部門,引進數據分析人才,讓他們跟記者編輯一起工作,通過團隊合作進行數據新聞報道。專業數據分析人員精于與數據打交道,大多對政治、社會、經濟問題了解不深,對新聞信息不夠敏感,而這方面恰恰是新聞記者編輯的長項。新聞記者編輯如果缺乏數據素養,不理解數據挖掘和分析的原理和方法,就無法從數據分析結果中洞悉有價值的新聞信息,并對之進行準確的解析。兩者不但要精誠合作,而且要加強溝通,增進對各自工作的了解,才能做出高質量的數據新聞。
數據新聞報道是一個綜合性的工作,一般需要團隊合作完成,能夠熟練掌握數據新聞報道各技術環節的“全才”可謂鳳毛麟角。在數據新聞報道中,要求新聞記者編輯掌握數據收集和分析技術,獨立完成報道,幾乎是不可能的,也是不現實的。但如果新聞記者編輯缺乏基本的數據素養,數據新聞報道也很難展開。因此,數據新聞記者編輯應該了解數據處理的原理和方法,并盡可能參與其中,而不必成為這方面的專家。
數據新聞是一種全新的報道方式,而傳統新聞業界普遍缺乏數據素養是不爭的事實,對新聞記者編輯進行適當的數據素養培訓是當務之急。新聞院系的學生是未來的新聞從業人員,也應該納入培訓體系中。數據新聞職業能力培訓可以分下列兩個層次進行:
2012年4月,奈特基金(Knight Foundation)和陶氏基金(Tow Foundation)聯合授予哥倫比亞新聞學院200萬美元研究經費,用于數據新聞的研究和教學工作。[5]喬治-華盛頓大學媒體和公共事務學院今年制定的下一個五年規劃中,數據可視化和其他多媒體技巧列入了教學課程。美國公共廣播公司“新聞一小時”的前任高管切爾斯稱:“有實力的大型媒體機構需要現在的大學畢業生具備處理大量數據的能力,而幾年前,這還不是新聞記者的分內工作。”[6]可見,新聞院系增設數據新聞類課程,有來自業界的壓力。從美國已經開設數據新聞類課程的新聞院系來看,師資大都來自于業界。哥倫比亞大學數字新聞學項目主管艾米麗·貝爾2010年加入哥倫比亞大學之前,是英國《衛報》網站數字內容主編。哥倫比亞大學新聞學院已經開設的數字新聞概論性課程,由來自《華爾街日報》互動團隊的蘇珊·麥克葛瑞格主講。對于數據新聞的實踐探索,業界已經走在前面,新聞院系從業界聘請師資是明智之舉。
國內有些新聞院系已經將數據新聞課程提上了日程,專業師資的緊缺應該是一個比較突出的問題。由于國內新聞業界數據新聞報道才剛剛起步,很難提供一定數量的合格師資。傳統新聞教學計劃中涉及數據新聞方面的課程較少,有些新聞院系甚至沒有開設統計學課程。盡管如此,國內新聞院系應該積極創造條件,可以將現有的相關課程培育轉化,從其他院系引進人才和課程,盡量將數據新聞類課程先開設起來,并在課程教學過程中進行整合提升優化。
面對數據新聞的挑戰,新聞記者編輯的數據素養亟待提高,新聞業界應重視對之進行有針對性的業余培訓。業余培訓的形式可分為自學和短期集訓兩種。新聞記者編輯都有自己的本職工作,采用自學的方式比較靈活。只是目前適合媒體記者編輯水平的數據新聞自學資料比較少,可以從最基本的方法、最易得的工具出發,循序漸進地自學相關知識和技術。數據的整理和審校方面,可以從Excel(電子表格)開始學習,很多人的電腦中有這個軟件,而且關于Excel的書籍資料很容易找到,入門比較容易。Google Charts(谷歌電子圖表)軟件簡單易學,初學者容易上手,可以用來創建簡單的線圖和餅圖。對地理數據的可視化,初學者可以從Google Fusion Tables(谷歌融合圖表)和Tableau Public(公共場景)兩個軟件入手,后者不但是免費的,而且有一些很好的網絡教程可供參考學習。在圖像處理方面,Photoshop(圖像處理軟件)是常用的工具,很多人可能已經掌握了基本的操作,可以根據需要自學其他功能。數據處理方面的工具很多,數據新聞記者編輯要善于發現和學習適合報道需要和自身水平的方法和工具。媒體主管部門和行業協會應該牽頭,聯合相關新聞院系和專業公司,開發有針對性的、多層次的數據新聞在線教程,供新聞從業人員免費自學。
鑒于媒體記者編輯的知識結構,有些知識和技術很難完全通過自學獲得,有必要通過短期集中培訓找到入門的路徑。媒體應該與新聞院系合作開設與數據新聞報道有關的、各個層次的短期集訓班,重點解決那些自學中一時無法解決的問題。短期集訓應該打破學科的藩籬,積極從其他學科聘請合格的師資,整合學界和業界的資源,打造數據新聞記者編輯進階提升的平臺。數據分析是數據新聞報道的重要環節,這就要求數據新聞記者編輯從理論層面了解統計學基本原理,數據挖掘分析的基本方法及其局限性,因此短期集訓應該首先開設此類基礎理論課程。其后可以開設各種應用課程。在數據收集方面,可以從Whois(域名查詢服務)、Blekko(搜索引擎)等網頁工具開始,教授簡單的數據抓取方法;在數據管理方面,可以開設MySQL、Access等數據庫應用課程,用以處理比較龐大的數據集;數據可視化軟件較多,可以選擇Datamarket(數據市場)、Many Eyes(千眼)等常用工具集中輔導,以取得舉一反三的效果。當短期集訓到達一定層次后,還可以根據需要開設一些涉及數據分析工具的算法和編程的高級課程。
數據新聞職業能力培訓的目的不是為了讓每個記者編輯都成為數據挖掘和分析的專家,但這類培訓確實是必不可少的。數據新聞記者編輯的數據素養越高,就越可能做出優秀的數據新聞報道。因此,新聞媒體為應對大數據時代新聞生產的變革,對新聞采編人員的數據新聞職業能力培訓刻不容緩。
注釋:
[1]李國杰, 程學旗.大數據研究:未來科技及經濟社會發展的重大戰略領域——大數據的研究現狀與科學思考[J].中國科學院院刊, 2012,(06)
[2]McKinseyGlobalInstitute.Big Data: The next frontier for innovation, competition and productivity [R].2011
[3]維克托·邁爾-舍恩伯格, 肯尼思·庫克耶.大數據時代[M].盛楊燕, 周濤譯.杭州: 浙江人民出版社, 2013
[4]Crawford K.Think Again: Big Data[EB/OL].http://www.foreignpolicy.com/articles/2013/05/09/think_again_big_data?page=0,0
[5]New research effort at Columbia University seeks best practices for digital reporting[EB/OL].http://www.knightfoundation.org/press-room/press-release/newresearch-effort-columbia-university-seeks-best/.
[6]美國高校將教授數據處理知識應對新聞業變革[EB/OL].http://news.sina.com.cn/m/2013-06-27/100627512064.shtml?bsh_bid=253093549