畢秋靈
(中國政法大學 光明新聞傳播學院,北京 102249)
數據新聞中的開放數據應用
畢秋靈
(中國政法大學 光明新聞傳播學院,北京 102249)
隨著大數據技術在媒體行業的推進,數據新聞通過挖掘開放數據獲取新聞線索,對新聞事件作出準確深入的詮釋。開放數據具有公開性、可得性、完整性、即時性的特點,主要由政府機構、高校等科研機構以及非政府組織提供。在大數據環境下,數據可視化解讀、挖掘數據之間的關系、以眾包為生產方式以及申請信息公開開展輿論監督是利用開放數據的有效路徑。由于可供利用的開放數據有限,國內的數據新聞在表現形態和傳播方式上存在一定問題,應在數據收集、挖掘、傳播和再利用等環節進行優化。
開放數據;數據新聞;信息公開;可視化
隨著大數據技術及應用在各行業的不斷推進,媒體行業開始越來越多地被賦予“數據”的烙印,這種以數據為主體內容的通過數據挖掘、分析和顯示的新聞形態受到各界關注。[1](p7-13)數據新聞實質上是一種數據驅動型的新聞報道,報道內容和報道方式圍繞數據展開。相對于傳統新聞報道,數據新聞體現了數字化時代的開放和共享精神——利用互聯網上的開放數據,通過數據挖掘獲取新聞線索,對新聞事件作出準確深入的詮釋。開放數據在新的信息革命環境下發揮著至關重要的作用,它有利于消除信息不對稱導致的不均衡,有利于營造正向的輿論環境,讓公眾參與到政策議程中,增強政府的公信力。
開放數據是指政府或其他組織機構向社會公布的、任何人都能獲得并能用于任何商業或者個人目的的數據。開放數據具有公開性、可得性、完整性、即時性的特點。公開性是指開放數據可以被所有人獲取利用,而非只向部分機構和個人公開??傻眯允侵笖祿峁┱唛_放數據應用程序接口,使數據方便地被檢索、下載、索引和搜尋。完整性是指除了涉及到隱私、機密、安全和其他限制的特定數據之外,其他數據應該公開。即時性是指數據必須以最快的數據更新和發布數據,將過時的數據對外發布,會使數據的價值大打折扣。開放數據成為當前數據新聞的首要信息獲取路徑,它的主要提供者包括政府部門、高校等科研機構以及非政府組織機構。
(一)政府部門:最權威的數據提供者。
政府數據是政府為履行其法定職能而代表公眾收集、加工并保存的各種物理符號,其屬性是公共資源,特點是原始、客觀、精細化。[2](p111-118)作為社會各行業數據的主要擁有者,政府開放數據是一個國家開放數據的最主要來源。政府機構數據具有全面性和權威性,價值密度高,常用于氣候、政治、環境、健康、經濟等領域的報道。政府數據開放是保證公民知情權、參與權和監督權的前提。在互聯網技術的發展和公民意識覺醒的大背景下,許多國家和地區都開展了聲勢浩大的開放數據運動。目前有美國、英國、印度、巴西等六十多個發達國家和發展中國家制定了開放政府合作計劃,提出了本國政府數據開放的時間表和路線圖。媒體利用政府公開數據,對數據進行抓取、挖掘、統計分析和可視化,可以完成數據可視化報道。開放數據與媒體調查數據相結合,也可以完成調查性的數據新聞報道。
(二)高校等科研機構:客觀中立的數據提供者。
媒體的數據搜集、加工以及分析能力都難以與專業機構相比,與科研機構合作成為媒體向公眾提供深度信息加工服務的便捷途徑。作為以科學研究目的而搜集的數據集,其數據不僅具有學術研究價值,更因其科學性和客觀中立性可以成為數據新聞的優質信息來源。例如美國喬治亞大學政治學系有一個關于美國國會的數據庫,其中記載了美國建國至今所有國會議員的投票記錄和每個議員的意識形態指數;馬里蘭大學的全球恐怖主義數據庫記載了1970年至今所有由恐怖組織造成的傷亡情況。除高校外,其他智庫也提供各種調查報告和數據。例如皮尤研究中心會不間斷發布有關公民意見的調查報告;做城市相關研究的Urban Institute、宗教研究的Public Religion Research Institute等等,都有階段性的數據公布。[3]
2014年以來,美國父母反對給自己的孩子接種疫苗的趨勢愈演愈烈。在2014年華爾街日報的可視化數據新聞作品《20世紀與傳染性疾病的斗爭:疫苗的作用》以一系列圖表顯示了疫苗接種后麻疹和其他等疫苗可預防疾病幾乎滅絕。該項目使用的數據來自于比茲堡大學Tycho項目。該項目旨在推動公共健康數據可獲得并用于科研和政策制定。該項目的數據涵蓋了1888年以來美國所有每周發布的法定疾病報告數據。該項目的數據免費向所有感興趣的公眾開放。事實上,這一數據仍然來自政府機構,但是由于數據歷時上百年,涉及疾病超過50種,只有科研機構有能力將數據進行標準化。因此華爾街日報充分利用了這一項目的數據,所做的工作只是進行技術化的處理,運用可視化手段將數據呈現給普通公眾。
(三)非政府組織:公益性質的數據提供機構。
非政府組織是具有一定組織性的非官方機構,其運作獨立于政府部門,且不以營利為設立依據,通常各行業都有專門的非政府組織,它們通過行業調研、公益志愿活動、決策建議等方式參與社會公共事務。非政府組織機構在長期的公共事務參與過程中積累了大量的數據,具有跨時間、多維度、專業性、行業細分性、服務性等特點。作為社會公益事業組織,其數據通常是面向社會公眾開放的,可以為公眾免費使用。當前主要的非政府組織機構包括世界衛生組織、世界銀行、國際勞工組織、聯合國開發計劃署等聯合國專門機構,以及各國各行業的非政府組織。聯合國的各種數據庫免費向各國公眾開放,其中涵蓋犯罪、就業、能源、環境、財政、食物與農業、性別、健康、人類發展、旅游、難民等類別的34個數據庫的超過6千萬條數據記錄。這些超過一百個國家的行業數據,適合用來進行國際比較,同時也可以作為數據新聞中的背景報道資料。各國各行業組織的數據具有行業針對性,而且有的數據不為政府機構所掌握,因此常常也成為數據新聞報道的主要來源。
在大數據環境下,為了更好促進開放數據的廣泛利用,政府一般通過建立專門的數據門戶網站為公民提供數據服務。最早建立數據網站的美國,在2009年開通了www.data.gov數據網站,目前數據網站上公布的數據集達到19萬多個。其內容涵蓋美國聯邦政府全部行政部門在運營管理中采集、生產或轉換而來的、有潛在價值的、可供再次開發利用的數據集。以政府數據為首的開放數據為媒體發現新聞選題提供了新途徑。媒體通過挖掘海量數據之間的關系,賦予一般性事件新的價值。同時,媒體也可以結合自身搜集到的獨家信息,完成數據庫的開發,為公眾提供更為個性化的信息解讀。
(一)對數據做可視化解讀。
大數據時代,數據和信息正呈現出爆炸性的增長,各種結構化和非結構化的數據都在以前所未有的速度倍增,數據在排列組合方式以及存儲格式上都互不相同,公眾不具備提取和分析來自各種信息源的數據的能力,即使是專業人員要想要獲取、分析或理解這些數據,也需要花費大量的精力,因此開放數據的使用門檻非常高,媒體機構將這些開放數據進行格式轉換、信息整合,借助數據可視化手段,將枯燥且難以理解的開放數據以立體、直觀、生動的方式呈現給公眾。數據可視化能夠在單個新聞作品中融合多維度信息,實現信息的清晰傳達與有效溝通。在數據新聞中,數據既是新聞的主體,也是敘事語言。這種可視化敘事分為兩種方式:一是從宏觀的角度提供遠景,二是從個體的角度提供近景。“遠景”提供解讀數據的語境,從整體的視角解釋問題的嚴重性或重要性?!敖啊睂㈢R頭拉近,公眾可以搜索自己的城市、學校或郵編等個人信息,理解新聞事件對“我”意味著什么,為什么“我”要關注這個議題。[4]
媒體通過利用可視化傳播手段,之前各種龐大瑣碎的開放數據得以全新梳理,復雜的事件變得更為簡單易懂。利用交互圖表、數據地圖、時間線等可視化形式,可以以更加準確的形式向受眾梳理新聞進程,穿透復雜的新聞事件直抵問題的核心。
(二)挖掘數據之間的關系。
公眾通常只能通過單項指標或單個數據了解事物的局部層面,而借助多個指標或多個不同維度的數據,可以用歷史對比、相關分析等方法對事物進行更深層面的解讀。[5](p14-21)數據新聞利用多維度數據,其中既包括開放數據,也包括媒體通過各種渠道搜集的獨家數據,對這些數據進行分析、對比、印證,挖掘數據之間的關系,挖掘顯性數據中的隱性內容,揭示深層的現象和原因。美國的非營利組織陽光基金會為了調查在美國總統大選以及其他政府競選活動中花費巨額投資的公司從政府的獲益情況,從USAspending.gov等多個聯邦政府的公開數據中收集大量數據,最終發現在政治運動中最為活躍的公司共捐助了58億元用于各種政府競選和游說活動,它們在經貿活動中獲得了4.4萬億元的聯邦政府支持。該報道引發社會極大關注,有興趣的普通民眾還可以從媒體網站下載這些公司在政治活動中資助的情況以及從政府獲取或促成的經貿支持信息。可見開放數據盡管向所有公眾開放使用,但是憑借自身的數據挖掘能力和信息解讀能力,媒體依舊可以創作出優質的獨家報道。
(三)以“眾包”創新新聞生產方式。
傳統媒體時代新聞生產環節相對封閉,信息編碼和解碼的過程由媒體機構自己完成。利用開放數據完成數據新聞則強調以開源的理念制作,采用眾包的方式讓公眾參與。眾包的概念由美國記者杰夫·霍威于2006年首次提出,它是指一個公司或機構把過去由員工執行的工作任務,以自由自愿的形式外包給非特定的(而且通常是大型的)大眾網絡的做法。[6](p40-43)在新聞領域,這種由公眾參與新聞報道的“眾包”模式可以由民眾自主決定新聞報道選題,由公眾加入新聞制作的全部過程。這種模式改變了原來媒體機構的傳者中心地位,強調受眾在傳播過程中的重要作用。為了讓公眾參與到新聞生產過程中,媒體必須向公眾開放與新聞內容相關的所有數據,公眾通過下載原始數據,圍繞自己感興趣的內容對數據開展整理和分析,將分析結果提供給媒體機構。這種眾包方式體現了數據新聞的互動性,開放數據經由媒體傳播給普通公眾,公眾對數據進行個性化的解讀,再經媒體對這些個性化內容實現進一步的傳播,不斷擴大新聞內容的影響力。
(四)申請信息公開開展輿論監督。
世界各國都在積極開展開放數據運動,但是目前真正完全向公眾開放的數據從開放范圍和提供質量來看,遠遠不能滿足公眾需求。政府公開的數據除了數據門戶網站公開提供的數據外,還可以依法向政府申請信息公開。依申請公開則是公民、社會團體等依法向政府部門提出申請,要求其公開相應信息。國外已有十多個國家建立了信息公開法律制度。例如美國的《信息公開法》規定:美國聯邦政府的記錄和檔案除個別政府信息不能公開外,原則上向所有人開放;公民可以向任何一級政府部門申請查詢、索取資料復本;如果公民申請信息公開的要求遭拒絕,可以向司法部門提起訴訟,司法和行政部門必須限期處理有關的申請和訴訟。[7](p190-195)
在信息公開制度相對完善的國家,新聞記者個人和媒體機構成為政府信息公開的主要申請者,在法律的許可下,媒體機構可以通過這一手段獲得獨家的一手數據。2014年,華爾街日報記者向美國政府申請公開美國的醫療索賠數據經過近兩年的訴訟,法院最終判決,為保證民眾對稅收花費的知曉權,應當公開所有醫生的醫療保險賬單記錄。報社記者根據這920萬條數據,完成《醫療保險制度真相》等一系列文章,揭露了約6千億的老年人和殘疾人項目的運作情況。這些數據最終還通過數據庫的形式向公眾公開,其他媒體機構后期通過這些數據進一步發掘潛在的醫療欺詐和濫用行為。以做數據新聞調查監督政府聞名的網絡媒體機構ProPublica,也經常通過政府數據挖掘獨特的信息點,這些數據并非僅僅是政府主動發布的公開報告,而是通過申請政府信息公開,要來政府不愿意主動公開卻受法律約束不能不提供的數據??梢哉f,數據驅動的新聞報道出現,在一定程度上擴寬和豐富了媒體作為第四權力監督政府的方式。
(一)數據來源:主要依托政府部門數據。
我國政府公開數據主要來源于各政府部門定期發布的公告、報告以及以國家數據網等國家級政府門戶網站以及少數地方政府部門網站。由于從政府部門公開獲得的數據非常有限,無論從部門數量和數據的范圍都很少,數據格式不統一,數據滯后、更新速度慢,大部分數據遠遠達不到“開放”的標準。英國開放知識基金會設計出開放數據指數(index.okfn.org),考察各國在電子化程度、是否免費、機器識別、開放授權的等方面的數據開放情況。根據該協會的評選結果,2015年在參評的122個國家和地區中,中國開放數據指數排名93位。在十個考察項目中,中國有七項內容可以公開訪問,而這些通常無法下載且只能在網頁或瀏覽,沒有達到真正的開放數據的要求。從信息公開的執行情況來看,信息公開條例盡管已經頒布多年,但各種政府信息的公開受到了權力部門的行政干預,信息公開過程沒有法律保障,導致各種政府信息公開具有強烈的隨意性。數據顯示,2013年,全國被調查的省區市共收到各類信息公開申請二十六萬多份,其中近一半的相關申請未得到政府回應,其中行政訴訟僅占2%左右,勝訴的更寥寥無幾。[8](p42-44)在法律缺失的環境下,媒體很難通過申請信息公開獲得有價值的數據,即使相關部門同意公開信息,但各級審批程序也需要耗費大量時間,不能滿足新聞報道對時效性的要求,因而媒體鮮有利用信息公開條例申請數據公開完成數據新聞報道的成功嘗試。
(二)表現形態:靜態信息圖為主。
在政府數據逐步開放的背景下,數據新聞正在國內傳統媒體以及網絡媒體中迅速興起,新華社、財新傳媒、百度、新浪、網易等機構都開設了數據新聞的專欄。媒體利用信息圖等方式將開放數據進行可視化,在新聞可視化技術方面取得了有價值的創新。這種可視化圖表能將抽象的指標和復雜的數據通過直觀的方式呈現出來,將各種枯燥的數據變成用戶能夠理解的形式。然而這種可視化以靜態信息圖為主,交互圖表的使用率較低。具有交互功能的可視化新聞可以讓用戶將自己的個性化需求與新聞內容結合起來,從新聞產品中挖掘自己關注的、與自己切身利益相關的信息內容,滿足用戶主動探索未知的欲望。[9](p1-6)事實上,媒體機構不僅要做政府的傳聲筒,也要善于通過數據分析挖掘數據背后的故事。事實上,由于原始數據常常復雜凌亂,數據整理、挖掘和分析是數據新聞報道中耗時最長的階段。國內的媒體機構尤其是傳統媒體缺乏數據挖掘方面的人才,欠缺數據敏感度,對開放數據的利用通常只是停留在顯性數據的可視化呈現,很少有通過對數據的深度挖掘完成的深度報道。目前有很多信息技術軟件可以實現對網絡數據的抓取、可視化與發布,但是這并不意味著可以輕易了解數據背后的含義。
(三)傳播方式:單向傳播居多。
數據新聞報道的主要任務是搜集數據、清洗數據和利用數據講故事,但按照英國《衛報》數據新聞博客創始人西蒙·羅杰斯的觀點,發布數據、公開數據、提供數據讓公眾讓他人可重復利用也同樣是數據新聞報道者的重要工作,應積極與受眾共享數據、信息。目前,國外媒體已經在數據新聞報道中嘗試通過眾包方式開放數據,提供原始數據供受眾再開發、使用。但國內媒體對開放數據的利用通常以單向傳播為主,公眾的參與程度很低。國內幾乎沒有向公眾開放的媒體數據庫,媒體機構僅僅在突發事件中嘗試過建立開放數據平臺。例如百度在雅安地震推出尋人平臺,依托百度強大的搜索能力和百度貼吧的技術架構,該平臺不僅播報災區的最新情況,而且還可以為用戶提供尋人和保平安等溝通聯絡,同時平臺上的尋人求助等信息還可以同步推送給救援機構。隨著今后數據處理的工作量越加龐大,以眾包和開放為特點的數據新聞將成為未來數據新聞的常規形態和主流模式。
隨著新聞報道越來越多地緣于對與新聞事件相關的大數據的挖掘和分析,尤其是對各種可以公開獲取的數據的挖掘,以開放數據為信息源的數據新聞將成為媒體機構吸引用戶注意力和提升影響力的制勝之道。2015年10月,國務院印發《促進大數據發展行動綱要》,提出2018年底前建成國家政府數據統一開放平臺,2020年底前逐步實現信用、交通、醫療、衛生、就業、社保、地理、文化、教育等民生保障服務相關領域的政府數據集向社會開放。政府開放數據為促進產業發展和催生新業態提供了信息基礎,同時也為傳統媒體的轉型升級帶來機遇。開放數據要為公眾所理解、接受,很大程度上依賴于媒體對信息的加工、分析和傳播。信息越龐大、越復雜,公眾越倚重媒體對信息的整合解讀能力。以政府數據為主的開放數據平臺的搭建為媒體開發以數據新聞為主的新聞產品和深度信息加工服務提供了契機。
在利用開放數據過程中,應該在新聞報道的各個環節進行優化:
首先,在收集數據階段,充分利用公開信息,熟悉各行業的公開數據庫,并應該更多學會同政府信息公開機構打交道,改變過去長期依賴宣傳部門的習慣。第二,在數據挖掘階段,除了對統計數字的可視化,更應注重核實數據的準確性,利用多種途徑的數據做對比印證,挖掘數據背后的真相。適當的時候通過公開數據,讓更多的公眾參與數據的挖掘,吸引專業人士的加入,解決媒體機構人力和專業度不足的問題。第三,在傳播階段,在可視化上注重交互圖的使用,同時設計個性化的新聞應用程序,提高公眾的參與程度,加強傳播效果。第四,在數據再利用階段,應建立共享意識,開放加工后的數據和各種原始數據。開放數據的意義在于公眾可以對這些數據進行再開發和利用,同時,利用程序接口對數據同步更新,使數據長久發揮其價值。
[1]章戈浩.作為開放新聞的數據新聞——英國《衛報》的數據新聞實踐[J].新聞記者,2013,(06).
[2]沈亞平,許博雅.“大數據”時代政府數據開放制度建設路徑研究[J].四川大學學報(哲學社會科學版),2014,(05).
[3]周優游.美國媒體如何找數據[EB/OL].數據新聞網,http://djchina.org/2014/09/30/how-to-finddata/.
[4]邱悅.愛啃數據硬骨頭的ProPublica[EB/OL].數據新聞網,http://djchina.org/2015/01/22/data_newsroom_propublica/.
[5]彭蘭.“信息是美的”:大數據時代信息圖表的價值[J].新聞記者,2013,(06).
[6]吳樂裙.“眾包”模式推進美國公民新聞再發展[J].國際新聞界,2007,(08).
[7]邱一江,秦珊.美國行政部門信息公開制度的建設過程[J].廣東社會科學,2008,(11).
[8]朱葉,程灝.政府信息公開”觀察[J].浙江人大,2014,(06).
[9][美]斯科特·莫瑞.數據可視化實戰:使用D3設計交互式圖表[M].李松峰,譯.北京:人民郵電出版社,2013.
責任編輯 郁之行
G210
A
1003-8477(2016)07-0190-05
畢秋靈(1981—),女,中國政法大學光明新聞傳播學院副教授,博士。
中國政法大學校級人文社會科學研究青年項目“大數據時代傳統媒體內容產品生產研究”研究成果;“中國政法大學青年教師學術創新團隊支持計劃”階段性成果。