□ 黃曉勇
(作者系新華社攝影部高級編輯,中國人民大學新聞學院研究生業界導師)
今年6月8日,美國公益新聞組織ProPublica發布了使用數據挖掘手段生產的深度報道《超級富翁如何避稅》,其中稱:巴菲特、貝佐斯、馬斯克等億萬富豪的納稅稅率“遠低于普通中產,有些竟然一分錢沒交”,一時引起輿論喧嘩。
這則轟動新聞是近年來ProPublica利用數據挖掘技術取得的又一成果。ProPublica在創建后不久,就成立了以記者、程序員和數據分析員為核心的數據團隊,拿手武器便是從數據中挖掘新聞。借助先進的機器學習和挖掘技術,ProPublica已經發布了大量數據驅動的深度報道,并多次斬獲普利策新聞獎,成為數據新聞界的楷模。除ProPublica之外,衛報、紐約時報、路透社等西方主流媒體也著力于數據挖掘方向的深度報道,發表了一批知名作品。
全球興起的數據新聞熱潮近年來逐漸影響我國,頭部主流媒體和商業媒體幾乎都在此方向投入了大量資源,并獲得長足進步。我國數據新聞的發展成果主要集中于數據新聞的前臺——數據可視化,而數據新聞的后臺核心技術,即對深度報道更為關鍵、技術含量更高的數據挖掘,在發展上卻明顯滯后,成為深度報道的明顯“短板”。
數據挖掘(Data Mining)是廣義數據分析的重要組成部分,顧名思義是深入研究和分析數據,并在數據中發現隱含知識的過程。這個“數據”并不限于數字,它包括一切可感知、分析、計算的信息,包括數字、語篇、圖像、聲音、氣味、視頻等數據形式。
在強大“三算”(算力、算據、算法)技術的支撐下,數據挖掘發展到可以從海量的、模糊的非結構化數據中,通過人機協同的方式,嘗試發現潛在的必然聯系,簡言之就是大數據→信息→知識的過程。當前,“數據挖掘”一般都是“大數據挖掘”的代名詞。
深度報道一般是指運用解釋、分析、預測的方法,深入探索和闡明事件的內在規律性,揭示事件實質并探索其發展趨向,以反映重大新聞事件和社會問題。當今世界,數字化、網絡化、信息化所形成的數字網絡成為社會的底層操作系統,重大新聞事件的背后一般都離不開數據的分析和利用。
數據挖掘是深度報道的重要線索來源。近10年來,國內外數據挖掘技術發展迅猛,在用戶數據利用、證券交易輔助決策、商品關聯銷售(如著名的“啤酒與尿布”分析)、預測犯罪與傳染病、安全生產、災害預報、打擊走私、情緒分析、交通控制、生產控制等方面成果卓著,而這些領域恰恰又是深度報道的重要線索來源。
在常規方法無法獲取線索的情況下,如果記者在辦公室中請算法工程師協助,應用數據挖掘軟件,從紛繁蕪雜的數據中獲得“解題鑰匙”并完成深度報道。那么,這種生產方式將成為深度報道的最優選擇之一。如2019年獲全球數據新聞獎(Data Journalism Award,以下簡稱DJA)數據新聞應用獎的《移民犯罪的神話》,四所大學的研究者搜集了美國200多個都市40年間的犯罪數據并輸入數據庫,經過數據挖掘得出高移民率與高犯罪率沒有正相關的結論,有力地駁斥了“移民帶來犯罪”的言論。在這個例子中,“犯罪數據”“沒有正相關”“移民犯罪率不高”分別對應“數據”“信息”和“知識”。
在我國,從數據中發現線索也經常成為深度報道的關鍵,如20世紀90年代開始,我國不時發生礦難人數瞞報、地方統計數據作假等事件,曾多次被記者用深挖數據的方式“揭開蓋子”。但嚴格意義上說,這些記者的工作方式主要是“小數據分析”,并非真正意義的“大數據挖掘”。
數據挖掘為深度報道提供新的數據分析框架。數學建模是數據挖掘的重要前驅流程,也是經常被用到的分析工具。用數學建模的方式模擬新聞事件,已經不是一件新鮮事。2020年2月初,天津大學、南開大學的幾名博士生用數學模型還原了天津寶坻百貨大樓的疫情擴散事件,其中對傳染關系圖譜、染病人數、防疫措施的分析令人信服。得益于大數據技術的飛速發展,深度報道背后新聞事件的主體、原因、結果及邏輯關系等元素,目前很多已可用數學模型搭建框架。也就是說,將實際發生的新聞事件“代入模型”,可以經由數據挖掘給出事件發展的邏輯關系。當然,在信息不全的情況下,由數據挖掘給出的結果可能會有太多的選擇。此時,深度報道記者要做的是,通過采訪逐步豐富事件的關鍵信息,排除和事件無關的干擾項以縮小范圍,最終通過人機協同的方式選擇恰當的運算結果。
近年來,數據挖掘工作者在各行業實踐中逐漸總結了一套較為成熟的工作模式,主要有聚類、分類、異常、關聯、預測、演變、特異群組等。具體到新聞領域,又以聚類、分類、異常、預測為主,使用的算法主要是決策樹法、遺傳算法、模糊集法及神經網絡法等,主要目的是將異構型數據結構化,最終通過對數據的分析發現規律,回溯事件的邏輯關系,并預測事件發展的走向。
以獲2019年D J A開放數據獎的《OCCRP數據》(有組織犯罪和腐敗報告項目)為例,項目組將波黑某政府研究中心泄露的海量數據和一些公開文件以專業工具清洗、整合,利用數學模型挖掘出大量有價值的政商關系線索,最后以搜索平臺的形式向社會公布。還有,今年6月11日,紐約時報的報道《數據庫:美國近三分之一的新冠病毒死亡病例出現在療養院》獲得普利策新聞獎。該報數據團隊從衛生部門的數據庫中抓取大量療養院和新冠關系的數據集,并在本地建立自己的分析數據庫,最終提煉出如題所示的驚人結論,引起社會各界對特朗普政府的口誅筆伐。
大數據挖掘技術可為深度報道增加預測和數據驗證功能。數據挖掘的另一重要優勢就是提供事件發展的趨勢分析,可在經濟走勢、犯罪傾向、傳染病甚至突發事件預測方面大有作為,這為深度報道又增加了額外的競爭力。如通過大數據評估某行業安全生產水平,可為政府和企業提供有用的避險報告;如通過監測網民情緒傾向數據,分析社會矛盾是否超過閾值,可為社會各界提供警示信息;如通過分析污染傳感器數據,可為公眾健康提供更好的服務;如通過對地區既往犯罪率、破案率、經濟變遷等數據的分析,可估算該地未來一段時間的犯罪率,為政府部門提供決策參考。
ProPublica和得克薩斯論壇報2016年聯合發表的互動新聞《地獄與高水》,利用多種數據挖掘技術,從風險控制的角度出發,預測休斯頓地區面對沿海風暴的脆弱性,并對政府的一些短視行為提出批評。
數據挖掘還可為深度報道提供“定性假設”的“定量驗證”,令結論更為人信服。如2019年獲DJA數據新聞創新獎的德國《雷德梅瑟》是一件“假設驗證”的探索作品,目的是找出人們不在城里騎自行車的原因。項目團隊由數據專家、物理學家和調查記者組成,物理學家研發了100個汽車超車距離傳感器,由騎自行車的志愿者在兩個月的時間內攜帶試用。經過數據分析之后,最終得出結論——人們不騎自行車的原因在于“汽車距離騎行者過近,威脅騎行安全”。
因此,從看似尋常的數據中挖掘出事件的內在聯系,提升新聞價值,并以數據挖掘成果驗證假設并預測未來,是未來深度報道的重要發展方向。
經過廣泛的文獻研究和網絡、電話采訪,筆者嘗試總結了深度報道領域數據挖掘的一般流程(部分環節次序可以調整):
確定目標及定義問題:由團隊領導者確定選題,并同軟件工程師制定數據挖掘的目標,評估獲取數據資源的難度,以及數據是否可以轉化為意義等。
算法及模型擬定:軟件工程師、數據分析師根據數據來源、數據結構以及是否提供API接口等情況,根據現有資源確定使用哪種算法搜集數據;評估可能獲取的數據結構,決定搭建采取何種數學模型和采取何種算法實施挖掘。
數據獲取:自行搜集數據或從數據庫中、網頁上以確定的算法獲取數據。目前,網絡數據獲取的流行做法是通過Python語言抓取網頁數據或通過Open API獲取開放平臺數據。
數據清洗及結構化:評估獲取的數據,并進行數據清洗和結構化(去掉干擾項或重復項等)等預處理,建立自己的數據挖掘對象庫。這方面的通用工具主要有R語言、MySQL、Python和Open Refine等。
數據處理及假設驗證:建立數據處理模型之后,需要認真考察哪種模型最為適用,有時還需要準備其他數據集提前驗證模型的可靠性。隨后,程序員或數據分析師運行數據處理算法,嘗試找出具備新聞意義的線索。這一步是數據挖掘的關鍵步驟,主要目的就是將數據代入設定的算法框架,以驗證假設是否正確。目前,深度學習算法已經成為數據挖掘的重點發展方向,因為它可以在大量數據中優化學習,在理想情況下可以向使用者自動呈現線索。這方面的數據工具和編程語言主要有MySQL、R語言、Python、C++、Pandas、SPSS等。
意義轉化:數據分析員評估數據處理的結果,確定是否滿足預期,并將其轉化成具備新聞價值的意義。團隊領導人審看數據挖掘的成果,并同其他團隊成員回顧流程是否無懈可擊,最終確定數據挖掘是否成功。
可視化:將數據挖掘成果可視化,使受眾易讀易懂。有時將復雜的數據可視化,還可揭示之前未發現的新聞價值。
趨勢預測:以數據挖掘結果為支撐,向人們提供基于概率表示的預測能力。
對于以上流程,2018年獲DJA年度調查報道獎的數據新聞作品《快錢》稱得上是個典型的例子。加拿大《環球郵報》的數據團隊在確定證券犯罪的選題之后,擬定了數據抓取和數據挖掘的方式,將數千個獲取的數據文件經過清洗和結構化之后輸入自建的數據庫,并用已搭建的數據模型和算法對證券犯罪的規模、懲罰和再犯率等數據展開數據挖掘,最終得出加拿大監管部門對證券犯罪者處罰過輕的結論,驗證了最初的假設,并預示了證券犯罪的前景。在此作品中,犯罪分子的規避策略及受害者被不公平對待等情況也被一一揭示。
上述這些流程看似復雜,但一旦進入產業化操作模式,效率會明顯提高,挖掘成本也將大幅降低。
與新聞業界形成鮮明對照的是,我國新聞學界較為重視數據挖掘的應用和研究,比之英美等國都不遑多讓。眾多教授團隊充分借鑒數據挖掘在產業界的廣泛應用,將其研究路徑和新技術運用于新聞效果、媒體比較、社會關系、輿情分析等方面的研究,每年的研究成果可謂汗牛充棟。
由是觀之,數據挖掘在深度報道方面應用受限,并非業界很多人所說的技術落后的原因。筆者曾就此問題,帶領研究生探訪多個主流媒體,發現認識上的偏差和產業結合能力欠缺是主要原因。
認識上的偏差:首先,數據新聞可視化容易出成績,將各大部委、新聞發布會及新華社發布的通稿等信息,以動態及互動的新媒體形式展示出來,報道上較為安全,并較容易得到上級部門和受眾的認可;數據挖掘則需要數據分析方向的專業知識,不少媒體負責同志認為很難駕馭,心存畏難情緒。其次,很多主流媒體負責人對于數據挖掘并不熟悉,認識不到它在深度報道方面的巨大潛力。
產業結合能力欠缺:如果將視野進一步擴大到產業界,我國數據挖掘的應用卻是非常廣泛與高端,在用戶畫像、安全生產、情緒分析、交通疏堵、犯罪防范等領域的實踐水平均位居世界前列。這些領域都是深度報道的用武之地。
我國新聞信息界的數據挖掘產業模式尚未形成,各大媒體亦未建立常設項目組機制,不能隨時通過數據挖掘發現優秀深度報道選題,當然談不上為社會提供信息附加值并產生正向循環了。