王 勇 王 磊 孟光升
美國技術史學家魯斯·施瓦茨·柯望曾指出:“電子傳播的整個歷史,都遵循著在20世紀最初幾十年的廣播歷史中建立起來的模式”;“在無線電廣播出現的早期,許多人認為這將是人類傳播的最終形式,……但有些善于發明創造的人已經開始嘗試設計新的傳播介質”;“電子界的變化步伐一直是相當快的,而且沒有哪個單獨的人、公司、元器件或媒介能夠長時間地占據主導地位”[1]。特別是近年來,隨著計算機技術、互聯網技術的飛速發展,傳播技術更是呈現出加速度發展趨勢,新的傳播工具、傳播手段不斷涌現,并帶來了新聞生產方式的不斷變革。就在數據新聞方興未艾,被認為是“新聞發展趨勢”“新聞改革方向”,甚至是“新聞業的未來”時,機器人新聞又橫空出世了。“美聯社、紐約時報用機器人寫新聞的消息一度充斥媒體,最近騰訊財經也用機器人寫新聞了”[2];“近兩年來,‘機器人記者’以迅猛之勢進入了大眾視野”[3],“國內外新聞業界和學界都在熱議‘機器人新聞’”[4]。
機器人新聞是在數據新聞的基礎上發展起來的,是對數據新聞的超越,擁有一些數據新聞所不可比擬的優勢。但作為一種新的新聞報道方式和傳播手段,機器人新聞并不完美,它不但繼承了數據新聞的一些“基因缺陷”,而且還存在一些新技術所帶來的不足。
數據新聞與機器人新聞都是計算機時代、互聯網時代、大數據時代的產物,都是通過計算機技術、互聯網技術搜集、過濾、統計、分析數據信息,發現有價值的新聞事實,產制新聞。數據信息是數據新聞和機器人新聞共同的基礎和核心內容。
數據新聞(data journalism),“是指采用計算機技術、網絡技術抓取、挖掘、過濾、統計、分析數據和可視化呈現數據來報道具有新聞價值的事實的新聞報道形式”[5]。2009年,英國《衛報》率先嘗試進行數據新聞的生產實踐;2010年,全球第一屆國際數據新聞圓桌會議在荷蘭阿姆斯特丹召開;2011年,第一本數據新聞專業書籍《數據新聞手冊》在歐洲新聞學中心和開放知識基金會的倡導下編寫面世;2012年,首個國際數據新聞獎由谷歌與全球編輯網合作設立并進行了首次評獎頒獎。此后數據新聞風靡世界許多大大小小的新聞媒體,成為一種非常熱門的新聞報道方式和傳播手段。
數據新聞的關鍵和核心是“數據”,它是通過抓取、分析數據信息和可視化呈現數據來報道新聞的,所以數據新聞又被稱為“數據驅動的新聞”(data driven journalism)。“數據新聞的產生,是社會的進步、媒介環境的變化、技術的發展、受眾的需求、新聞界的追求等多種因素共同影響、共同作用的結果”[6],其中有兩個最關鍵的推動因素:
一是社會的發展進步帶來了大量可獲取的數據資源。進入21世紀后,民主理念進一步普及,加之“維基解密事件”等一些重要事件的推動和倒逼,使信息公開特別是涉及公共利益的信息的公開成為時代共識和社會強烈要求,信息公開以及信息收集、加工、存儲、傳播技術的發展帶來了大量可公開獲取的數據資源;而互聯網、手機等新媒體和博客、論壇、播客、微博、微信、推特、臉譜等社交媒體的不斷普及,成為人們學習、工作、娛樂、社交的重要工具和發表意見、交流感情、表達思想的重要平臺,它們記錄下了人們的思想、態度、行為方面的海量信息;還有物聯網時代遍布社會各個角落的傳感器記錄下的海量信息等,這些都使可挖掘、獲取、分析的數據資源前所未有的豐富。
二是科學技術的發展進步提高了挖掘、抓取和處理數據的技術。近年來,隨著科學技術的發展,特別是計算機技術、互聯網技術的發展,數據挖掘、抓取、過濾、統計、分析和可視化技術得到了長足進步,從而為新聞媒體獲取數據、處理數據、可視化呈現數據奠定了技術基礎。
總之,正是社會的進步帶來了大量可獲取的數據資源,科技的發展帶來了挖掘、抓取和處理數據的技術,從而促發了數據新聞的產生。
機器人新聞(robot journalism),又稱自動化新聞(automated journalism)、計算機生成內容(computer-generated content)等等,“是指由新聞機器人自動搜集、分析數據信息,發現有價值的新聞事實,并套用既有的新聞模板自動撰寫而成的新聞”[7]。機器人新聞與傳統新聞或者說一般新聞最大的區別是,直接從事機器人新聞生產的主角不是人類記者,而是新聞機器人,即“一套軟件或算法語言”,“它自動采集數據,然后撰寫成人類可讀的內容”[4]。
機器人新聞與數據新聞一樣,也是利用計算機技術、互聯網技術挖掘、抓取、過濾、統計、分析數據信息來報道具有新聞價值的事實,數據也是機器人新聞的基礎和核心內容。早在1968年,美國明尼阿波利斯《明星論壇報》的編輯兼出版商Otto Silha在一次公開演講中,曾設想了未來的編輯機,它能“用數值確定故事中每個單詞的價值,并通過數學公式確定故事中最重要的是什么,然后按照指示,重新生成故事”[8]。這是對新聞機器人的較早構想,這一構想的重要意義在于它較早地認識到“數值”轉變在自動化寫作中的重要性,在于它向人們提示了數據是機器人新聞的基礎和核心。“今天,正是來自商業報道的財報、體育報道的賽事、醫療的臨床數據、天氣預報的氣象指標、教育的升學和就業指數、交通路況的行車流量等不同領域的信息,經過數據化處理后成為驅動機器自動撰寫新聞報道的不竭‘原油’”;“數據是機器新聞生產的‘原油’”[8]。如美國Autamated Insights公司開發的新聞機器人Wordsmith,將它與相關的數據平臺連接,就能自動即時獲取數據,迅速完成數據處理和信息發布。“機器之所以能運用數據快速進行自動化新聞生產,不僅取決于Wordsmith之類的自動寫作軟件已具備對數據進行快速處理的能力,更重要的是數據本身具有規模化、操作透明化、獲取開放性等‘媒介性’”[8];“適合通過機器或算法進行的新聞寫作,一般是以各種數據、圖表的引用和分析為基礎的硬新聞,新聞的主體來源于對數據的引用、解釋和分析,具有明顯的‘數據處理’色彩”[9];“機器人新聞的產生基于日益龐大的數據庫,是數據新聞的延伸和應用。”[10]
機器人新聞雖然與數據新聞一樣通過利用計算機、互聯網技術抓取、處理數據來報道新聞,但機器人新聞是在數據新聞的基礎上的進一步發展。數據新聞是人類記者確立新聞選題后,設計數據挖掘、抓取、過濾、統計、分析程序,并操作程序來挖掘、抓取、過濾、統計、分析相關數據,發現新聞故事,并由人類記者撰寫新聞,用可視化技術呈現新聞,人在其中起關鍵作用,計算機程序只起輔助作用,所以數據新聞也被人稱之為“計算機輔助報道”[11];而機器人新聞是人類根據某類基于數據化事實的新聞,設計一套“搜集數據——分析數據——套用模板——撰寫稿件”程序,并讓其自動與相關數據平臺相連,自動運行,一旦有數據生成,它就自動抓取、分析數據,并按既有模板撰寫稿件。這其中除了設計程序以及有些在最后設有人工審核把關環節外,全部都是由計算機程序自動完成。“機器人新聞最大的特征是新聞生產的全自動化。在具體新聞寫作過程中,人工參與并不是新聞產品產出的關鍵和決定性環節,新聞生產的主體實現了由人向機器的轉變。”[10]因此,機器人新聞是在數據新聞的基礎上的進一步發展,是在數據新聞的基礎上引入了自然語言生成技術,是“數據新聞+自然語言生成技術”,使人工撰寫新聞稿件變成機器(程序)自動生成新聞稿件,實現了新聞的全自動化生產,它是技術不斷進步特別是人工智能技術發展的產物。
美國媒介理論家保羅·萊文森曾提出過“補救性媒介”理論。他認為任何媒介都是不完美的,都需要不斷地進行改進;后續媒介通常在某些方面對前面的媒介進行了改進,可看作是對前續媒介的“補救”。“整個的媒介演化進程都可以看作是補救措施”,“因特網可以看作是補救性媒介的補救性媒介,因為它是對報紙、書籍、電臺和電話等等媒介的改進”[12]。機器人新聞作為在數據新聞基礎上發展起來的一種后續新聞報道方式和傳播手段,在某種意義上也可以說,它是對本身存在不足的數據新聞的一種“補救”,具體表現在機器人新聞對數據新聞的以下超越:
數據新聞是人類記者確定一個新聞選題后,根據報道構思設計編制程序搜集數據,過濾、統計、分析數據,發現數據中的新聞故事,撰寫新聞并利用可視化技術呈現數據。數據新聞的生產,雖然利用了計算機技術、互聯網技術,但從確定選題,進行報道構思,到設計編制搜集、過濾、統計、分析數據的程序,再到操作程序搜集、過濾、統計、分析數據,發現新聞故事,最后撰寫新聞,并利用或設計編制程序可視化呈現數據,都離不開人的親力親為,都需要耗費人的大量腦力、體力,而且這中間人是起主導作用和主要作用的,計算機只起到一個輔助工具的作用,因此最多只是一種半自動化生產。
而機器人新聞不同,它一般是針對某一類基于數據生成或變動的新聞,如地震報道、體育報道、財經報道等,設計一套程序,一旦具有新聞價值的數據發生或變動,這套程序就自動搜集、分析數據,并撰寫新聞稿件。整個新聞稿件的產制過程都是由電腦程序也就是寫稿機器人自動完成的,除了最初的設計、編制、安裝程序和一些媒體安排的最后審稿把關環節外,沒有也不需要人的參與。例如美國時間2014年3月17日早上6時25分,洛杉磯發生4.1級地震。《洛杉磯時報》的地震新聞機器人Quakebot,在搜集到美國地質勘探局電腦發出的地震信息后,自動將數據輸入新聞模板寫好新聞并提交采編系統,被震醒的記者大致審閱后,按下發布命令,這則地震報道就在地震發生后的3分鐘內發布了。整個過程除了最后的審核發布環節外,都是由新聞機器人自動完成的。實際上目前許多媒體對新聞機器人撰寫的新聞甚至不加審核,從數據采集到稿件撰寫再到發布全部由新聞機器人自動完成。如《今日頭條》就是將新聞機器人“小明”撰寫的新聞稿件不經編輯審核直接發布的。總之,機器人新聞實現了新聞生產的全自動化,這是人類歷史上第一次實現全自動化新聞內容的生產。
因此,數據新聞是人類借助電腦程序的協助來報道新聞,機器人新聞則是人類完全委托電腦程序(新聞機器人)來報道新聞。從數據新聞到機器人新聞,一個非常大的進步就是實現了新聞生產從半自動化到全自動化的跨越。
作為一種半自動化的新聞生產方式,數據新聞的生產效率比較低。從已有的數據新聞生產實踐來看,每制作一篇新聞,一般首先需要編輯、記者確定新聞選題;然后根據報道構思設計編制搜集、過濾、統計、分析數據的程序;再接著操作程序搜集、過濾、統計、分析數據,發現新聞故事;最后由人工來撰寫新聞稿件,并利用已有的可視化程序或設計編制可視化程序來呈現數據。一般每生產一篇數據新聞,就需要設計編制一次數據搜集、處理程序,稿件還需要人工撰寫并要進行數據的可視化呈現,導致新聞生產難度大,耗時長,需要花費比較多的人力,效率比較低。目前,在數據新聞生產方面走在前面的媒體大都是一天刊發一篇數據新聞,甚至數天刊發一篇。據統計,2012年全球首屆“數據新聞獎”收到的286件參賽作品,平均每個作品由3.96個人完成,參與制作人數最多的作品的人數達30人之多,作品耗時最長的達7年,最短的也用了8個小時,平均耗時約達160天。[13]數據新聞的生產難度之大、效率之低由此可見一斑。
而機器人新聞,它是一種完全自動化的新聞報道方式和傳播手段,而且是一種批量化生產,它針對某一類主要基于數據生成或變動的新聞設計編制一套“搜集數據——分析數據——套用模板——撰寫稿件”的程序后,就交由這套程序全天候24小時自動搜集、分析數據,撰寫新聞。它充分發揮了電腦快速、高效的特點,只要一產生有新聞價值的數據,它就以“一觸即發式的新聞生產速度”源源不斷地生產新聞,生產效率非常高。如敘述科學公司利用新聞機器人完成一篇體育報道只需要30秒,生成一個新聞標題只需要2秒;Automated Insights公司的新聞機器人Wordsmifh每秒能生產2000篇文章,每周可以寫出上百萬篇文章;在美聯社,相同的時間內,人類記者只能產出300條新聞,而機器人記者能產出4400條新聞,差不多是人類記者的15倍;2013年,美聯社使用Automated Insights公司的新聞機器人Wordsmifh自動撰寫了3億條新聞,是世界上其他所有新聞媒體所生產的新聞數量的總和,2014年的數量則達到驚人的10億條。[4]機器人新聞生產速度之快、效率之高令人嘆為觀止。
因此,雖然數據新聞與機器人新聞都是基于數據的新聞報道方式和傳播手段,但從數據新聞發展到機器人新聞,在生產效率方面實現了非常大的飛躍。這是人類在新聞行業不斷改進生產技術、提高生產效率、追求“更快”“更多”的結果。
作為在數據新聞基礎上發展起來的機器人新聞,雖然它成功引入了人工智能技術,實現了全自動化生產,在生產效率方面實現了非常大的飛躍,但正如保羅·萊文森指出的那樣,“技術有其固有的問題,因為創造技術的人是不完美的”[12](88);“所有的技術進步——的確,是所有的進步——并不是沒有缺陷。”[14]機器人新聞作為一種利用最新傳播技術的新聞報道方式和傳播手段,也存在許多不足,包括“數據”作為核心內容所帶來的局限和人工智能技術本身的不足所帶來的缺陷。
機器人新聞與數據新聞一樣,都是利用計算機技術、網絡技術搜集和處理數據來報道新聞,只不過數據新聞最終需要人工撰寫,而機器人新聞則完全由計算機程序自動完成,但數據是數據新聞和機器人新聞共同的基礎和核心內容。“沒有大數據采集和挖掘、分析系統的支撐,機器自動新聞寫作就成了無源之水、無本之木。”[9]因此,機器人新聞與數據新聞一樣,既擁有數據作為內容所帶來的優勢,也存在數據作為內容所帶來的局限,即受“數據”所限,最突出的就是新聞報道選題有限。主要原因有以下方面:
一是數據化的新聞題材有限。數據化的新聞題材是指用數據來表達的新聞事實,或者說量化的新聞事實,但“許多新聞題材沒有數據化或無法數據化或沒有必要數據化”[15]。目前社會上的絕大多數新聞事實是沒有數據化的,而且許多新聞事實是無法數據化的;此外還有許多新聞事實也沒有必要數據化,比如人物故事,采用文字講述相比數據表達更生動鮮活,更能寫出人情味,就沒有必要進行數據化。對沒有數據化的新聞事實,機器人新聞還難有用武之地。目前數據化的新聞事實主要集中在經濟、體育、教育、災難、氣象、交通等有限的領域。
二是數據質量不高。如有些數據比較簡單、粗糙、膚淺,有的殘缺不全;有些數據不準確,或受到了污染,不“干凈”;有些數據格式不規范等等,導致在機器人新聞生產中無法使用。“如果無法取得結構化的數據,或者數據質量較差時,機器人新聞幾無用武之地。”[16]因此,機器人新聞還受到數據質量的限制。
三是數據收集困難。數據收集的困難也會導致機器人新聞生產受到限制。數據不開放,不聯網,格式不統一,乃至人為設置障礙,人為阻撓,都會導致數據收集困難,從而無法進行機器人新聞的生產。目前“在全球數據開放的進程不一,數據供應商尚未專業化,各信息單位的數據結構化尚在起始階段,數據處理尚未形成一個統一的公開標準的情勢下,數據資源獲取的局限愈加凸顯。”[8]因此,“算法新聞依賴社會整體數據化水平”[4]。
總之,機器人新聞對“數據”的依賴,導致機器人新聞在新聞報道題材方面受到限制。“只有那些對數字比較敏感的領域,如天氣、金融、政治選舉、交通、體育等領域的數據才易于被標準化,容易清洗,變形的概率較低,可能提取出有價值的信息。”[8]因此當前的機器人新聞主要局限于金融、天氣、交通、體育、政治選舉等數據化水平較高的領域,而且由于不同國家的信息公開程度、數據化水平不同,機器人新聞報道選題的寬窄也不一樣。
保羅·萊文森認為,后續媒介雖然是對前面媒介的“補救”,但在彌補前面媒介的某些缺陷時,也產生了新的缺陷。“當補救性的媒介起作用時,結果通常是一方面帶來純粹的進步,一方面帶來新的挑戰,如何去補救這一補救可能帶來的新問題。新的補救性媒介解決了這些問題,必然又會產生更新的問題,永遠沒有結束的時候。”[14](111)機器人新聞作為數據新聞的一種“補救”,它在克服數據新聞的半自動化、低效率等缺陷時,所采用的新技術——人工智能技術也帶來了一些新的缺陷,主要有以下幾方面:
一是可讀性問題。機器人新聞主要依靠計算機程序將搜集的數據套用現成的新聞報道模板來實現新聞報道的自動化批量生產,它在新聞線索的發現和新聞撰寫角度的選擇上完全依靠算法得出的數值變化進行自動取舍,這種方式對于新聞報道模板和公式化的語詞樣本庫的依賴非常大,因此機器人新聞從結構到內容到用詞容易模式化。而且計算機程序不像生活在社會中的有血有肉的記者那樣擁有自己的立場和情感,能聯系社會背景和新聞語境,甚至揣摩不同受眾的喜好,采用自己的寫作風格和語言來報道新聞,因此,相比人類記者所撰寫的新聞報道,機器人新聞在人性化、個性化、創新性、聯系性、分析性、人情味、生活味以及細節等方面還存在很大差距。新聞機器人開發公司Autamated Insights就認為,“讓機器人寫新聞其真正的難點在于怎么讓它看起來像人類寫的。雖然該公司目前擁有超過3億種模板可以供不同類型的新聞來套用,但如何讓其看起來像人寫的則著實大費周章”;美聯社副總裁兼總編輯費拉拉認為,“通過機器人撰寫的稿件會因為內容的生硬和重復而影響稿件的質量,讓稿件失去人性化和個人風格,不能帶來閱讀快感。”[17]雖然目前人們在設計機器人新聞程序時注意到了可讀性問題,大量增加所套用的新聞寫作模版數量,甚至設計模仿一些知名記者的用詞習慣和寫作風格,但目前人工智能本身的缺陷導致機器人新聞在報道框架和角度上存在固定化、模式化、機械化、重復性等問題,在報道風格上存在生硬、呆板、枯燥、單調、乏味等不足。“在可讀性方面,記者報道比自動化新聞更具優勢。”[18]有關實驗也證實了這一點。據NPR所做的調查顯示,人類記者Scott和機器人記者Wordsmifh就同一題材所撰寫的兩篇報道,前者得到了9916名讀者認可,而后者僅得到912名讀者認可。[19]一份來自德國、瑞典和荷蘭等三個國家的實驗也發現,人類寫的新聞比機器人新聞在可讀性上得分更高。[20]
二是報道深度問題。機器人新聞的運作過程,簡單地說就是通過程序搜集、分析數據,發現新聞故事并利用自然語言生成技術生成新聞稿件。機器人新聞的報道角度和寫作模板都是事先設計好的,只要有價值的數據發生,它就自動抓取并進行分析,然后套用報道角度和寫作模板生成新聞稿件。這種新聞生產方式決定了它主要是對相關數據進行置換以及進行一些簡單的分析,不可能對新聞事件再進行深入采訪,也難以對新聞事件發生的前因后果、來龍去脈進行深入挖掘,對事件之間的錯綜復雜的關系進行深入分析,對事件的發展趨勢以及社會影響等進行深入解讀,因此,機器人新聞總的來看缺乏報道深度。機器人新聞“如同流水線工作般,通過收集數據、整理數據而形成新聞稿件,并以最快的速度發布新聞。但簡單的數據疊加讓新聞報道停留在表面,未能進行新聞的深度加工和挖掘”;“盡管機器寫稿已滿足新聞寫作的基本要素,但與人類記者相比,它仍停留在要素表象敘述,缺乏新聞信息深度挖掘能力和處理加工能力”[21];參與開發《今日頭條》新聞機器人“小明”、《南方都市報》新聞機器人“小南”、《廣州日報》新聞機器人“阿同”的北京大學計算機科學技術研究所研究員萬小軍也坦承:“目前寫稿機器人還是很難替代深度報道的”,“跟記者比深度報道寫稿機器人會輸”[22]。
總之,人工智能技術本身的缺陷導致機器人新聞存在可讀性、報道深度不足等問題。