人工智能在新聞傳播全鏈條中的具體應用

2020-03-28 09:54:44新華社人工智能時代媒體變革與發展課題組

中國記者 2020年2期

□ 新華社“人工智能時代媒體變革與發展”課題組

隨著人工智能技術的不斷成熟，國內外傳媒業都開始將其運用到新聞生產傳播的各個環節，數據挖掘被用于尋找新聞線索，機器人寫作被用于直接的新聞生產，算法推薦接管內容分發……它已經在整個行業鏈條上對新聞業產生影響，基本涵蓋了從信息采集、內容生產、內容分發到用戶互動等全過程。

一、信息采集與線索挖掘

近年來，越來越多的新聞事件率先在社交媒體上披露。記者如何在冗雜的信息汪洋中找到線索，準確、迅速地報道新聞變得更具有挑戰性。人工智能和大數據技術可以快速挖掘線索和有效地關聯信息，協助記者更全面地分析數據，發現隱匿其中的趨勢和事實，顯著提升信息采集的效果。

國內主流媒體在這方面做了很多積極探索。由新華社和阿里巴巴集團共同投資成立的人工智能科技公司新華智云研發的突發識別機器人系統，能夠自動識別突發新聞，提高突發事件報道時效，是記者們面對突發事件報道的得力助手。面對海量信息，突發識別機器人會自動識別屬于突發事件的線索，提醒編輯優先處理。機器人還能自動識別突發事件信息中有價值的新聞片段并以高亮突出，例如火災、爆炸、交通事故等。

新華社自主研發的微信小程序新聞雷達（NewsRadar），實時追蹤互聯網、社交媒體、App等千萬級數據，為編輯記者提供新聞熱點、新聞線索、微博話題，自動預警突發事件，并根據事件性質和規模預測事件熱度，強化新華社在突發新聞報道中的領先優勢。人民網的輿情監測系統利用大數據挖掘等技術，能夠7×24小時對互聯網信息進行實時監測、采集、內容提取、自動消重，分類梳理熱點事件，分析信息來源、熱度走勢、地域分布等。

國外媒體在利用人工智能技術輔助新聞信息采集方面要領先于國內。路透社、美聯社等媒體集團以及一些初創科技公司推出的各種技術卓有成效。

路透社自研的兩款人工智能工具Reuters News Tracer（新聞追蹤者）和Lynx Insights在快速收集、梳理社交媒體上的可靠信息源和素材方面應用廣泛。Reuters News Trace是一款社交媒體監測工具，用于發現Twitter上的突發事件，并根據新聞性和真實度給予評分，使記者和編輯聚焦真正重要的新聞。該系統運用算法和機器學習等技術對Twitter上的海量信息進行監控，可以過濾掉80%的垃圾信息，挑選出最相關的事件，確定它們的主題，排列出優先級，并生成事件的簡短摘要和其他有用的指標。路透社自2016年開始使用該系統分析社交媒體數據，其突發新聞事件首發率多次領先全球其他媒體。

路透社推出的另一款人工智能工具Lynx Insights，可以協助記者搜集和分析數據，撰寫模式化的報道。該系統對海量數據挖掘，尋找有價值的線索，然后以短信、電子郵件或者Flash推送的形式發給記者參考。它還具有一個功能，比如記者輸入一家公司的名稱，它就會快速提供有關該公司的信息，極大提高了記者做新聞事件背景調查的效率。目前，路透社已經將其應用于財經題材的新聞報道。

在輔助媒體進行報道決策方面，成立于2012年的美國News Whip（新聞鞭）公司技術先進，它與美聯社等多家媒體都有合作。News Whip利用大數據挖掘等技術，從人們在社交網站上的各種活動中收集信息、挖掘線索，協助新聞機構更快地發現重要內容。它可以每兩分鐘掃描一次Facebook、Twitter等全球主要社交媒體，來捕捉什么事件是當下最熱門的，怎樣的內容更受歡迎，然后分析這些內容的發展趨勢并轉化為可操作的建議，幫助媒體人根據線索進行選題策劃。

二、內容生成與編輯

目前，在新聞內容生成和編輯方面，語音轉換技術、機器人寫作、音視頻自動生成技術、內容糾錯技術等被廣泛應用。這些人工智能技術將記者從繁重而乏味的日常任務中解放出來，使他們能夠專注于更需要創意、思考、判斷力的深度報道領域。

1.語音轉換技術。有調查顯示，記者平均每周花3小時做訪談，但卻要花兩倍的時間將訪談錄音整理為文字。有了這項技術，記者就可以從初級勞動中解脫出來了。

在這方面，國內的一些頭部科技公司的表現令人矚目，為媒體工作提供了極大助力。科大訊飛利用人工智能技術，研發了一系列的相關產品，并在很多媒體業務場景中投入應用。面向采集環節，訊飛聽見APP等產品可以實現采訪的語音變成文字的功能；面向編輯環節，訊飛聽見智能文稿唱詞系統，能夠快速實現音視頻字幕生成，1小時的音視頻節目，5-10分鐘生成字幕出稿，經過簡單人工校驗，就可以生成相應的字幕文件，減少了編輯過程中人工排字幕的時間，提升工作效率。

新華智云推出的專業級錄音轉文本工具“采蜜”，可以幫助記者實時將采訪音頻轉換成文字，并自動同步至電腦上，省去大量簡單重復勞動。此外，新華智云研發的字幕生成機器人，可以通過語音識別技術，快速找到音視頻中的關鍵詞，就像Word文本一樣通過搜索關鍵詞即可定位到關鍵信息。同時在視頻編輯過程中，字幕生成機器人可一鍵根據視頻同期聲為視頻添加字幕。過去做一個3分鐘的視頻，可能需要花30分鐘時間編輯同期聲字幕，現在有了這個機器人，只需幾秒鐘就可完成，記者可以把精力更多用在腳本寫作和鏡頭剪輯上。

新華社技術局研發的語音智能分析平臺“音訊”實現了多語種語音識別與合成能力，在移動端，對中英西法俄阿葡等9種語種的語音進行實時轉寫，讓記者從此告別“錄音筆”與“速記本”，采訪結束一鍵出稿；網頁版“音訊”，可將數小時錄音分鐘級別高效轉寫；桌面版音訊內錄工具的推出，讓電腦上的各類視頻直播語音高效地實時轉為文字，記者編輯不用再反復回聽記錄，節約了大量時間與精力。

2.機器人寫作。在新聞采寫領域，機器人寫作開始扮演日益重要的角色。所謂機器人寫作，其背后的核心原理還是大數據分析和云計算，從海量的資訊中找出最有價值的部分，通過算法，用固定的報道模式呈現出來。機器人寫作在諸如證券交易、體育賽事、地震速報等模式化報道中應用廣泛。

2015年11月7日，新華社的寫稿機器人“快筆小新”正式上線，在體育和財經等領域7×24小時實時采集數據，每天生產200余條稿件，極大提高了發稿時效。

新華智云推出的體育報道機器人，可以輔助賽事管理、對賽事直播智能拆條，自動包裝視頻集錦。比如在俄羅斯世界杯期間，該系統持續工作，通過機器生產以及人機協同生產兩種模式，共生產世界杯短視頻3萬7千多條，平均生產用時50.7秒，最快一條視頻的生產僅耗時6秒。

在國外，機器人寫作比國內更早被應用于新聞編輯室。早在2014年，美聯社就開始與Automated Insights（自動洞察公司）合作，利用寫稿機器人來完成相對模式化的財務報道。《華盛頓郵報》在機器人寫作方面有著更為豐富的實踐。該機構擁有100多個新聞機器人，其中Heliograf表現尤為突出。Heliograf在2016年里約奧運會報道中首次亮相。該系統通過分析比賽實時數據整合信息，然后與寫作模板中的相關短語匹配，生成新聞報道。在整個里約奧運會期間，Heliograf承擔了大量有關比分和獎牌數的實時報道，記者可以專注于采寫更有深度和有意義的內容。

《紐時時報》研發的寫作機器人Editor（編輯），將機器學習技術與記者撰寫新聞故事的過程相結合，記者在利用該系統寫稿的同時可以使用標簽對重要的短語、標題、觀點進行再標注。計算模式經過長期訓練，可以自動識別語義標簽，并學會分析文章中的重點部分，幫助記者編輯更快地查找資料、核對內容。

3.視頻自動生成技術。利用人工智能技術將文本直接轉化為視頻，不僅能更清晰地呈現復雜關系，同時也具有更生動的表現力，極大地促進了新聞信息的多樣化生產，提高了記者的工作效果。

在國內，新華智云研發的數據新聞機器人表現突出。該系統提供18種專業的數據可視化模板，涵蓋餅圖、柱狀圖、折線圖、排名圖等樣式。通過流暢的動畫效果，高顏值的可視化模板，展現數據間的關系。同時簡單易上手，降低了制作數據可視化視頻的門檻。零基礎編輯只需上傳一個數據表格，即可一鍵生成對應的可視化視頻。

新華社采用智能多軌視頻編輯產品，編輯僅需輸入一篇稿件或一個主題詞，即以新華社海量視頻與圖片資源為基礎，以智能標引技術、語音合成技術、語義檢索等智能化技術作為支撐，實現高質量短視頻的一鍵智能生成，大幅提升了短視頻稿件的制作效率。

國內一些科技創業公司在視頻自動生成領域也有不錯的成績，比如杭州的慧川智能，主要做視頻編輯。電視臺做節目時，有些視頻可能是從執法記錄儀里面導出的，那么電視臺編輯就把這段視頻導到慧川智能的工具里面，輸入幾個關鍵詞，系統就會自動匹配，快速找到要發布的內容，自動生成一個視頻，并配上字幕，幾乎不需要人工干預。

在國外，比較有代表性的是2011年創辦于以色列的Wibbitz公司。Wibbitz是一家依托人工智能技術將文本自動生成短視頻的科技公司，他們最核心的技術是“文本轉換視頻技術”。這項技術可以通過對圖片、視頻的識別功能，實現智能化分類、歸檔、儲存，然后根據輸入的文本，挑選出關鍵詞，并迅速搜索出與關鍵詞最相匹配的清晰圖片和動圖，自動生成視頻。2017年，美聯社參與Wibbitz公司的融資，利用其技術實現視頻的智能化生成。

4.新聞內容糾錯。2019年，新華社自主研發了內容智能檢校機器人“較真”。“較真”嵌入在新華社的采編發系統中，點擊“拼寫檢查”按鈕，進入“智能檢校”即可對稿件進行校驗。“較真”不僅具備傳統檢校軟件在易混淆字、內容規范表述等方面的能力，而且增加了人名自動識別、語言語法使用、語義搭配理解、知識辨別、邏輯搭配、日期規范及稿件電頭格式等方面的校驗功能。與傳統檢校軟件相比，“較真”引入人工智能、大數據等技術，具有以下優勢：一是能根據新聞行業語言邏輯規律，發現文本語義錯誤；二是通過對海量新聞數據的學習，可以不斷提升檢校本領；三是擁有15種識別能力，對稿件檢查更細致、更深入，準確率超過業內同類產品50%。

用人工智能對新聞內容糾錯的技術還有很多，比如成立于美國的公司Grammarly為記者提供英語的語法糾錯、標點修改、詞句潤色、句子結構優化等功能。

三、內容分發和個性化推送

在傳統大眾傳播模式中，受眾是模糊的，媒體無法精準定位受眾，受眾也無法選擇自己想看的內容。以機器學習和推薦算法為代表的個性化推送改變了這種狀況，實現了內容精準分發。

在國內，內容分發類平臺今日頭條依靠算法建立起精準的用戶畫像，基于用戶的搜索瀏覽數據、地理位置、手機環境、社交網絡關系等，產生針對每個用戶的個性化信息流，可以說顛覆了受眾接收信息的模式。一點資訊則將編輯和算法相結合，通過對用戶畫像、文章畫像和算法模型的分析，智能分析用戶愛好，精準推薦內容。

短視頻社交平臺的個性化推送更是應用廣泛。以快手為例，自2011年創立以來發展迅速，基于深度學習的人工智能算法機制，快手實現了復雜網絡環境下對不同用戶、多種場景的內容分發。

在國外，《紐約時報》的機器人Blossomblot可以對社交平臺上的海量信息進行大數據分析，推測哪種類型內容更具熱度，更具有推廣價值，以此幫助編輯挑選出適合推送的內容。據該報內部統計，經過Blossomblot篩選后的文章點擊量是普通文章的38倍。

四、用戶反饋與互動

為滿足用戶獲取內容的個性化需求，強化交互性，新華智云推出對話機器人服務，用戶可以像與人聊天一樣，與機器進行問答，從而獲取最感興趣的內容信息。比如在俄羅斯世界杯期間，“進球機器人”入駐新華社公眾號，為用戶提供世界杯進球視頻。用戶點擊菜單欄的“進球機器人”，提問如“我想看梅西的最新進球”，機器人就會自動回復相關視頻。

國內媒體與用戶的互動，現階段更多的借助多媒體識別技術。如人民日報客戶端推出的互動型H5產品《快看吶！這是我的軍裝照》通過人臉融合技術實現用戶虛擬“軍裝照”合成，用戶參與度極高，瀏覽量超過10億。

在評論反饋方面，為了讓更多用戶參與評論，谷歌旗下的Jigsaw公司合作推出了Perspective，可以針對讀者評論進行過濾篩選。紐約時報是其用戶之一。該報的評論審核小組有大約14人，負責每天手工處理近1.1萬條評論，但實際發布的評論僅占評論總量的10%。這種勞動密集型的工作流程限制了與受眾的互動。紐約時報希望借助AI的自動化轉換的功能，提高與讀者的互動量。通過Perspective智能算法，對用戶評論內容進行打分，良性的評論給予正分，謾罵性的評論給予負分。通過設定內容顯示的比例值，自動過濾掉不良評論，使讀者更容易檢索到自己感興趣的評論并展開討論。

五、新聞事實核查

虛假新聞一直是新聞傳播業的痛點之一。近年來，人工智能技術越來越多地運用于追蹤和識別虛假新聞。

□ 2019 年11 月26 日，在濟南舉辦的“未來已來”5G+AI 創新成果展。（新華社/發）

自2018年1月開始運作的FANDANGO項目是歐盟Horizon2020（地平線2020）科研規劃中的虛假新聞檢測項目，目的是利用大數據及人工智能技術解決虛假新聞檢測的難題。通過對內容進行獨立性分析，該項目可以幫助記者發現虛假照片等內容；它還提供虛假新聞溯源，通過技術手段讓記者可以發現哪些假新聞具有相同的根源，做進一步的調查。

英國帝國理工學院的“好新聞”項目，通過分析社交媒體傳播模式來確定新聞的真假。該技術通過大量的數據分析發現，假新聞的傳播模式與真實故事有很大區別。假新聞更傾向于通過分享的方式傳播出去，相比之下，真實的故事則擁有更多的點贊數量。以此為理論基礎，“好新聞”項目開發出了相關算法。

對于不良信息的核查攔截，國內外的人工智能公司和互聯網巨頭也開展了相關研究。新華智云推出的安全核查機器人通過深度學習技術，結合在媒體領域積累的文本、圖像、視頻、音頻識別技術，可以快速定位涉黃、涉恐、涉政等內容，為內容生產提供安全監測，降低了人工審核成本，提升審核效率。字節跳動科技公司在今日頭條平臺上，依靠人工智能技術，模仿人腦機制，對低俗圖片的攔截率較之前純人工攔截提高了73.8%。

美國的AI Foundation（人工智能基金會）開發了一款名為Reality Defender（現實衛士）的工具，自動發現虛假不良信息，它的運行原理與殺毒軟件類似，通過掃描每一幅圖像、視頻和文章，報告可疑的目標，并使用各種人工智能驅動的分析技術，以檢測可能出現的敏感問題。

六、版權保護

隨著媒體傳播渠道的多元化，內容更是成了媒體的核心資源，而版權則是保護內容的重要手段。人工智能技術的進步，也為新聞版權的保護帶來了新的思路和手段。

人民網輿情數據中心依托多年輿情業務的大數據采集和分析能力，結合區塊鏈技術，推出“人民版權”一站式版權保護管理平臺。利用區塊鏈的不可篡改、可追溯、開放、去中心化、真實安全等特性，完成對數字作品的版權保護全流程管理。

中國知網利用神經網絡模型對文本內容構建高維度語義索引，不管是中文還是其他語言，文章都被映射到一個統一的語義空間，實現真正基于內容理解的語義級全文比對檢索，從而更加有效地發現文章的抄襲和雷同。

在國外，美國的Civil也是基于區塊鏈技術打造的新聞出版發行平臺，美聯社與其合作，追蹤其新聞內容在社交媒體上的傳播路徑。此外，美國Adobe公司通過人工智能算法可以自動識別被篡改過的照片，并且對照片進行恢復和溯源。