文_葉 珂 吳子藝
新聞自動化是基于計算機科學、統計學、人工智能等,撰寫新聞故事的一項技術。新聞自動化系統具有新聞記者撰稿的方法以及查看數據的過程,通過厘清事實、尋找總體特征,分析得出重要和有趣的內容信息。其主要目標在于節省新聞工作者在重復任務上的工作時間,并增加新聞的輸出數量。
在過去的10年內,新聞自動化的使用呈現逐步上升的態勢。德國報紙出版商協會2017年的一份調查顯示,該國百分之七的報紙發行商已經嘗試過新聞自動化,另外有百分之二十的發行商計劃嘗試該項技術。
本文中,研究者重點關注了基于結構化數據的新聞文本自動生成。將數字編碼的數據轉換為人類語言的過程稱為自然語言生成(Natural Language Generation,簡稱NLG),執行這一新聞自動化過程需要通過算法實現。需要注意的是,當我們討論自動化、算法、數據和新聞的時候,我們需要提醒自己這一點:數據和信息不能混為一談,只有在一定撰寫原則指導下的數據才能被稱為新聞故事。與此同時,為了將數據轉換成有意義的新聞故事,系統開發人員和新聞工作者必須將新聞工作者大量松散的書寫準則轉換為計算機嚴格的規則。
不過,值得一提的是,部分媒體公司雖然在智能化競爭中落后于他人,但他們卻并沒有意愿嘗試新聞自動化技術,反而擔心自動化會導致記者失業。研究者表示,目前并沒有數據顯示自動化直接導致記者們的失業,相反,新聞生產過程中,人工和新聞自動化系統更傾向于互補的狀態。
United Robots部分隸屬于媒體公司Mittmedia,在瑞典全國范圍內出版近30份新聞報紙。目前,United robots開發出了自己的一套NLG系統,將其命名為“Rosalinda”。Mittmedia首席數字官表示,每周有59個聯賽的480支球隊參加比賽,他們每月會發布3000多篇自動生成的新聞。最近,兩家公司根據用戶需求開拓了房地產方面的自動化新聞內容。Mittmedia擁有一個自己的數據管理平臺——Soldr。Soldr收集、整理并匯總三種不同類型的數據:用戶數據、事件數據和內容數據。
United Robots的首席執行官S?ren Karlsson,對其從事的NLG系統業務分享了8點感受:
(1)來自上層的支持
編輯管理團隊需要參與到項目中來,并給予重視。在這一點上,瑞典的新聞編輯室做得不錯。
(2)讓廣告和市場部門參與進來
引進自動化內容,對于新聞編輯室與其他部門共同開展業務和進行產品開發來說,是一個絕佳的機會。不過,這中間有幾個問題需要明確,例如:新的內容類別會吸引特定類別的廣告主嗎?這些自動化內容會將游客轉變成付費用戶嗎?等等。
(3)傳統新聞價值衡量標準同樣適用
借助自動化,你獲得了本地內容,提高了發行速度,掌握了大量的文本內容。這些優勢也是記者們在采寫新聞時迫切需要的。換句話說,自動化的內容是一種好的本地內容。
(4)把自動化文本作為新聞線索
數據分析是自動化過程中一個重要的環節。算法的加持將比普通人工更有助于發現隱藏的聯系、異常值等等。
(5)時刻準備文本的發布
如果你想在文本中加入人工創意,那么就加吧。當文本好到足夠可以直接發表的程度,文章的潛力應得到最大程度的挖掘。
(6)提高產量,充分利用自動化的速度
短時間內產出大量的文本內容是自動化的一大優勢。
(7)復查組織
你可能并不需要裁員,但或許需要檢討一下日程表和任務。問一下這樣的問題:當體育比賽的文本可以自動化生成的時候,我們早晨是否需要這么多的員工?我們需要當下這么多數量的自由撰稿人嗎?我們除了常規報道之外,還有其他什么可以做嗎?哪一些可以增加價值?等等。
(8)想想“新聞價值”
紙質產品的新聞價值與數字媒體環境中產生的新聞價值是不一樣的。過去的時間里,新聞結構和工作流程已經發生了很大的變化。與此同時,新聞價值和呈現新聞事件的方式也已經發生了巨大的變化。同一則新聞根據不同的受眾,有不同的角度。
RADAR是Urbs Media和英國新聞通訊社報業協會合作建立的地方新聞社,它撰寫發布本地新聞報道。RADAR同時利用人工和自動化來生產數據驅動的本地新聞,以此為全英國的出版商供稿。RADAR的NLG系統基于一家名為Arria公司的NLG工具。該系統的輸入內容來自公共的公開數據。RADAR的NLG系統中含Urbs Media記者編寫的文本模板,每個模板可用于數百個不同的故事。
早在2016年里約奧運會,The Washington Post(《華盛頓郵報》)就開發了一項名為Heliograf的自然語言系統。這個NLG系統可以自動生成簡短的句子。之后,Heliograf被應用于其他有大量數據的新聞領域,比如選舉、犯罪、房地產等等。
Heliograf的產品總監表示,新聞自動化技術極大地擴大了新聞報道的廣度,其負責處理每日新聞報道,這使得新聞工作者可以將更多精力放在深度報道上。
2017年,三語(芬蘭語、瑞典語、英語)機器人Valtteri被首次應用在芬蘭市政選舉的新聞報道中,它沒有預設的故事結構,通常會根據數據自主決定新聞故事。不僅如此,機器人還提供個性化新聞,讀者可以用它來搜索和查找有關地理區域、政黨和候選人的新聞。
數據表明,Valtteri制作了超過200萬條三語新聞報道。如果,一位經驗豐富的記者花費一個小時撰寫同等質量的稿件,這相當于一位記者花費1000個工作周(以40個小時為一周工作量計算)的工作量。
在過去五年間,大量研究旨在了解人們如何看待自動生成的新聞內容。其中一個重點討論的議題是:當人們被告知內容是機器產生或由記者產生之時的感知區別。對于用戶感知的評價方式有很多種,其中Sundar給出的方法為很多研究者所使用。Sunder提取了21項衡量標準并將近似的標準分組,形成了4個方面,包括credibility(可信性)、liking(喜好)、quality(質量)和representativeness(代表性)等。
以韓國為例,最近二十年來,韓國在機器人和自動化過程中進行了大量的投入。學者Jung研究發現,文化背景對于研究機器新聞的受眾反應影響甚大。在韓國,調查顯示,相較于人工撰寫的內容,人們更信賴自動化生成的內容。原因是,記者和新聞媒體常常與貪污腐敗掛鉤。韓國民眾對新聞媒體的信賴程度很低。
至于媒體自身對于新聞自動化的感受,筆者在采訪了芬蘭和瑞典的記者之后發現,他們反映的影響是雙重的。首先,接受采訪的記者們認為,自動化提高了其媒體自身的新聞內容產量。而且它可以幫助記者從數據中挖掘此前沒能發現的選題和新聞故事。其次,新聞自動化可以幫助生產那些原本需要從外部購買的新聞內容。比如,那些從自由記者處獲得的氣象報告和體育比賽故事等等。當然,需要注意的是,新聞自動化并不能顯著地保持或提升媒體品牌。
對于媒體來說,一個最需要考慮的事是這套系統的來源:是從供應商處“直接購買”,還是內部研發?如果“直接購買”,媒體公司就會受到供應商的支配。這個問題與媒體公司的規模和它擁有的資源有關。此外,倫理問題(如數據、事實的選擇、自律)和透明度也是需要同時考慮的問題。
對于新聞媒體機構來說,特定的規則、流程和價值是維持新聞機構生存和運行的關鍵特性。當面對潛在的巨大轉變,比如新聞自動化,一個整合所有這些新工具和產品并能讓其反映新聞機構本身組織特性的戰略,就顯得尤為重要。例如,對于管理者來說,自動化提高了管理者對于不同部門之間連接和溝通的要求;或者協調外部參與者,以保證其提供的服務能匹配媒體內部的價值觀和流程。
Tom Kent曾經是2014—2015年美聯社自動化項目的負責編輯之一。在2015年的一篇博文中,他分享了一些他認為編輯在嘗試和使用自動化新聞寫作時候需要考慮的事,并就以下幾個方面提出了相關的問題:
這些數據可信嗎?潛在的數據包含什么?供應商對數據是否進行了合理的傳送和處理?供應商有合法權利將數據傳送給你嗎?你是否有進一步的權利來處理和發布這些數據?如果有的話,在哪些平臺上?等等。
你確定你有權限使用自動化系統獲取的圖片嗎?你如何避免那些與你的標準不符合的諷刺和仇恨類的圖片?你如何確定圖片和視頻適合實際的事件?
你會比較什么類型的信息?算法會強調哪些數據?你將如何使自動化內容與其他內容在拼寫、整體寫作風格和大小寫方面保持一致?
如何測試錯誤?人工編輯會在發布前測試每一篇故事嗎?誰來維護數據和復查算法做的決定?誰在看著機器,多久一次,以及多長時間?
你會告訴讀者一篇故事是自動化生成的嗎?你會如何存檔自動化內容,以便你解釋任何一篇故事是怎樣產生的?你愿意透露你的軟件是如何操作的嗎?你愿意分享源代碼嗎,還是你認為這是一種專有信息?
Diakopoulos認為,新聞自動化的未來在于對新聞業基本原則的解構。這意味著,將新聞工作過程分解為實際的信息產品和微型的過程,從而能夠分析什么可以被自動化,哪一些本質上是人工任務。通過仔細地解構任務,包含自動化和人工努力的混合系統可以更好地提升效率,降低成本,從而保證新聞質量、抵制商品化。通過與新聞自動化專家的討論,綜合研究者自己的思考,報告給出了有關自動化內容實施和開展過程中的一些現實挑戰:
(1)超越最基本模板性系統的自動化生成文本仍然有產生錯誤的傾向。有效的自動化內容應該考慮到自動化可能產生的一些不熟悉或陌生的錯誤,并在這一過程中配備適當的編輯監督、管理和維護職能。
(2)NLG系統仍然不是完美無缺的,而且它在有關體育、房地產和金融等內容上的延展性受到多種因素的制約。對于設計類似政治議題這樣不確定主題的敘述非常困難。即便是對于話題范圍較窄、能夠清晰理解并明確定義的主題來說,系統精細的設計和建造還是很有必要的。
(3)有趣和有用的數據的可用性是一個比較大的問題,因為一些強大的私人利益集團嘗試控制和商業化這些數據。媒體公司需要為獲得更多的公共和私人數據付出更大努力。與此同時,媒體們也需要通過創造和合作的方式來獲得更多獨有的數據集,以此能夠生成更多有趣的、具有商業價值的內容。
(4)新聞自動化為媒體公司提供了在傳統新聞業務之外拓展其他業務的可能性。傳統媒體機構或許可以通過孵化自動化項目獲取收益。
(5)NLG系統的靈活性還是有所欠缺,特別是對于聊天機器人或其他聊天/收聽機器設備(如Alexa)而言,需要大量昂貴的開發工作。這也是為什么類似Alexa之類的機器只支持少部分語言版本的原因。
(6)自動化新聞的個性化是每一個出版商的夢想。這需要大量的用戶檔案信息和基于線上線下行為的預測模型。在更長的時期內,媒體公司必須決定他們是否參與更深層次的用戶模型構建,以此來實現更廣泛的個性化自動內容生產。
(7)從大量的數據集中提取觀點幫助記者撰寫有趣故事,有可能是新聞自動化最有用的應用。自動化可以通過自動化分析、部分內容撰寫和其他精細工具幫助記者和編輯撰寫有趣的內容。不過,在自動化實際運作的過程中有一個風險是,自動化可能會給記者產生更多的工作量,而非使他們從常規工作中解放出來。