【摘要】近年來,人工智能寫作應用的實例大多集中在新聞寫作上。實驗中,基于數(shù)據(jù)與算法的結構化自動文本生成系統(tǒng)在數(shù)據(jù)新聞寫作的速度和數(shù)量上優(yōu)于人工寫作。5G時代,在大數(shù)據(jù)、物聯(lián)網(wǎng)和云計算技術的不斷推動下,人工智能新聞寫作有望獲得新的發(fā)展。
【關? 鍵? 詞】人工智能;智能寫作;新聞
【作者單位】黃國春,廣西民族大學。
【中圖分類號】G212 【文獻標識碼】A 【DOI】10.16491/j.cnki.cn45-1216/g2.2019.15.020
自從AlphaGo戰(zhàn)勝人類圍棋冠軍之后,全球又掀起了新一輪人工智能熱潮,人工智能從自然科學領域向社會科學領域發(fā)展。人工智能在語音識別、圖文識別、自動翻譯、智能寫作和智能財經(jīng)等人文社科領域穩(wěn)步推進,人工智能投入新聞寫作的應用引起新聞傳播學界和業(yè)界的高度關注。
一、人工智能新聞寫作的曙光
人工智能寫作在2014—2016年集中爆發(fā),三年間,全球有超過30款的寫作機器人在媒體曝光,其在新聞寫作和文學寫作領域速度驚人,且產(chǎn)量可觀。
1.國外媒體率先進行人工智能寫作實驗
據(jù)報道,2014年7月,美聯(lián)社與科技公司AutomatedIns
ights合作開發(fā)了Wordsmith人工智能寫作平臺,并使其自動編寫企業(yè)財報。該平臺幾秒鐘便能生成一篇150—300單詞的新聞快訊,比人力寫作效率高十倍[1]。2014年3月,美國洛杉磯發(fā)生地震時,《洛杉磯時報》用寫作機器人Quakebot在地震發(fā)生后三分鐘就率先發(fā)布了地震消息。路透社宣布與語義技術公司Graphiq合作,采用人工智能從數(shù)據(jù)庫中抓取數(shù)據(jù),建立可視化圖表,然后生成有圖表匹配的圖文報道。英國《衛(wèi)報》推出了一份內容幾乎完全由算法生成的報紙“#Open001”,機器人篩選社交網(wǎng)絡上的熱門話題,并將這些話題進行數(shù)據(jù)統(tǒng)計分析后,然后將內容編輯排版成報紙。2016年里約奧運會舉辦時,《華盛頓郵報》使用寫稿機器人Heliograf與體育數(shù)據(jù)公司合作,將比賽數(shù)據(jù)自動生成短消息并即時發(fā)布。
這些人工智能寫作系統(tǒng)的共同點是通過將數(shù)據(jù)導入模板自動生成模式新聞稿,在數(shù)據(jù)條件滿足的情況下,可自動寫作實用性的報道,在寫作數(shù)據(jù)化、多批次和規(guī)律性報道時,其準確度與速度比人工寫作更勝一籌。
2.中國人工智能寫作快步緊跟
2015年9月,騰訊財經(jīng)開發(fā)的新聞寫作機器人Dreamwriter寫作并發(fā)表了《8月CPI同比上漲2.0% 創(chuàng)12個月新高》,引起了社會各界關注。2015年11月7日,新華社正式推出機器人寫稿項目——“快筆小新”,用于寫作體育賽事的中英文稿件和財經(jīng)報道[2]。封面新聞宣稱“小封機器人”不僅能寫新聞,而且能通過語音識別、意圖識別等AI技術與用戶互動。阿里巴巴入股第一財經(jīng)后,推出一款能協(xié)助記者快速寫作財經(jīng)報道的智能寫稿系統(tǒng)。北京大學計算機研究所和今日頭條聯(lián)合研發(fā)機器人張小明,在里約奧運上投入應用。據(jù)稱,該款機器人能結合語言處理、機器學習和視覺圖像處理技術,通過語法合成與排序完成新聞寫作。據(jù)人民網(wǎng)不完全統(tǒng)計,我國至少10家新聞媒體推出了13個智能新聞機器人產(chǎn)品或應用,進行線上線下采寫報道。但到了2017年,人工智能寫作發(fā)展速度似乎有所放慢,三年來鮮有人工智能寫作新進展的報道。
數(shù)據(jù)庫、算法和自然語言處理技術的長期積累,使人工智能寫作技術步入實用化、成品化階段。在確定數(shù)據(jù)條件和范圍內自動生成新聞文稿,雖然對計算機界只是普通算法,但是在新聞界引起不少震動,甚至被認為會部分替代人類記者或改變未來傳媒業(yè)的業(yè)態(tài)。
二、人工智能寫作新聞的框架及透視
1956年,人工智能概念(Aritificial Intelligence,AI)得到確立。經(jīng)歷了數(shù)理邏輯的符號主義和基于神經(jīng)網(wǎng)絡連接主義的雙重推理與驗證,加上深度學習的重構,人工智能形成數(shù)據(jù)加算法的應用模式。人工智能寫作的基本框架是基于自然語言處理規(guī)則的結構化數(shù)據(jù)生成算法。數(shù)據(jù)即變量,數(shù)據(jù)的實時變化反映事物的變化。數(shù)據(jù)變化越大,其新聞價值越大,反之亦然。
1.人工智能寫作新聞的框架
目前,人工智能寫作系統(tǒng)可用于財經(jīng)、體育比賽、地震測報、交通監(jiān)控和社交網(wǎng)絡等項目的新聞寫作。這些項目全部實現(xiàn)了計算化管理,項目運行過程中能產(chǎn)生完整的數(shù)據(jù),人工智能系統(tǒng)只要提取其中的數(shù)據(jù),并將其代入新聞模板,即可自動生成新聞文本。目前,人工智能寫作新聞的框架大致有兩類。
(1)測定自動生成類
此類人工智能寫作的基本原理是新聞模板加數(shù)據(jù)填空,就編程而言便是常量加變量的字符串組合,編程并不復雜,算法也比較簡單。模板是常量,數(shù)據(jù)是變量,用幾個函數(shù)一次循環(huán)便能串起一篇新聞。比如,下面的新聞就是這個類別。
據(jù)中國地震臺網(wǎng)測定:8月8日21時19分,在四川阿壩州九寨溝縣發(fā)生7.0級地震。震源深度20千米,震中位于北緯33.20度,東經(jīng)103.82度。
這是一則標準的短消息,時間、地點、事件清晰,數(shù)據(jù)準確。其編程模型為:“據(jù)中國地震臺網(wǎng)測定:”+時間變量T+“在”+地點變量S+“,震源深度”+深度變量D+“,震中位于北緯”+緯度變量Lng+“,東經(jīng)”+經(jīng)度變量Lat+“。”。
常量是固定在模板上的,變量值由設備測定,監(jiān)測軟件直接將數(shù)據(jù)串聯(lián)成地震報告,還可附上由測定的位置圖及周邊人口和環(huán)境數(shù)據(jù)生成的新聞稿。交通監(jiān)管、體育比賽等也可運用此類測定報道。隨著人臉識別、語音識別、圖文識別、行為識別和環(huán)境識別等技術的成熟,測定自動生成報道的應用范圍將不斷拓寬。
(2)數(shù)據(jù)自動生成類
數(shù)據(jù)自動生成類系統(tǒng)是指從管理系統(tǒng)獲取數(shù)據(jù),將數(shù)據(jù)處理后自動生成文本的系統(tǒng)。比如,美聯(lián)社與科技公司合作開發(fā)的Wordsmith人工智能寫作平臺可以自動編寫企業(yè)財報新聞,提取企業(yè)財務報告的數(shù)據(jù),套用美聯(lián)社預定的新聞模板,并自動生成一篇150—300單詞的新聞快訊。該平臺每季度可生成3000多篇財報新聞。
數(shù)據(jù)類生產(chǎn)模式要比測定類生成模式復雜些。一是數(shù)據(jù)類生產(chǎn)模式數(shù)據(jù)量大且需要計算處理。智能系統(tǒng)提取數(shù)據(jù)后,需要對數(shù)據(jù)進行分類、匯總和排序,并計算出精確結果。二是該模式要對數(shù)據(jù)結果進行對比分析,找出新聞點。三是該模式要通過判斷數(shù)據(jù)態(tài)勢來選擇模板。這種模式生成此類財經(jīng)報道速度快,數(shù)量大,數(shù)據(jù)越復雜,越顯優(yōu)勢,無須人工干擾,但對數(shù)據(jù)不完整、不可靠和超范圍的項目無能為力。
目前,人工智能還進行一些社交網(wǎng)絡新聞的自動寫作測試。人工智能通過對社交網(wǎng)絡的話題進行統(tǒng)計分析,并搜索社交網(wǎng)絡的熱門話題和新聞熱點,抓取精華內容,并自動生成新聞。但由于自然語言處理技術滯后,文本到文本自動生成未能突破語義與語法關,此方面的研究試驗尚未進入實用階段。
2.人工智能新聞寫作多面觀
由于自然語言處理技術的瓶頸尚未突破,自然科學界對人工智能寫作十分謹慎,而社會科學界對其期待很多。一些學者發(fā)表學術論文對人工智能寫新聞的真實性、實用性、發(fā)展走向、版權問題、寫作倫理、替代人工及對傳播業(yè)的影響等問題展開討論。對人工智能新聞寫作的應用,我們要從多個方面來審視。
一是人工智能寫作快速,人類記者不能企及。其實,智能寫作系統(tǒng)能0.6秒生成一條500字符的文本并不算快速。對計算機來說,速度和數(shù)量都不是問題,問題是能否生產(chǎn)真正的新聞。人工智能生產(chǎn)的流水文本是否具有新聞價值,還需人工記者去辨別,真正決定哪些事實是新聞的是人,而不是機器。
二是人工智能寫作數(shù)據(jù)準確,提升了新聞的客觀性[3]。計算機的數(shù)據(jù)是經(jīng)過設備測定或人工確定才錄入數(shù)據(jù)庫的,有限的數(shù)據(jù)只能體現(xiàn)局部的真實,不能反映全面的真實,且數(shù)據(jù)結構不能變動,不能轉角度,不能用于其他項目,兼容性和使用率有限。
三是人工智能寫作只能部分替代人類記者。真實的人工智能寫作系統(tǒng)使用起來不僅技術復雜,而且設備繁多。比如,奧運會等大型體育比賽需要安裝大量的測定計分設備和復雜的計算機網(wǎng)絡系統(tǒng),還需要人數(shù)眾多的技術團隊安裝、調試,才能正常運行,成本較高。
四是智能寫作系統(tǒng)能增強理解力。智能寫作系統(tǒng)被用戶用久了,會讀懂用戶的心理感受和思考方式,會寫出更為復雜、更有個性的稿件[4]。這是對人工智能寫作的超技術想象。用戶可以自主設定智能寫作系統(tǒng)的模式、線索、情景、細節(jié)、觀點,甚至語言風格等寫作要素,但離開用戶設置和數(shù)據(jù)輸入,智能系統(tǒng)不可能自主形成理解力和思考力。
三、人工智能寫作的前行方向
業(yè)界認為,人工智能的發(fā)展將經(jīng)歷弱人工智能、強人工智能和超人工智能三個階段,目前處在弱人工智能發(fā)展階段。隨著信息技術的發(fā)展,人工智能寫作會向更高速度、更多維度、更大靈活度和更接近人類語言與思維的方向發(fā)展。省時、省力、低價高效和可靠是人工智能寫作系統(tǒng)發(fā)展的基本邏輯。
人們期待著人工智能寫作系統(tǒng)能通過深度學習增長知識,會思考,并寫出自主創(chuàng)新的文章,但這些想法脫離了人工智能發(fā)展的技術基礎。5G時代, 在大數(shù)據(jù)、云計算和物聯(lián)網(wǎng)增強技術的推動下,人工智能寫作有可能會在以下幾個方向獲得新的進展。
1.結構化自動寫作將獲得廣泛應用
未來,基于數(shù)據(jù)自動生成文本的結構化寫作功能模塊將越來越普遍地鑲嵌在各種管理信息系統(tǒng)中,依托數(shù)據(jù)實時生成文字報告或報表。一鍵生成文本報告將成為常態(tài),其運算功能、分析功能和圖表功能將會更強,智能化程度將會更高,其數(shù)據(jù)將更翔實、準確和可靠,并能生成長文本和深度分析報告,把大量人力從繁雜的數(shù)據(jù)讀解中解脫出來。
2.智能識別推進現(xiàn)場報道自動化
5G時代,智能識別技術將得到質的飛躍,高分辨?zhèn)鞲凶R別和物聯(lián)網(wǎng)為人工智能寫作提供大量的數(shù)據(jù)。人臉識別、語音識別、圖文識別、行為識別和環(huán)境識別等識別技術可通過網(wǎng)絡將新聞現(xiàn)場的內容收錄到智能寫作系統(tǒng)中,實時拍攝、拾音和記錄新聞過程,捕捉、跟蹤變動點、新聞點,并配合系統(tǒng)數(shù)據(jù)庫進行背景分析,自動生成圖文報道或視頻報道,從而大大提高時效性。
3.自然語言編輯有望突破
隨著研究的積累與深化,人工智能有望在語義網(wǎng)絡分析、標記、語法關系和上下文關聯(lián)等自然語言處理的關鍵技術上取得突破,實現(xiàn)語義分析的窮盡計算,及語義與語法的最佳匹配。復雜智能算法可實現(xiàn)對已有文本的智能編輯與重構,有望在文字編校、語法糾正、自動編目、文稿壓縮、自動配圖、圖表生成、數(shù)據(jù)校驗、條目化編輯和檢索把關等方面獲得質的提升,大大提升圖文編輯與出版的效率。
此外,人工智能還有社交網(wǎng)絡新聞自動生成等其他發(fā)展的可能。人工智能寫作系統(tǒng)的發(fā)展除依賴技術進步外,還取決于系統(tǒng)的性價比和使用效率。巨額投入開發(fā)一套使用率不高的智能寫作系統(tǒng)是不符合人工智能發(fā)展邏輯的。
四、人工智能寫作的悖論
李國杰院士發(fā)表的《人工智能的三大悖論》提出莫拉維克悖論、新知識悖論和啟發(fā)式悖論,并指出計算機的運行可以歸結為已有符號的形式變換,結論已經(jīng)蘊涵在前提中,本質上不產(chǎn)生新知識,不會增進人類對客觀世界的認識[5]。人工智能寫作系統(tǒng)畢竟是程序員用算法編碼的自動文本生成系統(tǒng),雖然可以重復循環(huán),重構組合,但不大可能通過機器學習獲得自主創(chuàng)新能力。
1.無法超越數(shù)據(jù)與模板局限
人工智能寫作是機器程序,其寫作實際是對材料進行重新組合。因而,人工智能必須依靠大數(shù)據(jù),不然就無料可寫。但系統(tǒng)的數(shù)據(jù)總是有限的,數(shù)據(jù)的獲取無法跨越程序的安排,文本無法跨越模板,分析無法超越算法。所謂深度學習無非是往數(shù)據(jù)庫多增加一些記錄,多一些可選擇的模板而已,無法超越數(shù)據(jù)與模板的局限。
2.難以自主創(chuàng)新
李國杰院士認為,計算機是機械的、可重復的智能機,本質上沒有創(chuàng)造性。AlphaGo Zero 之所以通過機器深度學習而戰(zhàn)勝對手,是因為它可以通過對弈將對手戰(zhàn)法大量輸入數(shù)據(jù)庫中,經(jīng)統(tǒng)計對比篩選出更強的戰(zhàn)法。計算機可從已知產(chǎn)生已知,但不能從未知產(chǎn)生新知識。計算機在數(shù)據(jù)滿足的條件下,對重復性和煩雜性工作的處理能力很強,但生成全新內容的能力有限。人工智能的數(shù)據(jù)局限和算法局限很大,識別能力不足,缺乏思維能力,無法對未知領域做出判斷,難以實現(xiàn)超出已知的自主創(chuàng)新。
3.人工智能寫作與新聞真實性悖論
新聞的本質是真實客觀地描述客觀世界存在的事實。人工智能寫作記錄的數(shù)據(jù)是局部的、片面的事實,并不能描述全面的事實,難以捕捉新聞點和判斷新聞價值。比如,自動生成的地震報道雖然可以準確描述地震的測報數(shù)據(jù),但是描述不了地震的損毀情況和損失數(shù)據(jù),無人物、現(xiàn)場、細節(jié)和引語,也就失去新聞的整體真實性與價值。英國記者聯(lián)合會主席TimDawson表示,目前,全世界新聞行業(yè)最主要的問題就是缺乏有事實根據(jù)的報道。機器人顯然無法代替人類去完成這部分的工作[6]。
人工智能寫作新聞還面臨一個把關與把度問題。一是事實關,二是輿論導向關。對測定生成類和數(shù)據(jù)自動生成類人工智能寫作的新聞,數(shù)據(jù)是經(jīng)設備測定或經(jīng)過人工錄入核準和科學計算的。模板文字不涉及事實,制作時已經(jīng)把關。對社交網(wǎng)絡自動生成和現(xiàn)場識別自動生成的新聞把關的難度很大,事實與數(shù)據(jù)難以核實。
|參考文獻|
[1]呂倩. 人工智能技術背景下的新聞業(yè)變革與堅守[EB/OL]. (2019-01-17)[2019-06-02]. http://media. people. com. cn/n1/2019/0117/c424555-30563039. html.
[2]唐淇. 智媒時代機器人寫作對傳媒發(fā)展的重構——以新華社“快筆小新”為例[J]. 衛(wèi)星電視與寬帶多媒體,2019(6).
[3]朱垚穎. 新聞寫作的智能化趨勢探析[J]. 寫作,2018(5).
[4]米厚民. 智能寫作對新聞人的沖擊到底有多大?[J]. 中國記者,2017(11).
[5]李國杰. 人工智能的三大悖論[J]. 中國計算機學會通訊,2017(11).
[6]參考消息網(wǎng). 新華社將人工智能引入新聞編輯部引海外關注[EB/OL]. (2018-01-15)[2019-06-02]. http://www. cankaoxiaoxi. com/china/20180115/2251847_2. shtml.