那福忠
機器寫稿最近在華文地區引起了熱烈討論,用機器也就是計算機軟件寫文章,在國外已經有幾年的歷史,本專欄也介紹過幾次,但都是外文。這次是出自中國大陸的中文媒體,先是去年9月的騰訊財經,11月新華社也正式加入行列,宣布由機器人撰寫體育與財經新聞,不免受到全球華文媒體的重視。記者可能會擔心因此失去工作,各種數據都證明機器的確比人快很多,但很多人認為機器寫的文章必然是千篇一律,有深度的文章還是要人去寫。
最早引起注意的機器人寫稿,是《洛杉磯時報》的地震報道,計算機軟件與地震通報中心聯機,一旦地震發生,通報中心就會將數據傳到《洛杉磯時報》計算機,計算機就會根據數據寫一份簡單的報道。2013年3月28日清晨6∶27,洛杉磯市區附近發生4.4級地震,計算機程序人員感覺到搖動,趕快起來打開計算機,一篇完整的地震簡報已經寫好,程序人員檢驗無誤,立即確認在網站上發布,時間是清晨6∶30,比任何新聞媒體發布得都快。
洛杉磯是大城市,每年兇殺案件超過1000起,《洛杉磯時報》是當地大報,自當盡責報道。由于印刷版資源有限,僅能報道1/10,缺乏代表性,所以在數字版建立一個版面,簡單報道每一案件,但因數據源缺乏,記者不能采訪到每一個案件,只能將該版面停滯。2010年他們寫了一個計算機程序,與洛杉磯驗尸官的資料聯機,取得每一案件的基本數據如日期、時間、地點、年齡、種族以及小區兇殺案的歷史,該版面就自動報道每一件兇殺案。不但節省了記者很多時間,讓記者更有余力深入采訪獨特個案的背景。
同樣的自動化做法,《洛杉磯時報》與洛杉磯警局數據聯機,用小區的現狀,包括人口以及犯罪的種類與地點,學校的位置與地點,讓讀者與相鄰的小區相比。如果哪個小區在一周內犯罪次數過高,就對那個小區發出警訊,當然警力會增加巡邏。下圖是洛杉磯郡劃分成16大區,每一大區又分許多小區,一共有272個小區,每一小區的地圖可展示人口數量,犯罪的地點與種類,以及其各級學校的地點。建議讀者進入Mapping LA體驗。
美聯社用機器來撰寫各公司財報,這是一個成功的例子,他們采用外界技術,使用Automated Insights公司的Wordsmith軟件,從Zacks投資研究機構取得各個公司的財務數據,寫成簡單明確的財務報告。2015年1月每一季可以撰寫3000家公司財報,以前靠記者與編輯僅能撰寫300家公司的財報,預估2015年底,可達4700家,下一步要撰寫包括加拿大、歐盟各公司的財報。對讀者來說,可以獲得更多公司的信息,美聯社的員工更是皆大歡喜,因為沒有人愿意做這些枯燥又重復的工作。
而《福布斯》雜志,早就在2012年“雇用”Narraive Science的Quill軟件撰寫類似美聯社的公司財務評論,供給讀者更多的信息,同時解除記者枯燥勞力,把省下來的精力做更有意義的分配。
現在全球發展機器自動編寫文稿的軟件,越來越多,有的是媒體內部應自身需要發展的專用系統,有的是自然語言處理公司,比如前面提到的Automated Insights與Naritive Science。目前全球包括騰訊、新華社、路透社、美聯社、彭博社、《福布斯》、網絡新聞ProPublica、《紐約時報》、《洛杉磯時報》、Yahoo等多家媒體都在使用機器撰寫稿件。
機器寫稿的強勢,在于制作例行重復性議題的報道,所采用的結構化的數據,如大批文字數據或數目數據,可以自動撰寫成簡潔、準確的報告,適合新聞報道。結構化的數據日益增多,機器自動報道可以節省人力,同時增加報道數量,是驅動使用機器寫稿的主要誘因。
機器寫稿有相當大的潛力,除了快速、大量制作,錯誤比人少,還可以用同一數據源做多種語言的報道,也可以從不同角度報道,更有潛力發展成按需報道,需要的時候才制作,像是依讀者的問題回答。
機器自動寫稿的成敗,關鍵在所依賴的數據與假設,但數據與假設都可能有偏差或錯誤,所以機器寫出的報道可能產生意外,甚至錯誤報道。所以目前的機器寫稿受相當的限制,例如不能解釋現象,不能建立因果關系,沒有立場。機器寫稿的文筆低于人類,目前的確如此,但隨自然語言處理技術的發展,大有改善的余地。
回到最初的兩個議題,一是記者這個行業是否就此終結,二是機器寫的八股文永遠趕不上人的文筆。這種說法都對,也都不對,因為現在的信息環境是動態的,不能用靜態的思維考慮,如果有一位記者的工作正是例行的財經與體育的報道,那就危險了,因為機器做的一定比你更快、更準、更多,你沒有辦法勝過機器。
至于說機器寫出來的無非是制式的文稿,有如八股,目前也確實如此,而且所報道的內容,也沒有文筆的修飾,只要把事情說清楚就行了。但假設機器寫作的能力僅此而已,則是低估了信息技術的發展能量,目前的機器可以從一份原始數據寫出不同角度的文稿,但新的技術正在增加詞匯,也就是文筆可能不再那么八股。比如,自己城市的報紙報道自己城市球隊輸球,機器會用婉轉的字眼,不會直接說輸了,機器記者也有歸屬感。
歐洲學界做了一個實驗,請很多人閱讀兩篇相同文稿,一篇屬名計算機,另一篇屬名一個人名,然后評論兩篇的差別。結果大多數人都說兩篇相同,唯有新聞系學生說屬名為人名那篇寫的較好。當然這個實驗用了一點技巧,兩篇都是計算機寫的,而且是同一篇,只能證明新聞系學生先入為主的概念。
自然語言處理的技術,正快速發展,機器取代多少人力的撰寫,無可限量,學界已經討論機器寫稿發生錯誤的責任歸屬,特別是報道爭議性議題或私人新聞,負責任的是計算機軟件的設計人、使用機器寫稿的記者還是報紙的發行人?所以更進一步,機器寫稿的運算邏輯是否應該公開?
那現在的記者對于機器對手要怎么看待?哥倫比亞大學數字新聞研究員、也是德國慕尼黑馬丁路德大學媒體研究員Andreas Graefe博士,提出了一個標新立異的想法,他要記者與機器記者產生“聯姻”關系,也就是結婚關系,因為只有婚姻關系才能維持長久,雙方取長補短,相互扶持,同時提高警覺,每當機器進一步,“另一半”要善加運用,提升編輯的功效,進而讓自獲得更多的工作經驗。這聽起來不無道理。