陳炳宇
“Xiaomingbot”是今日頭條媒體實驗室和北京大學計算機所共同開發的寫作機器人,主要從事體育方面的新聞寫作。符號學是一種以所有符號系統為研究對象,研究社會生活中符號生命的科學。符號學研究符號的組成,探討各種符號所代表的意涵,來建立一個“各種符號一般的科學:意義的系統”[1]。本文以“Xiaomingbot”為例,從符號學的理論角度來探析機器新聞寫作的表達特征,并將機器新聞寫作作品和傳統的人工新聞作品進行對比,對機器新聞寫作進行批判性解讀。
從2009年開始,美國西北大學智能信息實驗室就將自己開發研究的StatsMonkey系統投入了使用,發表了一篇關于美國職業棒球大聯盟季后賽的新聞稿件,有關人工智能的寫作自此開始被人們所熟知。之后,國內外的各大媒體也都在不斷地探索機器人寫稿的可能性,《洛杉磯時報》使用Quakebot系統,美聯社等媒體使用Wordsmith作為平臺進行新聞寫作……進入到2015年以后,騰訊財經頻道的新聞寫作機器人“Dreamwriter”發表了一篇名為《8月CPI漲2% 創12個月新高》的財經報道,開啟了國內寫作機器人進入新聞界的篇章。隨后,新華社的“快筆小新”、今日頭條的“Xiaomingbot”、南方報業集團的“小南”等采用人工智能技術的寫作機器人也開始逐漸登上這個舞臺。
寫作機器人“Xiaomingbot”是今日頭條實驗室和北京大學計算機所萬小軍團隊產學合作的成果。“Xiaomingbot”正式投入使用是在2016年,所寫作的是針對里約奧運會的賽事簡訊。在整個里約奧運會期間,“Xiaomingbot”撰寫的稿件贏得了一百多萬的閱讀量,平均閱讀率接近整個奧運會期間體育頻道的閱讀率。
在里約奧運會以后,“Xiaomingbot”將目標投向了歐洲冠軍聯賽(歐冠)、意大利足球甲級聯賽(意甲)和美國職業籃球聯賽(NBA)等各類體育賽事,同樣取得了不錯的成績。
在寫作特點上,“Xiaomingbot”首先是獲取網上有關寫作賽事的文字和討論,并將其總結歸納成為一個相對長的賽事描述,是一種基于UGC模式的信息采集手段;其次,“Xiaomingbot”采用先進的機器學習算法,能夠學習圖文語義匹配模型,在該模型的基礎之上,用今日頭條大量的圖片和文本做語義匹配,挑選合適的圖片,實現圖文自動關聯的發稿模式;此外,“Xiaomingbot”也運用了在機器新聞寫作中廣泛應用的模板生成技術,采用了依據句法結構的模板文本生成技術和摘要式生成技術,既能生成短資訊,也能夠生成比較長的資訊。[2]
在先進技術的支持下,如果不仔細閱讀,“Xiaomingbot”的新聞作品和傳統的人工新聞作品并沒有顯著不同,都能夠進行新聞報道,達到提供資訊的目的。但是,仔細分析,“Xiaomingbot”和傳統人工的體育資訊新聞仍然有著一些較為顯著的區別。
因技術限制,“Xiaomingbot”并不能識別視頻、動圖和音頻等符號形式,所以它的新聞作品都是由靜態的圖片符號和文字符號組成。盡管“Xiaomingbot”有著較為先進的圖文語義匹配模型和大量可供選擇的圖片數據,但在圖片符號和文字符號的匹配問題上仍然存在問題,給人明顯的機械感。
“Xiaomingbot”在進行圖文匹配的時候,通常會采用固定的模式。該模式的特征就是“一段 一 圖 ”。 在“Xiaomingbot”進行寫作的時候,它首先會收集網絡用戶以及其他今日頭條有權使用的信息,首先生成文字段落。隨后,根據文字段落的意義,在今日頭條的圖片庫里面進行圖文符號的匹配,再將圖片插入到段落之前,形成“圖片+段落”的作品呈現。并且,幾乎是每一段話都有圖片在前修飾。拿其報道意大利足球甲級聯賽的案例《意甲 第19輪 恩波利0:1國際米蘭 遺憾失利》[3]來說,除最后兩段對于兩隊陣容的介紹沒有采用配圖之外,其他所有的段落都采用了“一個圖片+一個段落”的內容呈現模式,沒有變化,顯得非常機械化。它在有關其他賽事的報道也是如此,幾乎都是采用“一個圖片+一個段落”的呈現方式,很少會有變化。
而由人工編輯產生的對同樣賽事進行報道的新聞作品,配圖則是更加自由。拿騰訊體育作者冷雪寫作的同樣比賽內容的文章《意甲-國米1-0取連勝穩居三甲 凱塔進球被吹仍破門致勝》[4]來說,文章開頭用一張典型的描繪比賽畫面的圖片來配圖,隨后在描繪比賽精彩部分的時候才去使用圖片進行解釋說明,并且會使用一些動圖,讓這個作品包含的符號更加多樣,畫面更加生動,更有一種生命感。
在語句的文本生成方面,許多寫作機器人僅僅是依據事先寫好的模板,將里面空缺的時間、地點、事件等信息補充完整,通過較為簡單的填空作業實現新聞信息的生成。而“Xiaomingbot”則在此基礎之上,應用了較為先進的文本生成技術,具有對用戶發表的文字、討論進行歸納整合的能力,并且學習多種賽事網絡文字直播員的語句應用策略,實現較為高級的語句生成。但是,仍然難以避免語句符號的獨立和僵化問題。
從“Xiaomingbot”報道2018年美網的比賽來看,這一段時間標題都是采用了“比賽名稱+選手名和比分+不敵對手/獲得勝利”的模式。內容上,第一段會采用與標題類似的結構,先是時間,然后是比賽名稱,最后是選手和比賽結果。而在第一段的用詞上面,如果說標題是某選手獲得勝利,那么開頭第一段結尾就會是“最終,某選手手感不俗,以幾比幾的比分獲得勝利”;如果說標題是某選手不敵對手,那結尾就會變成“最終,某選手不敵對手,以幾比幾的比分遺憾止步”。在隨后的段落里,“Xiaomingbot”則會對每局比賽過程的數據進行具體分析,而且在多數情況下會使用“比賽開始-隨后-緊接著-最終”的邏輯結構,用詞也很少會替換,呈現出單一、刻板、僵化的特點。
“Xiaomingbot” 將 文 字符號組合形成的語句結構的確沒有問題,但這種句子結構過分清晰和獨立了。換句話說,“Xiaomingbot”所寫出來的每一句話都可以非常輕松、明確地劃分所有的句子成分,而且大部分的語句都采用“主謂賓”“主謂賓+狀語”“主謂+狀語”的簡單句子結構,雖然結構的確很清晰、句子使用很正確,但給人以一種過分的正確感。每個文字符號的過分獨立,讓文章少了許多變化的美感,給人一種僵硬感。
而人工記者在進行新聞寫作的時候,一般來說會采用更為多樣和復雜的句式,讓文字符號有更多的組合方式,讓整篇文章的語句結構更加豐富,更有可讀性。
“Xiaomingbot”還存在的一個問題就是對于符號內涵和意義理解不夠,會出現使用方面的問題。
比如說,其對于圖片符號的意義理解就會出現偏差。在《NBA今日看點:哈登40+9+7火箭力克步行者,武切維奇21+14魔術大勝尼克斯》[5]一文中,文章的第一張圖使用了一張和NBA比賽毫無關聯的一張美國士兵舉著旗子的圖,這張圖會出現在東方IC圖庫中“火箭”一詞的詞庫當中。這就是因為“Xiaomingbot”未能理解段落和圖片的含義,造成圖片使用方面的錯誤。
此外,“Xiaomingbot”還可能對文字符號的意義理解出錯,其中最典型的就是其在之前里約奧運會報道上曾寫的“失敗女神朝其拋出了橄欖枝”[6]。“橄欖枝”是一個褒義的詞語,一般我們會寫“勝利女神朝其拋出了橄欖枝”,但不會將橄欖枝和失敗女神聯系起來。很顯然,“Xiaomingbot”在文字符號的深層意義的理解上依然會出錯。不過,針對于此,“Xiaomingbot”現在寫作的時候都會直接寫“取得勝利”“遺憾落敗”這樣雖然具有感情色彩,但相對簡單、意義不深的詞語,避免出錯。
當然,人類記者在新聞寫作的過程當中也難免會出現符號意義運用錯誤的問題。但是,人類記者發生此類錯誤的原因一般是粗心大意,而不是不能進行理解。
以上的三點缺陷是從符號學視角下對于機器新聞寫作的批判性解讀。這并不意味著機器新聞寫作是無用的。相反,寫作機器人因為有著發稿速度快、覆蓋范圍廣、不會疲勞等諸多優勢,在未來的新聞寫作中必將占有重要的地位。
在符號學的研究視角之下,我們可以清晰地看到機器新聞寫作存在著許多的問題。在此背景之下,筆者提出對于機器新聞寫作發展的四點建議。
機器寫作首先應該將自己語料庫和數據庫中的符號進行多樣化匹配。例如,“Xiaomingbot”中“一個圖片+一個段落”的匹配方式就顯得十分的機械、刻板。即使人工智能難以理解段落的重要性,無法根據內容的重要性來選擇是否需要匹配圖片。不過,寫作機器人的設計者可以嘗試將隨機化的思想引入到人工智能的寫作過程當中,嘗試基于大量文本數據的隨機試驗,并思考這些隨機化的思想是否可以對人工智能的符號匹配運用產生積極影響。
另外來說,對于文本符號之間的匹配也應該向多樣化的方向發展,改變刻板、僵硬的語句結構,嘗試讓文章每個符號變得不那么獨立,讓文字更加具有美感和可讀性。
關于語義理解方面,也是在機器人新聞寫作中必須要解決的一個問題。并且,這也是一個技術難題。
一方面,需要加強人工智能對于某些特定情感符號的理解程度,盡量理解詞語的感情色彩和其他特殊的使用規則,防止出現詞語的錯用現象。另一方面,要研究如何讓人工智能能夠識別圖像、聲音和視頻符號,并能夠將這些符號更自如地運用到新聞寫作當中。這樣一來,不僅可以促使文章的符號多元化和閱讀趣味的增加,也可以減少出現像“Xiaomingbot”對NBA比賽的報道中出現的圖文匹配錯誤的情況。
機器畢竟沒有人那么充沛的情感,寫出來的文字難免會有一些刻板和生硬。但是,為了追求更好的表達效果,即使是沒有感情的AI機器人所寫作的新聞作品,我們也應該要求它具有相對多的感情色彩,在語義理解的基礎之上增強對情感符號的運用,從而增強文章的可讀性,也讓文章更加富有美感,達至更好的傳播效果。
目前來看,“Xiaomingbot”已經會選用一些具有感情色彩的詞來幫助文章更好地進行場景呈現。它會使用一些具有感情色彩或者更加生動的詞語,比如“遺憾”“速戰速決”“勢如破竹”等,這使得它寫作的內容更加富有情感性。不過,比起其他體育頻道的專業記者來說,這些用詞仍然顯得刻板和生硬。而且,有些時候也會出現錯誤,在使用此類帶有感情色彩的詞語的時候也可能會發生類似于之前說的“失敗女神”和“橄欖枝”相搭配的錯誤。人工智能對于情感符號的運用仍然需要進一步的研究和發展。
新聞作品也是“人”的作品,是人類所創造符號的集合體。在某種意義上來說,人工智能也是人類創造的一種符號表現形式,比起人類而言,人工智能更像是一個“符號的集合體”。但是,人工智能是一種具有智能的存在,這也就意味著人工智能同樣具有創造性。并且,人工智能在某些方面也可以突破人類的局限性。
人工智能可以對人類現在構建的符號系統進行一些創新性的構建。寫作機器人的實驗者可以嘗試更多的可能性,給人工智能一些“獨立”的發展空間。并且,可以嘗試跳出已有的新聞框架、邏輯和理念,從創新的角度來對機器新聞作品進行分析和解讀,嘗試讓符號系統在人工智能語言下進行多元化和創新性的發展。
現今,機器人新聞寫作仍然處在一個快速發展的過程當中,正在對體育、財經領域的資訊類新聞寫作造成不小的沖擊。雖然不能否認機器人應用于資訊新聞寫作,可以將記者和編輯從煩瑣的基礎工作當中解放出來,更好地提升他們的創造力。不過,從符號學的視角下對于機器新聞作品進行研究,依舊能發現機器新聞寫作的很多問題。即使不考慮深度報道,僅僅針對資訊類新聞寫作方面而言,寫作機器人仍然有許多需要改進的地方。
注釋:
[1]曾一果.媒介文化理論概論[M].中國人民大學出版社,2014:93.
[2]刁毅剛,陳旭管.“Xiaomingbot”背后,寫稿機器人的技術探尋——專訪北京大學計算機科學技術研究所萬小軍博士[J].中國傳媒科技,2016(9): 7-11.
[3]“ 意甲 第19輪 恩 波 利0:1國 際 米蘭 遺憾 失 利”[EB/OL].今 日頭 條.https://www.toutiao.com/i6640443736377524739/.
[4]“意甲-國米1-0取連勝穩居三甲 凱塔進球被吹仍破門致勝”[EB/OL].騰訊體育.https://sports.qq.com/a/20181229/011006.htm.
[5]“NBA今日看點:哈登40+9+7火箭力克步行者,武切維奇21+14魔術大勝尼克斯”[EB/OL].今日頭條.https://www.toutiao.com/i6622865527284957703/.
[6]“奧運會乒乓球男子團體半決賽 中國隊(馬龍/張繼科/許昕)3:0小試牛刀輕取韓國隊(朱世赫/李相秀/鄭永植)”[EB/OL].今日頭條.https://www.toutiao.com/a6319219544476877313/.