文/ 佚 名
寫稿機器人
文/ 佚 名

2015年9月10日,一條標題為《8月CPI漲2%創12個月新高》的新聞在騰訊財經上發布。看上去,這條新聞的內容和媒體記者日常的消息稿無異,引用了統計局的數據,還加入了國家統計局城市司高級統計師余秋梅以及銀河證券等分析師對數據的分析和預測。但它背后的作者,其實是騰訊財經開發的寫稿機器人 Dream Writer。
“機器人來搶記者飯碗了!”“記者們已哭暈”……寫稿機器人一時間引發業內熱議。
“根據算法在第一時間自動生成稿件,瞬時輸出分析和研判,一分鐘內將重要資訊和解讀送達用戶?!碑敃r騰訊這樣描述自家的寫稿機器人。
距離寫稿機器人Dream Writer發出的第一篇新聞已有一年多的時間,媒體中陸續已有如第一財經“DT稿王”、新華社“快筆小新”等機器人開始參與寫稿工作。
Dream Writer項目副總監劉康對包括第一財經在內的媒體透露,目前財經+科技應用的發稿量超過2000篇/天,體育稿量500篇/天,包括每天行情報盤、上市公司公告精要報道,以及體育賽事每輪每場的消息。
不僅如此,基于寫稿機器人,騰訊內部一款集合了新聞資訊類AI和超級資訊服務秘書類的應用正在研發當中。
之所以開發一款寫稿機器人,源自騰訊自己的“痛點”。
劉康回憶,當時他所在的騰訊財經頻道招了一批新人和實習生,大量的基礎工作、快速的稿件、財報、宏觀數據變動、板塊變動都需要快稿,這對新人來說既枯燥也辛苦?!八源蠹叶荚趩柲懿荒茏寵C器來做,這樣的話,我們富有創造力的新人可以把自己的精力留下來,做更有創造力的事情,這是我們做這件事情的起點?!?/p>
于是,從2014年12月開始籌劃并建立數據庫,到2015年3月正式啟動機器人寫作項目,經過開發和測試約半年后,騰訊寫稿機器人Dream Writer于2015年9月正式上線。
事實上Dream Writer的團隊僅有5個人,不過多個騰訊部門均被卷入Dream Writer工作中,參與搭建和底層支持。
在過去一年半的時間里,這支團隊一直在低調運作。Dream Writer一直在持續工作,尤其在奧運會期間,Dream Writer產出內容達3600余篇,其中第一塊金牌的新聞就是機器人寫的。
劉康表示,從文本的角度,機器寫作實現從0到1,是相對簡單的,例如,用技術團隊簡單做一個財報系統,或是給體育賽事做一個基本的描述這類模塊化的寫作,但是如何從1到3,讓機器人的稿子寫得有“人情味兒”、對細節描述更加到位和精彩,花費了相當多的精力。
以寫跳水新聞為例,這是一個評分制的比賽,評委對于走板、空中姿態、落水姿態、水花等等每個動作的打分,都有詳實的數據被記錄在數據庫里。接下來,這些數據會被騰訊通過一定的算法和機器自己的識別——先讓機器跑幾十萬篇的數據,跑一個規則出來,它會自己把這些數據重新還原。因為每一個分數都可以還原成一個動作,這樣通過一定的算法把它還原成原先的場面就變得可行。
其實競爭對手也有很聰明的寫稿機器人,不過對方的做法是抓直播間的描述,通過一定的算法和邏輯拼接成一篇文章,而騰訊寫稿機器人Dream Writer不一樣,是基于特別細顆?;臄祿M行還原。
“今天數據量非常細,細到可以描述到每一個數據的顆粒還原。”劉康說,“比如足球的一個動作怎么記進數據庫里面,射門包括射偏、打中立柱、高出立柱……這些都可以用數據還原?!?/p>
而在寫稿機器人背后的核心技術,主要涉及的有包括智能撰文技術、內容抽取技術、要聞萃取技術這三項。目前騰訊已經獲得相關專利。
以內容抽取的技術為例,Dream Writer可以把一篇千字文章概括為數百字,其中涉及到統計學、深度學習等技術。在財經領域,寫稿機器人更依賴統計學,但在其他內容領域,騰訊可能需要單獨研發一款算法產品模型。
此外,針對寫稿機器人所寫的稿件,騰訊成立了一個專門的安全管理平臺進行內容風險管控:第一輪,機器寫作時會單獨做一個算法和規則判斷機器寫的有沒有問題;第二輪是經過安全審核;第三輪才能正式推出來。這中間銜接時間越少,意味著出來的作品既準確又迅速。
劉康透露,目前Dream Writer在財經、科技、體育等領域的常規撰文、批量撰文已經開發完成,這款寫稿機器人未來一年甚至更長的時間的工作重點,主要在于持續進行優化文本,并且將內容生產領域從目前的科技、財經和體育擴充到全品類,并不急于考慮商業化。
例如,在財經領域新聞的寫作上,盡管目前寫稿機器人本身具備強算法規則和模型,但難度也不小,特別是對數據的解讀和認知,甚至將來的預測。劉康坦言,如果希望Dream Writer寫得更深度,甚至將來要寫行業研報、垂直類深入的研究,目前仍需要再花時間深耕。
在劉康看來,寫稿機器人不會搶走記者的飯碗,而是希望Dream Writer能夠解放記者,讓記者從事更具挑戰和智慧的工作?!斑h遠談不上取代(記者),我希望它始終是個助手,幫我整理資料,然后我來賦予它生命?!?/p>