本刊訊 一個叫「Xiaomingbot」的AI機器人,最近忙壞了。

里約奧運會期間,AI機器人「Xiaomingbot」通過對接奧組委的數(shù)據(jù)庫信息,實時撰寫新聞稿件,以跟電視直播幾乎同時的速度發(fā)布稿件。據(jù)了解,Xiaomingbot主要報道乒乓球、網(wǎng)球、羽毛球和女足的比賽,在16天內(nèi)共發(fā)布奧運新聞456篇簡訊和資訊。
Xiaomingbot是今日頭條實驗室研發(fā)的AI機器人,可以通過兩種文本生成技術(shù)產(chǎn)出新聞:一是針對數(shù)據(jù)庫中表格數(shù)據(jù)和知識庫生成自然語言的比賽結(jié)果報道,即簡訊;二是利用體育比賽文字直播精煉合成比賽過程的總結(jié)報道,即資訊。
Xiaomingbot到底是什么來頭?
Xiaomingbot,是今日頭條實驗室的研發(fā)成果,其「寫稿」模塊是由頭條實驗室與北京大學(xué)計算所(萬小軍團隊)聯(lián)合研發(fā)而成。
李磊博士正在跟團隊的小伙伴改良機器人算法。
這是國內(nèi)第一款可以報道奧運賽事的人工智能機器人,在結(jié)合了最新的自然語言處理、機器學(xué)習(xí)和視覺圖像處理的技術(shù)之后,通過語法合成與排序?qū)W習(xí)生成新聞。頭條實驗室負(fù)責(zé)人李磊博士介紹道,Xiaomingbot通過連接數(shù)據(jù)庫實時更新比賽信息,搜集相關(guān)選手背景信息,根據(jù)比賽規(guī)則判斷比賽進程,進而生成文本,自動配選圖片,最后潤色完成報道。機器人可根據(jù)比賽的總比分、每節(jié)比分情況以及比賽的不同項目、不同狀態(tài),生成不同的短訊和長文比賽詳情描述。
相比國內(nèi)第一代寫稿機器人——騰訊的 「Dreamwriter」和第一財經(jīng)的「DT稿王」,Xiaomingbot的寫稿技術(shù)已經(jīng)進入第二代寫稿水平。與第一代機器人相比 ,Xiaomingbot特征顯著:
1. 速度快 數(shù)據(jù)庫數(shù)據(jù)更新的2秒之內(nèi),即可生成新聞稿并完成發(fā)布。2秒的時間包含了從生成、提交到頭條號「奧運AI小記者Xiaomingbot」發(fā)布、通過頭條的推薦算法機制分發(fā)推薦給用戶的整個過程。
2. 樣式多 既可以生成長的詳細(xì)比賽描述總結(jié),也可以生成簡明扼要的快訊簡報,以前的自動體育新聞只能生成較短的文章。
3. 自適應(yīng) 根據(jù)比賽選手的排名,賽前預(yù)測與實際賽果的差異,比分懸殊程度,可以自動調(diào)整生成新聞的語氣,并使用感情色彩的詞語,如實力不俗、笑到了最后等。
4. 自動配圖 以前的自動新聞都只能生成文本,通過自動選圖技術(shù),Xiaomingbot可以給新聞配圖,更加生動形象。
能做到這些,頭條實驗室給Xiaomingbot的寫稿模塊使用了3種核心技術(shù):一種是通過概率文法生成文章,也就是說這個機器人生成的句子會有完整語法結(jié)構(gòu),有主語、謂語、賓語、時間、人物、地點等要素,同時不拘泥于一種形式來描述比賽,會有變化;另一種是通過排序?qū)W習(xí)算法決定一場比賽新聞描述中需要選擇什么樣的句子,重要的句子才會在新聞里出現(xiàn);還有一種是在技術(shù)上不算特別難,卻非常重要的比賽邏輯判斷,可根據(jù)每種項目不同的比賽規(guī)則來判斷比賽的激烈程度和比賽進程如是否結(jié)束、是否中間退出比賽等。
據(jù)了解,目前在做奧運報道的機器人只有兩家——《華盛頓郵報》的「Heliograf」和今日頭條的頭條實驗室「Xiaomingbot」。
Xiaomingbot并非想取代記者。相反,新聞機器人是記者的助手,可以幫助記者更高效的完成新聞報道工作。頭條實驗室負(fù)責(zé)人李磊博士說道。
Xiaomingbot最大的意義在于,面對奧運會這樣同時舉行上百場比賽的綜合賽事,記者很難關(guān)注到每一場比賽,而機器人可以任勞任怨的為每一場比賽報道,無論這場比賽多么冷門和不重要。傳統(tǒng)新聞理論并不認(rèn)為這些冷門比賽或者熱門比賽(比如乒乓球)的前幾輪小組賽有新聞價值,可是通過我們的平臺測試,我們發(fā)現(xiàn)對冷門場次的報道仍然有可觀的閱讀量,這個閱讀量非常長尾,而新聞機器人可以彌補對這種長尾的新聞需求。