999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

產學研合作路徑下網紅“Xiaomingbot”的前世今生——專訪今日頭條實驗室技術總監李磊博士

2016-11-18 07:45:32刁毅剛,陳旭管
中國傳媒科技 2016年9期
關鍵詞:實驗室人工智能文本

產學研合作路徑下網紅“Xiaomingbot”的前世今生——專訪今日頭條實驗室技術總監李磊博士

“Xiaomingbot”是自動創作、輔助創作的一部分

《中國傳媒科技》:里約奧運會之際,今日頭條推出了“Xiaomingbot”寫稿機器人,憑借其優異的表現引起了市場和用戶的高度關注,推出這款產品的初衷是什么?

李磊:今日頭條是一個基于大數據與人工智能的內容創作與分發平臺,一邊是內容創作者,另一邊是讀者,連接兩邊的是人工智能推薦算法。內容創作是其中的重要部分,我們希望能夠通過技術來幫助更多的內容創作者和新聞工作者更好、更快地創作高質量內容。“Xiaomingbot”是內容自動創作或者說是輔助創作的一部分,我們希望“他”能夠作為記者采編工作的補充。與此同時,我們也希望“Xiaomingbot”創作的內容是讀者們希望看到的。

《中國傳媒科技》:“Xiaomingbot”在奧運期間的表現如何?

李磊:整個里約奧運會賽季,“Xiaomingbot”撰寫的稿件贏得了一百多萬的閱讀量,平均閱讀率接近整個奧運會期間體育頻道的閱讀率,甚至還略高一點。從用戶瀏覽量來看,機器創作出來的新聞與人寫出來的新聞持平,令人驚喜。這也說明Xiaomingbot創作出來的簡訊和資訊與記者寫出來的可讀性差距并不大。

技術先行,前沿研究驅動產品

《中國傳媒科技》:在創造“Xiaomingbot”的過程中,都有哪些人員參與其中?

李磊:傳統意義上的產品開發流程是先由產品經理做調研,確立了產品開發方向之后,再與技術人員合作,最后將需要的配套資源加上去。然而“Xiaomingbot”的研發成型是純技術驅動的,最開始由頭條實驗室發起,我們的研發人員與北大萬小軍教授團隊都在做文本生成技術,我們具備共同的興趣和目的,因此我們在技術上有了合作。此外,參與“Xiaomingbot”產品研發工作的,除了頭條實驗室的研發人員外,公司內部還有體育頻道運營人員負責與奧組委對接拿到實時數據;內容運營部門的同事幫助改進機器人稿件的“寫法”;頭條學院也提供了很多幫助,早期由他們試讀“Xiaomingbot”的文章,并提出修改意見。整個過程得到了多方面配合,產品在啟動后兩周內就上線了第一個版本,然后不斷快速迭代,奧運會之后又做了升級,直到現在看到的這個版本。

如果仔細閱讀,你會發現從8月6日開始到現在Xiaomingbot生成的新聞內容是不斷優化的。因為算法在不斷改進,特別是文本生成算法做了比較大的升級,從一開始無配圖、篇幅較短的簡訊到后面篇幅可長達千字且智能配圖的資訊出現,期間進行了大量技術創新和產品升級迭代。

《中國傳媒科技》:整個研發過程大概有多久?

李磊:前期有較長時間的研發積累,這個時間大概有大半年。但是真正的產品化過程很快,從7月22號開始到奧運會第一篇新聞發出來大概用了十幾天時間。

《中國傳媒科技》:目前“Xiaomingbot”做了哪些技術改進,現在從事什么工作?

李磊:里約奧運會結束后,我們又研發了一項新技術,即根據時間線做賽事描述。比如,足球比賽的時間比較長,中間精彩的點很多,射門、犯規等動作都可以被捕捉到,結合一部分網上的文字直播,最后根據比賽進程來進行總結歸納。現在,“Xiaomingbot”在跟進報道歐洲的足球聯賽、五大聯賽,閱讀率都還不錯。以后,我們希望把他做得更加通用。不過這存在兩方面困難,一方面是數據來源問題,體育數據比較理想,其他領域如社會新聞、娛樂新聞等未必會有比較適合的數據;另一方面是技術困難,“Xiaomingbot”應用的文本生成技術還有很多進步的空間,未來我們希望可以做到專業記者的寫作水平。

《中國傳媒科技》:據一些技術媒介評價,“Xiaomingbot”是領先的第二代機器人,您是否認同這個判斷?

李磊:我本人沒有做過斷代的判斷。我理解媒體所說“第二代”的原因可能是與騰訊、《華盛頓郵報》等同時期機器人之間的區別,后兩者寫稿機器人的主要應用技術是模板生成;所謂模板生成就是先寫一個框架,里面有一些空白部分,像填空一樣把時間、地點、結果和過程數據填進去;這種方法相對簡單,但問題在于很難寫得生動。我們的寫稿機器人也應用了這項技術,但是除此之外,我們還采用了剛研發出來的新技術,能夠生成長篇幅新聞。機器人通過獲取網上的文字和討論,將其總結歸納成為一個相對長的賽事描述,同時還可配圖。從這一點來說,相比之前的寫稿機器人,語氣上更加人性化,信息元素更豐富,更具可讀性。

《中國傳媒科技》:您認為未來新聞機器人還有哪些研發趨勢,是否有可能做一些突發性報道或者災難性報道?

李磊:我認為是非常有可能的。做這一類新聞首先需要一些數據,像災難性事件都會在微博或者其他社交網絡上出現得比較快,比如天津發生爆炸事故時,微博上第一時間就出現了很多線索,在早期就可以整理出來形成報道。所以在數據獲取上比以前更容易;同時還需要的技術是能夠總結歸納,把很多人在微博上發的片段,甚至圖片梳理起來變成通順的文章。這些現在是由人完成的事,未來可以由機器人去做。

《中國傳媒科技》:基于UGC信息做總結歸納,是否會造成時間上的滯后?

李磊:“Xiaomingbot”寫作從生成到發布再到讀者在feed流看到,整個過程平均2秒左右完成。未來的發展瓶頸并不在生成的環節,而是在數據采集環節。數據采集有多快,新聞生成就有多快。

《中國傳媒科技》:機器人實現觀點性報道或深度報道大概會需要多久的時間可以實現?

李磊:在某些特殊的限定領域,如娛樂類新聞實現這個目標可能相對較快,在通用領域還需要比較長時間。

兩大方向

《中國傳媒科技》:未來觀點性的自動寫作、深度寫作,也是要按照領域去實現,是這樣一個路徑圖嗎?

李磊:兩個方向,一個是按照領域,另一個是按照具體技術。目前“Xiaomingbot”比之前有一些進步,是因為我們有了一些技術可以生成長篇幅新聞,但還不足以實現生成深度新聞。我們需要研發更多技術,使機器人更具理解力,能夠閱讀歷史新聞,理解新聞事件的來龍去脈并梳理出來,就像記者搞調研一樣。

《中國傳媒科技》:未來新聞機器人的研發難點是什么?

李磊:現在能夠做到的是事實類新聞的報道,比如一場比賽誰參加了、比分多少,能夠講得比較清楚;還可以根據用戶的評論生成文字,講述也比較生動。但困難的是觀點類的新聞,如分析美國大選,每個人的觀點怎樣、對政治觀點進行評價,這就比較困難了。另外,在體育比賽中,分析球員打得怎么樣、是否發揮出優勢,目前這些評價比較難以做到,是需要我們未來研發的技術方向。

模板文本生成+摘要式生成

《中國傳媒科技》:目前,市場上有一些機器人寫稿的產品,那么今日頭條的產品特色是什么,是否有向其它新聞機構推廣該項技術的打算?

李磊:首先我們在技術上用了依據句法結構的模板文本生成技術和最新研發的摘要式生成技術,技術上是比較領先的;其次,我們的寫稿機器人既能夠生成短的簡訊,也能夠生成比較長的資訊;第三,頭條擁有龐大圖片類資源,寫稿機器人可以自動地為新聞配上圖片,使報道圖文并茂。

二是實施組織優化方略,推進水資源一體化管理。鑒于水資源的流動性、循環性和基礎性等特征,將隔斷的水連接起來,推進涉水事務一體化管理。基于流域水資源合理配置,完善流域一體化管理;按照統籌城鄉、以城帶鄉的要求,積極推進城鄉供水統籌管理。加強水管理部門內部、水管理部門同環保、城建等部門的協調,進一步提高水資源管理的一體化水平,從短期來看,推進建立水資源統一管理機構;從長期看,建立資源環境一體化管理機構,從根本上改變水資源管理分散和割裂的局面,改善水資源的總體功能。

如果有(推廣)需求的話,寫稿機器人完全可以形成一個產業,但我們還是要說明寫稿機器人的目標并不是取代記者,而是幫助記者更快、更好地采編。

準確率可達75%

《中國傳媒科技》:據觀察,頭條實驗室即將推出自動問答機器人,該款產品將于何時發布,回答的準確率如何?與微軟小冰等同類產品相比有哪些不同?

李磊:頭條已經掌握自動問答技術,在今年的國際計算語言學大會(ACL2016)上,我們發表的論文介紹了這項技術,但距離產品化還需要一些時間。我們希望把這個技術做得更通用一些。因為我們今年研發的這個技術是針對事實類的問題可以做自動回答。比如說:你問《北京折疊》是誰寫的,機器人可以回答出來是郝景芳。不過回答像過程類問題,如紅燒肉怎么做;觀點類問題,你對什么事情有什么看法;以及解釋性問題,比如,宇宙的外面是什么等等還是非常困難的。

目前看來,我認為技術上需要突破的還有很多。做問答最常用的技術是搜索技術和基于神經網絡知識庫的問答技術,我們用的是后者。

未來如果需要回答更多的過程性、解釋性和觀點性問題,機器學習、自然語言理解方面的技術還需要做很多突破。自然語言理解和生成,一方面需要對其進行理解,到底問的是什么意思;另一方面需要用人類的語言寫出來,這就是自然語言生成。

頭條問答機器人測試的準確率是75%,這是第三方的公開數據,一共有10萬個問題和答案,其中7萬拿來作為機器人的訓練學習,剩下3萬用來做測試,測試出來的結果表明數據準確率是75%,在我們之前做的最好的是Facebook,他們的準確率是62.9%,我們高出了12個百分點。

產品與前沿科技并重

李磊:頭條實驗室的宗旨是前沿技術積累和為頭條產品提供技術支持。頭條實驗室是前沿研究和技術產品化并重,高效推進前沿技術到產品的快速轉化。目前頭條實驗室最關注的領域是人工智能,具體的方向是機器學習、自然語言理解和計算機視覺理解。機器學習方面,我們會關注大規模的推薦、更高效的機器學習算法以及文本分類等問題,自然語言理解方面將繼續研究包括文本的理解、文本生成、自動摘要、自動問答等領域的技術;在計算機視覺方面,我們會做一些技術去識別人臉、識別文字、識別相似的圖片以及視頻里的一些物體。未來將可以更好地為讀者推薦內容。

在產出成果上,一方面我們會發表一些論文在國際頂級人工智能會議、期刊上,目前為止頭條實驗室已經在國際大會上發表了2篇論文;我們希望對學術圈做出貢獻,技術研發后開放出來,同世界分享,可以促進人工智能領域的學者們將技術推到更高的水平,也希望有其他人或機構使用,讓技術得到更多的實際價值。

數據是燃料

《中國傳媒科技》:那么,在頭條做研發工作,有哪些優勢?

李磊:我們最大的優勢是數據,頭條作為一個平臺已經積累了海量文本、圖片、視頻。這些數據可以作為我們研究人工智能的最大動力;人工智能技術像一個發動機,我們的數據就是發動機的燃料。

頭條有四個方向可以與人工智能做結合。一個是創作;一個是分發、推薦,怎樣把好的內容推薦給用戶;還有討論,如何促進讀者對我們的內容進行討論;最后一個是審核。這四個方面都與人工智能有關。而“Xiaomingbot”會與創作這個環節比較有關聯。

《中國傳媒科技》:有一種觀點認為學校的東西很前沿,也很難產業化,那么這次與萬小軍老師的合作正好駁斥了這種觀點,可否談一談這次合作的經驗。

李磊:這是頭條實驗室成立以來與學術界的首次緊密合作,以往很多企業與學術界的合作僅僅停留在技術研發,發表幾篇論文就結束了。但頭條實驗室與北大萬小軍的合作在發表了論文的基礎上,還開發出了受到廣大用戶認可的產品,我們今后會多推動這種合作模式。

這次與萬小軍老師團隊的合作是基于我們的共同學術興趣,萬小軍老師對文本摘要與生成的研究是全世界領先的,所以我們邀請到萬小軍老師來我們實驗室做技術交流,合作一事也在這次交流中一拍即合。一方面,我們可以憑借各自的技術特色相互促進;另一方面,學校和企業各有優勢。比如,我們很容易利用各種資源把用戶需要的產品快速落地,學校也希望能夠把技術應用到產品上,這種產學研模式是成功的。

后記:在采訪過程中,李磊博士還與記者分享了一則趣事,在奧運會期間,正值國際計算語言學大會在德國洪堡大學召開。萬小軍團隊以及頭條實驗室的技術人員一邊從事“Xiaomingbot”的運營維護工作,一邊將新研發的技術在會議上發表分享。

此次采訪中,我們看到的不僅是科技推動傳媒業進步的成功案例,還看到了在冰冷的機器人背后那些力求以先進技術分享推動廣泛應用、以科技進步改變未來人類生活的科學家們滾燙的赤子之心。

猜你喜歡
實驗室人工智能文本
在808DA上文本顯示的改善
電競實驗室
電子競技(2019年22期)2019-03-07 05:17:26
電競實驗室
電子競技(2019年21期)2019-02-24 06:55:52
電競實驗室
電子競技(2019年20期)2019-02-24 06:55:35
電競實驗室
電子競技(2019年19期)2019-01-16 05:36:09
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
人工智能與就業
IT經理世界(2018年20期)2018-10-24 02:38:24
數讀人工智能
小康(2017年16期)2017-06-07 09:00:59
下一幕,人工智能!
南風窗(2016年19期)2016-09-21 16:51:29
主站蜘蛛池模板: 久久黄色小视频| 呦视频在线一区二区三区| 日本亚洲欧美在线| 国产高清不卡视频| 亚洲国产亚综合在线区| 青草娱乐极品免费视频| 99久久精品免费看国产电影| 欧美一区精品| 男女性色大片免费网站| 久久精品娱乐亚洲领先| 亚洲免费毛片| 国产福利免费在线观看| 国内精品小视频在线| www.亚洲一区| 久久精品电影| 欧美成人A视频| 亚洲永久色| 欧美高清三区| 欧洲一区二区三区无码| 欧美成人综合在线| 精品视频第一页| 国产精品不卡片视频免费观看| 国产精品19p| 亚洲国产精品一区二区高清无码久久 | 激情六月丁香婷婷| 毛片网站观看| 亚洲国产成人无码AV在线影院L | 日韩AV无码免费一二三区 | 日本一本正道综合久久dvd| 91无码视频在线观看| 她的性爱视频| 在线观看热码亚洲av每日更新| 亚洲视频欧美不卡| 日韩专区欧美| 欧美一区二区福利视频| 亚洲国产成人在线| 四虎在线观看视频高清无码| 国产亚洲精品自在久久不卡 | www.精品国产| 在线观看免费人成视频色快速| av一区二区三区高清久久| 亚洲综合第一区| 欧美日韩在线亚洲国产人| 亚洲美女一区| 欧美天堂在线| 囯产av无码片毛片一级| 亚洲区第一页| 免费在线看黄网址| 久久久久九九精品影院| 国产无码精品在线| 免费高清a毛片| 久久伊伊香蕉综合精品| 福利在线一区| 伊人色综合久久天天| 国产极品粉嫩小泬免费看| 麻豆精选在线| 中文成人无码国产亚洲| 狠狠色婷婷丁香综合久久韩国| 亚洲成人在线网| 丝袜无码一区二区三区| 国产精品一区二区在线播放| 欧美视频二区| 成人午夜久久| 美女免费黄网站| 人妻精品全国免费视频| 欧洲亚洲一区| jijzzizz老师出水喷水喷出| 午夜福利无码一区二区| 日韩在线影院| 亚洲综合二区| 欧美国产日韩一区二区三区精品影视| 日韩欧美国产中文| 午夜福利在线观看入口| 亚洲欧美成人综合| 亚洲一区免费看| 曰韩人妻一区二区三区| 99re经典视频在线| 欧美精品高清| 曰韩人妻一区二区三区| 成人无码一区二区三区视频在线观看| 欧美国产在线精品17p| 国产精品成人AⅤ在线一二三四 |