999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Narrative Science:講述隱藏在數(shù)據(jù)中的故事

2018-05-15 08:17:44陳銘徐麗芳
出版參考 2018年2期
關(guān)鍵詞:文本分析

陳銘 徐麗芳

摘要:機器擅長數(shù)據(jù)分析,人類更傾向于閱讀故事而不是去分析大量復雜的數(shù)據(jù)。Narrative Science是一家提供自然語言處理服務的科技公司,可以幫助客戶分析海量數(shù)據(jù)之間的關(guān)系,并轉(zhuǎn)化為簡明凝練、具有可讀性的文本。憑借優(yōu)質(zhì)的、不斷拓展更新的產(chǎn)品和服務,該公司超越最初的出版?zhèn)髅绞袌觯瑸槠渌袠I(yè)需要分析和理解大量數(shù)據(jù)的用戶提供基于自然語言的數(shù)據(jù)分析文本服務。毋庸置疑,隨著自然語言處理技術(shù)的突破,人工智能將進入更多高級人力勞動的領(lǐng)域。

關(guān)鍵詞:Narrative Science

2017年1月,麥肯錫全球研究所(Mckinsey Global Institute)發(fā)布的報告《可實現(xiàn)的未來:自動化、就業(yè)和生產(chǎn)力》顯示,目前人類所從事的一半職位有望在2055年實現(xiàn)自動化。隨著時代的不斷進步和發(fā)展,尤其是人工智能的出現(xiàn),技術(shù)將逐漸取代一些需要思考能力和創(chuàng)造能力的高級人力勞動。

敘事科學(Narrative Science)是美國一家自然語言處理(NaturalLanguage Processing,NLP)服務提供商(公司Logo見圖1),但它并不只是為客戶提供簡單的自動化寫作服務。目前,計算機強大的運算能力可以將許多復雜的數(shù)據(jù)圖形化,卻很難將數(shù)據(jù)以自然語言輸出一篇人性化的故事呈現(xiàn)在人們眼前。Narrative Science所提供的服務是將海量數(shù)據(jù)或圖表輸出為生動有趣且極富洞察力的故事內(nèi)容,其首席技術(shù)官克里斯蒂安·哈蒙德(Kristian Hammond)始終強調(diào):“Narrative Science是在進行真正的創(chuàng)作,絕不是基于文本庫的生搬硬套。”毫無疑問,Narrative Science正在重新設(shè)定人們對于人工智能的期望,其先進的自然語言處理技術(shù)也意味著機器已經(jīng)開始深度學習更多人腦思考的領(lǐng)域。

一、Narrative Science的成長與擴張

2010年,Narrative Science正式成立,其創(chuàng)辦靈感來源于美國西北大學創(chuàng)新實驗室里一項有趣的人工智能技術(shù)——統(tǒng)計猴(StatsMonkey)。和當下流行的寫作機器人小冰一樣,Stars Monkey可以自動撰寫報道,從網(wǎng)頁中抓取棒球比賽的數(shù)據(jù)信息,并在12秒內(nèi)生成一篇生動的新聞故事傳達賽況、比賽得分和勝率概率等。同年,Narrative Science的創(chuàng)始人斯圖爾特·弗蘭克爾(Stuart Frankel)聯(lián)合哈蒙德共同研發(fā)出同名人工智能寫作軟件后,在美國中央情報局的相關(guān)機構(gòu)如In-Q-Tel(美國非營利性質(zhì)的風險投資機構(gòu),專門投資高新技術(shù)公司,旨在推動最新信息技術(shù)的應用以支持美國的情報處理能力)的大力支持下,公司正式開始商業(yè)運作。

Narrative Science起初只被應用于美國西北大學棒球比賽等體育賽事的即時報道,后來逐漸開展財經(jīng)報道業(yè)務。2011年,NarrativeScience先后被《紐約時報》等知名媒體所報道,在科技創(chuàng)意公司中嶄露頭角。2014年,它獲得1000萬美元融資,投資方包括聯(lián)合服務汽車協(xié)會(Tlle United Services AutomobileAssociation)和巴特利風險投資公司(BatteryVentures)等。截至2017年4月,該公司共完成6輪3240萬美元的融資,與瑞士信貸、福布斯(Forbes)以及美國政府部門在內(nèi)的機構(gòu)建立了合作關(guān)系。Narrative Science最有力的競爭對手自動洞察公司( Automatedlnsights)因自感無法與Narrative Science直接展開競爭,將服務目標客戶定位于小型報刊。短短幾年,Narrative Science迅速擴張業(yè)務版圖,客戶范圍囊括北美、歐洲等全球各大地區(qū)的金融服務公司、互聯(lián)網(wǎng)企業(yè)和政府機構(gòu),一躍成為業(yè)界的領(lǐng)軍者(見圖2)。

1.技術(shù)核心:將數(shù)據(jù)變成可讀的人性化文本

數(shù)據(jù)已經(jīng)滲透到當今的每一個行業(yè)和業(yè)務職能領(lǐng)域,并成為重要的生產(chǎn)因素。但是,如果數(shù)據(jù)沒有得到充分的智能化處理,人們無法有效吸收大量數(shù)據(jù)中所包含的信息和知識,那么這些數(shù)據(jù)就是無用的。目前,大多數(shù)知識工作者和消費者都面臨著處理海量數(shù)據(jù)并做出正確決策的挑戰(zhàn)。NarrativeScience希望借助計算機技術(shù)幫助用戶解讀數(shù)據(jù),并將之轉(zhuǎn)化為可讀性較強的文字傳遞給用戶;即使是一些不熟悉高等數(shù)學和邏輯結(jié)構(gòu)等數(shù)據(jù)分析知識的客戶,也能迅速地獲得數(shù)據(jù)中隱藏的關(guān)鍵信息。哈蒙德表示:“凡是數(shù)據(jù)存在的地方就應該有故事,寫作機器人的價值在于充當數(shù)字與故事之間的中介。”

“鵝毛筆(Quill)”是Narrative Science旗下的主要產(chǎn)品,具備強大的讀寫和敘事功能,可以自動將大量復雜的數(shù)據(jù)或圖表轉(zhuǎn)化為凝練且富有洞察力的自然語言,還允許客戶定制敘述故事的語氣。Quill采寫故事的過程分為四步(見圖3):首先,搜集大量高品質(zhì)數(shù)據(jù)以建立一個龐大的數(shù)據(jù)庫,例如財經(jīng)領(lǐng)域所涉及的每股收益、股價變化等數(shù)據(jù)。其次,在海量數(shù)據(jù)中借助算法篩選出具備講述價值的數(shù)據(jù),即一些偏離常態(tài)的“異常數(shù)據(jù)”。Narrative Science內(nèi)部有一個能進行編輯判斷的系統(tǒng),將許多寫作的價值都內(nèi)置于系統(tǒng)的算法中。再者,選擇故事的敘事結(jié)構(gòu),Quill會根據(jù)數(shù)據(jù)的重要性對各種可能的敘事角度進行排序,形成文章的整體架構(gòu)。最后,把要描述的數(shù)據(jù)嵌入到系統(tǒng)提供的“元模板”中。“元模板”是由Narrative Science雇用一批訓練有素的文字工作者創(chuàng)造的寫作風格和手法,聯(lián)合計算機工程師一起“培訓”機器寫作能力而形成的。在利用“元模板”組織文章時,機器通過詞匯庫組建句子得到最后的故事。例如,Quill在分析一組有關(guān)易貝(Ebay)集團投資收益下降的數(shù)據(jù)時,生成的報道包含如下文本: “該公司的整體會計風險評估為業(yè)內(nèi)平均水平以下,股價在過去的一個月里持續(xù)下跌,但對投資收益未來的調(diào)整可持樂觀態(tài)度。”這讓投資者可以避開那些晦澀難懂的數(shù)據(jù)和圖表,直接從Quill提供的文字中了解Ebay在會計層面的細微變化趨勢。機器擅長分析數(shù)據(jù),人類則更擅長閱讀。Narrative Science的獨特之處就在于滿足了人們傾向于閱讀故事的心理。

2.市場定位:超越媒體市場,聚焦多領(lǐng)域大數(shù)據(jù)業(yè)務

好的技術(shù)本身并不足以成就一家成功的公司,它必須根植于適當?shù)氖袌鐾寥乐小arrative Science在剛起步時致力于開拓媒體業(yè)務,和其他提供自動化寫作服務的公司一樣,專門為一些媒體機構(gòu)和內(nèi)容出版機構(gòu)提供產(chǎn)品和服務。對于初創(chuàng)時的Narrative Science而言,出版?zhèn)髅叫袠I(yè)就是一個現(xiàn)成的市場,報紙新聞、雜志甚至是在線出版物都需要自然語言處理工具,尤其是體育和財經(jīng)報道,Narrative Science可以將記者從單調(diào)且重復的工作中解放出來。目前,包括福布斯網(wǎng)站、專門出版建筑類雜志的漢利伍德出版社( HanleyWood)以及體育新聞網(wǎng)站美國十大聯(lián)盟(The Big TenNetwork)在內(nèi)的多家知名媒體都選擇使用NarrativeScience的產(chǎn)品。福布斯還在網(wǎng)站上專門設(shè)置了由NarrativeScience所生成的新聞網(wǎng)頁。

在掌握新聞報道的寫作藝術(shù)之后,Narrative Science意識到他們的技術(shù)在其他行業(yè)能擁有更大的機會。事實也是如此,任何需要分析和理解大量數(shù)據(jù)的公司都有可能是它的目標客戶。隨著一些金融服務公司和政府情報機構(gòu)頻頻拋出橄欖枝,Narrative Science改變了戰(zhàn)略方向,將業(yè)務重心從出版?zhèn)髅绞袌鲛D(zhuǎn)移到各個領(lǐng)域的大數(shù)據(jù)業(yè)務。Quill所使用的自然語言處理技術(shù)依賴于大量高質(zhì)量數(shù)據(jù),而金融服務公司和政府情報機構(gòu)擁有豐富的數(shù)據(jù)資源,以及改善與客戶溝通的迫切愿望。2017年2月,美國財務信息服務公司輝盛(FactSet)將Quill工具整合到其客戶報告的分析平臺中。作為一家金融服務提供商,F(xiàn)actSet為金融專業(yè)人士如投資銀行家等提供金融數(shù)據(jù)和分析服務。Quill的加入使其客戶端在季度財務報告發(fā)出的第一天就可以自動生成點評報告,所覆蓋的報告規(guī)模有望呈指數(shù)型增長,報告的客觀性和風格的一致性得到了很大提升。如今,Narrative Science的產(chǎn)品被許多國家和地區(qū)的數(shù)據(jù)服務提供商采用,其中包括業(yè)界領(lǐng)軍的大數(shù)據(jù)咨詢公司厄耐勒迪斯額( Analytics8)和商業(yè)智能服務提供商比茨數(shù)據(jù)( BizData)等。Narrative Science成功地從一家面向出版?zhèn)髅绞袌鎏峁┓盏摹伴L尾媒體”公司轉(zhuǎn)型為一家編寫和銷售商業(yè)軟件的技術(shù)提供商,聚焦金融等領(lǐng)域的大數(shù)據(jù)業(yè)務,為用戶提供自然語言處理方面的創(chuàng)新性服務。

3.產(chǎn)品形態(tài):不斷更新,提供豐富的產(chǎn)品服務

在擴大市場的同時,NarrativeScience也不斷創(chuàng)造和優(yōu)化面向大數(shù)據(jù)服務的軟件工具,以滿足不同客戶的需求。Quill是它的第一代主流產(chǎn)品。2014年3月,Narrative Science在Quill的基礎(chǔ)上推出Quill Engage。這是一款免費的谷歌分析(Google Analytics,GA)軟件,可以簡單凝練地表達被分析對象的關(guān)鍵指標和業(yè)績表現(xiàn),如網(wǎng)站內(nèi)容的關(guān)注度、網(wǎng)絡訪問量等,還可以通過分析歷史數(shù)據(jù)預測行業(yè)的走向和趨勢。2016年,Narrative Science與視覺分析軟件供應商柯利克(Qlik)進行合作,推出Quill系列的第三代產(chǎn)品——Quill for Qlik。行業(yè)分析師塞斯·格里姆斯(Seth Grimes)表示: “這是一次商業(yè)智能領(lǐng)域突破性的創(chuàng)新。”Quillfor Qlik可以彌補可視化工具在解釋大量數(shù)據(jù)之間復雜關(guān)系時的不足,通過自然語言文本讓終端客戶更容易識別不同數(shù)據(jù)集之間的關(guān)系(見圖4)。圖4是Quill for Qlik分析各國銷售總額占比的餅狀圖。文字中條列的數(shù)據(jù)包括各類產(chǎn)品的銷售總額、銷售總額占比的最小值、銷售總額占比的最大值、極差和集中度等。其中,銷售總額直接反映各國的消費需求,極差反映各國銷售總額的離散幅度和波動范圍,而相對集中度則折射出各國與相對規(guī)模的差異。這些極具說服力的數(shù)據(jù)被轉(zhuǎn)化為平白淺近的文字。此外,用戶可與Qilk可視化工具生成的圖表進行交互,選擇特定的數(shù)據(jù)范圍進行重點分析。其次,這款工具可以減少原先負責生成報告和向客戶解釋數(shù)據(jù)的中層管理人員人數(shù),讓高層管理人員直接與客戶進行互動,有利于實現(xiàn)公司的扁平化管理。

除了對旗下的主打產(chǎn)品Quill進行升級改造,Narrative Science還借助Quill的高級自然語言處理平臺推動其他面向不同客戶需求的軟件開發(fā)。微軟的PowerBI(Business Intelligence,商業(yè)智能)是一套用于分析數(shù)據(jù)和共享見解的商務分析工具,包括各種可拓展的可視化圖表。2016年,Narrative Science和微軟合作推出Narrative for Power BI。它可以從一系列數(shù)據(jù)源(包括Salesforce、Github和Adobe Analytics)中提取有效信息,自動生成書面語言。微軟PowerBI總經(jīng)理尼克·卡德維爾(Nick Caldwell)認為: “Narrative for Power BI符合微軟對BI的期望,它兼具強大的數(shù)據(jù)分析和可視化功能,同時更易于理解。”2017年9月,Narrative Science與智能工具開發(fā)公司畫面軟件(TableauSoftware)聯(lián)合推出Narrative for Tableau。這是一款免費的谷歌Chrome擴展程序,可自動創(chuàng)建Tableau圖形的敘述性書面說明。此外,Narrative Science旗下的產(chǎn)品還包括服務于BI領(lǐng)域的套件產(chǎn)品等。由此可見,Narrative Science利用自然語言處理技術(shù)為各個行業(yè)中需要和數(shù)據(jù)打交道的人群提供了有力的工具。

二、自然語言處理工具的發(fā)展趨勢

通過Narrative Science的發(fā)展可以看出,自然語言生成技術(shù)已經(jīng)滲透到多個領(lǐng)域中,孵化出諸多新形態(tài)的產(chǎn)品和服務。自然語言處理技術(shù)屬于人工智能的一個分支,包括自然語言理解和自然語言生成兩個方面。目前的自然語言處理工具還達不到完全取代人工的水平,人們也還不能準確預測其最終發(fā)展態(tài)勢和結(jié)果,但仍可以對其發(fā)展趨勢有一個簡單的判斷。

(1)在文本理解方面,從淺層分析邁向深度理解。由于算法的局限,機器人暫不能對文本進行準確又深入的分析。此外,不是所有文化現(xiàn)象都能像物理科學那樣在算法中被規(guī)則量化,即使是以挖掘最具洞察力數(shù)據(jù)聞名的Narrative Science,也不能保證每一次的文本分析都是有足夠深度的。隨著算法的不斷迭代和數(shù)據(jù)庫的不斷擴大,計算機基于深度神經(jīng)網(wǎng)絡強大的“記憶力”以及提取復雜特征的能力,可以得出更精準的判斷。谷歌等科技巨頭也已經(jīng)開始對機器人進行“閱讀理解”培訓,以深入探索自然語言理解技術(shù),促進自然語言理解工具從淺層分析邁向深度理解。

(2)在文本生成方面,由事實性文本到情感文本。現(xiàn)在的自然語言生成工具大多被用來生成一些事實性的新聞報道或文字報告,因此許多自然語言處理工具背后的科學都被認為是非人性的和機械的。工程師試圖讓自動化文本變得更加人性化,就像Narrative Science的初衷——旨在利用自然語言處理工具等先進的技術(shù)來縮小人類和機器之間的交流缺口(communication gap)。一些學者在研究時,嘗試將人文主義方法和計算機算法整合為一種新的文本生成方法,將語調(diào)和情緒等交流元素與自然語言處理工具相結(jié)合,讓機器人不僅擁有推理和歸納能力,還具有明確的態(tài)度和立場,從而實現(xiàn)從事實性文本向富含情感、體現(xiàn)人性的文本轉(zhuǎn)變。

(3)人機協(xié)作將成為業(yè)界未來的發(fā)展趨勢。瑞士卡爾斯塔德大學的研究表明,自動化文本更具描述性,信息量較大且更客觀可信。但是,在可讀性方面不如人類所寫的文章質(zhì)量高,閱讀的愉悅感較弱(見圖5)。雖然自然語言處理工具的進步一定會推動自動化文本朝人工文本的水準逼近,但完全替代并不是短期內(nèi)能夠?qū)崿F(xiàn)的。人工參與必不可少;而智能工具的存在,也并不完全是對人工的威脅。找到人工和機器的平衡點,兩者相互配合,才能從一個“弱人工智能時代”進入“強人工智能時代”。自然語言處理工具已經(jīng)成為一種有效的信息表達手段。由計算機撰寫的文章逐漸從原先的邊緣化位置抵達各個領(lǐng)域的數(shù)據(jù)分析場域,即由為傳統(tǒng)媒體機構(gòu)和出版商提供簡單重復勞動轉(zhuǎn)向社交媒體和其他領(lǐng)域的大數(shù)據(jù)業(yè)務。正如Narrative Science -直在做的兩件事:了解數(shù)據(jù)中的信息,并為特定受眾提供有用的可讀性文本。自然語言處理技術(shù)將越來越能勝任需要認知能力的活動。

參考文獻: 1. Narrative

Science [EB/OL]. [2017-10-22].https://narrativescience. com/.

2.Mckinsey Global Institute. A futurethat works: Automation, employment, andproductivity [EB/OL]. [2017-10-22]. https://www.mckinsey.com/.

3.Alex Woodie.Your Big Data Will Read ToYou Now[EB/OL].[2017-10-23].https://www.datanami. com/2014/10/28/big-data-will-readnow/.

4.霍伊特·朗,蘇真.文學模式識別:文本細讀與機器學習之間的現(xiàn)代主義[J].林懿,譯.山東社會科學,2016 (11):34-53.

5.Mike Pham.AI needs a human touch tofunction at its highest level[EB/OL]. [2017-10-23].https://venturebeat .com/2 01 7/09/21/ai-needsa -human-to uch-to-function-at-its-highestlevel/.

6.唐偉勝.認知敘事學視野中的敘事理解[J].外國語,2013 (4):28-36.

7.慧博.深度學習成NLP發(fā)展新引擎,深層次認知將是未來突破方向[EB/OL]. [2017-1031]. http://pg.jrj.com.cn/acc/Res/CN_RES/INDU S/2 017/10/31/eb94785f-92b4-448d-b2446220cef9b332.pdf.

8.李陽輝,謝明,易陽.基于深度學習的社交網(wǎng)絡平臺細粒度情感分析[J].計算機應用研究,2017,34(03):743-747.

猜你喜歡
文本分析
隱蔽失效適航要求符合性驗證分析
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
電力系統(tǒng)及其自動化發(fā)展趨勢分析
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
中西醫(yī)結(jié)合治療抑郁癥100例分析
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 精品国产成人三级在线观看| 国产精品手机在线观看你懂的| 久久久久久久久亚洲精品| 国产呦视频免费视频在线观看| 亚洲一级色| 欧美午夜在线观看| 亚洲乱码视频| 成人韩免费网站| 久久五月视频| 亚洲成肉网| 久久精品无码一区二区日韩免费| 精品欧美日韩国产日漫一区不卡| 精品久久久无码专区中文字幕| 亚洲第一色视频| 欧美成人影院亚洲综合图| 蜜桃视频一区二区| 精品视频在线一区| 亚洲成网777777国产精品| 99re热精品视频中文字幕不卡| 国产手机在线ΑⅤ片无码观看| 99re热精品视频中文字幕不卡| 亚洲v日韩v欧美在线观看| 日本欧美中文字幕精品亚洲| 日韩a级片视频| 一本一道波多野结衣一区二区| 97影院午夜在线观看视频| 日本午夜影院| 亚洲综合欧美在线一区在线播放| 97人妻精品专区久久久久| 极品av一区二区| 精品国产香蕉在线播出| 日韩精品久久久久久久电影蜜臀| 欧美人人干| 成人亚洲视频| 成人在线第一页| 欧美一区二区三区欧美日韩亚洲| 久久午夜夜伦鲁鲁片无码免费| 内射人妻无套中出无码| 国产一级毛片网站| 亚洲Aⅴ无码专区在线观看q| 波多野结衣一二三| 国产乱人免费视频| 亚洲乱码在线播放| 四虎AV麻豆| 五月天福利视频| 一区二区三区成人| 国产91丝袜在线播放动漫 | 日本91视频| 91精品专区| 亚洲国产精品久久久久秋霞影院| 91久久国产成人免费观看| 尤物特级无码毛片免费| 日本免费福利视频| 天堂成人av| 99尹人香蕉国产免费天天拍| 国产剧情无码视频在线观看| 国语少妇高潮| 四虎国产精品永久在线网址| 国产不卡在线看| 国产精品成人不卡在线观看| 亚洲精品黄| 无码精品国产dvd在线观看9久 | 国产高清国内精品福利| 久久精品国产精品青草app| 精品天海翼一区二区| 蝴蝶伊人久久中文娱乐网| 国产精品久久精品| 色亚洲成人| 无遮挡一级毛片呦女视频| 国产嫖妓91东北老熟女久久一| 亚洲人成网站在线播放2019| 久草中文网| 国产精品嫩草影院av| 久久一日本道色综合久久| www.日韩三级| 国产精品护士| 免费毛片网站在线观看| 欧美亚洲一区二区三区导航 | 国产主播一区二区三区| 无遮挡国产高潮视频免费观看| 五月天综合网亚洲综合天堂网| 99re经典视频在线|