999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合語義與情感分析的區塊鏈產業新聞監測研究

2020-11-06 07:27:28吳俊邵丹睿姜尚楊帆
現代情報 2020年11期
關鍵詞:深度學習

吳俊 邵丹睿 姜尚楊帆

基金項目:國家社會科學基金“推動新一代信息技術與制造業深度融合研究——基于新時代和新工業革命的視角”(項目編號:18VSJ054);國家重點研發計劃項目“基于模式創新的科技咨詢服務平臺研發與應用示范”(項目編號:2018YFB1403600);北京市社會科學基金規劃項目“基于大數據的北京市共享單車產業監測與發展趨勢研究”(項目編號:17YJB018)。

作者簡介:吳俊(1971-),男,副教授,博士,碩士生導師,研究方向:文本挖掘與服務創新。邵丹睿(1996-),女,碩士研究生,研究方向:文本挖掘。姜尚楊帆(1997-),女,碩士研究生,研究方向:文本挖掘。

摘要:[目的/意義]前沿技術孵育的新興產業發展演進快,但因統計數據遲滯,產業監測難而備受研究者關注。[方法/過程]以2014-2019年36氪網站互聯網區塊鏈新聞為數據樣本,提出納入協變量的結構化主題模型(STM)與深度學習情感分析技術結合的新興產業新聞文本監測方法,通過監測媒體報道的產業新聞熱點強度變化,文本情感傾向對新聞熱點強度的時序影響,發現并跟蹤新興產業熱點及趨勢。[結果/結論]2014-2019年,69%的區塊鏈新聞主題聚焦于區塊鏈的產業應用和比特幣等數字代幣的發行與交易。文本的語義和情感分析顯示,2017年以來,中國的區塊鏈產業發展存在一定的媒體炒作特征,但媒體對各類數字代幣發行與交易由褒轉貶的情感傾向變化可以對區塊鏈隱含風險起到預警作用。[創新/價值]提出的產業新聞文本監測方法具有準實時性,能與傳統的事后統計指標監測方法互為補充。

關鍵詞:區塊鏈;產業新聞;結構化主題模型;文本情感分析;深度學習

DOI:10.3969/j.issn.1008-0821.2020.11.003

〔中圖分類號〕G203〔文獻標識碼〕A〔文章編號〕1008-0821(2020)11-0022-12

Identifying Development Focus and Trend of Blockchain Industry Through

News Text Mining:A Topic Modeling and Sentiment Analysis Investigation

Wu JunShao DanruiJiang Shangyangfan

(School of Economics and Management,Beijing University of Posts and Telecommunications,

Beijing 100876,China)

Abstract:[Purpose/Significance] How to identify the development focus and trend of emerging technology,like blockchain,and its industry have attracted more and more attention from academics and practitioners.[Method/Process]3983 blockchain news collected from China famous TMT media—36kr.com was analyzed using structural topic modeling and deep learning enhanced sentiment analysis.[Results/Conclusions]This paper revealed that:(1)blockchain industry development in China during the period of 2014 to 2019 can be reflected by 7 key topics which focused on the domain applications of blockchain technology,initial offering and transaction of bitcoin and digital currency.(2)Although positive sentiment tendency dominated during the research period of 2014 to December 2019,the sentiment of news related to the issuance and transaction of digital currency has clearly shifted from positive to negative since January 2017,implying concerns about speculation in the encrypted digital currency market.The contribution of this paper is reflected not only by proposing a new approach to identify the development focus and trend of technology frontiers but also validating its application in the blockchain industry monitoring.

Key words:blockchain;industry news;structural topic modeling;sentiment analysis;deep learning

前沿技術是具有前瞻性、先導性和探索性的重大技術,是培育新興產業的基礎[1]。以大數據、區塊鏈等為代表的前沿科技革命,在促進技術、資源、產業和市場跨時空、跨領域融合,新業態、新模式不斷涌現的同時,也對產業監管提出了新要求、新挑戰。如何有效認清新興產業發展前景,識別潛在風險,促進產業包容性發展,逐漸引起各級政府監管部門及學術界的興趣與關注。

前沿技術孵化的新興產業具有發展演進快、專業壁壘高、跨界融合性強的特點,盡管有學者提出要各級統計部門加快基于企業上報數據來構建戰略性新興產業評價指標體系[2],但基于統計數據開展新興產業監測的方法或者受限于數據不可得,或者存在監測分析的時滯,亟待監測手段創新。

作為人工智能的代表性技術之一,自然語言處理領域的文本主題模型(Topic Modeling)和情感分析(Sentiment Analysis)能夠幫助產業經濟研究者從海量非結構化文本中提取潛在語義主題,量化文本的情感變化。文本主題模型是一種典型的非監督機器學習(Unsupervised Machine Learning)方法,優勢是無需數據樣本標簽(如預先人工標注的文本主題類別)即可實現海量文本的自動分類。文本情感分析則能量化文本的情感傾向(如正向、中性、負向等),從而幫助研究者從海量文本中提取表征主觀特征的代理變量。應用文本主題模型方法挖掘專利文本開發專利知識圖譜[3],發現并持續跟蹤細分領域的前沿熱點技術[4]正在興起,也有學者綜合應用機器學習(隨機森林模型)和深度學習(卷積神經網絡模型)技術構建互聯網新聞文本消費情感指數,捕捉消費者信心波動[5]。但鮮有研究者從產業監測視角,通過挖掘互聯網科技財經媒體新聞來追蹤前沿產業熱點與演化趨勢。為彌補這一缺憾,擬通過對知名科技財經媒體新興產業報道的新聞文本挖掘,揭示新興產業領域的輪換熱點與發展趨勢。本文提出融合結構化主題模型(Structural Topic Modeling)和深度學習情感分析(Deep Learning Based Sentiment Analysis)技術的新思路,原因有三:①針對新興產業的數值型統計數據較為稀缺,也常常滯后,而對應的科技財經新聞往往能及時報道最新動態,大量新聞文本蘊含的潛在語義主題以及遣詞用語反映的文本主觀傾向為產業監測提供了豐富的數據來源。②結構化主題模型是傳統LDA主題模型的新發展,能夠量化文檔協變量(如時間、情感傾向等)對文檔隸屬主題以及主題內容的影響,幫助研究者從更細的粒度考察媒體報道的新興產業熱點主題隨時間、隨情感傾向變化特征與趨勢。③深度學習情感分析是對傳統基于規則和基于統計的機器學習方法的新拓展,通過構建的雙向長短時記憶神經網絡(Bi-directional Long Term and Short Term Neural Network,Bi-LSTM)能夠自動學習文本特征表示,達到較高的精確度并具備較好的文本泛化能力,輸出的文本情感傾向類別可用作表征媒體主觀意見的代理變量。

本文選取區塊鏈作為新興產業代表的理由如下:①全球著名咨詢公司Gartner將區塊鏈技術列為2017-2018年十大前沿戰略科技之一,看好其從數字貨幣基礎到企業應用的廣泛潛力[6]。②2017年以來區塊鏈創業公司風起云涌,大量的傳統企業也紛紛投資區塊鏈技術與相關應用,區塊鏈新興產業迅速發展起來,大量的互聯網媒體也爭相造勢,不斷引爆區塊鏈輿論熱點。③區塊鏈在中國的發展具有技術演進快、專業化程度高、與眾多傳統產業交叉融合等特點,各級政府的統計數據公開少、更新慢,如何從紛繁蕪雜的互聯網產業新聞中識別區塊鏈發展熱點及演進趨勢,準確把握區塊鏈技術與應用創新節奏,成為新經濟研究者和各級政府監管部門關注的焦點。

1相關研究

11熱點話題發現與結構化主題模型

從互聯網新聞中發現并識別新興和熱點話題可以使用文本挖掘中的主題建模(Topic Modeling)方法[7-8]。潛在狄利克雷分配(Latent Dirichlet Allocation,LDA)是最常見的主題模型[9],在實際應用中,通過輸入經預處理的文本語料,預定義的主題數,即可由算法輸出文本語料對應的主題概率分布以及每個主題下語義最相近詞項的概率分布。

LDA主題模型已在諸多領域廣泛應用,例如,通過對區塊鏈專利文獻的挖掘,從更細粒度識別校企重點研究方向和技術薄弱環節[10],分析社交媒體中用戶的造謠和舉報行為是否存在性別差異[11],基于社交媒體用戶評論文本的犯罪事件挖掘及犯罪預測[12],從酒店用戶評論中提取用戶對酒店滿意度的多個維度[13],對科技文獻主題進行劃分,將主題多個特征指標賦權疊加構建主題新興指標,預測新型主題未來趨勢[14]等。也有學者采用文本主題、作者與時間關聯的ATOT主題模型,分析企業技術專利的動態變化和產業鏈各環節的技術發展狀態[15],采用層次Dirichlet過程模型分析管理科學領域的前沿研究主題時序演化特征,繪制學科知識演化圖譜[16],融合主題模型與卷積神經網絡預測用戶對APP的評分,進行推薦[17]。

LDA主題模型在文本語義挖掘實踐中存在著無法揭示文檔元數據(Metadata)對文本主題和內容影響的不足。在狄利克雷-多項回歸主題模型(DMR)和稀疏可加生成模型(SAGE)基礎上[18-19],Roberts M E等[20-21]提出了結構化主題模型算法(Structural Topic Model,STM),可以靈活地將多個文檔協變量作為先驗分布納入主題模型考察其對文本主題強度(Topic Prevalence,即文檔-主題概率分布)與主題內容(Topic Content,即主題-詞語概率分布)的影響,這為探索區塊鏈新聞熱點主題隨時間、文本情感傾向類別(如負向、中性和正向)等協變量的變化開辟了新途徑。STM主題模型與LDA主題模型的比較如圖1示意:

STM中的文檔主題分布服從對數正態分布與多項式分布非共軛,因此采用漸進變分EM迭代算法完成模型參數擬合與估算。作為基礎LDA模型的重要新拓展,STM相對LDA具有明顯的預測性能優勢[21-22]。近年來,國內外學者將結構化主題模型應用于探索新興研究領域的熱點主題與演進脈絡[23],分析航空事故報告文本來識別飛航領域的故障主題分布與趨勢[24]。本文也嘗試利用STM實現:①產業新聞熱點語義主題提取與識別;②熱點主題隨時間和文本情感傾向的變化特征分析。

12基于深度學習的文本情感分析

文本的情感分析又稱為意見挖掘,通過對主觀性文本的情感傾向性判斷[25],給出情感極性的識別[26](如正向、負向或中性)或者情感極性類別概率(如某文本屬于正向類別的概率是073)。通過對互聯網新聞文本的情感挖掘,可以反映網絡大眾對特定事物的主觀態度、意見傾向。文本情感分析技術已大量應用于網絡輿情監測[27]和基于用戶評論的消費者態度、行為偏好分析[28]等。

近年來,文本情感分析技術已從早期的基于情感詞典規則、基于統計的機器學習,發展向基于神經網絡的深度學習[29]。考慮到區塊鏈領域專業詞匯多,語義多元的特性,傳統基于通用詞典的情感分析無法根據上下文和不同的應用領域遷移,淺層的機器學習分類方法也難以適應多場景海量復雜文本的處理,本研究嘗試構建雙向長短時記憶神經網絡(Bi-directional Long Term and Short Term Neural Network,Bi-LSTM),來對區塊鏈新聞文本進行情感傾向分析。應用Bi-LSTM神經網絡做文本情感分類的原理示意見圖2。

2研究設計

21研究框架

圖3展示的是融合結構化主題模型和深度學習情感分析技術的產業新聞監測模型及與傳統方法的比較。既有的方法大多需要新興產業統計數據,存在著數據獲取難,事后監測分析的特點。本文提出的方法以互聯網產業新聞文本為對象,可準實時開展事中監測分析,尤其適用于一些快速發展的新興產業,是對傳統方法的有益補充與增強。本文方法的創新集中在圖3虛線框部分,首先,應用結構化主題模型從海量產業新聞中提取文本主題及強度(主題概率分布)用以表征產業熱點。之后,應用雙向長短時記憶神經網絡完成新聞文本情感傾向的分類。最后,將時間和情感傾向類別作為協變量分析其對產業新聞主題強度的影響,最終得到海量新聞文本所映射的新興產業熱點變化與發展趨勢。

注:虛線框內部分為本文的主要創新點。圖3融合語義與情感分析的新興產業新聞監測模型及與傳統方法比較

22數據源選定與采集

研究選取36氪網(36kr.com)作為數據來源,主要基于兩方面考慮:首先,該網站是國內報道互聯網新聞熱點以及前沿技術的知名科技媒體,在Alexa網絡科技類網站中排名靠前,用戶訪問量與產業影響力較大;其次,與其他網站相比,該網站較早跟蹤區塊鏈的發展,相關文章持續覆蓋時間長,內容質量高,能夠較好地反映區塊鏈產業熱點發展歷程與演化動向。

在36氪官網(http://36kr.com/)搜索區塊鏈關鍵字,編寫爬蟲程序,爬取2013年11月-2019年12月區塊鏈相關新聞,去重后發現,2013年僅1篇,刪除后共3 983條,采集的數據集包括標題、全文、作者、發布時間等字段。對采集的數據集進行預處理,發現獲取的數據集記錄完整,無缺失或字符紊亂等異常情況,可以直接用于后續分析。

23主題建模相關參數的確定

對結構化主題模型迭代擬合需要設置最優主題數,LDA主題模型最優主題數的選擇通常以困惑度指標(Perplexity)為評價指標,困惑度值越低說明模型的泛化效果更佳[30]。STM主題模型最優主題數的確定借鑒了領域較新的研究發現,即聚類較好的文本主題,多具有主題內詞語語義一致性高,主題間詞語語義區隔顯著的特點[31]。因此,借鑒Mimno D等[32]提出的語義一致性(Semantic Coherence)指標衡量主題語義收斂程度,公式如下:

Ck=∑Mi=2∑i-1j=2logD(vi,vj)+1D(vj)(1)

其中D(vi)和D(vj)分別表示詞vi和vj在文檔k中出現的次數,D(vi,vj)表示vi和vj兩個詞同時在文檔k中出現的次數。另外,借鑒Airoldi等提出的FREX指標度量不同主題語義區分程度。第v個詞項在第k個主題下的FREX值計算公式為:

FREXk,v=ωECDF(βk,v/∑Kj=1βj,v)+1-ωECDF(βj,v)-1(2)

其中ECDF是經過實證的累積分布函數(Cumulative Distribution Function,CDF),FREX是詞項在該主題中獨有性和出現頻率的調和平均。為確保主題詞項語義獨有性,設置權重ω為07。選擇主題內語義收斂程度高且主題間語義區分度高的主題數作為結構化主題模型擬合的最優主題數輸入參數。

24基于百度AipNlp開放接口的文本情感傾向性分析

鑒于本文采用的基于雙向長短時記憶神經網絡的文本情感分析方法需要GPU環境來運行分析代碼,經調研,發現百度公司已將基于雙向長短時記憶神經網絡的文本情感分析方法開源為程序接口(API),即文本情感傾向類庫AipNlp,它是百度云自然語言處理開發工具包(SDK)之一。研究人員選取2 000條新聞劃分訓練集和測試集檢驗百度情感分析API的性能,發現情感傾向性分析準確率在87%以上,滿足研究需求。之后編寫Python代碼調用接口,完成對每條新聞文本的情感傾向分類(正向、負向或中性)及傾向值輸出,作為后續分析用。

3數據分析與討論

31區塊鏈文章的關鍵詞與共現詞演化特征

將2014年1月-2019年12月的區塊鏈文章,以年為單位進行詞頻分析,輸出各年TOP50關鍵詞云如圖3所示。

可以看到:2014年1月-2019年12月36氪網區塊鏈產業新聞關鍵詞變動頻繁,2014-2015年開始涌現礦機企業(Bitfury等)、數字代幣(Fldc等)熱詞,2016-2019年則較多出現數字代幣發行(ICO)與交易、區塊鏈代幣(EOS等)、虛擬加密貨幣(Libra)、金融科技、人工智能等字眼,反映出區塊鏈技術的加速更迭和市場熱點的交替輪換。

為發現與“區塊鏈”共現頻次較高的詞語及其演化趨勢,對2014-2019年各年的區塊鏈文章構建共現詞庫,圖5繪制各年區塊鏈共現詞網絡(含共現詞語及共現頻次)。

從圖5可看到:2014-2015年,“區塊鏈-比特幣”這一對詞語共現頻次最高,反映出大眾與互聯網媒體將區塊鏈與比特幣近似等同認知的特點。此外,“區塊鏈-公司”“區塊鏈-技術”也成為這一期間共現頻率較高的詞語對,像2013年在北京成立專事礦機的比特大陸科技有限公司,2014年3月,日均比特幣交易量達到10萬的火幣網等都引起媒體的爭相報道。2016-2018年,“區塊鏈-技術”和“區塊鏈-公司”詞語對取代了“區塊鏈-比特幣”,成為36氪產業新聞中共現頻次最高的兩對詞語,側面反映公眾與媒體對區塊鏈的關注逐步由比特幣轉向更具體的區塊鏈技術和相關企業。同時,“區塊鏈-平臺”“區塊鏈-市場”的共現頻次也逐年上升,說明隨著區塊鏈技術在部分領域的應用落地,圍繞區塊鏈市場運作和商業模式的探討開始增多。值得注意的是,2018年,36氪產業新聞中“區塊鏈-問題”共現頻次是2016年的10倍,

反映區塊鏈快速發展引發的眾多問題已引起新聞媒體高度關注。2019年,“區塊鏈-平臺”與“區塊鏈-應用”共現頻次上升較快,體現產業界對區塊鏈技術的應用落地甚為關注。

32文本情感傾向走勢分析

文本情感分析的目的是量化36氪報道區塊鏈新聞的主觀情感傾向,將其作為區塊鏈輿情走勢的風向指標之一。調用百度文本情感分析API完成的區塊鏈新聞情感傾向分析見表1。

可以看到,36氪網上的區塊鏈產業新聞整體情

感傾向以正面為主(超過70%),圖6進一步繪制2014年-2019年12月的文本情感傾向比例(負向文章占比與正向文章占比)走勢以及各月新聞走勢(左軸表示情感傾向比例,右軸表示新聞數量)。

圖6顯示:2014年4月-2019年12月,36氪網的區塊鏈新聞正向情感一直高于負向情感比例。2017年10月開始,區塊鏈新聞數量快速上升,反映區塊鏈熱度看漲,媒體與大眾的關注越來越高,2018年4月后,區塊鏈新聞數量急速回落,體現媒體關注度顯著下降,同時產業新聞的負向情感波動下行。

33基于結構化主題模型的區塊鏈熱點分析

文本主題建模分析的目的是量化36氪報道區塊鏈新聞的熱點,也將其作為區塊鏈輿情走勢的風向指標之一。鑒于36氪網長期跟蹤報道區塊鏈技術與產業的動向,應用結構化主題模型方法可以自動提取區塊鏈產業新聞的主題強度,將分布概率高的主題識別為區塊鏈技術與產業熱點,為此,分兩步驟展開:

步驟1:文本最優主題數的確定

應用23節的算法,預設定主題數為4~30范圍,計算預處理后構建的文本語料各主題數對應的語義一致性和獨有性值,判斷最優主題數如圖7所示。

圖7中顯示,主題數值越大的數據點多集中在左上角,在保持主題語義一致性和獨有性均較高的條件下(即選擇圖中右上象限區域數據點),主題數為7對應的文本語料的語義一致性和語義獨有性值相對其他主題數表現更佳,選定后續模型擬合的主題數為7。

步驟2:主題模型擬合與結果輸出

在步驟1基礎上,對主題模型進行擬合,表2展示了區塊鏈文章7個主題的聚類結果,同時也包含每個主題下代表性關鍵詞及代表性文章標題。表中前3列為程序輸出結果,第4列主題標簽,研究者閱讀每個主題下語義最相近的關鍵詞和語義最相近的文章標題人工概括而成。

表2可以看到:2014年1月-2019年12月期間,36kr網區塊鏈新聞可以聚類為7個主題,其中,主題2-“區塊鏈產業應用”(22%),主題4-“數字貨幣與交易”(18%),主題3-“比特幣與ico”(15%)占比較高,主題5:“互聯網投融資”(8%)占比最小,說明36氪網區塊鏈新聞一方面關注區塊鏈的產業應用,另一方面熱衷報道比特幣等數字代幣的發行與交易。仔細考察7個主題的語義標簽,不難發現,主題1、3、4、7主要圍繞區塊鏈與比特幣話題展開,主題2、5、6則圍繞人工智能與互聯網話題討論。從一個側面反映出,區塊鏈技術與應用不是孤立的發展,而是與人工智能、互聯網等技術與應用密切相關。7個主題的歸集可以總結如圖8。

為厘清主題1-“區塊鏈產業應用”關注的主要內容,對隸屬該主題的876條新聞進一步聚類,發現它們可以歸屬為以下一些語義較為明確的主題內容:“智能合約與區塊鏈”(占18%),“基于EOS的區塊鏈應用”(占14%),“區塊鏈與社交媒體”(占12%),“區塊鏈與新一代加密貨幣”(占12%),“區塊鏈與通證經濟”(占11%)等。可以看到,聚焦于金融領域的加密數字貨幣和智能合約是區塊鏈產業應用落地的主要場景,更多的行業應用還有待開發。

34區塊鏈熱點主題的情感傾向演化趨勢

結構化主題模型算法的一個獨特優勢是可以量化文檔協變量對主題強度的影響,將發布時間(以月為單位)、新聞情感傾向類別作為文檔協變量,考察兩者對2014-2019年期間7個主題強度的影響,從而揭示區塊鏈熱點主題的情感傾向演化特點。

與區塊鏈與比特幣相關的4個主題的情感時序變動趨勢見圖9。

從圖9看到,屬于主題1-“區塊鏈產業應用”的新聞從2016年3月開始穩步上升,且一直以正向情感為主;主題3-“比特幣”的新聞,2014年以來負向情感的文章比例一直多于正向情感的文章占比;主題4-“數字貨幣與交易”的新聞,從2017年4月開始,負向情感占比迅速超過正向情感且不斷攀升;主題7-“區塊鏈技術與應用”的新聞,2017年4月是分水嶺,從之前負面新聞主導轉為中性和正向新聞更多。綜合4個主題的情感傾向演化特點,不難發現,2017年以來,區塊鏈新聞數量開始不斷攀升,一方面,36氪對區塊鏈與比特幣為代表的數字代幣發行及交易的新聞基調明顯由褒轉貶,隱含對加密數字貨幣市場炒作的擔憂,這可以起到對區塊鏈隱含風險的提前預警作用;另一方面,對區塊鏈應用的關注持續升溫,反映產業界對新興技術落地的渴望。

圍繞人工智能、互聯網金融發展和互聯網投融資展開的3個主題情感演化狀況如圖10。

圖10展示的3個主題情感時序變化有3點發現:其一,屬于3個主題的新聞,從2014年1月-2019年12月,文本的正向情感一直高于負向情感,且3個主題新聞占比呈下降趨勢,說明早期的新聞內容較為發散,近年來的新聞更為聚焦;其二,針對主題5-“互聯網投融資”的新聞,一直以正向情感為主,說明以科技創投媒體著稱的36氪對與區塊鏈相關的互聯網投融資持正面態度;其三,針對主題2-“互聯網金融發展”的新聞,在2019年1月之前,中性情感傾向占比一直高于正向和負向情感比例,說明36氪對區塊鏈與互聯網金融發展的話題相對中立。

綜合前述對36氪區塊鏈新聞文本的語義和情感分析,可以看到,從2014-2019年,中國的區塊鏈產業熱點有兩大聚焦:一是區塊鏈技術在不同領域、行業的應用落地;二是比特幣及數字代幣的發行與交易,2017年以來,媒體報道對加密數字貨幣交易炒作的負面情緒明顯上升。這一現象可以借助IT時尚理論和Gartner集團發布的技術成熟度曲線來解釋:

首先,IT時尚(Information Technology Fashion)理論認為,一些新興信息技術創新在被大眾廣泛接受以及制度化前常常存在短期炒作的現象,它們被媒體和投資者作為一種時尚而大肆宣傳,并被視為新穎且高效的前沿技術,由此引發采納者和最終用戶的超高期望。一旦技術的實際應用進程與公眾的希冀相距甚遠,就會造成大眾熱情的快速消退。作為一種新興技術,區塊鏈與數字加密貨幣的結合已展現其高風險、高預期回報的特點,媒體與投資者對以比特幣為典型的數字代幣炒作只是看到其高回報的一面,忽視了ICO亂象隱藏的潛在風險一面,同時也不利于區塊鏈技術的漸進式發展與成熟應用。

其次,新興技術的發展也呈現階段式推進的特征,美國著名的信息技術研究與咨詢企業Gartner公司認為,技術成熟度曲線兼具反映某項前沿技術從誕生到成熟的動態演化過程和技術發展階段評測的作用,它將技術發展周期分為技術觸發、期望膨脹、泡沫谷底、穩步復蘇和產出高峰5階段。在技術發展早期,廣大民眾對技術創新的期望值通常大大超出技術的實際回報值,因此,這期間的技術發展具有一定的泡沫成分。Gartner的新技術成熟度曲線顯示,區塊鏈技術在2016-2018年期間恰恰處于期望膨脹階段,這與本文之前的分析相呼應。2017年以來,近20%的媒體報道集中于比特幣的交易與其他數字代幣的發行,各類風險投資機構跟風炒作盛行。當基于區塊鏈技術構建的比特幣和其他數字代幣的實際回報低于期望回報或蘊含風險超出民眾可承受度時,就會引發大眾對區塊鏈技術興趣和關注度的快速下降。Gartner對區塊鏈技術成熟度的分析也表明,2018-2019年,區塊鏈技術發展步入期望泡沫破滅的谷底期,有鑒于此,加大區塊鏈的行業應用創新力度,從嚴監管打著區塊鏈旗號,從事代幣眾籌的非法融資活動,應該成為推動區塊鏈產業包容式發展的重要手段。

4結論與啟示

近兩年來,不少新興產業在廣大用戶的心目中經歷了“從熱情高漲到理性預期”的變化,為揭示新興產業領域的輪換熱點與發展趨勢,構建了融合文本語義與情感分析技術的新興產業新聞監測模型,通過對知名科技財經媒體—36氪網站2014-2019年3 983條區塊鏈新聞文本內容,應用結構化主題模型與深度學習情感分析技術發現:①2014-2017年上半年,區塊鏈的互聯網媒體報道較為平穩,但2017年10月以后,相關報道與關注熱度迅速升溫;②文本主題聚類結果顯示,36氪報道的區塊鏈產業熱點聚焦在區塊鏈的產業應用和以比特幣為代表的數字代幣發行與交易等方面;③文本的情感傾向分析顯示,2017年4月之后,36氪對區塊鏈與各類數字代幣發行與交易的新聞基調顯著由褒轉貶,側面反映出對幣圈掙快錢等區塊鏈泡沫的隱憂,可以對區塊鏈隱含風險起到提前預警作用。

既有熱點話題挖掘的文獻多應用LDA主題模型,基于互聯網新聞開展新興產業熱點演化監測的研究尚不多見。本文提出以互聯網產業新聞為對象,應用納入協變量的結構化主題模型和基于深度學習的情感分析技術,可以通過監測媒體報道的產業新聞熱點強度變化,文本情感傾向對新聞熱點強度的時序影響,發現并跟蹤新興產業熱點及趨勢,為各級政府監管部門、新興技術提供商或從業者了解產業動態,把握新興技術機會增添新手段。未來研究,可以將本文提出的方法應用于5G、人工智能等新興產業的熱點監測,比較不同領域應用成效。

參考文獻

[1]劉小平,冷伏海,李澤霞.國際科技前沿分析的方法和途徑[J].圖書情報工作,2012,56(12):60-65.

[2]王鵬,王麗麗,王基偉.加快建立規模以上工業戰略性新興產業統計監測指標體系[J].中國戰略新興產業,2017,(29):54-57.

[3]Kim M,Park Y,Yoon J,et al.Generating Patent Development Maps for Technology Monitoring Using Semantic Patent Topic Analysis[J].Computers and Industrial Engineering,2016,98(98):289-299.

[4]Yoon J,Seo W,Coh B,et al.Identifying Product Opportunities Using Collaborative Filtering-Based Patent Analysis[J].Computers and Industrial Engineering,2017,107:376-387.

[5]劉苗,李蔚,朱述政,等.基于互聯網文本情感分析的消費情感指數構建[J].統計與信息論壇,2018,33(8):31-38.

[6]趙丹,王晰巍,韓潔平,等.區塊鏈環境下的網絡輿情信息傳播特征及規律研究[J].情報雜志,2018,37(9):127-133,105.

[7]盧超,侯海燕,Ding Ying,等.國外新興研究話題發現研究綜述[J].情報學報,2019,38(1):97-110.

[8]岳麗欣,劉自強,胡正銀.面向趨勢預測的熱點主題演化分析方法研究[J].數據分析與知識發現,2020,4(6):22-34.

[9]Blei D M,Ng A Y,Jordan M I,et al.Latent Dirichlet Allocation[J].The Journal of Machine Learning Research,2003,(3):993-1022.

[10]冉從敬,宋凱,何夢婷,等.校企合作背景下高校前沿科研團隊探測模型構建——以區塊鏈技術領域為例[J].現代情報,2020,40(6):46-54.

[11]宗乾進,黃子風,沈洪洲.基于性別視角的社交媒體用戶造謠傳謠和舉報謠言行為研究[J].現代情報,2017,37(7):25-29,34.

[12]Wang X,Gerber M S,Brown D E,et al.Automatic Crime Prediction Using Events Extracted From Twitter Posts[J].In International Conference on Social Computing,Behavioral-Cultural Modeling,and Prediction,2012:231-238.

[13]Guo Y,Barnes S J,Jia Q,et al.Mining Meaning From Online Ratings and Reviews:Tourist Satisfaction Analysis Using Latent Dirichlet Allocation Tourism Management[J].Tourism Management,2017,59:467-483.

[14]白敬毅,顏端武,陳瓊.基于主題模型和曲線擬合的新興主題趨勢預測研究[J].情報理論與實踐,2020,43(7):130-136,193.

[15]吳菲菲,張亞茹,黃魯成,等.基于AToT模型的技術主題多維動態演化分析——以石墨烯技術為例[J].圖書情報工作,2017,61(5):95-102.

[16]孫曉玲,丁堃.管理科學研究主題及其演化趨勢——基于NSFC基礎研究知識庫的分析[J].科學學與科學技術管理,2017,38(6):3-11.

[17]王杰,唐菁薈,王昊,等.融合主題模型和卷積神經網絡的APP推薦研究[J].情報理論與實踐,2019,42(4):158-165.

[18]Mimno D,Mccallum A.Topic Models Conditioned on Arbitrary Features with Dirichlet-multinomial Regression[C]//Conference on Uncertainty in Artificial Intelligence.Amherst:University of Massachusetts,2008:411-418.

[19]Eisenstein J,Ahmed A,Xing E P.Sparse Additive Generative Models of Text[C]//International Conference on Machine Learning.Washington:Digital Bibliography Library Pro,2011:1041-1048.

[20]Roberts M E,Stewart B M,Tingley D,et al.Structural Topic Models for Open-Ended Survey Responses[J].American Journal of Political Science,2014,58(4):1064-1082.

[21]Roberts M E,Stewart B M,Airoldi E M,et al.A Model of Text for Experimentation in the Social Sciences[J].Journal of the American Statistical Association,2016,111(515):988-1003.

[22]吳俊,歐陽書凡,李曉華.基于STM和格蘭杰因果分析的網絡新聞媒體傾向研究[J].系統工程學報,2020,35(4):446-458.

[23]吳俊,石宏磊.“互聯網+”研究的熱點主題、脈絡與展望——基于主題建模的內容分析[J].電子政務,2016,(12):19-29.

[24]Kuhn K.Using Structural Topic Modeling to Identify Latent Topics and Trends in Aviation Incident Reports[J].Transportation Research Part C:Emerging Technologies,2018,87:105-122.

[25]王科,夏睿.情感詞典自動構建方法綜述[J].自動化學報,2016,42(4):495-511.

[26]李光敏,許新山,熊旭輝.Web文本情感分析研究綜述[J].現代情報,2014,34(5):173-176.

[27]何躍,朱燦,朱婷婷,等.微博熱點話題情感趨勢研究[J].情報理論與實踐,2018,41(7):155-160.

[28]周延風,張婷,陳少娜.網紅社交媒體傳播及消費者情感傾向分析——以網紅品牌“喜茶”為例[J].商業經濟與管理,2018,(4):70-80.

[29]陳紅琳,魏瑞斌,張瑋,等.基于共詞分析的國內文本情感分析研究[J].現代情報,2019,39(6):91-101.

[30]Thomas H.Probabilistic Latent Semantic Indexing[J].ACM,2017,51(2):50-57.

[31]Edoardo M A,Jonathan M B.Improving and Evaluating Topic Models and Other Models of Text[J].Journal of the American Statistical Association,2016,111(516):1381-1403.

[32]Mimno D,Blei D M.Bayesian Checking for Topic Models[C]//Empirical Methods in Natural Language Processing,2011:227-237.

(責任編輯:孫國雷)

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數據遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
利用網絡技術促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
主站蜘蛛池模板: 精品福利一区二区免费视频| 九色最新网址| 久久久久免费精品国产| 91精品啪在线观看国产60岁| 毛片免费高清免费| 亚洲va视频| 国产免费久久精品99re丫丫一| 99视频精品全国免费品| 精品国产欧美精品v| 国产午夜人做人免费视频中文| 深爱婷婷激情网| 精品国产一区二区三区在线观看| 国产成人久久777777| 亚洲色图狠狠干| 亚洲三级色| 国产成人1024精品| 99热这里只有免费国产精品 | 青青操国产视频| 日韩激情成人| AV无码国产在线看岛国岛| 99这里精品| 福利在线一区| 中文字幕首页系列人妻| 国产毛片片精品天天看视频| 成人免费黄色小视频| 亚洲AⅤ综合在线欧美一区| 精品福利国产| 国产综合精品一区二区| 国产本道久久一区二区三区| 欧美成人a∨视频免费观看| 色婷婷狠狠干| 久久亚洲国产视频| 国产欧美自拍视频| 国产精品尤物铁牛tv| 免费国产高清视频| 精品无码日韩国产不卡av| 国产玖玖视频| 99福利视频导航| 中文字幕中文字字幕码一二区| 国产成人精品第一区二区| 精品无码一区二区三区电影| 亚洲国产成熟视频在线多多| 国产美女在线免费观看| 国产精品蜜臀| AV在线麻免费观看网站| 免费看黄片一区二区三区| 国产精品女熟高潮视频| 超清无码熟妇人妻AV在线绿巨人| 久久永久视频| 国产日韩AV高潮在线| 欧美精品二区| 亚洲一区二区三区在线视频| 扒开粉嫩的小缝隙喷白浆视频| 亚洲成人免费在线| 美女黄网十八禁免费看| 亚洲最黄视频| 亚洲AV电影不卡在线观看| 国产后式a一视频| 无码 在线 在线| 久久99精品国产麻豆宅宅| 免费一级毛片不卡在线播放 | 18黑白丝水手服自慰喷水网站| 欧美亚洲国产一区| 暴力调教一区二区三区| 国产97公开成人免费视频| 亚洲视频三级| 国产美女精品在线| 欧美啪啪精品| 国产一区二区三区精品久久呦| 国产精品久线在线观看| 亚洲一区免费看| 91免费精品国偷自产在线在线| 色婷婷久久| 国产剧情国内精品原创| 免费99精品国产自在现线| 九九免费观看全部免费视频| 亚洲日韩精品伊甸| 色婷婷亚洲综合五月| 国产精品私拍在线爆乳| 欧美精品三级在线| 国产视频自拍一区| 欧美色99|