999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合微博情感分析和深度學習的宏觀經濟預測方法

2018-12-14 05:30:50趙軍豪李玉華李瑞軒辜希武
計算機應用 2018年11期
關鍵詞:情感分析方法

趙軍豪,李玉華,霍 林,李瑞軒,辜希武

(1.華中科技大學 計算機科學與技術學院,武漢 430074; 2. 廣西大學 中國-東盟區域發展協同創新中心,南寧 530004)(*通信作者電子郵箱idcliyuhua@hust.edu.cn)

0 引言

經濟預測方法的研究經過多年的發展,已經出現了大量的預測模型。這些模型分為兩大類:一種是基于時序的方法,主要包括移動平均法、趨勢外推法等;另一種是基于因果的方法,主要包括回歸分析、馬爾可夫預測、人工神經網絡等;另外深度學習的發展使得復雜系統的擬合更加準確。互聯網的快速發展和中國網民的快速增加,使得人們產生信息和獲取信息的方式和規模都發生了變化,使用互聯網數據進行預測模型的修正成為研究的熱點,已經有不少研究證實實時的互聯網數據能夠用于經濟活動預測,并且起到積極的作用。

本文的主要貢獻如下:

1)提出了一種融合微博情感分析和深度學習的預測方法SA-LSTM(Long Short-Term Memory based on Weibo Sentiment Analysis), 該方法利用微博解決統計數據的滯后性問題,利用長短期記憶(Long Short-Term Memory, LSTM)及其變形構建多層神經網絡來擬合具有時序關系的復雜宏觀經濟系統。

2) 在不同數據集上,利用差分自回歸移動平均模型(Autoregressive Integrated Moving Average model, ARIMA)、線性回歸(Linear Regression, LR)、反向傳播神經網絡(Back Propagation Neural Network, BPNN)、LSTM網絡和SA-LSTM分別進行實驗,實驗結果表明,SA-LSTM能夠明顯減小預測的相對誤差,有較強的泛化能力。

1 相關工作

國內外有很多對宏觀經濟預測的研究。傳統的經濟預測方法,比如ARIMA、線性回歸等,存在很大的局限性:ARIMA要求時序數據是穩定的,或者差分后是穩定的; 線性回歸對復雜的非線性系統擬合能力較差。針對宏觀經濟預測中復雜非線性關系,對非線性系統擬合能力強的神經網絡模型成為國內外宏觀經濟預測研究的熱點[1]。利用BPNN建立預測模型的研究有很多:孫安黎等[2]基于BPNN構建輸電線工程造價預測模型,利用少量樣本即能夠準確地估計工程造價,適用于工程前期對比方案的優劣; 趙海華[3]結合徑向基(Radial Basis Function,RBF)神經網絡以及無偏灰色模型(Grey Model,GM)建立灰色 RBF 神經網絡預測模型,并通過對安徽省財政收入數據進行預測分析,發現用該模型訓練不僅收斂速度快、泛化能力強,而且模型精度較高; Akbilgic等[4]提出了一種混合徑向基神經網絡,該網絡整合了嶺回歸、回歸數和徑向基神經網絡,通過對股票指數的日均走勢預測實驗證明了該網絡在變量間具有復雜的非線性關系以及具有相互依賴性時有較好的效果。經過多年的研究和發展,人工神經網絡及其各種改進模型仍然不能完全擺脫其易陷入局部最小值的缺陷,不能反映樣本之間的時序關系;然而這種時序關系在經濟領域普遍存在,對于預測分析有很大的幫助。與此同時,深度學習中LSTM在預測領域表現出極其出色的對時序數據的處理能力。陸澤楠等[5]結合近幾年鋼鐵交易價格的走勢數據,訓練LSTM模型,并與支持向量回歸模型對比分析,發現LSTM 神經網絡可以更精確地預測鋼鐵的價格走勢;李浩等[6]用深度學習對我國1980~2015年國內生產總值(Gross Domestic Product, GDP)數據建立預測模型,結果表明,基于深度學習的預測精度顯著高于ARMA、LR、指數回歸;Fu等[7]針對交通流的隨機性和非線性特征,使用LSTM和門控循環單位(Gated Recurrent Unit,GRU)神經網絡方法來預測短期交通流量,實驗證明基于遞歸神經網絡的深度學習方法 LSTM和GRU的表現優于自ARIMA模型。

在互聯網快速發展的今天,互聯網非結構化數據成為提高預測精度的積極補充[8]。陳衛華等[9]利用深度學習和股吧發帖數增長率數據對滬深300指數波動率進行樣本外預測,研究發現深度學習預測效果明顯好于選取的其他對比模型,另外股票論壇數據對提升波動率預測精度有所貢獻;劉濤雄等[10]在政府統計變量的基礎上,增加互聯網搜索行為變量進行GDP的預測,發現互聯網搜索行為可以提高預測精度;Huang等[11]提出了一種基于百度指數預測旅游流量的新方法,通過比較是否加入百度指數,發現游客人數與百度指數中的一組相關關鍵詞之間存在長期均衡關系和Granger因果關系,且百度關鍵詞搜索指數與日益增長的觀光客流量呈正相關關系; Yao等[12]通過將谷歌指數作為一個外生變量納入ARIMA和自回歸移動平均線來研究谷歌指數對原油價格的影響和預測能力,實驗結果表明,谷歌指數原油價格有負面影響,有助于提高模型預測能力。

根據以上分析,本文結合互聯網微博數據以及 LSTM網絡提出的SA-LSTM宏觀經濟預測方法,不僅解決了統計數據的滯后性問題,而且能夠很好地擬合宏觀經濟系統中的非線性關系和時序關系。

2 SA-LSTM模型結構

本章主要介紹SA-LSTM模型結構。首先描述了宏觀經濟預測系統的特點,然后介紹了模型的主要構成LSTM及其特點,接著講述了如何利用微博進行預測分析,最后給出了SA-LSTM模型具體結構。

2.1 宏觀經濟預測系統特點

在宏觀經濟預測中,數據具有這樣的特點:

1)可供訓練的樣本太少。各個經濟指標的統計一般以季度或者年為單位,而且國家有明確且完整記載的數據只有十年左右。

2)樣本間具有一定的時序關系。經濟的發展具有一定的規律,統計數據能夠在一定程度上反映未來的經濟情況。

3)統計數據滯后。宏觀經濟預測一般是以季度或者年為單位的,對于突發情況,統計數據不能夠及時反映。

4)經濟的發展具有階段性,特別是進入21世紀以來,經濟發展可謂是日新月異。當前年份經濟的發展狀況更多地受距它較近年份的影響,較遠年份的影響小。

根據宏觀經濟預測系統的特點,本文通過融合微博情感分析和多層LSTM網絡來構建預測模型,從而很好地解決該問題。

2.2 SA-LSTM網絡簡介

RNN(Recurrent Neural Network)是一種循環神經網絡,它的一個很大的特點是在訓練和預測時加入了時間的概念,即本次輸出的計算會受到前一次輸出結果的影響,所以在模型結構上,與BPNN最大的不同點在于隱含層節點之間是有連接的,每一個隱含層節點的輸入既包含了輸入層的輸入,又有來自上一時刻隱含層的輸出。

傳統的RNN模型一個很大的問題是會出現梯度消失和爆炸的情況,其原因在于在梯度下降過程中,每一層誤差反傳都會引入乘子,所以導致經過多步之后,乘子的連乘會導致一系列麻煩。

LSTM神經網絡對RNN的改進在于對神經元的改變,如圖1所示。在這個模型中,常規的神經元被替代為存儲單元,每個存儲單元包含三部分:一個輸入門、一個輸出門和一個遺忘門,這個單元保證了誤差將以常數的形式在網絡中流動;然后在此基礎上添加乘法門和非線性函數為模型引入非線性變換,并使得信息有選擇性地表達。

2.3 微博情感分析

本節主要介紹微博情感分值的表示方法,以便使之能夠參與模型的訓練。情感分析的任務目標是能夠判斷用戶情感是積極、消極或是中性的情感,并根據情感的程度給予不同的數值表示。方法主要有兩類:一類是基于深度學習的方法,分別在句子級、實體級、篇章級多粒度完整地建立分析任務,這方面的工作比較著名的有百度自然語言處理(Natural Language Processing, NLP)實驗室等;另一類是傳統的利用情感詞典的方法。本文采用基于情感詞典的進行規則匹配的方法,后續的工作會利用深度學習的方法進行改進。

基于情感詞典匹配的方法主要包含兩部分:對中文文本分詞和根據情感詞典計算微博情感分值。

2.3.1 中文分詞

不同于英文以詞為單位并且每個詞都可以獨立地表達一個意思,中文文本以字為單位,然而一個字不可以完整地表達一個意思。在中文中,一句話的意義是通過多個連續的字來傳達的,所以這就需要對中文文本進行切分,分成一系列具有獨立意義的字符串。通常將此過程稱為中文分詞。

本文采用中國科學院研發的中文分詞系統ICTCLAS2014-JAVA版。一方面考慮到本文實驗代碼采用Java語言,另外最重要的是經多年積累和驗證該分詞方法分詞速度快,單機速度可達1 Mb/s,分詞精度能夠達到98%以上, 被很多商業系統所采用。

2.3.2 微博情感分值計算

本文選用基于情感詞典的方法計算情感分值。情感詞典選取知網發布在2007年10月22日發布的“情感分析用詞語集(beta版)”。本文將“正面評價”和“正面情感”同時作為積極情感詞,將“負面評價”和“負面情感”同時作為消極情感詞。

本文計算微博情感分值的方法是:首先對每一條微博的每一句話,從左向右依次尋找情感詞,如果找到,則賦予一定的權值;然后找到該情感詞前后修飾情感詞的程度副詞、否定詞,并將它們的權值和情感詞的權值進行累乘得到該情感詞的加權分值;接著將前面所有情感詞的加權分值進行求和;最后分析該句子是否為感嘆句或者反問句,如果是則將上面的結果乘以感嘆句或者反問句的權值,得到本句話的情感分值。將每條微博內每句話的情感分值求和即得到每條微博的情感分值。

因為本文實驗的數據樣本是以季度為單位的,所以對每個季度所有微博的情感分值求算術平均值。

一條微博內每句話的情感分值計算如式(1):

(1)

其中:Non為否定詞權值,Seg為情感詞的權值,Lev為程度詞的權值,n為修飾當前情感詞的程度詞的個數。

一條微博情感分值計算如式(2)所示:

(2)

其中:sen為本句話在句型上的權值,m為該條微博情感詞的個數。

2.4 SA-LSTM模型結構

根據宏觀經濟預測系統的特點,以及2.1節、2.2節所述的LSTM網絡和情感分值的計算方法,本節給出SA-LSTM的具體結構,該模型的具體結構如圖1所示。

根據LSTM網絡的特點,該模型第一個隱含層的輸入包括三部分:政府統計的經濟指標、微博情感分值以及上一時間片該隱含層的輸出,具體公式如下:

(3)

該模型第2個隱含層的輸入包括兩部分:同一時刻上一隱含層的輸出和同一隱含層上一時間片的輸出,具體公式如下:

(4)

該模型的損失函數是預測誤差平方和與模型權值參數的平方和之和,具體公式如式(5):

(5)

圖1 SA-LSTM模型結構

該模型具有以下特點:

1)能夠表征時序數據。RNN是專門用來處理時序數據的,其每一個隱含層節點的輸入既包含了輸入層的輸入,又有來自上一時刻隱含層的輸出,這使它可以使用先前的信息來學習當前的任務。LSTM網絡基于RNN進行改進,在保留上述優點的基礎上,使得信息能夠保持長時間的記憶。利用該模型能夠很好地反映統計數據對未來的影響。

2)融合時效性強的微博文本。微博文本能夠實時反映經濟發展狀況以及社會對于經濟發展的輿論傾向,借此來彌補統計數據滯后的缺點。

3)模型層數少。本文使用的LSTM網絡只有兩層,分別為單向LSTM和雙向長短時記憶循環神經網(Bidirectional-LSTM,BLSTM),這使得模型在保留自身特性的同時,降低由于訓練樣本過少而產生過擬合的風險。

3 實驗與結果

3.1 數據集

本文實驗所使用數據包括兩部分:非結構化數據和結構化數據。

在本文中,結構化數據是指政府機構統計的指標數據。精準的預測結果和合理的預測指標體系是分不開的,想要準確地預測區域未來投資情況,需要有足夠而且覆蓋范圍廣但是又不冗余的預測指標,包括經濟發展、交通發展、文化教育科技發展、對外貿易和能源等各方面的指標,它們從不同的角度反映了區域經濟發展情況。

本文采集的數據來自中國經濟網統計數據庫,分別采集了河南省、江蘇省、上海市、山西省4個省市2012- 01— 2016- 12五年20個季度的數據。在借鑒現有文獻研究成果的基礎上,遵循指標變量的客觀性、代表性、非差異性及可獲得性4個原則, 重點考慮東道國的經濟發展水平、交通建設、科技發展水平、市場開放程度、能源等影響東道國投資環境的重要因素,構建評價指標體系,具體包含了7個評價指標:地區生產總值、房地產開發企業投資完成額、股票成交額(深圳證券交易所)、運輸業固定投資完成額、軟件業務收入、進出口總額、發電量[13]。預測目標是固定投資總額。本文以新浪微博作為非結構化數據,因為微博具有的自由、高流動性與時效性等特點能夠及時反映社會對經濟發展狀況的態度。

本文采用的獲取微博方法基于Python 語言,Selenium WebDriver 工具編寫爬蟲程序,自動獲得想要的微博文本,其中以河南經濟報、新浪江蘇城市頻道、經濟和信息化在線——上海、新浪山西四個公眾號所發的微博分別作為河南省、江蘇省、上海市、山西省數據集的非結構化數據。時間范圍是2012- 01— 2016- 12,一共可分為20個季度,各個季度微博條數如表1所示。

表1 四省市2012 — 2016微博數

3.2 對比分析模型

將預測模型SA-LSTM與以下4種模型進行對比分析:

BPNN 這是一種按照誤差逆向傳播算法訓練的多層前饋神經網絡[14]。

LSTM網絡 LSTM是一種時間遞歸神經網絡,適合于處理和預測時間序列中間隔和延遲相對較長的重要事件。在本實驗中構建的網絡結構包括LSTM和BLSTM兩個隱含層[15-19]。在實驗中,該模型的神經網絡部分與SA-LSTM一樣,只是沒有加入微博情感分值。

ARIMA 該模型是將非平穩的時間序列轉化為平穩時間序列,然后將因變量僅對它的滯后值以及隨機誤差項的現值和滯后值進行回歸所建立的模型。在本文中以要預測的投資預測總額作為時間序列[20]。

LR 該方法是利用數理統計中回歸分析來確定兩種或兩種以上變量間相互依賴的定量關系的一種統計分析方法[21]。

3.3 實驗和結果分析

3.3.1 情感分析實驗結果

本文非結構化數據的處理是通過2.2節介紹的基于情感詞典的微博情感分析方法,計算得到各省市各個季度的微博的情感分值,然后將之作為預測指標,和原指標體系一起進行結果預測。微博情感分值計算結果如表2所示。

3.3.2 預測模型實驗對比分析

在本實驗中,將2012年第1季度到2015年第4季度的16個季度數據作為訓練集,2015年第4季度到2016年第4季度的4個季度的數據集作為測試集。在模型訓練階段,輸入為前一個季度的地區生產總值、房地產開發企業投資完成額、進出口總額、發電量、軟件業務收入、運輸業固定投資完成額、股票成交額(深圳證券交易所)和本季度的微博情感分值,一共8個指標;輸出為本季度的固定投資總額。

根據江蘇省、河南省、上海市和山西省4個省市2012年第1季度到2015年第4季度的數據,分別訓練ARIMA、LR、BPNN、 LSTM和SA-LSTM五個模型;然后使用訓練好的模型對2016年第1季度到2016年第4季度進行預測。實驗結果如表3。

從表3可以看出,在河南、江蘇、上海、山西4個數據集上SA-LSTM預測的平均相對誤差都是最小的,與其他4種方法中的最優方法相比,能夠分別降低0.06,0.92,0.94,0.66個百分點,實驗結果說明本文構建的SA-LSTM模型具有較強的非線性擬合能力,能夠很好地對宏觀經濟進行預測。

本文構建的SA-LSTM模型與LSTM模型相比,SA-LSTM模型加入了微博情感分析來修正模型。通過表3中LSTM與SA-LSTM兩列可以發現加入微博情感分析后,平均能夠降低相對誤差4.95, 0.92, 1.21,0.66個百分點, 微博情感分析對投資預測有積極的影響。

5個模型在4個數據集上預測相對誤差的方差如表4所示。

表4 預測相對誤差的方差

根據表4可以發現,SA-LSTM在4個數據集上預測相對誤差的平均方差是最小的,比ARIMA、 LR、BPNN、LSTM分別低64.41、 56.09、 190.14、 0.52,這表明SA-LSTM預測結果穩定,能夠很好地應對突發情況,泛化能力強。

關于使用江蘇省、上海市、山西省數據集進行預測時在某一個季度會出現加入微博數據范圍誤差較大的情況:一方面是因為本文選取的微博數據較少且來源單一,存在一定的局限性,并不能夠完全準確地反映所對應省份的輿論情況;另一方面是因為本文在預處理微博時僅僅去掉了非本省份的微博,剩余的微博里依然存在噪聲。這兩方面都會對預測的實驗結果造成影響。

4 結語

對于宏觀經濟預測系統中建模和預測存在的特點:系統高度非線性、數據樣本較少和系統數據存在時滯性,本文從預測模型和數據擴充兩個方面進行改進,提出融合微博情感分析和深度學習的新的預測方法——SA-LSTM,該方法綜合實時性的微博數據和權威網站的統計數據進行實驗并與其他四種算法進行對比分析。實驗表明融合微博情感分析的深度學習宏觀經濟預測方法能夠有效地對宏觀經濟進行預測,與ARIMA、Linear Regression、BPNN、LSTM模型相比具有更好的準確性和泛化能力。

本文在算法設計、數據特征上做了相關工作,有較好的結果,但仍存在可以改進的地方:

1)選取更加廣泛的互聯網數據,而不僅僅是微博數據。并且需要對這些采集到的互聯網數據進行更加更加科學的噪聲處理。

2)利用深度學習方法進行微博情感分析。基于深度學習的方法,分別在句子級、實體級、篇章級多粒度建立完整的分析任務。這種方法能夠更好地捕捉情感極性在前后文表達的信息,效果上相對于傳統的方法有很大的提升。

猜你喜歡
情感分析方法
隱蔽失效適航要求符合性驗證分析
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
如何在情感中自我成長,保持獨立
電力系統及其自動化發展趨勢分析
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 久久亚洲AⅤ无码精品午夜麻豆| 国产精品一区在线麻豆| 在线国产你懂的| 精品成人免费自拍视频| 蜜桃视频一区| 狼友视频国产精品首页| 国产黄色免费看| 2019国产在线| 四虎精品国产AV二区| 亚洲成人在线免费观看| 国产成人麻豆精品| Jizz国产色系免费| 日本三级欧美三级| 影音先锋丝袜制服| 国产丝袜啪啪| 色综合中文| 国产精品久久久久久久久久久久| 无码啪啪精品天堂浪潮av| 毛片网站在线看| 中文字幕va| 精品无码日韩国产不卡av| 中文字幕日韩视频欧美一区| 欧美三级日韩三级| 秋霞国产在线| 久久精品娱乐亚洲领先| 久草视频福利在线观看| 伊人丁香五月天久久综合| 中文字幕亚洲乱码熟女1区2区| 精品国产亚洲人成在线| 亚洲精品无码久久久久苍井空| 一本一道波多野结衣av黑人在线| 国产无码精品在线| 久青草免费在线视频| 国产视频欧美| 扒开粉嫩的小缝隙喷白浆视频| 一区二区理伦视频| 狼友av永久网站免费观看| 亚洲综合色区在线播放2019| 国产真实乱了在线播放| 国产av剧情无码精品色午夜| 欧美综合中文字幕久久| 深爱婷婷激情网| 尤物成AV人片在线观看| 操美女免费网站| swag国产精品| 亚洲中文字幕久久无码精品A| 国产va视频| 久久99热这里只有精品免费看| 国产午夜在线观看视频| 精品一區二區久久久久久久網站| 亚洲永久视频| 亚洲IV视频免费在线光看| 国产高清色视频免费看的网址| 中文字幕在线日本| 制服丝袜一区二区三区在线| 91丨九色丨首页在线播放| 欧美午夜久久| 欧美一级高清免费a| 久久a毛片| 91国内外精品自在线播放| 天天综合色天天综合网| 色视频久久| 在线网站18禁| 国产精品精品视频| 欧美成人综合视频| av尤物免费在线观看| 全部免费特黄特色大片视频| julia中文字幕久久亚洲| 国产特级毛片aaaaaa| 免费观看精品视频999| 色婷婷天天综合在线| 欧美人人干| 茄子视频毛片免费观看| 色135综合网| 就去色综合| 四虎成人精品| 亚洲无码一区在线观看| 国产精品吹潮在线观看中文| 午夜无码一区二区三区| 国产精品第三页在线看| 午夜啪啪福利| 久久精品亚洲中文字幕乱码|