999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于互聯(lián)網(wǎng)數(shù)據(jù)的消費者信心指數(shù)滾動預測研究

2021-11-29 10:43:08朱建霖李挽瀾
關鍵詞:消費者模型

孫 景,朱建霖,李挽瀾,高 哲

(西安交通大學 經(jīng)濟與金融學院,陜西 西安 710061)

投資、出口和消費是拉動中國經(jīng)濟增長的三駕馬車。受新冠肺炎疫情的影響,世界經(jīng)濟遭遇重創(chuàng),國際貿易受到影響。2020年5月14日,中共中央政治局常務委員會會議首次提出“深化供給側結構性改革,充分發(fā)揮我國超大規(guī)模市場優(yōu)勢和內需潛力,構建國內國際雙循環(huán)相互促進的新發(fā)展格局”。中國是人口大國,蘊含著有無限可能的消費市場,通過提升消費者信心拉動消費,以國內新需求替代外部需求滯納產(chǎn)能,才能真正實現(xiàn)經(jīng)濟內循環(huán),保持GDP的持續(xù)增長。消費者信心指數(shù)(Consumer Confidence Index,CCI)是預測經(jīng)濟走勢和消費傾向的指標,它綜合反映并量化消費者對當前及未來經(jīng)濟形勢、收入水平及收入預期的判斷,以及消費心理狀態(tài)的主觀感受等,是衡量市場經(jīng)濟條件下居民消費動向的重要參數(shù)。及時準確地統(tǒng)計和預測消費者信心指數(shù),對預判消費及宏觀經(jīng)濟形勢、調整宏觀經(jīng)濟政策都具有重要的現(xiàn)實意義。

20世紀40年代,美國密歇根大學調查研究中心的Katona[1]最早提出了消費者信心指數(shù)的概念與方法。中國國家統(tǒng)計局于1997年開始在全國范圍內開展消費者信心指數(shù)的調查與編制。目前,中國消費者信心指數(shù)編制基于消費者電話問卷調查展開。該調查每月進行一次,通過電話問卷調查收集居民對經(jīng)濟環(huán)境與家庭收支的看法,問題涉及受訪者對經(jīng)濟現(xiàn)狀的看法、對未來生活的預期、對國民經(jīng)濟的估測等方面。然而,消費者調查需要經(jīng)過問卷設計、樣本抽取、調查訪問、數(shù)據(jù)整理匯編等多個環(huán)節(jié),耗費較多的時間與人力物力資源,難以及時更新,其準確性與時效性面臨挑戰(zhàn)。

互聯(lián)網(wǎng)時代,人們每天都會使用網(wǎng)絡并產(chǎn)生大量數(shù)據(jù),而這些數(shù)據(jù)為科學研究提供了新的數(shù)據(jù)來源。互聯(lián)網(wǎng)的產(chǎn)生與應用為了解消費者心理與行為提供了新的途徑,為提高消費者信心指數(shù)預測準確性與時效性提供了大量的優(yōu)質數(shù)據(jù)。互聯(lián)網(wǎng)數(shù)據(jù)種類繁多,本文將以互聯(lián)網(wǎng)數(shù)據(jù)的兩個典型代表:網(wǎng)絡搜索關鍵詞指數(shù)數(shù)據(jù)和網(wǎng)絡新聞文本數(shù)據(jù)為依據(jù),對消費者信心指數(shù)進行預測。

一、文獻綜述

國內外學者在利用網(wǎng)絡搜索數(shù)據(jù)和網(wǎng)絡新聞數(shù)據(jù)預測經(jīng)濟及消費者信心指數(shù)方面已經(jīng)做了一些研究。

在利用網(wǎng)絡搜索數(shù)據(jù)和新聞媒體數(shù)據(jù)進行經(jīng)濟預測的相關研究中,Ettredge等[2]利用網(wǎng)絡搜索數(shù)據(jù)預測失業(yè)率,并發(fā)現(xiàn)與美國官方發(fā)布的失業(yè)率之間存在顯著的正相關。Guzman[3]提出了一種基于谷歌搜索元數(shù)據(jù)的通脹搜索指數(shù),能對通貨膨脹率進行有效預測。Smith[4]根據(jù)“經(jīng)濟危機”“金融危機”和“衰退”等關鍵詞的谷歌搜索量變化來預測外匯市場的波動。Choi等[5]利用谷歌趨勢數(shù)據(jù)預測當下經(jīng)濟活動,指出經(jīng)濟學家、投資人、財經(jīng)記者每月都在關注政府發(fā)布的經(jīng)濟運行情況報告,但這些報告的發(fā)布普遍滯后。而谷歌每天都在產(chǎn)生大量與經(jīng)濟發(fā)展相關的搜索數(shù)據(jù),而與此相關的搜索行為與當下的經(jīng)濟活動之間必然存在不容忽視的關系,或許可以對預測當下的經(jīng)濟活動起到非常重要的作用。在此基礎上,文章還舉例說明了如何利用谷歌趨勢預測美國零售業(yè)、汽車、住房和旅游銷售情況等。Thorsrud[6]將挪威主要商業(yè)報紙分解成若干個新聞主題,對GDP進行季度預測,預測效果最多可提升15%。

我國研究者張崇等[7]發(fā)現(xiàn)網(wǎng)絡搜索數(shù)據(jù)與居民消費價格指數(shù)(CPI)之間存在一定的先行滯后關系。他們建構的模型具有很強的時效性,比國家統(tǒng)計局的數(shù)據(jù)發(fā)布提前一個月左右,而且與傳統(tǒng)的預測方法相比,模型還具備一定的轉折點預測能力。彭庚等[8]利用網(wǎng)絡搜索數(shù)據(jù),采用改進的逐步回歸方法分層建立了三個模型來預測失業(yè)率。結果發(fā)現(xiàn),三個模型的擬合優(yōu)度均在90%以上,說明網(wǎng)絡搜索數(shù)據(jù)對經(jīng)濟、社會問題可以進行有效的預測。董倩等[9]基于百度搜索數(shù)據(jù)對全國16個城市的二手房價格和新房價格進行了擬合和預測,結果發(fā)現(xiàn)網(wǎng)絡搜索數(shù)據(jù)不但能很好地預測房價指數(shù),而且比官方數(shù)據(jù)發(fā)布提前了兩周,具有很強的時效性。薛曄等[10]建立決策樹—BP神經(jīng)網(wǎng)絡模型,在百度指數(shù)的基礎上加入了上證綜合指數(shù)、國際油價、人民幣兌換美元匯率等指標,對月度通貨膨脹綜合指數(shù)進行預測,短期預測效果良好,預測結果可靠性有明顯的提高。

在利用網(wǎng)絡搜索數(shù)據(jù)和新聞媒體數(shù)據(jù)預測消費者信心指數(shù)的相關研究中,Alsem等[11]發(fā)現(xiàn)新聞媒體中的經(jīng)濟形勢評論會對消費者信心產(chǎn)生短期影響。Penna等[12]使用谷歌趨勢數(shù)據(jù)構建了美國消費者情緒指數(shù),發(fā)現(xiàn)其與密歇根大學發(fā)布的消費者情緒指數(shù)以及美國咨商局發(fā)布的消費者信心指數(shù)具有高度相關性,且在時間上領先,可以預測另外兩種指數(shù)。Vosen等[13]利用與消費相關的谷歌趨勢數(shù)據(jù)建立的消費月度指標成果預測了美國消費者信心指數(shù),其預測效果優(yōu)于調查數(shù)據(jù)。

我國研究者孫毅等[14]利用八個行業(yè)相關商品的百度指數(shù)數(shù)據(jù)構建了消費者信心指數(shù),并領先于宏觀經(jīng)濟景氣一致指數(shù)6個月,對社會商品零售總額的長期趨勢判斷更加準確,對短期波動的預測精度更高。劉偉江等[15]通過搜集與消費者信心指數(shù)構成相關的中國臺灣地區(qū)關鍵詞搜索量,運用主成分分析方法合成搜索指數(shù)并對該地區(qū)消費者信心指數(shù)進行預測,研究表明搜索指數(shù)與消費者信心指數(shù)之間存在長期穩(wěn)定協(xié)整關系,模型擬合程度高、時效性強且具備轉折點預測的能力。董現(xiàn)壘等[16]利用百度指數(shù)數(shù)據(jù)對我國消費者信心指數(shù)進行了預測,取得較好的效果。劉偉江等[17]利用網(wǎng)絡關鍵詞搜索數(shù)據(jù)生成了網(wǎng)絡消費者信心指數(shù)(WCCI),以規(guī)模以上企業(yè)工業(yè)增加值(IP)作為測量經(jīng)濟增長的量化指標,其研究表明WCCI與IP之間存在顯著的動態(tài)相關關系。劉苗等[18]利用百度搜索采集了約17萬條新聞,并通過文本挖掘獲取新聞的情感傾向,以此為基礎構建了新聞消費者信心指數(shù)。新聞消費者信心指數(shù)與傳統(tǒng)消費者信心指數(shù)的相關性較高,且對消費短期趨勢的判斷更加明顯。唐曉彬等[19]基于機器學習長短時間記憶神經(jīng)網(wǎng)絡模型,結合相關網(wǎng)絡搜索數(shù)據(jù)構建預測模型對我國消費者信心指數(shù)長、中、短期進行了預測,預測結果表明引入網(wǎng)絡搜索數(shù)據(jù)能夠提高神經(jīng)網(wǎng)絡模型的預測性能與預測精度。國內外針對利用互聯(lián)網(wǎng)數(shù)據(jù)預測消費者信心指數(shù)的研究表明,互聯(lián)網(wǎng)數(shù)據(jù)本身具有樣本量大、時效性強、精準度高、獲取成本低等優(yōu)點,利用互聯(lián)網(wǎng)數(shù)據(jù)可以提高預測的時效性和準確性。

無論是網(wǎng)絡搜索行為還是網(wǎng)絡新聞都具有時效性強的特點,通過以往研究中的特征關鍵詞“靜態(tài)”篩選方法都難以滿足消費者信心指數(shù)預測建模準確性需求。本文將挖掘網(wǎng)絡新聞語義特征關鍵詞并獲取相應的百度搜索指數(shù)作為消費者信心指數(shù)預測建模的數(shù)據(jù)基礎,通過時間窗口的設置與滑動,滾動篩選預測建模的關鍵詞解釋變量,使變量選擇更具時效性,利用多種機器學習及回歸方法建立提前1~4個月的消費者信心指數(shù)預測模型,根據(jù)準確率對預測模型進行篩選,通過分析比較宏觀經(jīng)濟指標數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)在預測建模中的表現(xiàn),給出不同類型數(shù)據(jù)在消費者信心指數(shù)預測建模中的應用建議。

二、機理分析

消費者信心指數(shù)是反映消費者信心強弱的指標。消費者信心既受宏觀經(jīng)濟因素的影響,也受消費者個體的微觀因素影響。宏觀經(jīng)濟發(fā)展形勢向好,居民收入水平提高,社會消費品日益增多,才能保持或提升消費者信心。經(jīng)濟運行、消費結構、物價水平、貨幣政策等宏觀因素都能對消費者信心指數(shù)產(chǎn)生影響。宏觀經(jīng)濟指標是否達到消費者的預期水平,會影響消費者對現(xiàn)狀的滿意程度和對未來的預期。此外,宏觀經(jīng)濟的發(fā)展狀況會影響消費者的消費需求,從而影響消費者信心。個人收入、消費態(tài)度、投資策略、家庭開支與經(jīng)濟預期等是影響消費者信心的個體微觀因素,這些因素會直接影響消費者的消費情緒及消費行為。

網(wǎng)絡新聞具有更新快、內容全等特點,它突破了傳統(tǒng)媒介的束縛,讓人們更便捷地接觸新事物,傳播熱門話題。隨著移動互聯(lián)網(wǎng)的普及,網(wǎng)絡新聞受眾不斷增多,網(wǎng)絡新聞內容對大眾情緒、社會心理的影響力不斷增強。網(wǎng)絡搜索行為不僅與人們的現(xiàn)實需求與客觀環(huán)境相關,還受到人們對事物的主觀認知與心理偏好的影響。而消費者信心也受客觀因素與主觀因素的影響。消費者在產(chǎn)生消費需求、開展信息收集與購買決策時,往往會閱讀網(wǎng)絡新聞和使用搜索引擎。消費者可以通過財經(jīng)類新聞了解經(jīng)濟運行、消費結構、物價水平、貨幣政策等宏觀經(jīng)濟形勢與政策。在購買商品時,消費者也會通過搜索引擎查找合適的產(chǎn)品,判斷商品的購買時機與價格是否合理等。此外,當消費者遇到就業(yè)、收入以及投資理財?shù)认嚓P問題時,也可以通過網(wǎng)絡搜索引擎獲取相關信息。因此,瀏覽網(wǎng)絡新聞或搜索網(wǎng)絡信息已經(jīng)成為消費者判斷宏觀經(jīng)濟形勢、輔助消費決策的重要手段。無論是消費者信心指數(shù)的宏觀影響因素還是微觀影響因素的變動,都可以通過以網(wǎng)絡新聞數(shù)據(jù)與搜索引擎數(shù)據(jù)為代表的互聯(lián)網(wǎng)數(shù)據(jù)進行捕獲,并通過關鍵詞搜索指數(shù)的形式體現(xiàn)出來。互聯(lián)網(wǎng)數(shù)據(jù)與消費者信心指數(shù)的關聯(lián)機理如圖1所示。

圖1 互聯(lián)網(wǎng)數(shù)據(jù)與消費者信心指數(shù)的關聯(lián)機理

三、數(shù)據(jù)獲取與預處理

為了收集與消費者信心指數(shù)預測有關的互聯(lián)網(wǎng)數(shù)據(jù),本文首先基于微觀因素分析,確定若干個重要的初始關鍵詞數(shù)據(jù)。然后以初始關鍵詞為基礎,采集相關的網(wǎng)絡新聞數(shù)據(jù),形成網(wǎng)絡新聞語料庫,并對網(wǎng)絡新聞文本數(shù)據(jù)進行分詞處理,通過TF-IDF值詞匯重要性度量,篩選網(wǎng)絡新聞熱點詞,通過建立詞向量模型從網(wǎng)絡新聞中篩選初始關鍵詞的近似詞,通過百度搜索引擎需求圖譜得到初始關鍵詞的相關詞,將初始關鍵詞及以上三類拓展關鍵詞合并,形成網(wǎng)絡關鍵詞庫,并獲取每個關鍵詞的日均百度指數(shù)數(shù)據(jù)。最后對數(shù)據(jù)進行缺失值填補、異常值處理和頻率轉換等預處理。互聯(lián)網(wǎng)數(shù)據(jù)的獲取與預處理流程如圖2所示。

圖2 互聯(lián)網(wǎng)數(shù)據(jù)的獲取與預處理流程

(一)初始關鍵詞的確定

基于互聯(lián)網(wǎng)數(shù)據(jù)與消費者信心指數(shù)的關聯(lián)機理分析,本文考慮了個人收入、消費態(tài)度、投資策略、家庭開支、經(jīng)濟預期共五個微觀因素,確定了“收入”“就業(yè)”“購物”“消費”“投資”“物價”“經(jīng)濟”7個初始關鍵詞。

(二)網(wǎng)絡新聞數(shù)據(jù)的獲取與預處理

作為國家重點新聞網(wǎng)站,人民網(wǎng)以新聞報道的權威性、及時性和多樣性為特色,能全面反映我國社會經(jīng)濟的現(xiàn)實情況,因此本文以人民網(wǎng)新聞作為網(wǎng)絡新聞數(shù)據(jù)的數(shù)據(jù)源。首先,采集人民網(wǎng)與“收入”“就業(yè)”“購物”“消費”“投資”“物價”“經(jīng)濟”7個初始關鍵詞有關的網(wǎng)絡新聞共計7 134篇,采集的數(shù)據(jù)包括新聞的時間、標題與新聞內容文本,并根據(jù)這些數(shù)據(jù)建立網(wǎng)絡新聞語料庫。其次,對新聞文本數(shù)據(jù)進行分詞處理,詞匯是中文語言表達含義的基礎,因此分詞也是進行中文文本處理的必要環(huán)節(jié),本文所使用的分詞工具為python開源工具jieba分詞。最后,利用TF-IDF值度量詞匯重要性,在分詞結果中篩選出網(wǎng)絡新聞熱點詞,形成網(wǎng)絡新聞熱點詞庫。本文篩選了網(wǎng)絡新聞語料庫中TF-IDF權重較大的100個詞匯作為網(wǎng)絡新聞熱點詞。

(三)初始關鍵詞的近似詞篩選

除了網(wǎng)絡新聞熱點詞,在網(wǎng)絡新聞語料庫篩選出與7個初始關鍵詞近似程度較高的詞匯,作為初始關鍵詞近似詞,加入網(wǎng)絡關鍵詞庫。為了度量詞匯間的近似度,本文構建了詞向量模型,基于語義對網(wǎng)絡新聞文本詞匯進行向量化表示,并通過計算初始關鍵詞向量與其他詞匯向量的余弦距離,衡量網(wǎng)絡新聞文本詞匯與初始關鍵詞的近似程度,并針對每個初始關鍵詞,選取與其最接近的10個網(wǎng)絡新聞文本詞匯,作為初始關鍵詞的近似詞。本文采用python開源工具gensim中的Word2Vec詞向量模型實現(xiàn)新聞文本詞匯的向量化表示。在Word2Vec詞向量模型訓練中,設定的參數(shù)見表1。

表1 Word2Vec詞向量模型參數(shù)

經(jīng)訓練后,可以得到在網(wǎng)絡新聞語料庫中出現(xiàn)4次以上的新聞文本詞匯的向量化表示,每個詞匯對應一個400維向量,可以通過余弦距離判斷兩個詞匯之間的近似程度。本文首先從詞向量訓練結果中獲取7個初始關鍵詞的400維詞向量,其次計算每個初始關鍵詞與其他網(wǎng)絡新聞文本詞匯之間的余弦距離,最后選取余弦距離值較大的前10個網(wǎng)絡新聞文本詞匯作為初始關鍵詞近似詞,加入網(wǎng)絡關鍵詞庫。

(四)基于需求圖譜的初始關鍵詞相關詞獲取

通過百度指數(shù)平臺自帶“需求圖譜”的相關檢索詞進行關鍵詞拓展。本文根據(jù)百度指數(shù)平臺的“需求圖譜”與“關鍵詞相關性分類”,圍繞“收入”“就業(yè)”“購物”“消費”“投資”“物價”“經(jīng)濟”7個初始關鍵詞拓展了70個關鍵詞作為需求圖譜相關詞,加入網(wǎng)絡關鍵詞庫。

(五)網(wǎng)絡關鍵詞百度搜索指數(shù)的獲取與預處理

通過理論分析與關鍵詞拓展,獲取了初始關鍵詞、網(wǎng)絡新聞熱點詞、初始關鍵詞近似詞、初始關鍵詞相關詞共四類關鍵詞,形成網(wǎng)絡關鍵詞庫,再利用網(wǎng)絡爬蟲獲取關鍵詞日均百度指數(shù)。

由于互聯(lián)網(wǎng)數(shù)據(jù)產(chǎn)生機制復雜多變,數(shù)據(jù)質量參差不齊,可能存在缺失值、異常值情況,因此本文根據(jù)關鍵詞百度指數(shù)缺失率情況,丟棄缺失率高于5%的數(shù)據(jù),并對剩余關鍵詞日均百度指數(shù)缺失數(shù)據(jù)利用拉格朗日插值法進行填補。

由于消費者信心指數(shù)數(shù)據(jù)是月度數(shù)據(jù),因此要對作為消費者信心指數(shù)預測變量的網(wǎng)絡關鍵詞數(shù)據(jù)進行頻率轉換,即將關鍵詞日均百度指數(shù)轉換為月均百度指數(shù)。假設M月有m天,關鍵詞X在M月的日均百度指數(shù)為x1,x2,…,xm,則其在M月的月均百度指數(shù)為(x1+x2+…+xm)/m。

(六)對關鍵詞月均百度指數(shù)的異常值進行處理

通過標準差與平均值之比計算每個關鍵詞的月均百度指數(shù)變異系數(shù)。統(tǒng)計結果表明,網(wǎng)絡關鍵詞庫中的關鍵詞月均百度指數(shù)變異系數(shù)均低于4,且大部分關鍵詞低于3,數(shù)據(jù)離散程度并不高,可以采用均值加減3倍標準差作為正常值的上下界。對超出上下界的做異常值處理,即超出上界的用上界值替換,超出下界的用下界值替換。

四、變量篩選機制設計

本文將以網(wǎng)絡關鍵詞百度指數(shù)作為解釋變量,消費者信心指數(shù)作為被解釋變量建立回歸模型以實現(xiàn)對消費者信心指數(shù)的預測。隨著時間的推移,要在不同的預測時點篩選出不同的預測建模解釋變量。無論是網(wǎng)絡新聞熱點詞還是網(wǎng)絡關鍵詞搜索量都會隨時間的變化而變化,作為候選解釋變量的許多關鍵詞與某些時點的消費者信心的相關性較弱,不宜作為解釋變量;部分關鍵詞百度指數(shù)之間可能存在多重共線性,要通過關鍵詞取舍來消除此類問題;如果將網(wǎng)絡關鍵詞庫的所有關鍵詞作為解釋變量,維度過高無法建模,因此也需要對關鍵詞進行篩選。由此可見,從網(wǎng)絡關鍵詞庫中篩選解釋變量是滾動預測建模的必要環(huán)節(jié),解釋變量篩選機制如圖3所示。

圖3 解釋變量篩選機制

作為候選解釋變量,網(wǎng)絡關鍵詞庫中關鍵詞與消費者信心指數(shù)均有一定的相關性,稱為特征變量。本文使用滾動預測方法,在每一個預測時點分別建立提前1個月、2個月、3個月和4個月的消費者信心指數(shù)預測模型,因此從網(wǎng)絡關鍵詞庫中篩選解釋變量的過程中,也需要采用窗口滑動的模式,分別生成4個解釋變量集合。為了提升預測精度,不僅要考慮特征變量的當期數(shù)據(jù)與消費者信心指數(shù)歷史數(shù)據(jù)之間的相似程度,還要考慮特征變量滯后1~11期的數(shù)據(jù)與消費者信心指數(shù)歷史數(shù)據(jù)之間的相似程度。因此,需要將特征變量滯后期數(shù)據(jù)也加入解釋變量的篩選,并篩選出與消費者信心指數(shù)歷史數(shù)據(jù)相似性最高的滯后期數(shù)據(jù)作為該特征變量的數(shù)據(jù)參與建模。

在特征變量的相似性檢驗過程中,本文分別通過皮爾森相關系數(shù)、K-L信息量、均值哈希與差值哈希等方法檢驗領先1~4個月的消費者信心指數(shù)歷史數(shù)據(jù)與特征變量的當期及滯后1~11期數(shù)據(jù)的相似程度,并將相似度高的特征變量選為建模解釋變量。通過特征變量相似性檢驗篩選解釋變量的具體步驟如下:(1)計算特征變量與消費者信心指數(shù)歷史值之間的皮爾森相關系數(shù),并將相關性最高的3個特征變量選為預測建模解釋變量。(2)進一步計算剩余特征變量與消費者信心指數(shù)間的K-L信息量,并將K-L信息量絕對值最小的前3個特征變量選為預測建模解釋變量。(3)分別針對均值哈希值和差值哈希值進一步計算剩余特征變量與消費者信心指數(shù)間的漢明距離,并分別篩選出漢明距離最小的2個特征變量作為預測建模解釋變量。通過以上步驟篩選出10個預測建模解釋變量。

除了將相似性檢驗排名靠前的10個特征變量選入預測建模解釋變量,還需要將部分與消費者信心指數(shù)相似程度較高,但未選入預測模型解釋變量的特征變量通過隨機森林進行建模,得到變量重要性程度。在皮爾森相關系數(shù)分析、K-L信息量分析、均值哈希分析、差值哈希分析中任意一種相似性檢驗排名在前10名的變量,才有機會加入隨機森林模型。隨機森林將隨機生成特征變量子集構建決策樹,通過不同決策樹的表現(xiàn)判斷各個特征變量的重要性程度。本文通過隨機森林篩選出重要性程度最高的2個特征變量加入預測建模解釋變量。在建立每一個消費者信心指數(shù)預測模型時,都需要先通過以上機制篩選出12個解釋變量。

五、預測模型的建立與選擇

本文以國家統(tǒng)計局公布的消費者信心指數(shù)為預測目標,基于上文所述的變量篩選機制從網(wǎng)絡關鍵詞庫中滾動篩選解釋變量,通過多種機器學習方法建立消費者信心指數(shù)預測模型,對2015年3月—2018年5月的消費者信心指數(shù)進行預測。滾動預測的每個時間窗口長度為24個月,初始窗口為2013年3月—2015年2月,結束窗口為2016年5月—2018年4月,共39個時間窗口,提前1~4個月滾動預測了2015年3月—2018年5月共39期消費者信心指數(shù)。

在python的sklearn模塊中提供了多種函數(shù)用來支持模型的建立與評估,本文選取了袋裝樹回歸、隨機森林回歸、極端隨機樹回歸、梯度提升樹回歸、自適應提升樹回歸、多層感知機回歸、支持向量回歸、嶺回歸、Lasso回歸、彈性網(wǎng)回歸、主成分回歸、偏最小二乘回歸等共12類方法建立消費者信心指數(shù)預測模型,這12類模型的類型、名稱和sklearn建模函數(shù)見表2。

表2 模型類型、名稱和sklearn建模函數(shù)

本文采用均方誤差(Mean-square Error,MSE)評價模型的預測效果。MSE對預測誤差的極大、極小值反應靈敏,能夠度量預測的精度,MSE值越低,模型的精度越高。為了更好地比較不同模型的預測效果,本文對部分類別的模型設置了多組超參數(shù),并建立多個模型進行實驗。超參數(shù)是指根據(jù)不同建模算法的具體要求所設定的參數(shù)。在每一次建模過程中,一般需要設定一組超參數(shù),有些模型是敏感于超參數(shù)組合設定的,如果超參數(shù)組合設定不恰當,會使得模型的性能下降。本文利用網(wǎng)格搜索法確定超參數(shù),在充分理解每一種模型及超參數(shù)預含義的基礎上,結合樣本數(shù)量與預實驗效果,確定每個超參數(shù)的取值范圍、個數(shù)及具體數(shù)值,并通過窮舉法對模型中的多個超參數(shù)值進行組合實驗,根據(jù)模型的MSE值最終選出最優(yōu)的超參數(shù)組合及模型。例如,通過分析判斷模型M有k1和k2兩個超參數(shù)需要設置,利用網(wǎng)格搜索法分別為k1和k2確定n1和n2個有代表性的具體參數(shù)值,則模型M的實驗超參數(shù)組合總數(shù)為n1×n2個,即可以訓練出n1×n2個模型,最終選出最優(yōu)的超參數(shù)組合及模型。本文在建模實驗過程中為12類模型設定的超參數(shù)情況見表3,未說明的超參數(shù)均取sklearn模塊默認值。

表3 消費者信心指數(shù)預測模型超參數(shù)設定

根據(jù)MSE值,對提前1~4個月的消費者信心指數(shù)預測模型前12名進行了排序,結果見表4。

表4 消費者信心指數(shù)預測模型MSE值

實驗結果表明,提前1~4個月表現(xiàn)最好的預測模型分別是自適應提升樹回歸模型(AdaB)、Lasso回歸模型(Lasso)和多層感知機回歸模型(MLPR),預測模型的均方誤差值分別是8.146、8.048、8.192和5.989。另外,極端隨機樹回歸模型(ET)在所有提前期的預測表現(xiàn)中都是最差的,不建議使用該方法進行建模。

各模型在不同提前期下預測的MSE值比較,如圖4所示。總體來講,自適應提升樹回歸模型(AdaB)、多層感知機回歸模型(MLPR)和Lasso回歸模型(Lasso)預測誤差值相對較小。自適應提升樹回歸模型在提前1~2個月的消費者信心指數(shù)預測中表現(xiàn)最好,其次是Lasso回歸模型。在提前3~4個月的消費者信心指數(shù)預測中多層感知機回歸模型和Lasso回歸模型表現(xiàn)最好,其次是自適應提升樹回歸模型。

圖4 各模型在不同提前期下預測的MSE值比較

大部分預測模型出現(xiàn)了預測提前期數(shù)越多模型的MSE值越低的情形。整體上看,提前4個月的預測模型精度要明顯高于其他提前期的預測精度。由于微觀因素的變動需要一定的時間才能傳導至宏觀層面,因此網(wǎng)絡搜索行為對消費者信心指數(shù)的影響具有一定的滯后性。

六、預測模型比較

傳統(tǒng)的消費者信心指數(shù)預測往往是以相關的經(jīng)濟指標作解釋變量構建模型。為了比較互聯(lián)網(wǎng)大數(shù)據(jù)與宏觀經(jīng)濟數(shù)據(jù)對消費者信心指數(shù)的預測能力,本文分別以互聯(lián)網(wǎng)大數(shù)據(jù)、宏觀經(jīng)濟指標數(shù)據(jù)和二者綜合數(shù)據(jù)為依據(jù)建立消費者信心指數(shù)預測模型。影響消費者信心的宏觀經(jīng)濟因素主要包括經(jīng)濟運行、消費結構、物價水平、貨幣政策、經(jīng)濟景氣調查、國際貿易等方面。依據(jù)這些宏觀經(jīng)濟因素,本文選取了國家統(tǒng)計局公布的19個宏觀經(jīng)濟指標,具體見表5。

表5 本文選取的宏觀經(jīng)濟指標

在建立消費者信心指數(shù)預測模型時,將僅使用互聯(lián)網(wǎng)數(shù)據(jù)建立的模型名加上前綴“b_”,即B類模型;將僅使用宏觀經(jīng)濟指標數(shù)據(jù)建立的模型名加上前綴“m_”,即M類模型;將使用二者綜合數(shù)據(jù)建立的模型名加上前綴的“mb_”,即MB類模型。不同類別模型的預測結果均能反映真實消費者信心指數(shù)時間序列趨勢。3類最優(yōu)模型提前4個月對消費者信心指數(shù)的預測結果如圖5所示。

本文統(tǒng)計了各類預測模型在3種數(shù)據(jù)集下提前1~4期預測消費者信心指數(shù)的MSE值及排名,并篩選出不同數(shù)據(jù)集下提前1~4期預測的最優(yōu)模型,結果見表6。

比較結果表明,在提前1個月預測消費者信心指數(shù)時,使用宏觀經(jīng)濟指標數(shù)據(jù)的主成分回歸模型(m_PCAR)表現(xiàn)明顯比使用其他兩類數(shù)據(jù)更出色;而在提前4個月預測消費者信心指數(shù)時,使用互聯(lián)網(wǎng)數(shù)據(jù)的多層感知機回歸模型(b_MLPR)表現(xiàn)最好;在提前2~3個月預測消費者信心指數(shù)時,使用綜合數(shù)據(jù)的多層感知機回歸模型(mb_MLPR)有更好的表現(xiàn),但預測精度相對較低。在使用宏觀經(jīng)濟指標數(shù)據(jù)的所有預測模型中,主成分回歸模型(m_PCAR)在提前1個月預測時精度最高,隨著預測期限跨度增加,自適應提升樹回歸模型(m_AdaB)和多層感知機回歸模型(m_MLPR)也有較好的表現(xiàn),但模型預測精度有所下降。在使用互聯(lián)網(wǎng)數(shù)據(jù)的所有預測模型中,多層感知機回歸模型(b_MLPR)在提前4期預測消費者信心指數(shù)時表現(xiàn)突出,在其他提前期的預測中,自適應提升樹回歸模型(b_AdaB)和Lasso回歸模型(b_Lasso)都有所表現(xiàn)。

七、結語

瀏覽網(wǎng)絡新聞或搜索網(wǎng)絡信息已經(jīng)成為消費者判斷宏觀經(jīng)濟形勢、輔助消費決策的重要手段。本文提取人民網(wǎng)新聞中的特征關鍵詞,以百度搜索關鍵詞指數(shù)數(shù)據(jù)為基礎,采用滑動時間窗口動態(tài)篩選解釋變量,運用多種機器學習方法建立消費者信心指數(shù)預測模型。結果表明,自適應提升樹回歸模型在提前1~2個月的消費者信心指數(shù)預測中表現(xiàn)最好,其次是Lasso回歸模型。在提前3~4個月的消費者信心指數(shù)預測中多層感知機回歸模型和Lasso回歸模型表現(xiàn)最好,其次是自適應提升樹回歸模型。提前4個月的預測模型精度要明顯高于其他提前期的預測精度。

本文通過比較宏觀經(jīng)濟指標歷史數(shù)據(jù)、網(wǎng)絡關鍵詞搜索指數(shù)數(shù)據(jù)、二者綜合數(shù)據(jù)三個數(shù)據(jù)集下的預測模型發(fā)現(xiàn),相對于宏觀經(jīng)濟指標數(shù)據(jù)而言,網(wǎng)絡關鍵詞搜索指數(shù)數(shù)據(jù)可以更早地“感知”消費者信心的變化。在預測短期消費者信心指數(shù)時,應當以宏觀經(jīng)濟指標歷史數(shù)據(jù)為主,而預測時間跨度增長時,為了吸納更多微觀因素變動信息,可以引入網(wǎng)絡關鍵詞搜索指數(shù)對預測模型進行補充。如果提前1個月預測消費者信心指數(shù),建議選擇使用宏觀經(jīng)濟指標數(shù)據(jù)的主成分回歸模型(m_PCAR);在提前2~3個月預測消費者信心指數(shù)時,使用綜合數(shù)據(jù)的多層感知機回歸模型(mb_MLPR)有更好的表現(xiàn);提前4個月預測消費者信心指數(shù),建議選擇使用互聯(lián)網(wǎng)數(shù)據(jù)的多層感知機回歸模型(b_MLPR)。

本研究旨在探索基于互聯(lián)網(wǎng)大數(shù)據(jù)并利用大數(shù)據(jù)技術與方法進行消費者信心指數(shù)預測的有效性和時效性。研究結果表明,利用互聯(lián)網(wǎng)數(shù)據(jù)建立的機器學習模型確實能更早地預測消費者信心指數(shù),且具有較高的預測準確率。然而,互聯(lián)網(wǎng)大數(shù)據(jù)預測也存在以下幾個方面的問題:(1)大數(shù)據(jù)方法的基本思想是通過海量數(shù)據(jù)發(fā)現(xiàn)事物之間的相關關系而非因果關系,與傳統(tǒng)預測模型相比許多大數(shù)據(jù)模型中變量的可解釋性相對較差;(2)互聯(lián)網(wǎng)大數(shù)據(jù)的復雜性和多變性會直接影響模型的穩(wěn)定性,因此本研究的滾動預測也是為了探求解決此類問題的方法;(3)由于互聯(lián)網(wǎng)數(shù)據(jù)本身的片面性,其預測準確性也會受到制約。因此,在統(tǒng)計數(shù)據(jù)完備的情況下,使用經(jīng)過檢驗的傳統(tǒng)預測模型如多元線性回歸模型、ARMA模型等更加嚴謹和穩(wěn)定。

除了本文研究的網(wǎng)絡新聞和網(wǎng)絡搜索數(shù)據(jù)外,還可以嘗試將社交媒體、電商交易和招聘求職等互聯(lián)網(wǎng)數(shù)據(jù)引入大數(shù)據(jù)預測模型,以期進一步提高預測的準確率。為了優(yōu)化傳統(tǒng)預測模型,可以將互聯(lián)網(wǎng)數(shù)據(jù)合成的相關變量引入模型,并檢驗其是否能夠提高消費者信心指數(shù)預測準確性。

猜你喜歡
消費者模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
系無理取鬧?NO! 請為消費者擦干眼淚
人民交通(2019年16期)2019-12-20 07:03:52
日化品牌怎樣才能吸引年輕消費者?
消費導刊(2018年22期)2018-12-13 09:19:00
只用一招 讓喊產(chǎn)品貴的消費者閉嘴
知識付費消費者
3D打印中的模型分割與打包
悄悄偷走消費者的創(chuàng)意
悄悄偷走消費者的創(chuàng)意
主站蜘蛛池模板: 国产精品大白天新婚身材| 丁香婷婷久久| 亚洲va欧美ⅴa国产va影院| 成人av专区精品无码国产| 欧美成人a∨视频免费观看| 天堂av综合网| 亚洲天堂精品视频| 国产亚洲视频中文字幕视频 | 国产精品无码久久久久AV| 亚洲精品无码AⅤ片青青在线观看| 日本黄色a视频| 九九热视频在线免费观看| 久久成人18免费| 久草视频福利在线观看| 国产AV无码专区亚洲精品网站| 丰满人妻久久中文字幕| 国产精品欧美激情| 成人午夜视频网站| 久久精品人人做人人爽97| 国产成人夜色91| 国产成人av大片在线播放| 伊在人亚洲香蕉精品播放| 久久精品亚洲专区| 欧美伊人色综合久久天天| 国产精品视频系列专区| 美女被操91视频| 国产精品毛片在线直播完整版| 欧美视频在线观看第一页| 国产91在线|日本| 丰满人妻中出白浆| 欧美视频免费一区二区三区 | 欧美日韩国产精品va| 美女啪啪无遮挡| 亚洲欧美成人影院| 十八禁美女裸体网站| 女人18毛片一级毛片在线| 波多野吉衣一区二区三区av| 91口爆吞精国产对白第三集| 欧美日本视频在线观看| 亚洲九九视频| 91精品视频播放| 国产乱人伦偷精品视频AAA| 中文字幕永久视频| 欧美午夜精品| 中国一级特黄大片在线观看| 无码中文字幕加勒比高清| 亚洲大学生视频在线播放| 九色在线视频导航91| 亚洲伦理一区二区| 免费A级毛片无码无遮挡| 久久青草免费91线频观看不卡| 2020国产精品视频| 91成人免费观看| 欧美性猛交一区二区三区| 亚洲h视频在线| 免费jizz在线播放| 综合成人国产| 日韩精品毛片人妻AV不卡| 亚洲精品无码AV电影在线播放| 四虎永久在线| 亚洲综合专区| 一本大道无码高清| 波多野结衣一区二区三区四区视频| 五月婷婷导航| 成人韩免费网站| 91丝袜乱伦| 美女内射视频WWW网站午夜| 日韩在线观看网站| 婷婷综合缴情亚洲五月伊| 国产精品人成在线播放| 欧美区在线播放| 高清亚洲欧美在线看| 欧美在线观看不卡| 国产剧情一区二区| 色综合天天综合中文网| 国产婬乱a一级毛片多女| 日本精品视频| 欧美97色| 福利视频一区| 一级不卡毛片| 六月婷婷激情综合| 97久久超碰极品视觉盛宴|