林揚嘯
摘要:大數(shù)據(jù)是21世紀(jì)的熱點話題之一,統(tǒng)計學(xué)是傳統(tǒng)的數(shù)據(jù)分析學(xué)科。利用百度指數(shù)提供的“用戶關(guān)注度”功能,本文選取2012年-2016年5年260周的百度周平均搜索指數(shù)為研究對象,以百度搜索指數(shù)來反映社會關(guān)注熱度,研究大數(shù)據(jù)與統(tǒng)計學(xué)關(guān)注熱度之間有無相關(guān)性,以及大數(shù)據(jù)搜索指數(shù)發(fā)展的趨勢變化。根據(jù)圖形分析與相關(guān)系數(shù)的計算,可知大數(shù)據(jù)與統(tǒng)計學(xué)搜索熱度呈現(xiàn)正相關(guān)關(guān)系,該關(guān)系線性程度不大,多為非線性關(guān)系。根據(jù)大數(shù)據(jù)的季平均搜索指數(shù)、每四周平均搜索指數(shù)的變化趨勢研究表明,大數(shù)據(jù)搜索指數(shù)不存在明顯季節(jié)性,存在明顯的正趨勢性;其搜索熱度自2012年初至2015年2季度以來呈明顯上升趨勢,其后增長速率放緩,呈現(xiàn)更為顯著的波動性,由此可知2015年2季度為其明顯的一個轉(zhuǎn)折點,符合其發(fā)展趨勢的模型有修正指數(shù)模型,以及龔珀茲曲線模型和皮爾曲線模型這兩個生長曲線模型,結(jié)果顯示三個模型的擬合度均較理想,其中龔珀茲曲線的擬合度最高。根據(jù)擬合結(jié)果,從大數(shù)據(jù)搜索指數(shù)反映的社會關(guān)注熱度來看,大數(shù)據(jù)搜索指數(shù)的發(fā)展已趨于飽和趨勢,其飽和值為4300左右。
關(guān)鍵詞:大數(shù)據(jù);統(tǒng)計學(xué);百度指數(shù);趨勢外推
中圖分類號:F27 文獻識別碼:A 文章編號:1001-828X(2017)001-0000-02
引言
現(xiàn)代社會,數(shù)據(jù)量呈爆炸式增長趨勢,數(shù)據(jù)已經(jīng)滲透到當(dāng)今每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對于海量數(shù)據(jù)的挖掘和運用,預(yù)示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來。2012年以來,大數(shù)據(jù)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產(chǎn)生的海量數(shù)據(jù),并命名與之相關(guān)的技術(shù)發(fā)展與創(chuàng)新。而統(tǒng)計學(xué)作為傳統(tǒng)的數(shù)據(jù)分析方法,在擁有海量數(shù)據(jù)的現(xiàn)代社會既有著巨大的機遇,但由于大數(shù)據(jù)突破了傳統(tǒng)統(tǒng)計學(xué)關(guān)于樣本和總體界定等等限制,也對傳統(tǒng)統(tǒng)計學(xué)的分析方法提出了前所未有的沖擊和挑戰(zhàn)。在現(xiàn)實生活中,并沒有一門基于大數(shù)據(jù)的專業(yè)產(chǎn)生,各大企業(yè)往往通過招收統(tǒng)計學(xué)、計算機、數(shù)學(xué)等相關(guān)專業(yè)的人才來滿足其大數(shù)據(jù)分析工作的要求,盡管如此,關(guān)于大數(shù)據(jù)的熱門是否捧熱了統(tǒng)計學(xué)之類的相關(guān)學(xué)科的說法一直眾說紛紜;此外經(jīng)過了幾年的對大數(shù)據(jù)關(guān)注的大熱,市場逐漸對其回歸理性,甚至出現(xiàn)了“大數(shù)據(jù)泡沫”這樣的質(zhì)疑聲音。本文借助百度搜索指數(shù),對2012年-2015年每一周大數(shù)據(jù)、統(tǒng)計學(xué)兩詞條的反映其關(guān)注熱度的搜索指數(shù)進行定性、定量分析,實現(xiàn)以下目的:
觀察從百度搜索指數(shù)中反映出的人們對于大數(shù)據(jù)、統(tǒng)計學(xué)度的變化趨勢,了解在人們關(guān)注度方面二者有無相關(guān)性、有怎樣的相關(guān)性,即大數(shù)據(jù)的大熱有沒有帶來統(tǒng)計學(xué)關(guān)注度的變化。
通過建立統(tǒng)計模型,觀察大數(shù)據(jù)關(guān)注熱度5年來的變化,了解現(xiàn)實中其在關(guān)注度發(fā)展過程中所處的階段,即現(xiàn)實中對大數(shù)據(jù)的關(guān)注依然處于上升階段還是已經(jīng)趨于飽和。采用定量、定性結(jié)合的分析方法,將統(tǒng)計學(xué)和大數(shù)據(jù)的搜索指數(shù)時間序列作線圖,并計算線性相關(guān)系數(shù),觀察兩者的變化規(guī)律,并計算兩者有無線性相關(guān)關(guān)系。為滿足消除隨機性波動和保留足夠數(shù)據(jù)量的需要,分別計算大數(shù)據(jù)搜索指數(shù)的每四周、每季度加權(quán)平均值。觀察圖形有無季節(jié)性、周期性波動;觀察圖形是否存在轉(zhuǎn)折點,以此為基礎(chǔ)選擇統(tǒng)計模型。根據(jù)圖形識別的結(jié)果,建立可能的統(tǒng)計模型,并通過比較R方值的方法來選擇適當(dāng)?shù)哪P汀?/p>
一、中國統(tǒng)計學(xué)發(fā)展與大數(shù)據(jù)發(fā)展的相關(guān)性分析
用橫坐標(biāo)表示周次,縱坐標(biāo)表示搜索指數(shù),將大數(shù)據(jù)和統(tǒng)計學(xué)的搜索指數(shù)時間序列在一個圖中分別做折線圖,從圖像中可以看出,57周以前,統(tǒng)計學(xué)的搜索熱度大于大數(shù)據(jù)的搜索熱度,57周以后,大數(shù)據(jù)搜索熱度逐漸超過統(tǒng)計學(xué)搜索熱度。90周之后,大數(shù)據(jù)和統(tǒng)計學(xué)的變動趨勢呈現(xiàn)一定的相似性,例如都在214周時達到谷值,而后回升。在178周大數(shù)據(jù)搜索達到峰值,182周統(tǒng)計學(xué)搜索量達到峰值,在此期間統(tǒng)計學(xué)的增長略落后于大數(shù)據(jù)的增長,但是分布的形狀大體一致。
2.季平均值線性相關(guān)系數(shù)=0.292112357
結(jié)果分析:兩組數(shù)據(jù)的線性相關(guān)程度都不高,其中季平均線性相關(guān)系數(shù)略高于周平均線性相關(guān)系數(shù)。說明大數(shù)據(jù)與統(tǒng)計學(xué)的搜索指數(shù)之間并不存在明顯的線性相關(guān)關(guān)系,但是從圖中看出二者變化趨勢具有相似性,因此猜測二者可能具有某種非線性相關(guān)關(guān)系。
因為相關(guān)關(guān)系并不等于因果關(guān)系,因此對于如上結(jié)果我們做出兩種假設(shè):
在90周以后,統(tǒng)計學(xué)的分布類似并且略落后于大數(shù)據(jù)的增長,這可能是由于人們對于大數(shù)據(jù)的關(guān)注,引發(fā)了人們對于統(tǒng)計學(xué)這個相關(guān)學(xué)科的關(guān)注。
兩者類似的分布形態(tài),可能是由于全國所有用戶搜索頻次的周期性、隨機性變動所引致的,大數(shù)據(jù)、統(tǒng)計學(xué)搜索指數(shù)變動之間并沒有直接的因果關(guān)系。
二、中國大數(shù)據(jù)需求量預(yù)測模型
由于原始數(shù)據(jù)有260周,波動性過大,為了得到更為準(zhǔn)確的結(jié)論,我們僅對其按每季度、每四周兩種方式計算加權(quán)平均值得到的時間序列作討論,其目的是(1)平滑隨機波動;(2)判定按每季度和每四周平均哪個有季節(jié)性;(3)每季度平均更能反映長期趨勢,但數(shù)據(jù)較少,只能以季為單位預(yù)測未來值;每四周平均的數(shù)據(jù)較多,且可以進行更短期的預(yù)測。
1.季節(jié)性、趨勢性的判定
(a)圖形判別法
建立按季平均和按每四周平均的橫坐標(biāo)為季度或周次,縱坐標(biāo)為搜索指數(shù)的折線圖,按季節(jié)平均、按每四周平均,大數(shù)據(jù)搜索指數(shù)都不存在明顯的季節(jié)性;另外由于后一年的值往往大于前一年的值,因此可以判定其存在趨勢性。
(b)建立一元線性回歸方程并檢驗顯著性
季平均值:;
每四周平均值:;
由于兩個時間序列一元線性回歸的R2均顯著,所以大數(shù)據(jù)搜索指數(shù)顯然存在線性趨勢。
結(jié)論:上述過程從圖形和計算兩個角度得出了以下結(jié)論:大數(shù)據(jù)搜索指數(shù)并不存在明顯的季節(jié)性,不適合使用時間序列分解法;大數(shù)據(jù)搜索指數(shù)存在明顯的趨勢,一元回歸有較好的擬合優(yōu)度,但是一元回歸使用的前提是時間序列不存在明顯的轉(zhuǎn)折點,為了進一步確定更好的擬合模型,我們繼續(xù)如下討論。
2.轉(zhuǎn)折點的判定
作橫坐標(biāo)為季度,縱坐標(biāo)為搜索指數(shù)的折線圖,可以看出,2015年2季度為一個明顯的轉(zhuǎn)折點,在這之前,類似于線性一元增長;在之后,2015年3季度僅為3989,2015年4季度僅為4015,并無太大增長,此后呈現(xiàn)下降上升交替出現(xiàn)的形式。
3.模型選擇結(jié)論
因為不存在在明顯的季節(jié)性,所以不選擇時間序列分解模型;又因為有明顯的轉(zhuǎn)折點,所以不應(yīng)對所有數(shù)據(jù)采取一元回歸的方式;搜索指數(shù)的變化類似于先增長后穩(wěn)定,符合上述條件的模型有:
(1)修正指數(shù)模型;(2)龔珀茲曲線模型;(3)皮爾曲線模型。
4.模型的建立
基于matlab軟件,模型擬合結(jié)果如下:
(1)修正指數(shù)模型:
特點:該模型0
(a)每季平均值:。保留兩位小數(shù)后得到如下預(yù)測函數(shù):
當(dāng)t趨于無窮大時,搜索指數(shù)趨近于6389.78。
(b)每四周平均值:。保留兩位小數(shù)后得到如下預(yù)測函數(shù):
當(dāng)t趨于無窮大時,搜索指數(shù)趨近于6650.56。
每期預(yù)測值原始數(shù)據(jù)見附表4。
(2)龔珀茲曲線模型:
特點:屬于生長曲線模型,形狀類似于S形,可以描述并判斷事物經(jīng)歷的發(fā)生、發(fā)展到成熟的過程。
(a)每季平均值
5.模型比較
每季平均R2值,修正指數(shù)曲線模型為0.9516,龔珀茲曲線模型為0.9582,皮爾曲線模型為0.9539;每四周平均R2值,三者分別為0.902、0.9075、0.9033。
三個模型的R2均達到了顯著性水平,可知模型擬合度很高,其中按每季平均計算的擬合優(yōu)度,由于平滑了更多的隨機性因素,擬合度都大于按每四周平均計算的擬合優(yōu)度。龔珀茲曲線模型的R2值最高,其次是皮爾曲線模型,再次是修正指數(shù)曲線模型。
結(jié)果分析:大數(shù)據(jù)搜索指數(shù)不存在季節(jié)性,但存在明顯的周期性。從2012年以來,其搜索指數(shù)呈快速遞增趨勢,2015年2季度左右以后,其增速放緩,逐漸呈現(xiàn)飽和趨勢。在飽和度的預(yù)測方面,修正指數(shù)t無窮大的條件難以實現(xiàn),我們主要根據(jù)后兩個模型進行判定,得到了大數(shù)據(jù)搜索指數(shù)已經(jīng)趨于飽和,并且飽和值位于4200-4600左右的結(jié)論,即市場對于大數(shù)據(jù)搜索的熱度,已經(jīng)從狂熱趨于理性。
參考文獻:
[1]耿直.大數(shù)據(jù)時代統(tǒng)計學(xué)面臨的機遇與挑戰(zhàn)[J].統(tǒng)計研究,2014,31(1):5-9.
[2]云舟工作室.MATLAB6數(shù)學(xué)建模基礎(chǔ)教程[M].北京:人民郵電出版社,2001.
[3]曹挺.統(tǒng)計學(xué)是新世紀(jì)具有輝煌前景的學(xué)科[N].中國信息報,2002.