胡靜波,朱麗麗,2
1.合肥通用職業技術學院基礎部,合肥,230031;2.中國科學技術大學管理學院,合肥,230026
隨著社會信息化和網絡化步伐的加快,網絡銷售在帶給消費者極大便利和實惠的同時,也帶來了相當可觀的經濟效益和社會效益。根據商務部、國家統計局、中國電子商務研究中心等機構公布的數據,我國網絡零售額呈逐年快速上升趨勢,從2005年的150億元增長到2017年的71 751億元,年均增長率高達67.23%。因此,在“互聯網+”的時代背景下,網絡銷售業既面臨著新的挑戰,也面臨著無限的市場機遇。國內學者對網絡零售發展現狀[1]、網絡零售的影響因素及發展策略[2]進行理論研究。
R語言是一種功能強大的、為統計計算和圖形顯示服務的語言環境,具有比其他統計學或數學專用的編程語言更為強大的面向對象的功能,使用者只需輸入數據和參數即可進行統計分析[3]。近年來,統計學應用的新興研究領域之一就是運用R語言等機器語言針對現實問題構建數學模型。陳將浩利用R語言實現了對房價影響因素的分析[4];欒汝朋等人運用R語言構建了一種適用于Web日志挖掘的關聯規則算法模型[5];王懷亮討論了數據挖掘中的線性回歸技術及R語言實現[6]。
本文借助多元線性回歸分析法,運用R語言對網絡零售額影響因素進行探討,從理論研究和實證研究兩方面科學選擇最合適的自變量,嘗試建立網絡零售額影響因素的數學模型。
在我國社會主義市場經濟體制下,網絡零售業的發展受到國內生產總值、社會消費品零售總額、經濟指數、人口數量等宏觀經濟因素和社會因素的影響。為了便于分析,筆者將網絡零售額的影響因素劃分為經濟因素、經濟指數、人口因素三個方面。
本文選取的數據從2005年1月開始,到2018年6月結束(多項可供公開查詢的相關數據起始時間為2005年)。數據來源如下:全國網絡零售額、快遞業務量主要來自商務部、國家統計局、中國電子商務研究中心、國家郵政局等機構公布的數據;國內生產總值、社會消費品零售總額、全國城鎮居民人均可支配收入、居民消費價格指數、商品零售價格指數、工業品出廠價格指數來自國家統計局發布的《中國統計年鑒》《中國國民經濟和社會發展統計公報》;物流費用率來自國家發展改革委經濟運行調節局等部門公布的《全國重點企業物流統計調查報告》;網絡購物用戶規模、手機網民比例、農村網民比例、女性網民比例來自中國互聯網絡信息中心發布的《中國互聯網絡發展狀況統計報告》《中國網絡購物市場研究報告》;消費者信心指數來自于中國金融在線旗下的證券之星財經網站。因篇幅有限,本文未貼出R語言代碼、部分圖表及數據。
由于影響網絡零售額的經濟因素眾多,本文選取與之關系密切且具有代表性的國內生產總值、社會消費品零售總額、城鎮居民人均可支配收入、快遞業務量、物流費用率等5項指標進行影響因素分析,并采用了2005—2017年共13組相關因素的年度數據,如表1所示。

表1 2005—2017年全國網絡零售額與經濟因素數據
首先對全國網絡零售額和5個經濟因素的均值、最值、中位數、標準差進行描述性統計分析,輸出結果如表2所示。

表2 2005—2017年全國網絡零售額與5個經濟因素的描述性統計
由表2可知,網絡零售額與4個經濟因素(國內生產總值除外)的中位數小于均值。這說明這幾個變量的增長隨著時間逐步加快。再利用cor.test函數中的Pearson檢驗分析變量之間的相關系數,輸出結果如表3所示。

表3 2005—2017年全國網絡零售額與5個經濟因素的相關系數
由表3可知,國內生產總值、社會消費品零售總額、城鎮居民人均可支配收入、快遞業務量與網絡零售額不僅正相關,而且相關性極強;物流費用率則與網絡零售額負相關,且僅為中等強度相關。國內生產總值、社會消費品零售總額、城鎮居民人均可支配收入等數據的上升,反映國內經濟大環境向好的方向發展,居民可用于消費的收入增多了,全國網絡零售額自然會隨之上升。快遞業務量與網絡零售額的共同提升也驗證了這二者間水漲船高的特點。物流費用的下降,在一定程度上減少了網絡零售商的成本,網絡商品價格的降低,進一步刺激了網絡消費的提升。因此,將經濟因素中的國內生產總值、社會消費品零售總額、城鎮居民人均可支配收入、快遞業務量納入全國網絡零售額影響因素的數學模型中。
首先繪制居民消費價格指數、商品零售價格指數、消費者信心指數、工業品出廠價格指數等4項經濟指數自2005年1月至2017年12月的月度數據變化曲線。發現4項經濟指數隨著時間的推移,有著大致一致的走勢,而與全國網絡零售額逐漸上升的曲線圖對比則差別很大,進一步探討4項經濟指數與全國網絡零售額的相關性。
筆者采用2005—2017年的4項經濟指數的年度數據進行分析,見表4。

表4 2005—2017年全國網絡零售額與經濟指數數據
用Pearson檢驗分析網絡零售額與4項經濟指數定基數據的相關系數,結果如表5所示。

表5 2005—2017年全國網絡零售額與經濟指數的相關系數
由表5可知,4項經濟指數取絕對值后均與全國網絡零售額呈現弱相關或極弱相關。由于近年來工業品出廠價格指數的一路走低導致終端消費品價格的下降,在某種程度上刺激了商品網絡銷售量的增加,提升了網絡零售額。因此,經濟指數中沒有任何一項列入全國網絡零售額的影響因素。
在考量人口因素時選擇了2005—2017年網民規模、網絡購物用戶規模、手機網民比例、農村網民比例、女性網民比例共5類13組年終數據,如表6所示。

表6 2005—2017年網絡零售額與人口因素數據
通過繪制人口因素變化曲線圖發現,網民規模、網絡購物用戶規模、手機網民比例等3項人口因素的變化曲線與全國網絡零售額的變化曲線有著大致相同的上升趨勢,而農村網民比例的曲線在2008—2017年間震蕩幅度較小且無上升趨勢,女性網民比例的曲線在2007—2017年間震蕩幅度較大,這兩項都與網絡零售額的曲線有明顯不同。
用Pearson檢驗分析網絡零售額與5項人口因素年度數據的相關系數,輸出結果如表7所示。

表7 2005—2017年全國網絡零售額與人口因素的相關系數
由表7可知,5項人口因素均與網絡零售額呈現正相關。其中,網民規模、網絡購物用戶規模、手機網民比例、女性網民比例的相關系數>0.5,即與網絡零售額強相關。農村網民比例與網絡零售額相關性中等。同時,網民規模、網絡購物用戶規模的增大,手機網民和女性網民的增多,在很大程度上促進了網絡零售額的提高。農村網民比例及數量雖有了一定程度的提升,但尚沒有轉化成網絡零售的購買力。因此,將網民規模、網絡購物用戶規模、手機網民比例、女性網民比例納入全國網絡零售額的影響因素數學模型。
通過前面的分析可知,全國網絡零售額與國內生產總值、社會消費品零售總額、城鎮居民人均可支配收入、快遞業務量、網民規模、網絡購物用戶規模、手機網民比例、女性網民比例這8個變量具有較強的相關性。
為進行函數構建,假設yi:全國網絡零售額;x1:國內生產總值;x2:社會消費品零售總額;x3:城鎮居民人均可支配收入;x4:快遞業務量;x5:網民規模;x6:網絡購物用戶規模;x7:手機網民比例;x8:女性網民比例。
筆者將全國網絡零售額與8個可能的影響因素進行函數構建:
yi=β0+β1·x1+β2·x2+β3·x3+β4·x4+β5·x5+β6·x6+β7·x7+β8·x8+εi
其中,β0是模型的截距項,β1,β2,…,β8是各個影響因素的回歸系數,εi是隨機誤差項[7]。
在不考慮變量系數的前提下,先建立第一個回歸模型Ⅰ:y~x1+x2+x3+x4+x5+x6+x7+x8。
運用從大量數據中壓縮提取信息的最常用R語言工具——summary命令分析模型Ⅰ。結果顯示,模型Ⅰ調整后的R2高達0.994 6,說明其擬合質量非常好,F統計量的p值只有3.229e-5,說明模型是顯著的。但是,模型Ⅰ中除了x4以外的自變量都不顯著。由于宏觀經濟數據經常出現嚴重的共線性問題,推測模型Ⅰ的多個變量之間可能存在多重共線性。
用kappa檢驗多重共線性,輸出結果為12 723.77。顯然模型Ⅰ沒有通過多重共線性檢驗。
在多元線性回歸分析中,常用逐步回歸分析的方法,以AIC統計量作為衡量的準則,即選擇最小的AIC統計量,用刪除變量或者增加變量的方法來優化模型。本文基于AIC統計量,通過step函數逐步回歸的方式對模型Ⅰ進行優化,篩選出4個合適的自變量。
以這4個為自變量搭建模型Ⅱ:y~x1+x2+x4+x6。通過summary命令分析模型Ⅱ,結果顯示,調整后的R2為0.996 7,擬合質量好。F統計量的p值為1.144e-10。模型Ⅱ是顯著的。此外,模型Ⅱ各項的p值都較模型Ⅰ有明顯降低。再用kappa命令檢驗模型Ⅱ的多重共線性,輸出結果為8 517.821。顯然,模型Ⅱ仍具有嚴重的多重共線性。
為了進一步降低多重共線性,考慮使用drop1函數計算AIC值,結果如表8所示。

表8 模型Ⅱdrop1命令分析結果
由表8可知,如果去掉變量x1,AIC值的增加量是最少的。此外,擬合越好的方程,其殘差平方和應盡量小。如果去掉x1,殘差的平方和的增加量也是最少的。因此綜合考慮,應該去掉變量x1。
基于社會消費品零售總額、快遞業務量、網絡購物用戶規模這3個自變量搭建模型Ⅲ:y~x2+x4+x6。
用kappa檢驗其多重共線性,輸出結果為6 850.557。模型Ⅲ的多重共線性數值雖然得到降低,但是仍然高于1 000。為了進一步降低數值,嘗試對3個自變量進行對數變換或指數變換。經過測試,發現對x6進行指數變換時,多重共線性數值較低且各個自變量的系數具有顯著性。
模型Ⅳ:y~x2+x4+ex6。用kappa檢驗其多重共線性,輸出結果為593.697 8,這個數值<1 000,且相較于前幾個模型的多重共線性數值已大大降低。用summary命令分析模型Ⅳ的回歸統計量,結果顯示調整后的R2為0.996 5,擬合質量好。F統計量的p值為6.29e-12。由于模型Ⅳ的截距項和各自變量的系數都具有顯著性,因此模型Ⅳ是顯著的。由于多重共線性普遍存在于經濟數據研究中,并且多重共線性對于擬合程度好的模型在進行預測時往往并不影響預測結果。考慮到本模型主要用來預測網絡零售額,模型Ⅳ的擬合程度很好,多重共線性降為中等,因此認為模型Ⅳ通過多重共線性檢驗。
在對模型Ⅳ進行顯著性檢驗和多重共線性檢驗后,還需要通過殘差分析,確保模型Ⅳ的殘差通過正態分布檢驗、同方差性檢驗以及獨立性檢驗。
從模型Ⅳ的回歸統計量結果來看,殘差的最大值為1 710.40,最小值為-1 717.19,中值為-41.13,殘差具有正態分布的特征。下面通過W檢驗和Anderson-Darling檢驗加以驗證。
首先利用W檢驗驗證模型Ⅳ是否符合正態分布,使用shapiro命令對模型Ⅳ進行檢驗,從輸出結果來看,模型Ⅳ的p值0.413 4>0.05,所以通過正態性假設。
再檢測是否能通過Anderson-Darling正態性檢驗,使用ad命令對模型Ⅳ進行檢驗,從輸出結果來看,模型Ⅳ的p值0.465 1>0.05,順利通過正態性檢驗。
同方差性即總體回歸函數中的隨機誤差項具有相同的方差。若殘差同方差性比較好,則其殘差不會隨著因變量的變化而變化。這也是為了保證回歸參數估計量具有良好的統計性質。加載car程序包,使用ncvTest函數對模型Ⅳ進行同方差性檢驗。從輸出結果來看,由于p值0.821 930 3>0.05,擬合值具有同方差性,因此通過了同方差性檢驗。
獨立性檢驗是為了檢測殘差序列是否自相關。通過car程序包中的durbinWatsonTest函數對模型Ⅳ進行durbin-watson檢驗。從輸出結果來看,由于p值0.052>0.05 ,說明無自相關性,即通過獨立性檢驗。
模型Ⅳ通過了顯著性檢驗、多重共線性檢驗、正態分布檢驗、同方差性檢驗和獨立性檢驗。根據回歸分析的結果,可以確定最終的回歸方程:
y=-5 366.30+521.51x2+108.30x4+69.82ex6
國家統計局和國家郵政局的數據顯示,我國2017年社會消費品零售總額和快遞業務量分別達到36.626 2萬億元和400.56億件。根據第42次中國互聯網絡發展狀況統計報告,截至2018年6月,我國網絡購物用戶達5.689 2億人,半年增長率6.7%[8]。假定社會消費品零售總額、快遞業務量、網絡購物用戶規模這3個指標在2018年的增速與上一年保持一致,則到2018年年底,社會消費品零售總額預計為40.365 7萬億元,快遞業務量預計為512.877 0億件,網絡購物用戶規模預計達6.070 4億人。
針對模型Ⅳ運用Predict命令預測2018年全國網絡零售額數據。預測結果:最低值為87 591.46億元,最高值為 115 319.3億元,合適值為101 455.4億元。
根據國家統計局公布的2017年國民經濟數據,全國網絡零售額達71 751億元。假定近3年年均增長37.01%的速率保持不變,則2018年我國網絡零售額預計達98 306億元。將模型Ⅳ預計的101 455.4億元與根據年均增長速率預測的98 306億元相比較,誤差在3.20%。
本文采用理論研究和實證研究相結合的方法,對14個可能影響全國網絡零售額的因素進行定性分析與定量分析。借助R語言的數據分析,最終選擇了社會消費品零售總額、快遞業務量、網絡購物用戶規模這3個因素作為自變量構建數學模型。然后在比較算法結果優劣的基礎上進行模型的優化,建立了全國網絡購物零售額影響因素模型,最后據此模型預測2018年全國網絡零售額達101 455.4億元。從數學模型上看,社會消費品零售總額、快遞業務量、網絡購物用戶規模這3個自變量與全國網絡零售額息息相關。本文通過驗證網絡零售額影響因素模型且順利通過多項檢驗,證明了其科學性、合理性。