李向東 劉清華 陳靜



摘? 要: 針對筆記本電腦銷售的不確定性,利用BP神經網絡算法構建模型,采用MATLAB對某店鋪的2021年筆記本電腦的銷售數據進行了網絡訓練,通過Pearson相關系數來分析輸入層各節點和輸出層銷售額之間的相關性,確定了訪客數UV、收藏數、加購物車次數、客單價和支付轉化率等5個輸入層節點,銷售額為輸出層節點。實驗證明了構建的BP神經網絡模型預測值和實際值誤差小,預測準確度高,可為筆記本電腦銷售計劃安排及庫存管理提供依據。
關鍵詞: BP神經網絡; Pearson相關系數; 筆記本銷售; 預測
中圖分類號:TP183? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2023)05-145-04
Research on laptop sales prediction based on BP neural network model
Li Xiangdong, Liu Qinghua, Chen Jing
(College of Information Technology, Zhejiang Yuying College of Vocational Technology, Hangzhou, Zhejiang 310018, China)
Abstract: For the uncertainty of laptop sales, the BP neural network algorithm is used to construct a model, and the network is trained by MATLAB on the laptop sales data of a store in 2021. The correlation between the nodes in the input layer and the sales volume in the output layer is analyzed by Pearson correlation coefficient. The number of visitors UV, number of favorites, number of shopping cart additions, customer unit price and payment conversion rate are identified as five input layer nodes, as well as the sales volume as the output layer node. The experiment proves that the error between the predicted value of the constructed BP neural network model and the actual value is small, and the accuracy of the prediction is high, which can provide a basis for laptop sales planning and inventory management.
Key words: BP neural network; Pearson correlation coefficient; laptop sales; prediction
0 引言
近年來,受到一些不可控因素的影響,筆記本電腦行業的出貨表現和銷售額走勢表現并不一致。2022年Q2季度全國筆記本電腦整體銷量約160萬件,同比增長約7%,整體銷售額約86億元,卻同比下滑1%左右。隨著人們購物習慣的改變,淘寶、京東等電商平臺銷量大增,“618”、“雙11”等電商購物節的優惠力度更是刺激了筆記本電腦的市場需求。2022年6月份,京東平臺筆記本電腦月銷量超90萬件,環比增長150%;銷售額超48億元,環比增長170%[1]。筆記本電腦產品的迭代更新很快,因此,為了控制庫存風險和制定銷售計劃,進行筆記本電腦銷售預測就極具意義,可為庫存管理和銷售計劃的安排提供科學決策。
目前,針對銷售預測的方法有很多研究。王輝等提出了一種基于Stacking集成策略銷售預測方法,在多個機器學習的模型融合下減少了預測誤差[2]。滕寧宇等利用回歸法對銷售收入可以進行很好的預測[3]。張志新等利用人工神經網絡在網絡直播中預測銷量[4]。楊慶斗等分別構建了普通線性回歸、Lasso回歸,以及BP神經網絡預測模型對長城汽車銷售量進行預測,結果發現BP神經網絡預測誤差最小[5]。周博軍等運用BP神經網絡模型對我國體育彩票銷售金額進行預測,預測的精準度較高[6]。綜合來看,鑒于BP神經網絡具有很強的非線性映射能力和柔性的網絡結構,相比其他方法,在銷售預測中的應用相對較多,準確度較高。本文采用BP神經網絡的分析方法,利用聯想筆記本電腦在某電商店鋪的歷史銷售情況進行預測,為其提供銷售決策依據。
1 BP神經網絡
BP(back propagation)神經網絡是一種按照誤差逆向傳播算法訓練的多層前饋神經網絡,在各種預測應用中使用比較廣泛的算法, 是從對人腦神經系統進行模擬而建立起來的數學模型。人腦神經網絡是由神經元互聯而成的,能接收并處理信息,而信息處理主要是由神經元之間的相互作用,即通過神經元之間的連接權值來處理并實現的。如圖1所示,BP神經網絡一般分為輸入層、隱含層和輸出層,其中輸入層為輸入的訓練數據,隱藏層一般具有一層或多層, 單層神經網絡只能用于表示線性分離函數,一般用于簡單問題,多個隱藏層可以用于擬合非線性函數,由輸出層向外界輸出信息處理結果。這三層中的每一層只影響下一層的神經元狀態,若預期預測結果得不到期望輸出,網絡則進行反向傳播。主要思路是輸入數據,利用反向傳播算法不斷調整參數,根據最終調整的參數建立模型。選擇合適的層數以及隱藏層節點數,在很大程度上都會影響神經網絡的性能。
2 BP神經網絡訓練步驟
2.1 網絡初始化
如圖1所示,網絡輸入層的輸入為[x1…xn],隱含層節點為[H1…Hl],輸入層到隱含層的權重[wij],輸出層輸出為[O1…Om],隱含層到輸出層的權重為[wjk],輸入層到隱含層的偏置為[aj],隱含層到輸出層的偏置為[bk],其中激勵函數為[gx],取Sigmoid函數如公式⑴所示。
[gx=11+e-x]? ⑴
2.2 隱含層輸出
隱含層[H]的輸出如公式⑵所示。其中[x]表示輸入變量,[wij]、[aj]表示輸入層和隱含層間的連接權值及隱含層閾值,[H]是隱含層節點數,[g]為隱含層激活函數。
[Hj=gi=1nwijxi+aj ,j=1,2,3,…,l]? ⑵
2.3 輸出層的輸出
輸出層O的輸出如公式⑶所示,其中[Hjwjk]和[bk]分別是連接權值和閾值。
[Ok=j=1lHjwjk+bk, k=1,2,3,…,m]? ⑶
2.4 誤差的計算
誤差如公式⑷所示,其中[Yk]是期望輸出值,[Ok]是實際輸出值。
[ek=Yk-Ok]? ⑷
2.5 權值更新
通過預測誤差值[e]對網絡連接權值更新,[η]為學習率,如公式⑸~公式⑻所示。
[wij=wij+ηHj(1-Hj)xik=1mwijek,i=1,2,3,…n;j=1,2,3,…,l] ⑸
[wjk=wjk+ηHjek,j=1,2,3,…l;k=1,2,3…,m]? ? ⑹
[aj=aj+ηHj1-Hjk=1mwjkek,j=1,2,3,…,l]? ?⑺
[bk=bk+ηek,k=1,2,3,…,m]? ⑻
最后判斷迭代是否可以結束,如果沒有結束,則返回第⑵步執行,直到算法結束。
3 建立某網店的聯想筆記本銷售預測模型
3.1 輸入層和輸出層數據采集
收集了某網店2021年全年的銷售數據進行整理,選擇了UV、收藏數、加購物車次數、客單價、支付轉化率、銷售額共六個特征變量,各特征變量的意義如下。
UV:訪問網店的人數(獨立訪客),同一IP計算一次,UV數越大,說明訪問的人數增多,可能購買的人數將增多,一般和銷售額成正向關系。
收藏數:商品收藏的用戶數,商品的收藏數越大,潛在購買人數越多,一般和銷售額成正向關系。
客單價:店鋪每一個顧客平均購買商品的金額,即平均交易金額。客單價的計算公式是:客單價=銷售額÷成交顧客數,一般和銷售額成正向關系。
支付轉化率:所選時間內訪客轉化為支付買家的比例,支付轉化率=支付買家數÷訪客數,一般和銷售額成正向關系。
銷售額:單位時間內銷售的金額。
3.2 特征變量相關性分析
項目采用Pearson相關系數來分析輸入層各節點和輸出層銷售額之間的相關性。Pearson相關系數是一種反映兩個變量線性相關程度的統計量,兩個變量的線性相關程度用相關系數r表示,計算如公式⑼所示,其中公式⑽表示X的離均差平方和,公式⑾表示Y的離均差平方和。公式⑿表示表示X與Y的離均差平方和。
[r=(X-X)(Y-Y)(X-X)2(Y-Y)2=lXYlXXlXY]? ?⑼
[lXX=(X-X)2=X2-(X)2n]? ⑽
[lYY=(Y-Y)2=Y2-(Y)2n]? ⑾
[lXY=(X-X)(Y-Y)=XY-(X)(Y)n]? ⑿
通過MATLAB編程計算,得到訪客數UV等五個變量和銷售額的相關系數r值,如表1所示。相關系數r簡單的分類如表2所示。
從表1和表2中對比可知,UV、收藏數、加購物車次數三個變量和銷售額相關性極強,支付轉化率和銷售額相關性強,客單價和銷售額中等程度相關,因此,選擇UV、收藏數、加購物車次數、客單價、支付轉化率等五個變量作為BP神經網絡的輸入層節點數據,將銷售額作為輸出層數據。
3.3 數據歸一化處理
銷售預測模型將每周的UV、收藏數、加購物車次數、客單價、支付轉化率五個變量作為輸入變量,銷售額作為輸出變量,為避免各個輸入變量的數量級差異過大,影響求解算法的效果,需要對數據進行歸一化處理,采用公式⒀處理。
[x1=x0-xminxmax-xmin]? ? ⑶
其中,[x0]表示原始值,[xmin]表示所有變量中的最大值,[xmax]表示所有變量中的最小值,[x1]表示歸一化后的變量值,計算后所有變量的取值范圍是[0,1]。某網店2021年52個周銷售數據歸一化后部分數據如表3所示。
3.4 BP神經網絡隱藏層神經元確立
本項目為單隱藏層,隱藏層神經元節點數在很大程度上將影響神經網絡的性能,但節點數選擇沒有統一的標準,當節點數過少時,訓練只能通過經驗得出的公式來確定,通常采用公式⒁確定。其中[n]和[l]分別為輸入層、輸出層節點數,[a]為0到10之間的調節常數,通過計算,得到隱藏層神經元節點個數[m]的值為3-13之間。
[m=n+l+a]? ⒁
為選擇最優的節點數,依次按照不同的節點數進行模型訓練,得到如表4所示結果,確定最佳隱含層的神經元個數為4,此時MSE(均方誤差)最小為0.0008。
3.5 MATLAB模擬仿真
使用MATLAB進行網絡模型訓練,模型的輸入節點數為5,輸出節點數1,隱含層神經元節點數為4。劃分訓練集占比70%,共36個樣本數;驗證集占比15%,共八個樣本數;測試集占比15%,共八個樣本數。采用levenberg-Marquardt算法作為訓練算法,使用MSE衡量網路性能,網絡允許迭代的次數最大1000,實際迭代10次,最大誤差為0.386,實際誤差0.000211,網絡性能良好,具有參考性。如圖2所示,在數據仿真過程中,得到在迭代次數為4時輸出性能最佳,輸出誤差為0.00081633,超出期望輸出,訓練的效果良好。
從圖3中可以看出訓練過程中下降梯度和步長的變化,呈遞減趨勢,迭代到10次時梯度下降為0.00015751。表明隨著訓練次數的增加,總體誤差隨之下降并趨于穩定,動量因子為10-5。
圖4體現模型擬合優度,確定系數R的最大值為1,計算得出的值越接近1,擬合效果越好。訓練集擬合值R=0.99835,驗證集擬合值R=0.97962,測試集擬合值R=0.96214,全部數據的擬合值R=0.99685,說明擬合的效果很好,可以用于預測。
4 預測和結果分析
依據項目建立的BP神經網絡模型進行預測,輸入店鋪2022年前八周的銷售數據,得到如表5所示的預測值。通過和實際銷售額進行對比,相對誤差都在±10%以內,預測效果優良,進一步驗證了預測模型的輸入變量和輸出變量之間的關系信度高。UV、收藏次數、加購數、客單價、轉化率對店鋪銷售額的影響較大。
5 小結
本文構建了一個BP神經網絡模型,進行某店鋪的聯想筆記本電腦銷售預測,采集了2021年52個周的輸入層和輸出層數據,然后利用Pearson相關系數來分析輸入層各節點和輸出層銷售額之間的相關性,確定了訪客數UV、收藏數、加購物車次數、客單價和支付轉化率五個輸入變量,銷售額作為輸出變量,并對數據進行歸一化處理,通過經驗公式確定了隱含層節點數范圍,并通過實驗進一步確定個數為4,利用MATLAB進行仿真訓練,實驗結果表明,模型的訓練效果好。最后應用建立的模型對2022年前十周銷售數據進行預測,發現相對誤差小,對于商家安排銷售計劃、營銷方案等有重要的參考價值。
參考文獻(References):
[1] 鯨參謀電商大數據.Q2季度筆記本電腦品牌銷售排行榜[EB/OL].https://baijiahao.baidu.com/s?id=1740767060910980942.2022-08-10.
[2] 王輝,李昌剛.Stacking集成學習方法在銷售預測中的應用[J].計算機應用與軟件,2020,37(8):85-90
[3] 滕寧宇,馮潤莜,趙智鈺,等.回歸分析法在銷售預測中的應用[J].中國鄉鎮企業會計,2019(12):107-109
[4] 張志新,石文奇,程凡,等.基于BP神經網絡的網絡直播皮革服裝銷量預測[J].皮革與化工,2021,38(3):26-30
[5] 楊慶斗.基于BP神經網絡的長城汽車銷售量預測研究[D].碩士,天津財經大學,2020
[6] 周博軍,王旺,黃俊達,等.基于BP神經網絡對中國體育彩票銷售金額的預測[J].體育教育學刊,2022,38(2):46-50