羅佳佳
(南華大學附屬第二醫院,湖南衡陽421001)
預測分析是數據挖掘的一個重要任務.預測的目的是從歷史數據中自動推導出對給定數據的推廣描述,從而能對未來數據進行預測[1].Matlab是一個高級的數值分析、處理與計算軟件,廣泛應用于工程計算、控制設計、信號處理與通訊、圖像處理、信號檢測、金融建模設計與分析等領域.
本文收集達能餅干的銷售數據,使用MATLAB對收集的數據進行數據擬合,建立回歸預測模型,對未來銷量做出預測,以便挖掘出有價值信息反饋給管理者和決策者.
研究在學生中銷量很大的餅干.選取“達能”作為此次研究的主體對象,選取“奧利奧”作為同類商品.并假設“達能”餅干的銷量主要與同類產品的價格以及廣告投入有關.
根據代理商提供的原始數據,標準化奧利奧的價格,得到整理后數據.表1中“125G奧利奧餅干單價”是由“150G奧利奧餅干單價”換算過來的,比較“125G奧利奧餅干單價”與“125G達能餅干單價”,“奧利奧”的平均價格高出約0.2元,表1中的“125G奧利奧餅干標準單價”就是由“125G奧利奧餅干單價”減去0.2得來的.經此處理,達能和奧利奧就存在競爭關系了.

表1 2009-2010年達能餅干與同類產品單價的原始數據
通過之前的分析,假設影響“達能”餅干銷量的主要因素是與同類產品的差價以及廣告投入,于是得下表2.

表2 2009-2010年達能餅干與同類產品差價、廣告投入及銷量
令,y-達能餅干的銷量;x1-達能與奧利奧餅干的差價;x2-達能餅干的廣告投入;分別將x1和x2與y在MATLAB進行數據擬合,從圖1、圖2可以發現x1與y近似線性相關,x2與y近似二次相關.

圖1 達能餅干銷量與同類餅干差價比較
使用多元線性回歸模型y=β0+β1x1+ε來擬合餅干銷售量隨餅干與同類餅干差價的變化.
使用多元線性回歸模型y=β0+β1x2+β2x+ε來擬合餅干銷售量隨餅干廣告投入的變化.

圖2 達能餅干銷量受廣告投入影響
假設x1和x2與y之間有多項式回歸關系,建立模型:y= β0+β1x1+β2x2+β3x+ε,其中,y為被解釋變量(因變量);x1,x2為解釋變量(回歸變量,自變量);β0,β1,β2,β3為回歸系數;ε為隨機誤差(均值為0的正態分布隨機變量).

使用MATLAB統計工具箱,輸入命令:

(其中alpha為顯著性水平,缺省時為0.05)
輸出的結果為:

參數 參數估計值 置信區間β0 5.2719 [0.9260 9.6179]β1 0.2029 [0.0580 0.3477]β2 -1.3147 [-2.4475 -0.1819]β3 0.0997 [0.0264 0.1731]R2=0.9389 F=102.4673 p =0.0000
R2=0.9389說明y的93.89%可由模型確定;而F遠超F檢驗的臨界值,故也認為模型擬合度優秀,事實上,F=,說明F與R2檢驗等效;p值是與F對應的概率,由于p遠小于α(α =0.05),故回歸模型成立.再觀察參數的置信區間,均不包含0點,說明模型很好地符合了實際情況.

從函數關系可以看出,價格優勢可以增加銷量,增加廣告投入亦可以增加銷量.
差價x1=奧利奧餅干價格x3-達能餅干價格x4
我們欲控制x1的值來達到較為理想的銷量.在實際操作中,可以根據估計x3的值來確定x4的值.現在我們控制差價x1=0.2 元,廣告投入 x2=8.1 萬元.
在MATLAB中輸入命令:

得到在此條件下y的銷量:

銷售量的預測區間為[1.2071 -0.0900,1.2071+0.0900](置信度 95%),即預測銷量的范圍在[1.1171,1.2971]之間(置信度95%).
實際應用中,我們可以把上限12.971萬筒作為庫存管理的目標值,而把下限11.171萬筒用來把握公司的現金流.若估計x3=3.5,設定x4=3.3,則有95%的把握知道銷售額在3.3 × 11.171=36.8(萬元)以上.
根據模型的預測,可以看出:達能餅干的銷量與同類產品的價格優勢關系密切,且價格與銷售量的大小呈現負相關,說明適當的價格優勢可以增加餅干的銷量;而餅干銷售量和廣告費用的投入呈現正相關,說明適當的增加餅干的廣告投入可以增加商品的銷售.適當保持價格優勢和提高廣告投入,達能餅干的銷售量將得到保證.
統計中的回歸分析最主要的應用是用來預測,考慮餅干的價格變化不是很大,本文采用的預測數據是近兩年代理商提供的直接數據,借助Matlab強大的矩陣處理能力,實現了達能餅干銷量的有效預測分析.
[1]孫雷.回歸技術在超市商品銷售趨勢預測模型中的應用[J].江蘇廣播電視大學學報,2008,(5):51-53.
[2]劉鋒.數學建模[M].南京:南京大學出版社,2005.
[3]張宜華.精通 MATLAB5[M].北京:清華大學出版社,1999.