孫曉靜,高 慧,陳 云
(上海財經大學a.信息化辦公室;b.信息管理與工程學院,上海200433)
基于聚類分析和決策樹算法的服裝銷售預測模型
孫曉靜a,高慧b,陳云a
(上海財經大學a.信息化辦公室;b.信息管理與工程學院,上海200433)
服裝生產企業需要了解市場需求的變化趨勢,以做出正確的生產和銷售決策。因此,對服裝銷售狀況進行準確的預測,成為企業有效制定發展戰略的重要依托。服裝的銷售受銷售渠道、地域、文化、經濟等眾多因素的影響,呈現復雜的非線性特征,導致需求預測難度較大。本文綜合考慮各種影響因素,結合聚類分析和CART決策樹算法構建銷售預測模型,既實現了較高的預測精度,又可轉化為易于理解的規則。最后以某服裝運營企業為例驗證了方法的有效性和可解釋性。
服裝銷售預測;系統聚類;CART決策樹
在多元化競爭的服裝市場上,顧客對服裝需求的多變性也使企業常常同時面臨暢銷產品短缺和滯銷產品積壓的問題。服裝銷售除了受到銷售渠道數量、分布等企業自身營業狀況的影響,還受到地域、氣象、文化、經濟等多種因素的影響,導致難以對市場需求加以準確預測,無法對運營決策提供有效支持。
目前對銷售額預測的研究主要可以分成兩類。一類是基于個人判斷法或德爾菲法的定性預測。個人判斷法即銷售管理人員基于個人經驗,對銷售量進行預測。此類方法往往以銷售、管理人員對銷售數據的主觀判斷為基礎,受較多人為因素的影響,缺乏客觀性和可靠性。另一類是基于現有數理模型的定量預測方法,有移動平均法、指數平滑法、季節性指數法、一元回歸或多云回歸法、時間序列模型預測、馬爾科夫鏈預測模型等。
隨著研究的深入,研究者們開始采用不同的定量方法實現需求的預測,如Haper提出的德爾菲法是一種專家預測方法;Richard B.Chase提出的移動平均法是利用移動平均數消除偶然性因素的影響來進行預測;R.G Brown提出的指數平滑法是根據更近的經驗不斷修正預測值的方法;John Neter提出的回歸模型則運用回歸方程式來進行預測等[1]。此外,如在《基于時間序列和PERT的服裝銷售預測方法研究》[2]一文中從服裝銷售的實際特點出發,通過引入PERT模型和時間序列模型,借鑒兩模型的各自優勢,實現了對銷售必然性和偶然性預測的有機結合,用完全量化的時間序列模型克服了預測過程中對歷史數據的主觀性判斷。喻琳艷在《需求隨機型服裝產品的灰色預測模型》一文中將服裝需求分為需求確定型、隨機型和季節型,提出運用灰色控制理論有關預測的理論[3],針對需求確定型和隨機型服裝產品建立預測模型,避免了以往僅憑經驗進行管理的盲目性,得到了較好的預測結果。薛美君、沈劍劍、楊以雄在《服裝銷售定量預測方法新探》一文中對受季節銷售影響敏感且有較長銷售周期的服裝銷量進行預測,采用季節因子處理數據,結合最小二乘法進行時間與銷售量的統計分析[4],建立時間和銷售量之間的函數關系,此方法對預測服裝企業未來銷售需求有較好的準確度。通過分析國內外服裝銷售預測的研究狀況,不難發現目前關于預測方法方面的研究已經比較完善,但是預測方法的研究大多偏重于將多種預測方法綜合運用得出最后的預測值。然而對于服裝企業的管理者來說,關注的另一個焦點是哪些因素影響了銷售額,而上述模型在銷售影響因素上沒有做相關分析。
針對此不足,本文首先結合服裝業特點,從地域、文化、經濟、氣象、企業發展等角度尋找影響銷售的不同因素,然后用系統聚類法實現銷售數據的聚類,即將企業的歷史銷售數據按照企業關注的類別進行相應的聚類,最后運用CART算法建立影響因素與目標銷售額之間的分類規則,進而運用規則對銷售進行預測。
此方法不僅可以有效預測服裝銷售需求,而且易于轉化為關聯規則,幫助管理者了解服裝銷售的主要影響要素,制定合理的生產、營銷策略。
系統聚類法是目前使用最多的一種聚類方法。決策樹學習是以實例為基礎的監督歸納學習算法,通過一組無次序、無規則的實例推理出決策樹表示形式的分類規則,其中最著名的決策樹算法有ID3、C415、CART等[5-10]??紤]到本模型的輸入數據集并不完全服從某類特定分布,而且不同指標體系對應的數據類型也不同,既有連續變量又有離散變量,因此采用CART算法[10]。
系統聚類算法能夠對服裝銷售中的目標銷售額進行聚類,并能得到較好的結果,將此結果作為CART決策樹算法的輸出。然后尋找與目標銷售額相關的外界影響因素與企業內部的影響因素,將這些因素作為決策樹的輸入。運用CART算法形成影響因素與目標銷售額之間的分類規則,最后運用規則對銷售進行預測。
2.1整體模型
為了更有效地配置現有資源,實現企業利潤最大化,需要借助科學的方法分析不同銷售網點所處的具體市場環境,針對不同的市場環境制定不同的銷售額指標,同時對各類市場環境下,不同網點的未來銷售額進行預測。
決策樹算法可以通過對輸入數據的分析,在學習的基礎上得到分類規則,因此,可以先尋找與目標銷售額相關的外界影響因素與企業內部的影響因素,將這些因素作為決策樹的輸入,運用決策樹算法形成影響因素與目標銷售額之間的分類規則,從而幫助管理者了解目前的銷售受到了哪些外部因素的影響。同時,還可以運用已有規則對未來市場的銷售進行預測。
基于上述分析,本文提出了聚類分析與決策樹算法相結合的銷售預測模型。該方法首先從服裝的整體銷售入手,通過聚類分析,將歷史記錄中的人均銷售額分組,結合企業實際分析要求,劃分成3大類區間,表示銷售業績的“可觀,一般,較差”3個層級;然后建立包括地域因素、經濟因素、文化因素以及企業自身因素等一系列可能對銷售產生影響的屬性集合,決策樹將這些屬性和從聚類中得到的3大銷售區間聯系起來,得出屬性集合與人均銷售額之間的關聯規則;最后通過決策樹就可以將未來銷售網點的人均銷售額和用屬性描述的銷售原型聯系在一起,預測出未來屬性發生變化時所對應網點的人均銷售額,以此指導管理者進行科學的決策。整個模型主要包括聚類分析,建立指標體系和建立決策樹模型3步,主要流程如圖1所示。

圖1 基于聚類分析和決策樹算法的服裝銷售預測模型流程圖
(1)聚類分析:運用系統聚類法對研究時期內對應的人均銷售額進行聚類,形成若干類銷售區間,作為決策樹模型的分類目標;
(2)建立影響因素指標體系:尋找影響服裝銷售的各類影響因素,即包括各類外部影響因素,也包括企業自身的影響因素,建立完善的影響因素指標體系;
(3)建立決策樹模型:將影響因素對應的屬性向量作為決策樹模型的輸入,人均銷售額的聚類區間作為決策樹的分類目標,訓練決策樹模型,挖掘出影響因素和人均銷售額之間的關聯規則,用建立的規則對新網點的人均銷售額進行預測,同時通過對最終決策樹的分析,指導企業分析市場環境。
2.2基于聚類分析的銷售數據聚類分析模型
本文使用系統聚類法實現銷售需求的聚類。聚類過程主要包括3個步驟:距離計算,合并聚類,決定類的個數和類,整個過程如圖2所示。

圖2 系統聚類過程圖
2.2.1距離計算
計算N個銷售數據任意兩者間的距離 {dij},即銷售額的差值,記為D={dij},構造N個類,每個類中只有1個樣本,其中:

xi表示第i個銷售額,xj表示第j個銷售額,i,j∈(1,2,…,N)。
2.2.2類的合并
對以上數據用平均距離法進行聚類分析。平均距離法是將類與類之間的距離定義為兩類中所有樣品對之間的平均距離,假設用G表示某一類,即本項目中的銷售區間。G中有k個元素,i、j表示G中第i、j個因素;令Gp和Gq中分別有p和q個樣品,類與類之間平均距離D(p,q)定義為Gp和Gq中所有兩個樣品對之間距離的平均。可以根據式(2)計算類之間的平均距離,然后將平均距離最近的兩類進行合并,得到新類,再計算新類與各類直接的平均距離,依次重復,直至所有樣本聚類完畢。

式中,i、j表示G中第i、j個銷售額;令Gp和Gq中分別有p 和q個銷售額數據。
2.2.3類個數的確定
Milligan(1984)和Cooper(1985)提出了以下3個最好準則:①偽F統計量;②偽統計量;③立方聚類準則CCC。通過判斷這3個值在聚類數為多少時達到峰值來選擇類的個數。
2.2.4聚類結果
通過上述方法,企業的N個歷史銷售記錄可以聚成K類(K≤N),每一類代表一個銷售區間,對應不同的銷售情況,表示為Ω∈{SCL1,SCL2,SCLK}。
2.3基于決策樹算法的銷售需求預測模型
本文采用CART決策樹模型實現影響因素和銷售區間之間的映射,挖掘出兩者之間的關聯規則。具體流程如圖3所示。

圖3 CART決策樹模型流程圖
2.3.1訓練和測試數據集的建立
對于經營品牌的企業,其直接銷售的是產品商標,經過生產廠商和各級經銷商最終售給消費者。因此,企業當前的商標銷售量反映的是后續時期的市場需求。因此,本文將T時期的影響因素與T+1時期的銷售區間配對,形成數據集T={Ai,SCLi+1},i∈[1,2,…,N]。其中,Ai表示第i時期的屬性向量,SCLi+1表示第i+ 1時期的銷售情況,N表示歷史數據的總時間長度。然后,選取其中的TRD個數據作為訓練數據,則剩余的N-TRD個為測試數據。
2.3.2銷售影響因素獲取
本項目綜合考慮了影響銷售的地域角度、氣象角度、文化角度、經濟角度和企業角度,確定了各類因素所對應的具體屬性集合。根據文獻《地域性文化影響下的服裝分析》《淺談地域差異對服裝設計的影響》《我國女裝市場營銷環境分析及評價研究》,《女性品牌服裝消費心理的實證研究》《淺談地域差異對服裝設計的影響》以及企業自身關注的指標。綜上可得本文中所提出的44個影響因素屬性集合(見表1),表示為Ai=(A1,A2,…,A44)。
2.3.3決策樹的訓練
采用數據集T中的TRD個訓練數據對決策樹進行訓練,以第i時期的銷售影響因素Ai為輸入,以第i+1時期的銷售類SCLi+1為輸出,得到一棵初始決策樹。
其中,CART決策樹的分支生成規則如下:從眾多的輸入屬性Ai中選擇GINI系數最小的一個或多個屬性,作為樹節點的分裂變量,把測試變量分到各個分枝中,重復該過程建立一棵充分大的分類樹,然后用剪枝算法剪枝,得到一系列嵌套的分類樹,最后用測試數據進行測試,選擇最優分類樹。其中GINI系數的計算公式如下:

A(j/h)是從訓練樣本集Ai中隨機抽取一個樣本,當某一測試變量值為h時屬于第J類的概率;nj(h)為訓練樣本中測試變量值為h時屬于第J類的樣本個數;n(h)為訓練樣本中該測試變量值為h的樣本個數;J為類別個數。
2.3.4冗余因素刪選
如果初始決策樹將所有的影響因素均篩選出來,則說明不存在冗余因素;此時,需要分析預測精度是否理想,如果不理想,則需要調整初始屬性集合,可以通過增減屬性,逐次進行實驗,觀察預測精度是否提高。

表1 銷售影響因素
如果初始決策樹未將全部的影響因素篩選出來,說明原始屬性集合中存在冗余因素,此時需要進一步觀察表1中對應的各個角度,如果整個角度內的所有因素均未被篩選出來,說明該角度內所有因素對規則的形成均不起作用,刪除整個角度;如果所有角度內均有屬性被篩選出來,說明各個角度均對規則形成起作用,此時各個角度內未被篩選出來的屬性即為冗余屬性,繼而按照各個角度逐次去掉冗余屬性,并觀察每次改進后的預測精度是否提高,直至刪除四大角度內的所有冗余因素。然后觀察預測精度是否理想,如果不理想,則通過增加屬性或者增加其他角度,重復上述步驟進行實驗,直至到達理想預測精度。
2.3.5最終決策樹的生成
使用所有的數據進行訓練,形成對樣本解釋度最高的決策樹。根據該決策樹進行預測和相關分析。
本項目中針對某知名絨線廠家的銷售情況進行分析,運用系統聚類分析與CART決策樹算法相結合的銷售預測方法。該方法首先從絨線產品的人均銷售入手,通過聚類分析,將歷史記錄中的人均銷售額劃分成“可觀,一般,較差”3個層級;然后建立包括地域因素、經濟因素、文化因素以及企業自身因素等一系列可能對銷售產生影響的屬性集合,CART決策樹將這些屬性和從聚類中得到的3大銷售區間聯系起來,得出屬性集合與人均銷售額之間的關聯規則,并用不同年份的銷售數據進行測試,檢驗決策樹的預測精度;最后用所有的數據進行訓練和測試,得到一棵完全解釋樹(如圖4),對企業目前的市場銷售進行分析解釋。

圖4 最終決策樹
對最終決策樹的分析如下:
(1)對企業銷售起重要影響的因素包括是否屬于江南區域(上海,江蘇,浙江,安徽,江西,湖南,湖北),網點到達率,人均網點數,人均GDP等因素;
(2)運用這棵樹進行人均銷售額的預測,一方面,當獲取第N年的影響因素的所有數據后,將其做為這棵決策數的輸入數據集,即可得出新的規則,從而幫助預測出新的不同規則下對應的銷售區間;
(3)這棵樹通過對影響因素與人均銷售額的關聯分析,挖掘出一系列的規則,這些規則對企業更好地了解當前市場環境有重要的指導意義。
影響因素的多變使得服裝銷售的預測越來越復雜。本文提出了一種基于聚類分析和決策樹算法的服裝銷售預測模型。聚類分析將銷售額進行分類,決策樹找到了影響因素和銷售額之間的關聯規則,基于規則對未來的銷售進行預測,構成了本文的銷售預測模型。通過實證分析,該模型的預測準確率與其他預測模型相比有了很大的提高。然而,在決策樹的分類中出現了一些錯誤,這些錯誤的產生是由于對服裝銷售影響因素的掌握不充分造成的??紤]到服裝銷售市場的復雜性,可以將決策樹算法與其他算法相結合,如遺傳算法,神經網絡等智能算法,這些算法有待于進一步的討論。
主要參考文獻
[1]Celia Frank,Ashish Garg,Amar Raheja,et al.ForecastingWomen’s Apparel Sales Using Mathematical Modeling[J].International Journal of Clothing Science and Technology,2003,15(2):107-125.
[2]萬艷敏,陳勝,戴淑嬌.基于時間序列和PERT的服裝銷售預測方法研究[J].絲綢,2006(11).
[3]喻琳艷.需求隨機型服裝產品的灰色預測模型[J].國際紡織導報,2006(8):78-80.
[4]薛美君,沈劍劍,楊以雄.服裝銷售定量預測方法新探[J].東華大學學報,2004,30(6):75-77.
[5]劉棟,宋國杰.面向多維時間序列的過程決策樹模型[J].計算機應用,2011,31(5):1374-1377.
[6]汪海銳,李偉.基于關聯規則的決策樹算法[J].計算機工程,2011,37 (9):104-109.
[7]琚春華,肖亮.基于地域因素的連鎖商業分布式決策樹算法[J].系統工程理論與實踐,2011,31(6):1126-1133.
[8]劉映池,張毅.運用系統聚類法對高校學生進行分類[J].教育與教學研究,2009,23(9):69-70.
[9]張琳,陳燕,李桃迎,牟向偉.決策樹分類算法研究[J].計算機工程,2011,37(13):66-70.
[10]陳輝林,夏道勛.基于CART決策樹數據挖掘算法的應用研究[J].煤炭技術,2011,30(10):164-166.
10.3969/j.issn.1673-0194.2015.09.031
F270.7
A
1673-0194(2015)09-0064-04
2015-01-29