武峰
(廣州大學華軟軟件學院,廣東廣州510990)
我國的電子商務近年來飛速發展,尤其基于網絡的電子交易越來越普及,典型的C2C模式的淘寶網交易金額2009年上半年已經達到1000億,每天的瀏覽量超過900萬人次,注冊淘寶網的用戶數目前已經達到7200萬[1]。這樣一個龐大的購物群必然蘊含著無限商機。
分類和回歸樹(CART Classification and Regression Trees)技術是一種用于數據集分類決策樹技術,也可稱為二元回歸分解技術[2]。它的輸入量可以是連續特征和離散特征的變量,變量之間可以是模擬非線性的關系。利用分類回歸樹可以自動探測出高度復雜數據的潛在結構、重要模式和關系;探測出的知識又可用來構造精確和可靠的預測模型,應用于分類客戶、保險詐騙和信用風險管理等。本文主要從網絡商家的角度研究商家店鋪信譽、商品價位、所在地域等,從而探討其與商品銷售量的關聯度及哪一些因子是影響網絡營銷中的關鍵因子。
本文應用SPSS公司的商業智能分析軟件Clementine構建分類回歸樹模型,對C2C模式的淘寶家飾精品類的網站店鋪半年營業數據進行分析建模。
利用Topfisher工具軟件將某網站的交易記錄采集到指定數據庫中,難點是對超鏈接網頁中的重要屬性及信息的選擇和自動存取的過程。這需要親自編寫腳本工具程序實現,最后的采集結果見表1。

表1 利用Topfisher工具從網上精品店采集到的銷售原始記錄
對原始數據進行篩選、分類合并、匯總及數據格式的轉換等。目的是為了讓數據挖掘軟件Clementine中的CART算法建立模式更準確。
2.2.1 數據準備
數據挖掘最后成功與否,是否能夠起到決策支持作用,關鍵在于數據預處理。由于在ACCESS數據庫中對數據篩選排序等方面操作復雜,而SPSS的Clementine軟件對Excel數據的導入有更好的支持,所以將數據導出到Excel數據表中,在數據導入SPSS的Clementine之前,可以先人工對變量進行初步處理,刪除一些明顯不必要的變量以及在數據采集過程中某些不完整的記錄,這樣有助于提高模型的運行效率及結果的精確度[3]。
根據研究目標,進一步分析成交記錄中哪一些價位的網絡商品在家飾精品類屬于熱銷品或對于同樣的商品哪一些因素是影響成交量的主要因子。本文對銷售記錄中的一些屬性以及商家的有關屬性進行匯總整理出數值屬性表,如表2所示。采用分類匯總的方法將各自店鋪不同價位商品按一個價位劃分標準進行分級量化,表3定義了商品單價劃分層次,將價格統一化,容易比較與歸類。

表2 分類匯總之后的數據屬性表

表3 商品單價劃分層次定義
2.2.2 數據轉換
作為數據預處理的重要部分,數據轉換是應用簡單的數學公式或學習曲線變換度量方法,將數據轉換到一個統一的度量范圍內,達到數據分析的目的。在進行分類回歸建模時,輸入的變量既可以是連續變量,又可以是分類變量,但本文研究的是分類決策樹的問題,所以輸出變量為分類變量,所以要將輸出的每月銷售量這個連續變量轉變為分類變量。根據網絡家飾精口的銷售經驗平均量對每種價位層次的商品數量進行定義:每月銷售量大于50件的為熱銷品,少于50件的定義為非熱賣品,這樣可以將連續型數據轉化為分類型數據。另外,還要將文本型的商家所在地轉化為數值類型數據,從而提高模型的運行效率。圖1是數據轉換后在Clementine軟件的屬性類型節點定義。
主要采用分類回歸樹CART算法建立數據模型,參數設置中基于樹生長的“基尼系數”(GINI)[4],后剪枝策略,評估方面采用K-折交叉驗證的方法來優化樹,設置最大生長深度為5層,且葉子節點中的對象個數少于總對象個數的1%,父節點中的對象個數少于總對象個數的2%。建模的過程如圖2。

圖1 C l e m e n t i n e軟件建模所用數據類型

圖2 CART算法模型建立圖
通過對240條匯總的數據記錄(既作為訓練集又作為預測集)進行分析建模,運行結果如圖3:

圖3 基于CART算法模型結果樹型圖及IF-THEN規則圖
從CART算法的樹狀模型結果圖可以清晰看到整個模型的大致結構,整個模型有5個葉節點,總共有11個節點,從根節點向下一共有四層,即此樹模型的的深度為4,根節點以及每個內部節點下面都標明了進行分支的依據變量及其閾值,且每個節點都標明了此節點所包含熱銷品與非熱銷品的每月銷售量大于50件的個數和這些個數占總個數的百分比,以及此節點總的個數和占總數的百分比。從CART算法模型運行的IF-THEN規則圖中發現共生成六條規則,其中規則用于0的包含4條規則,即用于非熱銷品的規則;用于1的包含2條規則,即用于是熱銷品的規則。從根節點到葉節點的每條路徑都對應著一條(IF-THEN)語句規則,IF后指代的是影響銷售商品的一些特征屬性,例如有商品價位、商家信譽、銷售月份,THEN表示預測出該價位商品是否為熱銷品。
大部分的分支都是非熱銷品的規則,只有兩條是我們想要預測的熱銷商品的規則。第一條是:假如商品價位在低于200元情況下,商家信用是四鉆等級,且在2,3,4,5月份所賣低于10元的商品則會成為熱銷品。第二條是:如果商品價位在低于200元情況下,商家信用是五鉆以上等級,且所賣介于10元到30元或介于50元到100元的商品則會成為熱銷品。其余四條是非熱銷品規則,值得注意的是有一條規則比較有參考價值,即:如果商品價格大于200元,在家飾精品類這樣的商品很難成為熱銷品。
決策樹模型建立的過程也是參數變量重要性評定的一個過程。從圖3左圖可以看出影響銷售量的影響因子是價格、商家信用、月份,這三個因子是按重要性依次遞減。原因是商品價位在兩層分類重復出現,說明商品價格是影響熱銷品的一個重要影響因子。其次是商家信用,從規則中可以看出低信譽度網絡商家賣低價位商品容易成為熱賣品,高信譽度網絡商家賣中、高價位的商品容易成為熱銷品。最后是月份,它是影響因子中最小影響銷售量的一個因子,但也能看出一些規則,在非熱銷品的月份中有1月和6月是屬于淡季月份。最無關因子是商家所在地,也就是網絡銷售量無關乎所在地域不同,不存在地域性差異,當然也許我們所選的只有三個地區來源,沒有明顯的區分性。
在完成基于分類回歸樹算法的建模和結果分析后,我們將利用預測集的數據來檢驗此模型的準確度,執行觀測集數據流的結果評估,如圖4:

圖4 基于CART算法模型準確率分析圖
由圖可知,用CART算法對預測集進行檢測后,此模型的準確率為84.58%,數據為203個,錯誤率為15.42%,數據為37個。從模型運行結果分析可以看出此模型對網絡熱銷商品的識別方面具有一定的參考意義。只有數據信息量足夠大,結果的準確率才會更高,而本文中所匯總后的銷售記錄數偏少。在現實生活中,銷售的記錄數要遠遠大于這些。另外,還有其它影響銷售量的主要因素,比如廣告、打折促銷等都是影響網絡銷售量的重要因子。由于我們所采集到的數據中缺乏這樣的信息,而且實際中影響因子也都是不同的,這些都是影響模型結果準確率的主要原因。
通過CART模型結果分析影響網絡銷售量的重要影響因子及得到網絡熱銷品的有用規則,是一次很有意義的理論結合實踐的嘗試。一方面通過建立CART模型得到一些有價值的商業營業規則,可以幫助網絡經營商經營決策;另一方面,通過數據建模也驗證了CART算法的正確性、優越性和易用性。
[1]2009年上半年中國網絡購物市場發展報告[EB/OL].http://down.iresearch.cn/Reports/Free/1306.html
[2]Jiawei Han Micheline Kamber.數據挖掘概念與技術[M].范明,孟小峰譯.北京:機械工業出版社,2008.
[3]戴維·奧爾森.商業數據挖掘導論[M].石勇,呂巍等譯.北京:機械工業出版社,2007.
[4]陳燕燕,許青松.分類回歸樹及其在個人信用評估中的應用[D].湖南:中南大學,2007.