毛乾任,王朝斌
(西華師范大學計算機學院,四川南充 637000)
當代大學生在筆記本消費方面存在巨大的潛在市場??紤]到筆記本市場的影響力和獨特性,有必要將其作為一個獨特的細分市場來加以重視和研究[1]。目前針對這方面的研究多局限于問卷調查分析的結果。C4.5決策樹是ID3樹的改進,能處理離散型和連續性屬性,并且分類精度高,分類規則易于理解[2-3]。本文采用問卷調查得到原始數據后,經K-均值聚類,用C4.5決策樹算法提取特征規則,可更加具體和直觀地得到大學生筆記本購買行為的規律。
根據筆記本電腦行業消費者的行為特征設計問卷,并進行問卷調查。通過問卷調查分析,對所收集的信息數據進行挖掘建模,進而提取有意義的特征和規律。具體包括確定分析指標、設計問卷調查、模型構建和模型評估4個方面。

圖1 分析過程與方法
大學生消費者對筆記本的購買決策因素細分為主觀和客觀2個方面,細分結果見表1。

表1 影響購買行為的因素細分結果
客觀因素是筆記本電腦商品本身對大學生電腦消費者的影響;主觀因素則是從消費者對產品的滿意度方面來進行分析,是顧客的實際使用感受、需求和期望[4-6]。
通過在線問卷調查平臺發出問卷,共收回128份來自全國各地的問卷。隨機選取100份問卷作為研究對象。問卷設計的目的在于將消費調查的問題具體化,并把問卷結果保存為excel文檔作為建模的數據輸入。問卷設計主要從影響購買行為的指標入手,采用提問選答的形式。針對影響購買行為的客觀因素,設置的問題如下:Q2你中意的 CPU 型號:Q2.1 酷睿 i7、Q2.2 酷睿 i5、Q2.3 酷睿 i3、Q2.4 四代 i7、Q2.5 四代 i5、Q2.6 四代 i3、Q2.7奔騰/賽揚雙核、Q2.8等。針對影響購買行為的主觀因素,設置的問題如下:Q12下列筆記本的產品定位中,你會優先考慮購買哪一種:Q12.1超極本、Q12.22合1電腦、Q12.3游戲影音本、Q12.4 輕薄便攜本、Q12.5 全能學生本、Q12.6 家庭娛樂本、Q12.7時尚麗人本、Q12.8商務辦公本等。
TipDM在線平臺數據挖掘屬于使用挖掘的一種。整個挖掘過程可以分為3個相依賴的階段[7-9]:數據收集和預處理、K-均值聚類分析和C4.5決策樹特征規則提取。
對于采用問卷調查收集到的數據資料,必須對其進行預處理,轉換成可被數據挖掘工具分析處理的數據類型[10]。在K均值建模時,提取的數據全部轉換為二進制1,0。1代表屬性值Yes,0代表屬性值No。在進行特征規則的提取時,excel格式文檔中的數據將全部轉換為字符型后再作為特征規則提取的輸入。
1.5.1 K均值聚類
TipDM系統將樣本聚成2類:第一類(A類)有42個樣本;第二類有(B類)有58個樣本。表2列舉了聚類輸出結果的部分列和行。

表2 聚類結果部分列和行
1.5.2 C4.5決策樹的特征規則提取
C4.5決策樹算法通過學習數據建立決策樹,用于提取每一聚類類別的特征[11]。在輸入聚類數據之前,要將導入的樣本數據全部轉換為字符型數據作為特征規則挖掘的數據輸入,分別選取訓練集和測試集的樣本數據,生成規則列表。通過多次交換重設的數據樣本的訓練集和檢測集,重復執行可挖掘出列表所給出的所有規則[12-13]。以聚類結果B類的特征規則1為例:
特征規則提取:
規則1:C4.5決策樹


聚類結果為2類,0類即A類,1類即B類。聚類完成后,借助特征規則的提取進行詳細的聚類分析。

規則2:C4.5決策樹


可以看出采用規則1劃分的正確分類百分比為100%。如果sex的屬性值為W即性別為女,且Price值為No,如果Brand值為Yes,輸出A類,占A類13個樣本的百分比為30.95%;否則Brand值為No,如果After service值為No,輸出B類,占B類15個樣本,百分比為25.86%,由此可找到決定行為的特征屬性。
在10個正確樣本百分比為85%及以上的決策樹中,A類的特征規則決定因素主要有品牌、操作系統、外殼設計以及攝像頭像素。B類的特征規則決定因素主要有CPU、顯卡、硬盤容量和電池續航時間和價格。下面用分層交叉進行具體驗證。
交叉分析用于分析2個變量之間的關系[7]。在導出聚類結果后,把聚類的A類和B類作為自變量。而把要研究分析的其他屬性作為因變量。這里的因變量分別是影響購買行為的主觀因素、客觀因素。輸出結果如下:

表3 客觀因素交叉分析

表4 主觀因素交叉分析

表5 購買途徑交叉分析

表6 影響購買的其他因素交叉分析
總體來看,A、B類消費者對CPU的要求是所有因素中最高的,分別占到了各自客觀考慮因素的74.29%,84.48%;其次,兩類消費者購買因素所占比例超過50%的還有使用需求,散熱和內存容量。大學生在購買因素中,可以根據自己的使用需求,依次參考CPU型號、散熱和內存容量。這幾個因素也是生產商應該考慮的重心。
從客觀因素可以看出:A類消費者在操作系統、外殼材質以及攝像頭像素、散熱幾個因素方面的要求普遍高于B類消費者。在購買途徑中,A類消費者絕大部分(85.71%)去電腦城購買,少部分選擇大型商場購買,基本不在二手市場和網上購買。并且這類消費者比較看重筆記本電腦的獨特功能以及售后服務,分別高出B類消費者27.33個百分點和18.73個百分點。
從主觀因素分析,A類消費者在品牌和促銷活動方面的考慮因素分別高出B類消費者25.60個百分點和26.70個百分點,并在筆記本獨特的新功能要求上超出B類27.29個百分點。這類消費者大部分選擇在線下電腦城購買,在線上的購買幾率很低??梢?,此類大學生消費者追逐個性化的獨特風格,并且對價格的看重遠不及B類高,消費大頭已經從實用化趨向時尚化。
商家對于這類消費者在抓品牌效應的同時,可以經營便攜性較強,外觀設計時尚的筆記本,并且可以適當延長售后服務期,在實體店里開展一些促銷活動,從而在很大程度上吸引A類消費者。而對于生產商,產品要保證很好的便攜性、外殼材質和外觀設計。一些新功能的推出會更加吸引這部分消費者。家庭娛樂本、輕薄便攜本、時尚麗人本、超極本將受到這類消費者的青睞,同時在產品配置上,生產商可以適當調低成本。
從客觀因素分析,B類消費者對CPU、顯卡類型、硬盤容量和電池續航時間的要求遠高于A類消費者。B類消費者對CPU的要求高出A類消費者約10個百分點,對顯卡類型要求高出A類消費者約24個百分點,電池續航時間和硬盤容量以及接口數量高出A類消費者約12個百分點,而對操作系統、筆記本厚度、便攜和外殼材質的要求較低。
從主觀因素來看,B類消費者只在價格要求方面高于A類消費者14.86個百分點,而對于外觀設計、材質、品牌要求和是否促銷,并不是主要的考慮因素。
在購買途徑中,B類消費者在網上購買的需求遠遠大于A類。這類消費者在購機過程中可以選擇市面上一些配置較好的游戲影音本、商務辦公本、2合1電腦等;品牌上可以考慮如宏基、華碩、聯想及ThinkPad等配置較好、價格不高的品牌。B類大學生消費者在購買筆記本時青睞商家降價促銷和贈送購機禮包。商家在營銷上可以抓住這一點,在經營模式上可以選擇線上實行購買優惠禮品套機的策略,在線下開展降價促銷活動,或者采用贈送購機禮包的方式來吸引B類消費者。對于生產商,則要根據這類消費者看重配置如CPU、顯卡、電池、硬盤容量的特點,均衡配置、外觀設計和價格三方面的成本。
用分層交叉技術評估期望泛化能力,即預測模型對新鮮樣本的適應能力[14-15]。模型泛化能力驗證結果如下:

從決策樹的混淆矩陣中可以看出:在大學生類別A的實例中,39個被正確預測為A類,3個被錯誤預測。在類別為B的實例中,57個被正確預測為B類,正確分類百分比為96%,錯誤分類百分比為4%,驗證說明模型具有較高的新樣本數據適應能力。
[1]榮曉華,何成義.大學生自我概念與購買決策關系的實證研究——以筆記本電腦市場為例[J].吉林工商學院學報,2012(1):48-51.
[2]Honkanen P,Olsen S,Myrland O.Preference-based Segmentation:A study of meal preferences among Norweigian teenager[J].Journal of consumer Behavior,2004,3(3):235-250.
[3]Mobasher B.Web Usage Mining In John Wang,Encyclopedia of Data Warehousing and Mining[M].Idea Group,2006.
[4]Jefrey Lijffijt,Panagiotis Papapetrou.A statistical significance testing approach to mining the most informative set of patterns[J].Data Mining and Knowledge Discovery,2014,28(1):238-263.
[5]林嘉.系統設計和基于用戶行為分析[D].廣州:中州大學,2013.
[6]俞勇,薛貴榮,韓定一,等.Web數據挖掘[M].北京:清華大學出版社,2009.322-324.
[7]樊寧.K均值聚類算法在銀行客戶細分中的研究[J].計算機仿真,2011(3):369-372.
[8]瞿小寧.K均值聚類算法在商業銀行客戶分類中的應用[J].計算機仿真,2011,06:357-360.
[9]關云鴻.改進K-均值聚類算法在電信客戶分類中的應用[J].計算機仿真,2011,08:138-140.
[10]Menardi G,Torelli N.Training and assessing classification rules with imbalanced data[J].Data Mining and Knowledge Discovery,2014,28(1):92-122.
[11]Sathyadevan S,Remya R Nair.Comparative Analysis of Decision Tree Algorithms:ID3,C4.5 and Random Forest[J].Computational Intelligence in Data Mining-Volume 1Smart Innovation,Systems and Technologies Volume,2015,31:549-562.
[12]Iwata T,Sawada H.Topic model for analyzing purchase data with price information[J].Data Mining and Knowledge Discovery,2013,26(3):559-573.
[13]湯克明.不確定數據流中頻繁數據挖掘研究[D].南京:南京航空航天大學,2012.
[14]王萍.基于數據挖掘技術的消費者行為研究[D].長春:吉林大學,2004.
[15]李軍.基于用戶行為挖掘的數據流管理技術研究[D].北京:北京郵電大學,2012.