申 一,周 鵬
(河北經貿大學,石家莊050001)
基于CART 決策樹的大學生游戲消費行為研究
——以某高校大學生為例
申 一,周 鵬
(河北經貿大學,石家莊050001)
針對大學生游戲消費行為,提出了基于CART決策樹的預測方法,此方法具有較高的的準確率和良好的自學能力。利用CART決策樹可以對影響游戲消費行為的復雜因素進行回歸分類及規則提取,進而從眾多的數據中得出一致性規律,經過CART決策樹模型的構建,結果表明,CART決策樹方法良好地預測了影響大學生消費行為的因素。
決策樹;CART算法;大學生;游戲消費行為
隨著網絡的飛速發展,PC終端、移動設備(手機)、各種游戲主機的不斷換代更新,游戲在數量、類型題材、質量、市場規模等方面都實現了持續穩定的增長,游戲用戶在游戲上花費的時間、金錢愈來愈多。而游戲用戶的組成中,大學生這一群體占有重要的地位。由于大學生普遍時間充裕,個人可支配財產較為穩定,接受新鮮事物的愿望與能力較強,所以要研究中國現階段的游戲產業,研究大學生的游戲消費行為必不可少,在此,以某大學的大學生為例進行分析。使用的決策樹方法相對其他數據挖掘算法,擁有的優勢:一是決策樹易于理解和實現;二是對于決策樹,數據的準備往往是簡單或者不必要的;三是能夠同時處理數據型和常規型屬性;四是易于通過靜態測試來對模型進行預測;五是在相對短的時間內能夠對數據做出可行且效果良好的結果。因此運用CART決策時算法進行分析。
分類回歸樹包含了分類樹和回歸樹,是通過向現有數據學習,用于實現對數據內在的規律進行探究,并用于對未來新數據進行分類預測的方法。本文采取的是 CART(Classification And Regression Tree)算法。這種算法與C5.0算法的思路是相似的,都包括了決策樹生長和決策樹剪枝過程。CART算法的輸入變量和輸出變量可以是分類型也可以是數值型,CART算法只能建立二叉樹,這兩點是CART算法和C5.0算法最明顯的區別。
本文所采用的輸入變量均為多分類型輸入變量,由于CART只能夠建立二叉樹,所以對于本文選用的多分類型變量,首先需要將多類別進行合并產生兩個類別,通常稱為“超類”,然后需要計算兩個“超類”下樣本輸出變量取值的異質性。
理想情況下,“超類”應該能夠起到讓兩組輸出變量取值異質性的和達到最小的作用。也就是使得“純度”達到最大。
Gini系數是CART算法用來測度異質性的。數學定義為:

其中,t為節點,k為輸出變量的類別數,p為節點t中樣本輸出變量取j的“歸一化”概率。由此可見,當節點樣本的輸出變量均取同一類別值時,輸出變量取值的差異性達到最小值,Gini系數取最小值為0,當個類別取概率值相等時,輸出變量取值的差異性最大,Gini系數值達到最大,為1-1/k。
所以,Gini系數的減少量可以用來衡量異質性的下降,數學定義為:

其中G(t)和N分別為分組之前的輸出變量的Gini系數和樣本量,r和l下標分別表示分組后的右子樹和左子樹。
利用上述兩式可以得到使得兩“超類”下輸出變量取值異質性下降最快(即“純度”上升最快)的分割點。除此方法之外,CART算法還可以采用Twoing策略和Ordered策略得到最佳分組變量。
在通過決策樹方法對某大學學生游戲消費行為進行分析。數據采集方法為網絡問卷調查。選取性別、年級、每月生活費用、接觸游戲時間、每天玩游戲的時長、游戲類型、消費數額、消費動機、消費所處的游戲進程作為輸入變量,消費行為作為輸出變量。其中消費行為是包含理性行為、沖動行為和中性行為的三分類型變量。利用clementine軟件進行分析。
上述圖1為本次數據分析過程的數據流,首先對數據進行了預處理。預處理第一步是對利用Type節點輸入變量類型進行處理。如下表。
第二步是對輸出變量的處理。原問卷中,將消費行為作為五級量表進行調查,現為了方便分析,將原問卷中的選項進行合并,利用Reclassify節點將原有取值進行重新賦值,最后將消費行為設置為沖動、中性和理性三種不同行為。

圖1 數據流

二分類型變量(F l a g)年級 多分類型變量(s d t)每月生活費用 有次序的多分類型變量(O r d e r e d S e t)接觸游戲的時間 有次序的多分類型變量(O r d e r e d S e t)每天游戲時長 有次序的多分類型變量(O r d e r e d S e t)游戲類型 多分類型變量(s d t)消費數額 有次序的多分類型變量(O r d e r e d S e t)消費動機 多分類型變量(s d t)消費時的游戲進程 有次序的多分類型變量(O r d e r e d S e t)性別
由于本文采用的數據不存在缺失數據和離群值,所以不涉及數據插補工作。接下來在圖1所示節點位置添加CART節點。分析結果以及決策樹如下圖所示。
由上述分析過程可以得出。想要分析游戲玩家消費者行為,首先應該關注的是該消費者在玩游戲過程中的累計消費金額,這是因為玩家消費過多可能導致沖動消費過多。
在消費金額100元以下以內的消費者中:首先應該關注的是玩家在游戲什么進程時進行消費,這是由于老玩家和新手玩家對于游戲的理解不同,可能導致的消費行為也不同。在游戲前中期進行消費的消費者中,所玩游戲類型不同導致的消費行為也會有一定的差異,對于手機游戲玩家和網絡游戲玩家來說,由于外界因素影響以及為了增加游戲觀感體驗和增加游戲人物實力導致的消費,大都是沖動消費而為了節省時間成本的消費大都是理性的消費。而單機游戲和主機游戲玩家,不管由于什么動機進行消費,他們的消費行為大都是理性的;在游戲后期消費的玩家中則分為兩類:第一類玩家的消費動機大都受周圍人群影響,理性與否受所玩游戲類型所影響,手機和網絡游戲玩家消費行為大都是理性的,單機和主機游戲玩家更傾向于沖動消費;第二類玩家游戲消費的最大動機是增加游戲觀感體驗、增加游戲人物實力、節省時間成,他們的游戲消費行為大都是理性的。

圖5 決策樹
[1]汪 輝,侯傳宇.決策樹相關算法研究[J].電腦知識與技術,2011,7(15):3572-3574,3581.
[2]駱盈盈,王柯玲,陳川等.結合遞增式學習的CART算法改進[J].計算機工程與設計,2007,28(7):1520-1522.
[責任編輯:王 鑫]
F0631.2
A
1005-913X(2017)07-0052-02
2017-05-26
申 一(1994-),男,山西長治人,碩士研究生,研究方向:調查與大數據分析;周 鵬(1992-),男,河北張家口人,碩士研究生,研究方向:金融統計與風險管理。