張鑫
摘要:隨著中國汽車工業的高速增長及汽車市場的日益成熟,汽車消費也成為拉動內需的一個重要“引擎”。購車行為是整個消費者行為過程最關鍵的環節。因此,對于中國汽車消費者的購車決策影響因素進行分析具有重要意義。本文主要利用機器學習中的三種分類算法并建立ROC曲線,對中國家庭購車決策影響因素進行分析。
關鍵詞:購車決策;分類算法;ROC曲線
一、引言
當前社會,汽車已經成為人們日常生活中不可或缺的出行工具。本文利用中國家庭金融調查數據,分別利用Logistic回歸,線性判別LDA分類器和非線性二次判別QDA分類器這三種分類算法進行對比研究,并采用ROC分析技術,分析出對于中國家庭購車行為的影響因素問題哪種分類方法更優。
二、研究算法簡介
用機器學習的方法來分析數據,挖掘大量數據背后的知識已成為今后的研究趨勢。在解決實際問題時,分類模式和回歸模式是使用最普遍的。分類的目的是學會一個分類函數或者分類模型,該模型能把數據庫中的數據項映射到給定類別中的某個類。本文主要研究了Logistic回歸模型,線性判別LDA分類器和非線性二次判別QDA分類器三種分類算法的對比。評估分類規則的準確率是模型的關鍵,如果準確率可以接受,則分類規則可用于新的數據的分類。ROC曲線是用來衡量分類算法的一種分析方法,能全面分析分類算法的分類性能。目前,通用的方法是計算ROC曲線下的面積AUC。AUC是曲線下區域與單位面積的比值,它的值在0到1之間。通常AUC值越大,意味著分類性能越好。
三、數據來源、變量說明
3.1數據來源
本文數據采用西南財經大學2011年中國家庭金融調查(CHFS)數據。涉及到25個省(直轄市)、80個縣、320個社區的8438戶家庭,CHFS數據庫中包括家庭購車決策、家庭各項收入、戶主個人特征,如年齡、受教育程度等信息。首先用Statal2.0對數據進行處理,最后選取了8個變量,6203戶家庭信息。
3.2變量說明
VI:carif,家庭的購車決策(若購車,carif=1;不購車,cafif=0);V2:house,家庭住房擁有量,作為家庭財富的替代變量;v3:In_income,家庭年收入取對數,家庭年收入包括家庭工資性收入(稅后)、福利性補貼收入、財產性收入、生產經營性收入及非家庭成員對其轉移性收入,且為減輕可能存在的異方差影響,對家庭收入變量取對數處理;v4:age,戶主的年齡;v5:size,家庭規模;V6:sex,戶主性別;v7:edu,戶主的受教育程度,將受教育水平為大專及大專以上的取值為1,其他為0。V8:mar,戶主的婚姻狀況。
四、實證結果分析
4.1Logistic回歸
4.1.1擬合
對家庭是否購買汽車的選擇模型,先對家庭的購車決策(V1),家庭住房擁有量(V2),家庭年收入(V3),戶主的年齡(V4),家庭規模(V5),戶主性別(V6),戶主的受教育程度(V7),戶主的婚姻狀況(V8)進行擬合。然后用Step()函數進行逐步回歸,篩選出影響顯著的變量,結果變量V2,V6,V8被剔除。
Logistic回歸結果輸出見表2。且模型輸出結果中,AIC=2077.3,由表2可知訓練出來的模型為:
4.1.2預測
建立模型的一個重要目的就是預測,下面對6203戶家庭購車決策模型進行預測,用Logistic預測的分類結果中288個錯判。
4.1.3分類性能評價
本文通過ROC曲線來衡量分類算法的分類性能,加載R語言中的pROC程序包。得到Logistic模型的ROC曲線如圖1。圖1中ROC曲線下方面積(AUC)為0.747,大于0.5。
4.2LDA分類算法
用到的是程序包MASS中的函數lda0,得到LDA分類算法對家庭購車決策的分類結果。對于LDA分類性能評價,得到LDA模型的ROC曲線如圖2。圖2中ROC曲線下方面積(AUC)為0.746。
4.3QDA分類算法
用到的是程序包MASS中的函數qda(),得到QDA分類算法對家庭購車決策的分類結果,其中有289戶家庭分類錯判。對于LDA分類性能評價,得到LDA模型的ROC曲線如圖3。圖3中ROC曲線下方面積(AUC)為0.749,優于前兩種分類方法。
從以上研究發現影響家庭購車行為決策的因素主要有家庭年收入,家庭規模,戶主年齡及受教育程度。且通過Logistic回歸,線性判別LDA分類器和非線性二次判別QDA分類器這三種分類算法的對比研究,結合KOC分析技術,發現二次判別函數QDA對于中國家庭購車行為的影響因素問題的研究更優。