徐可瑩 張婧怡
1. 北京交通大學(xué) 北京 100080;
2. 北京郵電大學(xué) 北京 102200
本文通過分析某汽車公司3款品牌電動汽車,銷售部門邀請目標客戶對汽車體驗后得到了各項數(shù)據(jù)[1]。因所提供的數(shù)據(jù)出現(xiàn)問題數(shù)據(jù),通過數(shù)學(xué)建模做好數(shù)據(jù)清洗工作,指出異常值和缺失數(shù)據(jù)以及處理方法,對數(shù)據(jù)做描述性統(tǒng)計分析,研究出不同品牌電動汽車的銷售影響因素,最終建立不同品牌電動汽車的客戶挖掘模型,使銷售部門制定較好的銷售策略。
本文采用2021年第二屆全國大學(xué)生“華數(shù)杯”數(shù)學(xué)建模競賽C題所提供的各項數(shù)據(jù)。某汽車公司推出3款品牌電動汽車,銷售部門邀請了目標客戶進行體驗。滿意度數(shù)據(jù)有a1-a8,個人信息數(shù)據(jù)有B1-B17,因所給的數(shù)據(jù)發(fā)現(xiàn)許多問題數(shù)據(jù),它會影響后續(xù)數(shù)據(jù)挖掘工作,導(dǎo)致抽取模式錯誤和導(dǎo)出規(guī)則的偏差[2],通過SPSS統(tǒng)計圖形做好數(shù)據(jù)統(tǒng)計和分析,以目標客戶對于不同品牌汽車8個方面滿意度進行比較,以品牌類型為因子進行分組分析。
用SPSS軟件繪畫箱線圖,箱線圖提供了一個識別異常值的標準,即大于或小于箱線圖設(shè)定的上下界的數(shù)值即為異常值,箱線圖選取異常值比較客觀,在識別異常值方面有一定的優(yōu)越性。以下為目標客戶對3個品牌的汽車的8個方面的滿意度箱線圖。由于得出的異常值數(shù)量有些多,所以決定將一般異常值留下而把偏激異常值(圖中帶*號的數(shù)據(jù))剔除。缺失值的處理:B7的問題為“請問您有幾個孩子”,可推測得到,該列的缺失值為0。
圖1 SPSS軟件繪畫箱線圖
主成分分析法是把原來多個變量劃為少數(shù)幾個綜合指標的一種統(tǒng)計分析方法,變量太多,會增加分析問題復(fù)雜性,用較少的新變量代替原來較多的舊變量,并使這些新變量盡可能多地保留原來變量所反映的信息。目標客戶購買電動車的影響因素有a1-a8和B1-B17,且局部因素對電動汽車的銷售影響較小,數(shù)目過多難以樹立指標之間的關(guān)聯(lián),不僅會增加工作量還有可能對評判結(jié)果產(chǎn)生影響。通過采取主成分分析法對影響因素降維,減小影響因素的數(shù)量,確定各個因素的主成分。
式中:P-主成分;Xi愿意購買電動車的客戶個人特征信息;Xip-愿意購買電動車的客戶的滿意度評分。
2.2.2 構(gòu)造樣本陣,對樣本陣元進行如下標準化變換:
2.2.3 對標準化陣Z求相關(guān)系數(shù)矩陣:
2.2.4 解樣本相關(guān)矩陣R的特征方程:
得p個特征根,確定主成分按:
確定m值,使信息的利用率達85%以上,對每個λj,j=1,2,...,m解方程組Rb=λjb,得單位特征向量。
2.2.5 將標準化后的指標變量轉(zhuǎn)換為主成分:
U1稱為第1主成分,U2稱為第2主成分...... Up稱為第p主成分。
2.2.6 對m個主成分進行綜合評價。對m個主成分進行加權(quán)求和,即得最終評價值,權(quán)數(shù)為每個主成分的方差貢獻率。
2.2.7 計算主成分貢獻率及累計貢獻率[3]。
主成分累計貢獻率為:
一般取累計貢獻率達85%~95%的特征值λ1,λ2,...,λm所對應(yīng)的第1,第2......第m(m≤P)個主成分。
計算主成分載荷,其計算公式為:
得到各主成分的載荷后,進行下一步計算,得到各主成分的得分,貢獻率越大的因素對是否購買電動汽車的影響越大,對全部的25個影響因素分析得到13個主要成分,為a1﹑a3﹑a4﹑a6﹑a8﹑B2﹑B3﹑B4﹑B5﹑B7﹑B12﹑B13﹑B16。
在這次體驗中有49位客戶購買了體驗的電動汽車。買品牌1為23人,買品牌2為15人,買品牌3為11人,購買品牌1人數(shù)最多,品牌3人數(shù)最少。分析購買客戶信息,研究出不同品牌汽車的銷售影響因素。品牌1為對電池﹑安全性滿意度高,居住市中心﹑家庭總?cè)丝诙嗟闹屑壜殕T購買;品牌2為對汽車經(jīng)濟性﹑操控性滿意度高,且居住年限長﹑房貸少的中級技術(shù)客戶購買;品牌3為對汽車配置滿意度高﹑只有1孩﹑家庭可支配收入高的高級技術(shù)人員購買。
對所給出的15名待判定不同品牌購買客戶,預(yù)測統(tǒng)計客戶購買電動車的可能性為輸入,把原來目標客戶的體驗數(shù)據(jù)作為輸出,利用神經(jīng)網(wǎng)絡(luò)算法,建立預(yù)測模型,該模型的流程為:分析→神經(jīng)網(wǎng)絡(luò)→多層感知器→選定因變量﹑因子﹑協(xié)變量→神經(jīng)網(wǎng)絡(luò)預(yù)測。
通過主成分分析法刪除不重要的指標,對指標賦權(quán)[4],但因為這樣有一定主觀性,因此進一步采用BP神經(jīng)網(wǎng)絡(luò)算法對所賦權(quán)重進行測試調(diào)節(jié),最終利用神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上的預(yù)測模型,預(yù)測15個目標客戶是否購買的數(shù)據(jù),通過所預(yù)測的數(shù)據(jù),與原來體驗電動汽車客戶相比較,判斷出有真實購買電動汽車意愿的客戶。
用SPSS繪制ROC曲線,曲線越靠近左上角,試驗的準確性就越高。最靠近左上角的ROC曲線的點是錯誤最少的最好閾值,其假陽性和假陰性的總數(shù)最少。通過分析,本模型得到相關(guān)的對應(yīng)關(guān)系,如圖2所示。
圖2 ROC Curve圖
AUC就是曲線下面積,因為是在1×1的方格里求面積,AUC必在0~1之間,AUC值越大,正確率越高。求得不同購買意愿下的AUC值都為0.927,十分接近于1,故該預(yù)測模型效果是比較好的。以上可知利用這些方法得到的模型具備一定的可信度。利用該預(yù)測模型對15個客戶的購買數(shù)據(jù)進行預(yù)測,與實際值相比較,預(yù)測見下表:
表1 品牌電動車預(yù)測
選擇貢獻率大于85%的,最后我們根據(jù)該模型,預(yù)測15個客戶購買品牌1的客戶1個,購買品牌2的客戶1個,購買品牌3的客戶0個。
根據(jù)神經(jīng)網(wǎng)絡(luò)模型可得到各個變量重要性,可知B15﹑B16﹑a1﹑a3﹑a2的重要性占比很大。
圖3 變量重要性排序
用SPSS軟件繪畫箱線圖發(fā)現(xiàn)異常值,將一般異常值留下,偏激異常值剔除,按照8個方面的滿意度,以品牌類型為因子進行分組分析,最終得到客戶對不同品牌汽車的滿意度比較分析。對購買了電動汽車的客戶進行數(shù)據(jù)分析,通過采取主成分分析法對影響因素降維,確定各個因素的主成分,研究出不同品牌電動汽車銷售影響因素。通過采取神經(jīng)網(wǎng)絡(luò)算法建立預(yù)測模型,預(yù)測出客戶購買電動汽車的可能數(shù)據(jù),再根據(jù)神經(jīng)網(wǎng)絡(luò)模型可得到變量重要性,對沒有購買電動汽車的顧客實施營銷策略優(yōu)化。充分證明建立在主成分分析法計算基礎(chǔ)上的典型相關(guān)模型,與實際緊密聯(lián)系,通用性較強。建立的預(yù)測模型具有自適應(yīng)能力,容錯性強,能很好地處理非線性復(fù)雜系統(tǒng)。