戴 華
(無錫南洋職業技術學院 汽車工程與管理學院,江蘇 無錫 214001)
隨著國民經濟持續快速發展,綜合經濟實力不斷提升,人們為了方便出行,購買汽車的欲望也就越來越強烈。中國的汽車保有量增長速度非常快,已經成為全球最大的汽車市場。據相關調查顯示,我國汽車銷售量呈持續高速增長趨勢[1]。在此背景下,汽車銷售行業呈現欣欣向榮的場面,因此產生了海量的汽車銷售數據。汽車銷售數據對于制定銷售策略、分析客戶消費行為以及預測銷售量等方面都起到了積極作用[2]。
關于分析汽車銷售數據的研究有很多,如申南南[3]基于Apriori算法對潛在客戶的消費行為特征進行了挖掘,為精準分類和定位客戶提供了參考,但是該方法對汽車銷量預測結果準確性較低。章旭[4]主要是以統計學理論為基礎,根據數據時間序列建立用于汽車銷量預測的BOAR模型,以期為后續的汽車制造企業提供有效的數據支撐,最終提升其經濟效益,雖然該方法的汽車銷量預測與數據分析精準度較高,但是數據可視化耗時較長。
上述方法在設計過程中沒有考慮周權重指數,導致汽車預測的銷售數據準確性降低以及數據可視化耗時增加。為解決上述方法存在的問題,本文提出了一種基于周權重指數的汽車銷售數據分析及可視化方法,希望通過本研究以提高汽車銷售數據的利用率,為汽車銷售工作提供參考。
汽車作為現代人重要的代步工具,幾乎成為每個家庭必須購入的消費品之一,因此汽車銷售量一直呈現正增長的狀態。據統計,2020年汽車制造業營業收入達到8.156 萬億元,占總體工業企業營業收入的7.68%,在近40個工業行業中位列第二。在這種大趨勢下,汽車銷售數據也隨之大幅度增長。汽車銷售數據對銷售行業的發展起到了重要作用,可以通過數據制定精準的營銷策略,也可以有效地進行客戶行為分析,還可以進行銷售量預測,為汽車生產制造規劃提供可靠的依據。為此,本文進行汽車銷售數據分析,從預測維度進行數據挖掘,以便為銷售行業的發展提供參考。
根據本文研究的主題,第一步是收集相關汽車銷售數據。所有的分析都是在收集的原始數據上進行操作,本文對于汽車銷售數據的收集主要通過一種集成技術來完成。數據集成技術框架結構如圖1所示。數據集成技術框架整體呈現為一個星型結構,在該結構中最為重要的部分是數據交換中心以及數據交換節點。各個數據交換節點從各個業務系統當中抽取汽車銷售數據,并利用Web Services將數據發送至數據交換中心,在此過程中會利用XML轉換數據格式[5]。所以一般情況下,數據交換中心等價于數據庫,主要功能是統一收集來自各個數據交換節點抽取得到的汽車銷售數據。

圖1 數據集成技術框架結構
在利用集成技術收集汽車銷售數據的基礎上,需要對收集到的數據進行清洗、變換和約簡處理[6]。下面對這三個預處理過程進行具體分析。
1.2.1 數據清洗
利用集成技術所得到的數據一般會存在數據不完整、屬性錯誤、數據重復等多種問題[7]。這些問題的存在使得數據質量急劇下降,因此在正式利用數據之前對原始數據進行清洗是勢在必行的。
數據清洗過程是一項十分復雜且冗長的工作,包括數據一致性檢查、無效以及缺失數據處理等過程。數據清洗方法如表1所示。

表1 數據清洗方法
1.2.2 數據變換
數據來源不同,數據格式和量綱也存在一定差異,所以要對數據進行變換處理,以滿足數據統一處理的需求[8]。數據變換實質就是數據標準化,其方法主要有三種,具體如下:
(1)min-max標準化

(1)
其中:x表示原始數據;xmax、xmin分別表示數據集中的最大值與最小值。
(2)正規化方法

(2)
其中:α為對應特征均值;β為標準差。
(3)log函數轉換法

(3)
1.2.3 數據約簡
采集的海量汽車銷售數據中有的數據對于后續挖掘分析并沒有什么價值,屬于冗余數據。若是不去除,后期挖掘時,運算量就會增加,降低了數據挖掘的準確性和效率[9]。為此,利用主成分分析+核函數的混合方法進行數據約簡分析。數據約簡具體過程如下:
步驟1:對汽車銷售數據進行標準化處理,組成標準化矩陣。

(4)
其中:Y為原始汽車銷售數據樣本;Q是Y的樣本方差矩陣平方根的逆運算。
步驟2:計算Y的協方差,并組成協方差矩陣。
步驟3:計算汽車銷售數據樣本前m個主元,計算公式如下:

(5)

步驟4:對YPCA進行白化處理。

(6)
其中:K是白化變換矩陣。
步驟6:根據解混矩陣重構汽車銷售數據集,即完成汽車銷售數據數據約簡[10]。
周權重指數常用在商品銷售數據分析當中,是以某一段銷售周期內的歷史銷售數據為基礎,對銷售額相關權重進行計算的一種方式[11],周權重指數一般介于7.0~14.0之間。周權重指數計算公式如下:

(7)
其中:K代表周權重指數;xi代表第星期i的日權重指數[12]。
周權重指數具體計算過程:
步驟1:收集一個汽車企業或者汽車銷售門店最近一個完整年度中的日銷售額數據,其中完整年度指連續的12個月內的汽車銷售數據。
步驟2:為使所有數據可以反映日常實際情況,需要對異常數據進行剔除處理,還需要關注促銷活動日或自然災害期間等人為或不可抗力因素對銷售額產生的影響,同時個別店鋪個別日期的異常銷售額也要剔除[13]。
步驟3:將清洗后的銷售數據以周為單位進行整理,計算出平均日銷售額。
步驟4:將一周中日銷售額最低的一天日權重指數設為1.0,并以該結果為基礎對其余6天的日權重指數進行計算,具體的計算公式如下:

(8)

步驟5:將周一至周日的日權重指數進行相加,得到周權重指數。數學表達式見公式(5)。需要注意的是,一個企業或一個業務線只設定一個周權重指數,其他分部或分店根據企業或業務線的周權重指數計算各自的日權重指數[14]。
在上述計算周權重指數之后,利用該指數對未來汽車銷售額進行預測。預測模型構建原理如下:以歷史汽車銷售數據為基礎,計算日權重指數,并利用日權重指數計算周權重指數,獲取銷售額理論完成率,最后將歷史實際銷售車輛數與理論完成率相乘,得到預測時間段內車輛的銷售量[15]。計算公式如下:

(9)
其中:R為理論完成率;K′為所選歷史汽車銷售數據所在時間段內的日權重指數合計值。
Y=R×T
(10)
其中:Y代表汽車銷售量預測結果;T為歷史實際銷售車輛數。
汽車銷售數據分析過程中,數據分析顯示缺乏直觀性,因此為了給用戶呈現更好的瀏覽效果,需要進行數據可視化操作。數據可視化流程框圖如圖2所示。

圖2 數據可視化流程框圖
為測試基于周權重指數的汽車銷售數據分析方法在汽車銷售量預測方面的有效性,利用MATLAB軟件進行仿真分析。
汽車銷售量預測所處的仿真測試環境如表2所示。

表2 仿真測試環境
某品牌汽車門店在5月1日到5月15日期間已實際銷售的車輛數為63020 輛,現在利用上文所設計的預測方法對2019年5月后半月的汽車銷售量進行預測。汽車銷售數據樣本(部分)如表3所示。

表3 汽車銷售數據樣本(部分)
依據下述三個指標來對汽車銷售分析方法的預測準確性進行評估。指標計算公式如下:
(1)均方根誤差(RMSE)
RMSE的值越小,表示預測精度越高,其計算公式如下:

(11)
(2)均方誤差(MSE)
MSE的值越小,表示預測精度越高,其計算公式如下:

(12)
(3)平均絕對誤差(MAE)
MAE的值越小,表示預測精度越高,其計算公式如下:

(13)
其中:n為預測次數;Y′i為預測值;Y為真實值。
某品牌汽車門店周權重指數計算結果如表4所示。

表4 某品牌汽車門店周權重指數計算結果
基于周權重指數預測2019年5月后半月的汽車銷售量,并在MATLAB工具上進行可視化顯示,預測結果可視化示意圖如圖3所示。

圖3 預測結果可視化示意圖
計算2019年5月后半月的汽車銷售量實際結果與預測結果之間的均方根誤差(RMSE)、均方誤差(MSE)以及平均絕對誤差(MAE),預測誤差結果如表5所示。

表5 預測誤差結果
從表5中可以看出,與文獻[3]、[4]方法相比,本文方法的三種誤差都較小,說明該方法的預測精度較高,達到了研究目的。
在上述基礎上,為綜合比較不同方法的綜合性能,進行汽車銷售數據可視化耗時比較,數據可視化耗時如表6所示。

表6 數據可視化耗時(單位:s)
分析表6中的數據可知,文獻[3]方法的汽車銷售數據可視化耗時平均值為3.11 s,文獻[4]方法的汽車銷售數據可視化耗時平均值為1.39 s,本文方法的汽車銷售數據可視化耗時平均值為0.75 s,在三種方法中可視化耗時最少,說明利用該方法可以實現汽車銷售數據快速可視化,效率更高。
在現代社會,隨著出行需求的不斷增加,汽車銷售量持續上升,所以需要對汽車銷售量數據進行進一步分析與可視化,以分析結果為基礎制定汽車相關企業的生產與銷售戰略,所以本文提出一種基于周權重指數的汽車銷售數據分析及可視化方法。通過仿真,證明了此方法的有效性,可以在實際中得到進一步推廣。