程登,張亮,趙小羽,黎飛,王興月,黃祖朋
(上汽通用五菱汽車股份有限公司技術(shù)中心,廣西 柳州 545007)
用戶畫(huà)像也叫用戶角色,是用戶大數(shù)據(jù)分析的主要內(nèi)容[1]。用戶畫(huà)像屬于用戶信息標(biāo)簽集合,在現(xiàn)實(shí)生活中真實(shí)存在,除了用戶姓名、年齡等靜態(tài)信息外,還包括用戶的使用特性等。通過(guò)用戶訪談的形式收集用戶畫(huà)像會(huì)導(dǎo)致信息缺失以及統(tǒng)計(jì)不及時(shí)等不足。大數(shù)據(jù)時(shí)代,數(shù)據(jù)成倍地增加,通過(guò)對(duì)用戶大數(shù)據(jù)的挖掘,獲取用戶駕駛行為的數(shù)據(jù),可以幫助整車企業(yè)深入分析用戶畫(huà)像,為用戶提供更好的服務(wù)用戶。
本文基于DBSCAN聚類[2]和K-means聚類[3]算法,通過(guò)某型新能源汽車T-BOX實(shí)時(shí)采集的海量數(shù)據(jù),應(yīng)用數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)據(jù)進(jìn)行預(yù)清洗、聚類分析、通過(guò)建立預(yù)測(cè)模型去預(yù)測(cè)用戶的居住地,從而豐富某型新能源汽車的用戶畫(huà)像。
新能源汽車終端基于 GB/T 32960-2016《電動(dòng)汽車遠(yuǎn)程服務(wù)與管理系統(tǒng)技術(shù)規(guī)范》,定時(shí)采集CAN網(wǎng)絡(luò)上的數(shù)據(jù),并上傳到企業(yè)的新能源大數(shù)據(jù)平臺(tái)。本次實(shí)驗(yàn)所使用的是某整車企業(yè)100臺(tái)新能源汽車,最近3個(gè)月的用戶車輛行駛數(shù)據(jù),主要包含有:車輛停車經(jīng)緯度、啟動(dòng)時(shí)間、行駛里程、充電時(shí)刻、充電經(jīng)緯度等數(shù)據(jù)。
海量的原始數(shù)據(jù)中存在著大量不完整的數(shù)據(jù),這將影響數(shù)學(xué)建模的效率,導(dǎo)致挖掘結(jié)果存在偏差,因此數(shù)據(jù)清洗尤為重要。數(shù)據(jù)清洗主要是刪除原始數(shù)據(jù)中的無(wú)關(guān)數(shù)據(jù)、重復(fù)數(shù)據(jù)、噪聲數(shù)據(jù)等。本次數(shù)據(jù)清洗主要是將經(jīng)緯度越界數(shù)據(jù)、異常數(shù)據(jù)和軌跡漂移點(diǎn)等剔除。
DBSCAN算法是一類基于密度的聚類算法。其主要思想為:在樣本集合X={x1,x2,x3,…,xN}中任意選取一個(gè)數(shù)據(jù)點(diǎn)出發(fā),按照密度可達(dá)的條件往外擴(kuò)張,最終得到一個(gè)最大化的區(qū)域。若初始點(diǎn)是核心點(diǎn),則這個(gè)最大化的區(qū)域就是一個(gè)類或一簇;若初始點(diǎn)為邊界點(diǎn),則會(huì)跳至下一個(gè)點(diǎn);若初始點(diǎn)為噪聲點(diǎn),則直接將該點(diǎn)標(biāo)記為噪聲點(diǎn)。
在DBSCAN聚類算法中,主要涉及以下定義:
定義1 Eps鄰域。對(duì)于聚類樣本集合X中的任意一點(diǎn)p,以p為圓心,Eps為半徑,所包含的區(qū)域就是p的Eps鄰域,記為 NEps(p)。
定義2 核心對(duì)象。對(duì)于聚類樣本集合X中的任意一點(diǎn)p,統(tǒng)計(jì)該點(diǎn)Eps鄰域范圍內(nèi)的所有數(shù)據(jù)點(diǎn)個(gè)數(shù)v,則核心對(duì)象是指v不小于MinPts的數(shù)據(jù)點(diǎn)。
定義3 直接密度可達(dá)。如果q∈NEps(p),同時(shí)點(diǎn)p為核心對(duì)象,則認(rèn)為對(duì)象q從p直接密度可達(dá)。
定義4 密度可達(dá)。在聚類樣本集合X中,如果存在序列p1,p2,…pn,且滿足p1=q,pn=p。若是pi+1從pi直接密度可達(dá),則對(duì)象p從q密度可達(dá)。

圖1 DBSCAN聚類算法解析圖
空間聚類算法作為一種空間數(shù)據(jù)劃分的重要方法,主要將對(duì)象的空間距離按照相似性準(zhǔn)則劃分到若干個(gè)子集中,使得相同子集中各元素間差別最小,不同子集中各元素間差別最大。空間聚類算法是建立在各種樣本的空間距離基礎(chǔ)上,最常用的是歐幾里得距離:

式中,i=(xi1,xi2,…,xim)和j=(yj1,yj2,…,yjm)是兩個(gè)m維的數(shù)據(jù)樣本。
根據(jù)空間聚類算法的類別劃分是使得同一類的內(nèi)部相似度最大、差異度最小,而不同類別的相似度最小、差異度最大。公式(1)的歐幾里得距離作為劃分準(zhǔn)則,即任一空間對(duì)象與該對(duì)象所屬類的幾何中心之間的距離比該對(duì)象到任何其他類的幾何中心距離都小。

圖2 K-means聚類算法解析圖
如圖2所示,詳細(xì)描述了K-means聚類算法的聚類設(shè)計(jì)過(guò)程。首先,由用戶確定所要聚類的準(zhǔn)確數(shù)目k,并隨機(jī)選擇k個(gè)對(duì)象,代表一個(gè)類的均值或中心,對(duì)剩余的每個(gè)對(duì)象,根據(jù)其(各類中心的距離將它賦給最近的簇。然后重新計(jì)算每個(gè)簇內(nèi)對(duì)象的平均值形成新的聚類中心,這個(gè)過(guò)程重復(fù)進(jìn)行,直到下列(2)式準(zhǔn)則函數(shù)收斂為止。

這里,E是所有研究對(duì)象的平方誤差總和,p為空間的點(diǎn),即數(shù)據(jù)對(duì)象。ai是簇Ai的平均值,按照這個(gè)準(zhǔn)則生成的結(jié)果簇趨向于獨(dú)立和緊湊。
K-means聚類算法對(duì)異常點(diǎn)敏感,無(wú)法解決噪聲點(diǎn)的問(wèn)題,若地理位置的分布過(guò)于分散,按照固定k值聚合,得到的中心點(diǎn)位置可能和實(shí)際相差甚遠(yuǎn),導(dǎo)致結(jié)果有差異。DBSCAN聚類算法是按照活動(dòng)半徑的密度可達(dá)來(lái)聚合,其結(jié)果是將數(shù)據(jù)集合分類,并不求出中心點(diǎn)。
因此本文設(shè)計(jì)了一種基于DBSCAN聚類和K-means聚類的混合算法:利用 DBSCAN算法的密度可達(dá)特性將用戶的地理位置數(shù)據(jù)按活動(dòng)半徑聚合成若干個(gè)簇,并且將每一簇的數(shù)據(jù)集作為新的輸入,再利用K-means算法的迭代聚合求出中心點(diǎn)的位置。
基于DBSCAN聚類的實(shí)現(xiàn)過(guò)程,設(shè)定關(guān)鍵參數(shù)Eps和MinPts。從聚類數(shù)據(jù)樣本集X中任意選取一點(diǎn)p,若該點(diǎn)的條件符合核心對(duì)象的判定,那么從該點(diǎn)密度可達(dá)的所有數(shù)據(jù)點(diǎn)成為一個(gè)聚類,而不屬于任何簇的數(shù)據(jù)點(diǎn)則被標(biāo)記為噪聲點(diǎn)。關(guān)鍵參數(shù)Eps和MinPts的選擇對(duì)聚類效果影響很大,表1中展示出不同Eps和MinPts組合時(shí),算法模型的準(zhǔn)確率,根據(jù)多次實(shí)驗(yàn),最終確定最優(yōu)解。

表1 DBSCAN算法參數(shù)選擇
圖3分別給出了不同Eps和MinPts組合時(shí),其聚合效果。通過(guò)對(duì)比,可以看到Eps=1000米淺黃色的類聚的精度較差,Eps=500米聚類未完全剔除噪聲點(diǎn),Eps=200米聚類結(jié)果精度較高。因此,本文在DBSCAN算法中選取的關(guān)鍵參數(shù)為:Eps=200米,MinPts=5。

圖3 不同參數(shù)聚類對(duì)比圖
通過(guò) K-means聚類算法可以得到用戶居住地的 GPS數(shù)據(jù),再對(duì)數(shù)據(jù)糾偏,將聚類出來(lái)的GPS數(shù)值轉(zhuǎn)化為適配電子地圖的值。再通過(guò)電子地圖開(kāi)放平臺(tái)中的逆地理編碼API服務(wù)地址得到精確的地址,最后得出該地址周邊的居住小區(qū)。以高德地圖為例,將聚類后的GPS數(shù)據(jù)糾偏后,通過(guò)高德地圖開(kāi)放平臺(tái)的數(shù)據(jù)接口,實(shí)現(xiàn)逆地理編碼,得到用戶的居住地。
表2是采集分預(yù)測(cè)結(jié)果,可以看出,基于DBSCAN聚類和K-means聚類混合算法的用戶居住地預(yù)測(cè),可以精準(zhǔn)算出用戶居住地。對(duì)于整個(gè)數(shù)據(jù)采集樣本,整體的準(zhǔn)確度高達(dá)85%以上。

表2 用戶居住地預(yù)測(cè)結(jié)果
本文基于DBSCAN聚類和K-means聚類混合算法設(shè)計(jì)了一種新能源汽車用戶居住地的預(yù)測(cè)模型,結(jié)合大數(shù)據(jù)能夠準(zhǔn)確預(yù)測(cè)用戶居住地,有效地解決無(wú)法獲取新能源汽車用戶居住地的難題,豐富了用戶畫(huà)像的標(biāo)簽種類,有助于營(yíng)銷推廣活動(dòng)制定。