王同根







摘 要:本文通過研究新能源車輛出行特征,從出行強度、時空軌跡角度,挖掘車輛行為特征差異,構建表征車輛屬性的指標維度,提出無監督學習中的聚類分析法,識別新能源車輛的應用場景,采用上海市新能源車輛數據進行驗證,證明提出方法的準確性。
關鍵詞:新能源車;出行強度;時空軌跡;聚類分析
0 引言
隨著充電技術不斷成熟,相關政策鼓勵,新能源動力車輛得到了廣泛推廣。2020年,中國新能源汽車銷量達到136.7萬輛[1]。同時,新能源車輛用戶行為研究逐步成為熱點,包括出行行為、充電行為,涉及用戶分類研究,常見地將用戶根據行駛里程分為長里程、短里程用戶[2,3],缺少用戶使用場景深入研究,以及大規模數據實踐案例。然而,新能源用戶場景識別劃分,不僅有助于推動新能源車輛推廣應用,而且能有效支撐政府對于網約車輛監管,具有很強的必要性。
本文提出一種基于無監督聚類法的車輛應用場景識別方法,通過挖掘時空行為特征差異,構建衡量車輛屬性的指標維度。采用K-MEANS算法對車輛進行聚類分析,綜合手肘法和輪廓系數,法判斷最優分類數,根據每類結果指標特征,確定車輛具體應用場景,即私家通勤、兼職網約、專職網約車輛。最后,采用上海市新能源汽車出行數據,識別車輛應用場景,通過與互聯網平臺注冊數據相互校驗,驗證算法的精度和有效性。
1 數據介紹及預處理
研究數據來源于上海市新能源汽車公共數據采集與監測平臺,分析樣本為乘用車輛10萬輛,其中,已有網約標簽車輛1 000輛。數據信息包括采集時間、經緯度、累計里程等字段,采集頻率為10 s~30 s。
數據預處理步驟分為數據清洗、車輛次行切割、車輛日出行數據處理。數據清洗中,去除里程數據丟失嚴重的車輛,過濾經緯度、時間跳變的記錄;以30 min間隔,將原始數據進行切分,形成車輛次出行時空軌跡,即時間、經緯度序列;以日為單位,處理車輛每日出行特征,包括日出行時間、日出行里程。
2 行為特征分析
從車輛出行強度、時空軌跡方面,挖掘樣本車輛、網約車輛使用特征差異性,提出表征車輛應用場景屬性的多維度指標,作為聚類分析模型輸入。
2.1 出行強度特征
出行強度是衡量車輛應用場景最直觀特征,常用的評價指標,如行駛里程、時長、次數。相比周末、節假日不確定性影響,工作日出行特征趨于穩定,選擇工作日時間指標值;由于數據源特點,提取載客次行為有難度,不同場景車輛日出行次數差異不大;為減少極端、隨機日出行的影響,考慮反映月出行強度的指標?;诖?,選擇工作日均出行時間、工作日均出行距離以及每月工作日百公里天數,作為出行強度特征指標。
圖1~3為出行強度指標統計分布的直方圖和箱線圖,從圖中看出,相比網約車輛,未知車輛數值區間跨度更大,中位數數值明顯較低,四分位箱體更窄,異常值集中在較大值一側,分布呈現右偏態,而網約分布則呈現標準正態分布。反映未知車輛樣本混合了私家、網約以及兼職等不同場景的車輛,且出行強度較低的樣本分布更為集中。
2.2 軌跡相似度特征
軌跡作為一種重要的時空對象數據類型和信息源,通過提取軌跡數據中的相似性與異常特征,并有助于發現其中有意義的模式。目前,時空軌跡的應用范圍涵蓋了人類行為、交通物流等。本文選取軌跡相似度特征,作為衡量車輛應用場景另一維度,相比出行強度,側重描述車輛出行路徑的規律性:私家通勤車輛軌跡相對穩定,一段時間內具有較高的相似性;網約車輛出行隨機性較強,軌跡之間的關聯度較低;兼職車輛軌跡特征處于兩者之間。
考慮車輛軌跡長度靈活性,采用動態時間歸整(DTW)算法計算軌跡之間的相似度值[4]。同時,為了衡量一段時間內的軌跡特征,以車輛所有軌跡間相似度的均值,作為軌跡相似度特征的指標。
圖4分別為典型車輛軌跡相似度時間變化圖、軌跡相似度數值分布直方圖,從軌跡相似度時間變化和分布情況,網約車輛相似度值區間大、極值高,且軌跡波動性較大;相比之下,未知車輛具有明顯的周期性,且軌跡相似度集中在低值區域。從軌跡相似度角度判斷,未知車輛是私家通勤車輛可能性較高。
3 方法描述
在車輛行為特征研究基礎上,采用無監督學習K-MEANS聚類方法,對特征相近車輛進行聚類分析,根據每類的特征值情況,進一步判斷每類車輛應用場景。
3.1 分類最優K值確定
K-MEANS算法關鍵需預先確定分類k值,最優k值對應車輛場景類別。本文綜合手肘法和輪廓系數法[5],判斷k值。
(1)手肘法,隨著聚類數k的增大,樣本劃分更加精細,每個簇的聚合程度逐漸提高,誤差平方和sse逐漸變小。當k小于真實聚類數,sse下降幅度很大,當k到達真實聚類數,sse的下降幅度會驟減。
(2)輪廓系數法,選擇輪廓系數較大所對應的k值。當樣本i輪廓系數接近1,說明樣本i聚類合理,接近-1,則說明樣本i更應該分類到另外的簇。
圖5為誤差平方和、輪廓系數隨著k值變化的曲線圖。根據手肘法,k>3誤差平方和值降幅明顯放緩,k最優值為3;根據輪廓系數法,k最優取值為2、3。綜合考慮,車輛場景聚類為3類,即私家通勤、兼職網約、專職網約。
3.2 K-MEANS聚類算法步驟
K-MEANS是一個迭代型算法[6],在確定最優分類k值為3的基礎上,具體算法步驟:
(1)準備車輛特征向量數據集,其中,代表車輛集合,分別代表日均出行里程、日均出行時間、百公里天數、軌跡相似度四個特征值向量;
(2)隨機初始化3個數據點,作為3組類別中心點;
(3)計算每個數據點到中心點的距離,選擇距離最短的,將車輛劃分到該類別,最終得到3個類別的車輛集合,,;
(4)對于每個類別,重新計算其中心點,其中,,;
(5)重復步驟(3)、(4),直到每一類中心在每次迭代后變化不大為止,得到3組車輛集合,即車輛應用場景聚類結果。
4 結果和分析
利用構建的算法,對上海市未知車輛的應用場景進行識別,結果如表1所示。私家通勤、兼職網約、全職網約車輛數占比分別為70.7%、15.8%、13.5%,工作日均出行距離分別為41、116、213公里,日均出行時間分別為105、246、557分鐘,與相關調研的結論一致:私家通勤車輛以上下班為主,通勤距離通常小于50 km,專職車輛在使用上與巡游出租車相近,行駛距離通常大于200 km,而兼職車輛處于私家、專職之間,出行強度適中。在此基礎上,進一步對1 300輛合規網約車輛進行聚類分析,網約場景的識別率達到83%,識別準確率較高。
參考文獻:
[1]2020年汽車工業經濟運行情況簡析[R].上海省汽車行業協會,2020.
[2]上海市新能源汽車大數據研究報告2020[R].上海省汽車行業協會,2020.
[3]夏嚴.基于用戶出行行為特性的插電式混合動力汽車全生命周期效能分析[D].東南大學,2019.
[4]龔璽.時空軌跡聚類方法研究進展[J].地理科學進展,2011(30):522-534.
[5]董炎焱.基于SSE的全局最優K-means算法[J].電子技術與軟件工程,2018(11):196-197.
[6]秦嘉誠.基于K-means聚類算法優化方法的研究[J].信息技術,2019(1):66-70.