新能源乘用車輛應用場景識別方法研究

2021-09-10 07:22:44王同根

交通科技與管理 2021年19期

王同根

摘要：本文通過研究新能源車輛出行特征，從出行強度、時空軌跡角度，挖掘車輛行為特征差異，構建表征車輛屬性的指標維度，提出無監督學習中的聚類分析法，識別新能源車輛的應用場景，采用上海市新能源車輛數據進行驗證，證明提出方法的準確性。

關鍵詞：新能源車;出行強度;時空軌跡;聚類分析

0 引言

隨著充電技術不斷成熟，相關政策鼓勵，新能源動力車輛得到了廣泛推廣。2020年，中國新能源汽車銷量達到136.7萬輛[1]。同時，新能源車輛用戶行為研究逐步成為熱點，包括出行行為、充電行為，涉及用戶分類研究，常見地將用戶根據行駛里程分為長里程、短里程用戶[2，3]，缺少用戶使用場景深入研究，以及大規模數據實踐案例。然而，新能源用戶場景識別劃分，不僅有助于推動新能源車輛推廣應用，而且能有效支撐政府對于網約車輛監管，具有很強的必要性。

本文提出一種基于無監督聚類法的車輛應用場景識別方法，通過挖掘時空行為特征差異，構建衡量車輛屬性的指標維度。采用K-MEANS算法對車輛進行聚類分析，綜合手肘法和輪廓系數，法判斷最優分類數，根據每類結果指標特征，確定車輛具體應用場景，即私家通勤、兼職網約、專職網約車輛。最后，采用上海市新能源汽車出行數據，識別車輛應用場景，通過與互聯網平臺注冊數據相互校驗，驗證算法的精度和有效性。

1 數據介紹及預處理

研究數據來源于上海市新能源汽車公共數據采集與監測平臺，分析樣本為乘用車輛10萬輛，其中，已有網約標簽車輛1 000輛。數據信息包括采集時間、經緯度、累計里程等字段，采集頻率為10 s～30 s。

數據預處理步驟分為數據清洗、車輛次行切割、車輛日出行數據處理。數據清洗中，去除里程數據丟失嚴重的車輛，過濾經緯度、時間跳變的記錄;以30 min間隔，將原始數據進行切分，形成車輛次出行時空軌跡，即時間、經緯度序列;以日為單位，處理車輛每日出行特征，包括日出行時間、日出行里程。

2 行為特征分析

從車輛出行強度、時空軌跡方面，挖掘樣本車輛、網約車輛使用特征差異性，提出表征車輛應用場景屬性的多維度指標，作為聚類分析模型輸入。

2.1 出行強度特征

出行強度是衡量車輛應用場景最直觀特征，常用的評價指標，如行駛里程、時長、次數。相比周末、節假日不確定性影響，工作日出行特征趨于穩定，選擇工作日時間指標值;由于數據源特點，提取載客次行為有難度，不同場景車輛日出行次數差異不大;為減少極端、隨機日出行的影響，考慮反映月出行強度的指標?；诖?，選擇工作日均出行時間、工作日均出行距離以及每月工作日百公里天數，作為出行強度特征指標。

圖1～3為出行強度指標統計分布的直方圖和箱線圖，從圖中看出，相比網約車輛，未知車輛數值區間跨度更大，中位數數值明顯較低，四分位箱體更窄，異常值集中在較大值一側，分布呈現右偏態，而網約分布則呈現標準正態分布。反映未知車輛樣本混合了私家、網約以及兼職等不同場景的車輛，且出行強度較低的樣本分布更為集中。

2.2 軌跡相似度特征

軌跡作為一種重要的時空對象數據類型和信息源，通過提取軌跡數據中的相似性與異常特征，并有助于發現其中有意義的模式。目前，時空軌跡的應用范圍涵蓋了人類行為、交通物流等。本文選取軌跡相似度特征，作為衡量車輛應用場景另一維度，相比出行強度，側重描述車輛出行路徑的規律性：私家通勤車輛軌跡相對穩定，一段時間內具有較高的相似性;網約車輛出行隨機性較強，軌跡之間的關聯度較低;兼職車輛軌跡特征處于兩者之間。

考慮車輛軌跡長度靈活性，采用動態時間歸整（DTW）算法計算軌跡之間的相似度值[4]。同時，為了衡量一段時間內的軌跡特征，以車輛所有軌跡間相似度的均值，作為軌跡相似度特征的指標。

圖4分別為典型車輛軌跡相似度時間變化圖、軌跡相似度數值分布直方圖，從軌跡相似度時間變化和分布情況，網約車輛相似度值區間大、極值高，且軌跡波動性較大;相比之下，未知車輛具有明顯的周期性，且軌跡相似度集中在低值區域。從軌跡相似度角度判斷，未知車輛是私家通勤車輛可能性較高。

3 方法描述

在車輛行為特征研究基礎上，采用無監督學習K-MEANS聚類方法，對特征相近車輛進行聚類分析，根據每類的特征值情況，進一步判斷每類車輛應用場景。

3.1 分類最優K值確定

K-MEANS算法關鍵需預先確定分類k值，最優k值對應車輛場景類別。本文綜合手肘法和輪廓系數法[5]，判斷k值。

（1）手肘法，隨著聚類數k的增大，樣本劃分更加精細，每個簇的聚合程度逐漸提高，誤差平方和sse逐漸變小。當k小于真實聚類數，sse下降幅度很大，當k到達真實聚類數，sse的下降幅度會驟減。

（2）輪廓系數法，選擇輪廓系數較大所對應的k值。當樣本i輪廓系數接近1，說明樣本i聚類合理，接近-1，則說明樣本i更應該分類到另外的簇。

圖5為誤差平方和、輪廓系數隨著k值變化的曲線圖。根據手肘法，k>3誤差平方和值降幅明顯放緩，k最優值為3;根據輪廓系數法，k最優取值為2、3。綜合考慮，車輛場景聚類為3類，即私家通勤、兼職網約、專職網約。

3.2 K-MEANS聚類算法步驟

K-MEANS是一個迭代型算法[6]，在確定最優分類k值為3的基礎上，具體算法步驟：

（1）準備車輛特征向量數據集，其中，代表車輛集合，分別代表日均出行里程、日均出行時間、百公里天數、軌跡相似度四個特征值向量;

（2）隨機初始化3個數據點，作為3組類別中心點;

（3）計算每個數據點到中心點的距離，選擇距離最短的，將車輛劃分到該類別，最終得到3個類別的車輛集合，，;

（4）對于每個類別，重新計算其中心點，其中，，;

（5）重復步驟（3）、（4），直到每一類中心在每次迭代后變化不大為止，得到3組車輛集合，即車輛應用場景聚類結果。

4 結果和分析

利用構建的算法，對上海市未知車輛的應用場景進行識別，結果如表1所示。私家通勤、兼職網約、全職網約車輛數占比分別為70.7%、15.8%、13.5%，工作日均出行距離分別為41、116、213公里，日均出行時間分別為105、246、557分鐘，與相關調研的結論一致：私家通勤車輛以上下班為主，通勤距離通常小于50 km，專職車輛在使用上與巡游出租車相近，行駛距離通常大于200 km，而兼職車輛處于私家、專職之間，出行強度適中。在此基礎上，進一步對1 300輛合規網約車輛進行聚類分析，網約場景的識別率達到83%，識別準確率較高。

參考文獻：

[1]2020年汽車工業經濟運行情況簡析[R].上海省汽車行業協會，2020.

[2]上海市新能源汽車大數據研究報告2020[R].上海省汽車行業協會，2020.

[3]夏嚴.基于用戶出行行為特性的插電式混合動力汽車全生命周期效能分析[D].東南大學，2019.

[4]龔璽.時空軌跡聚類方法研究進展[J].地理科學進展，2011（30）：522-534.

[5]董炎焱.基于SSE的全局最優K-means算法[J].電子技術與軟件工程，2018（11）：196-197.

[6]秦嘉誠.基于K-means聚類算法優化方法的研究[J].信息技術，2019（1）：66-70.

交通科技與管理2021年19期

交通科技與管理的其它文章: 城市道路規劃及交通工程一體化設計技術研究; “鄉村振興”導向下欠發達地區鄉村規劃方法創新研究; 蘇州公路路網交通態勢分析及輔助決策系統; G35河東特大橋結構健康監測系統軟件設計; 地鐵列車廣播系統的應用; 應用5G系統指標與鐵路通信技術探討