王澤興,韓博洋,藺會光,呂馮婧,張 煬
基于大數據分析的新能源汽車畫像研究進展
王澤興,韓博洋*,藺會光,呂馮婧,張 煬
(國家新能源汽車技術創新中心,北京 100176)
大數據技術與新能源汽車的融合是未來發展的必然趨勢,在軟件和場景定義汽車的大背景下,明確用戶群體,構建清晰的產品畫像,已成為汽車企業在數字化轉型期的發展趨勢之一。文章首先分析了常用大數據處理框架的技術特征,對大數據基本處理流程及其對應原理進行了梳理,同時闡述了大數據統計分析的方法及過程。其次結合大數據分析技術分別梳理了用戶特征分析、用戶及產品畫像挖掘的相關新能源汽車畫像研究及應用,并對基于K-means聚類的汽車用戶及產品畫像實例進行了分析。最后,對大數據分析技術在新能源汽車畫像研究的應用前景進行了總結,并提出了部分思考及未來展望。
新能源汽車;用戶畫像挖掘;大數據分析;K-means聚類
在“四個革命、一個合作”的能源安全新戰略指導下,國家制定了“雙碳”目標,并積極推動新能源汽車產業鏈發展。在汽車企業數字化轉型背景下,借助車輛數據和用戶數據的整合分析,持續推動新能源汽車研究與發展[1]。同時最大化利用大數據分析技術挖掘數據背后的價值,為新能源汽車產品的制造、服務、創新等提供數據支持[2]。
目前,以人為本的新型服務模式探索進度正在加快,同時傳統車企在產品更新、商業模式探索和數字化服務等方面加快應用大數據技術[3]。研究表明,更多的個性化選擇會增強消費者的購買欲,更有利于商家銷售產品[4]。因此,許多汽車生產企業開始趨向于為消費者提供定制且個性化的汽車產品。在大數據背景下,通過調研市場及用戶需求,并結合數據挖掘、數據分析的方式,采取數據驅動營銷策略進行新能源汽車用戶研究。構建用戶畫像、更好地把握用戶訴求,為汽車企業提供滿足消費者需求的產品或服務,有利于提升產品的質量,優化用戶體驗。根據新能源汽車消費群體的相關數據進行產品畫像研究,精準定位產品,讓不同車型迅速匹配到目標消費者群體,實現企業與用戶雙贏[5]。
大數據分析技術是當下熱門的研究領域之一,依靠大數據分析技術可以并行高效地處理對文本、圖片和視頻等非結構化數據進行價值挖掘以及統計分析[2]。
現代大數據處理框架主要包括Hadoop、Storm、Samza、Spark、Flink等,其中Hadoop框架僅適用于批處理,即需要操作大容量靜態數據集;Storm和Samza屬于流處理框架,會對隨時進入系統的數據進行計算,更適用于近實時處理需求的任務;Spark和Flink屬于混合處理框架,可以同時進行批處理和流處理的工作負載。Spark可提供高速批處理和微批處理模式的流處理,而Flink 提供了低延遲的流處理并具備批處理能力,通過深度優化也可運行其他平臺編寫的任務。
大數據預處理技術主要包括數據清洗、數據降維、數據變換等[6]。由于搜集的車輛數據涉及不同的使用場景,導致原始數據種類混雜,同時各參數的格式、標量都不盡相同,需要對原始數據進行預處理,并使用相應算法對數據進行篩選及降維,再進行計算和分析。
1.2.1數據清洗
數據清洗是對原始數據中涉及正負、精度的異常數據進行清洗過濾的預處理操作,通過填補缺失值、光滑噪聲數據,平滑或刪除離群點,以解決數據的不一致性問題。處理缺失值時,根據缺失比例,選擇刪除變量或者進行變量填充,一般選擇采用均值法或中位數進行填充。離散值處理是根據離群點數量和影響,對該條記錄刪除或使用均值、中位數等方式替換離群數據。噪聲處理是對數據進行分組操作,然后使用每組的平均數、中位數或者邊界值進行替代,起到平滑噪聲數據的作用。
1.2.2數據降維及變換
數據降維的目的是在保證數據信息完整性的前提下,降低數據維度,減少后續數據處理復雜度,提升數據挖掘建模效率。數據降維的主要使用方法為主成分分析(Principal ComponentPCA)、因子分析(Factor Analysis, FA)及奇異值分解(Singular Value Decomposition, SVD)等。
數據變換主要對數據進行規范化處理,由于數據中各特征的量綱不同,因此,需要將數據規范縮放到一定的數值區間內(例如0~1),便于進行綜合分析。一般進行規范化處理的方式有歸一化(Min-Max標準化)、Z-Score標準化等。
大數據的統計分析是判斷最終信息是否有價值的決定性因素,通過提煉數據中的特征信息,找出數據間的內在關系和變化規律[7],包括相關性分析、分類分析、聚類分析、回歸分析和可視化分析[8]。
1.3.1相關性分析
相關性分析是針對不同特征或數據間的關系,總結數據變化規律,以及對不確定數據結果進行預測[9]。衡量數據間相關性可以使用相關系數反映變量之間關系的密切程度,一般是通過計算協方差及協方差矩陣,協方差為正、負時分別對應變量變化趨勢的正、負相關。相關系數從-1到1分別代表變量完全負相關到完全正相關,兩個變量相互獨立時相關系數為0。比較常用的是皮爾森(Pearson)相關系數和斯皮爾曼(Spearman)相關系數,其計算公式分別為


式中,為兩個成對且分別按照順序編秩的變量;R為x的秩次;Q為y的秩次。
1.3.2分類分析
分類分析是基于包含對某一類別成員標簽已知的訓練數據集來識別新數據所屬類別的分析方法。以分類算法支持向量機(Support Vector Mach- ines, SVM)為例,其是一種二分類模型,可以將問題化為一個求解凸二次規劃的問題,如圖1所示。通過將輸入的特征數據映射到特征空間,并構建一個分類超平面方式,利用超平面在映射空間對原來難以使用線性直接劃分的數據進行劃分。對于能夠進行線性劃分的數據集來講,有且僅有一個具有最大幾何間隔的分離超平面。

圖1 SVM分類超平面
1.3.3聚類分析
聚類(Clustering)分析是按照某個或某幾個特定特征標準,將數據集進行分類或簇,使得類或簇間的距離盡可能大,同時類或簇內樣本與中心的距離盡可能小,聚類后同一類或簇的數據盡可能聚集在一起,不同類或簇數據盡量遠離。
K-means聚類,也被稱為K均值算法,是最常用的一種基于劃分的聚類方法,通過計算樣本點與質心的距離,與質心距離近即相似度高的樣本點被劃分為同一類簇。K均值通過樣本間的距離(一般使用歐幾里的距離計算)來衡量樣本間的相似度,兩個樣本距離越近,代表相似度越高。K-means算法流程如圖2所示。

圖2 K-means算法流程
1.3.4回歸分析
回歸分析是一種為了研究因變量和自變量之間關系的統計分析方法,通常用于預測以及發現變量之間的因果關系。在進行回歸分析時(見圖3),如果僅使用一次線性回歸容易出現欠擬合的情況,導致模型建立后回歸效果差。針對欠擬合一般考慮使用更多項或增加參數和特征進行擬合,但是多項式回歸也存在因加入過多,而出現過擬合的情況,從而導致模型訓練后的泛用性不夠,無法應用至更大場景。針對過擬合的情況可以考慮使用帶有正則化算法的回歸模型(例如Ridge嶺回歸)對數據進行擬合。

1.3.5可視化分析
可視化分析通過結合計算機高效的數據處理分析能力以及人對抽象化信息的認知優勢,輔助洞悉數據背后的規律[10]。數據可視化可以方便用戶直觀地理解數據,常用的可視化分析圖表有折線圖、柱狀圖、餅圖以及雷達圖等。通過可視化的圖表可以將抽象的數據內容整合、轉變為具象直觀的結果,更有利于了解數據價值。
高度信息化的新能源汽車包含大量具有豐富科研價值的數據,分析研究這些數據可以為車企提供明確的用戶畫像、車輛運行性能信息、行駛過程中的特點及缺點,幫助車企在后續產品的個性化或定制化功能配置時進行優化決策[11]。基于用戶推廣、定制化服務最早興起于互聯網公司,通過分析用戶特征向用戶推送符合自身喜好的內容、提供定制化的服務,并對用戶關系網絡進行管理。綜上所述,在新用戶首次登錄時,快速、準確的用戶定位十分重要[12]。
新能源汽車是未來智能化交通中的重要組成部分[13],通過結合車輛行駛數據對用戶行為及需求進行分析,既可以滿足用戶的個性化定制需求,也可以構建用戶畫像為精準營銷、場景定義等提供支持。研究表明,影響消費者選擇電動汽車的主要因素包括出行距離、身份特性、家庭收入[14]等。KIECKHAFER等[15]主要基于德國電動汽車市場數據進行分析研究,結果表明,在電動汽車市場份額估計中消費者的特性因素扮演著極其重要的角色,其中消費者選擇行為尤其與興趣偏好、性能、服務質量等因素高度相關。
從多源數據中獲取的對汽車產品用戶消費行為有所影響的群體屬性被稱為汽車用戶產品群體特征。在復雜的汽車產業中,采用各種方法收集用戶數據,并通過對其進行大數據分析。因涉及大量的結構化/非結構化數據,以及多樣復雜的場景和系統,數據的清洗、轉化、融合是一項重要挑戰[16]。
用戶畫像是通過搜集與用戶相關的多維度數據,對用戶特征屬性進行描繪,并進一步分析挖掘特征信息的潛在價值。用戶的基本屬性標簽包含年齡、性別、職業、收入等;興趣偏好標簽包含喜歡游戲,美食、社交等。這些標簽集合可以抽象出用戶的大致輪廓,對于進行產品精準營銷和用戶分析有重要作用。在互聯網行業,通過建模分析用戶安裝、卸載、經常使用或很久未使用的 App 類型,能夠挖掘用戶的興趣愛好,利于廣告投放或應用推薦等業務更好的開展[17]。根據汽車產品特性,汽車產品的用戶群體特征可大致分為用戶基本屬性、駕駛習慣屬性、充電習慣屬性、社交偏好屬性、用戶關注點屬性、消費習慣屬性等。
薛海濤等[16]通過對某品牌新能源汽車的購買行為進行分析,對已購車和未購車人群分別進行聚類分析,區分出了5類特征差異明顯的人群,其中包括已購車的用戶兩類(高學歷高收人群和經濟適用年輕人),以及未購車用戶三類(高需求中等收入家庭、低需求中等收入家庭及低需求年輕人),如圖4所示。

圖4 聚類結果
通過對不同分類的用戶購買行為進行分析,為精準營銷提供出幾點建議:首先,篩選體驗用戶學歷、收入、年齡、婚姻狀況、出行需求等方面的特征分析數據,結果表明,擁有本科以上學歷,且家庭燃油車車價15萬以上,擁有便利充電條件的用戶更容易轉化為潛在用戶、更有可能發生新能源汽車購買行為。其次,針對家庭擁有5~15 萬左右燃油車及30~40歲的已婚人群,可以考慮制定有效轉化方案,增加其購買新能源車的可能,例如推出一定優惠策略或者增加購買配置方案等。最后,優先考慮為學歷水平達到本科的20~30歲人群發放體驗,針對這一部分人群,當其預期單次出行距離在16 km以上時,且家庭燃油車車價在 15 萬以下,甚至無車的用戶更容易被轉化為購買對象。
產品畫像是一種基于用戶畫像而引申出來的大數據畫像技術[18]。楊美婷等[19]在2017年提出由用戶畫像的研究對象延伸至產品,就可以構建出“產品畫像”。王穎[20]對產品畫像的概念進行了細化,通過合理的組織、關聯產品相關信息,挖掘產品信息和用戶評論形成的標簽化信息模型可以得出產品畫像。
與用戶畫像類似,產品畫像具有多維度的特征,產品畫像要綜合產品靜態參數信息和用戶動態評價信息,多維度地展示產品專業知識、產品參數、產品相關網站信息和用戶評價相關聯的信息。同時,產品畫像也具有抽象化的特征,在建立產品畫像標簽化模型時,由于涉及眾多包含產品和用戶的信息,因此,要提煉有價值的信息作為產品畫像標簽,并表示為抽象化的標簽模型。產品畫像還具有結構化特征,即從產品多維度的數據中抽取出信息模型,需要轉化大量的文本、圖像等信息為結構化數據,形成標準的數據結構形式。
多維汽車產品畫像構建流程如圖5所示。在數據獲取與預處理階段,根據汽車各項參數與汽車性能間的關系使用網絡爬蟲技術爬取車型參數信息、用戶評分和用戶口碑評價,并對最終獲取的汽車相關數據進行處理。在產品畫像標簽體系設計階段,使用TF-IDF(Term Frequency–Inverse Document Frequency)技術從用戶興趣角度提取各車型評論的興趣方面特征詞,計算評論文本中提及較多的方面詞和權重,并通過對比汽車專業領域評價指標選定方面詞設計產品畫像標簽體系。在多維度汽車產品畫像的構建階段,依據上一階段選定的特征標簽建立多維度的車型特征向量模型,形成汽車產品畫像框架,并使用可視化工具繪制各級別車型的多維汽車產品畫像。

圖5 多維汽車產品畫像構建流程圖
在數據驅動場景下,黃嘉祥[21]基于充電站點數據、能耗數據和出行數據,研究以新能源車輛為主體的主題畫像建模。在不斷復雜豐富的數據和場景中,得出了與新能源汽車的畫像建模與充電、出行、能耗使用、駕駛行為和出行風險相關的結論,構建了以新能源汽車為主體的畫像。基于該種畫像研究[22]方法,能夠有效地刻畫對于未來充電站點的選址規劃、車輛出行習慣以及駕駛的安全性等的新能源汽車產品畫像。
祝偲博[22]通過實驗的對比研究對K均值聚類算法進行了設計改進,并通過SPSS(Statistical Product and Service Solutions)軟件對P2SOM-K均值算法、DM-K均值算法這兩種改進的K均值聚類算法聚類效果進行了驗證及對比分析。根據駕駛姿態特征參數歸納總結出了五類汽車用戶的駕駛姿態畫像:第一類汽車用戶為了在駕駛過程中使駕駛視野更加開闊、儀表盤信息更清晰,因此,方向盤相對垂直高度需調整至最低;第二類用戶為方便在駕駛過程中獲得靈活的方向盤操控體驗,方向盤相對水平距離需調整最近;第三類用戶由于在駕駛時坐姿比較松弛,不容易發生疲勞駕駛;第四類用戶需要更多的腿部空間,對于方向盤相對垂直高度的調整是五類用戶中最高的;最后一類用戶駕駛時的手臂狀態緊繃,導致方向盤操控空間偏小,同時在駕駛過程中坐姿挺拔,疲勞駕駛的風險較高。根據聚類特征進行合理推測,這一類用戶的駕駛態度在五類用戶中最為認真謹慎。通過應用汽車用戶駕駛姿態畫像,可以對五類汽車用戶的駕駛姿態調整提出了相關建議,并結合科學且安全的駕駛原則,為用戶表明安全注意事項。
肖揚[18]對汽車產品和購車用戶進行了分析和研究,提出了基于產品畫像的汽車推薦算法,實現了針對不同用戶群體的汽車推薦。通過爬取、處理分析汽車之家的汽車產品參數和用戶口碑數據,構建多維度的汽車產品畫像模型,提高對用戶進行汽車產品推薦的精度,并以此構建了基于產品畫像的混合推薦算法CPP-HR,尋找滿足用戶群體特征需求的最近鄰車型,生成車型推薦列表,實現基于產品畫像的汽車推薦。通過引入產品畫像技術到傳統推薦算法中,CPP-HR流程圖(見圖6)可以根據豐富的物品參數信息和用戶語義信息,精準地計算用戶-物品之間以及物品-物品之間的相關性,從而實現對用戶、汽車企業的推薦和指導。

圖6 基于產品畫像的混合推薦算法CPP-HR流程圖
本文闡述了大數據分析的相關原理及方法,并展示了在用戶特征分析、用戶畫像挖掘、產品畫像挖掘方向上涉及大數據技術的新能源汽車畫像研究,同時基于K-means改進算法的畫像研究應用。綜上所述,大數據分析技術在新能源汽車行業未來有廣泛的應用前景,尤其在軟件定義汽車、場景定義汽車的大發展環境下,對于汽車的使用場景挖掘、用戶需求提取及營銷精準化都有著很大的發展空間。但考慮到新能源汽車近年來的高速發展,涉及的數據規模龐大且結構格式多樣,傳統的數據處理方法需要在此基礎上進行優化和改進。特別是在越來越多的新興技術逐漸搭載、應用到新能源汽車的過程中,包括虛擬現實(Virtual Reality, VR)、增強現實(Augmented Reality, AR)等新技術的應用都會改變傳統的汽車購買及營銷模式。
針對新能源汽車畫像研究,目前收集統計的數據大部分來自問卷、訪談等主觀影響較大的方式,需要考量更多的特征情況才能構建更加完善的用戶及產品畫像,同時,在構建過程中結合不同方式收集類型多樣的數據,更有利于提升畫像的精確度以及泛用性。未來,應更多考慮將用戶主觀給出的內容數據轉化成客觀的解決方案,并以此直接指導系統的優化升級以及產品的迭代更新。通過引入腦電檢測、眼動儀等心理測量設備,并結合大數據分析技術對測量數據進行整合統計,可以在一定程度上為新能源汽車相關的畫像研究提供直觀的用戶體驗數據,更客觀地反映用戶感受。
[1] 新能源汽車國家大數據聯盟,中國汽車技術研究中心有限公司,重慶長安新能源汽車科技有限公司.中國新能源汽車大數據研究報告(2019)[M].北京:社會科學出版社,2019.
[2] 佘承其,張照生,劉鵬,等.大數據分析技術在新能源汽車行業的應用綜述:基于新能源汽車運行大數據[J].機械工程學報,2019,55(20):3-16.
[3] DREMEL C,HERTERICH M,WULF J,et al.How AUDI AG Established Big Data Analytics in its Digital Transformation[J].Mis Quarterly Executive,2017,16(2): 81-100.
[4] DAWKINS S,TIAN A W,NEWMAN A,et al.Psychol- ogical Ownership:A Review and Research Agenda[J]. Journal of Organizational Behavior,2017,38(2):163- 183.
[5] 田朝輝.基于大數據的汽車精準營銷研究分析:以構建奧迪汽車用戶畫像為例[J].福建工程學院學報, 2019,17(4):391-397.
[6] GARCíA S,LUENGO J,HERRERA F.Data Preproces- sing in Data Mining[M].Berlin:Springer International Publishing,2016.
[7] 張引,陳敏,廖小飛.大數據應用的現狀與展望[J].計算機研究與發展,2013,50(S2):216-233.
[8] 黃亞娟.大數據分析技術在新能源汽車行業的運用[J].時代汽車,2020(7):69-70.
[9] 姚柳成,鄒智宏.基于數據降維與聚類的車聯網數據分析應用[J].汽車實用技術,2022,47(4):24-28.
[10] 任磊,杜一,馬帥,等.大數據可視分析綜述[J].軟件學報,2014,25(9):1909-1936.
[11] 張帥領,張宇,王婷,等.新能源汽車大數據技術分析與應用場景研究[J].汽車博覽, 2020(7):126-127.
[12] ELKAHKY A M,SONG Y,HE X.A Multi-view Deep Learning Approach for Cross Domain User Modeling in Recommendation Systems[C]//The 24th Internati- onal Conference International World Wide Web Conf- erences.Washington:USA,2015:152-159.
[13] YANG L.Security and Privacy in the Internet of Things [D].Lawrence:University of Kansas,2017.
[14] HIGGINS A,PAEVERE P,GARDNER J,et al.Combi- ning Choice Modelling and Multi-criteria Analysis for Technology Diffusion:An Application to the Uptake of Electric Vehicles[J].Technological Forecasting and Social Change,2012,79(8):1399-1412.
[15] KIECKHAEFER K,VOLLING T,SPENGLER T S.A Hybrid Simulation Approach for Estimating the Market Share Evolution of Electric Vehicles[J].Tran- sportation Science, 2014,48(4):651-670.
[16] 薛海濤,何浩宇,陳延展,等.五菱新能源汽車精準營銷策略研究[J].時代汽車,2023(1):184-187.
[17] ZHANG J,BAI B,LIN Y,et al.General-purpose User Embeddings Based on Mobile App Usage[J].Journal of the ACM,2020:3403334.
[18] 肖揚.基于產品畫像的汽車推薦研究[D].大連:大連外國語大學,2022.
[19] 楊美婷,劉蓓琳,王韻博.基于“產品畫像”的乳制品安全預警系統研究[J].黑龍江畜牧獸醫,2017(12):27-29.
[20] 王穎.基于知識圖譜的產品畫像構建研究[D].南京:南京理工大學,2018.
[21] 黃嘉祥.數據驅動的新能源車輛主體畫像建模與分析[D].上海:華東師范大學,2022.
[22] 祝偲博.基于改進的K均值聚類算法的汽車用戶畫像研究與應用[D].長春:吉林大學,2022.
Progress of Research on New Energy Vehicle Portraits Based on Big Data Analysis
WANG Zexing, HAN Boyang*, LIN Huiguang, LV Fengjing, ZHANG Yang
( National New Energy Vehicle Technology Innovation Center, Beijing 100176, China )
The integration of big data technology and new energy vehicles is the inevitable trend of the future.In the context of software and scenario-defined vehicles, clarifying user profiles and establishing clear product portraits have become one of the development trends for automotive companies in the phase of digital transformation.Firstly, an analyse of the technical features of commonly used big data processing frameworks, the basic processing flow of big data and its corresponding principles are sorted out, and the methods and processes of statistical analysis of big data are described.Secondly, combined with big data analysis technology, the paper respectively sorts out the research and application of new energy vehicle portrait of user characteristics analysis and user and product portrait mining, and analyzes the examples of vehicle users and product portrait based on K-means clustering.Finally, the application prospect of big data analysis technology in new energy vehicle profiling research is summarized and some reflections and future prospects are put forward.
New energy vehicle;User persona mining;Big data analysis; K-means clustering
U469.7
A
1671-7988(2023)19-194-07
10.16638/j.cnki.1671-7988.2023.019.038
王澤興(1983-),男,博士,高級工程師,研究方向為新能源汽車、汽車數字化,E-mail:wangzexing@nevc. com.cn。
韓博洋(1998-),男,碩士,研究方向為計算科學、虛擬現實,E-mail:hanboyang@nevc.com.cn。