




摘要:基于文本挖掘的用戶需求分析能夠從大量的在線用戶評論中挖掘出用戶的顯性需求和潛在需求。在用戶需求挖掘理論研究的基礎上,對某汽車用戶在線評論數據進行采集、預處理、詞云圖可視化分析以及關鍵詞共現分析。結果表明:該款汽車在空間、動力、內飾、外觀方面具有優勢,在胎噪、油耗、車機方面有待優化。
關鍵詞:文本挖掘;在線評論;用戶需求;汽車
0 前言
隨著經濟發展和生產力水平的提升,我國的商品市場已從賣方市場轉變為買方市場,導致企業之間的競爭變得更激烈。這種競爭不僅表現在商品的價格上,還表現在商品的功能、樣式、包裝、物流等方面。為滿足現有用戶和潛在用戶需求,企業必須能夠精準分析用戶的需求,并在不斷變化的市場環境中把握用戶需求的變化,及時調整產品或服務的營銷策略。
需求分析研究是一項重要的市場調研活動,是指對消費者需求和需求滿足程度進行深入研究和分析的過程。目前,常用的用戶需求分析研究方法主要包括用戶訪談法、專家咨詢法、問卷調查法和數據分析法,其中數據分析法能夠從網絡大量的文本評論數據中,挖掘出用戶的顯性需求和隱性需求。
隨著汽車電動化、智能化、網聯化、共享化發展,消費者購車前了解汽車信息主要通過專業汽車網站。通過這些網站可以查閱汽車資訊、查找汽車品牌或車系、查看口碑評論及經銷商報價等內容,由此也衍生出懂車帝、汽車之家、易車網、太平洋汽車等選車、買車、用車、換車的一站式服務網站。這類網站通常因其專業性、便捷性、易用性等優點聚集了大量汽車用戶,產生了大量的汽車相關評論數據。汽車企業能夠根據自身及競爭對手車型的互聯網評論數據來分析用戶體驗反饋,挖掘汽車用戶的潛在需求[1],并借助數據挖掘和分析結論來優化產品設計與營銷戰略。
1 文本挖掘技術在汽車領域的研究
在中國知網定制如下檢索條件:((題名=‘文本挖掘’)AND(題名=‘汽車’)),獲得135 篇文獻,人工刪除明顯與汽車領域無關的文獻后,對剩下100 篇文獻進行發文年度趨勢分析。分析可知,相關研究最早發表于2011 年,2011—2016 年可視為萌芽期,2017—2020 年為發展期,在2021 年達到年度發表最高值(23 篇/年),而后文獻篇數相對回落。對檢索出的文獻進行關鍵詞共現分析,結果如圖1所示。由圖1 可知:在汽車領域,關于文本挖掘技術的應用研究主要用于汽車用戶情感分析[2-3]、主題模型分類[4-5]、滿意度影響因素[6-7]和銷量預測[8-9]等方面,且針對電動汽車較多,幾乎沒有針對特定品牌燃油汽車進行在線用戶評論關鍵詞共現分析的研究。
2 基于在線評論挖掘汽車用戶需求
筆者選擇國產某汽車品牌比較有代表性的星越L 汽車作為實證研究對象,并借助文本數據挖掘技術對該汽車的在線評論數據進行采集與預處理、詞云圖可視化分析和關鍵詞共現分析,從而幫助企業識別用戶需求,完善產品功能。
2. 1 基于網絡爬蟲技術的在線評論數據采集與存儲
本研究主要利用目前獲取網頁數據比較主流的網絡爬蟲技術,實現對該款汽車用戶在線評論數據的采集,采集的數據源主要是懂車帝和汽車之家網站。在網絡爬蟲工具方面,主要利用Python 的re、requests 等模塊來獲取數據源。數據采集的主要步驟為:① 在Python 導入requests、beautiful soup 和selenium 庫,分別用于發送網絡請求、解析HTML 頁面和模擬瀏覽器行為;② 給爬蟲設置一個請求頭,模擬正常用戶瀏覽器訪問網站,避免被目標網站屏蔽;③ 分別訪問懂車帝和汽車之家網站上該款汽車的評論頁面,通過selenium庫和Chrome 瀏覽器驅動模擬瀏覽器行為,如翻頁、點擊等操作;④ 使用BeautifulSoup 庫解析HTML 頁面,從頁面中提取評論數據,包括評論者的昵稱、評論日期、評論內容等;⑤ 通過翻頁抓取,獲取評論的總頁數,并通過循環訪問每一頁,以抓取更多評論;⑥ 將采集得到的在線評論數據存儲在一個數據結構(如列表或字典)中,將其輸出到本地Excel 文件進行存儲。
2. 2 基于中文分詞技術的在線評論數據預處理
由于原始數據存在重復評論、換行符、空格等異常數據,影響后續數據分析的客觀性和準確性,因此有必要對原始數據進行預處理,主要包括數據加載與簡單預處理、中文分詞、去停用詞等。
2. 2. 1 數據加載與簡單預處理
將在線評論原始數據讀取到Python 中,存儲為一個數據框對象。通過對讀入數據進行觀察可以發現,原始評論數據中存在重復評論,以及較多的數字、字母、符號和表情等,因此需要進行去除重復值、部分無效詞等簡單預處理。本研究主要采用數據框的drop_duplicates 方法去除“評論內容”列的重復值,再使用Python 內置的re 模塊的compile 函數去除評論數據中“[0-9a-zA-Z]| |\n|吉利|星越|汽車|提車|車”等無效詞。
2. 2. 2 中文分詞
中文分詞是將中文漢字序列拆分為單個的字或者詞語。目前使用較多的中文分詞工具有jieba、SnowNLP、HanLP、NLPIR 等。由于jieba 在中文分詞方面具有易用性和有用性,本研究使用Python中的jieba 庫實現文本評論數據的中文分詞。選擇jieba 庫默認的精確模式,使用cut()函數對評論數據中的“評論內容”列進行分詞。
2. 2. 3 去停用詞
通過觀察分詞后的評論數據可以發現,分出的詞中有很多符號、空格等與數據分析無關的詞,因此需要進行去停用詞處理。本研究在網上下載的停用詞表基礎上,結合對文本評論數據分詞的觀察,更新得到停用詞表“stopwords2023.txt”。
通過with open 方法讀取停用詞表后,利用re 模塊的sub 函數簡單處理停用詞表中的空格、換行符等,然后使用代碼[[i for i in s if i not in stop] for s in comments['評論分詞']]來去除停用詞,最后將預處理后的評論數據輸出為Excel 文件,并保存為“comments_after.xlsx”。預處理后的評論數據如圖2 所示。
2. 3 基于詞頻統計技術的在線評論數據詞云圖可視化
詞云圖(word cloud)是由詞組成的云狀圖形,常用于文本數據的可視化,還可以進一步設置詞云的形狀、顏色、尺寸等。本研究將經過處理后的有效分詞進行詞頻統計,然后在Python 中導入詞云圖模塊及pyplot 模塊,繪制出的詞云圖如圖3 所示。從圖3 可以看出,用戶對于該款汽車的關注點主要是空間、油耗、動力、外觀、內飾、配置等功能特征,且用戶評論中“滿意”、“喜歡”等正面評價較為突出。
2. 4 基于語義關系的在線評論數據關鍵詞共現分析
基于詞頻統計的詞云圖可視化分析僅能分析關鍵詞在文本評論數據中出現的頻率,但不能反映出關鍵詞之間的關聯性。因此,需要進一步對關鍵詞進行共現分析。共現分析的原理是在詞頻統計的基礎上進行聚類分析,從而挖掘出文本的主題結構。關鍵詞共現分析的步驟主要為提取在線評論數據關鍵詞、構建關鍵詞共現矩陣、構建關鍵詞語義網絡圖。
基于預處理后的在線評論數據,利用Python 的標準GUI 庫tkinter 庫的_flatten 函數提取出頻數排前20 位的關鍵詞,分別是:油耗、空間、動力、駕駛、開、內飾、高速、買、滿意、配置、感受、喜歡、不錯、外觀、跑、高、座椅、后排、真的、模式。
根據前述提取出頻數排前20 位的關鍵詞,構建關鍵詞共現矩陣,共現矩陣的每一行/每一列代表一個關鍵詞,矩陣中的每個元素表示關鍵詞之間的共現次數,如圖4 所示。
最后,基于Networkx 圖論與復雜網絡建模工具,使用Python 語言構建關鍵詞語義網絡圖,如圖5 所示。
從圖4 和圖5 可以看出,共現次數較高的關鍵詞對包括(空間,后排)、(油耗,高)、(駕駛,感受)、(外觀,內飾)、(跑,高速)、(配置,高)、(駕駛,模式)等。較多的用戶在空間、動力、外觀方面比較滿意,該款汽車在內飾、外觀方面具有優勢。
3 結語
本研究提出基于在線評論數據挖掘汽車用戶需求的方法,為汽車企業在大數據時代如何利用數據挖掘手段,獲取目標客戶真實需求提供了一種易用且有效的技術方法。結果顯示,該款汽車在空間、動力、內飾、外觀方面具有優勢,在胎噪、油耗方面有待優化。
參 考 文 獻
[ 1 ] 吳瑋怡. 數據挖掘在電動汽車充電樁充電故障檢測中的應用[J]. 汽車與新動力,2023,6(2):81-84.
[ 2 ] 張夢婷,葉楠,范黃健. 基于情感分析的新能源汽車用戶評論語義網絡分析與主題建模[J].科技和產業,2022,22(12):364-369.
[ 3 ] 原顯冬. 基于文本挖掘的SUV 汽車客戶情感分析[J]. 中國市場,2023(10):128-132.
[ 4 ] 劉冠東. 基于文本挖掘的主題投資探索性研究[D]. 廣州:華南理工大學,2020.
[ 5 ] 張弦. 基于主題模型的車輛殘值評估研究[D].南京:南京大學,2018.
[ 6 ] 桂術蒙. 基于論壇評論的新能源汽車用戶滿意度研究[D]. 遼寧大連:大連理工大學,2022.
[ 7 ] 董斯雨. 基于在線評論的新能源汽車用戶滿意度研究[D]. 武漢:中南財經政法大學,2022.
[ 8 ] 何永杰. 在線評論對汽車銷量的影響研究[D].長春:吉林大學,2020.
[ 9 ] 王曉光. 新能源汽車在線評論的特征挖掘、質量評價及銷售預測效能研究[D]. 江蘇徐州:中國礦業大學,2022.