鄒泓維,呼格吉勒,陳舒琦,金 露 ZOU Hongwei, HUGE Jile, CHEN Shuqi, JIN Lu
(寧波工程學院 經濟與管理學院,浙江 寧波315211)
隨著汽車之家、易車網和毛豆新車網等一系列專業汽車電商平臺的呈現,汽車傳統銷售模式發生了根本性的變化。電商平臺下的汽車銷售模式如圖1 所示,以線下4S 店為主的營銷銷售圖1(a) 逐步被線上汽車電商平臺以及線下4S 店體驗相結合的模式圖1(b) 所替代。在汽車電商平臺上,用戶一方面可找到自己心儀品牌下的各款汽車的測評、照片以及售價等相關信息。另一方面,還可通過平臺上的論壇/社區模塊——發表對不同車系的不同車型的期待、評價以及使用感等信息。這些海量的消費者在線評論數據,可以實現用戶之間的相互交流,增強消費者購車前對車的功能、性價比進行前期功課準備。汽車電商平臺數據蘊藏著極高的商業分析價值,其內容對消費者及汽車商家都具有重要的借鑒意義[1]。
本文聚焦汽車電商平臺上用戶論壇所發表的帖子,利用Python 工具,刻畫出每一款車系或者每款品牌的論壇評價狀態,為汽車電商平臺論壇/社區用戶行為的大數據分析與可視化技術提供方法的支撐。

圖1 汽車銷售模式
近年來,隨著互聯網的普及和發展,人們大多選擇網絡購物,通過各種平臺了解產品的外觀、性能、質量等,尋找自己滿意的產品,還會在平臺上分享自己的購買體驗,表達自己對于產品的看法。在此基礎上,傳統口碑逐漸變成了一種電子口碑,商家開始關注用戶對自家產品的口碑情況,這激勵著商家將更好的產品展示給消費者,滿足其個性化需求。Chen[2]等認為在線評論是消費者通過某個平臺對產品做出的正面或負面評價。Lee[3]等則定義為這是一種自由的、由用戶自主生成的一種內容。
因此,有不少學者利用互聯網各大電商平臺數據建立不同的汽車電商平臺評論分析,例如:李芳[4]的汽車在線評論Outlier模型,利用Python、R 語言和Ucient 分析軟件找出產品在線評論與產品質量之間的關系;彭員英[5]的用戶網絡分析模型,利用Python 和Mapreduce 統計軟件分析網絡用戶行為;顧杰[6]的用戶行為研究模型,利用Python 和Django 構建汽車行業用戶畫像。羅翔曦[7]通過Python 的爬蟲程序獲取了網上購物中商品的評價及屬性基本數據,提取出商品屬性和評價詞,利用多屬性決策的方法計算出商品推薦指標。劉玉林、菅利榮[8]在電商在線評論中引入文本情感分析,能夠很好地判斷出電商在線評論的情感傾向。岳強、吳林[9]通過問卷調查法以及SPSS 數據分析軟件進行研究。鄧新潔、唐觀根[10]利用TF-IDF 算法對電商平臺的評論文本進行處理,并利用模糊層次分析法建立排序模型。李慧宗、姚瑤、王向前[11]通過LDA 模型對農產品的好評與差評進行聚類,找出不足之處的地方并加以改進。
隨著汽車電商平臺的普及以及大數據分析技術的不斷發展,基于電商平臺大數據的消費者行為分析、需求動態預測、消費者在線評價等方面的應用研究越來越多,深入發展汽車生產與消費領域的大數據技術應用智庫研究。
汽車電商論壇帖子數據分析與可視化流程框架如圖2 所示。本文利用Python 的Request 庫獲取汽車電商平臺——汽車之家網站上各種車型論壇的帖子用戶地點、評論等信息,再利用Python 的Pyecharts 庫對其進行數據分析,將論壇帖子中發帖者的所在地點進行數據地圖建模,并將其發帖內容進行語義分析,通過對積極指數帖子和消極指數帖子數量進行圖表化,實現電商汽車論壇帖子數據的可視化。最終通過數據分析的結果,結合不同車型的特點推進制造商研發出適合不同消費地區的車輛,針對不同地區的消費者需求特性推薦適合的車型。
Python 網絡爬蟲是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本[12]。Python 語言具有簡單、易學開源可擴展性等特點,在很大程度上符合情感分析各環節的技術需求[13]。
在瀏覽器中,用戶可以看見網頁的最終呈現形式(如圖3 所示),很清楚地知道自己需要哪些數據。通常而言,Python 網絡爬蟲獲取的是以文本形式存在的網頁源代碼(如圖4 所示),利用了Request 和BeautifulSoup 庫循環爬取汽車論壇所有帖子中所有回復,將獲取的帖子數據按照用戶名、精華帖數量、發帖量、回帖量、注冊日期、地理位置、回復日期、回復內容保存寫入CSV 格式的文件之中。

圖2 帖子數據模型框架圖

圖3 汽車之家網頁

圖4 汽車之家網頁代碼
情感分析的主要目的是識別用戶在評論文本中表達的情感信息,了解人們對于某些事物的偏好或者是對于某些社會現象的觀點[14],從而對數據文本進行褒義、貶義、中性的判斷。在大多應用場景下,數據情感分析可分為積極和消極兩類[15]。例如“喜愛”和“厭惡”這兩個詞,就屬于不同的情感傾向。
本文針對汽車之家論壇用戶帖子中的評論數據,利用Python 中的SnowNLP 庫進行情感分析。SnowNLP 庫是一個Python 的類庫,具備對文本進行分詞、詞性標注、提取文本關鍵詞和情感分析等主要功能,能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。
在分析過程中,每一條評論在SnowNLP 庫拆分成一個個詞語,通過判斷每個詞語是積極(例如:“好看”、“舒適”等) 還是消極(例如:“浪費”、“有問題”等),得出句子里的正面積極因素和反面消極因素。再通過SnowNLP 庫的分析,判斷出帖子之中每一條評論之中積極因素的比重,進行打分,分值介于0~1 分之間,分值越大,表明該評論之中的積極成分越多。
本研究將分值劃分為兩個層次,小于0.5 的評論為評論的消極因素大于積極因素,則認定該評論為差評;大于等于0.5 的評論為評論的消極因素小于積極因素,則認定該評論為好評。再利用Python 的Pyecharts 庫的Bar 函數進行好差評數量統計,以繪制直方圖的形式呈現出來。
圖5 為雷克薩斯IS 論壇一個帖子的一個跟帖如圖5 所示,對其進行語義分析。SnowNLP 庫將這句跟帖劃分為:“還是”,“很”“好看”“的”,“多少”,“錢”,“想要”,如圖6 所示?!暗贸觥边@幾個詞語進行詞語的積極性分析。結果如圖7 所示,這句評論正面積極的因素占了78%,負面消極的因素占了22%,模型就將該評論打分為0.78 分,判定為好評,存入CSV文件。

圖5 汽車之家用戶發帖截圖

圖6 用戶帖子內容句子劃分分析
數據可視化是利用計算機圖形學和圖像處理技術,將數據轉換成圖形或圖像在屏幕上顯示出來,并進行交互處理的理論、方法和技術[16]。數據地圖[17]是一個強大的數據可視化工具,它將數據和地圖相結合,把數據在地圖上反應出來,幫助人們了解這些數據與不同地區之間的關系,建立起顏色和數據的聯系,可以直觀明確地反映出該省份或者地區的實際分布情況。
在本文,首先對汽車之家論壇上某種車系的論壇發帖用戶的所在地身份信息進行可視化分析。其次,結合Python 的Pyecharts 庫中的Map 函數繪制數據地圖——統計該車系下不同省份用戶數量大小用不同的顏色呈現在地圖上,該省份越多人關注這輛車,這個省份的顏色越鮮艷。圖8 表示Python 工具的數據可視化流程圖。
本研究將以汽車之家電商平臺上的雷克薩斯論壇的18 款車系為例子,利用Request 和BeautifulSoup 庫進行用戶信息和論壇帖子評論的獲取,利用Pyecharts 庫進行數據可視化和SnowNLP 庫進行用戶評論語義分析將雷克薩斯的其中一款車型的用戶數據以地圖的形式呈現。

圖7 用戶帖子內容正負面判斷

圖8 可視化分析的流程圖
本研究對于汽車之家論壇上的雷克薩斯的18 款車系的前兩頁帖子和用戶數據進行了獲取匯總,結果如圖9 所示。從圖9中我們可以看出,在雷克薩斯18 款車系之中,雷克薩斯GX、雷克薩斯RX、雷克薩斯CT 在所有18 個車系中較受為關注。結合這三款雷克薩斯車系在市場的定位、測評等數據,發現這三款車輛均用材環保、出行舒適、油耗量少。因此,本文認為以上三點是人們較為關注的車輛特點。

圖9 雷克薩斯各車型評論分析匯總條形圖
本案例分析總共獲取雷克薩斯在汽車之家論壇上20 715 條帖子,對于雷克薩斯所有車系論壇用戶的地區數據進行可視化(如圖10 所示),研究發現關注雷克薩斯用戶大都集中在北京(912)、江浙滬(上海566、浙江974、江蘇983) 以及廣東(2 154) 地區。通過結合表1 全國各個省份人均可支配收入和月工資收入,不難看出關注雷克薩斯用戶收入水平大都在沿海經濟發達的省份,平均收入在七千元左右。

圖10 雷克薩斯所有車系用戶分布

表1 全國人均可支配收入和月平均工資表
基于上述汽車電商平臺的評論,再對雷克薩斯車的某系為例進行分析。本文獲取了雷克薩斯IS 車型論壇前兩頁的帖子中用戶的發帖內容和用戶的地點信息,對其進行語義分析,再對論壇用戶分布地圖進行數據的可視化處理對雷克薩斯IS 用戶電商平臺評論狀態進行可視化。
如圖11,經過語義分析用戶帖子得出,雷克薩斯IS 有1 016 條回帖被判定為好評,991 條回帖被判定為差評,比例大概為1∶1。
將好評與差評數據做成如圖12 和圖13 的數據地圖進行分析。從圖12 看出雷克薩斯IS 好評分布廣東、江浙滬一帶,差評大都在廣東一帶。
商家可以針對好評集中地帶的滿意點,對其做進一步的完善,牢牢抓住顧客心理,使其成為自家的忠實客戶;當然,商家更應該對差評集中地帶做深刻的分析,調查這些群體對于車輛的不滿意集中在哪幾點,主要訴求是什么,然后針對性地提高車輛性能及自身服務,最終贏得更多的顧客青睞。

圖11 雷克薩斯IS 情感評論分析統計直方圖

圖12 雷克薩斯IS 好評用戶分布地圖

圖13 雷克薩斯IS 差評用戶分布地圖
本研究針對汽車電商平臺,利用Python 的Request 和BeautifulSoup 庫進行網絡爬蟲獲取數據,再利用Python 語言的SnowNLP 庫對用戶評論進行語義分析,最后利用Python 語言的Pyecharts 庫實現數據的可視化。研究充分利用了Python 第三方庫的擴展性,展現了Python 工具在汽車電商大數據分析中的應用,在數據分析與可視化方面體現出一定的應用價值。
本研究初步嘗試了基于Python 工具的汽車電商平臺評論語義分析與可視化方面的探索,在用戶評論數據特點及數據預處理、語義評論的情感分析,以及與其它分析可視化研究方法的比較探索等作為今后課題需要進一步深入研究。