金澤昕 周祎德
(昆明理工大學,云南昆明 650500)
網購環境所制造出的評論區使得在線口碑傳播已成為消費者在選購時的重要信息來源。產品開發階段把握目標人群,其中用戶的定性定量研究是大多數調研方法的選擇。
本文通過評論數據采集的目的來得到定量材料,評論數據采集根據需要分析的產品選擇用戶評論數據來源的網址,然后運用Python進行消費者評論的獲取,其次采集評論的數據包含有產品名稱、評論文本以及評論時間,提取后的信息為評論數據集。本次研究的評論數據來源為京東購物網以及亞馬遜(美國)網,數據采集工具是Python,研究產品為2020年新冠疫情期間銷售最多的家電產品空氣凈化器。
本文在對用戶評論的采集和分析中,參考了文本特征值提取法以及文本情感分析,從而提出產品優化點的提取分析模型,見圖1。

圖1 產品優化點提取分析模型
在圖1產品優化點提取分析模型中分為主要的五大板塊,分別是評論數據的采集、評論文本的分離、文本的預處理、對文本處理后的詞性分析以及整合產品缺陷進行優化。
1.評論數據的采集。對所需求的網站進行相關條件的篩選從而獲得搜索量及銷量靠前的產品作為目標產品,針對這些產品的評論進行選擇性網絡爬蟲采集。
2.評論文本的分離。在文本預處理前需要對所采集的評論進行篩選,因為該模型目的是從用戶視角尋找產品存在的缺陷,所以要重點保留分析差評中的文本內容,在spss中以所采集到評論好評等級為目標進行分類,其中定義三顆星及以上的為好評,反之三顆星及以下的定義為差評。
3.文本預處理。對文本進行名詞、形容詞等詞性的采集,其中鑒于軟件分詞的條件限制性,可能會出現部分特殊文本需要單獨提取文本詞性,從而對產品的不足缺陷做出詳細的等級劃分。
4.對文本出處理后的詞性分析。通過文本預處理得到的詞性匯集,本文借鑒于TF-IDF的思想采用TF詞頻進行詞性統計排序,從而關注到評論中文本出現的次數越多用戶的關注點也是突出的。
5.整合產品缺陷進行優化。基于以上板塊的整理,本文認為評論中用戶的關注度和用戶情感,即產品特征詞性的頻率和文本內容,對可以衡量和發現產品及產品周邊現存在的問題程度,方便幫助設計師及產品市場的決策者進行更好地優化。
在上述模型中,評論文本的詞性分析和詞頻的排列是尋找產品優化點的核心。因此本文選擇從用戶評論中抓取用戶情感做以量化,用戶對詞性里某項的詞頻出現率越高就說明該指標可能是用戶更具關注的點,反之詞頻過低或者贊同率也很低可能說明該評論為惡意評論或者產品偶然事件,不具有本文研究的討論價值。
本次研究的用戶評論采集來源于京東購物網以及亞馬遜(美國)購物網。根據2020年新冠疫情期間的銷量和搜索量進行排名,數據排名首位的電子產品是空氣凈化器,因此選擇空氣凈化器進行銷量排名,得到產品包括小米空氣凈化器2S、飛利浦空氣凈化器AC4076/18、戴森空氣凈化器T05、米家新風機、華為空氣凈化器EP500、布魯雅爾303+凈化器、352 X83C凈化器、IAM 780F凈化器、美的空氣凈化器、IQ250凈化器以上共10款空氣凈化器產品,并進行抓取評論文本相關信息。截至2020年8月共采集到有效評論文本6653條,其中經過定義的好評有4829條,定義過的差評有1834條,以上將作為本文研究的實驗量化有效數據。
在得到的上述的6653條有效評論文本中,首先利用Python對數據文本進行讀取以方便進行之后的詞性區分。在文本處理中先除去本次研究無用詞。在數據文本中針對本次研究需求不需要停詞以及標點符號,所有還需要分離這些邊緣元素并把剩余元素連接起來形成一句話。針對詞性進行定義如“名詞”為“n”,“形容詞”為“a”等,在以上的步驟基礎上進行詞性的采集以及詞性的詞頻統計。(圖2)

圖2 詞性分析
在評論文本的詞性采集的基礎上主要統計了名詞和形容詞以及動詞的詞頻,見表1。由于算法針對部分文本詞性分析會有失誤或識別不出,一小部分的文本經過人工篩選。

表1 針對好評及差評的詞性詞頻提取
在差評領域的名詞及形容詞、動詞之間利用spss軟件進行詞頻排列挑選前五十的文本,再進行人工排除近義詞以及無用詞,最終得到9個指標文本,分別是客服售后、異味、營銷、噪音、外觀造型、性價比、風扇、活性炭、材料耗材。
通過上述的統計結果可以直觀看出9個產品問題指標在10個品牌機型里的表現,但由于每個產品的銷量、評論數以及差評數是不同的,所以還需要取得每個產品在不同指標的平均數經過同比例運算進行產品間的對比(見表3),從而發現每個產品所存在的問題以及產品間所擁有的聯系,最終結合spss平均值運算以及9個指標和10個產品型號進行了可視化對比,見圖3。

表2 九個指標在各品牌中的詞頻比例
從可視化圖表中可以看到每個產品在不同指標中的反饋,指標指數越高說明該產品方向可能存在更大的問題。對于小米空氣凈化器的反饋來看可以明顯發現產品質量上是相對穩定反應較少的,而售后和營銷是用戶不滿度最大的,這也就意味著小米在這方面如果想降低產品或者讓產品更完善的得到好評,就需要產品決策者從品牌策略入手,針對售后管理和營銷策劃進行適當的調整。飛利浦品牌的產品在性價比上遭受到很多不滿的評論,因此也連鎖到耗材指標里也得到了大量的不滿,再下代產品需要調整的也應該當考慮到注重產品材質的選擇搭配,以防止可能材料的高成本帶來的整體價格溢出的現象。戴森的整體產品反應相對不錯,但在噪音指標的評論數是對比品牌中最高的,緣由可能是該產品因為是環形風口,所以出風面積較窄,而該產品還有一個大功率模式因而會造成比較大的噪音。華為凈化器從對比圖來看反饋是相對穩定的,耗材指標略高于其他指標,也是說明在產品研發時要注意材料的選擇,具體文本反應多為材料太輕薄塑料感太強。布魯雅爾作為瑞典品牌在產品性能上有著出色的過濾效果,但其外觀因很龐大也遭受到一些用戶因不便帶來的不滿。美的有著自身強大且穩定的空氣系統研發,所以在產品效果看是不容置疑的,但在價格的反饋上不少用戶還是帶來了質疑,產品決策者也需要在品牌策略上做出調整以適應新的用戶環境。

圖3 產品在文本指標中的詞頻對比圖
本文研究針對如2020疫情期間的特殊時期線上產品調研,依靠網絡用戶評論的定量采集進行定性分析,以方便在該階段產品經理以及產品相關決策者對市場的把控,同時發現目前產品線的問題以及同行業競品之間的問題聯系。因此本文基于文本特征提取法以及Spss和Python工具構建了產品優化點提取分析模型進行試驗,其中模型包括評論數據的采集、評論文本的分離、文本的預處理、對文本處理后的詞性分析以及整合產品缺陷進行優化五大模塊,在實驗中得到的詞性以及詞頻分析與實際體驗情況基本相符,模型具有一定的可行有效性。