■藺秀媛 許柏鳴(通訊作者) 南京林業大學家居與工業設計學院
隨著互聯網的蓬勃發展,電商購物給人們的消費帶來了極大便利,網購評論文本也成了反映消費者滿意度的重要評價依據。但消費者網購評論這一重要市場反饋信息很少被家具企業系統地、有條理地拿來作為消費者滿意度的評價依據,家具企業更多的還是采用電話回訪或入戶調研等方式進行滿意度評估,這些傳統方式耗時耗力且回收的有效信息少,不能夠及時、有效地獲取到最新的消費者滿意度意見。
因此,本文通過文本挖掘相關方法和手段對家具網購評論進行文本信息中滿意度特征的抽提和研究,能夠有效幫助家具行業、企業快速精準地獲取消費者滿意度關注點,從而幫助企業打造品牌核心競爭力,對促進家具行業、企業在消費者滿意度方面的發展有較大的現實意義。
文本挖掘是綜合性較強的學術領域,它借助計算機技術從半結構化或非結構化文本信息中獲取潛在或有價值的信息,從中提取出結構化的文本信息進行研究。文本挖掘基于統計學、數學、機器學習和模式識別等技術,將文本數據進行高度自動化分析,具備廣闊應用場景。目前,文本挖掘挖已應用于電子通信、法律稅務、客戶服務和社交媒體等專業領域。
本文根據網購評論文本特點,得出適用于本文的文本挖掘流程,主要包括以下四個步驟:(1) 文本數據采集,獲取網購評論文本數據并儲存。(2) 數據預處理,通過數據清洗、中文分詞、去除停用詞等操作,將不符合要求的數據進行剔除。(3) 文本分析,利用TF-IDF 算法、共現語義網絡等技術,通過詞頻統計、建立共詞矩陣等方法,挖掘出評論文本中隱含的文本特征。(4) 結果可視化,利用詞云圖、共現語義網絡圖將文本挖掘結果可視化,更直觀展示研究結果。
文本數據來源于電商主流購物網站,選擇實木床品類中銷量前30 名的產品作為評論文本數據的研究對象,采集內容包括評論的具體內容、追評內容、評論時間及評價類型,總計爬取評論42794 條。
該部分主要包括數據清洗、中文分詞、去除停用詞三部分操作。數據清洗主要進行空值、重復數據和無價值數據的剔除,以提高數據可使用價值。中文分詞選用Jieba 分詞進行中文分詞處理。去停用詞部分結合哈爾濱工業大學停用詞表和百度停用詞表等常用停用詞表,根據實木床產品消費者評論文本實際情況,加入部分家具領域停用詞,得到適用于本研究的停用詞表。通過上述操作,為后續消費者滿意度文本特征分析奠定數據基礎。
詞頻-逆向文件頻率(TF-IDF)算法是目前關鍵詞抽取中使用最多的方法之一,該算法能夠對常用且沒有意義的高頻詞進行有效規避,目前被眾多學者在文本處理研究中加以應用。TF-IDF 公式如式下:
其中,TF表示詞頻,IDF是逆文檔頻率,j為具體節點,i為特征。本研究根據TF-IDF 計算結果,提取出實木床產品排名前30 名的特征詞,特征詞排名及頻次如表1 所示。

表1 實木床網購評論特征詞頻次
運用TF-IDF 算法提取的關鍵特征詞前30 名中,大多關鍵詞都對應實木床產品的某一特征或消費者的購買體驗,準確率較高。高頻詞主要突出了實木床產品質量、做工、外觀設計、材質、氣味等方面,這些方面是網購用戶最為在意的。為了更加直觀方便地了解消費者評論中關于實木床產品討論的焦點,本文利用Python 中的WordCloud 進行關鍵詞數據的可視化,在詞云圖中顯示權重為前200 的特征詞,可視化效果如圖1 所示。

圖1 可視化效果
詞云圖可以對消費者網購評論文本中出現頻率較高的特征詞予以視覺化展現,更加直觀清晰地突出了消費者關注的焦點特征,其中詞頻越高權重越大的詞字號越大。
共詞語義網絡分析能統計出一對詞語在文本中同時出現的頻率,可用于挖掘文本特征之間的關聯關系,揭示文本信息內容的關聯和特征項所隱含的意義,若一起出現的頻率越高,則這對詞語之間的聯系越緊密。本文使用ROST CM6 軟件探究消費者在實木床評論中高頻特征詞之間的關聯,共詞矩陣如表2 所示,共現語義網絡如圖2所示。

圖2 實木床在線評論共現語義網絡

表2 實木床在線評論共詞矩陣
從共詞矩陣和共現語義網絡中可以看出,質量、服務、做工、物流、態度、款式、材質等高頻特征詞之間具有較強的關聯關系。共詞矩陣中,消費者重點關注的特征詞互相之間共現次數很高,如“質量”與“滿意”達到了3508 次共現,“質量”與“服務”達到了2494 次共現。共現語義網絡中,“質量”“外觀”“物流”“做工”“氣味”“服務”等核心特征詞作為網絡的結點,通過與其他特征詞結點的溝通和共現次數構成相互間的語義關系,形成一個彼此相互聯系的網絡,從而體現出網購消費者購買實木床產品過程中的焦點,是企業需要重點關注的內容,具體分析如下。
(1) 以“質量”為節點:與“質量”關聯的詞最多,有“滿意”“值得”“結實”“服務”“物流”等詞語,由此可見消費者對質量最為看重,除了產品本身質量,對服務質量、物流質量等也較為關注。
(2) 以“做工”為節點:與“做工”關聯的詞有“結實”“精細”“水平”“質量”等,說明消費者對實木床做工的耐用性、精細度、質量等方面較為注重。
(3) 以“服務”為節點:與“服務”關聯的詞有“態度”“耐心”“購買”“安裝”等,說明消費者在網購從購買到安裝的全流程中都很注重服務相關的內容,并且尤為關注服務態度。
本文以實木床消費者網購評論文本數據為研究對象,從滿意度文本詞頻特征和特征關聯兩部分進行了實木床消費者滿意度分析及可視化呈現。研究發現,消費者關注的重點主要圍繞質量、做工、外觀設計、材質、氣味等方面,并且互相之間存在關聯關系。相比于傳統的電話回訪、入戶調研等滿意度評估方式,文本挖掘的方式既節約調研成本和時間成本,又具備數據新穎、及時、真實等特點。因此,合理高效地運用網購評論數據,從中挖掘消費者關注的重點,是今后家具領域消費者滿意度研究的方向,本研究以期能為今后家具行業、家具企業在消費者滿意度研究方面提供分析思路。