周艷聰 白家文


【摘? 要】隨著電商行業的快速發展,商家在網絡購物平臺的競爭越來越激烈。購買者對購買商品作出評價,將同時為商家和其他購買者提供大量參考信息,然而從大量的評價中篩選有意義的信息是非常困難的。論文對京東商城某品牌熱水器的評論數據進行建模,對文本進行預處理、中文分詞、停用詞過濾,通過建立LDA主題模型,實現對文本評論數據的傾向性判斷,從而為商家和購買者提供有價值的信息。
【Abstract】With the rapid development of the e-commerce industry, the competition among merchants in online shopping platforms is increasingly fierce. Buyers' comments on purchased goods will provide merchants and other buyers with a lot of reference information. However, it is very difficult to filter meaningful information from a large number of comments. This paper modeled the comment data of a water heater of a brand in Jingdong Mall, preprocessed the text, segmented Chinese words and filtered stop words, and realized the bias judgment of the text comment data by establishing the LDA theme model, so as to provide valuable information for merchants and buyers.
【關鍵詞】用戶評論;預處理;中文分詞;LDA主題模型;情感分析
【Keywords】user comment; pretreatment; Chinese words segmentation; LDA theme model; emotion analysis
【中圖分類號】F724.6;TP391.1? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文獻標志碼】A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文章編號】1673-1069(2020)06-0130-02
1 引言
互聯網的快速發展,人類在網絡上的交互方式為大量網絡數據的產生提供了可能。隨著電商的發展,購買者通過淘寶、京東、亞馬遜等各種平臺購買商品,并對商品進行評論以表達對購物體驗及商品性能的滿意程度。對產品的評論數據進行情感分析,進而挖掘購買者對商品的情感傾向,為其他購買者提供參考,或挖掘出購買者對商品的關注程度和情感傾向,以便企業能更好地提升商品及服務質量。因此,高效、準確地對互聯網電商評論數據進行情感分析,對電商行業及購買者本身有很大的幫助。但如何高效合理地從海量評價文本數據中提取有價值的信息,一直是眾多學者研究的課題。
凌潔等對電商平臺在線評論分析進行了綜合研究,劉玉林等以情感傾向為基礎建立情感指數,從多方面對評論數據進行了多維度分析,景永霞等在評論分析中引入了LDA主題模型,并探討了其在課程評論中的應用,李明等在商品評論情感傾向性方面進行了分析研究。文獻分別在校園微博、汽車和電影評論等方面進行了研究分析。本文將綜合應用情感分析技術對某品牌熱水器評論數據進行情感分析,以為商家和購買者提供信息參考和相關支持。
2 評論數據處理
2.1 文本去重
本文采用京東商城某品牌空調產品評論數據。由于數據質量參差不齊,如重復或不知所云等。這些評論數據不僅不能提供價值,還會造成不必要的麻煩。因此,在對評論數據進行分析之前先要“文本去重”,把沒有價值的數據去掉。
某些電商平臺為了避免客戶長時間不進行評論,往往設置為超期后系統自動好評。顯然這些評論沒有任何分析價值,而且這些評論大量重復,必須去除。經過去重處理后,共得到55400條評論。使用value_counts函數統計重復的評論,可以得到重復評論文本的重復數量,數量最大的評論文本是系統默認評論。
2.2 文本分詞
在對評論文本進行分析之前,最重要的一步是對數據進行相應的分詞,分詞 是否準確,將會影響后面的工作質量。目前Python語言中的中文分析包“jieba”對評論文本進行分詞,效果較好,在業內應用較廣泛。本文利用其對自定義詞典進行分詞。
2.3 去除停用詞
在SEO中,為節省存儲空間和提高搜索效率,搜索引擎在索引頁面或處理搜索請求時會自動忽略某些字或詞,這些字或詞即被稱為Stop Words(停用詞)。在自然語言處理中,停用詞一般不攜帶有價值的信息,選擇去除掉。從圖1可以看出,經過停用詞過濾后,之前的“是”“的”等停用詞被去掉了,而且可以達到不錯的去除效果。
2.4 特征提取
在文本處理中,特征選擇是關鍵步驟。一個好的特征選擇通常能夠達到滿意的分類效果。在特征提取中如果僅僅通過詞頻的方式來處理可能會得出錯誤的分析結果。但如果在實際操作中把所有的詞語都作為特征詞選項的話,則會導致特征空間的維度過大沒有實際意義。本文首先從特征全集中采用某評價標準綜合篩選出特征子集,同時對特征子集進行有效性驗證,以此完成特征提取工作。
2.5 情感詞典的構建
一個句子或是短語的情感傾向通常由句中的情感詞決定,一個好的情感詞典要能夠較好地囊括研究領域的情感詞,準確判斷出相關文本的情感傾向,因此,構建情感詞典是研究文本情感的基礎。本文將電商評論中的情感詞語作為特征項進行相關的提取工作,然后把形成的情感詞典導入分詞系統中形成自定義詞典,設置好相關的分詞詞典的優先選擇順序,大大提高了分詞結果的準確性。
3 基于情感分析的LDA模型主題分析
在機器學習和自然語言處理等領域,主題模型是一種在一系列文檔中發現抽象主題的統計模型。一篇文檔如果有多個主題,則這些特定的可代表不同主題的詞語會反復出現,此時,運用主題模型,能夠發現文本中使用詞語的規律,并且規律相似的文本聯系到一起,以尋求非結構化的文本集中的有用信息。LDA模型作為其中的一種主題模型,屬于無監督的生成式主題概率模型。
對本文數據進行主題分析,提取的高頻特征詞有:“不錯”“買”“好”“加熱”“便宜”“價格”“實惠”“熱水器”“好用”“保溫”。然后取得每個主題的特征詞并轉換為DataFrame格式,如表1所示。
由表1可以看出,主題一主要為熱水器售后服務安裝方面相關內容,主題二主要為熱水器的質量、價格、送貨相關方面,主題三主要為熱水器的安裝、加熱、保溫效果相關方面。綜上,主題特征詞的DataFrame格式非常清晰地展示了每個主題的關鍵點以及評論的情感傾向。而且,從表中可以看出,評論中關于“安裝”一詞的出現頻率較高,體現出顧客對于安裝這項售后服務的關心。而且師傅、安裝費等詞相對出現頻率較高,表明客戶對安裝師傅及其費用的關注度較高。關于產品性能“質量”“加熱”等詞,客戶的反應為“好”“加熱快”等正面評價。
基于客戶對產品的評論可以看出,客戶對商品的總體滿意度較高。商家售后服務的進一步改進可以從降低安裝費用、加快送貨速度等方面入手。商家的進一步發展策略可以定位為保障商品質量的前提下,進一步提高送貨速度,降低安裝費用,公開使用材料等,綜合提高售后服務水平,進一步獲得客戶的認可度,提高客戶粘性。
4 結論
本文針對京東商城某品牌熱水器的消費者文本評論數據進行建模,對評論文本進行進一步的預處理工作,完成了文本去重、中文分詞、停用詞過濾后、特征提取等工作,通過建立LDA主題模型的數據挖掘模型,實現了對文本評論數據的傾向性判斷以及關于主題的高頻特征詞提取,并且通過高頻詞的頻率分析,進一步提煉客戶情感,從而為商家今后發展策略和其他客戶購買產品提供進一步的建議。由于中文語言表達方式的多樣性、句式的復雜性、各種不同的習慣用語以及網絡用語的層出不窮,還需要增強對復雜評論的處理能力,這也是本文下一步的努力方向。
【參考文獻】
【1】凌潔,劉玉林.電商平臺在線評論分析研究綜述[J].江蘇經貿職業技術學院學報,2019(6):38-41.
【2】劉玉林,管利榮.基于文本情感分析的電商在線評論數據挖掘[J].統計與信息論壇,2018(12):119-124.
【3】景永霞,茍和平,劉強,等.基于主題模型的在線課程評論情感分析研究[J].蘭州文理學院學報(自然科學版),2020,34(1):54-56,64.
【4】李明,胡吉霞,侯琳娜,等.商品評論情感傾向性分析[J].計算機應用,2019,39(S2):15-19.