林璐

摘要:本文以京東六大品牌熱水器交易評論數據為研究基礎,利用文本數據挖掘技術從文本預處理、詞頻統計、情感分析等幾個方面進行了分析,并分析各品牌間的差異,最后給商家提出建議,為電子商務的后期研究打下基礎。
關鍵詞 :文本數據;詞頻統計;詞云;個性化需求;贊點;抱怨點;反饋
中圖分類號:TP311? ? 文獻標識碼:A
文章編號:1009-3044(2019)17-0303-02
開放科學(資源服務)標識碼(OSID):
1 概述
近些年來,中國乃至全球的電子商務市場規模都在不斷發展壯大!網民在電商平臺上瀏覽、購買商品以及收到商品后的反饋評論構成了眾多學者在電子商務市場下研究消費者市場的重要信息。本文主要研究如何從海量的碎片化、非結構化的文本數據中提取出有價值的信息。考慮到各大電商平臺的差異性,本文以京東的六大熱水器品牌(AO史密斯、海爾、美的、萬家樂、萬和和格蘭仕)為研究對象,通過對京東電商數據中文本數據的收集、數據整合的“多維度的特征”,提出文本挖掘在電商平臺分析方法,最終得到關鍵的決策性支持信息,提升企業的競爭力方面的優勢。
2 研究過程與方法
本文總體研究流程如圖1所示,具體步驟為:
1)樣本數據的抽取。本文數據來源為京東平臺上六大品牌不同型號間顧客對于熱水器的評論數據,不同品牌的不同型號之間熱水器的容量數據;
2)樣本數據的預處理。數據預處理包括處理水軍和隨意發表的評論數據,處理無關的評論,去除標點符號、多余空白,去除停詞;
3)分詞、詞性標注。本文采用了中國科學院計算技術研究所開發研制的漢語分詞系統ICTCLAS對產品評論進行分詞和詞性的標注;
4)統計詞頻、畫詞云;
5)總結用戶的個性化需求。使用R軟件分別對六大品牌型評論數據進行詞頻統計,同時通過京東網站查詢各型號的參數放入表格型號對應屬性一列進行分析;
6)總結客戶的抱怨點和贊點。通過畫出詞云(R語言)和二元詞組的詞頻和轉移概率(NLPIR大數據搜索與挖掘平臺軟件)分析用戶的贊點和抱怨點。
3 結果分析
對京東六大品牌熱水器個性化需求和用戶贊點、抱怨點的分析結果表明,美的與海爾這兩大暢銷品牌最受歡迎的,銷量占據總銷量的百分之六七十;在六大品牌的容量需求上,40升、50升銷量最高的;而在控制方式上,機械控制和電腦控制是主要選擇;在加熱方式上,雙管加熱、半膽整膽加熱是選擇熱水器的主要因素;售后服務特別是熱水器的安裝是客戶主要關心和反饋的問題;另外,價格、加熱速度、保溫性這些也是客戶反饋的重點。
本文的分析基于六大品牌的,主要是想挖掘出各品牌間的差異。分析結果表明,海爾、美的與其他各品牌間的最大差異是增加3D動態加熱和高溫抑菌,同時控制方式的選擇也更加多樣化,安裝等售后服務比較到位;萬家樂、萬和、格蘭仕加熱方式均為單管加熱,這無法滿足現在客戶對于加熱快的需求;AO、美的、萬家樂、格蘭仕四大品牌均有客戶反應安裝費用高;美的、萬和、格蘭仕的售后服務有待改進。
4 結論
通過文本挖掘,本文總結京東六大品牌的賣點和不足點。建議AO、萬家樂、萬和、格蘭仕四大品牌商家研究更加快速的加熱方式,特別是后三大品牌均為單管加熱,加熱方式比較落后。AO、美的、萬家樂、格蘭仕四大品牌應該提高售后服務質量,合理收取安裝費用。
參考文獻:
[1] 佘珍芝.中文網絡產品評論的情感分析關鍵技術研究[Z]. 杭州電子科技大學,2011.
[2] 張倩.用于網絡評論文本挖掘的主題模型研究[D].北京交通大學,2014.
[3] 唐守忠.文本挖掘關鍵技術研究[D].北京林業大學,2013.
[4] 劉濤.中文評論文本情感分析研究[D].安徽大學,2014.
[5] Das SR,Chen M.Yahoo! for Amazon:sentiment extraction from small talk on the web. Proc.of the 8~ (th) Asia Pacific Finance Association Annual Conf , 2001
【通聯編輯:聞翔軍】