羅胤達


[摘 要]在電子商務營銷模式中,面對如今網絡上海量增長的數據量,僅靠人工閱讀來收集消費者的反饋變得越來越難以實現。文章將采用一種自動化的文本處理方法,自動處理海量的文本數據。以小米手機為例,文章將沒有進行人工標注好評與差評的原始評論文本經過中文分詞、關鍵詞提取和情感分析處理自動得出手機各個功能的消費者評分及匯總。讓電商企業可以快速了解所有消費者對產品每一個功能的總體評價,靈活、方便、快捷地了解到客戶的真實需求,從而及時調整后續產品和服務,制定合適的市場營銷策略,不斷提高企業的競爭力。
[關鍵詞]電子商務;產品評價;文本挖掘
[DOI]10.13939/j.cnki.zgsc.2020.36.166
1 引言
對于大數據時代下的電商企業來說,在線評論功能的產生,提供了及時的、透明的市場反饋渠道。并且該功能使用起來非常方便,不少消費者自發地對商品進行評論,發表自己在這次購物后喜悅或是憤怒的心情,有的企業甚至通過“評論返現金”的方式促使更多的消費者對其產品做出評價而獲得更多的反饋。有了在線評論功能的支持,商家解決了傳統銷售企業想要迅速獲得消費者反饋卻無從下手的困難,克服了使用問卷調查方法下時間跨度過大的缺陷。文章的研究成果可以幫助電商企業快速批量處理大量的評論數據,提升對顧客需求的反饋速度,為營銷決策提供參考依據。
2 文本挖掘步驟
文章研究所使用的數據由python爬蟲抓取天貓商城小米旗艦店新款mate 9手機的最新評論2135條。
2.1 中文分詞
中文分詞是進行文本挖掘的必要環節,如果不對得到的原始評論語句進行分詞,后續的特征詞提取將無法進行。中文分詞屬于自然語言處理技術范疇,主要目的是將一個連續的中文句子按照漢語語言的規則組合成分開的詞組的過程。分詞是中文文本挖掘中專屬的概念。除了中文分詞需要增加分詞的步驟外,漢語語言本身也是更為復雜的,在不同的語境下,相鄰的同樣幾個字可能組合成不同的詞語。本文在python語言環境下進行分詞操作,通過import命令調出jieba模塊。jieba模塊有一個自帶的詞典,里面基本包含了所有常用的或是生僻的詞語,但僅僅擁有自帶的詞典是不夠的。漢語不但語法復雜,語義多樣,還極具創造性,在各種領域里經常會有新的詞語出現,甚至某些評論會刻意去使用一些代稱,而該分詞工具則允許使用者調用自己建立的詞典來完善其詞庫。
2.2 關鍵詞提取
TF-IDF算法,是一種對純詞頻統計TF(term frequency)增加了一個抑制因子逆文檔頻率IDF(inverse document frequency)的加權算法。逆文檔頻率的引入,抑制了某一文本內無意義高頻詞的負面影響;如果一個詞語在大部分句子中都出現過,此時抑制因子就會給這個詞語乘上一個較低的權重。如果一個詞語僅在少部分句子中頻繁出現,此時抑制因子就會得到較高的權重。該算法不但對于那些對分類結果沒有幫助的、無意義高頻詞有著良好的區分度,還更傾向于保留文檔中較為特殊的詞語。TF-IDF本質上是一種試圖抑制噪聲的加權,且對于大部分文本是可行的。
文章使用爬蟲抓取到的同一組數據進行純詞頻統計與TF-IDF算法統計進行對比,如表1所示。
除了文章所研究的產品名字“小米”“手機”有很高的權重外,TF-IDF算法得出的其他關鍵詞相較于純詞頻統計得出的關鍵詞更符合于手機的某一特征。至此提取出了拍照、電池、效果、速度、運行、音質、客服作為關鍵詞,而這些手機特征也就作為最后一部情感分析的對象。
2.3 情感分析
文章所使用的情感分析方法是基于情感詞典進行的,是對人的思維的簡單模擬。由公式“情感單元得分=(-1)^(否定詞個數之和)×程度副詞權重×情感詞得分”實現。將句子看作“關鍵特征詞+情感詞+程度副詞”或者“關鍵特征詞+否定詞+情感詞+程度副詞”的組合?;谇楦性~典法無須訓練模型,主要依靠人工標注,沒有機器學習算法中略過語義、語法考慮的問題,更適合中文這樣復雜的語言體系。
文章所用的情感詞典集合了2019年1月24日上傳的清華大學李軍中文褒貶義詞典、知網Hownet情感詞典和臺灣大學NTUSD簡體中文情感詞典三種詞典的整合。將三種詞典中的積極情感詞、消極情感詞、否定詞和程度副詞分別復制到一個文檔中并進行去重操作,整合成為了文章所需要的情感詞詞典。將分詞后的文本帶入模型進行計算機情感打分,最后得出結果,比如表2所示。
將情感分析的結果按提取出的各個關鍵詞分別統計得分并匯總,最后得出手機各功能情感得分均值為:“客服=0.79”,“拍照=0.75”,“效果=0.74”,“速度=0.60”,“運行=0.53”,“音質=0.35”,“電池=0.28”。
通過計算機情感分析后發現:小米mate 9手機的售后服務與手機功能方面如“客服”“拍照”普遍受到用戶好評,而手機性能“電池”“音質”方面評價略低。電商企業可以根據本文的結果有針對性地改善后續的產品和服務。
3 結論與展望
文章使用的文本挖掘方法從海量的評論數據通過計算機自動計算匯總了消費者對小米手機各功能的總體評價,每一步均由計算機自動計算,相比于人工調查客戶反饋提升了效率,為企業節省了大量的人力、物力,讓企業對消費者的反應更加靈敏、精準,提升了電商企業的競爭力。
如果原始數據的獲取沒有限制,該方法完全可以應用于海量網購評論數據的挖掘。盡管計算機算法結果難以企及人類閱讀判斷的準確性,但如今的互聯網每時每刻都會產生大量數據,很顯然不可能由人來完成這樣的數據分析。文章所使用的模型的準確性很大程度上取決分詞精度與情感詞典的完整度,而這些都需要后人不斷地對詞典進行完善,中文自然語言的處理結果就可以越來越接近人類的判斷。
參考文獻:
[1] ALAN S, JIAO J, FAN W, et al.Whats buzzing in the billzard or buzz? automotive component is olation in social media postings[J].decision support systems,2013,12(23):873-876.
[2]PANG B,LEE L,VAITHYANATHAN S. Thumbs up? sentiment classification using machine learning techniques[J].proceedings of the conference on empirical methods in natural language processing.usa:stroudsburg, 2002:79-86.