黃余 黃欣彬
(宜賓職業(yè)技術(shù)學(xué)院 四川省宜賓市 644003)
根據(jù)CNNIC 數(shù)據(jù),截至2019年6月,中國網(wǎng)購用戶規(guī)模達6.4億(+12.3%),相對2018年底增長0.3 億;網(wǎng)民使用網(wǎng)購比例為74.8%,相對2018年底提升1.2 個百分點[1],電商已經(jīng)深刻融入人們生活。通過產(chǎn)品的電商渠道輿論分析,對優(yōu)化品牌服務(wù)和產(chǎn)品迭代,監(jiān)控用戶對品牌產(chǎn)品的認知和口碑情況;提升品牌的核心競爭力和改善自身不足,實現(xiàn)品牌戰(zhàn)略,是企業(yè)目前迫切需要。
自動分析大量用戶評論的文本內(nèi)容,輸出每條評論對應(yīng)的用戶情感類型[2]。通過對用戶對產(chǎn)品的看法和態(tài)度的識別是對品牌產(chǎn)品或服務(wù)進行情感的關(guān)鍵,其中包括對評價對象、評價觀點、評價的文本(品牌社群眾一般為短文本)[3]。對中文文本進行情感分析需要高質(zhì)量的情感詞典[4]。目前情感分析研究大部分是基于已經(jīng)編輯好的情感詞典或詞表判斷情感傾向,比較典型的是使用種子詞、領(lǐng)域詞和WordNet 擴展詞表進行匹配計算。在特定的情感基礎(chǔ)上,如何利用語義分析與評論情感打分模型對電商評論文本信息進行綜合分析,為商家提供有效的商品口碑信息,是我們一個重要的研究方向。
本文以電商京東網(wǎng)站上的華為兒童手表評論作為文本情感分析對象。使用Google 公司開發(fā)的高效提取網(wǎng)頁數(shù)據(jù)的Chrome 插件工具Web scraper 進行數(shù)據(jù)爬取。
從數(shù)據(jù)獲取結(jié)果中可以看出,爬蟲獲取的評論數(shù)據(jù)有內(nèi)容較為隨意,可能會直接影響后續(xù)分析的結(jié)果,因此還需要對評論數(shù)據(jù)進行預(yù)處理,獲得規(guī)范化的評論數(shù)據(jù)。
中文文本數(shù)據(jù)進行情感分析時,情感詞典是最重要的一個組成部分,通常情感詞典一般由積極情、消極、否定、程度副詞詞典四個部分組成。高質(zhì)量情感詞典能夠提升情感分析的準(zhǔn)確率,在構(gòu)建情感詞典時論文綜合使用了Hownet、NTUSD、清華大學(xué)李軍中文褒義、貶義詞典和BosonNLP,將四個情感詞典中的積極情緒詞和消極情緒詞分別放入兩個文檔中,然后進行操作。并根據(jù)判斷商品評論文本的分析需要構(gòu)造的否定詞詞典和程度副詞詞典最后,刪除情感詞典中的非文本詞。并分別將積極情緒詞典中的詞權(quán)重設(shè)為1,消極情緒詞典中的情緒詞權(quán)重設(shè)為-1;將否定詞詞典中的否詞權(quán)重設(shè)為1,副詞詞典中依據(jù)程度副詞語氣的強弱將其量化,將其劃分為5 個等級,為每個等級設(shè)定不同的權(quán)重。權(quán)重取值分別為{-0.5,0.5,1.5,2.5,3.5}。
由于在電商評論領(lǐng)域,評價用詞具有隨意性的特點,再加之網(wǎng)絡(luò)流行用語層出不窮,我們情感詞庫還需在進一步完善。本研究通過Word2vec 語詞聚類法從商品評論語料數(shù)據(jù)中抽取相關(guān)情感詞、評論詞,來完善商品評論的情感詞庫。如:比如用戶指定輸入“北京”,將顯示訓(xùn)練文本中與“北京”最接近的詞語以及它們之間的余弦距離,進而優(yōu)化了情感詞庫。
特征詞庫的構(gòu)建采用人工選擇和Word2vec聚類相結(jié)合的方法。第一步從品牌商品的說明書和品牌官網(wǎng)商品介紹頁中人工抽取商品領(lǐng)域特征詞,確定商品的顯式屬性;第二步:是根據(jù)已有的利用Word2vec 語詞聚類法從的用戶評論數(shù)據(jù)中尋找特征詞關(guān)聯(lián)詞匯,擴充完善產(chǎn)品特征詞庫。
如果能把特征與情感詞庫建立相應(yīng)的映射關(guān)系,使用產(chǎn)品特征和用戶情感相結(jié)合,對用戶對產(chǎn)品認知將會更客觀的效果。本研究將采用python 語言對評論語料集構(gòu)建特征-情感概念。具體操作步驟如下:
(1)先利用Python 中“Jieba”中文分詞第三方庫,對評論語料庫進行分詞處理。
(2)構(gòu)建如“定位”相關(guān)特征詞表。由于客戶通常在評論會對多個對象進行評價,如“外觀”“音質(zhì)”“售后”等。
(3)抽取特征-情感概念對,即特征詞+情感詞的組合詞組。(4)通過人工審查,篩選和確定特征-情感概念對。
表1 針對以上5 種情況,以Sen_score (vp)表示評價短語的情感分值;vp 表示評價觀點詞;sen 表示情感詞的原始情感值;deg表示程度副詞的權(quán)重,分別計算評論情感分值[5]。
結(jié)合語義關(guān)系計算、分詞和詞性標(biāo)注,從消費者評價數(shù)據(jù)中得到與屬性特征匹配的情感詞,從而提取評價數(shù)據(jù)中的屬性特征-情感詞對

表1:評論組合情形

表2:產(chǎn)品特征情感傾向統(tǒng)計

圖1:特征詞統(tǒng)計
提取模塊可根據(jù)詞頻統(tǒng)計結(jié)果,以確定得到商品的屬性權(quán)重。將單組屬性特征-情感詞對

則某一商品單個屬性特征的情感得分算法如下:

單個商品的情感得分如公式如下:

其中,m 表示單個商品所包含的屬性特征的個數(shù),n 為該屬性特征中出現(xiàn)的情感詞個數(shù),為每個情感詞前出現(xiàn)的程度副詞強烈級別,表示相應(yīng)程度副詞強烈級別所對應(yīng)的系數(shù)值,f 為該情感詞前含否定詞的個數(shù),μ 表示該情感詞的否定詞得分值,class1-class4 分別為劃分的四種程度副詞強烈級別,為屬性特征的權(quán)重系數(shù),i 為屬性特征編號,為第i 個屬性特征的第j 個情感詞的情感極性基礎(chǔ)得分,βil取值范圍為[-1,1],其中,正負分別對應(yīng)積極與消極情感。
若該情感詞前存在否定詞,統(tǒng)計全部否定詞出現(xiàn)的次數(shù),若為奇數(shù)則在該情感詞的情感極性基礎(chǔ)得分前乘以-1。可將情感值的計算規(guī)則最終構(gòu)建為:轉(zhuǎn)換情感極性,鑒于雙重否定所占比重較大,本研究僅考慮雙重否定的情形,若出現(xiàn)兩次否定詞,則短語情感分值在上述分值的基礎(chǔ)上再乘以(-2),為。
本研究選取華為兒童手表,京東網(wǎng)站華為兒童手表銷量排名前三的單品為研究對象,通過web scraper 爬取收集顧客購買后的在線評價,篩選2020年1-9月份中線評論進入分析環(huán)節(jié)。按產(chǎn)品特征詞分別獲得的其正面、負面和中性評價評價數(shù)量,及正面評論所占的比例。
根據(jù)表2 產(chǎn)品特征的正面評價占比可知,華為兒童手表“操作難易“性價比”“精準(zhǔn)定位”“靈敏度”等特征的口碑表現(xiàn)良好,好評率在 90% 左右,但是“售后”、“做工質(zhì)量”方面用戶的認可度較低,好評率低于70%。圖1 利用餅圖展示了華為兒童手表產(chǎn)品特征的評論占比。
電商用戶家庭每月在電商上的花費占家庭總支出的21.9%,電商購物已成家庭日常消費的重要一環(huán)。用戶購物之前,會習(xí)慣性的瀏覽商品描述與用戶評論,而評論內(nèi)容對用戶的購買行為有顯著的影響。正面口碑將有助于提高品牌知名度與消費者對產(chǎn)品的認可程度以及購買意向;而負面口碑則會損害品牌形象,使用戶流失。所以新的營銷時代,企業(yè)應(yīng)實時動態(tài)的對所屬品牌或服務(wù)網(wǎng)絡(luò)評論進行情感分析,隨時掌握品牌口碑變化,充分利用好口碑這個最廉價的廣告形式。并在負面口碑出現(xiàn)時,能及時做好有效的營銷應(yīng)對措施,加強風(fēng)險管理能力。