999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于某電商平臺評論數據的文本挖掘分析

2017-09-05 02:47:13閆洲
智富時代 2017年7期
關鍵詞:文本情感分析

閆洲

【摘 要】本文是對抓取到的6131條某電商平臺上的某品牌面膜的消費者評論數據做文本挖掘分析。第一步是對抓取到的評論數據進行基本的數據預處理、中文分詞;接下來通過建立語義網絡和LDA主題模型等數據挖掘模型,實現對文本評論數據的情感傾向性分析以及對其所隱藏信息的挖掘分析,得到有價值的潛在內容;最后提出相應的可行性的建議。

【關鍵詞】文本挖掘;電商平臺

一、引言

隨著中國互聯網經濟的發展,在“互聯網+”的背景下,電子商務得到了快速發展,網上購物在中國越來越流行。人們在工作和生活之余對于網上購物的需求變得越來越多樣化,這樣的發展狀況給天貓、京東等電商平臺帶來了很好的發展機遇,但是與此同時,多樣化的需求也推動了更多電商平臺的崛起,引發了更為激烈的競爭。在電商平臺這樣激烈競爭的大背景下,除了提高商品的質量、壓低商品的價格和合適的營銷手段外,了解更多消費者的心聲、發現商品痛點對于電商平臺來說也變得越來越有必要。而這其中最為有效的方式就是利用消費者的文本評論數據,進行潛在信息的一種數據挖掘分析工作,這對于電商平臺以及產品都會有很大的意義。

二、研究目的與方法

本文選取了某電商平臺上的某品牌面膜作為研究對象,抓取了2017年1月至2017年6月6個月共計6131條消費者評論數據做文本挖掘分析。預期得到的目標如下:(1)分析產品評論的用戶情感傾向;(2)從評論文本數據中挖掘出該品牌的優點與不足。

本文的研究主要分為以下3個步驟:(1)對抓取的數據進行基本的操作處理,包括數據預處理、中文分詞等操作;(2)文本評論數據經過處理后,運用多種手段對評論數據進行多方面的分析;(3)從對應結果的分析中獲取文本評論數據中有價值的內容。

三、研究過程

(一)評論預處理

文本評論數據里面存在大量價值含量很低甚至沒有價值含量的條目,如果將這些無價值的數據也進行分詞、詞頻統計甚至情感分析,會對分析造成很大的影響,得到的分析結果也會存在問題。那么在利用這些文本評論數據之前就必須先進行文本預處理,把大量的諸如此類的無價值含量的評論數據去除。

對這些文本評論數據的預處理主要由三個部分組成:文本去重、機械壓縮去詞以及短句刪除。

1.文本去重

本文采用一些相對簡單的文本去重思路。由于相近的評論語句存在了不少是有用的評論,去除掉這類語句當然是不合適的。那么為了保存足夠多的有用語料,就只能針對于完全重復的語句進行處理。因此,處理這樣的完全重復的語句,直接采用最方便的比較刪除法,即兩兩對比,如果完全相同就去除的方法。

2.機械壓縮去詞

機械壓縮去詞實際上要處理的語句就是評論語句中有連續累贅重復的部分,從一般的評論偏好角度來講,一般人制造無意義的連續重復只會在開頭和結果進行,如“為什么為什么為什么快遞這么慢?!”和“效果很好很好很好”。因此我們只對評論文本開頭和結尾的連續重復進行機械壓縮去詞的處理。

連續累贅重復的判斷可通過建立兩個存放國際字符的列表來完成,先放第一個列表,再放第二個列表,一個個讀取國際字符,并按照不同情況,將其放入第一或第二個列表或觸發壓縮判斷,若得出重復(及列表1與列表2有意義的部分完全一對一相同)則壓縮去除,這樣當然就要有相關的放置判斷及壓縮規則。在機械壓縮去詞處理的連續累贅重復的判斷及壓縮規則設定的時候,必然要考慮到詞法結構的問題。

3.短句刪除

完成機械壓縮去詞的操作后,需要進行短句刪除。雖然精簡的敘述在一些時候是一種很良好的習慣,但是由語言的特點可知,從根本上說,字數越少其所能夠表達出的意義就會越少。想表達特定的意思就需要有相應數量的字數,太少的字數的評論語句必然是沒有意義的評論。比如三個字,就只能表達諸如“質量差”、“很不錯”等等。基于以上原因,我們需要刪除掉這些過短且沒有意義的文本評論。

顯然,短句刪除中最重要的環節就是保留評論的字數下限的確定。因為這個操作沒有明確的固定標準,只能結合實際語句來確定。一般6到10個國際字符是較為合理的下限,本文我們設定下限為7個國際字符,即經過機械壓縮去詞之后得到的語句若小于等于6個國際字符,則將該語句刪除。

(二)文本評論分詞

在中文語句中,通過分界符只能對字、句和段落進行簡單的劃分,而對于“詞”或者說“詞組”來講,它們之間的邊界非常模糊,沒有一個真正嚴格意義上的分界符,不容易劃分。所以,在對文本評論數據進行挖掘分析時,要對這些文本數據進行分詞,將連續的字序列按照一定的規范重新排列組合成一個詞序列。

三、模型構建分析

(一)情感傾向性分析

為了分析消費者對一件產品的總體情感傾向,我們可以對該商品的評論數據集做情感傾向分析,以此得到對商品的總體印象。本文是基于詞向量和深度學習方法對評論數據集做情感傾向性分析。

評論集子集的標注與映射。利用詞向量構建的結果,我們進行評論集子集的人工標注,正面評論標為1,負面評論標記為2。然后我們將每條評論映射為一個向量,將分詞后評論中的所有詞語對應的詞向量相加做平均,使得一條評論對應一個向量。由于數據量過大,純人工標注需要耗費大量時間,所以這里我們仍然使用ROSTCM6軟件情感分析的功能進行評論數據集的正負面標注。

(二)基于語義網絡的評論分析

使用語義網絡對評論進行進一步的分析,通過語言關系構建有利于濾取產品的獨有優勢、各產品抱怨點以及顧客購買原因等,并結合以上分析對品牌產品的改進提出建議。要進行語義網絡分析,首先我們要分別對兩大組重新進行分詞處理,并提取出高頻詞。因為只有高頻詞之間的語義聯系才是真正有意義的,個性化詞語間關系不具代表性。然后在此基礎上過濾掉顯著的無意義的成分,減少分析干擾。最后再抽取行特征,處理完后便可進行兩組的語義網絡的構建。endprint

(三)基于LDA模型的主題分析

基于語義網絡的評論分析進行初步數據感知后,我們從統計學的角度,對主題的特征詞出現頻率進行量化表示。本文使用機器標注來將文本分為正面和負面評論數據,仍然采用ROSTCM6中的情感分析做機器分類,生成“正面情感結果”、“負面情感結果”和“中性情感結果”,我們不處理“中性情感結果”,直接對“正面情感結果”和“負面情感結果”數據進行LDA主題分析。

由ROSTCM6進行情感分析得到的數據還包含每條評論的評分前綴,因此,我們需要刪除前綴評分。由于文本數據是用unicode進行編碼,在處理前,需要另存為UTF-8編碼再進行前綴評分刪除。刪除評分前綴后,要進行文本分詞。在經過LDA主題分析后,評論被分為三個主題,每個主題下生成10個最有可能出現的詞語,下表表示了正面評論文本的潛在主題和負面評論文本的潛在主題。

根據正面評價潛在主題的特征詞提取結果,主題1中的高頻特征詞,即很好,送貨、快、就是、好、包裝、速度等,主要反映了該電商平臺送貨快、服務非常好;主題2中的高頻特征詞主要反映了產品的效果,是正品;主題3中的高頻特征詞主要是產品是否劃算、是否值得購買。

根據負面評價潛在主題的特征詞提取結果,主題1中的高頻特征詞,即物流,假貨、真假、服務、不好、包裝、售后等,主要反映了產品包裝不好、客服售后態度不好;主題2中的高頻特征詞主要反映了產品的使用效果不好;主題3中的高頻特征詞主要是產品是否為正品。

四、結論

綜合以上的分析可以看出,該品牌面膜的優勢集中在:效果好、價格實惠;該電商平臺的優勢集中在:服務好、快遞效率高。而用戶抱怨的集中點主要是個別使用效果不好、客服態度以及售后服務上。為此我們提出以下建議:

(一)由于該電商平臺物流的特殊性,在一二線城市的分布比較完整,覆蓋面廣,但是在三線城市以下,尤其是鄉鎮城市,商品配送的效率還有待提高。同時在物流運輸環節,也要注意保存商品的完整性。

(二)提高客服及售后服務的規范性,客服的服務態度和商品售后服務的保障是影響消費者評價的重要因素。

【參考文獻】

[1]阮光冊.基于文本挖掘的網絡新聞報道差異分析[J].情報科學,2012,30(1):105-109.

[2]陳江濤,張金隆,張亞軍.在線商品評論有用性影響因素研究:基于文本語義視角[J].圖書情報工作,2012,56(10):119-123.

[3]張志飛,苗奪謙,張亞軍.基于LDA主題模型的短文本分類方法[J].計算機應用,2013,33(6):1587-1590.

[4]閆強,孟躍.在線評論的感知有用性影響因素——基于在線影評的實證研[J].中國管理科學,2013,21(S1):126-131.endprint

猜你喜歡
文本情感分析
隱蔽失效適航要求符合性驗證分析
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
電力系統及其自動化發展趨勢分析
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 一本大道无码高清| 一级看片免费视频| 亚洲一区二区三区香蕉| 欧美自拍另类欧美综合图区| 午夜福利视频一区| 欧美精品H在线播放| 欧美一区二区福利视频| 欧美一级专区免费大片| 一本综合久久| 全裸无码专区| 超清无码熟妇人妻AV在线绿巨人| 亚洲另类第一页| 九色免费视频| 伊人久久精品无码麻豆精品| 久久青草视频| 亚洲精品视频在线观看视频| 国产一级毛片yw| 国产亚洲精品97在线观看| 成人亚洲视频| 国产欧美在线观看一区| 国产人成午夜免费看| 亚洲a免费| 国产中文在线亚洲精品官网| 欧美日本在线| 噜噜噜综合亚洲| 日韩中文精品亚洲第三区| 国产在线高清一级毛片| 欧美日韩精品在线播放| 九九香蕉视频| 欧美亚洲网| 欧美在线黄| 乱人伦视频中文字幕在线| 国产免费福利网站| 九九免费观看全部免费视频| 漂亮人妻被中出中文字幕久久| 人妻精品久久久无码区色视| 久久女人网| 无码精品国产dvd在线观看9久| 亚洲欧美成人在线视频| 呦女精品网站| 国产97视频在线观看| 麻豆国产在线观看一区二区| 亚洲天堂视频网站| 天堂网国产| 国产丝袜无码精品| 粉嫩国产白浆在线观看| 国产成人福利在线视老湿机| 色网站在线视频| 波多野结衣久久精品| 国产中文一区a级毛片视频| 黄色网址免费在线| 中文字幕日韩欧美| 国产香蕉97碰碰视频VA碰碰看| 黄片一区二区三区| 国产乱肥老妇精品视频| 亚洲无码高清免费视频亚洲| 日韩性网站| 国产精品网址你懂的| 婷婷开心中文字幕| 日韩av电影一区二区三区四区| 成人午夜视频在线| 国产成人综合网在线观看| 一级一级一片免费| 91热爆在线| 日韩在线视频网站| 亚洲国产日韩欧美在线| 欧美亚洲国产精品第一页| 国产精品亚欧美一区二区| 九九视频在线免费观看| 18禁高潮出水呻吟娇喘蜜芽| 又粗又大又爽又紧免费视频| 国产一二三区视频| 国产在线八区| 久久精品丝袜| 在线观看91精品国产剧情免费| 免费人成又黄又爽的视频网站| 国产av一码二码三码无码| 亚洲国产成人麻豆精品| 欧洲亚洲欧美国产日本高清| 色天天综合| 无码丝袜人妻| 国产综合精品日本亚洲777|