999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于情感分析的評論數據用戶滿意度影響因素研究

2017-08-25 19:58:22劉甲學陶易
現代情報 2017年7期
關鍵詞:影響因素

劉甲學+陶易

[摘要]通過對用戶的滿意度影響因素的分析,能夠幫助商家挖據用戶需求、提升用戶滿意度、從而提高商品銷量。本文使用商業智能軟件PowerBI對用戶評論文本進行數據挖掘,通過提取評論數據中的質量、物流、尺碼、價格、顏色等影響用戶滿意度影響的因素,利用情感分析法進行賦值,然后統計各影響因素的樣本得分,識別出價格和質量是最重要的影響因素。

[關鍵詞]評論數據;情感分析;用戶滿意度;影響因素

伴隨電子商務的蓬勃發展,電商網站下累積了大量用戶在線評論數據,通過對評論數據相關研究的解讀和分析,我們發現:評論數據是用戶表達真實需求和情感極性的重要途徑,故而可以挖掘出其隱藏的用戶偏好以及真實需求。姜巍等人創造性地將評論數據看作一種內容互連的網絡拓撲的形態,利用評論網絡節點的重要性來度量評論的有用性,該方法對用戶需求獲取能夠達到較高的準確率和覆蓋率。評論數據中的情感極性對商品銷量會產生一定程度地影響作用。如Sonnier,G.P.等人驗證了積極的評論數據、中性的評論數據、消極的評論數據都對銷量有著顯著影響作用。因此,通過對評論數據進行情感分析來挖掘用戶需求、提升用戶滿意度最終可以達到提高商品銷量的目的。本文將從用戶評論數據中提取如質量、顏色、服務等具有實體意義的影響因素指標,通過建設多維度數據集進行用戶滿意度影響因素研究。

1數據來源

本文對京東商城的用戶評論數據進行采集,使用網絡爬蟲軟件八爪魚對班尼路官方旗艦店男裝T恤(鏈接https://item.id.COB/1574267931.html)的用戶評論數據進行抓取,對每一條評論數據(如圖1所示)中方框內各字段進行抽取,抽取的字段分別是:用戶名、用戶級別、地區、用戶滿意度(星級好評)、評論文本、價格、商品信息、顏色、尺碼、評論時間、端口。將抽取的字段設置為自動導入數據庫中以備后續分析。

2數據的抽取、清理和加載

由于抽取到數據庫中的用戶名僅顯示首尾字符,中間字符是由星號鍵組成,故而容易出現不同用戶共享同一用戶名的情況或者同一用戶名在不同時期的評論被數據庫禁止讀入的情況發生,因此需要將序號代替用戶名作為表格中的主鍵進行分析以避免數據庫讀取數據失敗的情況發生。截止至2017年3月19日共抓取到7000條評論數據,故而形成一張樣本容量為7000條數據的評論數據總表(如表1所示)。數據庫可實現在線實時更新,抓取的網頁數據會自動加載到數據庫中的評論數據總表中,為減少數據冗余,需要對數據進行清理,減少垃圾數據的讀取。從競爭情報角度考慮,如果用戶名、用戶級別、地區三者完全一致的用戶可被視為同一用戶,因此可以設置聯合主鍵的方式作為同一用戶的判斷條件,如果數據庫中顯示較為接近的時間段內由大批用戶級別較低的評論涌入,則默認為是水軍;如果同一用戶在較為接近的時間段發表多條評論數據,則默認為是重復評論,只保留該用戶的第一條評論;前者的評論數據置信度較低,后者評論數據產生冗余,為保證研究結果的準確可靠性,應將這兩類的評論數據予以清除。

3用戶滿意度的影響因素指標

本文在數據庫存儲設計時創建多維數據集,從評論用戶本身出發,設計以地區、端口(上網設備)、用戶級別三個影響指標;從商品屬性出發,由表征商品特征屬性的特征詞質量、物流、尺碼、價格、顏色五個影響指標,如圖1所示。本文試圖從不同維度對用戶滿意度進行分析,商業智能軟件Power BI能夠實現對多維數據集進行數據處理,通過對用戶滿意度與影響指標間的各項數據進行自動化分析,尋找出用戶滿意度的關鍵影響因素。地區、端口、用戶級別三項指標都能較易地由字符串數據轉化為數值型數據;再利用情感分析法將評論文本中的字符型數據轉化為語義識別后的數值型數據,從而作為用戶滿意度影響指標中的可分析處理的自變量,從而被商業智能軟件識別和分析。

4評論文本的情感分析

4.1通過分詞提取特征詞

提取評論文本中特征詞的方法中,Li,F等人采用句法結構樹Skip-Tree CRFs提取評價特征詞進行情感極性分析。Li,C.w等人利用了情報學專業中常見的逆文本頻率指數(IDF)方法,對關鍵詞權重進行排序后提取重要特征詞并進行情感極性分析。這些方法效率雖高,但是忽略了評論文本中特征詞的同義詞產生的誤差,從而影響研究結果的可靠度。本文采用半自動化提取的方式,設定特征詞同義詞表以提高整個研究的準確度。具體方法是:特征值顯著的特點是詞性為名詞,因此本文通過對評論文本進行分詞并統計詞性為名詞的高頻特征詞即可得到用戶滿意度影響因素指標。分詞軟件采用PHP簡易中文分詞(SCWS)第四版,將7000條評論文本分詞為詞語\詞性(如質量\n)統計匯總后得到的高頻特征詞為以下幾類:質量、物流、尺碼、價格、顏色、活動、品牌、服務等;本文僅選取排名靠前的五項指標進行詳細分析,即將質量、物流、尺碼、價格、顏色作為用戶滿意度的影響因素指標進行后續分析。對出現特征詞的同義詞進行歸類形成一特征詞同義詞表,如表2所示。特征詞同義詞表的作用是避免重復提取特征詞以提高檢索效率。如評論“顏色很好看,色彩很美,價格便宜”,其中“顏色”和“色彩”都屬于顏色類特征詞,數據庫在提取同類型特征詞時設置為僅提取首次出現的特征詞,因此提取結果為特征詞“顏色”、“價格”,將提取結果導人數據庫一抽取詞表表格中,然后該條評論結束讀取跳轉至下一條評論。

4.2情感詞的定位及提取

相關學者將情感分析分為:有監督方法,如Ali,F采用機器學習的方法使用基于支持向量機(SVM)和改進版的模糊領域本體(FDO)方法進行情感極性判斷;無監督方法,如李欣等人采用無監督方法通過多重聚類算法進行情感極性判斷;f情感詞典方法,如馬松岳等人使用ROST EA情感詞典工具進行情感分析。特征詞顯著的標志是詞性為名詞,而情感詞則由多種詞性組成,常見的是由副詞和形容詞組成,本文中采用以對評論文本分詞后確定的特征詞位置為基準,在特征詞附近創建字符區間作為情感詞定位區間,例如“挺好,穿了一天,性價比挺高的?!狈衷~結果為“挺/v好/a穿/v了/v一/m天/n性價比/n挺/v高/a的/ui”。能夠定位到特征詞為“性價比”,屬于“價格”類,情感詞的取值范圍為“一/m天/n、挺/v高/a”,接下來需要通過數據庫的一情感詞表與一抽取詞表進行關聯匹配出情感詞并賦值得分。

猜你喜歡
影響因素
房地產經濟波動的影響因素及對策
零售銀行如何贏得客戶忠誠度
醫保政策對醫療服務價格影響因素的探討
東林煤礦保護層開采瓦斯抽采影響因素分析
影響農村婦女政治參與的因素分析
高新技術企業創新績效影響因素的探索與研究
水驅油效率影響因素研究進展
突發事件下應急物資保障能力影響因素研究
中國市場(2016年36期)2016-10-19 03:54:01
環衛工人生存狀況的調查分析
中國市場(2016年35期)2016-10-19 02:30:10
農業生產性服務業需求影響因素分析
商(2016年27期)2016-10-17 07:09:07
主站蜘蛛池模板: 国产女人爽到高潮的免费视频 | 无码在线激情片| 制服丝袜亚洲| 爱色欧美亚洲综合图区| 亚洲色婷婷一区二区| 99热这里只有成人精品国产| аv天堂最新中文在线| 国产高清无码第一十页在线观看| 国产在线观看成人91| 国产黄色视频综合| 色婷婷视频在线| 国产亚洲精品在天天在线麻豆| 91系列在线观看| 无码精品福利一区二区三区| 国产精品久久久久久久久久久久| 亚洲人成高清| 国产第八页| AV天堂资源福利在线观看| 国产日韩欧美一区二区三区在线 | 日本精品视频| 国产精品视频3p| 麻豆精品在线播放| 欧美亚洲中文精品三区| 国产成人艳妇AA视频在线| 无码精品国产dvd在线观看9久| 国产99视频精品免费视频7| 欧美v在线| 性网站在线观看| 91精品啪在线观看国产60岁| 波多野结衣久久高清免费| 国产在线视频导航| 国产a v无码专区亚洲av| 国产成人高精品免费视频| 欧美一级高清视频在线播放| 一级全黄毛片| 亚洲区欧美区| 久久久黄色片| 成人日韩视频| 97国产精品视频自在拍| 亚洲小视频网站| 国产天天色| 精品撒尿视频一区二区三区| 久久人搡人人玩人妻精品一| 国产精品三级专区| 成人噜噜噜视频在线观看| 欧美三级日韩三级| 国产自在自线午夜精品视频| 欧美黄色网站在线看| 无码一区中文字幕| 久久精品电影| 婷婷六月综合网| 亚洲欧美自拍视频| 丁香婷婷在线视频| 中文字幕第1页在线播| 四虎成人精品在永久免费| 萌白酱国产一区二区| 欧美成人区| 国产真实乱子伦精品视手机观看 | 一级毛片在线免费看| 青青热久免费精品视频6| 亚洲一区网站| 国产成人8x视频一区二区| 国产成人精品亚洲77美色| 国产va欧美va在线观看| 成人午夜亚洲影视在线观看| 成人综合网址| 亚洲精品无码久久久久苍井空| 日本欧美中文字幕精品亚洲| 国产成人精品男人的天堂| 亚洲欧美天堂网| 色播五月婷婷| 在线观看亚洲成人| 国产成人综合日韩精品无码不卡| 欧美日韩精品综合在线一区| 91啦中文字幕| 国产精品短篇二区| 国产特级毛片aaaaaa| 亚洲人成影视在线观看| 国产白浆在线| 欧美三级不卡在线观看视频| 五月婷婷丁香综合| 国产亚洲欧美日韩在线一区二区三区|