999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT模型的餐飲電商在線評(píng)論情感挖掘

2020-03-18 01:17:38魏一丁
商場(chǎng)現(xiàn)代化 2020年1期

摘 要:以本地美團(tuán)網(wǎng)美食類(lèi)店鋪為例,爬取在線大量數(shù)據(jù),按目標(biāo)格式注入Google的BERT模型(Bidirectional Encoding Representations from Transformers.),并構(gòu)建研究對(duì)象所適用的數(shù)據(jù)模型,對(duì)潛在評(píng)論情感極性能夠準(zhǔn)確預(yù)測(cè),對(duì)正向情感評(píng)價(jià)最高可達(dá)98%準(zhǔn)確率,98%召回率,F(xiàn)1-Score最高達(dá)0.98。特別地也分析了其負(fù)向F1-Score的成因,并提出利用F1-Score構(gòu)建平臺(tái)分流與展現(xiàn)推廣付費(fèi)的思路。

關(guān)鍵詞:BERT;F1 score;情感極性;在線評(píng)論;預(yù)測(cè)模型

一、引言

“在線用戶評(píng)論”,作為運(yùn)營(yíng)數(shù)據(jù)來(lái)源的主要渠道,為電商運(yùn)營(yíng)決策和平臺(tái)分配流量提供了直接的依據(jù)。很多大型的電商平臺(tái)都設(shè)計(jì)了相應(yīng)的評(píng)論板塊,有的側(cè)重于追加評(píng)論,主要體現(xiàn)用戶的事后真實(shí)體驗(yàn)評(píng)價(jià),而有的側(cè)重于事中評(píng)價(jià)。情感極性一般分為正面、負(fù)面和中性。用戶通過(guò)分值與文本做出相應(yīng)的評(píng)論并不能反映出真實(shí)的情感極性。例如,“這頓餐看起來(lái)很不錯(cuò),大氣上檔次,但是貴了……”,到底用戶的情感是正面還是負(fù)面呢?很難做出有效判斷,這就需要對(duì)文本做出挖掘。用戶的情感極性對(duì)商品用戶推薦、平臺(tái)流量分配權(quán)重、商戶業(yè)務(wù)改進(jìn)至關(guān)重要。

二、文獻(xiàn)綜述

業(yè)界與學(xué)術(shù)界都對(duì)文本情感分析(NLP)做出了大量的探索實(shí)踐與理論積累,相關(guān)的情感分析研究方法有分別基于詞典、機(jī)器學(xué)習(xí)、詞典+機(jī)器學(xué)習(xí)、弱標(biāo)注、深度學(xué)習(xí)等方法。有文獻(xiàn)綜述提到,“Hamouda等提出建立一個(gè)包含表情符號(hào)的情感詞匯庫(kù)進(jìn)行情感識(shí)別;Pang等將機(jī)器學(xué)習(xí)算法用于情感分類(lèi)任務(wù);還有利用挖掘評(píng)論數(shù)據(jù)中反映情感語(yǔ)義的弱標(biāo)注信息,以及分別基于卷積神經(jīng)網(wǎng)絡(luò)的、長(zhǎng)短期記憶、深度信念網(wǎng)絡(luò)等分類(lèi)模型的深度學(xué)習(xí)”。隨著研究發(fā)現(xiàn),深度學(xué)習(xí)(神經(jīng)網(wǎng)絡(luò)模型)成為了主流方向,其最大特點(diǎn)是采用了詞向量的嵌入技術(shù)——Word2Vec方法,但是對(duì)同一句子中有情感極性矛盾,或同一個(gè)詞在不同位置導(dǎo)致歧義的多個(gè)情感詞則無(wú)能為力, 這時(shí)“多頭注意力機(jī)制(Multi-head Attention Mechanism)”的引入能夠很好地解決類(lèi)似問(wèn)題。Yin(2015)提出基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò),Wang(2016)提出結(jié)合注意力機(jī)制的LSTM網(wǎng)絡(luò),梁斌(2017)提出多注意力卷積神經(jīng)網(wǎng)絡(luò)MATT,但是缺乏對(duì)中文領(lǐng)域的分析。Devlin,Jacob(2018)等人提出了BERT模型,在tensor2tensor庫(kù)基礎(chǔ)上,利用MLM與NLP機(jī)制進(jìn)行雙向預(yù)訓(xùn)練,生成上游模型,在此模型上進(jìn)行下游的自定義任務(wù),能夠滿足中文和英文等文本挖掘,其性能指標(biāo)遠(yuǎn)勝OpenAI GPT和ELMo(兩種順序的LTSM),其在SQuAD測(cè)試中排名第一(Nov,2018)。劉玉林(2018)等通過(guò)建立電商食品領(lǐng)域級(jí)情感詞典,在算法上引入NLP中2元語(yǔ)法加強(qiáng)情感結(jié)果判斷,建立情感指數(shù),結(jié)合真實(shí)在線數(shù)據(jù)進(jìn)行實(shí)證,得出優(yōu)化方向,但是沒(méi)有展示其準(zhǔn)確率和F1分值。

本文將爬取雍和會(huì)在美團(tuán)網(wǎng)站在線評(píng)論數(shù)據(jù),注入BERT模型,構(gòu)建其店鋪的情感極性評(píng)價(jià)模型,并計(jì)算其準(zhǔn)確率和F1分值。該模型可以用來(lái)指導(dǎo)店鋪提升客戶滿意度,也可以幫助平臺(tái)分配流量和用戶推薦,具有現(xiàn)實(shí)意義。

三、研究方法

STEP1:爬取美團(tuán)網(wǎng)福州地區(qū)美食類(lèi)好評(píng)排名Top2的“雍和會(huì)海鮮姿造(三坊七巷店)”上萬(wàn)條評(píng)論數(shù)據(jù)。

STEP2:利用Pandas包清洗數(shù)據(jù)。

STEP3:將原始數(shù)據(jù)按比例拆分為訓(xùn)練數(shù)據(jù)集(10564條)、測(cè)試數(shù)據(jù)集(3302條)和驗(yàn)證數(shù)據(jù)集(2641條),并將打分等級(jí)劃分為兩種極性,超過(guò)閾值為1,否則為0;增加sentiment標(biāo)簽,刪除star標(biāo)簽。

STEP4:利用FastAI包初始化BERT模型(Chinese版本)。

STEP5:將上述訓(xùn)練數(shù)據(jù)集、測(cè)試數(shù)據(jù)集和驗(yàn)證數(shù)據(jù)集按需要裝入在DataFrame,DataBunch。數(shù)據(jù)會(huì)在前后加上標(biāo)簽【CLS】和【SEP】,用以區(qū)分句子,從而符合模型格式。

STEP6:利用Learner的lr_find()函數(shù),采用CrossEntropyLoss()交叉熵?fù)p失函數(shù)作為參數(shù),進(jìn)行“學(xué)習(xí)”,并畫(huà)出學(xué)習(xí)曲線,生成下游任務(wù)的最終模型。

STEP7:按照指定學(xué)習(xí)率,計(jì)算一周期,得出其相關(guān)準(zhǔn)確率與耗時(shí)。

STEP8:評(píng)估模型——預(yù)測(cè)相關(guān)文本,進(jìn)行指標(biāo)評(píng)價(jià),并展示【precision,recall,f1-score】和含混矩陣。

STEP9:設(shè)計(jì)對(duì)比實(shí)驗(yàn)組。

四、實(shí)證分析

1.數(shù)據(jù)來(lái)源

爬取“雍和會(huì)”美團(tuán)在線評(píng)論數(shù)據(jù),提取評(píng)價(jià)與打分等信息,并進(jìn)行清洗。清洗后的在線評(píng)論數(shù)據(jù)規(guī)模,從22336降至16507個(gè)數(shù)據(jù)。

2.清洗:sentiment是根據(jù)star分值經(jīng)過(guò)相應(yīng)條件轉(zhuǎn)化為0或1.條件:若star分值大于30為1,反則為0。這里正面評(píng)價(jià)1較多。

3.數(shù)據(jù)轉(zhuǎn)換為目標(biāo)格式

4.分類(lèi)報(bào)告

5.對(duì)比組

按照上述方法,隨機(jī)打開(kāi)美團(tuán)首頁(yè),選取福州地區(qū)美食類(lèi)綜合排名第4名(廣告位)“旺巴蜀小郡肝火鍋串串香(東二環(huán)泰禾店)”,其綜合分?jǐn)?shù)為3.7分,顯示評(píng)論數(shù)1600條,但實(shí)際爬去后顯示評(píng)價(jià)數(shù)5000多條,清洗后也有3500多條。再按選取福州地區(qū)綜合排名第12名“V-ONE|西雅圖海鮮自助輕姿造(王府井店)”,其綜合分?jǐn)?shù)為4分,顯示評(píng)論數(shù)1888條,清洗后也有1000多條。爬取數(shù)據(jù)、清洗、建模、評(píng)估,相同條件下(30分為閾值,學(xué)習(xí)率為2e-5)進(jìn)行挖掘。

五、結(jié)論與建議

通過(guò)實(shí)驗(yàn)發(fā)現(xiàn):BERT模型能夠較準(zhǔn)確地區(qū)分正負(fù)面情感極性,這個(gè)案例中,其店鋪排名第2名,F(xiàn)1-score可平均達(dá)到0.77,這個(gè)數(shù)值并不太出色,但如果只觀測(cè)正面情感評(píng)價(jià),F(xiàn)1-score可最高達(dá)到0.98,這是由于選取當(dāng)?shù)睾迷u(píng)率最高的美食類(lèi)店鋪,造成數(shù)據(jù)偏向正向情感,而負(fù)向情感偏向較少。見(jiàn)下表。

綜合分?jǐn)?shù)反映消費(fèi)者滿意程度,(1)第2名與第4名相比,明顯第四名口碑差距較大,因此在負(fù)向f1分反而較大,正向相對(duì)很小;(2)第2名與第12名相比,口碑相差不大,總體前者口碑優(yōu)于后者,但從模型指標(biāo)看,前者平均f1比后者少0.02,但是正向f1分具有明顯增量0.11,主要由于負(fù)f1分拖累0.15,因此整體不如后者平均f1指標(biāo);同時(shí),雖然前者平均f1分少于后者,但是前者的準(zhǔn)確率明顯由于后者0.09個(gè)單位。(3)第4名與第12名相比,只有負(fù)向f1分高于后者,這說(shuō)明其差評(píng)較易發(fā)生。但是由于其是付費(fèi)展現(xiàn),因此超出后者8個(gè)位置。(4)第12名的平均f1分最高。

總的來(lái)說(shuō),BERT模型能有效抽取情感極性,但是由于樣本來(lái)源于真實(shí)就餐環(huán)境,口碑較好店鋪正評(píng)價(jià)較多于負(fù)評(píng)價(jià),會(huì)導(dǎo)致正向f1分偏高,而負(fù)向f1分偏低;口碑較差店鋪負(fù)評(píng)價(jià)多于正評(píng)價(jià),會(huì)導(dǎo)致反向f1偏高,正向f1偏低;中等口碑介于兩者之間,但是其平均f1分為最高。模型在適當(dāng)情況下,或許可以獲得高出0.79的f1分。因此不能完全依賴此指標(biāo)孤立評(píng)價(jià)模型。反而,該模型的評(píng)價(jià)指標(biāo)體系可以用來(lái)指導(dǎo)店鋪運(yùn)營(yíng)、平臺(tái)流量分配于商品推薦。作為平臺(tái)可以利用正向f1分將更多流量分配給這樣的店鋪,也可以向負(fù)向f1分較高的用戶收取較高的推廣費(fèi)用。

參考文獻(xiàn):

[1]朱曉霞,宋嘉欣,張曉緹.基于主題挖掘技術(shù)的文本情感分析綜述[J/OL].情報(bào)理論與實(shí)踐:1-13[2019-10-28].http://kns.cnki.net/kcms/detail/11.1762.G3.20190715.0941.004.html.

[2]洪巍,李敏.文本情感分析方法研究綜述[J].計(jì)算機(jī)工程與科學(xué),2019,41(04):750-757.

[3]梁斌,劉全,徐進(jìn),周倩,章鵬.基于多注意力卷積神經(jīng)網(wǎng)絡(luò)的特定目標(biāo)情感分析[J].計(jì)算機(jī)研究與發(fā)展,2017,54(08):1724-1735.

[4]Devlin,Jacob et al.“BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding.”NAACL-HLT (2019).

[5]Wenpeng,Yin et al.[J].ABCNN:Attention-Based Convolutional Neural Network for Modeling Sentence Pairs,Transactions of the Association for Computational Linguistics,2016,Vol.4,pp.566-567.

[6]Wang Yequan,Huang Minlie,Zhao Li,et al.“Attentionbased LSTM for aspect-level sentiment classification”[C].Proc of the 2016 Conf on Empirical Methods in Natural Language Processing.Stroudsburg,PA:ACL,2016:606-615.

[7]劉玉林,菅利榮.基于文本情感分析的電商在線評(píng)論數(shù)據(jù)挖掘[J].統(tǒng)計(jì)與信息論壇,2018,33(12):119-124.

作者簡(jiǎn)介:魏一?。?985- ),男,漢族,河南安陽(yáng)人,碩士,講師,研究方向:跨境電商與數(shù)據(jù)挖掘

主站蜘蛛池模板: 久久久久人妻一区精品| 成色7777精品在线| 日本高清免费一本在线观看 | 亚洲久悠悠色悠在线播放| 国产乱子伦视频三区| 免费av一区二区三区在线| 国产在线一区二区视频| 丁香婷婷久久| 一级毛片免费播放视频| 国产精品毛片一区| 欧美成人午夜视频免看| 99久久精品久久久久久婷婷| 久久综合伊人 六十路| 美女内射视频WWW网站午夜| 国产成人三级在线观看视频| 亚洲国产中文在线二区三区免| 国产v精品成人免费视频71pao| 欧美国产另类| 国产精品视频第一专区| 国产精品13页| 99久久人妻精品免费二区| 成年av福利永久免费观看| 免费人成在线观看成人片| 午夜天堂视频| 欧美一区精品| 国产亚洲精品91| 国产激爽大片高清在线观看| 成人亚洲国产| 午夜色综合| 久久永久视频| 亚洲国产中文精品va在线播放| 欧美国产日韩另类| 啪啪啪亚洲无码| 在线无码九区| 永久免费无码成人网站| 精品国产成人国产在线| 中文字幕 日韩 欧美| 啪啪啪亚洲无码| 国产区91| 国产精品久久久久无码网站| 国产av剧情无码精品色午夜| 亚洲精品无码AV电影在线播放| 少妇露出福利视频| 国产综合精品一区二区| 国产亚卅精品无码| 深爱婷婷激情网| 97狠狠操| 国产精品美女自慰喷水| 亚洲成A人V欧美综合| a级免费视频| 亚洲AV免费一区二区三区| 五月六月伊人狠狠丁香网| 欧美日韩北条麻妃一区二区| 日韩一区二区三免费高清| 日本一区中文字幕最新在线| 天堂成人av| 欧美日韩一区二区在线免费观看 | AV网站中文| 亚洲日韩精品伊甸| 麻豆精品在线播放| 高清国产在线| 亚洲国产天堂在线观看| 四虎影院国产| 强乱中文字幕在线播放不卡| 成·人免费午夜无码视频在线观看| 国产精品99久久久| 伊人五月丁香综合AⅤ| 伊人久久婷婷五月综合97色| 国产人成在线视频| 老司国产精品视频91| 91久久天天躁狠狠躁夜夜| 国产人成午夜免费看| 成人精品亚洲| 91免费在线看| 久久一日本道色综合久久| 亚洲天堂精品在线| 欧美日韩第三页| Jizz国产色系免费| 国产在线观看第二页| 综合色亚洲| 中文字幕乱妇无码AV在线| 国产一区二区三区在线精品专区|