

摘 要:以本地美團網美食類店鋪為例,爬取在線大量數據,按目標格式注入Google的BERT模型(Bidirectional Encoding Representations from Transformers.),并構建研究對象所適用的數據模型,對潛在評論情感極性能夠準確預測,對正向情感評價最高可達98%準確率,98%召回率,F1-Score最高達0.98。特別地也分析了其負向F1-Score的成因,并提出利用F1-Score構建平臺分流與展現推廣付費的思路。
關鍵詞:BERT;F1 score;情感極性;在線評論;預測模型
一、引言
“在線用戶評論”,作為運營數據來源的主要渠道,為電商運營決策和平臺分配流量提供了直接的依據。很多大型的電商平臺都設計了相應的評論板塊,有的側重于追加評論,主要體現用戶的事后真實體驗評價,而有的側重于事中評價。情感極性一般分為正面、負面和中性。用戶通過分值與文本做出相應的評論并不能反映出真實的情感極性。例如,“這頓餐看起來很不錯,大氣上檔次,但是貴了……”,到底用戶的情感是正面還是負面呢?很難做出有效判斷,這就需要對文本做出挖掘。用戶的情感極性對商品用戶推薦、平臺流量分配權重、商戶業務改進至關重要。
二、文獻綜述
業界與學術界都對文本情感分析(NLP)做出了大量的探索實踐與理論積累,相關的情感分析研究方法有分別基于詞典、機器學習、詞典+機器學習、弱標注、深度學習等方法。有文獻綜述提到,“Hamouda等提出建立一個包含表情符號的情感詞匯庫進行情感識別;Pang等將機器學習算法用于情感分類任務;還有利用挖掘評論數據中反映情感語義的弱標注信息,以及分別基于卷積神經網絡的、長短期記憶、深度信念網絡等分類模型的深度學習”。隨著研究發現,深度學習(神經網絡模型)成為了主流方向,其最大特點是采用了詞向量的嵌入技術——Word2Vec方法,但是對同一句子中有情感極性矛盾,或同一個詞在不同位置導致歧義的多個情感詞則無能為力, 這時“多頭注意力機制(Multi-head Attention Mechanism)”的引入能夠很好地解決類似問題。Yin(2015)提出基于注意力機制的卷積神經網絡,Wang(2016)提出結合注意力機制的LSTM網絡,梁斌(2017)提出多注意力卷積神經網絡MATT,但是缺乏對中文領域的分析。Devlin,Jacob(2018)等人提出了BERT模型,在tensor2tensor庫基礎上,利用MLM與NLP機制進行雙向預訓練,生成上游模型,在此模型上進行下游的自定義任務,能夠滿足中文和英文等文本挖掘,其性能指標遠勝OpenAI GPT和ELMo(兩種順序的LTSM),其在SQuAD測試中排名第一(Nov,2018)。劉玉林(2018)等通過建立電商食品領域級情感詞典,在算法上引入NLP中2元語法加強情感結果判斷,建立情感指數,結合真實在線數據進行實證,得出優化方向,但是沒有展示其準確率和F1分值。
本文將爬取雍和會在美團網站在線評論數據,注入BERT模型,構建其店鋪的情感極性評價模型,并計算其準確率和F1分值。該模型可以用來指導店鋪提升客戶滿意度,也可以幫助平臺分配流量和用戶推薦,具有現實意義。
三、研究方法
STEP1:爬取美團網福州地區美食類好評排名Top2的“雍和會海鮮姿造(三坊七巷店)”上萬條評論數據。
STEP2:利用Pandas包清洗數據。
STEP3:將原始數據按比例拆分為訓練數據集(10564條)、測試數據集(3302條)和驗證數據集(2641條),并將打分等級劃分為兩種極性,超過閾值為1,否則為0;增加sentiment標簽,刪除star標簽。
STEP4:利用FastAI包初始化BERT模型(Chinese版本)。
STEP5:將上述訓練數據集、測試數據集和驗證數據集按需要裝入在DataFrame,DataBunch。數據會在前后加上標簽【CLS】和【SEP】,用以區分句子,從而符合模型格式。
STEP6:利用Learner的lr_find()函數,采用CrossEntropyLoss()交叉熵損失函數作為參數,進行“學習”,并畫出學習曲線,生成下游任務的最終模型。
STEP7:按照指定學習率,計算一周期,得出其相關準確率與耗時。
STEP8:評估模型——預測相關文本,進行指標評價,并展示【precision,recall,f1-score】和含混矩陣。
STEP9:設計對比實驗組。
四、實證分析
1.數據來源
爬取“雍和會”美團在線評論數據,提取評價與打分等信息,并進行清洗。清洗后的在線評論數據規模,從22336降至16507個數據。
2.清洗:sentiment是根據star分值經過相應條件轉化為0或1.條件:若star分值大于30為1,反則為0。這里正面評價1較多。
3.數據轉換為目標格式
4.分類報告
5.對比組
按照上述方法,隨機打開美團首頁,選取福州地區美食類綜合排名第4名(廣告位)“旺巴蜀小郡肝火鍋串串香(東二環泰禾店)”,其綜合分數為3.7分,顯示評論數1600條,但實際爬去后顯示評價數5000多條,清洗后也有3500多條。再按選取福州地區綜合排名第12名“V-ONE|西雅圖海鮮自助輕姿造(王府井店)”,其綜合分數為4分,顯示評論數1888條,清洗后也有1000多條。爬取數據、清洗、建模、評估,相同條件下(30分為閾值,學習率為2e-5)進行挖掘。
五、結論與建議
通過實驗發現:BERT模型能夠較準確地區分正負面情感極性,這個案例中,其店鋪排名第2名,F1-score可平均達到0.77,這個數值并不太出色,但如果只觀測正面情感評價,F1-score可最高達到0.98,這是由于選取當地好評率最高的美食類店鋪,造成數據偏向正向情感,而負向情感偏向較少。見下表。
綜合分數反映消費者滿意程度,(1)第2名與第4名相比,明顯第四名口碑差距較大,因此在負向f1分反而較大,正向相對很小;(2)第2名與第12名相比,口碑相差不大,總體前者口碑優于后者,但從模型指標看,前者平均f1比后者少0.02,但是正向f1分具有明顯增量0.11,主要由于負f1分拖累0.15,因此整體不如后者平均f1指標;同時,雖然前者平均f1分少于后者,但是前者的準確率明顯由于后者0.09個單位。(3)第4名與第12名相比,只有負向f1分高于后者,這說明其差評較易發生。但是由于其是付費展現,因此超出后者8個位置。(4)第12名的平均f1分最高。
總的來說,BERT模型能有效抽取情感極性,但是由于樣本來源于真實就餐環境,口碑較好店鋪正評價較多于負評價,會導致正向f1分偏高,而負向f1分偏低;口碑較差店鋪負評價多于正評價,會導致反向f1偏高,正向f1偏低;中等口碑介于兩者之間,但是其平均f1分為最高。模型在適當情況下,或許可以獲得高出0.79的f1分。因此不能完全依賴此指標孤立評價模型。反而,該模型的評價指標體系可以用來指導店鋪運營、平臺流量分配于商品推薦。作為平臺可以利用正向f1分將更多流量分配給這樣的店鋪,也可以向負向f1分較高的用戶收取較高的推廣費用。
參考文獻:
[1]朱曉霞,宋嘉欣,張曉緹.基于主題挖掘技術的文本情感分析綜述[J/OL].情報理論與實踐:1-13[2019-10-28].http://kns.cnki.net/kcms/detail/11.1762.G3.20190715.0941.004.html.
[2]洪巍,李敏.文本情感分析方法研究綜述[J].計算機工程與科學,2019,41(04):750-757.
[3]梁斌,劉全,徐進,周倩,章鵬.基于多注意力卷積神經網絡的特定目標情感分析[J].計算機研究與發展,2017,54(08):1724-1735.
[4]Devlin,Jacob et al.“BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding.”NAACL-HLT (2019).
[5]Wenpeng,Yin et al.[J].ABCNN:Attention-Based Convolutional Neural Network for Modeling Sentence Pairs,Transactions of the Association for Computational Linguistics,2016,Vol.4,pp.566-567.
[6]Wang Yequan,Huang Minlie,Zhao Li,et al.“Attentionbased LSTM for aspect-level sentiment classification”[C].Proc of the 2016 Conf on Empirical Methods in Natural Language Processing.Stroudsburg,PA:ACL,2016:606-615.
[7]劉玉林,菅利榮.基于文本情感分析的電商在線評論數據挖掘[J].統計與信息論壇,2018,33(12):119-124.
作者簡介:魏一丁(1985- ),男,漢族,河南安陽人,碩士,講師,研究方向:跨境電商與數據挖掘