閔 雪
(浙江商業職業技術學院,浙江 杭州 310053)
近年來,隨著新零售及移動支付的快速發展,網上購物已成為社會主流消費方式, 作為網絡購物的產物,在線評論也隨之大量產生。這些評價一方面已經成為影響消費者購買決策的重要因素之一(1);另一方面,在線評論越來越多地影響商品的推廣與銷量,在利益驅動下,出現了商家背后操縱評論的現象,以達到推銷自己商品的目的。 虛假評論的愈演愈烈對網絡購物平臺秩序造成嚴重沖擊,也給消費者權益帶來嚴重損害。 基于此,本文提出基于情感極性及多維特征的購物平臺虛假評論識別方法,針對批量在線評論進行情感分析及特征分析,形成一套有效虛假評論識別方法。
自2008 年Jindal 等提出虛假評論廣泛存在與商品評論中的問題后, 虛假評論的識別就成為電商領域的一個研究熱點(2)。 綜合國內外近十年對虛假評論識別領域的研究, 目前虛假評論的識別方法大致可以歸納為三類,基于內容的識別方法、基于行為的識別方法、基于內容和行為相結合的識別方法。
Ott、劉玉林等人相繼開發了“數據集”和情感指數,對虛假評論進行識別,從而為異常評論識別奠定基礎(3-4)。 Li 等通過與大眾點評合作,通過分析評論者行為識別虛假評論(5)。 余傳明等建立評論個人行為、評論者消費行為、商家行為指標體系,搭建虛假評論者主體關系模型, 實現虛假評論及相關主體的識別(6)。 陳晉音等通過構建用戶、商店和評論之間關系的圖結構,基于雙循環圖過濾算法,實現識別(7)。顏夢香等從用戶和產品兩個角度分別來研判評論文本, 提出了一種基于層次注意力機制的神經網絡模型,用于虛假評論識別(8)。
通過總結已有的研究,發現大多數研究都是從文本內容本身、評論者或被評論者行為出發來建立虛假評論的識別模型。 本文從評論內容的角度出發,融合情感極性分析與邏輯回歸模型,提出一套行之有效的虛假評論識別方法。
以往的研究表明,從心理學及語言學的角度出發,相比正常評論,虛假評論往往有更加強烈的情感表達(9)。核心表現為虛假評論具有極強的目的性,使用大量的極限詞,以極力鼓吹或惡意貶低某個商品,從而形成情感強度較大的評論。 本章節將從這一理論依據出發,基于情感極性計算方法,通過情感打分的方式進行文本情感極性研判,將情感極性分為正向、負向、中立三類,再進一步判斷每條評論的情感偏離大眾情感的程度,從而實現虛假評論的初篩。
目前常見的情感極性計算方法大致分為兩類,基于情感詞典的方法和基于機器學習的方法(10)。 情感詞典方法對評論文本進行分詞,之后對比情感極性詞庫,通過計算句子的正向得分與負向得分及兩者相加的綜合得分,設定閾值進行比較,得到該文本的情感極性程度。 本文采用Jieba 分詞對在線評論進行自然語言切分, 將NTUSD 簡體中文情感詞典、知網情感極性詞典作為基礎情感詞典,同時納入否定詞詞典、程度副詞詞典,引入NLP 研究領域中的n-gram 方法進行詞組搭配,依托前影響詞、后中心詞的情感方向和影響程度來實現情感極性值的計算,整體流程圖如圖1。

圖1 基于情感詞典方法的在線評論情感極性計算流程圖
從某電商平臺數碼、手機、食品、服裝、美妝、箱包六個典型類目中, 選取各類目排名前十的商品。通過Python 設計爬蟲程序進行在線評論數據的采集,借助大眾公開平臺的虛假評論過濾系統進行虛假評論的標注,得到在線評論數據集。 對采集數據進行標注處理后,得到正常評論8195 條,虛假評論2843 條,具體情況如表1。

表1 在線評論數據集
文本特征即基于評論文本的元數據特征,盡管虛假評論刻意偽裝并具有較高的迷惑性,但評論內容是建立在不真實的購物經歷上,在情感極性與文本特征上必然與正常評論存在一定的差異。 通過對大量虛假評論內容進行分析以及總結虛假評論特征現有研究的結果,納入上一章節評論情感極性值結果, 本文定義以下10 個可能影響虛假評論的特征,如表2 所示。

表2 虛假評論的文本特征及描述

表3 文本長度特征分布表
具體分析:(F1)文本長度即評論文本的字數,正常評論者往往懶于給出評論或給出較短的評論,虛假評論者為達到鼓吹或貶低的目的通常會給予較為冗長、細節性的商品描述。(F2)文本相似度即該條文本內容與本商品其他評論內容的相似程度, 正常評論者基于自身真實的購買和使用體驗, 通常會給出較為主觀和相似度低的評論; 而虛假評論者為完成評論任務, 往往大量復制商品已有評論內容進行拼湊。(F3)文本復雜度,虛假評論者往往使用大量復雜和專業的詞匯。 (F4)文本一致性即初評與追評的內容、時間的一致性,虛假評論往往初評與追評有極高的一致性,且間隔時間較為短暫。(F5)描述相符性即評論文本與產品特征描述的相符程度, 正常評論往往貼合商品的特征,而虛假評論者為了快速評論,會復制一些模棱兩可甚至不相關的文本內容。 (F6)情感符號比重即評論文本中感嘆號、表情符號、特殊符號等的占比,虛假評論中為了表達強烈的情感,往往會使用大量的情感符號。(F7)第一人稱比重,評論文本中第一人稱詞匯所占的比例比較高, 以增加評論的可信性(11)。 (F8)品牌提及率即評論文本中品牌相關內容占整體內容的比例,本文認為,虛假評論為了推廣自身的品牌, 通常會在評論中大量提及自身品牌,以實現品牌的快速種草。(F9)評論互動性即評論獲得的回復數、反饋數等,一般來講,正常評論往往為消費者帶來更加實用的信息, 從而產生大量的互動;而虛假評論往往疏于后期的互動管理,從而具有較低的互動性。(F10)情感極性即評論文本的情感強度,基于上個章節的研究,虛假評論為實現鼓吹或變貶低某個商品, 往往使用大量的極限詞從而形成較強的情感極性。
特征選擇即特征子集選擇(FSS),是指從已有的特征集中選擇相關性最好的特征子集,使得模型的識別目標最優化,常用的方法有方差選擇法、卡方檢驗、互信息法、遞歸特征消除、樹模型等。 本文定義的是離散數值特征,同時考慮虛假評論識別也是一個二分類問題, 因此采用Logistic 回歸模型進行特征的篩選及后續虛假評論的識別。
1.邏輯回歸。 Logistic 回歸是機器學習中的一種分類模型,在線性回歸的基礎上,套用邏輯函數用于估計某種事物的可能性。 使用場景大概有兩個,一是用來預測; 二是用來尋找因變量的影響因素。目前,Logistic 回歸模型常用在垃圾郵件的識別、電商商品推薦、疾病診斷等二分類問題上。 本文關于虛假評論的識別也是一個典型的二分類問題,因此借助該模型,一方面研究各個文本特征對因變量結果的影響程度從而實現特征的篩選;另一方面基于因變量的預測值實現垃圾評論的快速識別。 Logistic回歸模型的一般形式如下:
其中F1,…,Fn為特征自變量,θ1,…,θn為回歸系數,P 為在n 個特征變量影響下虛假評論發生的概率。 因變量Y 為二分類變量,因此取值為
2.特征變量衡量標準及篩選。 Logistic 回歸用在尋找因變量影響因素的場景時,通常需要基于優勢比OR。 優勢比為實驗組的事件發生概率/對照組的事件發生概率的比值,反映的是某種暴露(特征)與結局的關聯強度。 具體到定量分析上,當結果出現記為1,不出現記為0 時,OR 值的含義可以總結為:
接下來以文本長度為例來展示優勢比的計算邏輯及衡量標準,這里我們定義評論文本字數≥50為長文本。
則優勢比OR=1.739/0.105≈16.562, 因此文本長度特征對虛假評論的結果出現呈現顯著的促進作用。 本文利用Python 中statsmodels 算法包,分別計算本文定義的10 個可能影響虛假評論特征的優勢比OR,結果如表4。

表4 10 個可能影響特征的優勢比
同時在廣義線性回歸模型中,也會采用前向選擇、 后向選擇和逐步回歸等方法進行變量的篩選。這里使用逐步回歸的方法, 對上述10 個特征變量逐一引入模型自變量池中進行檢驗,最終變量篩選結果與優勢比OR 衡量的結果一致。
基于已篩選出來的特征變量,本文使用Logistic回歸來進行虛假評論的識別,具體實現流程如圖2。

圖2 基于邏輯回歸模型的虛假評論識別流程
具體分析:(步驟1)數據集的選取劃分,對已有的標注好的10038 條在線評論數據, 按照8:1:1 的方式隨機劃分為訓練集、驗證集、測試集,來進行模型的訓練和測試。(步驟2)訓練邏輯回歸模型,利用Logistic 回歸對訓練數據進行訓練,并且為了防止過擬合的問題,這里為模型增加正則項。(步驟3)模型優化,初步訓練出來的模型往往有各種不足,因此需要不斷地優化模型, 讓模型逐漸達到理論最優值。 常用的優化方法有三類,特征提取、正則化和降維。在這里,我們采用正則化的方法。通過不斷調整正則參數c 的大小, 模型的預測效果也隨之變優,具體優化過程如圖3 所示。(步驟4)模型評估,這里使用精確率、召回率、F1-score 作為模型結果評估的指標,根據步驟3 優化情況,選擇使模型達到理論最優的參數值, 之后對測試集數據進行分類預測,匯總分類結果可得表5 測試集的混淆矩陣。 Logistic回歸對虛假評論的分類模型在測試集上的分類精確率為0.862, 召回率為0.790,F1 得分為0.825,意味著模型有較好的分類預測性能。

表5 基于測試集的混淆矩陣

圖3 Logistic 回歸訓練過程
從上述模型的預測結果為虛假評論的結果集中隨機抽取若干案例,進行人工校驗分析,由于篇幅有限,粘貼部分評論,見表6。

表6 部分虛假評論
以上部分在線評論乍一看并無不妥,如若不是有專業的知識儲備,或許并不會敏銳地發現有任何問題。 基于Logistic 回歸模型的虛假廣告分類對各個特征做了較好的擬合,針對以上虛假評價均做了正確地識別。 譬如第1、2 條不僅文本長度長、多次提及品牌、使用專業的術語,同時第2 條還大量使用了情感符號。 第4、6、7、10 條,為了突出效果使用大量的情感詞,描述空洞,尤其4、10 不排除存在惡意評價的嫌疑。 第3、8 條具有高重復性和不一致性,現實中一個真正的消費者大概率是不會這樣評論自己購買的商品的。 由此可見基于Logistic 回歸的虛假評論識別是有效果的。
基于情感極性及多維特征,本文實現虛假評論的初篩。 在情感極性特征的基礎上,本文定義了關于虛假評論的10 個特征變量,并使用優勢比OR 和逐步回歸方法篩選8 個特征變量子集納入模型特征工程, 最終使用Logistic 回歸實現虛假評論的識別,通過混淆矩陣檢驗本文的識別方法取得了較好的效果。
注釋:
(1)郭愷強,曹麗.基于隱含語義分析的電商虛假評論識別方法初探[J].今日財富,2021(17):97-99.
(2)Jindal Nitin,Liu Bing.Opinion spam and analysis[C]. Proceedings of the International Conference on Web Search and Data Mining(WSDM),California,USA,2008:219-230.
(3)任亞峰,尹蘭,姬東鴻.基于語言結構和情感極性的虛假評論識別[J].計算機科學與探索,2014(03):313-320.
(4)劉玉林,菅利榮.基于文本情感分析的電商在線評論數據挖掘[J].統計與信息論壇,2018(12):119-124.
(5)薛晨杰,王召義.文本情感分析在虛假評論識別中的應用研究[J].閩西職業技術學院學報,2021(01):33-37+93.
(6)余傳明,馮博琳,左宇恒,陳百云,安璐.基于個人-群體-商戶關系模型的虛假評論識別研究[J].北京大學學報(自然科學版),2017(02):262-272.
(7)陳晉音,黃國瀚,吳洋洋,賈澄鈺.基于雙循環圖的虛假評論檢測算法[J].計算機科學,2019(09):229-236.
(8)顏夢香,姬東鴻,任亞峰.基于層次注意力機制神經網絡模型的虛假評論識別[J].計算機應用,2019(07):1925-1930.
(9)繆裕青,歐威健,劉同來,劉水清,文益民.基于情感極性與SMOTE 過采樣的虛假評論識別方法[J].計算機應用研究,2018(07):2042-2045.
(10)程永勝,徐驍琪.基于用戶評價數據的電動汽車造型意象決策模型[J].太原理工大學學報,2022(05):886-894.
(11)尹春勇,朱宇航.基于垂直集成Tri-training 的虛假評論檢測模型[J].計算機應用,2020(08):2194-2201.