王召義 薛晨杰



摘?要:虛假評論的存在極大降低了在線評論的可信度與參考價值。虛假評論有著不同于真實評論的目的和動機,所以虛假評論會表現出與真實評論不同的特征屬性。以虛假評論的目的和動機為切入點,采用內容分析法,從評論文本、評論者行為兩個方面對虛假評論特征進行深入的歸納、分析和總結。為建立更有效的虛假評論識別算法或機制提供理論依據,為建立誠實有序的電商市場規范提供實踐參考。
關鍵詞:虛假評論;特征;評論文本;評論者行為
中圖分類號:F27?文獻標識碼:Adoi:10.19311/j.cnki.1672-3198.2020.27.029
隨著電子商務的高速發展,社交媒體成為人們獲取信息的重要渠道。在線評論不僅出現在各大電商平臺,還充斥著自媒體平臺及專業推薦點評網站。與此同時,在線評論通常表達了消費者對商品的實際使用體驗及主觀觀點,已經成為影響消費者購買決策的重要因素之一,進而影響了產品的推廣和銷售。正面評價較多的商品,可以大大激發消費者的購買欲望,而負面評論尤其是居于前列、描述詳細的差評則會直接打消消費者的購物念頭。因此,在經濟利益的驅使下,某些企業或個人為了推廣或詆毀特定的產品,故意發布虛假的在線評論。這些虛假評論不但危害了消費者對產品的正確認知,還影響了商家的推廣、銷售等正常的營銷活動,對電子商務秩序造成嚴重沖擊,必須準確識別出來,才能找到有效的防治措施。而要識別出虛假評論,就要先熟悉其獨有的特征,再據此將其過濾掉,最終還企業、消費者一個公平公正的電子商務交易環境。
1?虛假評論動機
虛假評論是由商家通過雇傭人員(常被稱為“水軍”)有意發表的虛假的、有欺騙性質的評論,其目的是為了提升或者損壞某一商品(服務)或某一類商品(服務)的聲譽進而誤導潛在消費者,使其做出具有風險性的消費決策。對于商家來說,正面評論往往意味著利潤和好口碑,所以有足夠的動力操縱評論;對于消費者個人來說,如果蓄意給予企業虛假的負面評論,則常常可以獲得企業的經濟賠償。結合國內外學者、專家對虛假評論的動機研究,本文將虛假評論的動機分為三類:破壞動機、推廣動機和詆毀動機。劉兵提出的“虛假評論和產品質量的關系”,對于理解、研究虛假評論動機十分有益。消費者購買商品,最關注的就是商品質量。在這里,我們假設已經知道產品的真實質量,表1給出了虛假評論和產品質量的關系。
(1)推廣動機。推廣主要為了提升品牌或產品的知名度、美譽度,利用個人(職業虛假評論者、企業的朋友和家人、企業經營者和員工、給予獎勵的真實顧客等)和群體(專業的虛假評論組織),在剛開張或提報活動需要基礎好評、無競爭優勢急需流量銷量以及掩蓋居于重要位置的差評時,通過各種方式獲取虛假的正面評論。區域1、3和5的虛假評論的目的就是為了推廣該產品。雖然在區域1表達的觀點與產品實際情況相吻合,但評論者沒有披露其背后的利益沖突或隱藏的動機。例如,很有可能是為了快速提升人氣或符合某項活動條件。區域3和5就有非常明顯的推廣動機,這樣的企業最有可能雇傭專業的虛假評論組織或團隊,在短期內對產品進行大量的正面評價,以獲取最大推廣效果。
(2)詆毀動機。詆毀主要針對的是商家給予競爭對手或消費者給予商家的虛假負面評論。商家甚至是一些聲譽度比較高的企業利用個人或群體在各銷售及展示平臺上散播對競爭對手不利的評論、測評等,以達到報復的目的;某些唯利是圖的消費者則故意給商家虛假消極評論,以獲得一些經濟賠償。區域2、4和6中的虛假評論目標就是為了詆毀產品。雖然在區域6的評論可能是中肯的,但評價者可能含有惡意的動機,例如報復競爭對手或獲取經濟補償。區域2和4的詆毀動機十分明顯,特別是區域2,把“好”的說成“壞”的,嚴重干擾消費者購買決策。很有可能是競爭對手為了削弱競爭力更強的企業的實力和口碑,而雇傭“水軍”來詆毀對手;也或者企業為了防止某些方面比如價格對自身銷售有一定沖擊性的競爭對手“上位”,假冒消費者對對方產品其他方面如質量進行詆毀式的攻擊。
(3)破壞動機。那些與商品本身毫無關系的評論、只關于品牌的評論、將顧客引入其他平臺比如淘客或微商的廣告評論等,這種評論的動機是破壞正常的評論秩序,對于消費者而言是一種干擾性信息,損害了評論的真實借鑒意義。此類評論形式多為一些個人或商家為了借助平臺的流量來為自己打廣告,以及發布一些與商品使用本身絲毫不相關的評論。因此,整體看來,區域1和6的虛假評論不具破壞性,但是營造了不公平的市場環境,長期以來則可能使在線評論變得無用,讓商家之間互相攻擊。區域2、3、4和5的虛假評論是十分有害的,嚴重干擾了潛在消費者的購買決策,且區域2和4的虛假評論對于企業來說也是有害的。與此同時,我們無法獲知有害虛假評論的比例,也無法分辨出評論所屬區域,因此很難評估出虛假評論的危害程度。
綜上,虛假評論識別應側重于主要由推廣動機、詆毀動機促成的區域2、3、4、5的虛假評論。現有的虛假評論識別研究主要集中在兩個方向:第一類是通過檢測用戶的評論文本內容,從語義、情感、描述和字符等方面區分真實評論和虛假評論;第二類是通過對虛假評論者的評論行為特征進行深層次的分析和挖掘,從而區分虛假評論者和真實評論者。隨著大數據技術的發展,虛假評論識別技術也在不斷發展、完善,但是不管采用哪一類虛假評論識別方法,都要先深入分析虛假評論的動機,充分剖析、挖掘、歸納虛假評論特征,才可以不斷提升識別虛假評論的準確率。
2?虛假評論特征
目的不同,行為就不同,虛假評論也不外乎如此。本文從評論文本特征和評論者行為特征兩個方面深入探討虛假評論的特征,以幫助商家、平臺、消費者個人等利益相關者更好的熟悉虛假評論特征及更高效地識別出虛假評論。
2.1?評論文本特征
評論者通過語言表達其對評論對象的感受、觀點或情感,而虛假評論實際是評論者編造的謊言,其內容建立在不真實的購物及使用經歷上,必定會在評論的語言運用中留下虛假線索。通過對大量虛假評論的剖析、歸納,評論文本特征主要體現在以下幾個方面。
(1)評論主題。消費者在表達對商品的主觀觀點時,一定會針對特定商品或主題進行評論,極少會出現離題萬里的現象。例如,如果評論者在電腦商品評論中,發表關于相機的描述,那么該評論是虛假評論的可能性非常高。因此,如果評論內容和產品出現文不符題的情況,則可能存在虛假評論。
(2)評論情感傾向。在線評論主要是表達消費者對商品的使用效果的主觀情感,沒有主觀情感的評論往往是“有問題”的評論,因為消費者不愿意浪費時間去發布一個無任何主觀情感或觀點的評論。而另一方面,如果主題情感信息過度強烈、情感詞過度集中,過于有意夸大、強調主觀情感傾向,則也可能表明此條評論是虛假的。
(3)評論文本的長度。消費者往往會對商品進行多角度的評價,也會較為明確的描述出商品的優劣,為了便于自己撰寫及他人閱讀,評論文本的長度比較適中,多數控制在140個字左右。而虛假評論涉及編寫不真實的購物和使用經歷,有可能沒有太多可以寫的,或至少一個有償的虛假評論者可能不希望投入過多的時間來寫評論,因此可能評論字數非常少。當然,也有很多虛假評論是直接復制粘貼而來,但為了提升可信度,字數又異常之多。
(4)主客觀比例。消費者對所購商品的評論中,往往帶有明顯的主觀色彩,如果評論者所給出的評論中過多地在客觀描述,那么它僅僅起到廣告的作用或者只是在描述產品而已,并未起到評論所應該起到的作用。因此,在商品評論中,如果存在大量的客觀描述的評論,則虛假評論可能性比較高。
(5)正負向比例。消費者對所購商品的評論中表達自己的切身體會時,往往是從正負向分別表達自己的情感,這符合正常的購物體驗,也是消費者最直觀的感受,會表達對所購商品的滿意面,當然也會體現出不滿意的一面。因此,一個產品僅僅有表達正面或負面情感的評論,這個產品很有可能遭到了虛假評論。
(6)評論內容相似性。虛假評論者為了趕時間或盡快完成發布評論任務,常常復制或修改已有的類似產品的評論,這樣評論之間的相似度就比較高。另一方面,如果評論之間的相似度值太低,說明存在一些無意義的評論,這些評論可能都是一些廣告。
(7)評論文本中第一人稱和第二人稱的使用。在傳統謊言中,說謊的人傾向于少用第一人稱代詞,其目的在于將自己與所編寫的謊言撇開關系。相反,虛假評論者的行為完全不同。實際上,他們喜歡用更多的第一人稱代詞而不是第三人稱代詞,如我、我的、我們等。這樣使他們的評論看起來更具有說服力,并且給讀者的印象是他們的評論是基于自己的真實體驗和評價。
評論文本特征的提取方法主要是在評論的詞匯、句子、語篇及語義的層面上進行詞法、句法和語義分析以獲取其語言和文本特征,虛假評論的識別可以從以上方面來進行,符合條件越多的評論為虛假評論的可能性就越高。
2.2?評論者行為特征
真的假不了,假的真不了。虛假評論者發布評論的目的與真實評論者不同,其評論行為特征必然與真實評論者行為特征不同。虛假評論者行為有兩種類類型:群體行為和個體行為。群體行為是一組相識或不相識的評論者或賬戶,共同協作以推銷或詆毀某些產品或服務;個體行為是自己使用單一賬戶來寫虛假評論。相對而言,群體行為損害性更大,由于成員數量非常多,可以完全操縱產品的評論。尤其是在產品剛發布時,更易于誤導潛在消費者,對電商企業尤其是中小型的電商店鋪影響非常大。
(1)爆發式行為(RB)。爆發式行為是指在短時間內產品評論數量呈爆炸式增長的一種現象。在正常情況下,產品評論是隨機產生的,評論時間呈隨機分布狀,評論集中產生的概率非常低。但有的時候,產品評論也會爆發式增長,比如產品的知名度突然增加或者該產品參加了促銷活動,也可能是產品受到了虛假評論攻擊。虛假評論者在較短時間間隔內多次發表評論,以達到快速影響評論對象綜合評分、操縱評論情感傾向的目的。一般通過計算評論者首次評論時間和最近一次評論時間的接近程度,用來捕捉爆發式行為特征。
RBpg,p=0,(L(g,p)-F(g,p)>τ)1-L(g,p)-F(g,p)τ
RB(g)=maxp∈PgGTWpg,p
其中,g代表群組,p代表產品,Pg是由組g評論過的所有的產品的集合,τ為爆發期閾值(有學者設定其值為20天),Lg,p和Fg,p分別是群組g評論產品p的最近和最早日期。因此,RBpg,p給出了群組g對于產品p的評論時間差信息。如果這個時間差比τ長,則認為不太可能是虛假評論行為,否則則認為群組g在很短的時間內突發評論了產品p,這更容易被認為是虛假評論行為。RB(g)考慮了群組g所有評論過的產品Pg,并取最大值,從而捕捉到該組最嚴重的爆發式行為特征。對于后文的群體行為特征描述,都照此取最大值。
(2)內容相似性行為。群組g的目標是獲取經濟利益,只要能夠按時完成產品評論,就會降低撰寫虛假評論的時間成本,從而傾向于復制自己或他人的評論,致使許多產品評論的內容相似度較高。
群體內容相似性(GCS)。當群組g的成員相互之間復制彼此的評論時,就會出現大量的重復或接近重復的評論,因此群體內容也會表現出內容相似性。為簡單起見,假定每個成員最多為一個產品寫一個評論,則可以通過計算評論間的余弦相似性值來量化群體內容相似性。
CSGg,p=avgmi,mj∈g,i GCSg=maxp∈PgCSGg,p 其中,m是群組g的成員,cm,p是群組成員m對產品p的評論內容。CSGg,p捕捉到了產品p的群組g成員之間的平均內容相似性。 組內成員內容相似性(GMCS)。內容相似性的另一種呈現為群組g內的成員不認識彼此,只能復制或修改自己先前的類似產品評論。如果該組的多個成員都這樣編寫評論,則該群體更可能是在進行虛假評論活動。這種行為可以通過下面的模型捕獲: CSMg,m=avgpi,pj∈Pg,i GMCSg=∑m∈gCSMg,mg 當組內所有成員完全復制自己的不同產品Pg上的評論時,該組GMCS值為1,即表示虛假評論行為。CSMg,m表示成員m在所有產品集合Pg中的平均內容相似性值。 (3)針對性行為。消費者在發表產品評論時,都是在使用商品之后進行的,沒有刻意去針對某商品發布或不發布評論,即評論對象是自己購買的商品。但是,虛假評論者的評價對象往往是將要進行推廣或詆毀的產品,針對性比較強,例如只對特定的產品、品牌或店鋪進行評論。針對性行為特征可以通過品牌偏離分、離群產品評論比例和評論密度進行量化。 品牌偏離分(BDS)。計算評論者在不同品牌上評論數的分布差異。xi代表第i個品牌,hxi為第i個品牌被評論的概率,采用熵值衡量。 fBDS=HX=∑nipxiloghxi 離群產品評論比例(ROPR)。離群產品指只被一個評論者評論的產品。該特征計算評論者m所有評論中是離群產品評論的比例。 fROPR=r∈Rm:r是離群產品評論Rm 評論密度是計算評論者在特定產品類別、店鋪或時間段上進行評論的密集程度。包括產品類別密度(CD)、店鋪密度(SD)和時間密度(TD)。 fCD=numReview(c)rRm;fSD=numReview(s)rRm;fTD=numDays(m)Rm (4)早期評論行為。虛假評論者傾向于在產品剛上線時對其進行評論,可以最大程度的影響后來消費者對產品的印象。當群組g是第一個評論產品的,那么該組完全可以劫持產品的總體評價,以達到本次虛假評論目的。 早期評論(ETF)。早期評論是計算評論者m是多早評論產品p的。可以通過計算m最近的評論時間Lg,p和產品上線時間Ap的差值來衡量早期評論行為程度。β為早期評論閾值,估計值為7個月。 GTFg,p=0,(Lg,p-Ap>β)1-Lg,p-Apβ GETF(g)=maxp∈PgGTFg,p 首條評論比例(RFR)。計算評論者m的所有評論中是首條評論的比例。如果某個群組或成員經常性的發表首條評論,那么很有可能存在虛假評論行為。 fRFR=r∈Rm:r是第一條評論Rm (5)異常評分行為。虛假評論者通過給出與正常評論者不一致的、甚至極端的評分,達到提高或拉低評論對象綜合評分的目的。如果群組g的成員多數給予極端的評分,那么存在虛假評論行為的可能性比較高。同時,也可以通過計算積極評論比例和評分偏差來量化異常評分行為。 極端評分(EXT)。判斷評論者m是否總是對特定產品p給出極端評分。在5星(分)評價體系中,1星(分)或5星(分)為極端評分。r表示評論文本。 fEXT=1,(rm,p(rm))∈1,50,(rm,p(rm))∈2,3,4 積極評論比例(PPR)。計算評論者m傾向于發布積極情感評論的程度。在5星(分)評價體系中,評分≥4星(分)的評論為積極評論。 fPPR=r∈Rm:r∈4,5Rm 評分偏差(RD)。當群組內成員的評分偏離與真實評論者很多的時候,會發生有嚴重傷害的群體虛假評論。該偏差越大,這個群組就越糟糕。 Dg,p=rp,g-r-p,g4 RD(g)=maxp∈PgDg,p 其中,rp,g和r-p,g分別是由產品p由g組成員給出的平均分和非g組成員給出的平均分。D(g,p)為所述組在單一產品p上的偏差。如果沒有評論者評論產品p,那么r-p,g=0。 3?虛假評論防治整治 研究虛假評論特征是為了更好的檢測虛假評論、肅清網絡環境,但要更有效、更徹底的防治虛假評論,還需要各利益相關者加強合作,群防群治。 (1)法律層面監管。我國《電子商務法》的正式施行已一年多,網絡購物秩序更加有序,但仍然存在一些漏洞,很多商家及消費者都有意或無意、主動或被動地參與到虛假評論充斥的競爭環境中。從法律監管的宏觀層面:應逐漸加大處罰力度,隨時為商家、平臺、消費者等利益相關方提供法律武器,制裁虛假評論中介或專門機構;應加強對消費者評論自由的法律保護,遏制“差評威脅”的發生。 (2)平臺規則制定。虛假評論展示的自媒體、交易平臺較多較繁雜,應該具體發布實施相對應的規則,才能夠最大程度上限制虛假評論的發生概率。 (3)商家自覺行動。商家應該自覺遵守公平競爭的市場規則,從自身做起不利用“刷單”“水軍”等方式為自己制造虛假積極評論,更要杜絕使用虛假消極評論詆毀同行商家;另外,要學會用正確的方式應對惡意評論,比如投訴平臺、通過掌柜回復給予詳細情況的解釋等。 (4)消費者自我保護。消費者作為虛假評論主要的接收者和“受害者”,應在不去從事相關不當行為的前提下,提高法律素養;應提高鑒別評論真假的能力,對各個平臺上如知乎回答、小紅書測評、微博種草及直播間推薦中的評論保持理性的態度,提高媒體素養,形成自我保護意識和能力。 4?總結 隨著新媒體的快速發展,虛假評論數量也在不斷增長,虛假評論組織或個人也會一直存在,虛假評論也會變得越來越復雜,越來越難識別。對于許多企業來說,尤其是小微型電子商務企業,自己發布虛假評論或聘請專業虛假評論組織發布虛假評論,已經成為市場營銷和品牌推廣的一種廉價、有效的方式。幸運的是,各大電子商務平臺都在積極通過計算機算法檢測、打擊虛假評論,但現有的算法技術難點在于如何在評論發布之后立即識別虛假評論,因為算法需要足夠的證據來判斷評論是否可疑,這可能需要花一段時間來積累證據。而這段時間,恰恰是虛假評論快速發酵和起效階段。虛假評論都是由人來撰寫、發布的,雖然他們可能會猜測出算法所使用的檢測策略,但是也會不可避免的表現出與真實評論者的語言、行為等特征區別。因此,研究虛假評論的特征,是解決虛假評論一系列問題的一把金鑰匙。本文從虛假評論的目的和動機出發,對當前虛假評論特征研究的關鍵問題進行分類總結,包括評論文本特征、評論者行為特征及其相對應的量化方法,為該領域進一步的研究提供研究方向、思路和方法上的參考和借鑒。不過,本文沒有對評價對象的特征進行歸納總結,下一步將對其進行梳理,進一步完善虛假評論特征體系,最終為虛假評論的有效識別及整治防治措施的制定提供理論支撐。 參考文獻 [1]劉璇.虛假評論對消費者購買意愿的影響研究[D].南京:南京大學,2015. [2]劉兵.情感分析——挖掘觀點、情感和情緒[M].北京:機械工業出版社,2018:205. [3]方清.虛假評論對網絡評論感知有用性的影響研究[D].杭州:浙江工商大學,2017. [4]吳佳芬,馬費成.產品虛假評論文本識別方法研究述評[J].數據分析與知識發現,2019,3(09):1-15. [5]汪建成,嚴馨,余正濤,等.基于主題-對立情感依賴模型的虛假評論檢測方法[J].山西大學學報(自然科學版),2015,38(01):31-38. [6]宋海霞.融合內容及行為的虛假評論檢測方法研究[D].昆明:昆明理工大學,2014. [7]Xie S,Wang G,Lin S,et al.Review Spam Detection via Temporal Pattern Discovery[C]//Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Beijing,China.ACM,2012:823-831. [8]Lim E P,Nguyen V A,Jindal N,et al.Detecting Product Review Spammers Using Rating Behaviors[C]//Proceedings of the 19th ACM International Conference on Information and Knowledge Management,Toronto,Canada.ACM,2010:939-948. [9]Li Y,Feng X,Zhang S.Detecting Fake Reviews Utilizing Semantic and Emotion Model[C]//Proceedings of the 3rd International Conference on Information Science and Control Engineering.IEEE,2016:317-320. [10]Liang D,Liu X,Shen H.Detecting Spam Reviewers by Combing Reviewer Feature and Relationship[C]//Proceedings of the 2014 International Conference on Informative and Cybernetics for Computational Social Systems.IEEE,2014:102-107. [11]Mukherjee A,Kumar A,Liu B,et al.Spotting Opinion Spammers Using Behavioral Footprints[C]//Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Chicago,Illinois,USA.ACM,2013:632-640. [12]Jindal N,Liu B.Opinion Spam and Analysis[C]//Proceedings of the 2008 International Conference on Web Search and Data Mining,Palo Alto,California,USA.ACM,2008:219-230.