郭愷強 曹麗

如今在網絡社會的高速發展下,電商平臺也迎來了高峰,給人們日常生活的購買也提供了較為快捷的方式,人們越來越喜歡在網上購物,網絡購物如今已成為人們生活的一份子,基于大數據時代的背景下,很多電商網站不僅給人們帶來了許多的方便,但是由于網絡的復雜性與繁多進而導致了消費者很難對所要購買的商品有一個真實的了解性,許多電商網站秉承著消費者為上帝這一原則,但是隨著網絡時代的發展,也有許多電商在利益的誘惑下,會通過雇傭刷好評人員對自家店鋪商品進行虛假好評等多種現象,同時大部分電商網站也允許消費者對所購買的商品進行言語評論,書寫所購買到的商品的感想,例如產品質量的好壞,物流速度的快慢,客服的態度進行評價,虛假評論的識別方式大部分都是通過評論者的言語以及圖像文本的形式特征來進行識別,網絡的迅速發展提高了社會的經濟發展,同時也對于電商網站也遭受了不平等的形式。
隨著計算機科技技術的發展,電商時代也越來越豐富,很多平臺為了店鋪的利潤,對于消費者也開放了多種評論功能,就目前而言,大部分消費者的購買商品方式多半是源自于評論區的評論, 據市場研究公司 Jupiter Research 的調查結論,超過75%的消費者在線購買商品之前,會參考在線評論信息。但是,在經濟利益的驅動下,有些用戶會對商品發表欺騙性的評論信息或者雇傭專門人員來撰寫虛假在線評論,從而蓄意提升自己或打壓、誹謗他人的產品。在對在線評論缺乏有效監管的情況下,處于各種目的的虛假在線評論充斥著互聯網,模糊事情的真相,干擾人們的判斷。基于此,提出基于語義分析的電商虛假評論識別方法,在顧客言語評論的基礎上進行評論語言的語義分析方法,能夠更好的識別惡意評論,提升商品的準確性。
虛假評論(Fake Review)也稱為Opinion Spam、Review Spam,是由一些用戶蓄意發表的不真實的、有欺騙性質的評論,從而提高或者毀壞某一產品的聲譽,誤導潛在消費者,使其作出風險性的購買決策。虛假評論包括正面或負面的不真實評論、與產品無關的評論。發表此類評論的用戶稱為Review Spammer、Opinion Spammer 或者Fake Reviewer。這一群體則被稱為Spammer Group,他們針對某一商品共同發布旨在宣傳或詆毀該商品的虛假言論。
虛假評論可以分為三類:(1)作弊評論(Untruthful Opinions),指蓄意提高或毀壞產品聲譽的不真實的評論,過度吹捧產品的評論;(2)品牌效應評 eviews on Brands Only),指評論的對象僅僅是品牌、生產商、銷售商等與產品本身無關的評論;(3)非評論信息(Non-reviews),如廣告、讀者的問題和回復等。根據文字層面的相似度,虛假評論還可以分為重復評論(d plicate review)和非重復評論(singeltonreview)。根據語義層面的相似度,可以分為相同語義評論和不同語義評論,從語義褒貶層面可以分為贊揚性評論和詆毀性評論,從語義與主題相關性層面,可以分為主題相關評論和主題無關評論,還可分為宣傳造勢類、惡意詆毀類、以優抵差類。
部分學者將“虛”和“假”分開定義,其中“虛”是指濫發沒有任何價值的評論信息。等同于無關評論以及非評論信對于消費者和商家的誤導作用較弱,在平臺的意見挖掘系統中也極易識別,并不會影響評論的情感分析和效用排序系統的穩定性。由于信息具有時效性,在一個較長的時間段,商家的服務可能發生了改善,之前的差評也失去了對消費者決策的指導意義,這種失效的評論也構成虛假評論。
一、做好有關隱含語義分析的電商虛假評論識別的相關工作
顧客對于所要購買的商品參考評論進而決定,是對于購買決策的關鍵性,當然,在這一基礎下,并不是所有的商品評論都是可信度高的,很有可能是虛假評論,當然也有些評論是真實的顧客所書寫的,也有些評論是刷出來的虛假評論,虛假的評論對于顧客決定購買商品的正確方式是存在一定的誤導性的,因此,針對虛假評論這一問題的分析是很有必要的,做好虛假評論的主要識別方法要從評論者的特征以及言語來研究,針對評論內容的長度和情感詞等多個因素,把評論者和內容相互融合進行研究虛假評論是當前評論方法較好一種方式。比如:2012年,學者便使用基于概率的上下文無關文法規則特征,用支持向量機分類器進行真實與虛假在線評論分類,并在標準數據集上獲得了驗證。還有研究側重分析文本內容中蘊含的情感特征,如果情感表現得過于吹捧或詆毀,則存在虛假在線評論的可能性。但是 Hu 和 Liu發現評論內容及情感特征對識別其真實性的作用有限,因為虛假在線評論會在文辭上模仿真實評論。學者李霄等從評論、評論者、商品三個方面選擇 11 個特征值,使用支持向量機模型中的核函數進行虛假在線評論的識別,對識別效果較好的核函數中的參數進行優化,從而提高了識別準確率。
再者就是根據評論者的等級程度,有些評論者的等級越高,內容也較為全面,感強詞也比較豐富,對此這一評論要謹慎結合,由于評論中的情感詞個數決定了情感的背離度,最后使用邏輯來分類。具體來說,可運用聯結評論者、評論、店家的社會圖譜來分析評論者行為,通過分析評論者信譽水平、評論內容可信度、店家信用度之間的強化關系,量化評論者可信度,從而識別虛假在線評論者。線評論者。最后,虛假評論者會進行分段式的虛假評論內容的提交頻率,每個時間段的虛假評論需要提交夠一定詞數的虛假評論才能夠完成任務,對于虛假評論內容的研究主要是利用評論者的特征信息,來顯示確定某一特征的結合的虛假評論,針對虛假評論這一關鍵性問題,采取利用隱含語義分析的方法來進行特征的隱含選擇條件,主要展現在兩個方面,第一方面是通過用戶與評論的顯示方式來得到評論可信度的一個排序,第二個方面則是通過奇異值的分解化進而對評論內容的處理使用概率隱含語義分析方法的隱含識別的方式,緩解虛假評論內容的高維度和稀疏度。一般來講,所有的語言都具有它本身相對獨立的韻律與詞匯組合等,有些虛假評論者會利用詞圖的輸出模式來夸大商品存在的優點之處,較大程度提高商品的利益與消費者的好感。基于此,針對特征關鍵詞匯進行篩選,減低特征的關鍵詞匯表達形式。