黃欣欣 年梅 胡創業 范祖奎


摘 ?要: 為了有效地提取評論文本特征,進行虛假信息的檢測,采用卷積神經網絡的方法進行虛假評論的識別。文章基于擴展Ott黃金數據集,通過word2vec將評論語料轉換為詞向量作為CNN的輸入;按照虛假評論檢測的實驗效果,確定了卷積神經網絡的向量維度和網絡深度結構,形成卷積神經網絡的優化模型。在同一數據集上與LSTM和GRU算法模型進行了對比實驗,結果表明,卷積神經網絡在虛假評論檢測中有效。
關鍵詞: 虛假評論檢測; CNN; 擴展Ott黃金數據集; word2vec; 網絡結構
中圖分類號:TP393 ? ? ? ? ?文獻標志碼:A ? ? 文章編號:1006-8228(2019)11-41-05
Abstract: In order to extract the features of comment text effectively and detect false information, this paper uses the method of convolutional neural network to recognize false comment. With the extended Ott gold data set, the comment corpus is converted into the word vector by word2vec as the input of CNN. According to the experimental results of false comment detection, the vector dimension and network depth structure of convolution neural network are determined to form a optimized model of convolution neural network. A comparative experiment on the same data set is carried on with LSTM and GRU algorithm models, the results show that the convolutional neural network is effective in false comment detection.
Key words: false comment detection; CNN; extended Ott gold data set; word2vec; network structure
0 引言
隨著電子商務的快速發展,線上購物已經成為人們生活中不可或缺的一種購物方式。由于產品評論和商家銷售額存在很大的利益關系,因此誘發部分商家通過不公平的競爭手段構造虛假評論,嚴重影響了消費者的購物體驗。虛假評論是人為的根據商家需求撰寫的產品評論,具有迷惑性大、難以識別的特點。為了提高消費者的線上購物體驗,構造公平的電子商務發展環境,迫切需要找到一種有效的虛假評論檢測方法來抵制購物平臺中的虛假評論,維護公平穩定的購物環境。
Jindal和Liu[1-2]首次提出了虛假評論的概念,并將其分為三類:不可靠評論、無用評論和品牌評論。Mukherjee[3]等人采用詞袋特征和詞性特征,使用SVM分類器,在從Yelp網站獲取的酒店和飯店數據集上取得了65.6%和67.8%的準確率。張恒[4]在Myle公布的虛假評論黃金數據集中采用多種提取特征的方法來提取評論文本特征,然后通過傳統的支持向量機模型、邏輯回歸模型、隨機森林模型進行建模訓練,對比試驗結果取得了87.4%-90.4%的準確率。Li[5]等人采用稀疏相加生成模型對評論是否為虛假評論進行預測。Mukherjee[6]等人利用虛假評論者發布評論的頻率構建模型挖掘發現可能性最大的虛假評論者。李靜[7]在虛假評論檢測中采用了增加主題傾向的詞向量表示方法,提出主題-動態卷積神經網絡識別方法,取得了83.7%的準確率。Wang[8]等人提出了一種評論網的概念,通過研究評論者,評論和店鋪三者之間的關系來構建評論網。
卷積神經網絡(CNN)在很多領域中都表現十分優異[9]。與普通的神經網絡結構相比,卷積神經網絡多了一個特征抽取器由卷積層和子采樣層構成,可以有效的提取評論特征并進行識別,為虛假信息檢測提供了技術基礎。
1 卷積神經網絡模型
卷積神經網絡(CNN)是對傳統神經網絡的改進,主要由輸入層(又稱嵌入層)、卷積層、池化層和全連接層四個網絡層結構組成。經典的卷積神經網絡結構如圖1所示。
1.1 輸入層
輸入層又稱嵌入層。該層將評論數據數字歸一化至[0-1]區間[10],以方便后續處理。本文首先將擴充的ott數據集使用Word2Vec詞向量工具進行訓練,將詞語轉換為詞向量的格式。為了保證所有評論的長度一致,以評論中最長評論的詞語數量為參照,將每個詞語的詞向量縱向堆疊(不足的補0)和詞向量的維度作為二維矩陣平面實現定長輸入。
1.2 卷積層和池化層
卷積層的功能是對輸入數據進行特征提取,主要包含局部感知野、權值共享和多卷積核三方面的特性,前兩者可以有效的降低數據維度,后者可以再次提取特征。池化層對卷積層提取的特征再次壓縮提取,保留最顯著的特征進行分類,降低特征維度,減少過擬合。常用的池化層策略有兩種,平均值和最大值策略。
雖然本文設計的模型相對與其他模型準確率有一定的提高,但是本文考慮識別因素較為單一。下一步作者將會繼續研究在虛假評論檢測中增加注意力機制,將評論文本內容、評論情感極性及程度融合在一起,利用神經網絡模型進行虛假評論檢測,相信會取得更佳的效果。
參考文獻(References):
[1] Nitin Jindal and Bing L.iu. Opinion spam and analysis [C].In: Proceedings of the 1st ACM International Conference on Web Search and Data Mining.2008:137-142
[2] Nitin Jindal and Bing Liu. Review spam detection[C]. In: Proceedings of the 2007 International conference on the World Wide Web.2007:1089-1090
[3] Arjun Mukherjee and Vivek Venkataraman and Bing Liu and Natalie Glance.What yelp fake review filter might be doing//Proceedings ofthe International AAAI Conference on Web and Social Media.Washington, USA,2013:409-418
[4] 張恒. 基于深度學習的虛假評論識別方法研究[D].哈爾濱工業大學,2017.
[5] Li J,Ott M,Cardie C,et al.Towards a General Rule for Identifying Deceptive Opinion Spam[C]//Meeting of the Association for Computational Linguistics. Bal-timore, MD,USA:Association for Computational Linguistics,2014:1566–1576
[6] Mukherjee A,Liu B,Wang J,et al. Detecting Group Review Spam[A].Proceedings of the20th International Conference Companion on World wide Web[C].ACM,2011: 93-94.
[7] 李靜.基于卷積神經網絡的虛假評論識別技術的研究[D].北京郵電大學,2017.
[8] Wang G,Xie S,Liu B. Review Graph Based Online Store Review Spammer Detection[A]. Data Mining( ICDM) ,2011 IEEE 11th International Conference on[C]. IEEE,2011:1242-1247
[9] Kalchbrenner N,Grefenstette ?E,Blunsom P.A convolutional ?neural ?network ?for ?modelling sentences[J].ar Xiv preprint ar Xiv:1404.2188,2014.
[10] Ng,A.,Kian,K.and Younes,B.Convolutional Neural Networks,Deep learning.Coursera and deeplearning.ai.2018
[11] Pennington J,Socher R,Manning C.Glove:Global Vectors for Word Representation[C]//Conference on Empirical Methods in Natural Language Processing.2014:1532-1543