陳 璐 趙 衍 尚珊珊
(1.上海外國語大學國際工商管理學院,上海 201620;2.上海外國語大學信息技術中心,上海外國語大學電子政務國際化研究中心,上海 200083)
基于加權詞頻的I-Match算法改進及其應用分析
——以電商網站為例
陳璐1趙衍2尚珊珊1
(1.上海外國語大學國際工商管理學院,上海201620;2.上海外國語大學信息技術中心,上海外國語大學電子政務國際化研究中心,上海200083)
介紹網絡產品重復評論研究現狀;基于I-Match算法,提出一種基于TF詞頻的重復評論的改進算法;將該算法對某電子商務網站的產品評論進行重復性檢測,獲得了較理想的效果。
網絡評論;重復評論檢測;I-Match算法;詞頻;評論傾向
對文本內容重復性自動檢測技術的研究最早開始于20世紀90年代。從算法的角度可以將文本內容重復性檢測技術分為基于語法和基于語義兩大類。
1.1基于語法的文本重復性檢測
1.2基于語義的文本重復性檢測
2.1I-Match算法原理
使用I-Match算法對網絡產品評論進行重復性檢測的過程如圖1。

圖1 I-Match改進算法流程圖

2.2I-Match的改進算法
盡管I-Match算法能夠較高準確率的進行識別重復評論檢測但檢測過于籠統存在一定的誤判率。根據網絡產品無價值評論的特點對重復評論進行進一步信息挖掘識別評論是否為無意義評論、自我吹噓評論或者惡意貶低評論。
采用人工或者機器學習的方式建立和維護三種類型詞庫:無意義評論詞庫、褒揚評論詞庫和貶低評論詞庫。并根據單詞的慣用程度對每一類型單詞進行分級并為每一級設置權重。本文使用的詞庫如下:

表1 無意義評論詞庫

表2 褒揚評論詞庫

表3 貶低評論詞庫
改進算法的處理過程如下:
(1)采用I-Match算法識別所有重復的產品評論;
(2)計算每一條評論中單詞出現的頻率:

(其中ni,j表示該詞i在評論j中出現的次數表示所有詞出現的次數之和)

(其中Qijk表示評論j中單詞i的k類型傾向權值wik為單詞i在詞庫k中的權重)

(其中Qjk為文檔j的k類型評論傾向權值)
(5)取三種類型評論集合的非交集的非交集為真正沒有價值的產品評論。
本文針對國內某電子商務網站中目前熱銷的iphone6s64G相關評論(截止時間2015年10月21日10:57數據)運用改進的I-match算法對評論進行重復性檢測研究。處理過程如下:

表4 產品評論部分截圖

表5 選取的研究對象以及評論表
(2)運用中科院ICTCLAS開源[12]中文分詞算法對評論進行分詞形成評論的單詞集合。

表6 部分詞的IDF值以及按降序排列表

表7 部分評論的特征詞典

表8 部分重復評論的三種權值列表

表9 iPhone6s 64G無意義、褒揚和貶低重復評論數

表10 查全率和查準率分析
本文主要針對電商網站網絡產品的重復評論識別進行研究。將廣泛使用的I-Match算法應用到網絡產品評論的重復性檢測。并針對網絡評論的特點基于三種類型的詞庫對I-Match重復性檢測結果進行評論的傾向性識別。改進后的I-Match算法提高了檢測結果的準確性降低了誤判率。
[1]Manber U.Finding similar files in a large file system[C],Proceedings of the Winter USENIX Conference1994:1-10.
[3]Heintze N.Scalable document fingerprinting[C], Proceedings of the2nd USENIX Workshop on Electronic Commerce.1996.
[9]Garcia-Molina HGravano LShivakumar N.dSCAM:Finding document copies across multiple databases[C/OL]. Proceedings of the4th International Conference on Parallel and Distributed Systems(PDIS'96).1996.
[11]Gurmeet Singh Manku, Arvind Jain, Anish Das Sarma.Detecting Near-Duplicates for Web Crawling[C].www2007Track:Data Mining.2007
The Improved I-Match Algorithm based on the Analysis of Weighted Word Frequency and Its Application in the Electronic Commerce Website
Chen LuZhao YanShang Shanshan
Study the recent status of network product duplication.Based on the I-Match Algorithm,proposing an improved algorithm based on weighted word frequency.At last, this improved algorithm is applied into the detecting of a certain electronic commerce website and gets a good result.
network review; detection of repeated comments; the I-Match algorithm;weighted word frequency;comment tendency
TP391
A
1005-9679(2016)01-0051-04
本研究得到2013年上海市哲學社會科學規劃課題(編號:2013ETQ001)、上海市教育委員會2014年科研創新項目(編號:14ZS070)、上海外國語大學“2013教學科研團隊”項目、上海外國語大學“2014青年教師創新團隊”項目(編號:QJTD14ZY001)、上海外國語大學高層次人才發展計劃(編號:KX171260)資助。
陳璐上海外國語大學信息管理與信息系統專業本科生; 趙衍上海外國語大學信息技術中心上海外國語大學電子政務國際化研究中心副教授博士;尚珊珊上海外國語大學國際工商管理學院講師博士。