999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網絡交易拉圾評論智能識別研究

2016-11-19 16:22:21趙靜嫻
現代情報 2016年4期
關鍵詞:數據挖掘

〔摘 要〕定義垃圾評論邊界,利用智能算法有效識別垃圾評論。對垃圾評論進行內部細分,構建評價指標體系,并提出一種改良決策樹方法對垃圾評論進行智能評估,并提供可讀性規則。基于Matlab語言實現,通過實證研究,驗證所構建的垃圾評論識別模型能夠達到較高預測精度。提供了一種高效的多在線評論多分類智能識別方法,為垃圾評論的分類監管治理提供技術支持。

〔關鍵詞〕垃圾評論;數據挖掘;決策樹;神經網絡

DOI:10.3969/j.issn.1008-0821.2016.04.011

〔中圖分類號〕G206.2 〔文獻標識碼〕A 〔文章編號〕1008-0821(2016)04-0057-05

〔Abstract〕The paper defined the boundary of review spam,used intelligent algorithms to effectively detect review spam.The internal subdivision of review spam,evaluation index and an improved decision tree method for intelligent evaluation of review spam with readable rules are proposed.The empirical research based on Matlab showed the model can achieve higher prediction accuracy.The paper provided technical support for the review spam classification regulatory governance through proposing an efficient method for intelligent multiple classification of online reviews.

〔Key words〕review spam;data mining;decision tree;neural network

通過互聯網進行商品交易已經成為最近十年以來迅猛發展的商業模式,深刻而迅速的改變了傳統商業模式。消費者可以通過查看以往交易購買者對所購商品和服務的評價來判斷賣家商品和服務的好壞,是互聯網交易不同于傳統商業模式的優勢之一。成交評論是后繼消費者對擬購商品進行判斷的重要依據之一,也是商家有針對性的改進服務,改進產品促進銷售的根據,因此客觀真實有效的交易評價是促進互聯網商業形態健康發展具有重要意義。

另一方面,各種交易評論由評論者主觀輸入,由于各種原因出現了多種無效,無用,甚至虛假的垃圾評論,對互聯網經濟的發展產生了負面影響。同時,由于交易評論對后繼交易判斷的重要性,也出現了很多故意進行虛假評論以促進或打壓特定賣家的行為,對互聯網經濟的發展的負面影響更為突出。因此,如何在海量的評論中識別并篩除垃圾評論,成為近期研究的熱門課題之一[1]。

本文以海量評論信息中垃圾評論的有效智能識別為目標,首先發展了以往相關研究中對垃圾評論的認識,明確了垃圾評論的種類和判斷標準,然后構造一種神經網絡與決策樹相結合的智能算法,發揮兩種算法的優勢達到高效準確識別垃圾評論的目的。最后,通過實證分析驗證了方法的有效性和準確性。

1 相關研究

近年來,針對垃圾評論識別的研究在國內外逐步開展,Jundal在2007年最早進行了相關研究,將垃圾評論劃分為虛假評論、無關評論和非評論,并運用Logistic回歸模型對圖書、音樂等其他制造類產品垃圾評論進行了識別[2]。Ott等以旅館評論為研究對象,通過評論內容和語言特征,從心理學、文本語料等方面分析垃圾評論的特征,用SVM方法對旅店類垃圾評論進行了識別研究[3]。Mukherjee等在2011年使用頻繁挖掘模式尋找被選群體,再通過計算垃圾信息值,使用SVM模型識別群體垃圾評論[4]。隨后Mukherjee等在2013年基于內容相似度、最大評論數、評論重復度等評論人行為特征通過聚類分析對垃圾評論進行了識別[5]。國內方面,何海江對利用Logistic回歸模型和利用SVM支持向量機的垃圾評論識別方法的性能進行了比較[6]。陳燕方通過對文本語料進行低可信度判斷,提出了一種基于評論產品屬性的情感傾向評估模型[7]。李霄等使用支持向量機模型對垃圾評論進行了識別,并通過與Logistic模型對比證明了機器學習算法的優勢。目前大多數研究僅對評論進行了垃圾評論與非垃圾評論的二分類[8]。孟美任等雖然通過CRFs模型對在線商品評論進行了四分類識別,但識別的標準僅為評論的可信程度[9]。而實際上從欺騙性、干擾性、無效性的不同角度,垃圾評論可以分為不同的類別,不同類別之間在發布動機、危害程度、分辨難度上都有所不同,相應的治理方式也應該有所區別。因此,本文將從多維度對垃圾評論進行分類,并給出基于神經網絡與決策樹相結合的在線評論四分類模型,為不同類別的垃圾評論識別和治理提供技術支持。

2 在線評論的類別劃分

根據評論發布者的目的、以及評論影響程度等方面的不同,可以將在線商品評論分為以下4類:

2.1 非垃圾評論

該類評論是消費者在購買、使用商品后,給出的真實的、客觀的、詳盡的體驗描述,可以為后續消費者了解產品、決定是否購買提供參考,也可以為商家了解自我,有針對性的提升自我提供幫助,同時也是構建良好的、公平的網絡購物環境的重要組成部分。

2.2 欺騙性評論

評論發布者出于推銷或詆毀的目的,發布的與事實不相符的虛假性描述,或者是在極端的情感狀態下,書寫的過于主觀的不真實評論。虛假評論中介與職業虛假評論者的存在使得大量的虛假評論充斥著網絡,給消費者帶來了極大的誤導,嚴重干擾了電商的公平競爭環境,進一步還會對整個網絡購物平臺的生存帶來不可估計的沖擊[10]。

2.3 干擾性評論

此類評論類似于垃圾郵件,往往是出于廣告宣傳或者是單純發泄的目的,因此常常包含電話號碼、QQ號碼或者網站鏈接地址。該類評論內容與所評價商品無關,對消費者誤導作用較小,較易識別。

2.4 低效用評論

該類評論字數較少,常常是由于超出評價時間而由系統自動給出的系統性評價,或者是消費者為了賺取某些積分而敷衍性給出的并不涉及具體體驗感受的簡短評價。例如:好、不錯、沙發等。

3 基于神經網絡與決策樹相結合的垃圾評論識別方法3.1 特征選擇

特征屬性的選擇是識別方法研究的基礎,不同商品或電商網站的特征決定了其評論的、特征可能有所不同,比如對電子產品的評論中對參數的描述可能會多一些,而食品類產品可能對送貨速度更為敏感。增加屬性選擇的范圍,并篩選針對特定交易類型較為有效的特征屬性將對提高辨識準確度降低運算量有所幫助。依據垃圾評論特征和影響因素的相關研究,本文提出特征屬性池的概念。特征屬性池是和垃圾評論識別相關的有可能表現垃圾評論特殊性的屬性的集合。針對不同商品類型,不同交易平臺,有效的特征屬性可能不盡相同,為了避免重復的人為選取特征屬性造成的主觀性影響、計算效率低等問題,本文在建立特征池的基礎上,由后續的智能算法自主選取特征屬性并建立識別模型。

目前的研究大多從評論內容和評論人兩方面考慮,具體包括評論內容的翔實程度、評論的語法語義和結構特征、觀點的傾向性、評論風格、時效、情感極性、評論者背景經驗等。另外根據龔思蘭等對在線商品信息可信度影響因素的實證研究[11],本文增加了文本情感傾向與評分的匹配度特征以及商家自身活動特征,共設定22個評論特征屬性,如表1所示。

3.2 評估方法

決策樹是一種樹形分類器,通過各個節點對屬性的選擇最終得到符合誤差標準的樹形分類結構,相比于其它分類計算模型,決策樹的突出特點是可以輸出可讀性規則。但是煩瑣的離散化和后剪枝步驟計算代價較大,針對高維大數據庫數據效率不高。為了對垃圾評論進行高效分類并且輸出可讀性規則用來監控分析網路交易從而有針對性的采取管理措施,同時避免后剪枝等計算,本文提出一種神經網絡與決策樹相結合的垃圾評論識別算法模型。該方法利用神經網絡無須先驗知識,主觀輸入少的特點對評論的特征屬性集進行裁剪選擇,降低了數據維度,同時避免了決策樹后剪枝等復雜計算。其具體步驟為:

3.2.1 對連續屬性運用BMIC算法離散化

BMIC離散化算法是一種基于以正規增益熵作為離散化標準的優化離散化算法。它證明了以正規增益為離散標準的離散區間分割點集合屬于切點集合,進而通過合并臨界點和小數點區間直接得到離散分割點避免了大量計算,而且可以根據分類結果自動生成最優離散區間個數不需要參數設定[12]。

3.2.2 按照歸一化的輸入輸出關聯值將特征池中的所有屬性排序

該方法用樣本值的變化而引起的輸出變化的之和的歸一化值UIOC作為衡量數據屬性重要性的標準。屬性的UIOC值越大屬性越重要。UIOC的計算公式為:

UIOC(k)=1max(A)-min(A)∑x(i,k)-x(j,k)×signy(i)-y(j) i≠j

(1)

其中UIOC(k)為第k個屬性的輸入輸出關聯值,x(i,k),x(j,k)分別為第i,j個樣本的第k個條件屬性值。y(i),y(j)分別為第i,j個樣本的決策屬性值。max(A)為屬性A的最大值,min(A)為屬性A的最小值。

3.2.3 用徑向基神經網絡(RBF Neural Networks)對屬性進行篩選

RBF是一種前饋三層網絡,其神經元數量根據不同任務需要而自適應選定與初始賦權無關,具有良好的泛化能力和快速收斂的特性,適宜處理難以解析的規律性。取UIOC值最大的前50%屬性用RBF神經網絡進行訓練及分類并和增減前后屬性的RBF神經網絡的分類準確率想比較,直到找到增減屬性后分類準確率均下降時停止篩選。分類準確率最高的一組屬性作為建立決策樹的屬性集合。

3.2.4 在篩選后的屬性集合上建立正規增益為屬性選擇標準的決策樹

NG(A,S)=∑4t=1-pilog2pi-∑j∈value(A)SjS∑4t=1-pilog2pilog2n

(2)

其中pi是屬于類別t的樣本占總樣本數的比例。Value(A)為特征A的取值集合。S和Sj分別為樣本總數以及特征A取值為j的樣本個數。

3.3 垃圾評論識別流程

本文首先采用中科院計算技術研究所的ICTCLAS工具,并通過加入HowNet情感詞典和自定義詞典對評論語料進行分詞和詞性標注等預處理,再運用神經網絡與決策樹相結合的模型對數據進行分類。具體流程如圖1所示:

4 網絡交易垃圾評論識別實證研究

4.1 實驗準備及實驗過程

實驗材料準備階段首先根據Alexa中國電商類網站2014年的排名,選擇前5名的如下電商網站作為實驗數據采集的來源。

設定網絡交易商品為數碼相機、服裝、圖書3類,搜集2014-2015年的商品評價,選擇其中的11 000條評論作為實驗數據。選擇3組志愿者,每組3人,在組內通過討論人工標注評論類別,再對照3組結果,將人工標注結果不一致的評論去除,最終得到評論9 420條,其中非垃圾評論4 721條,欺騙性垃圾評論1 385條,干擾性垃圾評論659條,低效用垃圾評論2 655條。隨機生成70%樣本作為訓練集,30%作為驗證集。所有實驗均在matlab軟件上實現。

4.2 實驗結果分析

實驗是對每個驗證集子例屬于哪一類評論做出判斷,屬于四分類問題,文本識別常用查準率、查全率、綜合F值3類性能評估指標如表3所示。由實驗結果可以看出,本文方法對在線評論類別的識別效果較好,2 826個測試樣本中有2 276個歸類正確,總體準確率達到80.5%。在4類樣本中,欺騙性垃圾評論是隱蔽性最強、識別率最低的,容易被誤判為非垃圾評論。這是由于有些詆毀或推銷目的的造假者為避免被發現,會在無關痛癢的問題上做細微的與自己目的相反的情感評價,以保持文本情感平衡。

為了進一步說明本文方法的有效性,將本文實驗數據中的欺騙性、干擾性及低效用垃圾評論統一歸納為垃圾評論,再運用文獻[8]中的基于SVM以及Logistic回歸的方法進行垃圾評論識別,對比實驗結果見表4。可以看到垃圾評論的查準率、查全率、綜合F值以及評論總準確率方面,本文模型分別高于SVM模型0.9、2、1.5和3.3個百分點,另外值得注意的是文獻[8]中的SVM及Logistic回歸模型只是對商品評論進行了二分類,而本文則是進一步對垃圾評論進行了不同類別的劃分,因此在難度上要高于簡單的垃圾與非垃圾的二分類。如表2最后一行所示,如果只要樣例被正確劃分為垃圾評論,而不必考慮具體是欺騙型、干擾性還是低效用性垃圾評論,則本文試驗結果在查準率、查全率、綜合F值、總準確率上均遠高于SVM模型。

為了進一步驗證本文方法的穩定性,對以上數據采用4次交叉法重新實驗,4次實驗結果的各性能指標如圖2~4所示:

圖2 4次實驗的查準率指標

因為訓練集的子例是隨機選取,使各個類型的子例在訓練集中所占的比例不同,數據的結構會有所變化,但每組實驗的識別精度大致相同,說明方法的穩定性較好。從篩選后用于建立決策樹的屬性來看,也存在比較穩定的趨勢,具體情況如表5所示。

通過對實驗生成規則集的歸納,可以發現以下主要規律:(1)內容不包含商品信息,且數字或字母超過一定字符數時,屬于干擾性垃圾評論的概率較大。(2)低效用類垃圾評論在所有垃圾評論樣本中所占比例最高,其識別的準確率也最高,大量的系統性評論以及單字或幾個字的敷衍性好評僅通過文本長度即可識別。(3)欺騙性垃圾評論與非垃圾評論最容易相互誤判,他們大都包含商品信息,在情感極性上欺騙型垃圾評論雖不如非垃圾評論均衡,但隨著造假者經驗的不斷提高,單純的文本類特征已不足以滿足識別要求,評價者行為特征的加入可以使模型識別獲得更優的效果。另外被廣大消費者普遍認為十分重要的“評論者信用等級”在4次試驗中只有2次入選模型,而評價頻度和重復率因素卻分別4次和3次入選。這與職業虛假評論中介以及大量的職業刷客群體的存在有著很大關系。職業刷客通過大量的交易往往擁有較高的信用等級,所以信用等級的高低在欺騙性評論識別中反而并非決定性特征屬性。

5 結束語

隨著網絡交易的快速發展,對交易評論進行實時跟蹤、有效識別各類垃圾評論并采取相應的有效治理策略是構建有序的電商競爭環境,促進網絡交易健康發展的必然要求。本文使用神經網絡與決策樹相結合的方法,對網絡交易在線評論進行了智能四分類識別。通過與文獻[8]中模型結果的對比,證明了本文方法的有效性。隨著移動互聯營銷的發展和電商評論要求的細分,垃圾評論特征可能發生變化,今后有必要隨著要求的更新進一步優化模型。

參考文獻

[1]聶卉,王佳佳.產品垃圾評論識別研究綜述[J].現代圖書情報技術,2014,(2):63-70.

[2]Jindal N,Liu B.Review Spam Detection[C].In:Proceedings of the 16th International Conference of Word Wide Web.Banff,Alberta,Canada.New York,NY,USA:ACM,2007:1189-1190.

[3]Ott M.Choi Y J.Cardie C,et al.Finding Deceptive Opinion Spam by Any Stretch of the Imagination[C].In:Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies.Stroudsburg.PA,USA:Association for Computational Linguistics,2011:309-319.

[4]Mukherjee A,Venkataraman V.What Yelp Fake Review Filter Might Be Doing?[C].In:Proceedings of the 7th International Conference on Weblogs and Social Media.Palo Alto:AAAI Press,2013:409-418.

[5]Mukherjee A.Liu B.Wang J,et al.Detecting Group Review Spam[C].In:Proceedings of the 28t h ACM International Conference on Information and Knowledge Management,Hyderabad,Indea.New York,NY,USA:ACM,2011:1123-1126.

[6]何海江,凌云.由Logistic回歸識別Web社區的垃圾評論[J].計算機工程與應用,2009,45(23):140-143.

[7]陳燕方,李志宇.基于評論產品屬性情感傾向評估的虛假評論識別研究[J].現代圖書情報技術,2014,(9):81-90.

[8]李霄,丁晟春.垃圾商品評論信息的識別研究[J].現代圖書情報技術,2013,(1):63-68.

[9]孟美任,丁晟春.在線中文商品評論可信度研究[J].現代圖書情報技術,2013,(9):60-66.

[10]陳燕方,婁策群.在線商品虛假評論形成路徑研究[J].現代情報,2015,(1):49-53.

[11]龔思蘭,丁晟春,周夏偉,等.在線商品評論信息可信度影響因素實證研究[J].情報雜志,2013,(11):202-208.

[12]趙靜嫻,倪春鵬,詹原瑞,等.一種高效的連續屬性離散化算法[J].系統工程與電子技術,2009,(1):195-199.

(本文責任編輯:孫國雷)

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 亚洲综合色婷婷| 久久 午夜福利 张柏芝| 国产福利大秀91| 国产欧美精品专区一区二区| 国产一区二区三区在线观看免费| 欧美国产综合色视频| www.精品国产| 国产精品开放后亚洲| 免费观看亚洲人成网站| 免费女人18毛片a级毛片视频| 久久亚洲国产最新网站| 国产女人水多毛片18| 久久天天躁夜夜躁狠狠| 人人91人人澡人人妻人人爽| 精品国产免费观看一区| 婷婷五月在线视频| 免费A∨中文乱码专区| 欧美va亚洲va香蕉在线| 婷婷久久综合九色综合88| 久久亚洲精少妇毛片午夜无码| 欧美精品高清| 最新加勒比隔壁人妻| 免费啪啪网址| 999精品色在线观看| 乱人伦中文视频在线观看免费| 欧美成人A视频| 免费女人18毛片a级毛片视频| 在线观看亚洲人成网站| 亚洲制服中文字幕一区二区| 中国国语毛片免费观看视频| 亚洲性影院| 国产精女同一区二区三区久| 欧美翘臀一区二区三区| 日韩福利视频导航| 米奇精品一区二区三区| 国产精品视频观看裸模| 国产精品青青| 国产性生大片免费观看性欧美| 久久精品丝袜| 亚洲视屏在线观看| 色欲综合久久中文字幕网| 欧美成人aⅴ| 99久久精品免费看国产电影| 亚洲男人在线| 亚洲成人播放| 亚洲爱婷婷色69堂| 亚洲中文字幕av无码区| 欧美日本视频在线观看| 欧美亚洲一二三区| 午夜老司机永久免费看片 | 不卡视频国产| 欧美97色| 欧美成人怡春院在线激情| 干中文字幕| 欧美精品三级在线| 99re66精品视频在线观看| 国产导航在线| 少妇精品网站| 久久精品一品道久久精品| 欧美色视频在线| a级毛片视频免费观看| 国产v欧美v日韩v综合精品| 毛片在线看网站| 日本午夜精品一本在线观看| 超清无码一区二区三区| 国产亚洲精品97AA片在线播放| 亚洲成人福利网站| 99久久人妻精品免费二区| 免费亚洲成人| 国产欧美精品专区一区二区| 在线精品欧美日韩| 久操线在视频在线观看| 色一情一乱一伦一区二区三区小说| 国产精品福利在线观看无码卡| 毛片在线播放a| 欧美成人一级| 成人91在线| 一级一毛片a级毛片| 夜夜拍夜夜爽| 一级片一区| 漂亮人妻被中出中文字幕久久| 中国国产高清免费AV片|