999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多維特征權(quán)重的虛假評(píng)論識(shí)別方法

2015-02-20 02:27:09皇蘇斌修宇趙森嚴(yán)汪千松
關(guān)鍵詞:分類(lèi)特征方法

皇蘇斌,修宇,趙森嚴(yán),汪千松

安徽工程大學(xué)計(jì)算機(jī)與信息學(xué)院安徽工程大學(xué)計(jì)算機(jī)應(yīng)用技術(shù)重點(diǎn)實(shí)驗(yàn)室,安徽 蕪湖 241000

基于多維特征權(quán)重的虛假評(píng)論識(shí)別方法

皇蘇斌,修宇,趙森嚴(yán),汪千松

安徽工程大學(xué)計(jì)算機(jī)與信息學(xué)院
安徽工程大學(xué)計(jì)算機(jī)應(yīng)用技術(shù)重點(diǎn)實(shí)驗(yàn)室,安徽 蕪湖 241000

[摘要]在線商品評(píng)論是消費(fèi)者網(wǎng)購(gòu)決策的重要依據(jù),利益的驅(qū)動(dòng)使得越來(lái)越多的網(wǎng)絡(luò)虛假評(píng)論呈現(xiàn)在消費(fèi)者面前。針對(duì)此問(wèn)題,提出一種多維特征權(quán)重的在線虛假評(píng)論識(shí)別方法。首先,從網(wǎng)購(gòu)信息有用性角度出發(fā),在商品、評(píng)論者和評(píng)論內(nèi)容3個(gè)維度中選取9個(gè)對(duì)評(píng)論屬類(lèi)語(yǔ)義貢獻(xiàn)大的特征。然后,基于Fisher準(zhǔn)則,運(yùn)用賦予權(quán)重的特征構(gòu)建用于識(shí)別虛假評(píng)論的方法。試驗(yàn)結(jié)果驗(yàn)證了基于多維特征權(quán)重的虛假評(píng)論識(shí)別方法的有效性:多維特征權(quán)重方法的準(zhǔn)確率、查全率和綜合分類(lèi)率均高于Logistic回歸方法和自適應(yīng)聚類(lèi)方法

[關(guān)鍵詞]虛假評(píng)論;特征選擇;特征權(quán)重;Fisher準(zhǔn)則 在線商品評(píng)論作為短文本的一種[1,2],具有稀疏、正常評(píng)論與虛假評(píng)論分布不均衡等特點(diǎn)。現(xiàn)有虛假識(shí)別方法側(cè)重于相關(guān)特征的選取,多數(shù)研究在識(shí)別分類(lèi)上直接使用特征值作為分類(lèi)依據(jù)[3,6~10],忽略已選特征信息對(duì)虛假評(píng)論識(shí)別的具體貢獻(xiàn)權(quán)重,使得評(píng)論分類(lèi)結(jié)果傾向于正常評(píng)論而忽視虛假評(píng)論[4],導(dǎo)致分類(lèi)的準(zhǔn)確率、查全率不高,不能滿(mǎn)足實(shí)際需求。事實(shí)上,特征權(quán)重能夠反映該特征對(duì)標(biāo)識(shí)評(píng)論的貢獻(xiàn)度,體現(xiàn)評(píng)論間的區(qū)分能力。因此,如何選擇用于虛假評(píng)論識(shí)別的評(píng)論特征以及賦予其權(quán)重對(duì)在線虛假評(píng)論識(shí)別有著重要的意義。

虛假評(píng)論識(shí)別與傳統(tǒng)文本分類(lèi)有相通之處,但也存在評(píng)論文本自身的特點(diǎn)。總體來(lái)講,按特征的選擇現(xiàn)有虛假識(shí)別方法可以分為基于評(píng)論內(nèi)容的識(shí)別和基于評(píng)論行為的識(shí)別2種。

1)基于評(píng)論內(nèi)容的識(shí)別方法。JINDAL等[5]率先提出垃圾意見(jiàn)檢測(cè),并使用Logistic模型對(duì)垃圾評(píng)論進(jìn)行識(shí)別[6]。鄧莎莎等[7]從心理學(xué)角度對(duì)評(píng)論內(nèi)容進(jìn)行研究,提出包括11種欺騙語(yǔ)言線索的3類(lèi)欺騙特征,實(shí)現(xiàn)對(duì)虛假評(píng)論的識(shí)別,并對(duì)不同欺騙組合特征的分類(lèi)效果進(jìn)行驗(yàn)證。任亞峰等[3]認(rèn)為真實(shí)評(píng)論和虛假評(píng)論在情感極性和語(yǔ)言結(jié)構(gòu)上存在差異,提出利用遺傳算法對(duì)語(yǔ)言結(jié)構(gòu)及情感極性特征進(jìn)行選擇優(yōu)化,然后對(duì)優(yōu)化的特征采用無(wú)監(jiān)督硬、軟聚類(lèi)算法進(jìn)行虛假評(píng)論識(shí)別。

2)基于評(píng)論行為的識(shí)別方法。虛假評(píng)論的產(chǎn)生通常伴隨著一些特有的行為特征,而這些特征有助于識(shí)別評(píng)論中的欺騙內(nèi)容。LIM等[8]將評(píng)論欺騙行為分為2大特點(diǎn):欺騙者通常僅關(guān)注于某一種或一類(lèi)商品,并在這些商品評(píng)論中最大化發(fā)揮他們的評(píng)論影響力;欺騙者的評(píng)分行為往往和其他正常用戶(hù)有很大的區(qū)別,因此定義了4種不同類(lèi)型的欺騙行為模型。宋海霞等[9]借助評(píng)論者的行為特征,對(duì)虛假評(píng)論進(jìn)行識(shí)別,根據(jù)評(píng)論數(shù)據(jù)定義自身基本特征,并計(jì)算與其他評(píng)論之間的關(guān)聯(lián)性特征,通過(guò)自適應(yīng)聚類(lèi)算法實(shí)現(xiàn)對(duì)虛假評(píng)論的檢測(cè)。

然而,上述研究側(cè)重于特征或方法的選擇,未考慮特征本身對(duì)評(píng)論屬類(lèi)的貢獻(xiàn)程度,為此,筆者提出一種基于多維特征權(quán)重的虛假評(píng)論識(shí)別方法。

1多維特征選擇

商品評(píng)論所表達(dá)的屬類(lèi)語(yǔ)義信息與商品本身、評(píng)論者和評(píng)論內(nèi)容密切相關(guān)。筆者以網(wǎng)購(gòu)信息的有用性為出發(fā)點(diǎn),基于特征對(duì)虛假評(píng)論分類(lèi)的貢獻(xiàn)度,從商品、評(píng)論者和評(píng)論內(nèi)容3個(gè)維度中選擇9個(gè)貢獻(xiàn)大的特征來(lái)標(biāo)識(shí)評(píng)論的分類(lèi),具體如下:

1.1商品維度

1)商品價(jià)格(F1) 商品價(jià)格越高,欺詐雙方經(jīng)濟(jì)成本和風(fēng)險(xiǎn)程度也隨之增加,因此相對(duì)于價(jià)格較高的商品,虛假評(píng)論更多存在于價(jià)格較低的商品評(píng)論之中[11]。

2)商品屬性(F2)用戶(hù)只有在使用商品之后才會(huì)獲得切身體會(huì),包括對(duì)商品特征、性能等屬性的使用感受描述。如果一條評(píng)論中沒(méi)有或較少涉及對(duì)商品屬性的描述,那么該評(píng)論為虛假評(píng)論的可能性較大。

1.2評(píng)論者維度

1)評(píng)論者信譽(yù)(F3)一般情況下,信譽(yù)高的用戶(hù)發(fā)表的評(píng)論比信譽(yù)低的更具有可信性。

2)是否匿名評(píng)論(F4) 實(shí)名用戶(hù)發(fā)布虛假評(píng)論后被發(fā)現(xiàn)的風(fēng)險(xiǎn)比匿名用戶(hù)要高,因此虛假評(píng)論更多存在于匿名評(píng)論中。

1.3評(píng)論內(nèi)容維度

1)評(píng)論長(zhǎng)度(F5)真實(shí)評(píng)論者一般不愿意評(píng)論或者給予簡(jiǎn)單的評(píng)論,而虛假評(píng)論者為取到夸大或詆毀的效果,往往較冗長(zhǎng)地描述商品質(zhì)量或服務(wù)。因此,篇幅較長(zhǎng)的評(píng)論為虛假評(píng)論的可能性較大[3]。

2)正面情感詞(F6)和負(fù)面情感詞(F7)虛假評(píng)論者為了贊揚(yáng)或貶低某一商品,會(huì)盡可能地增加正面或負(fù)面情感詞,以達(dá)到夸大或詆毀的作用。如果一條評(píng)論中過(guò)多出現(xiàn)正面或負(fù)面情感詞,則該評(píng)論為虛假評(píng)論的可能性較大。

3)品牌名稱(chēng)(F8) 評(píng)論中反復(fù)出現(xiàn)品牌名稱(chēng),以此來(lái)提高該條評(píng)論的可信性,則該評(píng)論是虛假評(píng)論的可能性較高。

4)是否附圖評(píng)論(F9)用戶(hù)發(fā)布附帶商品圖片的評(píng)論要比直接的文本評(píng)論可信性高,虛假評(píng)論更多存在于直接文本評(píng)論中。

2單個(gè)特征的Fisher值

筆者采用Fisher準(zhǔn)則來(lái)分析各特征對(duì)虛假識(shí)別的貢獻(xiàn)權(quán)重,采用單個(gè)特征的Fisher值作為計(jì)算準(zhǔn)則[12]。

(1)

(2)

單個(gè)特征的Fisher準(zhǔn)則表示為:

(3)

F(k)稱(chēng)為第k維的Fisher值。如果某一維特征在樣本集上的F(k)值越大,則說(shuō)明該維特征在類(lèi)別區(qū)分上作用越強(qiáng)。

3權(quán)重計(jì)算及特征向量化

筆者將虛假評(píng)論識(shí)別看作一個(gè)二分類(lèi)問(wèn)題,形式化定義為:假設(shè)預(yù)處理評(píng)論類(lèi)型集為D={d0,d1},其中,d0表示正常評(píng)論,稱(chēng)為負(fù)類(lèi),d1表示虛假評(píng)論,稱(chēng)為正類(lèi),需進(jìn)行分類(lèi)的評(píng)論集為P={p1,p2,…,pn},每條評(píng)論由特征集Fi(i=1,2,…,9)組成。

對(duì)此,根據(jù)式(1)~(3),計(jì)算評(píng)論中單個(gè)特征的Fisher值F(j):

(4)

最后,結(jié)合特征權(quán)重和特征值將評(píng)論樣本向量化為表1所示。

4試驗(yàn)

4.1試驗(yàn)設(shè)置

表2 實(shí)驗(yàn)數(shù)據(jù)集

采用專(zhuān)家標(biāo)注方法,選擇Alexa排名靠前的國(guó)內(nèi)2家電子商務(wù)平臺(tái)(淘寶:http://www.taobao.com;京東商城:http://www.jd.com),分別從中抓取5000條手機(jī)評(píng)論相關(guān)信息,分為4組每組2500條,包含8個(gè)字段的內(nèi)容:評(píng)論者姓名、商品詳情、商品價(jià)格、評(píng)論者信譽(yù)、評(píng)論內(nèi)容、評(píng)論時(shí)間、是否匿名評(píng)論和是否附圖評(píng)論。選擇20名專(zhuān)家并將其分為5組,分別對(duì)4組數(shù)據(jù)集進(jìn)行真實(shí)評(píng)論與虛假評(píng)論的人工標(biāo)注,從5組標(biāo)注結(jié)果中選取4組結(jié)果相同的評(píng)論作為實(shí)驗(yàn)數(shù)據(jù)集,最終取得真實(shí)評(píng)論5283條,虛假評(píng)論2401條,具體分布如表2。

采用中科院計(jì)算技術(shù)研究所研制的ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)[13]漢語(yǔ)語(yǔ)法分析系統(tǒng)對(duì)數(shù)據(jù)集的評(píng)論內(nèi)容和商品詳情進(jìn)行分詞處理,去除停用詞、虛詞和標(biāo)點(diǎn)符號(hào)等;利用知網(wǎng)HowNet情感詞典[14],除去一些生僻詞,加入一些網(wǎng)絡(luò)流行新詞,構(gòu)建評(píng)論情感詞詞典;采用哈工大信息檢索研究中心同義詞詞林?jǐn)U展版[15]構(gòu)建商品屬性、品牌名稱(chēng)同義詞詞典。

4.2試驗(yàn)結(jié)果分析

采用文本分類(lèi)中通用分類(lèi)性能評(píng)估指標(biāo)準(zhǔn)確率PR(Precision)、查全率RE(Recall)和綜合分類(lèi)率F1來(lái)分析引入特征權(quán)重方法后的評(píng)論樣本分類(lèi)效果。對(duì)于評(píng)論類(lèi)型集li(i=0,1),假設(shè)xi為第i類(lèi)的評(píng)論樣本總數(shù),yi為分類(lèi)中正確被分到第i類(lèi)的評(píng)論文本數(shù),zi為分類(lèi)中實(shí)際被分到第i類(lèi)的評(píng)論文本數(shù),則對(duì)于第i類(lèi)評(píng)論樣本的分類(lèi)性能評(píng)估指標(biāo)的計(jì)算方法如下:

(6)

(7)

(8)

筆者采用宏平均對(duì)分類(lèi)效果進(jìn)行全局評(píng)價(jià),具體如下:

(9)

(10)

(11)

圖1 分類(lèi)效果比較

對(duì)4組試驗(yàn)數(shù)據(jù)集進(jìn)行特征權(quán)重計(jì)算和向量化處理,其中每組數(shù)據(jù)集的行代表評(píng)論樣本,列代表分類(lèi)特征。在Matlab環(huán)境下使用SVM分類(lèi)器對(duì)多維特征權(quán)重方法進(jìn)行分類(lèi)測(cè)試,測(cè)試方法采用循環(huán)交叉試驗(yàn)方法,輪流將其中3組作為訓(xùn)練集,另外1組作為測(cè)試集,共進(jìn)行4次訓(xùn)練和測(cè)試,取4次試驗(yàn)結(jié)果的平均值。然后以文獻(xiàn)[5]中的Logistic回歸模型和文獻(xiàn)[9]中的自適應(yīng)聚類(lèi)方法作為對(duì)比試驗(yàn)。具體試驗(yàn)結(jié)果如圖1所示。

從圖1中可看出,多維特征權(quán)重方法的準(zhǔn)確率、查全率和綜合分類(lèi)率均高于Logistic回歸方法和自適應(yīng)聚類(lèi)方法,原因分析如下:在評(píng)論樣本中,正常評(píng)論與虛假評(píng)論分布是不均衡的,這種不均衡現(xiàn)象對(duì)分類(lèi)效果的影響體現(xiàn)為在不同批次的分類(lèi)中分類(lèi)效果會(huì)出現(xiàn)較大的波動(dòng)。筆者提出的多維特征權(quán)重方法以網(wǎng)購(gòu)信息的有用性為基礎(chǔ),多維度選取對(duì)評(píng)論分類(lèi)標(biāo)識(shí)重要的特征,并計(jì)算特征的權(quán)重,運(yùn)用賦予權(quán)重的特征構(gòu)建虛假評(píng)論識(shí)別分類(lèi)的決策信息,從而實(shí)現(xiàn)待分類(lèi)評(píng)論樣本分布的優(yōu)化,更好地反映特征對(duì)虛假評(píng)論分類(lèi)的重要程度。特征權(quán)重方法綜合考慮了各特征信息對(duì)全局的決策能力,進(jìn)一步優(yōu)化特征對(duì)評(píng)論樣本劃分的一致性程度,進(jìn)而提高虛假評(píng)論分類(lèi)的準(zhǔn)確率、查全率和綜合分類(lèi)率。

5結(jié)語(yǔ)

考慮多維特征信息對(duì)虛假評(píng)論分類(lèi)的貢獻(xiàn)度,提出了一種基于多維特征權(quán)重的虛假評(píng)論識(shí)別方法。在特征的選取上,從網(wǎng)購(gòu)信息的有用性角度出發(fā),多維度的選取9個(gè)對(duì)評(píng)論分類(lèi)標(biāo)識(shí)重要的特征,在特征權(quán)重的計(jì)算上,綜合考慮特征信息的決策能力,將賦予權(quán)重的特征運(yùn)用于構(gòu)建虛假評(píng)論識(shí)別分類(lèi)的決策信息中。與已有的方法相比,該方法可以?xún)?yōu)化評(píng)論樣本的分布,提高虛假評(píng)論分類(lèi)的準(zhǔn)確率、查全率和綜合分類(lèi)率。未來(lái)的工作將研究網(wǎng)購(gòu)用戶(hù)行為與虛假評(píng)論的關(guān)系以及店鋪虛假銷(xiāo)量的識(shí)別。

[參考文獻(xiàn)]

[1]林煜明,王曉玲,朱濤,等.用戶(hù)評(píng)論的質(zhì)量檢測(cè)與控制研究綜述[J].軟件學(xué)報(bào),2014,25(3):506~527.

[2]黃婷婷,曾國(guó)蓀,熊煥亮.基于商品特征關(guān)聯(lián)度的購(gòu)物客戶(hù)評(píng)論可信排序方法[J].計(jì)算機(jī)應(yīng)用,2014,34(8):2322~2327,2341.

[3]任亞峰,尹蘭,姬東鴻.基于語(yǔ)言結(jié)構(gòu)和情感極性的虛假評(píng)論識(shí)別[J].計(jì)算機(jī)科學(xué)與探,2014,8(3):313~320.

[4]林智勇,郝志峰,楊曉偉.不平衡數(shù)據(jù)分類(lèi)的研究現(xiàn)狀[J].計(jì)算機(jī)應(yīng)用研究,2008,25(2):332~336.

[5]Jindal N,Liu B.Review spam detection[A].Proceedings of the 16th International Conference on World Wide Web[C].USA:ACM,2007:1189~1190.

[6]Jindal N,Liu B.Analyzing and Detecting Review Spam[A].Proceedings of the 7th IEEE International Conference on Data Mining[C].USA:IEEE Computer Society,2007:547~552.

[7]鄧莎莎,張朋柱,張曉燕,等.基于欺騙語(yǔ)言線索的虛假評(píng)論識(shí)別[J].系統(tǒng)管理學(xué)報(bào),2014,23(2):263~270.

[8]Lim E,Nguyen V,Jindal N,et al.Detecting product review spammers using rating behabiors [C].Proceedings of the 19th ACM International Conference on Information and Knowledge Management,ACM,2010.

[9]宋海霞,嚴(yán)馨,余正濤,等.基于自適應(yīng)聚類(lèi)的虛假評(píng)論檢測(cè)[J].南京大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,49(4):433~438.

[10]李霄,丁晟春.垃圾商品評(píng)論信息的識(shí)別研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2013,299(1):63~68.

[11]WEIJIA YOU,LU LIU,MING XIA,et al.Reputation inflation detection in a Chinese C2C market [J]. Electronic Commerce Research and Applications, 2011, 10:510~519.

[12]王颯,鄭鏈.基于Fisher準(zhǔn)則和特征聚類(lèi)的特征選擇[J].計(jì)算機(jī)應(yīng)用,2007,27(11):2812~2814.

[13]ICTCLAS[EB/OL].http://ictclas.nlpir.org/,2014-09-20.

[14]HowNet[EB/OL]. http://www.keenage.com/html/c_index.html,2014-09-20.

[15]HIT-CIR Tongyici Cilin (Extended)[EB/OL]. http://ir.hit.edu.cn/demo/ ltp/Shari- ng_Plan.htm,2014-09-20.

[編輯]洪云飛

[引著格式]皇蘇斌,修宇,趙森嚴(yán),等.基于多維特征權(quán)重的虛假評(píng)論識(shí)別方法[J].長(zhǎng)江大學(xué)學(xué)報(bào)(自科版),2015,12(16):34~38.

29 Collaborative Recommendation Method Based on Social Network

Wang Qiansong, Jiang Sheng, Wang Zhongqun(AnhuiPolytechnicUniversity,Wuhu241000)

Abstract:In consideration of the problem of lower recommendation precision in the traditional collaborative filtering recommendation algorithm, a new collaborative recommendation method is proposed based on social network.The similarities and credibility of users are integrated in the social network.Firstly, the similarities between the users are calculated based on the ratings, and then the credibility of users are calculated based on direct and indirect credibility.Finally, the similarities of user rating and the credibility of user’ recommendation are integrated to get the weights of users’ recommendations and get the nearest neighbor set and provide a more accurate recommendation.The experimental results show that the new method can improve the accuracy of recommendation.

Key words:social network; collaborative filtering; recommendation accuracy; credibility; recommendation weight

[文獻(xiàn)標(biāo)志碼]A

[文章編號(hào)]1673-1409(2015)16-0034-05

[中圖分類(lèi)號(hào)]TP391

猜你喜歡
分類(lèi)特征方法
分類(lèi)算一算
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
分類(lèi)討論求坐標(biāo)
數(shù)據(jù)分析中的分類(lèi)討論
教你一招:數(shù)的分類(lèi)
抓住特征巧觀察
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚(yú)
主站蜘蛛池模板: 国产精品原创不卡在线| 国内熟女少妇一线天| 国产va在线观看免费| 97成人在线视频| 亚洲天堂伊人| 四虎精品免费久久| 一本视频精品中文字幕| 国产全黄a一级毛片| 欧美日在线观看| 日本不卡在线播放| 欧美中文字幕无线码视频| 国产极品美女在线| 色综合天天综合中文网| AV不卡国产在线观看| 一级在线毛片| 精品少妇人妻一区二区| 久久婷婷五月综合色一区二区| 亚洲中文字幕av无码区| 国产成人精品一区二区免费看京| 无码精品国产dvd在线观看9久| 97久久超碰极品视觉盛宴| 日本爱爱精品一区二区| 久久久亚洲国产美女国产盗摄| 日本欧美一二三区色视频| 99热最新网址| 午夜a级毛片| 国产粉嫩粉嫩的18在线播放91| 欧美日韩久久综合| 色成人亚洲| 久久国产成人精品国产成人亚洲 | 97se亚洲综合不卡| 极品尤物av美乳在线观看| 亚洲精品爱草草视频在线| 美女潮喷出白浆在线观看视频| 精品国产免费观看一区| 免费中文字幕在在线不卡| 久久黄色免费电影| 美女毛片在线| 日本高清在线看免费观看| 中文国产成人精品久久一| 国产91蝌蚪窝| 国产在线一二三区| 五月婷婷亚洲综合| 综合色88| 国产99热| AV无码无在线观看免费| 东京热av无码电影一区二区| 久99久热只有精品国产15| 欧美日韩午夜| 1级黄色毛片| 91九色视频网| 一级高清毛片免费a级高清毛片| AV在线麻免费观看网站| 少妇极品熟妇人妻专区视频| 在线免费观看AV| 国产亚洲第一页| 久久久久国产一级毛片高清板| 欧美一区二区自偷自拍视频| 亚洲精品男人天堂| 欧美性爱精品一区二区三区| 欧美日韩一区二区在线播放| 国产资源站| 午夜日韩久久影院| 精品久久国产综合精麻豆| 亚洲一区二区三区国产精华液| 毛片免费在线| 在线免费看片a| 国产簧片免费在线播放| 国产区在线观看视频| 黄色网址手机国内免费在线观看| 免费一级无码在线网站| 色婷婷狠狠干| 爽爽影院十八禁在线观看| 国产香蕉97碰碰视频VA碰碰看| 中文字幕日韩欧美| 综合色88| 日韩中文精品亚洲第三区| 日本午夜网站| 中文无码精品A∨在线观看不卡| 久草视频中文| 伊人狠狠丁香婷婷综合色| a级毛片毛片免费观看久潮|