999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向文化產(chǎn)品水軍的多視角特征發(fā)現(xiàn)與識(shí)別

2021-08-23 04:12:50張晏成
關(guān)鍵詞:特征用戶產(chǎn)品

張晏成,李 濤

(武漢科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 湖北省智能信息處理與工業(yè)實(shí)時(shí)系統(tǒng) 重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430065)

0 引 言

在水軍識(shí)別技術(shù)中,采用具有代表性的特征因子能有效提高模型的分類(lèi)效率。以往電商網(wǎng)絡(luò)水軍識(shí)別研究中,更多的是基于物質(zhì)商品進(jìn)行分析,而直接使用物質(zhì)商品水軍特征模型來(lái)解決文化產(chǎn)品水軍識(shí)別問(wèn)題具有不足,其本質(zhì)在于文化產(chǎn)品存在如下的特殊性及用戶活動(dòng)特點(diǎn)。

(1)豐富的語(yǔ)義性。文化產(chǎn)品評(píng)論是對(duì)產(chǎn)品主題、情節(jié)表達(dá)形成了不同觀念的碰撞交流,具有豐富的語(yǔ)義特征,評(píng)論主題與目標(biāo)產(chǎn)品主題相關(guān),若相關(guān)性過(guò)低或者不相關(guān),則其評(píng)論存在較大的虛假性,并導(dǎo)致評(píng)論的有用數(shù)較低。

(2)嚴(yán)格的時(shí)效性。隨著文化產(chǎn)品發(fā)布的時(shí)間越來(lái)越長(zhǎng),其熱度逐漸降低,此時(shí)再通過(guò)水軍進(jìn)行炒作已沒(méi)有過(guò)多價(jià)值。因此在文化產(chǎn)品中,平均評(píng)價(jià)積極度是區(qū)分正常用戶與水軍用戶的重要指標(biāo)。

(3)網(wǎng)絡(luò)交互性。文化產(chǎn)品用戶間具有較強(qiáng)的網(wǎng)絡(luò)交互性,具有相同興趣的正常用戶之間更容易存在社交行為,通過(guò)找出用戶與好友之間行為和興趣的關(guān)聯(lián)性,甄別出正常用戶與水軍用戶,將行為關(guān)聯(lián)性與興趣關(guān)聯(lián)性作為文化產(chǎn)品水軍識(shí)別的新特征。

此外,個(gè)人信息的完善程度是人們對(duì)一個(gè)用戶直觀判斷的入口。本文在傳統(tǒng)屬性特征基礎(chǔ)上,提出了綜合質(zhì)量評(píng)價(jià)特征因子。

針對(duì)上述特點(diǎn),本文從3個(gè)視角提出了6個(gè)新特征因子,結(jié)合傳統(tǒng)特征提出了特征向量集合,使用特征選擇方法,建立了針對(duì)文化產(chǎn)品水軍識(shí)別的特征模型。另外,在以往研究方法中,只是選用單一的分類(lèi)器,沒(méi)有考慮使用弱分類(lèi)器轉(zhuǎn)化為強(qiáng)分類(lèi)器的集成方法對(duì)模型進(jìn)行識(shí)別,因此,基于文化產(chǎn)品的特征模型,運(yùn)用集成學(xué)習(xí)算法進(jìn)行水軍識(shí)別具有較高的精準(zhǔn)率。

1 相關(guān)研究

目前,電商水軍識(shí)別已有較深入的研究,文化產(chǎn)品屬于電商產(chǎn)品的分支,具有其特殊性,也有著其它電商評(píng)論的一般性,本文在特征分析與相應(yīng)研究方法上,借鑒了其它電商平臺(tái)的方法,將電商水軍識(shí)別方法主要分為以下3 類(lèi):

(1)基于行為視角的研究,其包括評(píng)論偏差、評(píng)論頻率等特征因子。文獻(xiàn)[1]從用戶行為目的角度,基于水軍行為構(gòu)建檢測(cè)模型并對(duì)產(chǎn)品評(píng)分偏差以及產(chǎn)品目標(biāo)差異性特征進(jìn)一步細(xì)分從而挖掘水軍團(tuán)體。文獻(xiàn)[2]綜合考慮了評(píng)論者評(píng)價(jià)行為、交流行為以及對(duì)商品的關(guān)注行為并構(gòu)建了D-S證據(jù)理論模型。文獻(xiàn)[3]認(rèn)為發(fā)文間隔、活動(dòng)時(shí)間是水軍識(shí)別的重要因素。評(píng)論偏差[4]對(duì)于水軍識(shí)別也具有重要作用。

(2)基于內(nèi)容視角的研究,其包括情感傾向[5]、文本相似度、文本長(zhǎng)度等特征因子。文獻(xiàn)[6]在情感極性中使用情感極性均值以及標(biāo)準(zhǔn)差來(lái)刻畫(huà)虛假評(píng)論,采用SMOTE算法優(yōu)化隨機(jī)森林分類(lèi)模型,從而提高識(shí)別效果。文獻(xiàn)[7]針對(duì)電商領(lǐng)域,對(duì)評(píng)論文體提取引人關(guān)注的文本比率、專(zhuān)業(yè)詞比率、詞法有效性和文本相似度等新特征,采用支持向量機(jī)、邏輯回歸、隨機(jī)森林、樸素貝葉斯、J48等分類(lèi)算法進(jìn)行檢測(cè),并驗(yàn)證了SVM和邏輯回歸對(duì)水軍識(shí)別具有較好效果。

(3)基于行為、屬性、內(nèi)容的多視角研究。其包括以上兩種視角的交叉融合。文獻(xiàn)[8]通過(guò)評(píng)論數(shù)量、評(píng)論質(zhì)量、評(píng)論相似度以及時(shí)間集中程度4個(gè)方面進(jìn)行展開(kāi)對(duì)網(wǎng)絡(luò)水軍進(jìn)行研究,并結(jié)合水軍評(píng)論3個(gè)感知方面建立了消費(fèi)者購(gòu)買(mǎi)行為影響模型。文獻(xiàn)[9]提取了虛假評(píng)論人的屬性以及行為特征,借助于“大眾點(diǎn)評(píng)”權(quán)重機(jī)制,構(gòu)建了邏輯回歸預(yù)測(cè)模型。文獻(xiàn)[10]對(duì)詞頻統(tǒng)計(jì)等評(píng)論內(nèi)容以及評(píng)分情況等用戶行為特征進(jìn)行主成分分析,并驗(yàn)證了分別對(duì)評(píng)論內(nèi)容和評(píng)論行為使用SVM、決策樹(shù)進(jìn)行分類(lèi)識(shí)別整體性能優(yōu)于樸素貝葉斯和邏輯回歸。文獻(xiàn)[11]通過(guò)評(píng)論數(shù)量、頻率等行為特征以及專(zhuān)業(yè)程度、情感密度等內(nèi)容特征采用K均值聚類(lèi)算法對(duì)科技產(chǎn)品的虛假評(píng)論進(jìn)行識(shí)別。文獻(xiàn)[12]以大眾點(diǎn)評(píng)網(wǎng)為例進(jìn)行水軍分析,通過(guò)內(nèi)容以及行為等不同特征進(jìn)行組合,采用樸素貝葉斯算法構(gòu)建分類(lèi)模型對(duì)水軍進(jìn)行識(shí)別。

以上研究方法,對(duì)電商水軍檢測(cè)奠定了一定的基礎(chǔ),但是應(yīng)用在文化產(chǎn)品領(lǐng)域,仍存在著不足。單一視角的水軍檢測(cè)方法會(huì)有識(shí)別率低的問(wèn)題,由于文化產(chǎn)品的特殊性,而現(xiàn)有的多視角檢測(cè)方法設(shè)計(jì)的特征向量并沒(méi)有針對(duì)文化產(chǎn)品,且使用的是單一分類(lèi)器,導(dǎo)致在檢測(cè)文化產(chǎn)品水軍時(shí),準(zhǔn)確率也不高。為了解決以上問(wèn)題,本文在已有多視角的研究方法上,提出了新的特征模型,并結(jié)合集成學(xué)習(xí)算法進(jìn)行水軍識(shí)別。經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證,本文提出的特征模型及方法有效提高了文化產(chǎn)品水軍識(shí)別效果。

2 特征設(shè)計(jì)與選擇

2.1 特征設(shè)計(jì)

借鑒電商水軍識(shí)別采用的特征,從用戶屬性、行為、內(nèi)容3個(gè)視角進(jìn)行計(jì)算以及記錄。電商水軍識(shí)別特征及描述見(jiàn)表1。

表1 電商水軍識(shí)別特征及其描述

文化產(chǎn)品與電商水軍識(shí)別在評(píng)論內(nèi)容,用戶行為,用戶屬性等特征上存在很大重合,同時(shí)也具有一定差異。基于文化產(chǎn)品特殊性以及用戶活動(dòng)特點(diǎn),本文在電商水軍識(shí)別特征基礎(chǔ)上進(jìn)行了新的特征設(shè)計(jì)。

(1)基于評(píng)論者的屬性視角

定義1 綜合質(zhì)量評(píng)價(jià)(CE)

用戶信息的完整性,在一定程度上反映了用戶的真實(shí)性;綜合質(zhì)量評(píng)價(jià)涉及用戶昵稱、個(gè)性簽名、地理位置多個(gè)屬性,定義如下

CE=0.3用戶昵稱+0.4個(gè)性簽名+0.3地理位置

(1)

(2)基于評(píng)論者的行為視角

定義2平均有用度(AU)

有用數(shù)是用戶對(duì)評(píng)論內(nèi)容的認(rèn)可,通過(guò)平均有用度從普通用戶群體的角度直觀反映評(píng)論內(nèi)容的價(jià)值,平均有用度即所有評(píng)論內(nèi)容的有用數(shù)之和(TotalUseful)與評(píng)論總數(shù)(TotalNumber)的比值,定義如下

(2)

定義3平均評(píng)價(jià)積極度(AP)

為了達(dá)到宣傳炒作的目的,發(fā)行方將雇傭水軍短時(shí)間內(nèi)刷高評(píng)分,因此通過(guò)平均評(píng)價(jià)積極度能對(duì)水軍進(jìn)行較好的區(qū)分,平均評(píng)價(jià)積極度即評(píng)論時(shí)間與上映時(shí)間差值的平均值,Xi指評(píng)論時(shí)間,Mi指產(chǎn)品上映時(shí)間,定義如下

(3)

定義4行為關(guān)聯(lián)性(MCT)

基于社交行為屬性,相互關(guān)注的用戶,若對(duì)多個(gè)相同的文化產(chǎn)品具有較高的共識(shí),則用戶之間關(guān)系越密切,關(guān)系密切的粉絲數(shù)越多用戶越真實(shí),行為關(guān)聯(lián)性(MCT)即用戶擁有密切關(guān)系的粉絲數(shù)量(TotalMCT)與相互關(guān)注數(shù)(MUTUAL)之比,定義如下

(4)

定義5興趣關(guān)聯(lián)性(MCM)

物以類(lèi)聚,人以群分,正常用戶與好友之間存在著相同的興趣標(biāo)簽,水軍用戶與所關(guān)注的對(duì)象并無(wú)太多聯(lián)系。興趣關(guān)聯(lián)性(MCM)即與用戶評(píng)論同一類(lèi)型文化產(chǎn)品的粉絲數(shù)量(TotalMCM)與相互關(guān)注數(shù)之比,定義如下

(5)

(3)基于評(píng)論內(nèi)容的視角

定義6評(píng)論主題相似度(TR)

采用語(yǔ)義分析技術(shù),通過(guò)評(píng)論內(nèi)容所反映的主題思想與文化產(chǎn)品主題進(jìn)行比較,得出評(píng)論與主題的相似度,評(píng)論主題相似度即主題相似度高的評(píng)論數(shù)量(TotalTR)與評(píng)論總數(shù)之比,定義如下

(6)

2.2 卡方檢驗(yàn)

在卡方檢驗(yàn)中,假設(shè)分類(lèi)變量為正常用戶與水軍用戶,正常用戶包含特征的頻數(shù)為MF,正常用戶不包含特征的頻數(shù)為MN,正常用戶頻數(shù)為M,水軍用戶包含特征的頻數(shù)為T(mén)F,水軍用戶不包含特征的頻數(shù)為T(mén)N,水軍用戶頻數(shù)為T(mén),包含檢驗(yàn)特征的頻數(shù)為F,不包含檢驗(yàn)特征的頻數(shù)為N,總頻數(shù)為S。卡方檢驗(yàn)計(jì)算參數(shù)見(jiàn)表2。

表2 卡方檢驗(yàn)計(jì)算參數(shù)說(shuō)明

卡方計(jì)算公式為

(7)

依次對(duì)每個(gè)特征計(jì)算獲得卡方值,卡方值越大,說(shuō)明特征與類(lèi)別相關(guān)性越大,將計(jì)算所得值與按照顯著性水平查找卡方臨界值表進(jìn)行對(duì)比,從而剔除冗余特征。

2.3 IG信息增益算法

卡方檢驗(yàn)剔除冗余特征后,初步得到與類(lèi)別相關(guān)性高的特征,但是仍然無(wú)法判斷出特征對(duì)分類(lèi)問(wèn)題的影響力。信息增益算法可以描述特征區(qū)分樣本的能力,選擇信息增益算法進(jìn)行下一階段的特征處理。用X表示特征,Y表示用戶是否為水軍,于是信息增益的公式為

(8)

特征Xi的信息增益越大,表明該特征區(qū)分用戶類(lèi)別的影響力越大。

3 文化產(chǎn)品水軍識(shí)別模型

3.1 識(shí)別模型概述

本文針對(duì)文化產(chǎn)品的用戶特性分別從用戶屬性、行為以及評(píng)論內(nèi)容3個(gè)視角進(jìn)行特征設(shè)計(jì),根據(jù)設(shè)計(jì)的特征收集數(shù)據(jù)并使用統(tǒng)計(jì)計(jì)算與自然語(yǔ)言處理技術(shù)提取出水軍識(shí)別特征,使用卡方檢驗(yàn)與信息增益對(duì)特征進(jìn)行評(píng)價(jià)與選擇,結(jié)合集成學(xué)習(xí)算法構(gòu)建分類(lèi)模型應(yīng)用于水軍識(shí)別,將按照8∶2劃分的訓(xùn)練集與測(cè)試集用于模型訓(xùn)練,按照網(wǎng)格搜索算法進(jìn)行參數(shù)調(diào)節(jié)選擇結(jié)果最優(yōu)模型。模型框架如圖 1所示。

圖1 文化產(chǎn)品水軍識(shí)別模型

3.2 識(shí)別模型構(gòu)建

水軍識(shí)別問(wèn)題,可以看作一個(gè)分類(lèi)問(wèn)題。在大量評(píng)論用戶中識(shí)別出水軍用戶,則需要選擇一個(gè)分類(lèi)效率高且速度快的識(shí)別模型。xgboost是一種極端梯度提升集成算法,可以將弱分類(lèi)器轉(zhuǎn)化為強(qiáng)分類(lèi)器,其核心思想是不斷選擇增益最大的特征進(jìn)行分裂生成一顆樹(shù)去擬合上一次預(yù)測(cè)的殘差,使得整個(gè)模型的誤差不斷降低,直到滿足停止條件,從而達(dá)到準(zhǔn)確的分類(lèi)效果。xgboost對(duì)代價(jià)函數(shù)進(jìn)行二階泰勒公式展開(kāi),有利于梯度下降的更快更準(zhǔn),并在代價(jià)函數(shù)里加入了正則項(xiàng),用于控制模型的復(fù)雜度,降低了過(guò)擬合的可能性,從而使xgboost具有良好的效果。

模型的目標(biāo)函數(shù)為

(9)

(10)

識(shí)別模型流程如下:

(1)將數(shù)據(jù)集按照8∶2的比例劃分為訓(xùn)練集與測(cè)試集;

(2)對(duì)訓(xùn)練集,重復(fù)步驟1)-步驟3)。

1)從根節(jié)點(diǎn)開(kāi)始,根據(jù)式(10)遞歸地找出分裂點(diǎn),直到滿足停止條件,至此所有特征都轉(zhuǎn)化為了一棵回歸樹(shù)上的一個(gè)節(jié)點(diǎn);

2)循環(huán)執(zhí)行步驟1),使建立的多棵回歸樹(shù)能夠在損失函數(shù)梯度上保持下降趨勢(shì);

3)多棵回歸樹(shù)組合后建立出基于xgboost算法的水軍識(shí)別分類(lèi)模型。使用GridSearchCV實(shí)現(xiàn)模型的自動(dòng)調(diào)參,得到模型的最優(yōu)參數(shù)集合。將最優(yōu)參數(shù)帶入xgboost模型,從而提高分類(lèi)性能。將模型產(chǎn)生的預(yù)測(cè)值進(jìn)行處理,大于0.5輸出1;否則輸出0。

(3)利用測(cè)試集對(duì)模型進(jìn)行評(píng)估。

4 實(shí)驗(yàn)與分析

實(shí)驗(yàn)運(yùn)行環(huán)境:Windows 10操作系統(tǒng),16 G內(nèi)存,3.5 GHz四核心處理器,實(shí)驗(yàn)軟件為Python 3.7。

4.1 數(shù)據(jù)預(yù)處理

本文選擇國(guó)內(nèi)最早且用戶基數(shù)最大、評(píng)論數(shù)量最多的影評(píng)聚集地豆瓣平臺(tái)作為研究對(duì)象。根據(jù)劉正山等[14]對(duì)電影評(píng)論“惡評(píng)”的相關(guān)研究,“惡評(píng)”是指評(píng)論與正常評(píng)分相差過(guò)大的評(píng)論總稱,豆瓣電影排行榜按照評(píng)分高低依次排序,Top2F50評(píng)分普遍較高,依據(jù)大數(shù)定理研究“惡評(píng)”分布定律,短評(píng)中差評(píng)用戶具有更大的水軍嫌疑,本文爬取豆瓣Top250電影站點(diǎn)用戶信息,去除重復(fù)數(shù)據(jù),最終得到4165個(gè)評(píng)論人信息,共約5萬(wàn)條評(píng)論數(shù)據(jù)。最后,邀請(qǐng)專(zhuān)業(yè)人員標(biāo)注出數(shù)據(jù)集中的網(wǎng)絡(luò)水軍。對(duì)數(shù)據(jù)集中特征處理如下:

(1)根據(jù)第2章中的特征設(shè)計(jì)計(jì)算出數(shù)值型數(shù)據(jù)。

(2)使用中文詞庫(kù)和中文分詞第三方庫(kù)jieba對(duì)文化產(chǎn)品簡(jiǎn)介,短評(píng)文本進(jìn)行分詞,確定漢字之間的關(guān)聯(lián)概率。漢字間概率大的組成詞組,形成分詞結(jié)果。

(3)使用word2vec將單詞轉(zhuǎn)換成向量形式。將進(jìn)行分詞、去除停用詞等操作后的詞組,利用word2vec轉(zhuǎn)換成詞向量,然后計(jì)算評(píng)論內(nèi)容詞向量間以及每條評(píng)論對(duì)應(yīng)文化產(chǎn)品簡(jiǎn)介間的余弦距離,進(jìn)而求出短評(píng)內(nèi)容的自相似度SR以及評(píng)論與文化產(chǎn)品主題相關(guān)性TR。主題相似度計(jì)算偽代碼如下:

算法1:主題相似度TR

輸入:用戶評(píng)論集合C={C1,>C2,>…,>Cn},集合長(zhǎng)度N評(píng)論對(duì)應(yīng)的電影簡(jiǎn)介集合M={M1,>M2,>…,>Mn}

(1)初始化字典類(lèi)型變量dict,N*N的二維數(shù)組list

(2)fori=1,>2,>…,>Ndo

(3)t← 使用jieba的cut對(duì)C[i]劃分得到詞組

(4)w← 使用word2vec的word2vec計(jì)算t得到詞向量

(5)dict[C[i]]=w

(6)endfor

(7)初始化計(jì)數(shù)器counter為0

(8)whileC不為空 do

(9)c=C.pop()

(10)list[counter].append()

(11)m=len(C)

(12)fori=1,>2,>…,>mdo

(13)q← 使用word2vec的similarity計(jì)算dict[c]與list[C[i]]之間的相似度

(14)ifq>0.7then

(15)list[counter].append()

(16)C.remove(C[i])

(17)endif

(18)endfor

(19)counter=counter+1

(20)endwhile

(21)TR=counter/N

輸出:用戶的主題相似度TR

4.2 評(píng)價(jià)標(biāo)準(zhǔn)

為平衡正負(fù)樣本,提高實(shí)驗(yàn)準(zhǔn)確性,本文采用了精準(zhǔn)率(PR)來(lái)評(píng)估分類(lèi)器的準(zhǔn)確性。將檢測(cè)值分類(lèi)匯總,建立混淆矩陣。TP代表模型中分類(lèi)檢測(cè)的水軍數(shù),F(xiàn)P代表模型中誤測(cè)為水軍數(shù),TN代表模型中分類(lèi)檢測(cè)的正常用戶數(shù),F(xiàn)N代表模型中誤測(cè)為正常用戶數(shù)。混淆矩陣見(jiàn)表3。

表3 混淆矩陣

(1)精準(zhǔn)率(PR)定義如下

(11)

TP/(TP+FP)表示水軍樣本精準(zhǔn)率,TN/(TN+FN)表示非水軍樣本精準(zhǔn)率。水軍樣本與非水軍樣本精準(zhǔn)率兩者值的高低將影響平均精準(zhǔn)率PR,防止因水軍樣本與非水軍樣本數(shù)偏差影響精準(zhǔn)率。

(2)召回率(RR)定義請(qǐng)參見(jiàn)文獻(xiàn)[15]。

(3)調(diào)和平均值(F1)定義如下

(12)

4.3 特征選擇實(shí)驗(yàn)

通過(guò)卡方檢驗(yàn)與信息增益算法對(duì)特征進(jìn)行選擇與評(píng)價(jià),在特征選擇實(shí)驗(yàn)中,對(duì)設(shè)計(jì)的特征進(jìn)行去冗余操作,經(jīng)過(guò)篩選后,按照信息增益值大小對(duì)特征進(jìn)行排序。特征IG值排序見(jiàn)表4。

表4 特征處理后的IG值

經(jīng)過(guò)信息增益進(jìn)行特征排序后,為了使模型訓(xùn)練效率更高,設(shè)定閾值為0.333即選擇IG值大于0.333的特征為影響文化產(chǎn)品水軍識(shí)別的顯著特征,并將傳統(tǒng)水軍識(shí)別特征、加入新提出的特征以及進(jìn)行特征選擇后的特征,分別在同一數(shù)據(jù)集下,使用本文水軍識(shí)別模型進(jìn)行測(cè)試,得到實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)結(jié)果見(jiàn)表5。

表5 不同特征下的效果對(duì)比

A代表已有電商水軍特征,B代表在A的基礎(chǔ)上加入本文提出的新特征,C代表B特征處理后的數(shù)據(jù)。實(shí)驗(yàn)結(jié)果驗(yàn)證了本文提出的新特征對(duì)文化水軍識(shí)別具有一定效果提升,精準(zhǔn)率提高了2.61%,由于特征維數(shù)增加,后續(xù)水軍識(shí)別在時(shí)間性能上有所降低,時(shí)間增加了73 ms,使用特征選擇后相對(duì)未作處理的新特征集合精準(zhǔn)率提高了2.8%,時(shí)間減少了152 ms,相對(duì)于電商水軍識(shí)別特征,經(jīng)過(guò)卡方檢驗(yàn)與信息增益篩選后的特征在精確度以及時(shí)間效率上都有所提升,精準(zhǔn)率提高了5.41%同時(shí)時(shí)間減少了79 ms,驗(yàn)證了本文提出的新特征能有效提高識(shí)別率,卡方檢驗(yàn)與信息增益能夠剔除冗余特征提高了精準(zhǔn)率的同時(shí)減少了時(shí)間消耗。

4.4 水軍識(shí)別對(duì)比實(shí)驗(yàn)

為驗(yàn)證識(shí)別方法的有效性,選擇電商水軍識(shí)別的4種方法與本文提出的面向文化產(chǎn)品水軍的識(shí)別方法進(jìn)行對(duì)比,將xgboost方法分別與文獻(xiàn)[10]中的支持向量機(jī)、文獻(xiàn)[9]中的邏輯回歸、文獻(xiàn)[12]使用的貝葉斯模型以及文獻(xiàn)[6]中基于SMOTE過(guò)采樣的隨機(jī)森林方法進(jìn)行實(shí)驗(yàn)對(duì)比;為了使結(jié)果更準(zhǔn)確,采用十折交叉的方法,將數(shù)據(jù)集按照8∶2的比例進(jìn)行10次隨機(jī)劃分,8份用作訓(xùn)練集,2份用作測(cè)試集,對(duì)10次實(shí)驗(yàn)結(jié)果求平均得到如圖2所示。

圖2 不同識(shí)別方法的分類(lèi)結(jié)果

由圖可知,xgboost模型與隨機(jī)森林、邏輯回歸、樸素貝葉斯以及支持向量機(jī)識(shí)別方法相比,精準(zhǔn)率、召回率和調(diào)和平均值有較大提高,整體性能優(yōu)于對(duì)比方法。實(shí)驗(yàn)結(jié)果表明,xgboost模型與隨機(jī)森林模型識(shí)別效果明顯高于其它方法,其原因是特征取值范圍廣,樹(shù)形結(jié)構(gòu)更適用于處理此類(lèi)數(shù)據(jù)分類(lèi),而本文使用的xgboost模型較隨機(jī)森林模型精準(zhǔn)率提高了2.425%,調(diào)和平均值提高了4.018%,這是因?yàn)閤gboost是所有預(yù)測(cè)結(jié)果的累積并在原有梯度提升樹(shù)基礎(chǔ)上對(duì)損失函數(shù)進(jìn)行了改進(jìn),而隨機(jī)森林采用的則只是多投票原則決定最終結(jié)果,以上分析可知,xgboost模型結(jié)合本文提出的特征集合,可以有效識(shí)別文化產(chǎn)品水軍。

5 結(jié)束語(yǔ)

隨著在線文化產(chǎn)品的不斷發(fā)展,在線評(píng)論對(duì)后續(xù)消費(fèi)者有著較大的影響。文化產(chǎn)品帶來(lái)的巨大利益使發(fā)行方希望通過(guò)雇傭水軍獲得競(jìng)爭(zhēng)優(yōu)勢(shì),擾亂文化產(chǎn)品市場(chǎng)正常秩序。因此,識(shí)別文化產(chǎn)品評(píng)論中的網(wǎng)絡(luò)水軍,還原真實(shí)的評(píng)論環(huán)境,有利于文化產(chǎn)業(yè)健康發(fā)展。本文鑒于文化產(chǎn)品網(wǎng)絡(luò)水軍的特性,通過(guò)從多視角分析,在電商水軍特征基礎(chǔ)上,運(yùn)用語(yǔ)義分析以及統(tǒng)計(jì)計(jì)算等技術(shù),提出了新的特征集合,并通過(guò)卡方檢驗(yàn)以及信息增益算法進(jìn)行特征篩選,建立新的特征模型,結(jié)合集成學(xué)習(xí)模型對(duì)文化產(chǎn)品水軍進(jìn)行識(shí)別。以豆瓣短評(píng)為數(shù)據(jù)來(lái)源,通過(guò)對(duì)比實(shí)驗(yàn)驗(yàn)證了本文提出的特征模型集合與集成學(xué)習(xí)分類(lèi)模型對(duì)文化產(chǎn)品網(wǎng)絡(luò)水軍識(shí)別具有較好的提升效果,精準(zhǔn)率達(dá)到了93.32%,能有效地進(jìn)行文化產(chǎn)品水軍識(shí)別。

在未來(lái)的研究中,需要獲取文化產(chǎn)品領(lǐng)域中更多的數(shù)據(jù)集,并采用識(shí)別水軍團(tuán)體的方法提高文化產(chǎn)品水軍識(shí)別效率。

猜你喜歡
特征用戶產(chǎn)品
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
關(guān)注用戶
關(guān)注用戶
關(guān)注用戶
2015產(chǎn)品LOOKBOOK直擊
Coco薇(2015年1期)2015-08-13 02:23:50
如何獲取一億海外用戶
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
新產(chǎn)品
玩具(2009年10期)2009-11-04 02:33:14
主站蜘蛛池模板: 国产毛片网站| 亚洲综合专区| 色偷偷男人的天堂亚洲av| 久久毛片基地| 精品国产一区91在线| 国产精品专区第1页| 91精品啪在线观看国产91九色| 国产综合色在线视频播放线视| 无码国内精品人妻少妇蜜桃视频 | 亚洲婷婷六月| 国产乱人视频免费观看| 亚洲第一黄色网址| 在线国产三级| 中文字幕无码制服中字| 欧美成人手机在线视频| 青草精品视频| 日韩精品一区二区深田咏美| 亚洲福利网址| 无码丝袜人妻| 成人国产三级在线播放| 久操中文在线| 91无码人妻精品一区二区蜜桃 | 天天视频在线91频| 亚洲人成在线免费观看| 国产免费羞羞视频| 精品福利网| 欧美一区二区三区国产精品| 四虎永久免费地址| 亚洲欧美自拍视频| 三上悠亚在线精品二区| 国产精品乱偷免费视频| 国产欧美在线观看精品一区污| 欧美专区日韩专区| 精品视频福利| 国产微拍精品| 亚洲视频四区| 无码国内精品人妻少妇蜜桃视频| 天堂网国产| 国产jizzjizz视频| 五月丁香伊人啪啪手机免费观看| 成人免费黄色小视频| 欧美日韩国产成人高清视频| 国产日本视频91| 欧美在线一二区| 精品国产污污免费网站| 欧美a网站| 毛片免费网址| 亚洲天堂免费在线视频| 国产青青草视频| 综合色亚洲| 亚洲专区一区二区在线观看| 精品人妻无码中字系列| 亚洲91在线精品| 亚洲日本一本dvd高清| 欧美不卡在线视频| 久久性视频| 午夜视频www| 女人18毛片一级毛片在线 | 亚洲色图综合在线| 一级在线毛片| 亚洲精品无码av中文字幕| 99久久性生片| 久久综合色88| 亚洲Av综合日韩精品久久久| 国产在线观看一区精品| 在线看AV天堂| 久久永久视频| 亚洲欧美在线综合一区二区三区| 激情综合网址| 久久人午夜亚洲精品无码区| 在线播放91| 国产三级成人| 久久亚洲欧美综合| 国产人免费人成免费视频| 99999久久久久久亚洲| 欧美一级大片在线观看| 亚洲人成网站在线观看播放不卡| 免费高清a毛片| 中文字幕首页系列人妻| 嫩草国产在线| 毛片大全免费观看| 喷潮白浆直流在线播放|