999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

虛假評論特征提取檢測技術(shù)研究

2023-10-31 09:39:16張锏予
關(guān)鍵詞:特征提取特征文本

張锏予

(沈陽理工大學(xué) 信息科學(xué)與工程學(xué)院, 沈陽 110158)

0 引 言

隨著電子商務(wù)與互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,消費(fèi)者的消費(fèi)方式也從傳統(tǒng)的線下消費(fèi)轉(zhuǎn)移到了線上購物。 而消費(fèi)者為選擇合適的商品,會參考商品的用戶評論信息。 消費(fèi)者判斷相關(guān)商家的誠信度和商品質(zhì)量的好壞會受到虛假評論的影響,這些虛假的評論信息會誘導(dǎo)消費(fèi)者對一些不符合實(shí)際的商家服務(wù)、商品價(jià)值、商品質(zhì)量等進(jìn)行選擇,嚴(yán)重干擾了消費(fèi)者的購物選擇,擾亂了網(wǎng)絡(luò)電商的運(yùn)營。

針對網(wǎng)上購物場景中的虛假評論,本文采用評論特征提取檢測技術(shù),確定虛假評論中的標(biāo)識文本內(nèi)容,將虛假評論與其他真實(shí)評論區(qū)分開。 隨著機(jī)器學(xué)習(xí)的應(yīng)用與發(fā)展,虛假評論特征提取檢測技術(shù)的發(fā)展與日俱進(jìn)[1]。 但由于虛假評論是由商家或企業(yè)利用大量水軍發(fā)布的,而水軍可以通過多個(gè)賬號進(jìn)行評價(jià),留下的痕跡難以捕捉,目前沒有先進(jìn)的技術(shù)可用于檢測這些虛假評論,所以高精確率、低成本要求、方便客戶操作和有效篩選的虛假評論特征提取技術(shù)的研究是未來的重點(diǎn)研究方向。

1 相關(guān)工作

虛假信息泛濫,品牌誠信對建立消費(fèi)者信任至關(guān)重要,置信度有可能直接轉(zhuǎn)化為利潤。 檢測過濾出虛假評論,對于確保在線評論反饋系統(tǒng)的完整性、可靠性至關(guān)重要。 目前主要有2 種解決方法:一種是基于傳統(tǒng)方法的特征提取檢測;另一種是基于深度學(xué)習(xí)的特征提取檢測方法。

1.1 基于傳統(tǒng)方法的特征提取

基于傳統(tǒng)的提取評論方法是根據(jù)事實(shí)情況,手動的核對虛假信息中的虛假內(nèi)容及觀點(diǎn),通過將信息表達(dá)與核實(shí)的真實(shí)表達(dá)比較,判斷評論信息的準(zhǔn)確度。 而手動核對虛假信息又可分為兩種方式,一種是基于專家的手動核查,通過對評論的整段評價(jià),對詳述內(nèi)容的可靠性評級,對詞句、語法的正確表達(dá)進(jìn)行篩選、評價(jià),保證評論提取的準(zhǔn)確率,但是當(dāng)評論檢測數(shù)量激增時(shí),準(zhǔn)確性會大打折扣;另一種是眾包的方法,利用群眾的數(shù)量優(yōu)勢對評論進(jìn)行提取篩查,可以獲得較低的成本付出,但是人工方法檢測虛假評論的精度僅為57%,評論提取的準(zhǔn)確率不高是尚未解決的問題[2]。

1.2 基于深度學(xué)習(xí)的特征提取

隨著深度學(xué)習(xí)算法的不斷發(fā)展,深度學(xué)習(xí)算法也應(yīng)用在特征提取領(lǐng)域[3]。 卷積神經(jīng)網(wǎng)絡(luò)(CNN)被應(yīng)用在矩陣分解模型中,通過從評論中提取需要的特征量,對評論進(jìn)行評分預(yù)測,并通過概率矩陣分解達(dá)到特征提取的效果,但模型無法驗(yàn)證評論特征的重要程度。 Trans-Nets[4]通過拓展,構(gòu)建了基于并行神經(jīng)網(wǎng)絡(luò)的Deep-Conn 雙塔結(jié)構(gòu)模型,將隱藏層的引入作為評論描述和商品實(shí)際特點(diǎn)的轉(zhuǎn)化;而D-ATTN(Dual Attention model)模型以及NARRE(Neural Attentional Regression model with Reviewlevel Explanations)模型在Deep-Conn 模型的基礎(chǔ)上引入注意力機(jī)制,可以輕松的抓到評論文本中的中的關(guān)鍵要素及信息[5-6];DAML 模型集成了交互注意力機(jī)制,在捕獲用戶和商品特征后,展現(xiàn)用戶和特征評論的關(guān)聯(lián),特征交互由神經(jīng)因子分解機(jī)完成[7]。

1.3 基于機(jī)器學(xué)習(xí)的特征提取

基于機(jī)器學(xué)習(xí)提取特征包含4 個(gè)部分,分別是:基于文本內(nèi)容重復(fù)評論提取特征;基于評論人屬性與行為提取特征;基于評論主觀性的特征提??;基于特征融合的方法。

1.3.1 基于文本內(nèi)容重復(fù)評論提取特征

對于大部分發(fā)布虛假評論的用戶而言,不論評論的是同類型商品還是不同類型商品,虛假評價(jià)內(nèi)容都具有極高相似度[8]。 當(dāng)某些評論里的內(nèi)容和語言表達(dá)出現(xiàn)一定程度的相似或覆蓋時(shí),就可將相似的部分作為特征提取的訓(xùn)練集,對訓(xùn)練集進(jìn)行虛假評論特征提取訓(xùn)練。

1.3.2 基于評論人屬性與行為提取特征

Hussain 開發(fā)了一個(gè)評論圖來捕捉評論、評論者和商店之間的互動,評論的真實(shí)性是可以計(jì)算的,但這種方法沒有使用任何評論文本信息[9]。 相比之下,Wang[10]提出的方法僅基于文本特征,研究了幾個(gè)特征類別對垃圾評論識別的影響,包括打分時(shí)間、內(nèi)容、情感、產(chǎn)品或個(gè)人資料特征。

1.3.3 基于評論主觀性的特征提取

從評論主觀性角度分析,需要引入情感特征。如果評論中的表達(dá)顯得過于吹捧或者詆毀,則很可能是虛假的無意義評論,因此可以通過情感分析體現(xiàn)評論內(nèi)容的主觀性和褒貶性。 在現(xiàn)有研究中,一般利用情感詞匯的極性對文本的情感傾向進(jìn)行評價(jià),目前主要有利用情感詞數(shù)或利用情感詞典計(jì)算情感強(qiáng)度的加權(quán)得分兩種度量方法。

1.3.4 基于特征融合的方法

在檢測虛假評論時(shí),不僅需要提取關(guān)于評論內(nèi)容的特征,還需要提取其他特征,如評論者信息、評論者關(guān)注數(shù)量、收藏商品等來輔助檢測。

2 多機(jī)器學(xué)習(xí)分類器比較

由于虛假評論與真實(shí)評論特征散亂,欺詐隱蔽性較強(qiáng),無明顯分布區(qū)分度,故而需要借助多種機(jī)器學(xué)習(xí)算法,進(jìn)行有監(jiān)督檢測學(xué)習(xí)。 當(dāng)前使用較多的機(jī)器學(xué)習(xí)分類器包括K 鄰近(KNN)、支持向量機(jī)(SVM)、樸素貝葉斯(NB)、決策樹(DT)等等。

2.1 K 鄰近(KNN)

K 鄰近算法分類是測量文本特征中不同特征值互相的距離。 假設(shè)特征空間中樣本的K個(gè)最鄰近的都同屬一種類型,那么在特征空間中的這個(gè)樣本也屬于這個(gè)類型。 KNN 算法具有很多優(yōu)點(diǎn),操作簡單、理論清晰且無需參數(shù)支持等。 在多種分類要求的問題上,KNN 可提供更高的效率及準(zhǔn)確度,但是KNN 算法對樣本數(shù)量的要求較高,需要使用很大的算力,內(nèi)存消耗大。

2.2 支持向量機(jī)(SVM)

支持向量機(jī)通過給定系統(tǒng)的訓(xùn)練樣本集,使得系統(tǒng)在訓(xùn)練樣本集中找到無數(shù)個(gè)超平面,區(qū)分不同類型的樣本。 通過超平面做分類的支持向量機(jī)無需將樣本集中的所有樣本進(jìn)行計(jì)算,可以提高運(yùn)算效率,節(jié)省內(nèi)存。 支持向量機(jī)的缺點(diǎn)是在計(jì)算時(shí)需要將一些沒有規(guī)章且維度較低的數(shù)據(jù),在核函數(shù)的映射下,映射到高維空間,且使用超平面將樣本區(qū)分,較為復(fù)雜。

2.3 樸素貝葉斯(NB)

樸素貝葉斯算法是貝葉斯公式和條件獨(dú)立假設(shè)方法的結(jié)合應(yīng)用。 當(dāng)文本中的某些特征項(xiàng)不能通過直接統(tǒng)計(jì)獲得,則可以使用概率公式進(jìn)行轉(zhuǎn)換,通過加強(qiáng)的假設(shè),將概率進(jìn)行乘法運(yùn)算,從而得到對應(yīng)的屬性概率。

樸素貝葉斯算法可以設(shè)置先驗(yàn)概率,通過一系列簡單的數(shù)學(xué)計(jì)算就可以實(shí)現(xiàn),大大節(jié)省了內(nèi)存和運(yùn)算時(shí)間,缺點(diǎn)是僅適用于文本樣本,且樣本特征相互獨(dú)立。

2.4 決策樹(DT)

決策樹是一種基本的機(jī)器學(xué)習(xí)模型,可以用樹形圖表示的樹結(jié)構(gòu),以此表示各個(gè)屬性與其對象值之間的映射關(guān)系。 在決策樹的整體結(jié)構(gòu)中,每個(gè)葉節(jié)點(diǎn)代表一個(gè)待預(yù)測的標(biāo)簽類型,每個(gè)內(nèi)部節(jié)點(diǎn)對應(yīng)于一個(gè)屬性,如果某些節(jié)點(diǎn)具有與之相對應(yīng)的屬性,則二者之間可能存在分支。 針對提取的特征應(yīng)用決策樹進(jìn)行預(yù)測,通過遞歸分割過程,直至實(shí)現(xiàn)所有的子集包含一樣的目標(biāo)量,但決策樹算法在訓(xùn)練過程中時(shí)間成本較高。

2.5 融合分類器(LGB)

輕量級梯度提升分類器LGB 在不損害準(zhǔn)確率的條件下加快GBDT 模型的訓(xùn)練速度,且占用內(nèi)存更少,主要目的是利用弱分類器(決策樹)迭代訓(xùn)練以得到最優(yōu)模型,廣泛應(yīng)用于分類、預(yù)測等領(lǐng)域。

3 實(shí)驗(yàn)驗(yàn)證與結(jié)果分析

3.1 數(shù)據(jù)集

本文使用公開可用的Yelp 數(shù)據(jù)集,該數(shù)據(jù)集應(yīng)用廣泛且聲譽(yù)良好,采用Yelpzip 子集進(jìn)行實(shí)驗(yàn)。 該數(shù)據(jù)集中86.78%的數(shù)據(jù)被標(biāo)記為真實(shí)評論,13.22%為虛假評論,顯然非常不平衡。 因此,在建立相應(yīng)的分類模型之前,采用下采樣算法平衡數(shù)據(jù)集,減少分類器的識別誤差。 這種方法優(yōu)點(diǎn)是減少數(shù)據(jù)中的噪聲點(diǎn),避免過擬合,缺點(diǎn)是減少了可學(xué)習(xí)的數(shù)據(jù)量。

3.2 實(shí)驗(yàn)特征提取

Salminen J[11]分析得出在虛假評論檢測任務(wù)中,行為特征比單一文本特征更加有效。 故本文選用基于特征融合的方法提取Yelp 酒店和餐廳領(lǐng)域中行為和文本特征,并分析其有效性。

(1)活躍時(shí)間窗(AW):虛假評論者很可能在短時(shí)間內(nèi)進(jìn)行評論,通常不是長期活躍的成員。 將該評論者的最后一次和第一次評論的時(shí)間戳之差作為活動窗口,檢測每一位評論者在指定時(shí)間窗內(nèi)的活躍度。 大多數(shù)的虛假評論者的活躍時(shí)間為2 個(gè)月,而真實(shí)評論者的活躍時(shí)間少于10 個(gè)月。

(2)最大評論數(shù)(MNR):表示一天內(nèi)的最大評論數(shù)。 在數(shù)據(jù)中,約三分之一的虛假評論人在一天內(nèi)發(fā)布了所有的評論,大部分的虛假評論人每天寫6 條或更多的評論,而真實(shí)評論者的日評論率非常適中。

(3)評論計(jì)數(shù)(RC):表示評論者的評論數(shù)量。大多數(shù)的虛假評論者發(fā)布評論數(shù)量在11 條之內(nèi),而半數(shù)的真實(shí)評論者評論數(shù)量超過40 條。 虛假評論者和真實(shí)評論者評論數(shù)量有明顯的區(qū)分。

(4)正面評價(jià)百分比(PR):正面評價(jià)(高于3分)占全部評價(jià)的百分比越高越可疑。 大多數(shù)的虛假評論者的目標(biāo)是提升企業(yè)口碑,正面評級較多。而在現(xiàn)實(shí)生活中,由于評價(jià)標(biāo)準(zhǔn)不同,真實(shí)評論者的評級表現(xiàn)出均衡的分布趨勢,不同范圍的評論者擁有不同比例的正面評論。

(5)評論長度(RL):大多數(shù)虛假評論的平均評論長度限制在135 個(gè)單詞以內(nèi),而大多數(shù)真實(shí)用戶的平均評論字符長度高于200 個(gè)字符。

(6)評論人偏差(RD):虛假評論者偏離一般消費(fèi)者評級共識的數(shù)量。 為了測量評論者的偏差,首先計(jì)算一個(gè)評論人與同一產(chǎn)品的其他評論人之間的絕對評分偏差;其次,取其所有評論的所有評級偏差的平均值,計(jì)算該評論者的平均偏差。 在滿分為5的尺度上,偏差可以從0 ~4。 大多數(shù)真實(shí)評論人在五星尺度上的絕對偏差為0.6,這表明真實(shí)評論人與其他真實(shí)評論人對產(chǎn)品有評級共識,而大多數(shù)虛假評論者與真實(shí)評論者的評級偏差較大。

(7)最大內(nèi)容相似度(MCS):即同一評論者的任意兩條評論內(nèi)容的余弦相似度。 大多數(shù)真實(shí)評論人在評論中幾乎沒有相似度(以0.16 余弦相似度為界);而大多數(shù)的虛假評論者在評論中有較高相似度。

通過融合上述7 種互不相關(guān)的有效特征,可提高虛假評論檢測水平。 信息融合越全面,特征提取效率越高。

3.3 實(shí)驗(yàn)結(jié)果分析

由于消費(fèi)者在消費(fèi)前習(xí)慣于參考平臺的最新消費(fèi)評價(jià)信息,使得虛假評論往往在某一時(shí)間窗內(nèi)呈爆發(fā)趨勢。 選取Yelpzip 子集近兩年的評論數(shù)據(jù),并隨機(jī)選取其中80%數(shù)據(jù)集作為訓(xùn)練集,其余作為測試集,采用交叉驗(yàn)證法,比較不同分類模型的預(yù)測性能優(yōu)劣,分類結(jié)果見表1。 從召回率來看,LGB 模型是檢測效果最佳的模型。

表1 交叉驗(yàn)證機(jī)器學(xué)習(xí)模型分類結(jié)果Tab.1 Classification results of different machine learning models%

AUC(Area Under the Curve of ROC)是評估分類器性能的主流數(shù)值指標(biāo),能夠很好地平衡使用不同概率閾值的預(yù)測模型的真陽性率和假陽性率,所以針對嚴(yán)重不均衡的評論數(shù)據(jù)集,往往將高AUC值作為預(yù)測性能的首要評價(jià)指標(biāo)。 將下采樣法應(yīng)用于Yelp 數(shù)據(jù)集,機(jī)器學(xué)習(xí)模型分類結(jié)果見表2。 各個(gè)分類器模型的AUC值均有所提高,LGB 模型增長最為顯著,證實(shí)了基于分類器融合的有監(jiān)督方法在虛假評論檢測中具有較好效果,但需要在召回率和精度之間做出權(quán)衡。 此外,單純基于文本重復(fù)、評論人行為和評論主觀屬性中一方面進(jìn)行特征提取的檢測效果遠(yuǎn)低于多特征融合特征提取。 因此,虛假評論檢測精度與互不重疊的有效文本特征數(shù)呈正相關(guān)。

表2 下采樣后機(jī)器學(xué)習(xí)模型分類結(jié)果Tab.2 Classification results after downsampling %

4 結(jié)束語

本文針對Yelp 數(shù)據(jù)集中的已標(biāo)注虛假評論,提取虛假評論的文本特征和行為特征,運(yùn)用多種機(jī)器學(xué)習(xí)比較融合的方法,對虛假評論進(jìn)行有監(jiān)督機(jī)器學(xué)習(xí)分類。 實(shí)驗(yàn)結(jié)果表明,Yelpzip 數(shù)據(jù)集極不均衡且虛假評論特征隱蔽性強(qiáng),有監(jiān)督方法在虛假評論檢測中具有一定效果;提出利用下采樣法在分類檢測過程中平衡檢測精度和召回率;有監(jiān)督方法在實(shí)際應(yīng)用中取得了較好效果,也可為下一步設(shè)計(jì)基于在線虛假評論特征自動提取檢測技術(shù)方法提供參考。

猜你喜歡
特征提取特征文本
如何表達(dá)“特征”
在808DA上文本顯示的改善
基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個(gè)特征
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
基于MED和循環(huán)域解調(diào)的多故障特征提取
如何快速走進(jìn)文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 99精品视频九九精品| 黄色网址手机国内免费在线观看| 五月激情婷婷综合| 国产无码网站在线观看| 无码内射在线| 久久免费视频播放| 久久超级碰| 狠狠色噜噜狠狠狠狠色综合久| 超碰aⅴ人人做人人爽欧美| 国产丝袜丝视频在线观看| 中文字幕久久波多野结衣| 一区二区三区毛片无码| 国产精品视频导航| 成年女人18毛片毛片免费| 成人看片欧美一区二区| 久久精品91麻豆| 91久久精品国产| 日韩精品资源| 无码 在线 在线| 欧美在线伊人| 国产精品太粉嫩高中在线观看| 在线播放国产一区| 欧美日韩激情在线| 91精品情国产情侣高潮对白蜜| 欧美爱爱网| 欧美性猛交xxxx乱大交极品| 国产产在线精品亚洲aavv| 视频二区亚洲精品| 久草国产在线观看| 四虎综合网| 日韩中文无码av超清| 呦女亚洲一区精品| 亚洲综合在线网| 婷五月综合| 国产精品lululu在线观看 | 国产乱子伦手机在线| 国产人成在线视频| 97se亚洲综合在线| 国产成人成人一区二区| 日韩一二三区视频精品| 热re99久久精品国99热| 911亚洲精品| 2021国产乱人伦在线播放| 精品久久久久成人码免费动漫 | 久久久精品国产亚洲AV日韩| 国产97公开成人免费视频| 午夜国产不卡在线观看视频| 久久国产黑丝袜视频| 亚洲九九视频| 色综合综合网| 中文国产成人精品久久| 国产区人妖精品人妖精品视频| 尤物精品视频一区二区三区| 国产精品永久免费嫩草研究院| 国产精品成| 国产精品私拍在线爆乳| 久久a毛片| 国产激情在线视频| 一本一道波多野结衣一区二区| 一本久道久久综合多人| 天天色综合4| 亚洲综合精品香蕉久久网| 欧洲熟妇精品视频| 尤物视频一区| 内射人妻无码色AV天堂| 久久美女精品| 国产成人无码Av在线播放无广告| 亚洲青涩在线| 9丨情侣偷在线精品国产| 国产视频一二三区| 91丝袜在线观看| 亚洲色无码专线精品观看| 99草精品视频| 国产精品三级专区| 99久久精品国产自免费| 美女毛片在线| 免费看的一级毛片| 国产免费一级精品视频 | 欧美黄色网站在线看| 91福利片| 成人91在线| 精品国产乱码久久久久久一区二区|