999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網(wǎng)絡(luò)民航事件虛假評論的識別研究

2016-09-26 11:28:56董松月陳潤雨劉西菩趙穎莉馬曉寧
智能計算機與應(yīng)用 2016年4期
關(guān)鍵詞:特征提取

董松月 陳潤雨 劉西菩 趙穎莉 馬曉寧

摘 要:互聯(lián)網(wǎng)的開放性使得當(dāng)前對于互聯(lián)網(wǎng)上用戶的評論內(nèi)容沒有質(zhì)量控制機制,用戶發(fā)表的內(nèi)容中存在大量虛假評論,如何識別這些虛假評論信息成為重要問題。運用信息增益(Information Gain,IG),支持向量機(Support Vector Machine,SVM)等方法對民航事件的評論進(jìn)行特征提取和分類,識別虛假評論。通過對比四種不同的核函數(shù),本文選定基于RBF核函數(shù)的SVM分類器進(jìn)行虛假信息的分類識別,其 F-measure值為90%,具有較優(yōu)的分類效果。

關(guān)鍵詞:虛假評論;信息增益;支持向量機;特征提取;核函數(shù)

Abstract: For the reason of internets openness, users are allowed to comment freely without quality control system, the published content includes many false reviews. How to identify these fake comments become an important issue. Based on Information Gain and SVM, this research identify the false reviews through feature extraction and classification. By comparing four kernel functions, RBF kernel function of SVM classifier is selected for the identification of the false information. The F-measure value is 90%, with qualified classification results.

Key words: false review; information gain; support vector machine; feature extraction; Kernel Function

0 引 言

隨著Web廣泛使用以及用戶深入?yún)⑴c,出現(xiàn)社會熱門事件后,用戶會通過網(wǎng)絡(luò)發(fā)表事件相關(guān)評論,但由于用戶評論時的隨意性,導(dǎo)致其中必然包含不實信息。自2007年起,虛假信息識別這一課題受到關(guān)注。國外研究成果已獲一定進(jìn)展,而國內(nèi)研究仍處于探索時期,同時虛假信息識別大多數(shù)研究卻只是集中于電子商務(wù)產(chǎn)品、互聯(lián)網(wǎng)銷售等新式專用領(lǐng)域,而關(guān)于民航事件評論中的虛假信息識別研究卻仍亟待起步。基于如上背景需求,針對如何從海量民航事件評論信息中識別出虛假評論,本文將展開詳盡論與闡析。

本文以民航事件(馬航370事件)評論信息為研究對象,提出評論描述上述特征,并采用信息增益(Information Gain, IG)方法對各個特征計算權(quán)重,再使用支持向量機(Surpport Vector Machine,SVM)的4種核函數(shù)模型分別對訓(xùn)練集評論進(jìn)行訓(xùn)練,得出四種分類器,對比性能后殼優(yōu)選基于RBF函數(shù)的分類器,能夠?qū)φ鎸嵲u論和虛假評論進(jìn)行更佳分類,從而高效、準(zhǔn)確地識別出民航事件評論信息中的虛假評論。

1 虛假評論識別模型

虛假評論識別模型中展示了識別虛假評論的步驟及流程。模型構(gòu)建表示如圖1如下。

模型圖中主要方法介紹如下:

1.1 虛假特征的確定

本文通過支持向量機(SVM)模型對貼吧、微博用戶關(guān)于民航事件的評論進(jìn)行虛假評論識別,在這一過程中,特征的選取會直接影響到模型的識別效果。通過對評論的分析研究,本文分別從評論者、評論本身、評論內(nèi)容3個方面進(jìn)行虛假評論特征的選擇,特征如下:

1)以評論者為中心的特征

評論者是否匿名(F1):本文關(guān)注的事件樣本是受到國內(nèi)乃至國際廣泛關(guān)注的民航重大事件,多數(shù)情況下,非匿名評論比匿名評論真實性強,可信度更高。其中,蓄意誤導(dǎo)價值觀,或具有反社會傾向的評論者,以引導(dǎo)輿論,擾亂社會為目的,通常會隱藏身份,選擇匿名的可能性較大。

2)以評論本身為中心的特征

評論是否重復(fù)出現(xiàn)(F2):普通評論者發(fā)表評論目的較為直接,重在表達(dá)意見,提出見解。而發(fā)布虛假信息的評論者,其重點在于誤導(dǎo)民眾情感,以達(dá)到引導(dǎo)輿論的目的。在這一前提下,通常認(rèn)為虛假評論者希望盡可能擴大網(wǎng)絡(luò)影響力,在各類貼吧論壇微博中重復(fù)發(fā)表語氣、情感、甚至語句十分相似的評論,尤其是重復(fù)評論。因此本文研究認(rèn)為,重復(fù)出現(xiàn)的評論可以作為識別虛假評論的重要特征。

(3)以評論內(nèi)容為中心的特征

評論中是否出現(xiàn)主要評論對象的名稱(F3):經(jīng)過對大量評論的統(tǒng)計分析可知,虛假評論通常針對國家、政府、政黨組織或非政府機構(gòu),在引導(dǎo)民眾對其產(chǎn)生負(fù)面情感的過程中,評論者會忽略評論對象本身。例如馬航事件中,評論者會忽略“馬航”而著重強調(diào)政府詞匯。

評論中正面情感詞出現(xiàn)次數(shù)/評論中所有情感詞出現(xiàn)次數(shù)(F4),評論中負(fù)面情感詞出現(xiàn)次數(shù)/評論中所有情感詞出現(xiàn)次數(shù)(F5):虛假評論制造者擅于使用情感傾向度較大的詞匯,在整體評論中情感傾向十分一致(持中間態(tài)度的虛假評論則較少出現(xiàn))。

評論中政府部門的出現(xiàn)次數(shù)/評論中所有評論對象的出現(xiàn)次數(shù)(F6):經(jīng)過對大量評論的研究統(tǒng)計可得,在民航重大事件的評論中,大多虛假評論內(nèi)容均圍繞貶低污蔑國家政府,這一特征已成為大多虛假評論的共性。

本文利用支持向量機識別評論時,每條評論均設(shè)定上述6個特征來構(gòu)成核心表示,并對支持向量機模型分類器進(jìn)行訓(xùn)練。

1.2 信息增益

在文本分類問題中,信息增益方法用于衡量虛假特征是否出現(xiàn)于某類別文本中、以及對于評論的虛假性預(yù)測能提供多少信息,是一種基于熵的評估方法。具體定義就是虛假特征為整個分類所能提供的信息量,即不考慮該特征時文檔的熵與考慮該特征后的文檔熵的差值。通過對數(shù)據(jù)的開發(fā)訓(xùn)練,計算出每個特征的信息增益值,按照信息增益從大到小排序,這一排序究其本質(zhì)也代表著不同特征對文本信息影響程度的排序。某個特征的信息增益值越大,表示其貢獻(xiàn)越大,對分類也就更為重要。本次研究中利用信息增益方法,對區(qū)分虛假評論的特征進(jìn)行影響力大小排序。

其中, 是虛假評論訓(xùn)練集的類別, 表示第 類文檔出現(xiàn)的概率, 表示在第 類文檔中特征 的出現(xiàn)的概率。 表示不含 特征的文檔概率, 表示不含有 的文檔在 中的條件概率。 為真實類或虛假類評論文檔。

1.3 支持向量機

(1)本實驗使用支持向量機的方法對評論的真假性進(jìn)行預(yù)測分類。首先通過特征選擇與提取的方法,選用評論是否匿名、評論是否重復(fù)出現(xiàn)、評論中是否出現(xiàn)主要評論對象的名稱、評論中正面情感詞占比、評論中負(fù)面情感詞占比、評論中政府部門相關(guān)詞匯占比這 6 項數(shù)據(jù)作為區(qū)別評論真假性的特征,這里用小寫字母 表示,把這 6 個特征表示為向量形式,特征向量具體表示為 。

(2)接著將 6 維的評論真假性預(yù)測結(jié)果特征向量映射為 6維空間內(nèi)的一個點,分別選取30個真實評論和虛假評論作為訓(xùn)練集來對應(yīng)配入 6 維空間,同時利用這些數(shù)據(jù)訓(xùn)練計算機形成 SVM 分類器,通過線性支持向量分類機算法計算出5 維的超平面(將 6 維空間一分為二的超平面比 6維空間少一維)作為分類邊界將 6 維空間進(jìn)行二分, 二分后的2個空間分別代表真實評論特性向量的集合和虛假評論特征向量的集合。

(3)對于一個未知真假性的評論,只需通過評論測試,得出測試結(jié)果。提取測試結(jié)果的特征,再將測試結(jié)果特性以向量的形式給出表示,并將數(shù)值代入訓(xùn)練后的 S V M 分類器超平面的數(shù)學(xué)表達(dá)式即可分析該評論的真假性性 :結(jié)果為0,則表示該評論為虛假性評論;結(jié)果為1,則表示該評論為真實性評論。評論真假預(yù)測結(jié)果特征向量在 6 維空間內(nèi)對應(yīng)的點距離超平面的距離越遠(yuǎn),則代表其特征越明顯,即虛假性越高或越低。

1. 實驗結(jié)果與分析

2.1 實驗分析

2.1.1 信息增益

本實驗以馬航370事件為實驗樣本,由于數(shù)據(jù)集會直接影響實驗的準(zhǔn)確性與科學(xué)性,為使數(shù)據(jù)集更具代表性和真實性,本文從貼吧、微博中隨機選取150條評論。選擇8名實驗者,分別對所有評論進(jìn)行虛假評論與真實評論的人工標(biāo)注,選擇結(jié)果中相同的評論作為本部分實驗的數(shù)據(jù)集。最終數(shù)據(jù)集共103條評論,其中虛假評論40條,非虛假評論63條。本實驗中將評論劃分為2類,T:虛假評論,F(xiàn):非虛假評論。其特征計算方法如下:

F1=n,(n=0,1)(0:匿名評論者;1:非匿名評論者);

F2=n,(n=0,1)(0:評論出現(xiàn)次數(shù)超過3次;1:評論出現(xiàn)3次以下);

F3=n,(n=0,1)(0:評論中不存在主要評論對象的名稱;1:評論中存在主要評論對象的名稱);

F4=評論中正面情感詞的次數(shù)/評論中出現(xiàn)所有情感詞的次數(shù);

F5=評論中負(fù)面情感詞的次數(shù)/評論中出現(xiàn)所有情感詞的次數(shù);

F6=評論中政府部門出現(xiàn)的次數(shù)/評論中所有評論對象出現(xiàn)的次數(shù)。

本實驗對6個特征2個類別的100條評論進(jìn)行了信息增益的特征權(quán)重計算。權(quán)重計算結(jié)果如表1所示。

計算結(jié)果表明,6個特征為虛假信息識別提供的信息量由大到小依次為:F6, F4,F(xiàn)5,F(xiàn)2,F(xiàn)1,F(xiàn)3。信息增益值越大,表明該特征對識別虛假信息的影響力越強。由實驗結(jié)果可知,評論中是否出現(xiàn)針對政府部門的攻擊性詞匯是評判虛假信息的重要依據(jù)。情感詞匯也成為虛假信息的重要特征,含有濃厚正面或負(fù)面感情色彩的評論使虛假信息的可能性顯著提高。評論是否重復(fù)出現(xiàn)的影響力則相對較小。匿名特征權(quán)值小是當(dāng)今網(wǎng)絡(luò)平臺(例如微博、貼吧等)強制要求必須注冊賬號才能發(fā)表評論等限制因素造成的。由于評論都圍繞特定民航事件發(fā)表觀點,幾乎均存在評論對象名稱,故該特征權(quán)值相對最小。

2.1.2 SVM的訓(xùn)練與預(yù)測

本實驗使用Matlab實現(xiàn)SVM分類,用訓(xùn)練集對SVM分類器進(jìn)行訓(xùn)練,利用所得模型預(yù)測測試機標(biāo)簽值。實現(xiàn)使用libsvm工具箱。

首先建立數(shù)據(jù)集和類別集。數(shù)據(jù)集包括上文確定的6個特征,類別集含有虛假、真實2個類別。

評論屬性矩陣集如圖2所示。

3 結(jié)束語

總體而言,互聯(lián)網(wǎng)虛假評論研究是較新領(lǐng)域,具有廣闊的應(yīng)用前景。目前國內(nèi)外虛假評論研究集中在商品垃圾評論,尚未發(fā)現(xiàn)針對貼吧、微博用戶關(guān)于社會熱門事件所發(fā)表的虛假信息的篩選及研究。本文以馬航370事件作為研究對象,從信息的真實性角度對民航輿情評論的特征進(jìn)行概述,利用信息增益的方法計算特征權(quán)重,基于文本分類的思想,比較驗證SVM機器模型對虛假評論的識別效果。實驗結(jié)果證明,本文實驗所選取的特征及采用的方法能夠?qū)μ摷僭u論與真實評論進(jìn)行分類,進(jìn)而識別虛假評論。未來需要在進(jìn)一步研究虛假評論的特征、深入分析其產(chǎn)生機理的基礎(chǔ)上,研究更有效的分類及檢測方法。

參考文獻(xiàn):

[1] 李霄,丁晟春. 垃圾商品評論信息的識別研究[J]. 現(xiàn)代圖書情報技術(shù),2013(1):63-68.

[2] 陳曉美. 網(wǎng)絡(luò)評論觀點知識發(fā)現(xiàn)研究[D].長春:吉林大學(xué),2014.

[3] 莫倩,楊珂. 網(wǎng)絡(luò)水軍識別研究[J]. 軟件學(xué)報,2014,25(7):1505-1526.

[4] 楊風(fēng)雷,黎建輝. 用戶生成內(nèi)容中的垃圾意見研究綜述[J]. 計算機應(yīng)用研究,2011,28(10):3601-3605.

[5] 韓曉暉. Web社會媒體中信息的質(zhì)量評價及應(yīng)用研究[D].濟南:山東大學(xué),2012.

[6] JINDAL N,LIU B.Analyzing and detecting review spam[C]//Proceeding of the 7th IEEE International Conference on Data Min-ing ( ICDM07 ).Omaha,Nebraska, USA:IEEE Computer Society, 2007: 547-552.

[7] JINDAL N, LIU B. Review spam detection[C]//Proceedings of the 16th International Conference on World Wide Web.Banff, Al-berta, Canada:ACM, 2007: 1189 -1190.

[8] LIM EP, NGUYEN VA, JINDAL N, et al. Detecting product review spammers using rating behaviors[C]//Proceedings of the 19th ACM International Conference on Information and Knowledge Man-agement( CIKM10).Toronto, ON, Canada:ACM, 2010: 930 -948.

[9] MUKHERJEE A, LIU B, WANG J, etal. Detecting group review spam[C]//Proceedings of the 28th ACM International Conference on Information andKnowledge Management.Hyderabad, India:ACM, 2011:1123 -1126.

[10] BHATTARAI A, RUS V, DASGUPTA D. Characterizing comment spam in the blogosphere through content analysis[C]//Proceedings of IEEE Symposium on Computational Intelligence in Cyber Security (CICS). Nashville, TN:IEEE Computer Society, 2009:37 -44.

[11] WU G, GREENE D, SMYTH B, etal.Distortion as a validation criterion in the identification of suspicious reviews[C]//Proceedings of the 1st Workshop on Social Media Analytics. Washington, DC, USA: ACM, 2010:10 -13.

猜你喜歡
特征提取
特征提取和最小二乘支持向量機的水下目標(biāo)識別
基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
基于DNN的低資源語音識別特征提取技術(shù)
Bagging RCSP腦電特征提取算法
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于DSP的直線特征提取算法
基于改進(jìn)WLD的紋理特征提取方法
計算機工程(2015年4期)2015-07-05 08:28:02
淺析零件圖像的特征提取和識別方法
機電信息(2015年3期)2015-02-27 15:54:46
基于CATIA的橡皮囊成形零件的特征提取
主站蜘蛛池模板: 日韩av高清无码一区二区三区| 免费A∨中文乱码专区| 亚洲精品麻豆| 亚洲一区毛片| 久视频免费精品6| 国产95在线 | V一区无码内射国产| 99国产在线视频| 日韩欧美国产三级| 国产91小视频在线观看| 伊人色婷婷| 一级香蕉视频在线观看| 亚洲天堂网在线观看视频| 久久五月天国产自| 夜夜操国产| 国产日韩AV高潮在线| 爱爱影院18禁免费| 狠狠五月天中文字幕| 精品国产成人三级在线观看| 免费人成网站在线高清| A级毛片高清免费视频就| 亚洲,国产,日韩,综合一区| 亚洲欧美日韩精品专区| 国产真实乱人视频| 国产成人综合久久精品下载| 国产小视频免费| 精品国产自在在线在线观看| 国产成人亚洲无吗淙合青草| 国产波多野结衣中文在线播放| 欧美日韩第二页| 91精品伊人久久大香线蕉| 亚洲最大福利视频网| 91麻豆精品视频| 啦啦啦网站在线观看a毛片 | 污网站在线观看视频| 亚洲成人黄色在线观看| 波多野结衣无码中文字幕在线观看一区二区 | 99在线国产| 四虎成人精品在永久免费| jizz国产视频| 欧美国产日韩在线观看| 国产成人亚洲毛片| jizz在线观看| 久久国产乱子| 亚洲第一综合天堂另类专| 无码视频国产精品一区二区| 亚洲精品不卡午夜精品| 欧美午夜性视频| 国产青青操| 国产成人久视频免费| 在线国产毛片手机小视频| 亚洲IV视频免费在线光看| 久久女人网| 久久久久88色偷偷| 99视频国产精品| 久久公开视频| 噜噜噜久久| 免费毛片a| 一级爆乳无码av| 国产成人精品高清不卡在线 | 免费一极毛片| 国产一级毛片yw| 亚洲第一精品福利| 国产玖玖玖精品视频| 国产国产人免费视频成18| 婷婷亚洲天堂| 九九九精品成人免费视频7| 国产视频久久久久| 中文字幕人妻无码系列第三区| 3344在线观看无码| 99视频在线免费观看| 亚洲黄色激情网站| 日韩成人免费网站| 亚洲第一福利视频导航| 五月天婷婷网亚洲综合在线| 国产大片喷水在线在线视频| 日韩成人免费网站| 中文字幕日韩视频欧美一区| 亚洲无码免费黄色网址| 欧美a级在线| 色噜噜在线观看| 毛片免费视频|