999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于CCA和數據引力場模型的社交媒體信息置信度評估方法

2014-10-20 08:36:34張萌李楊沙朝鋒
微型電腦應用 2014年9期
關鍵詞:特征提取特征信息

張萌,李楊,沙朝鋒

0 引言

近些年來,隨著互聯網的高速發展和社會媒體的快速興起,社交網絡已經成為人們溝通和交流的重要工具[1][2][3]。微博作為社交網絡的一種重要形式,在新聞事件的傳播過程中發揮著越來越重要的作用。在微博等社交網絡中,信息在能夠呈病毒式傳播。一旦某一條新聞信息進入微博平臺,常常能夠在短時間內被數以萬計的用戶轉發,從而實現信息的快速傳播。但是,由于微博的使用者都是普通用戶,他們在新聞的傳播過程中,通常缺少辨識真假的能力,這導致了在微博等社交媒體中也常常出現謠言或者是虛假信息被不明真相的用戶快速傳播的情況。這對于整個社會媒體造成了較大的消極影響。往往一個謠言或者虛假信息本身帶有一定的目的性,如果被廣泛傳播,很容易誤導用戶,甚至造成比較大的社會影響。進一步,如果社會網絡中充斥著虛假信息,則會讓用戶不再信任社交網絡,最終從根本上影響社會媒體和社會網絡的健康發展。近幾年來,各種社交網絡公司都相繼提供“辟謠”功能,但是,他們基本上需要通過管理員協助完成,且往往在謠言和虛假信息已經大量傳播以后才能發現和阻止,無法避免反應滯后的缺點。因此,如何快速而有效的將謠言和虛假信息止于源頭是一個重要而困難的問題[4]。近些年以來更多科研工作者將研究方向關注于信息在互聯網上的傳播方式等問題[5]。這其中,大部分工作都是基于社交網絡平臺(例如:twitter、新浪微博[6]等)的數據分析[7][8]。這些工作對于本文的研究起到了重要的借鑒作用。

本文正是在這個背景下,通過分析社交網絡的特點,從微博內容信息和微博用戶信息兩方面進行特征提取的同時,通過利用置信度評估算法,自動實現對于微博信息中謠言以及虛假信息的快速檢測。從而實現在不影響社會媒體運轉和工作的情況下,準確判斷出謠言和虛假信息,并且進一步阻止其傳播的目的。具體而言,想要通過計算機自動地判斷謠言或者虛假信息,在算法設計方面,我們需要著重考慮信息的特征提取和判別模型選擇這兩個方面,力求找到更加適合判別真實和虛假信息的方法。相比于其他的信息傳播方式,社會媒體的信息傳播有著其特殊性。考慮到它具有一定的組織結構,而且我們能夠獲得傳播者的用戶相關的更多信息,這都更加有利于對新聞信息的真假做出判斷。關于特征提取,本文針對微博具有不同類型的特征,設計了基于 CCA的多視角特征提取方法。同時本文在判別算法設計中受到物理學中引力場的啟發,提出了一種新的判別學習模型——數據引力場模型。考慮到社會網絡的快速發展導致每天產生海量的微博數據。而其中并非只有新聞信息的傳遞,更多的內容是無法判斷真假的,比如朋友之間的私人聊天對話,本文稱之為“閑聊”信息。要完成本文的提出的任務,首先,要把新聞信息從大量的“閑聊”信息中區分出來。因此,如何有效的判別出新聞信息也是本文的重要工作。

1 基于CCA的微博特征提取

微博信息的特征提取是微博置信度檢測和評估的第一步工作,也是重要的基礎工作。選擇合適的特征將有助于提高檢測和評判的準確率。在這個過程中,需要從多個視角進行特征的提取(考慮有關微博內容的信息的同時,也需要考慮微博發布者的相關信息),從而保證獲取特征的全面性。下面本文將通過以下兩部分內容闡述特征提取的過程:1)基于社交網絡微博信息的多視角特征選擇;2)利用CCA來實現多視角特征的融合。

1.1 基于微博內容及社交網絡背景的特征選擇

如何選擇特征通常取決于要完成的任務和目標。在本文中,我們則需要提取更適合判定虛假信息或是謠言的特征。同時,考慮到社交網絡中的信息具有多樣化的特點:很多用戶也會在社交網絡中進行私人聊天等,而這些內容無法簡單的進行真實或者虛假的區分。因此,為了實現置信度評估這一目標,首先要將微博信息中關于“新聞”和“閑聊”區分出來。其中,“新聞”表示可以被判定真假的微博信息,“閑聊”表示無法判定真假的微博信息。在社交網絡中,每天會有海量的新微博產生,因此,區分微博信息“新聞”和“閑聊”這個任務也不可避免的要借助計算機來自動判別完成。因此,在特征選擇的過程中我們不僅要提取那些有利于置信度辨別的特征,也要考慮那些傾向于區分“新聞”和“閑聊”的特征。所以,本文需要從微博內容中提取信息(例如:該微博是否存在超鏈接等,這種信息有利于本文判斷微博內容的置信度),同時,也不能忽略社交網絡中的相關信息,因為,用戶信息也能夠幫助我們對虛假的信息做出更加準確的判定(可以認為一個信用很低或者經常發出虛假消息的人更新的微博信息往往是不被信任的)。考慮到以上因素,本文將從微博內容信息和相關用戶信息兩個視角來提取相關的特征信息。考慮到特征選擇數量較多,部分被選擇出來的特征信息如圖1所示:

圖1 基于微博內容和用戶信息的多視角特征信息(部分)

1.2 基于CCA的多視角特征融合

考慮到在判定虛假信息時選擇多視角的特征集合,因此,本文面臨著特征組合的問題。事實上,簡單的加權連接并不是一個好的選擇。而CCA[9](典型相關分析)作為一種常用的組合特征維數約減方法,可以將多視角的特征數據映射到同一個特征子空間中并且保證他們之間的相關性最大[10],因此,本文考慮采用 CCA方法來實現多個視角的特征融合。

下面將具體描述基于CCA的多視角特征融合方法。設S為數據樣本集,并且S中樣本數量為N。令P ∈RDPN, Q ∈RDQN, 為兩個不同視角的特征集合,并且通常不同視角特征具有不同的特征維度DP≠DQ,我們做如下定義如公式(1):

在公式中ρ為正則化因子。本文的目標是為每個視角的特征數據找到一組投影方向,并保證他們之間的相關性最大化。我們用如下公式來表達如公式(2):

其中u和v表示從各自特征空間投影到同一特征子空間的投影向量。為了獲得這組相關性最大的投影向量,我們可以把其轉化為特征向量求解問題,通過公式3計算出投影向量{u1, u2…, uD}和{v1, v2…, vD}如公式(3):

在本文中,我們定義微博內容視角特征為P,用戶信息視角的特征為Q,并且通過CCA將這兩個視角的數據融合到了同一子空間中。不同視角的數據融合的過程如圖 2所示:

圖2 基于CCA的多視角特征融合

最終的微博特征FV可以通過下列公式獲得公式(4):

2 基于數據引力場的置信度評估算法框架

2.1 數據引力場模型

本文所要實現的置信度判別的目標可以轉化為對應的分類學習問題。在我們獲得一個有效的數據特征集之后,選擇一個合適的學習判別算法也是提高系統性能的關鍵步驟。本文從物理學中引力重力場模型獲得啟發,將引力場的思想引入到數據空間中,設計了一種監督學習方法——數據引力場模型。并通過該模型完成信息置信度評估的任務。

為了更好的闡述數據引力場模型,我們首先考慮物理學中的有關萬有引力的公式如公式(5)、(6):

其中,公式5是萬有引力公式,m1, m2表示兩個物體的質量,r表示兩個物體相互之間的距離,而G則是引力常量。公式6則表示質量為M的物體在空間中形成的引力場。事實上,我們也可以把空間中的數據看成一個個不同的物體;不同的樣本都擁有自己對應的引力場。假設同類的樣本具有相同方向的引力場,而不同的樣本具有相反方向的引力場。當需要對一個新的樣本進行分類的時候,可以通過計算該樣本點在當前位置上所有訓練集樣本點引力場的疊加,具有較大引力場的類別會把該樣本吸引過去,從而最終實現分類的目的。這里給定訓練樣本S,可以通過以下公式計算樣本k的分類結果如公式(7)、(8):

其中,Location(*) 表示樣本點的坐標,K是常系數。

與引力場所不同的是,我們需要對每一個訓練樣本的質量做一個新的定義:數據置信度。如果一個樣本的周圍空間里都是相同類別的樣本,則可以認為這個樣本關于這個類別具有較高的置信度。反之,如果它周圍都是其他類別的樣本,那么就認為其具有較低的置信度,如圖3所示:

圖3 不同置信度的樣本示例

更加清晰解釋這個問題,其中,不同類別的樣本采用不同形狀來區分:左圖中展示的是低質量的樣本,因為它周圍的樣本都是其他類別的,所以它具有低置信度;右圖展示的是高質量的樣本點,因為它周圍的樣本都是相同類別的,所以它具有高置信度。由此我們通過下列公式定義數據的置信度如公式(9):

這里通過高斯模型來限制周圍樣本對當前樣本的影響權重。

2.2 數據引力場的近似算法

在2.1章節中本文討論了關于數據引力場分類學習算法的理論模型。然而上述方法需要計算整個數據集,而當數據集規模增大時,該模型的計算開銷非常巨大。為此,本文需要為該模型找到快速分類的方法。顯然,每個樣本的權重與距離的平方成反比,由此我們可以忽略距離較遠的一些樣本點,只計算離該樣本最近的前 N樣本的權重,這樣就近似的模擬出數據引力場模型并且極大的減小了計算開銷。如公式(10)、(11):

其中,TopN(i) 表示與樣本最近的N個近鄰樣本中屬于第i類的樣本集。這樣,我們就基于公式10、公式11為數據引力場算法找到了一個快速計算的近似解法。

2.3 微博信息置信度評估的算法框架

上文中提到,微博平臺作為社交網絡的重要組成部分,它所承載的功能是十分多樣化。雖然微博平臺成為了一個重要的新聞和信息的傳播途徑,但是,實際上,新聞信息在所有微博中所占的比例并不高。大部分的微博信息仍然屬于“閑聊”的范疇。而本文要實現微博置信度的評估和預測,首先,就要找到可以評估置信度的新聞類數據。通過 CCA的特征提取算法對微博內容信息和用戶信息進行特征提取,然后進入置信度評判系統。通過本文設計的數據引力場的判別模型計算出微博信息屬于置信度可評估的信息(“新聞”)還是置信度不可評估信息(“閑聊”)。如果是“新聞”類信息,則通過下一個分類判別機制最終判斷出該信息的置信度。在下一章中,本文將通過實驗說明基于數據引力場模型和CCA特征提取的算法框架能夠獲得比較準確的置信度評估結果。因此,本文基于上文中提到的相關算法設計了一個置信度評估的算法框架,如圖4所示:

圖4 微博信息置信度評估算法框架

3 實驗及性能評估

為了驗證本文設計的置信度評估方法的性能,我們從新浪微博中提取了233,369條微博以及相關的用戶信息。通過過濾如“轉發微博”等無內容的信息產生最終的數據集,并進行了相關的標注工作。經過統計,我們發現在這個數據集中,具有傳播“新聞”性質的內容占微博總數量的20%-30%。本文依照章節1描述的基于CCA特征融合方法產生了應用于學習模型分類的特征,并且按照圖4的流程完成了以下實驗過程。

首先,評估本文的算法在區分微博信息是屬于“新聞”類別和 “閑聊”的類別的性能,我們在最終提取的特征中選擇一部分作為訓練集對引力場模型(DFG)進行訓練。為了說明本文中算法具有更好的性能,我們選擇SVM和KNN算法作為對比。采用相同特征對于微博“新聞”和“閑聊”信息在不同大小的訓練集下進行分類判別的實驗結果。如圖5所示:

圖5 不同算法微博信息進行“新聞”和“閑聊”的分類對比。

從圖5中可以看出,隨著訓練集數量的增高,本文所提出的DGF算法最終能夠達到平均91%的準確率,而在同等條件下,KNN算法和SVM算法分別只能達到88%和86%。這證明中本文提出的DFG方法具有更好的分類判別性能。

接下來本文采用同樣的方法針對“新聞”類進行置信度評判,判別新聞是“真實”或“虛假”。本文在新聞類的特征集中選擇其中部分數據作為訓練集。采用3種分類判別算法(KNN算法、SVM算法和DGF算法)進行對比實驗得到的結果,如圖6所示:

圖6 不同算法對“新聞”類信息進行真實和虛假分類對比。

通過該實驗可以看出,隨著訓練樣本數量的提升,本文提出的DGF算法仍然取得了較好的結果,平均準確率能夠達到85%,明顯高于KNN和SVM所獲得的判別結果。

如表1所示:

表1.DGF、SVM、KNN分類結果的準確率和召回率。

詳細闡釋了在這兩組分類過程中“新聞”與“閑聊”、“真實”與“虛假”之間采用 DGF、SVM、KNN3種不同算法的實驗所獲得的準確率和召回率。從表中1可以看到,本文提出的DGF算法相較于其他兩種算法有較大的提升,這證明本文的算法能夠提供更好的置信度評估。

最后為了說明基于CCA的多維度特征提取的在置信度評判問題上具有更好的效果。我們分別采用僅基于微博內容特征、基于微博用戶特征和基于CCA的多視角特征對“新聞”類微博置信度判別做了對比實驗,實驗均采用DFG作為判別算法。實驗結果如圖7所示:

圖7 不同的特征提取方法獲得的分類判別準確率對比結果。

隨著訓練樣本數量的提升,本文的基于CCA的多維度特征提取方法相較于其他兩種方法能夠獲得更好的平均判別準確率,這表明基于CCA的特征融合方法對本文的置信度評判性能的提升有較大的貢獻。

4 總結

本文介紹了一種應用于社會媒體上的信息置信度評估的分析與判別方法。該方法通過基于CCA 特征融合的多視角特征提取算法以及數據引力場DGF判別模型,設計了一個從海量社會媒體信息中檢測出謠言和虛假信息的算法框架,并且將該算法應用于新浪微博數據集上的評估實驗

取得了較好的實驗結果。本文未來的工作主要關注于利用社交媒體中用戶之間的關聯信息對評估算法進行優化,以期望在檢測虛假信息或者謠言的任務中獲得更加準確的檢測結果。

[1]Carlos Castillo, Marelo Mendoza, Barbara Poblete.Information credibility on twitter [C]// Proceedings of the 20th international conference on World Wide Web, NewYork: ACM, 2011: 675-684.

[2]Vahed Qazvinian, Emily Rosengren, Dragomir R.Radev,et al.Rumor has it: identifying misinformation in microblogs[C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing, Stroudsburg,PA, USA: ACL, 2011: 1589--1599.

[3]Manish Gupta, Peixiang Zhao, and Jiawei Han.Evaluating event credibility on twitter [C]// SIAM International Conference on Data Mining (SDM13), Anaheim, California, USA: SIAM, 2012: 153-164.

[4]Ceren Budak, Divyakant Agrawal, and Amr El Abbadi.Limiting the spread of misinformation in social networks[C]// Proceedings of the 20th international conference on World Wide Web, New York: ACM, 2011: 665-674.

[5]Meredith Ringel Morris, Scott Counts, Asta Roseway, et al.Tweeting is believing? Understanding microblog credibility perceptions [C]// Proceedings of the ACM 2012 conference on Computer Supported Cooperative Work,New York: ACM, 2012: 441-450.http://weibo.com.

[6]K.Lee, B.Eoff, and J.Caverlee.Seven months with the devils: a long-term study of content polluters on twitter[C]// Proceedings of the Fifth International AAAI Conference on Weblogs and Social Media, Barcelona,Spain: AAAI, 2011.

[7]Mohammad Ali Abbasi and Huan Liu.Measuring User credibility in social media [C]// Proceedings of the 6th International Conference on Social Computing, Behavioral-Cultural Modeling, and Prediction, Washington:LNCS, 2013: 441-448.

[8]Asaf Degani, Michael Shafto, Leonard Olson.Canonical correlation analysis: use of composite heliographs for representing multiple patterns [C]// Proceedings of the 4th International Conference, Diagrams 2006, CA, LNCS,2006: 93-97.

[9]Albert Gordoa,b, Jos′e A.Rodr′?guez-Serrano, Florent Per-ronnin, et al. Leveraging category-level labels for instance-level image retrieval[C].// IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Providence, Rhode Island: IEEE, 2012: 2045-2052.

猜你喜歡
特征提取特征信息
如何表達“特征”
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于MED和循環域解調的多故障特征提取
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
Walsh變換在滾動軸承早期故障特征提取中的應用
軸承(2010年2期)2010-07-28 02:26:12
主站蜘蛛池模板: 麻豆精品在线视频| 欧美成人精品一区二区| 污污网站在线观看| 日韩成人高清无码| 精品国产www| 国产成人精品一区二区秒拍1o| 欧美日本激情| 亚洲热线99精品视频| 中文一区二区视频| 国产尤物在线播放| 日韩精品无码免费专网站| 天天综合网亚洲网站| 国产美女人喷水在线观看| 国产无码高清视频不卡| 欧美亚洲另类在线观看| 国产美女精品一区二区| 五月婷婷丁香色| 国产乱人视频免费观看| 国产精品久久久久久久久kt| 思思热精品在线8| 91无码人妻精品一区二区蜜桃| 热久久国产| 精品一區二區久久久久久久網站| 欧美成人精品欧美一级乱黄| 亚洲丝袜第一页| 久久一本日韩精品中文字幕屁孩| 国产综合精品日本亚洲777| 第九色区aⅴ天堂久久香| 成人日韩精品| 91视频区| 中文字幕在线不卡视频| 亚洲精品国产成人7777| 国产日韩欧美在线播放| 国产区在线看| 久久久国产精品免费视频| 亚洲精品男人天堂| 亚洲精品va| 四虎成人免费毛片| 久热中文字幕在线| 欧美不卡视频一区发布| 亚洲啪啪网| 亚洲精品无码在线播放网站| 国产喷水视频| 欧美日韩在线第一页| 亚洲国产中文精品va在线播放 | 中文字幕调教一区二区视频| av午夜福利一片免费看| 欧美亚洲综合免费精品高清在线观看 | 中文字幕1区2区| 国产97区一区二区三区无码| 国产精品无码AV片在线观看播放| 91精品国产无线乱码在线| 波多野结衣AV无码久久一区| 日韩中文精品亚洲第三区| 亚洲成人黄色在线| 免费A∨中文乱码专区| 久久综合色播五月男人的天堂| 欧美在线视频a| 成人国产免费| 欧美自慰一级看片免费| 伊人久综合| 中文字幕人成人乱码亚洲电影| 久久精品aⅴ无码中文字幕| 亚洲精品福利视频| 亚洲欧洲天堂色AV| 国产精品亚洲专区一区| 亚洲欧美日韩天堂| 72种姿势欧美久久久大黄蕉| 免费xxxxx在线观看网站| 精品国产Av电影无码久久久| 亚洲中文字幕精品| 精品福利视频导航| 成人午夜视频网站| 久久精品国产91久久综合麻豆自制| 97人人做人人爽香蕉精品| 亚洲一区二区三区在线视频| 国产精品九九视频| 在线免费亚洲无码视频| 国产一区亚洲一区| 久爱午夜精品免费视频| 国产69囗曝护士吞精在线视频| 国产精品三级av及在线观看|