999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于樸素貝葉斯模型的虛假新聞過濾算法研究

2020-06-27 14:01:04羅毅夫
大經貿 2020年4期
關鍵詞:機器學習

【摘 要】 社交媒體是一個高度開放和自由的互聯網信息傳播平臺。隨著信息媒體數量的增加,隨著自媒體的出現,每個人都可以在微信微博等平臺上發布和接收信息。由于信息量巨大,準入和訪問機制低,給信息交流帶來了極大的便利,同時也出現了大量的謠言。虛假新聞的負面效應極大地影響了國家和社會的和諧穩定和個人日常生活。因此,如何自動有效地識別謠言成為相關領域的研究熱點。針對日常中的假新聞問題,提出一種自動識別虛假新聞的辦法,該方法利用計算詞向量相關度,結合樸素貝葉斯模型。實驗結果顯示,該模型在45548個數據集上,能夠有效識別虛假新聞,驗證所提出的方法的可行性和有效性。

【關鍵詞】 謠言識別,機器學習,樸素貝葉斯

前 言

自從移動互聯網2.0時代的到來,中國網民數量開始極具增長,據統計,中國網民數量如今已突破八億。互聯網給人們帶來便利的同時,也帶了信息爆炸。拿新網微博來說,截至2015年,微博日活躍用戶達2.2億人,每天能夠產生1億條微博。移動互聯網在給公眾帶來信息便利的同時,也充斥著大量謠言。如今年新冠肺炎疫情中,網絡流傳由于全球疫情,大米進口量會受到抑制,所以大米會漲價,導致大批民眾開始囤積大米,有的甚至囤了一年也吃不完的大米,最后還需要官方辟謠。

為了抑制謠言,學術界和相關部門都都開展過研究,例如微博由經驗豐富的專家組成的辟謠團,每天24小時對微博實時監控,及時刪除謠言微博,同時還采取了謠言眾包的模式,每個用戶都是謠言監督員,都有權力對謠言微博進行舉報,但是由于個人知識有限性,普通大眾可能也無法對于一些專業性問題進行辨別,同時,通過專家辟謠的方式,時效性慢,往往辟謠速度遠低于謠言傳播速度,而且人工判斷需要耗費大量的資源。同時,隨著自然語言處理的發展,學術界提出了一些解決方案。

相關技術介紹

1.機器學習

謠言識別可以看作是分類問題,而在機器學習中,處理分類問題的經典方法有,支持向量機,樸素貝葉斯,決策樹,邏輯回歸,集成學習方法等,這些模型均屬于監督學習,監督學習基于先驗知識。其中,樣本特征為X={x1,x2,x3....xn},表示樣本集的n個特征,而通過機器學習模型學習特征,然后通過條件概率分布P(Y|X)或決策函數Y=f(x)來對新的樣本進行預測或者分類,分類或預測結果就是模型的輸出。

2.TF-IDF詞頻計算

TF-IDF(TermFrequency-InverseDocumentFrequency,詞頻-逆文件頻率),根據官方文檔解釋,是一種用于資訊檢索與資訊探勘的常用加權技術。TF-IDF是一種統計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降,即一個詞語在一篇文章中出現次數越多,但是在所有文章中出現次數越少,越能夠代表該文章含義。詞頻(termfrequency,TF)指的是某一個給定的詞語在該文件中出現的次數。這個數字通常會被歸一化(一般是詞頻除以文章總詞數),以防止它偏向長的文件。(同一個詞語在長文件里可能會比短文件有更高的詞頻,而不管該詞語重要與否。其中,n代表該詞語在該篇文章中出現的次數,n代表語料庫所有詞語數。某一特定文件內的高詞語頻率,以及該詞語在整個文件集合中的低文件頻率,可以產生出高權重的TF-IDF。因此,TF-IDF傾向于過濾掉常見的詞語,保留重要的詞語。

3.樸素貝葉斯

貝葉斯原理是英國數學家托馬斯·貝葉斯提出的,貝葉斯提出逆向概率概念,嘗試解答在沒有太多可靠證據的情況下,怎樣做出更符合數學邏輯的推測。樸素貝葉斯,它是一種簡單但極為強大的預測建模算法。之所以稱為樸素貝葉斯,是因為它假設每個輸入變量是獨立的,這個假設現實生活中能夠滿足的場景不多,但是這項技術對于絕大部分的復雜問題仍然非常有效。在樸素貝葉斯原理中,有三個重要的概念,即先驗概率,條件概率,后驗概率。假設有兩個分類C1,C2。其中每個類別有屬性A1,A2,A3。我們的目的是在知道一個類別的特征屬性的情況下,如何判別它的類別。對待預測樣本進行預測,樸素貝葉斯模型計算過程簡單速度快。對于多分類問題也同樣很有效,復雜度也不會有大程度上升。在分布獨立這個假設成立的情況下,貝葉斯分類器效果會略勝于邏輯回歸,同時模型需要的樣本量更少。即使在現在這種分類器層出不窮的年代,在文本分類場景中,樸素貝葉斯依舊堅挺地占據著一席之地。同時在文本數據中,分布獨立這個假設基本是成立的。而垃圾文本過濾(比如垃圾郵件識別)和情感分析(微博上的褒貶情緒)用樸素貝葉斯也通常能取得很好的效果。主要使用的類型有高斯分布型,多項式型,伯努利型。在本文中,對比了三種類型,選擇精度最高的多項式分布型來進行分類預測,多項式型用于離散值模型里。比如文本分類問題里面我們提到過,我們不光看詞語是否在文本中出現,也得看出現的次數。

實驗

1.數據獲取

本文通過網絡爬蟲,其中主要使用python中的requests和pyquery工具包,其中requests是一種構造網頁請求的工具,通過requests我們可以對網站進行模擬登錄,并且獲取到網頁內容,在該文中主要是獲取該頁中的新聞文本。由于網頁結構復雜,我們獲取到包含新聞內容的網站源碼后,還需要用pyquery對網站中的眾多標簽進行清洗,由于爬取的網站可能是ajax結構,所以我們還需要使用json方法來對新聞進行解析,由于爬蟲工作不是本文的主要工作,所以在此不做過多贅述。我們通過爬蟲采集了國內知名新聞網站同時也是謠言較多的門戶網站某頭條,一共收集48464篇新聞報道,其中虛假新聞23503條,真實新聞21418條。

2.實驗步驟

1)數據讀取

使用python中的pandas工具包,將存儲真假新聞的csv文件讀取,為了方便后面處理,我們新增一欄作為存儲清洗后的數據,命名為‘Article,并且將真假新聞數據集合并成一個數據集,區分方式為事先標注好的True和Fake,Fake代表虛假新聞。組合成一個數據集后,我們將每一個樣本隨機打亂。

2)數據清洗

剛剛我們在數據集中新建了一列命名為‘Article,第二步我們遍歷每一個數據集,通過分詞工具jieba,將每一篇文章進行分詞處理,并使用停用詞庫,去掉停用詞,去停用詞目的是由于中文中很多的助詞比如“的”,“啊”等等,實際上這些詞語對于文章的理解是不起作用的,而且這些詞語在文章中頻率高,所以我們需要將它們清洗掉。在做了以上兩步后,我們將剩下的詞語存入‘Article列。接下來我們就需要將處理好的詞向量化,在機器學習中,大部分的運算都是矩陣運算,因此需要將機器無法理解的中文轉化為詞向量。

3)特征提取和向量化

用CountVectorizer創建詞袋,再去擬合剛剛清理完成的文本數據后,使用TfidfTransformer函數擬合得到特征向量是534*533矩陣,將此舉證作為下一步樸素貝葉斯模型的輸入。

4)模型擬合及實驗結果

這里我們只用sk-learn工具包中的MultinomialNB函數,擬合特征向量。利用先驗概率,條件概率,來計算未知類別的概率,最后得出分類結果。這就是樸素貝葉斯的算法原理,。在本文中,我們設置訓練集與測試集比例為7:3,然后樸素貝葉斯分類擬合,通過結果報告看出得到的最終結果為:召回率為0.98,精度為0.96,F1值達到0.97,接近于1,F1值是召回率和精度的調和值,越接近于1說明模型分類效果越好。

結 語

社交媒體給消息傳播提供了一個良好的平臺,但同時也面臨著謠言泛濫的問題,利用自然語言處理技術的發展,找到一種基于機器的謠言識別對于互聯網媒體發展是非常重要的,同時也能夠凈化網絡環境,對于學術研究和商業發展都具有應用價值。本文分析了基于機器學習的樸素貝葉斯分類模型,實現了一個自動謠言檢測系統,結果證明基于大樣本數據集下,實驗結果證明本文提出的方法與特征的可行性和有效性。但是由于樸素貝葉斯模型本身具有一定局限性,即樸素貝葉斯有分布獨立的假設前提,而現實生活中這些預測器很難是完全獨立的。由于自然語言的特殊性,詞與詞之間往往具有關聯性,不能完全將其認作兩個完全獨立的變量,因此該模型在謠言分類問題上還是具有先天不足,接下來的工作方向我認為應該結合更適用自然語言處理的卷積卷積神經網絡,它的輸出就依賴于當前的輸入和之前的記憶,也就是考慮了上下詞之間的關聯性,可能會得到更好的分類結果。

【參考文獻】

[1] 周志華.《機器學習》

[2] 李航.《統計學習方法》

[3] 顧亦然,夏玲玲.在線社交網絡謠言的傳播與抑制[J].物理學報,2012,61(23):238701.

作者簡介:羅毅夫,1994.09,男,漢,四川省南充市,碩士在讀,云南財經大學,機器學習,推薦算法。

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 国模视频一区二区| 狠狠躁天天躁夜夜躁婷婷| 五月天综合网亚洲综合天堂网| 国产亚洲精品自在线| 91免费国产高清观看| 亚洲三级影院| 久久久久久国产精品mv| 91久久性奴调教国产免费| 成人免费一区二区三区| 亚洲国产中文精品va在线播放| 久久精品免费看一| 国产在线专区| 久久久精品无码一区二区三区| 日韩色图在线观看| 拍国产真实乱人偷精品| 日韩免费毛片| 97国产精品视频人人做人人爱| 最新国产麻豆aⅴ精品无| 激情在线网| 国产国产人免费视频成18| 日韩毛片免费视频| 久久综合九色综合97网| 婷婷亚洲天堂| 她的性爱视频| 欧美日韩国产综合视频在线观看| igao国产精品| 欧美精品亚洲精品日韩专区va| 五月婷婷亚洲综合| 91口爆吞精国产对白第三集| 国产麻豆va精品视频| 亚洲乱伦视频| 99视频在线免费| 国产91小视频在线观看| 波多野结衣无码AV在线| 午夜福利在线观看成人| 亚洲手机在线| 国产免费精彩视频| 青青操视频免费观看| 毛片a级毛片免费观看免下载| 日本亚洲国产一区二区三区| 亚洲欧洲日韩综合| 国产JIZzJIzz视频全部免费| 伊人久久大香线蕉影院| 国产成人精品综合| 欧美α片免费观看| 五月激情婷婷综合| 综合色亚洲| 日韩高清成人| 丁香五月亚洲综合在线| 国产又色又爽又黄| 99视频在线精品免费观看6| 鲁鲁鲁爽爽爽在线视频观看| 理论片一区| 日韩 欧美 国产 精品 综合| 欧美在线免费| 国产精品美女在线| 国产精品jizz在线观看软件| 成人日韩精品| 国产一区二区福利| 精品三级在线| 欧美国产日韩另类| 国产白浆一区二区三区视频在线| 国产乱子伦一区二区=| 乱色熟女综合一区二区| 国产精品福利一区二区久久| 国产精品区视频中文字幕 | 蝴蝶伊人久久中文娱乐网| 午夜视频免费一区二区在线看| 亚洲精品久综合蜜| 国产成人综合日韩精品无码不卡| 精品久久国产综合精麻豆| 欧美国产日产一区二区| av午夜福利一片免费看| 青青操视频在线| 久热中文字幕在线观看| 日日拍夜夜嗷嗷叫国产| 亚洲成人www| 日本在线亚洲| 亚洲日韩精品无码专区| 996免费视频国产在线播放| 免费国产无遮挡又黄又爽| 亚洲日本中文字幕乱码中文|