999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于聯合分類器過濾噪聲的微博主題發現①

2018-02-07 02:41:36崔超遠孫丙宇汪六三
計算機系統應用 2018年1期
關鍵詞:分類文本模型

高 森,嚴 曙,崔超遠,孫丙宇,汪六三

1(中國科學院 合肥物質科學研究院 智能機械研究所,合肥 230031)2(中國科學技術大學,合肥 230026)

隨著互聯網技術和信息技術的迅速發展,微博等一些社交媒體正改變著人們的生活.由于微博的廣泛流行,微博中產生大量的數據,這些數據有著非常大的潛在價值.目前進行微博主題發現的方法主要是使用LDA模型[1],但是由于微博內容比較短,內容比較隨意,并不是所有的微博內容都是與用戶興趣相關的.所以可以把微博分為兩類:與用戶興趣相關的微博和與用戶興趣不相關的微博[2].與用戶興趣不相關的微博也就是‘噪聲微博’的存在,會很大程度上影響微博主題發現的質量.傳統的文本分類方法主要有支持向量機(SVM),樸素貝葉斯(Bayes)和決策樹(Tree)三種方法,由于微博文本的特點,微博文本短而且內容形式隨意沒有規律,所以傳統的文本分類方法對微博數據分類的效果并不是很好,所以本文分別采用了bagging學習算法來提高分類法的準確率.即先使用支持向量機,樸素貝葉斯和決策樹三種方法對標注好的微博內容進行訓練,得出三種預測函數序列進行投票,得到一個分類器,然后利用這個聯合分類器去除噪聲微博,在此基礎上再進行LDA主題發現[3-9],發現微博主題分類的質量有很大的提升.

1 基本原理

1.1 樸素貝葉斯分類的基本原理

在分類算法中,樸素貝葉斯分類(Bayes Classifier)因其簡單和容易理解的特性,被廣泛使用,基本思想是:對于給出的待分類項,求解在此項出現的條件下各個類別出現的概率,概率最大的那個類別就認為該項屬于這個類別.正式定義如下:

假設各個特征屬性是條件獨立的,則根據貝葉斯定理可以推導出:

1.2 支持向量機分類的基本原理

支持向量機(SVM)是一種十分常用的二分類模型.支持向量機(SVM)的定義是:給定線性可分訓練數據集,通過間隔最大化或等價的求解相應的凸二次規劃問題學習得到的分離超平面為:

稱為線性可分支持向量機.

1.3 決策樹分類的基本原理

決策樹二分類器模型是一個典型二叉樹結構.決策樹分類器模型經常用來做二分類,決策樹上的非葉節點表示在一個特征屬性上的測試,將測試的數據分為兩類.文本使用信息增益來做決策樹的特征屬性選擇.信息增益基于香濃的信息論,找出的屬性具有這樣的特點:以屬性分裂前后的信息增益比其他屬性最大.這里信息的定義如下:

1.4 聯合分類器原理

聯合分類器是三種經典的文本分類方法:樸素貝葉斯分類器、決策樹分類器和支持向量機(SVM)分類器結合構成的[10-14].先用樸素貝葉斯分類器、決策樹分類器和支持向量機(SVM)分類器在人工標注好的的微博數據集中抽取80%的數據訓練生成三個預測函數YB,YT,YS分別代表貝葉斯分類器預測函數、決策樹分類器預測函數和支持向量機分類器預測函數,YU是聯合分類器預測函數.對于每條微博w,使用三個預測函數分別做預測分類.微博分為兩類:與用戶興趣相關c1和與用戶興趣不相關c2.那么:

YB,YT,YS取值為0或1.如果則將微博w分為c1類,否則分為c2類.

這樣做的原理是:

設P={P1,P2,P3}分別是三個分類器的準確率,那么聯合分類器的準確率:

對PU求導數令其等于0得P=0或1,所以可知PU在P∈(0,1)的范圍內是遞增的.再令PU=P得P=0、0.5或1,即在P=0、0.5和1的時候聯合分類器的效果和單個分類器的效果一樣,而又因為PU在P∈(0,1)的范圍內是遞增的,所以在1>P>0.5的情況下PU>P,所以要求樸素貝葉斯分類、決策樹分類和支持向量機(SVM)分類器的準確率達到0.5以上,聯合分類器才有效果.而實驗表明本文采用的三個分類器準確率都在0.5以上,所以采用聯合分類器進行微博噪聲分類是合理而有效的.

1.5 LDA的主要原理

LDA模型是一種三層貝葉斯模型,三層分別為:單詞層、topic層和文檔層.該模型基于如下假設:

(1)整個文檔集合中存在k個互相獨立的topic;

(2)每一個topic是詞上的多項分布;

(3)每一個文檔由k個topic隨機混合組成;

(4)每一個文檔是k個topic上的多項分布;

(5)每一個文檔的topic概率分布的先驗分布是Dirichlet分布;

(6)每一個topic中詞的概率分布的先驗分布是Dirichlet分布.

文檔的生成過程如下:

(1)對于文檔集合M,從參數為β的Dirichlet分布中采樣topic生成word的分布參數φ;

(2)對于每個M中的文檔m,從參數為α的Dirichlet分布中采樣doc對topic的分布參數θ;

(3)對于文檔m中的第n個詞語W_mn,先按照θ分布采樣文檔m的一個隱含的主題Z_m,再按照φ分布采樣主題Z_m的一個詞語W_mn.

LDA貝葉斯網絡結構如圖1所示.

圖1 LDA貝葉斯網絡結構圖

因此整個模型的聯合分布,如下:

對聯合分布求積分,去掉部分隱變量后:

通過計算消除中間參數θ和φ,得到主題的轉移概率化為:

2 微博主題發現模型

該模型的主要分為三個階段:一是將文本向量化,將一個字符串轉化成向量形式;二是構造分類器,本文共采用三個分類器:樸素貝葉斯、支持向量機和決策樹分別對訓練集進行訓練,得出三個預測函數進行投票得出一個聯合分類器模型;三是訓練LDA模型.

2.1 文本向量化

由于微博內容形式比較隨意,而且內容里面穿插著各種表情和URL等,這使文本向量化造成很大的麻煩,因此文本向量化首先要做的就是去除特殊字符,包括繁體字、URL、標點符號等.去除特殊字符之后我們要對微博內容進行分詞.

文本向量化的主要流程是:

(1)去除微博中出現的包括繁體字、URL、標點符號等在內的特殊字符.

(2)將各文檔進行分詞,從字符串轉化成單詞列表.

(3)去除停用詞,去掉一些無關主題的詞,以免影響主題發現的質量.

(4)統計各文檔單詞,生成詞典.

(5)利用詞典將文檔轉化成詞頻表示的向量,即指向量中的各值對應于詞典中對應位置單詞在該文檔中出現次數.

(6)再進行進一步處理,將詞頻表示的向量轉化成tf-idf表示的向量.

(7)由tf-idf表示的向量轉化成lsi表示的向量.

2.2 分類器模型

過濾噪聲微博的過程可以看作是一個二分類問題,即將所有微博分為兩個類:與用戶興趣相關和與用戶興趣不相關.本文使用了三種經典的文本分類方法和bagging學習算法提高分類器的準確率.先用樸素貝葉斯分類、決策樹分類和支持向量機(SVM)分類生成三個預測函數.然后使用簡單投票機制,實行多數服從少數策略組合成聯合分類器,解決噪聲微博過濾的問題.

我們將文本向量化后的每一列當作是分類器的特征,然后直接用文檔向量化的結果訓練分類器,得出三個預測函數,然后將每個預測函數對微博進行投票,獲得兩次及以上投票的類別我們就認為是該微博的類別.

2.3 LDA模型

將得到的聯合分類器對未分類的微博進行分類,篩選出與用戶興趣相關的微博,然后進行文檔向量化,在進行LDA訓練,得出LDA模型.

3 實驗與結果分析

3.1 實驗數據獲取及預處理

實驗數據是來自2016年5月1日的微博內容,總共有將近80萬條微博,選出前3000條微博進行人工標注是否與用戶興趣相關.結果統計得出與用戶興趣不相關的微博有1243條,與用戶興趣相關的微博的有1757條.然后我們分別對這3000條微博做了預處理,即去除微博中的特殊字符,然后將微博用結巴分詞進行分詞,再將分詞后的結果去停用詞.這樣我們就把原先的一條微博轉換成一個單詞列表.最后隨機將標注好的數據集按8:2的比例隨機分成訓練集和測試集,這樣就完成了數據的預處理過程.

3.2 訓練聯合分類器模型

在預處理過程中我們獲得了訓練集數據和測試集數據,將訓練集數據作為數據集來分別訓練Bayes分類器模型、SVM分類器模型和Tree分類器模型得到三個預測函數,模型參數都是默認的,通過投票對微博數據進行分類.在機器學習中為了評估一個模型的性能,通常使用ROC曲線,ROC曲線經常用于評價一個二分類器的性能.

圖2解釋了ROC曲線中各參數的意義.

圖2 ROC曲線參數示意圖

ROC關注兩個指標:

在ROC二維空間圖中,FPR作橫坐標,TPR是縱坐標,畫出的曲線說明了分類器在P和FP間的權衡.ROC的主要分析工具是一個畫在ROC空間的曲線.對于二值分類問題,實例的值往往是連續值,我們通過設定一個閾值,將實例分類到正類或者負類11.因此我們可以變化閾值,根據不同的閾值進行分類,根據分類結果計算得到ROC空間中相應的點,連接這些點就形成ROC curve.圖3是SVM分類器和聯合分類器的ROC曲線.

由圖1可以看出聯合分類器明顯比SVM分類器分類效果要好上很多,為了得到聯合分類器模型和其他模型更直觀的對比,又算出各個分類器的準確率和召回率如表1.

圖3 SVM分類器和聯合分類器在測試集上的ROC曲線

表1 分類器的準確率和召回率

由表1可知,聯合分類器的分類準確率達到87%,幾乎可以將噪聲微博去除.我們用聯合分類器將8萬微博重新分類,獲得53612條與用戶興趣相關的微博.

3.3 訓練LDA模型

在訓練LDA模型中,主題數的確定是一個非常困難的問題.目前還沒有非常有效的方法來確定主題的數目.這里我們采用的是根據新浪新聞的分類數目來確定主題數目,最后把主題數定為是15個.

本文先用聯合分類器將8萬微博重新分類,獲得53612條與用戶興趣相關的微博,將這些微博進行去特殊字符分詞等預處理,最后獲得是每篇微博都是詞的列表.將得到的數據作為語料庫,統計各文檔單詞生成詞典,利用詞典將文檔轉化成詞頻表示的向量,即指向量中的各值對應于詞典中對應位置單詞在該文檔中出現次數,再進行進一步處理,將詞頻表示的向量轉化成tf-idf表示的向量,最后訓練LDA模型得到15個主題.主題和主題下的詞如表2所示.

表2 主題及主題詞

3.4 實驗結果分析

Bagging是一種用來提高學習算法準確度的方法,這種方法通過構造一個預測函數系列,然后以投票的方式將它們組合成一個預測函數.通過這種方式把三個原本用于微博分類效果不好的模型組合成一個聯合分類器.通過圖2和表1可以看出聯合分類器的分類效果準確率顯著提高.表2是主題從15個主題中選擇的5個主題以及每個主題下的前5個詞.根據實驗結果可以看出去除噪聲微博之后每個主題非常明確,這也進一步說明了去除噪聲微博的重要性.

4 結束語

本文先將用戶發的微博進行了預處理,然后進行人工標注.把標注好的數據作為分類器模型的訓練集,實驗表明各個模型的精確率都可達到70%以上,而本文所使用的聯合分類器的精確率可以達到85%以上,接下來的LDA模型發現的主題效果很好,更加證明了在進行主題發現之前使用聯合分類器對微博內容進行分類,去除噪聲微博的重要性和有效性.

雖然該模型取得了很好的效果,但是沒有對LDA模型進行改進.LDA模型分類的效果不僅取決于訓練集的質量,還有其他的很多方面,例如分詞的效果,參數的選擇等.下一步將對該問題做更深入的研究.

1 王廣新.基于微博的用戶興趣分析與個性化信息推薦[碩士學位論文].上海:上海交通大學,2013.

2 于洪濤,崔瑞飛,董芹芹.基于遺忘曲線的微博用戶興趣模型.計算機工程與設計,2014,35(10):3367–3372,3379.[doi:10.3969/j.issn.1000-7024.2014.10.006]

3 張培晶,宋蕾.基于LDA的微博文本主題建模方法研究述評.圖書情報工作,2012,56(24):120–125.

4 劉紅兵,李文坤,張仰森.基于LDA模型和多層聚類的微博話題檢測.計算機技術與發展,2016,26(6):25–30,36.

5 柳培林.基于向量空間模型的中文文本分類技術研究[碩士學位論文].大慶:大慶石油學院,2006.

6 周茜,趙明生,扈旻.中文文本分類中的特征選擇研究.中文信息學報,2004,18(3):17–23.

7 劉麗珍,宋瀚濤.文本分類中的特征選取.計算機工程,2004,30(4):14–15,175.

8 劉穎.用隱馬爾柯夫模型對漢語進行切分和標注排歧.計算機工程與設計,2001,22(4):58–62,68.

9 李湘東,高凡,丁叢.LDA模型下不同分詞方法對文本分類性能的影響研究.計算機應用研究,2017,34(1):62–66.

10 張紅梅,王利華.使用否定選擇算法改進文本過濾.計算機工程與科學,2008,30(8):61–64.

11 劉海峰,劉守生,姚澤清.文本分類中基于訓練樣本空間分布的K近鄰改進算法.情報學報,2003,32(1):80–85.

12 李湘東,巴志超,黃莉.基于語料信息度量的文本分類性能影響研究.情報雜志,2014,33(9):157–162,180.

13 苑擎飏.基于決策樹中文文本分類技術的研究與實現[碩士學位論文].沈陽:東北大學,2008.

14 崔建明,劉建明,廖周宇.基于SVM算法的文本分類技術研究.計算機仿真,2013,30(2):299–302.

猜你喜歡
分類文本模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲国产理论片在线播放| 欧美日韩第三页| 国产午夜人做人免费视频中文| 中文字幕人妻无码系列第三区| 成人亚洲天堂| 国产成人在线无码免费视频| 四虎国产永久在线观看| 日韩小视频在线观看| 日本久久网站| 成人在线综合| 国产十八禁在线观看免费| 国产91精品调教在线播放| 超碰免费91| 久久国产精品影院| 人妻无码一区二区视频| aa级毛片毛片免费观看久| 国产爽爽视频| 999国产精品| 99精品视频在线观看免费播放| 亚洲国产精品国自产拍A| 全部免费毛片免费播放| 中国黄色一级视频| 日韩成人在线视频| 在线免费无码视频| 亚洲国产精品一区二区高清无码久久| 亚洲aaa视频| 天天综合网亚洲网站| 久久人人97超碰人人澡爱香蕉| 欧美亚洲一区二区三区在线| 最新国产麻豆aⅴ精品无| 99九九成人免费视频精品 | 国产免费高清无需播放器| 亚洲另类国产欧美一区二区| 精品人妻无码中字系列| 精品無碼一區在線觀看 | 91探花国产综合在线精品| 夜夜操狠狠操| 黄色片中文字幕| 精品久久蜜桃| 亚洲国产成人精品一二区| 456亚洲人成高清在线| 亚洲日本中文综合在线| 在线永久免费观看的毛片| 国产成人高清亚洲一区久久| 国产精品视频3p| 一级一级一片免费| 国产aⅴ无码专区亚洲av综合网| 激情综合图区| 992Tv视频国产精品| 国产91视频观看| 99r在线精品视频在线播放| 亚洲欧美另类日本| 91小视频在线| 国产在线无码av完整版在线观看| 国产精品一区二区无码免费看片| 三级欧美在线| 四虎成人精品在永久免费| 亚洲人成网7777777国产| 久久精品国产精品青草app| 亚洲精品中文字幕无乱码| 欧美成a人片在线观看| 亚洲an第二区国产精品| 欧美日韩免费在线视频| 性69交片免费看| 国产香蕉国产精品偷在线观看| 热99精品视频| 国产高清在线精品一区二区三区 | 大乳丰满人妻中文字幕日本| 97青青青国产在线播放| 91精品国产综合久久香蕉922 | www.精品国产| 国产午夜不卡| 亚洲一区二区三区国产精品| 巨熟乳波霸若妻中文观看免费| 国产精品亚洲一区二区在线观看| av一区二区三区高清久久| www亚洲精品| 精品一区二区三区波多野结衣| 国产成人无码播放| 欧美色图久久| 亚洲天堂视频在线观看| 国语少妇高潮|