999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種熱點話題算法在微博輿情系統中的應用

2015-04-12 00:00:00李海生
現代電子技術 2015年6期

摘 "要: 為了能從中文微博中獲取實時的熱點話題,設計了一種微博輿情系統,能夠有效分析出微博中的熱點話題。系統采用網絡爬蟲算法獲得微博數據,然后對微博數據進行過濾,預處理得出比較純凈的微博數據。這里重點是對微博數據進行熱點話題分析,采用一種特征向量模型來分析熱點話題。最后通過實驗表明該微博輿情系統有一定的可行性和準確率。

關鍵詞: 微博; 情感分析; 熱點話題; 微博輿情

中圖分類號: TN911?34 " " " " " " " " " " "文獻標識碼: A " " " " " " " " " " " " " "文章編號: 1004?373X(2015)06?0044?03

Application of a hot topic algorithm in Chinese micro?blog popular feelings system

LI Hai?sheng

(Jiangnan Shipyard (Group) Co., Ltd., Shanghai 201913, China)

Abstract: In order to get a hot topics from Chinese micro?blog, a Chinese micro?blog popular feelings system was designed, which can analyze the hot topics in the micro?blog. A web crawler algorithm is adopted in the system to obtain micro?blog data, which will be flitered by the system. The focus of this paper is the analysis of micro?blog data in the hot topics. A feature vector model is used in this paper to analyze the hot topics. The experiment results show that the micro?blog popular feelings system has certain feasibility and accuracy.

Keywords: micro?blog; sentiment analysis; hot topic; micro?blog popular feeling

微博作為新時代的產物,在短短的幾年時間已經得到了迅猛發展,目前已經成為了日常生活必不可少的溝通、分享工具。一般一條中文微博字數限制在140字左右,但僅僅就這140字的微博卻能表達出一個人的觀點、思想和情緒,大大方便了信息的傳遞、獲取與共享,微博已經一躍成為時下最方便、最流行的互聯網應用之一。微博作為互聯網應用杰出的代表,在逐步地影響著人們的日常生活,微博每天大約會產生千萬條數據,在這千萬條數據中又會產生幾萬個話題,如果用戶想要更深入的了解熱點話題的話,就需要不斷地去刷新動態,用自己獨到的眼光去判斷熱點話題,分析微博傳遞的信息,這顯然是不合理的,而且了解的信息不完全,得不到理想的結果。怎樣從龐大的熱點話題中檢測出熱門話題,快速讓讀者了解熱門話題,這是時下里的一個熱點研究方向。同時,微博發布方式便捷,使得熱點話題得到快速傳播,這些特點也會使得虛假信息和片面信息容易泛濫,成為社會的安定的隱患,而且對于某些部門,他們密切關注著這些話題的動向。所以本文提出一種熱點話題檢測算法,對時下最熱門的微博系統之一的新浪微博做分析,來幫助相關人員自動檢測熱門話題,達到實時預警功能,形成一套微博輿情系統。

1 "相關工作

目前提及話題檢測通常都會提及 TDT,TDT 的英文全稱是 Topic Detection and Tracking[1],最早的研究主要是針對事件的檢測,通常的話題檢測是面向正式的新聞媒體信息流,其主要任務是識別當前話題,搜集相關話題和對已經檢測的話題進行追蹤。TDT中的話題識別與跟蹤的基本思想源于1996 年,來自 DARPA、卡內基?梅隆大學、Dragon系統公司以及麻薩諸塞大學的研究者開始定義話題識別與跟蹤研究的內容,并開發用于解決問題的初步技術。目前國內也有一些類似的系統,例如北大方正技術研究院推出的方正智思輿情預警輔助決策支持系統,其成功地實現了針對互聯網海量輿情自動實時的監測分析,有效地解決了政府部門以傳統的人工方式對輿情監測的實施難題。

就目前來看,微博輿情熱點發現的研究主要是在對中文信息的處理中和數據挖掘領域。在中文信息處理中,涉及到的技術有中文分詞技術、多維向量空間技術。而在數據挖掘技術方面,有輿情信息采集、自動分類、自動聚類等。黃曉斌在分析文本挖掘技術的基礎上提出網絡輿情信息挖掘分析模型[2],并以實例說明文本挖掘在網絡輿情分析中的應用;錢愛兵分析了網絡輿情的基本情況,設計了一個基于主題的網絡輿情分析模型[3];郭建永等結合劃分聚類和凝聚聚類的優點提出了一種增量層次聚類算法應用于主題發現[4];于滿泉等將自然語言處理與信息檢索技術相結合,提出針對事件特點的切實有效的單粒度話題識別方法[5];劉星星等設計了一個熱點事件發現系統,該系統面向互聯網新聞報道流,能自動發現任意一段時間內網絡上的熱點事件[6];王偉根據對網絡輿情分析的需求,構建了基于聚類的網絡輿情熱點問題發現及分析系統[7]。對于海量的網絡輿情信息,如何提高分析處理的效果和效率,提高網絡輿情熱點分析的準確度和效率,仍然是目前研究熱點。

2 "系統總體設計

本文是針對目前主流三大微博之一的新浪微博做的一個分析和檢測,旨在反映某個時間段內的熱點話題,通過實時對熱點話題的檢測,達到一個輿情預警的功能。本文構建的微博輿情系統架構設計如圖1所示。

lt;E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\33t1.tifgt;

圖1 微博熱點話題分析系統架構設計

2.1 "微博數據采集

微博數據采集采用的是網絡爬蟲技術,主要是針對新浪微博獲取數據源,他能夠遍歷新浪微博范圍內整個Web空間的數據源,并采集數據,然后通過索引將網絡爬蟲的數據建立索引并保存到索引數據庫,同時為了保證索引的實時更新,網絡爬蟲會不斷的工作,對新浪微博中的數據源進行重新搜索。微博信息采集實現以下功能:

(1) 對新浪微博全網的搜索,將有效信息保存,去除一些重復和無效數據;

(2) 網頁分析、信息存儲,實現頁面的去重、去噪,刪除垃圾信息;

(3) 多線程、分布式高速采集;

(4) 增量更新,只采集上次更新數據,而不是全部一次采集一遍,從而保證了信息更新的效率。

2.2 "微博數據處理模塊

2.2.1 "數據預處理

微博文本有其自身的特點,表達方式多樣性,且包含網頁鏈接、圖片、英文字母等等,本文需要對其進行預處理,步驟如下:

(1) 對微博數據進行去重、去噪、標簽過濾等操作,例如此微博,“今天我非常開心,巴西首場如愿獲得了勝利,恭喜巴西,巴西世界杯看球攻略http://t.cn/RvoEUxI”,針對此微博數據,需要對其進行預處理,去除鏈接、特殊符號、英文字母,得到純凈的微博數據,如“今天我非常開心,巴西首場如愿獲得了勝利,恭喜巴西,巴西世界杯看球攻略”。

(2) 去除表情符號,為后面的分詞處理做準備。

(3) 對微博進行分詞處理,本文使用中科院ICTCLAS系統[8]進行分詞與詞性標注。例如“今天我非常開心,巴西首場如愿獲得了勝利,恭喜巴西,巴西世界杯看球攻略”,通過分詞系統可得到{今天/t我/rr非常/d開心/a,/wd巴西/nz首場/d如愿/vi獲得/v了 /rr勝利/n,/wd恭喜/v巴西/nz,/wd巴西/nz世界杯/nz看/v球/n攻略/n}。

(4) 對分詞后的文本進行粗降維,即將停用詞,低頻詞從文檔中去除。

2.2.2 "特征選取

由于抽取樣本網頁正文的內容作為網頁的特征向量待選集合,分詞后的特征向量空間維度很大,導致算法效率會受到影響。 特征選取的目的就是進一步過濾掉信息量不大,對輿情熱點發現影響不大的詞,達到對網頁特征向量降維的效果,從而提高處理的效率和降低計算復雜度。 這里采用的降維方式是通過統計方法構造網頁主題評價函數,對每個特征向量進行評估,選擇那些符合預定閾值的詞作為網頁的特征項。

常見的特征選取方法有很多:信息增益法,互信息法,統計量法,交叉熵,優勢率和文檔頻率法等。 其中文檔頻率是最簡單,同時也是最有效的文本特征選取方法之一,在此采用它作為特征選取的方法。 在運用該方法時,首先計算各個征詞的文檔頻率,然后通過網頁主題評價函數進行評估(評估依據為文檔頻率低的特征不包含對分類(或聚類)有用的鑒別信息,因而對分類結果沒有什么影響),高于預定閾值的那些特征詞保留作為特征項。 特征詞出現的頻率 P(k)定義為:

[p(k)=freq(k)k=1.2..nfreq(k)] (1)

式中freq(k)為網頁特征詞語頻率。

2.2.3 "向量表示

特征提取之后,在此采用目前應用最廣泛的向量空間模型VSM(Vector Space Module),該模型基本思想是:經過文本預處理后,將文本看作一系列無序詞條的集合,繼而表示為高維空間向量。將文本中每個詞條Ti作為惟一特征用來表示,權值Wi表示一個文本中的第i個元素或特征的重要性,這樣每條微博m就可以映射為此空間中的一個點,用向量表示為Vm=(T1W1,T2W2,…,TnWn)。再通過句子相似度計算獲得文本之間的差距,然后我們就可以判斷微博之間的相似性。用向量空間模型表示微博消息的優點:將文本內容用向量化表示,使得自然語言能夠被計算機理解,具有可操作性和可計算性;模型概念容易理解,應用過程易于實現;通過對權值的計算能夠體現不同詞語在微博語句中的重要性;在計算文本相似度時有更大選擇空間。該模型的缺點:將微博消息中的詞條離散化,詞的次序、詞與詞之間的關系等因素將不被考慮,因此當以詞為向量基本單位時,可能造成空間維數較高,影響效率,所以需要進行降維處理。

2.3 "熱點話題發現模塊

熱點發現模塊主要是將經過預處理的微博數據進行分析,獲取在一定時間周期內發布信息流中,一組內容相同和相近的話題微博,當參與者超過一定的閾值H時則認定為熱點話題MT。微博話題描述的形式為,MT=(MS,N,T,MF),其中MS表示非空的微博信息集合;N表示參與者的個數;T表示微博消息發生的時間跨度;MF表示抽取時間的微博特征詞匯表。根據熱點話題的定義,每次熱點話題提取和分析的對象,是時間跨度T內微博的集合,表示為CM,MS屬于CM。因此微博的話題發現就是基于微博內容的歸類處理,每一類微博就能說明用戶群所關注的一個焦點,即熱點話題。

在微博內容的劃分上,由于微博數量巨大且內容復雜,并且在研究中沒有先驗學習語料,所以不能直接通過有監督的文本分類方法來獲得歸類后的微博子集合。因此類別特征能被視為話題的對應體,通過計算每個微博話題的特征詞表就能夠發現這段時間內微博中的熱點話題。在無監督學習條件下直接獲取每一個話題對應的特征詞表是不現實的,可以通過詞頻統計[9]的方式發現整個微博流中的特征集合,根據內容關聯度對這個特征集合進行劃分就能得到每個微博話題對應的特征詞表,每個特征詞表對應一個話題,通過這樣的方法完成微博的話題發現。

2.4 "系統管理模塊

任何一個系統都離不開系統管理模塊,本系統管理模塊主要是針對用戶角色設定的,實現用戶、訪問權限、數據分離、數據安全控制等。主要由用戶管理模塊和角色權限管理模塊兩個模塊組成。系統管理模塊是系統的核心,同時也控制著數據訪問權限。

2.5 "測試指標

文本分類算法常用的評價指標有召回率R、準確率P和F值,計算公式如下:

召回率:

[R=CiDi] (2)

準確率:

[P=CiEi] " " " " " (3)

F值:

[F=2P×RP+R×100%] " " (4)

式中Ci為實驗分類為C的微博數;Di為實驗總的微博數;Ei為微博分類為C的微博條數,C表示微博類別。

3 "實驗分析

本文利用如上所述的方法采集新浪微博數據28 000條,經過預處理分析,篩選出19 830條數據,利用這近2萬條數據進行分析計算,得到話題有{好聲音,532},{爸爸去哪兒,453},{感動中國,344},{文明出行,298}等,其中的數字表示詞頻。微博話題檢測詞頻如表1所示。

表1 微博話題檢測詞頻

表1為系統經過分析后的數據,近期微博熱點話題為#中國好聲音#,雖然只有2萬條數據,但是其占據了很大比例。對于這套分析系統采用第2節所示的測試指標,召回率為0.657 76,準確率為0.708 53,F值為0.582 35。召回率、準確率和F值都在0.6左右,所以對比往常的分析方法還算正常的結果范圍。利用系統分析出的熱點話題,與當下的熱點話題相比確實差不多,中國好聲音確實比較流行。

4 "結 "語

本文利用網絡爬蟲算法結合新浪微博的API獲取新浪媒體的微博數據,然后對微博數據進行過濾,預處理得出比較純凈的微博數據,然后結合熱點話題算法構建了一套微博輿情分析系統,此系統經過試驗證明有一定的可行性,能獲得當前的微博話題。但是該系統還存在很多問題,例如無法對熱點話題進行實時的預警,對一些敏感詞匯進行追蹤,查詢發布源頭等,這些都是下一步系統所需要改進的地方。

參考文獻

[1] ALLAN James, PAPKA Ron, LAVRENKO Victor. On?line new event detection and tracking [C]// Processing of 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Amherst: University of Massachusetts, 1998: 37?45.

[2] 黃曉斌,趙超.文本挖掘在網絡輿情信息分析中的應用[J].情報科學,2009(1):94?99.

[3] 錢愛兵.基于主題的網絡輿情分析模型及其實現[J].情報分析與研究,2008(4):49?55.

[4] 郭建永,蔡永,甑艷霞.基于文本聚類技術的主題發現[J].計算機工程與設計,2008(6):1426?1428.

[5] 于滿泉,駱衛華,許洪波,等.話題識別與跟蹤中的層次化話題識別技術研究[J].計算機研究與發展,2006,43(3):489?495.

[6] 劉星星,何婷婷,龔海軍,等.網絡熱點事件發現系統的設計[J].中文信息學報,2008,22(6):80?85.

[7] 王偉,許鑫.基于聚類的網絡輿情熱點問題發現及分析[J].情報分析與研究,2009(3):74?79.

[8] ICTCLAS Chinese Word Segmentation. Download ICTCLAS [EB/OL]. [2012?07?02]. http://ictclas.org/ictclas_download.aspx.

[9] 張清亮,徐健.網絡情感詞自動識別方法研究[J].現代圖書情報技術,2011(10):24?28.

主站蜘蛛池模板: 99视频在线观看免费| 天天综合网亚洲网站| h网站在线播放| 手机在线看片不卡中文字幕| 欧美国产在线一区| 亚洲综合亚洲国产尤物| 免费激情网址| 亚洲福利视频一区二区| 精品无码日韩国产不卡av| 亚洲精品视频免费| 国产色婷婷| 国产一级一级毛片永久| 国产精品v欧美| 国产自在自线午夜精品视频| 亚洲第一色网站| 自拍亚洲欧美精品| 免费女人18毛片a级毛片视频| 国产一级毛片高清完整视频版| 一级毛片高清| 无码一区中文字幕| 亚洲福利一区二区三区| 亚洲精品天堂在线观看| 伊人久久大香线蕉影院| 中文成人无码国产亚洲| 欧美午夜视频| 亚洲精品无码久久毛片波多野吉| 亚洲天堂精品在线观看| 国产日产欧美精品| 99精品热视频这里只有精品7| 99色亚洲国产精品11p| 国产亚洲欧美在线专区| 久久香蕉国产线看精品| 无码 在线 在线| 国产在线视频二区| 久久无码av三级| 欧美中文一区| 亚洲欧美精品在线| 99久久无色码中文字幕| 国产一级毛片高清完整视频版| 国产精品一区在线麻豆| 亚洲水蜜桃久久综合网站| 国产手机在线ΑⅤ片无码观看| 国产区人妖精品人妖精品视频| 久久美女精品国产精品亚洲| 亚洲精品午夜天堂网页| 成人免费一区二区三区| 67194成是人免费无码| 夜夜操国产| 91麻豆久久久| 亚洲啪啪网| 久久国产免费观看| 就去吻亚洲精品国产欧美| 一本色道久久88综合日韩精品| 日韩在线欧美在线| 男女猛烈无遮挡午夜视频| 国产亚洲欧美另类一区二区| 亚洲精品色AV无码看| 亚洲中文精品人人永久免费| 欧美国产日韩在线观看| 亚洲av无码成人专区| 免费观看三级毛片| 国产成人在线无码免费视频| 国产乱子伦无码精品小说| 欧美精品高清| 日韩在线中文| 日韩AV手机在线观看蜜芽| 久久不卡国产精品无码| 亚洲欧美色中文字幕| 久久精品无码中文字幕| 亚洲天堂2014| 欧美h在线观看| 欧美成一级| 欧美综合激情| 国产精品开放后亚洲| 国产手机在线ΑⅤ片无码观看| 亚洲综合18p| 国产精品yjizz视频网一二区| 青青操国产视频| 精品国产成人a在线观看| 国产成人免费高清AⅤ| 在线视频亚洲色图| a毛片在线播放|