999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于聚類的網(wǎng)絡新聞熱點發(fā)現(xiàn)研究

2015-09-27 02:35:31萬曉霞趙佳
現(xiàn)代計算機 2015年26期
關鍵詞:實驗

萬曉霞,趙佳

(西華大學計算機與軟件工程學院,成都 610039)

基于聚類的網(wǎng)絡新聞熱點發(fā)現(xiàn)研究

萬曉霞,趙佳

(西華大學計算機與軟件工程學院,成都610039)

0 引言

在互聯(lián)網(wǎng)技術飛速發(fā)展的今天,人們獲取新聞信息的形式已不再僅限于傳統(tǒng)的單一媒體,如報紙、電視,網(wǎng)絡已成為各大媒體發(fā)布信息的主要渠道。但各大新聞門戶網(wǎng)站每天都會發(fā)布各種報道,導致網(wǎng)絡信息繁雜無序,并且不是每一個事件都是值得網(wǎng)民關注。因此,如何快速準確地從浩瀚的網(wǎng)絡信息中挖掘出熱點事件,讓人們更好地了解和回顧歷史事件,是一個值得探討的問題。新聞熱點事件的發(fā)現(xiàn)常用聚類的方法實現(xiàn),如今,已有許多學者做出了大量的研究,如提出了基于層次聚類的網(wǎng)絡新聞熱點發(fā)現(xiàn)[1]和基于二次聚類的新聞推薦方法[2],但單一的層次聚類方法由于計算量過大,會導致網(wǎng)絡新聞這種大數(shù)據(jù)集的計算速度較慢,其他方法也需要人為設定初值,可能導致聚類結果的不準確。鑒于以上原因,本文提出了將三種聚類算法相結合的話題發(fā)現(xiàn)算法,并通過實驗證明此方法能更準確地發(fā)現(xiàn)一年的網(wǎng)絡新聞熱點事件。

1 聚類算法研究

聚類是一個無監(jiān)督的學習過程,它可以將數(shù)據(jù)集里相似性較高的對象劃分為一類,最終使得同組對象相似,而不同組對象則相異。聚類算法有劃分聚類、層次聚類以及增量聚類等。劃分聚類首先是要選定初始聚類中心,然后將剩下的數(shù)據(jù)劃分到與之最近的聚類中心中去,使得在同一個子集中的點盡可能的相似。K-means是劃分聚類算法中比較經(jīng)典的算法。層次聚類算法是將所有的樣本點自底向上合并成一棵樹或者自頂向下分裂成一棵樹的過程,最終達到預期的類簇或其他的終止條件,這兩種方法分別稱為凝聚和分裂。而增量聚類的其中一類是利用上一次聚類的結果,每次將一個數(shù)據(jù)點劃分到已有簇中,即新增的數(shù)據(jù)點被劃入中心離它最近的簇中并將中心移向新增的數(shù)據(jù)點,也就是說新增的數(shù)據(jù)點不會影響原有劃分。

網(wǎng)絡新聞熱點的發(fā)現(xiàn)過程從本質上講是一個聚類的過程,一個熱點事件通常會有很多的報道,并且報道的時間可能會持續(xù)很長。因此,如何選擇高效且能準確地將大量的新聞報道中相同的事件聚集在一起,不同的事件區(qū)分出來是本研究的一個重要任務。根據(jù)對多種聚類算法的比較分析,我們將三種聚類算法共同用于本系統(tǒng)的研究,選擇層次聚類對每天的新聞網(wǎng)頁進行聚類得出微類,再選擇K-means聚類算法對每月的微類進行聚類,最后將每個月的事件通過增量聚類得出一年的熱點新聞事件。

2 網(wǎng)絡新聞熱點發(fā)現(xiàn)系統(tǒng)

本文的目的主要是對一年的網(wǎng)絡新聞報道進行話題發(fā)現(xiàn)的研究,通過聚類得出一年里網(wǎng)絡上報道的較受關注的新聞,最后通過熱點計算公式得出它們的熱度,進而得出一年的熱點事件。因此,如果直接對一年的新聞報道數(shù)據(jù)進行處理無疑會增加處理過程的復雜性,為了提高熱點事件發(fā)現(xiàn)的精確性,降低系統(tǒng)的時間復雜度,本文利用分而治之的思想,將一年的新聞報道分為12個月分別存儲,每個月的新聞又按每天的新聞進行存儲,先對每一天的新聞報道進行話題發(fā)現(xiàn),即進行凝聚聚類,找出每天的微類,再將每個月里的微類進行K-means聚類,最后將12個月里的話題類簇進行增量聚類,得出一年的話題新聞,并通過熱點計算公式篩選和排序,得到一年的熱點事件。系統(tǒng)的整體流程框架如圖1所示。

圖1 系統(tǒng)流程圖

新聞網(wǎng)頁是一種非結構化的數(shù)據(jù)類型,因此我們必須將其轉化為結構化的數(shù)據(jù)類型才能被計算機所處理。首先將下載的網(wǎng)頁通過分詞軟件進行切詞、去除停用詞以及詞性的標注,接著我們將采用常用的向量空間模型(VSM)對新聞文檔進行向量表示,這是通過計算機編程對新聞網(wǎng)頁進行聚類處理的前提條件。每一個新聞文本d表示成如下所示的向量形式:

V(d)=

(t1,w1(d);t2,w2(d);…ti,wi(d);tn,wn(d))(1)

其中,ti為新聞文檔的特征項,wi為特征項在文檔d中所占的權值。

對于特征項權值的計算,本文采用經(jīng)典的TF-IDF算法,計算公式如下:

對于每日的網(wǎng)絡新聞而言,我們無法預料究竟有多少話題數(shù)量,所以如果用給定聚類數(shù)K值的聚類算法可能會由于經(jīng)驗不足導致聚類結果偏差較大,因此我們將采用凝聚聚類算法并通過對閾值的控制來確定算法終止的條件,進而得出每日的話題簇。每日話題簇數(shù)量得出之后,通過求出一個月內每日話題簇的平均值,將之作為第二步使用K-means進行每月話題聚類的初始聚類數(shù)目,并選擇K個話題簇中文檔數(shù)較多的類簇作為初始聚類中心,進行每月話題簇的聚類發(fā)現(xiàn)。最后用增量聚類的算法得出一年的話題類簇。每日話題聚類和每月話題聚類的具體算法步驟如下所示:

(1)每日話題凝聚聚類算法

輸入:包含n個數(shù)據(jù)的單日新聞數(shù)據(jù)集D,聚類終止條件閾值M

輸出:K個聚類后的話題簇

①將每個對象作為一類,共n類

②計算兩兩之間的相似度

③找出相似度最大的兩類并合并,并對它們重新進行表示

④重新計算新類與其它類之間的相似度

⑤重復③和④,UNTIL達到聚類終止條件

⑥輸出K個話題簇

(2)每月話題凝聚聚類算法

輸入:第一次聚類后一個月的話題簇數(shù)據(jù)集D1

輸出:K個聚類后的話題簇

①計算出一個月內每日的話題數(shù)均值K

②從D1中選取出K個文檔數(shù)最多的話題簇作為初始的聚類中心

③分別計算D1中其他樣本點與各中心的距離

④將樣本點劃入與之距離最小的聚類中心簇中

⑤更新中心對象

⑥重復③-⑤

⑦UNTIL聚類中心不再發(fā)生變化且所有的類均被劃分完

⑧輸出一個月的K個話題簇

一個事件要成為熱點事件,則還需對它們進行熱度的度量。熱點事件必然也是新聞媒體報道的比較多,而且受關注度也較高的事件,根據(jù)這個思路,本文首先找出能度量熱點事件的特征量,然后總結出公式對熱點事件進行熱度的計算。

由于我們要得出的是一年的熱點事件,那么事件在一年內的報道數(shù)量越多或者其報道的天數(shù)越多,其熱度便會越高。我們將一年的天數(shù)定義為D,一年中的事件報道總數(shù)為N,而該事件的報道總天數(shù)定義為d,報道篇數(shù)為n。其熱度R的計算公式如下:

3 實驗與分析

本實驗使用網(wǎng)絡爬蟲從騰訊、新浪、網(wǎng)易三個門戶網(wǎng)站上下載了從2014年1月1日到2014年12月31日的國內國際社會新聞網(wǎng)頁,總計162 510篇。由于網(wǎng)頁數(shù)目龐大,并且具有時序的特點,故將這一年的新聞按月份存儲在12個文件夾里,每個文件夾里再將每天的網(wǎng)頁分別存儲。

根據(jù)系統(tǒng)的整體框架流程圖,我們進行實驗的步驟如下:

①對每天的網(wǎng)頁數(shù)據(jù)用分詞軟件進行分詞、去除停用詞和詞性標記等的處理;

②對文檔的特征項進行權值的計算,并進行向量表示;

③對每天的網(wǎng)頁數(shù)據(jù)進行自底向上的凝聚聚類,通過相似度閾值確定聚類終止條件,并選取類簇中文檔數(shù)大于某一閾值的話題類參與下一層的聚類;

④求出每天的平均話題類數(shù)K,并選取K個文檔數(shù)較多的類,將之作為K-means聚類的初始中心,對每月的話題類進行二次聚類;

⑤將每月的話題類用增量聚類的方法再次聚類得出一年的事件列表;

⑥根據(jù)熱點計算公式求得熱點事件排序。

為了驗證本文的方法對新聞熱點事件發(fā)現(xiàn)的可行性與準確性,將本實驗的結果通過與網(wǎng)上發(fā)布的由數(shù)億網(wǎng)民評選的十大社會熱點事件進行對比,對比結果如表1所示:

表1 實驗對比結果

根據(jù)表1可以得出,本文的實驗結果中有5個與網(wǎng)民評選結果相同,說明了本實驗聚類算法發(fā)現(xiàn)熱點事件的可行性。之所以選擇用網(wǎng)民評選的結果作為對比,是因為熱點事件必然也是網(wǎng)民比較關注的事件,而事件報道時間較長,篇數(shù)較多也是網(wǎng)民關注的條件之一,因此即使少數(shù)網(wǎng)民評選的結果不足為據(jù),但數(shù)億的網(wǎng)民便可讓結果具有一定的說服性。但網(wǎng)民評選的結果畢竟還是帶有一定程度的主觀性,所以和本實驗的實驗結果會有所偏差,相比而言,本實驗的結果則更加客觀。

4 結語

本文提出了將凝聚聚類算法、K-means聚類算法和增量聚類算法相結合的話題發(fā)現(xiàn)方法,并根據(jù)熱點事件的特征提出了事件的熱度計算公式,最后通過進行實驗和結果對比驗證了本研究方法的可行性與準確性。本文的不足之處是熱點計算公式提的較為簡單,計算中未加入用戶的評論數(shù),因此在以后的研究中可考慮加入這個因素,以提高熱點事件排名的精確度。

[1]彭楠赟,王厚峰,凌晨添.基于層次聚類的網(wǎng)絡新聞熱點發(fā)現(xiàn).中國計算語言學研究前沿進展(2009-2011),2011.

[2]古萬榮,董守斌,何錦潮,曾之肇.基于二次聚類的新聞推薦方法[J].華南理工大學學報(自然科學版),2014,7.

[3]劉星星,何婷婷,龔海軍,陳龍.網(wǎng)絡熱點事件發(fā)現(xiàn)系統(tǒng)的設計[J].中文信息學報,2008,11.

Hot Event;Clustering Algorithms;Heat Calculation;Feasibility

Research on Network News Hot Discovery Based on the Clustering

WAN Xiao-xia,ZHAO Jia

(School of Computer and Software Engineering,Xihua University,Chengdu 610039)

1007-1423(2015)26-0036-04

10.3969/j.issn.1007-1423.2015.26.009

萬曉霞(1989-),女,四川瀘州人,碩士研究生,研究方向為計算機網(wǎng)絡與信息安全系統(tǒng)

2015-07-16

2015-08-15

隨著互聯(lián)網(wǎng)的迅速發(fā)展,網(wǎng)絡已成為各大媒體發(fā)布新聞和人們獲取信息的主要渠道。而網(wǎng)絡新聞復雜多樣,并不是每一條新聞都是人們關注的熱點。為了快速準確地獲得用戶關注的熱點事件,提出將三種聚類算法相結合的話題發(fā)現(xiàn)算法和熱度計算公式,并通過實驗驗證利用上述方法進行熱點發(fā)現(xiàn)的可行性。

熱點事件;聚類算法;熱度計算;可行性

趙佳(1992-),女,四川成都人,碩士研究生,研究方向為計算機網(wǎng)絡與信息安全系統(tǒng)

With the rapid development of the Internet,the network has become the main channel for media to release news and the people to obtain information.However,the network news is complex and diverse,not every piece of news is the focus of attention.In order to quickly and accurately obtain hot events that users concerned,presents a topic detection algorithm which combines three kinds of clustering algorithms and a heat calculation formula.And through the experiment,we verify the feasibility of using the above methods for hot found.

猜你喜歡
實驗
我做了一項小實驗
記住“三個字”,寫好小實驗
我做了一項小實驗
我做了一項小實驗
記一次有趣的實驗
有趣的實驗
小主人報(2022年4期)2022-08-09 08:52:06
微型實驗里看“燃燒”
做個怪怪長實驗
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 亚洲中文字幕在线一区播放| 99激情网| 免费毛片a| 最新日韩AV网址在线观看| 四虎影视无码永久免费观看| 久久久久国产一区二区| 成人国产精品一级毛片天堂| 国产内射在线观看| 日韩中文字幕免费在线观看| 国模极品一区二区三区| 亚洲欧美精品日韩欧美| 91免费在线看| 中文字幕乱码中文乱码51精品| 成人福利在线视频| 欧美综合区自拍亚洲综合绿色 | 手机在线国产精品| 午夜久久影院| 国内丰满少妇猛烈精品播| 视频二区亚洲精品| 亚洲男人的天堂久久香蕉网| 全午夜免费一级毛片| 99热国产这里只有精品无卡顿"| 99视频在线免费看| 免费看黄片一区二区三区| 日本午夜在线视频| 在线视频一区二区三区不卡| 国产精品对白刺激| 激情爆乳一区二区| 欧美专区日韩专区| 在线观看欧美精品二区| 最新国产成人剧情在线播放| 亚洲男人天堂2020| 黄色网页在线观看| 国产成人福利在线| 久久99久久无码毛片一区二区| 99热这里都是国产精品| 91精品国产无线乱码在线| 岛国精品一区免费视频在线观看| 亚洲网综合| 97超碰精品成人国产| 亚洲欧美日韩精品专区| 日本午夜精品一本在线观看| 凹凸精品免费精品视频| 国产成人乱无码视频| 丁香亚洲综合五月天婷婷| 老司机精品久久| 丁香婷婷激情网| 欧美精品H在线播放| 国产网站在线看| 亚洲大学生视频在线播放| 亚洲av无码牛牛影视在线二区| 国产激情无码一区二区免费| 中文成人在线| 韩日无码在线不卡| 日韩av手机在线| 91偷拍一区| 九色免费视频| 久久亚洲综合伊人| 国产一区二区三区精品欧美日韩| 中文字幕在线观| 亚洲av日韩综合一区尤物| 中文成人无码国产亚洲| 久无码久无码av无码| 91精品aⅴ无码中文字字幕蜜桃| 色有码无码视频| 国产丝袜91| 国产精品偷伦视频免费观看国产| 国产精品嫩草影院av| 免费人成视网站在线不卡| 亚洲精品无码成人片在线观看| 成人韩免费网站| 亚洲无码电影| 日韩一区精品视频一区二区| 91丝袜乱伦| 久久精品国产999大香线焦| 欧美精品色视频| 日韩性网站| 精品久久久久久成人AV| 日本国产精品| 国产十八禁在线观看免费| 九九精品在线观看| 欧美有码在线|