999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于TF*PDF的熱點新聞發現研究

2017-04-22 10:11:18盧春光周安民
現代計算機 2017年8期
關鍵詞:詞匯用戶

盧春光,周安民

(四川大學電子信息學院,成都 610065)

基于TF*PDF的熱點新聞發現研究

盧春光,周安民

(四川大學電子信息學院,成都 610065)

隨著互聯網的發展,網絡新聞呈現爆炸式的增長,如何有效發現熱點新聞成為了當前研究的熱點之一。TF*PDF算法側重文本中熱點詞的計算,但沒有考慮用戶的影響。用戶的閱讀和評論在熱點新聞的發展和形成過程中起到催化劑的作用,引入用戶關注度用來表示熱點新聞受關注的程度,提出一種基于TF*PDF算法和用戶關注度相結合的熱點新聞發現方法。首先采用TF*PDF算法發現熱點新聞相關的熱點詞匯,然后計算出用戶關注度以發現熱點新聞。實驗結果表明,該方法可以有效發現熱點新聞。

熱點詞;用戶關注度;熱點新聞

0 引言

網絡熱點新聞是指能呈現當前重要事件、反映當前關注焦點和輿論傾向的新聞。普通新聞發展成為熱點新聞包括:新聞報道被各大網站轉載,吸引人們關注,人們受新聞評論的影響,產生思想共鳴或異議,進而產生對個人的影響,新聞事件持續的傳播,受到影響的人數越來越多,最終發展成為熱點新聞,對社會造成一定的影響。熱點新聞的特點包括關注廣泛性,利益相關性,重復轉載性和漸進持續性。網絡熱點新聞的發現能夠幫助人們了解當前的社會動態,關注民生,同時也能幫助政府部門及時掌握社會輿情的發展態勢,進而正確引導輿情發展。用戶的參與和討論,在熱點新聞的形成和發展過程中,產生了重要的影響,因此提出用戶關注度來定量化表示用戶的行為對熱點新聞所起的影響和作用。

1 相關工作

熱點新聞的發現借鑒了話題檢測與跟蹤TDT(Topic Detection and Tracking)的理論和方法。TDT起源于早期面向事件的檢測與跟蹤(Event Detection and Tracking)[1]。它最初是要創造一種算法,用來發現數據流中的重要信息,其基本思想是話題檢測與追蹤,該項目在熱點關鍵詞挖掘檢測方面主要針對突發性網絡輿情事件的挖掘和網絡輿情熱點跟蹤方面的研究[2]。中科院計算機研究所張華平等人提出了一種基于主題詞的網絡熱點發現算法[3]。其基本思想就是將主題詞表生成主題詞候選集,對其進行過濾和權重計算,以主題詞為線索,使用多特征的話題模型,結合新聞和微博等相應特征實現網絡熱點話題的發現。萬曉霞等提出了基于三種聚類算法相結合的話題發現算法和熱度計算方法[4],通過選擇層次聚類對每天的新聞進行聚類得出微類,再選擇K-Means聚類算法對每月的微類進行聚類,最后將每個月的熱點事件通過增量聚類得到該年度的熱點新聞;吳永輝等將仿射傳播聚類算法(A,P)[5-6]和LDA模型相結合,提出了一種自適應網絡主題發現和熱點新聞發現方法[7];王義等通過將字符串核函數(string kernel)計算文本相似度并應用到文本聚類,提出了基于字符串核函數的熱點新聞發現方法[8]。Bun和Ishizuka等提出了一種基于TF*PDF的算法[9]用于熱點話題的發現,但是沒有考慮到用戶的影響因素。本文借用百度指數的思想用熱點新聞的關注度來描述當前新聞被關注的程度,提出了基于TF*PDF和用戶關注度相結合的熱點新聞發現算法。

2 基于TF*PDF和用戶關注度的熱點新聞發現算法

2.1 TF★PDF算法

在傳統的TF*IDF[10-11]算法中,更看重出現在較少文章中的詞匯,而Bun和Ishizuka提出的TF*PDF算法是一種新的衡量詞匯權重的算法,該算法認為越是出現在多個文章中的單詞被認為是熱門主題單詞的可能性越大。其計算公式如式如下所示:

其中,Wj表示詞匯j的權重;Fjc表示詞匯j在渠道c出現的頻率;njc表示詞匯j所在的渠道包含的文檔數量;Nc表示渠道c中文檔的總數量;k表示一個渠道詞匯的總數量;D表示渠道的數量。

TF*PDF算法主要有三部分組成;一是單詞j的權重是由該單詞在每個渠道中的權重求和得到的;二是Fjc,因為在不同的渠道中詞匯集的大小不同,在具有較多文章的渠道中單詞j出現的頻率越大,也即是Fjc的值越大;三是PDF(Proportional Document Frequency)這部分表示越是在多個文章中出現的單詞,其價值越大,權重也就越大。

在TF*PDF算法中,某個渠道詞匯的權重和該詞匯在渠道中出現的頻率成線性比,與該渠道包含詞匯的文檔比率數呈指數比。該詞匯的總權重為該詞匯在每個渠道的權重之和。

2.2 用戶關注度的計算

用戶關注度是指熱點新聞被用戶關注的程度。影響用戶關注度的參數主要是新聞閱讀數、新聞評論數和單位時間新聞評論數。新聞閱讀數用RN來表示,新聞評論數用CN來表示,單位時間評論數用UTC來表示。新聞評論數和新聞閱讀數對熱點新聞的形成起到的作用和影響是不同的,所以應對其設定不同的權重大小。正常情況下如果一個用戶對某個新聞感興趣,則在閱讀完該新聞后會對其進行評論,因此本文認為新聞評論數在熱點新聞的形成過程中所起的作用要比新聞閱讀數所起的作用更大更重要,應對其設置較高的權重。本文經過多次試驗發現當新聞評論數設置的權重為新聞閱讀數兩倍時效果最好。用戶關注度的計算公式如下:

其中α為:

其中Pc計算公式為:

其中Pr計算公式為:

其中:T(i,t)u表示在時間段t內用戶對新聞i的關注度;Pc表示關于新聞i的評論人數占評論數和閱讀數的比值,γ作為調整因子,起到平衡作用;Pr表示關于新聞i的閱讀人數所占的比值;CN為t時間段內的新聞評論數,RN為t時間段內的新聞閱讀數。

單位時間段內的評論數UTC用來描述網絡新聞從一般性新聞演變為熱點新聞趨勢變化的強弱,UTC越大說明該新聞發展成為熱點新聞的趨勢越強。

其中UTC的計算公式表示為:

將通過TF*PDF算法和用戶關注度結合起來可以較好的描述熱點新聞的關注度,其計算公式如下:

其中參數β是調整參數,用來調整TF*PDF算法的結果和用戶關注度的數值差異,防止由于某一方數值很大而把另一方數值淹沒的出現。在描述熱點新聞關注度變化情況時,我們借助“話題指數”的思想,提出一種“新聞熱點變化指數”,用來描述在第n天時熱點新聞相對于第一天的變化情況,其計算公式如下:

其中,Hn表示熱點新聞在第n天的熱點指數;Tn用來表示熱點新聞在第n天的關注度;T1用來表示熱點新聞在初始第一天的關注度。我們可以用公式Hn來描述熱點新聞在一個時間段內的關注度的變化情況,同時還能過濾小部分雖然關注度高但卻不屬于熱點的新聞。例如NBA新聞雖然短時間內報道數量和用戶關注較多,但是隨著時間的推移,新聞的熱度很快下降,所以并不屬于熱點新聞。

3 實驗結果和分析

本文的實驗數據通過網絡爬蟲采集網易新聞手機版的新聞和評論。首先,使用Android模擬器和抓包工具分析手機端的新聞結構,然后使用模擬瀏覽器的方式對目標網站發起請求,通過對網頁內容的解析,獲取包括新聞標題、新聞內容、發布時間和新聞評論內容、用戶信息、評論時間等信息。最后通過實驗來驗證基于TF*PDF和用戶關注度算法的有效性。

3.1 實驗數據源的選取

數據來源為從網易新聞手機版采集回來的2016年10月份和2016年11月份的新聞數據。經過數據的去重處理,獲取的數據(以條為單位)如表1所示:

表1

3.2 實驗步驟及結果

為了保證用戶關注度T(i,t)u隨著用戶的閱讀數和評論數的增加而增加,使用戶關注度呈現正相關,對式(3)中的對數底數α取值大于1,γ取值1,新聞閱讀數取新聞評論數和新聞點贊數之和。首先要對式(8)中的加權因子進行測定,通過隨機選取兩個月份各800條數據及其對應的評論進行多次試驗,對β的數值從[0,1]進行遍歷選取,遍歷步長為0.01,并根據結果進行統計分析,得到當β等于0.63時熱點新聞發現效果最好。實驗結果如表2所示:

表2

從表2可以看到,關注度較高的新聞有美國大選事件等,將實驗結果與同一時間段內各大網站的評選結果進行比較,可知在加權用戶關注度的影響下,得到的熱點新聞更加客觀準確。表2中的熱點新聞關注度也反映出了使用新方法得到的熱點新聞的關注度大小,能夠更好地衡量實驗結果的有效性。

4 結語

本文首先介紹了熱點新聞的相關知識和當前的研究現狀,然后分析了用戶關注行為在熱點新聞發展形成過程中所起到的作用,引入用戶關注度用來衡量熱點新聞受關注的程度。通過TF*PDF算法進行熱點詞匯的發現,然后根據提出的用戶關注度算法計算用戶對新聞的關注度大小,最后將兩者進行加權計算,得到熱點新聞的關注度。實驗結果證明,該方法能夠有效地進行熱點新聞發現。下一步的工作重點是考慮將熱點新聞發現應用于輿情分析和預測。

[1]Allan J,Carbonell J,Doddington G,et al.Topic Detection and Tracking Pilot Study:Final Report[C],1998.

[2]Y.M.Yang,J.Carbonell,R.Brown et al.Learning Approaches for Detection and Tracking New Events.IEEE Intelligent Systems: Special Issue on Applications of Intelligent Information Retrieval,1999.

[3]張華平等.基于主題詞的網絡熱點話題發現.第五屆全國信息檢索與內容安全學術會議CCIR,2009,135-142.

[4]萬曉霞,趙佳.基于聚類的網絡新聞熱點發現研究.現代計算機[J],2015,36-39.

[5]B Frey,D Dueck.Clustering by Passing Messages Between Data Points[J].New York:Science,2007,315(5814):972-976.

[6]肖宇,于劍.基于近鄰傳播算法的半監督聚類[J].軟件學報2008,9(11):2803-2813.

[7]吳永輝等.基于主題的自適應、在線網絡熱點發現方法及新聞推薦系統[J].電子學報,2010,28(11):2620-2624.

[8]王義等.基于字符串核函數的熱點新聞發現系統[J].廣西師范大學學報(自然科學版),2007-12,25(4):212-215.

[9]Bun KK,Ishizuka M.Topic Extraction from News Archive Using TF*PDF Algorithm[A].In:Processing of the 3 rd International Conference on Web Information Systems Engineering(SISE 2002),Singapore,2002:73-82.

[10]P.D.Turney.Learning Algorithms for Keyphrase Extraction.Information Retrieval,2000,2(4):303-336.

[11]I.H.Witten,G.W.Paynteer,E.Frank,et al.KEA:Practical Automatic Keyphrase Extraction.The 4th ACM Conference on Digital Libraries,Berkeley:ACM Press,1999:254-256.

Research on Hot News Discovery Based on TF*PDF

LU Chun-guang,ZHOU An-min
(College of Electronics and Information Engineering,Sichuan University,Chengdu 610065)

With the development of the Internet and the explosive growth of network news,how to effectively find hot news has become one of the hot spots of current research.TF*PDF algorithm focuses on the calculation of hot words in the text,without considering the user's impact. User's reading and commenting plays a catalytic role in the development and formation of hot news,so introduction the user attention to indicate the extent to which the hot news is of interest,presents a method of hot news discovery which is based on TF*PDF algorithm and user attention.Uses TF*PDF algorithm to find hot words related to hot news,and then calculates the user attention to get hot news.Experimental results show that the method can effectively find hot news.

Hot Words;User Attention;Hot News

1007-1423(2017)08-0018-04

10.3969/j.issn.1007-1423.2017.08.004

盧春光(1990-),男,河南周口人,碩士研究生,研究方向為信息安全

2016-12-29

2017-02-25

周安民(1963-),男,四川成都人,碩士生導師,研究員,研究方向為信息安全

猜你喜歡
詞匯用戶
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2017年35期)2017-10-10 02:45:28
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
主站蜘蛛池模板: 亚洲欧美一级一级a| 在线观看国产网址你懂的| 日韩欧美国产中文| 国产地址二永久伊甸园| 国产精品亚洲综合久久小说| 99热这里只有精品在线播放| 国产又粗又爽视频| 黄色网在线免费观看| 国产成人无码播放| 日韩二区三区| 久久久久中文字幕精品视频| 色噜噜在线观看| 人妻丰满熟妇啪啪| 麻豆AV网站免费进入| 免费女人18毛片a级毛片视频| 乱码国产乱码精品精在线播放| 国产亚洲成AⅤ人片在线观看| 精品国产黑色丝袜高跟鞋| 人妻丰满熟妇αv无码| 国产一区成人| 无码'专区第一页| 天天爽免费视频| 99热这里只有精品2| av免费在线观看美女叉开腿| 91成人精品视频| 久久国产亚洲偷自| 亚洲成人免费在线| 欧美啪啪精品| 久久亚洲黄色视频| 欧美va亚洲va香蕉在线| 精品国产美女福到在线直播| 亚洲欧美日韩高清综合678| 真人免费一级毛片一区二区| AV网站中文| 久久这里只有精品国产99| 欧美日韩v| 中国一级特黄大片在线观看| 少妇高潮惨叫久久久久久| 国内精品久久九九国产精品| 久久人午夜亚洲精品无码区| 日本国产精品一区久久久| 91极品美女高潮叫床在线观看| 久久综合结合久久狠狠狠97色| 一级毛片不卡片免费观看| 青青青亚洲精品国产| 国产小视频网站| 91麻豆久久久| 国产日本一线在线观看免费| 2021无码专区人妻系列日韩| 久久国产拍爱| 亚洲欧洲自拍拍偷午夜色无码| 中文字幕66页| 九九热免费在线视频| 一级福利视频| 亚洲中文精品人人永久免费| 国产视频入口| 免费a级毛片18以上观看精品| 久久精品国产999大香线焦| 久久 午夜福利 张柏芝| 久久人搡人人玩人妻精品一| 狠狠亚洲婷婷综合色香| 久久综合丝袜长腿丝袜| 国产精品无码制服丝袜| 国产成人毛片| 国产黄网站在线观看| 青草娱乐极品免费视频| 亚洲日本精品一区二区| 国产原创演绎剧情有字幕的| 亚洲手机在线| 国产精品久久久久久久久久98| 亚洲Av综合日韩精品久久久| 一级毛片免费高清视频| 亚洲AV成人一区二区三区AV| 国产精品jizz在线观看软件| 国产毛片一区| 一级毛片高清| 在线观看av永久| 国产97色在线| 亚洲欧美另类日本| 色综合天天娱乐综合网| 亚洲最新网址| 高清国产va日韩亚洲免费午夜电影|