999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于用戶興趣與博主影響力的微博流行度預測模型研究

2020-11-28 07:51:53張睿張喻曦
商情 2020年8期
關鍵詞:興趣模型

張睿 張喻曦

【摘要】對于網絡輿情研究中的微博預測問題,目前的主要方法是根據微博文本特征以及早期傳播特征來進行預測,這種預測忽略了用戶之間的相互關系以及用戶喜好,因此導致預測微博熱度時準確性不高。本文提出了一種基于用戶關系、用戶興趣和早期傳播數據的轉發預測模型,首先利用TF-IDF與LDA主題模型計算參與互動用戶興趣與微博文本的相似度,再利用PageRank算法衡量博主影響力,將模型分別應用于邏輯回歸、支持向量機和隨機森林來預測微博的流行度。結果表明,該方法能有效提高微博預測的準確率。

【關鍵詞】新浪微博 LDA 模型 興趣 影響力

1.引言

新浪微博2019年第三季度財報顯示,截至2019年第三季度,新浪微博月活動活躍用戶達4.97億,比去年同期增長了5100萬,其中約94%為移動端用戶。相較傳統媒體,微博是以發布、閱讀、轉發、再閱讀這種不斷迭代的方式進行傳播的,傳播速度更快。相對普通微博,熱門微博傳播更為迅速,影響力更大,因此微博預測研究對于網絡輿情監測、企業營銷等方面具有重大意義。

目前,對于微博流行度預測共分為兩個方向:一類是基于微博文本進行研究,另一類是針對微博傳播過程進行研究。文本分析通過對于微博文本提取特征進行預測,主要分為基于微博文本內容和基于微博情感兩種。鄭斐然等人通過檢索微博中出現的關鍵字,并考慮詞頻和增長速度等相關因素,進行聚類從而找到新聞話題。鄧丹君等人利用微博中的話題標簽建立一種微博標簽的LDA模型,提高了微博主題提取的準確度。Phuvipadawat等人通過對于微博文本特征進行分析,提出一種應用于Twitter的突發新聞檢測、排列及跟蹤算法。Wu等人分析了Twitter上面消息的感情傾向與流行度的關系,發現轉發率與負面情緒呈正相關,與正面情緒關系較小。但以上方法只能對于已有的熱門微博進行分析,對于未出現過的詞語、情感傾向等預測準確率較低。

對于微博傳播過程的研究包括微博傳播路徑、博主影響力、粉絲活躍度等因素的研究。Unankard等人提出了一種基于地理空間信息的熱點事件檢測方法,但該方法基于用戶的位置信息,在用戶不允許分享位置時容易失去效用。Liu Gongshen等人提出一種用戶對微博轉發的影響力的量化算法,根據微博博主的特征來預測一條微博是否會引起大轉發量,從而進行提前預警。朱海龍等人基于微博早起傳播數據,提出了傳播加速度的概念并建立微博預測算法,并根據微博用戶活動周期性來優化模型。陳鵬飛提出了基于內容興趣特征和用戶影響力的轉發預測模型,利用LDA模型提取微博內容興趣特征,利用PageRank算法衡量用戶影響力,準確率可達85%。但是同一博主發表的不同微博流行度有較大差異,且博主的影響力隨時間變化幅度較大,因此根據博主影響力預測微博流行度有一定的局限性。

本文針對以上不足,提出一種基于用戶之間相互關系以及用戶喜好特征的微博流行度預測算法,從博主與轉發者的用戶關系以及微博內容與用戶喜好匹配程度這兩個方面對微博流行度影響因素進行研究,并利用邏輯回歸、支持向量機、隨機森林算法建立模型,從而實現對于微博流行度的預測。

2.主要結果

TD-IDF算法

TF-IDF是信息檢索領域的加權技術,通常用來評估一個詞語對于一個文本集的重要性。若某個詞語在一篇文本中出現的頻率(TF)高,而在其他文本中很少出現(IDF高),則認為這個詞語對于文章具有代表性,可以用來分類。TF-IDF是詞頻(TF)與逆文檔頻率(IDF)的乘積,其公式表示為:

N為文本總數,n(w)為包含特征詞w的文本數。

本文中,N為用戶總數,n(w)為參與話題w的用戶數,TF(w)為話題w在某一用戶發表微博的所有話題中的出現頻率,并以此來建立單個用戶的興趣特征向量。

2.2 LDA模型

2.2.ILDA模型的主要思想

LDA是由文檔一主題一詞語構成的概率模型,是一種對文本主題建模的方法。LDA主題模型假設文檔中存在多個可能的主題,這些主題中又存在著若干個特征詞,文檔以一定概率選擇某個隱含主題,隱含主題以一定概率選擇特征詞。

當M有篇文檔,K個主題,N個特征詞,在一篇文檔i中的第wi個特征詞的概率表示為

2.2.2微博文本話題特征

由于單條微博字數較少利用傳統的LDA主題模型會出現高維稀疏,因此我們結合微博特殊符號“//”和“#”,來改進傳統的LDA模型。

“//”符號表示轉發并同時評論,具體格式為:轉發評論內容//@源微博博主:源微博。此時源微博更大程度上反映了其主題,因此源微博內容進行主題提取。

“#”符號表示微博話題,“#”與“#”之間是所發布的微博所屬話題。此時以微博所屬話題代表微博主題

此外,微博評論內容與微博主題密切相關。因此將評論內容與微博原文共同分析,設置影響系數衡量評論對于主題的影響程度。

2.2.3微博標簽LDA主題模型的構建

微博在互動時會產生專屬符號:“@”、“//”和“#”以及微博可回復他人評論,可以借此分析微博主題??稍O置參數λd其對應取值代表微博文本d中是否含有“@”、“//”或“#”符號。若微博文本d中出現“#”符號,則θd=0,由“#”符號確定的微博話題θs。為微博主題;若微博文本d中出現“//”符號,則θd=1,源微博主題θr是該微博的主題θd;如果微博文本d中未出現上述符號,則θd=2,該條微博Od的主題由該微博文本內容決定:若微博文本d為回復他人評論的微博,則θd=3,該微博的主題θd由該微博內容和被回復的微博的主題共同決定。主題分布公式如下:

2.3 余弦相似度

余弦相似性通過計算兩個向量夾角的余弦值來其相似程度,其夾角的余弦值一般被稱作為余弦相似度。向量的長度不會影響余弦相似度數值的大小,余弦相似度僅取決于向量的方向,因此可以度量兩個不同長度的向量的相似性,常用于文本信息的比較。余弦相似度具體公式如下:

猜你喜歡
興趣模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
新課改下構建高效課堂的研究
成才之路(2016年26期)2016-10-08 11:52:46
巧用游戲構建快樂體育課堂研究
成才之路(2016年26期)2016-10-08 11:43:09
智力因素在語文教學中的作用研究
成才之路(2016年26期)2016-10-08 11:35:21
試論培養學生的問題意識
成才之路(2016年25期)2016-10-08 10:48:04
低年級識字教學中游戲的設計與研究
巧用多媒體技術, 讓語文課堂更精彩
主站蜘蛛池模板: 午夜日b视频| 日韩一区二区三免费高清| 91无码国产视频| 国产福利微拍精品一区二区| 国产全黄a一级毛片| 婷婷色在线视频| 久久精品欧美一区二区| 黄色片中文字幕| 亚洲国产成人在线| 亚洲人成网站色7777| 久久不卡国产精品无码| 国产在线视频福利资源站| 亚洲精品无码av中文字幕| 国产一区二区三区日韩精品| 亚洲91精品视频| 亚洲无码在线午夜电影| 超碰免费91| 国产精品久久久免费视频| 国产成熟女人性满足视频| 国产主播在线观看| 人妻丝袜无码视频| 日本亚洲成高清一区二区三区| 久久国产精品影院| 九九九国产| 午夜视频免费一区二区在线看| 伊人色综合久久天天| 五月激情综合网| 狠狠做深爱婷婷综合一区| 国产精品久久久久久久久| 一级片免费网站| 国产精品久久久久无码网站| 欧美综合成人| 免费一级大毛片a一观看不卡| 国产拍在线| 日本午夜影院| 亚洲免费人成影院| 亚洲an第二区国产精品| 久热中文字幕在线观看| 香港一级毛片免费看| 成人永久免费A∨一级在线播放| 九九这里只有精品视频| 国产视频一区二区在线观看| 高清视频一区| 亚洲av无码成人专区| 午夜福利网址| 亚洲成人播放| 亚洲av中文无码乱人伦在线r| 久久一本日韩精品中文字幕屁孩| 国产激爽大片高清在线观看| 中国成人在线视频| 激情综合婷婷丁香五月尤物| 久久久久久国产精品mv| 精品国产成人高清在线| 亚洲中文字幕在线一区播放| 2021国产精品自产拍在线观看 | 青青操视频免费观看| 日韩中文字幕亚洲无线码| 久久精品人人做人人爽97| 午夜视频免费试看| 欧美三级自拍| 国产特一级毛片| 国产精品免费p区| 永久免费av网站可以直接看的| 伊人色综合久久天天| 亚洲精品在线影院| 亚洲视频影院| 国产高清在线精品一区二区三区| 欧美精品亚洲二区| 在线精品亚洲一区二区古装| 亚洲三级视频在线观看| 国产a在视频线精品视频下载| 777午夜精品电影免费看| 丝袜无码一区二区三区| 99久久精品久久久久久婷婷| 91年精品国产福利线观看久久 | 内射人妻无套中出无码| 国产亚洲欧美日韩在线一区二区三区| 一级毛片免费的| 高清视频一区| 亚洲成AV人手机在线观看网站| 狼友视频一区二区三区| 亚洲专区一区二区在线观看|