999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

B站熱點話題初步分析與挖掘設計

2020-08-04 10:20:37姚凱譯
數碼世界 2020年7期

姚凱譯

摘要:對B站的個體視頻綜合影響力與整體影響兩個方面提取熱點話題因素進行聚類與耦合度分層計算,對熱點視頻進行話題相關性分析與話題挖掘研究,通過不同維度的線性關聯,可對實時熱點話題進行簡單挖掘,或基于某一話題來計算整體熱度。對青年人的信息傳播與商業推廣具有指向作用。

關鍵詞:B站? 聚類? 耦合度分層? 相關性分析? 話題挖掘

前言

隨著國內主流媒體的入住B站,傳統媒體與新興媒體混合發展,推動信息與話題的多樣性,使信息量更大,層次更多。但在B站如此海量數據提取相關有價值的熱點話題與用戶關注點并非易事。同樣從大量用戶基數找到其高認同度的關注點與興趣點具有極大的商業價值,通過相關性可發現潛在用戶規模,進行產品服務推廣。

1 數據選取

B站主流信息傳播為視頻創作,而計算機難以直接發現視頻中的相同共性。所以視頻信息采集點為視頻基本內容,用戶互動率與潛在影響力,推導價值信息。選取視頻范圍應為近期發布,或發布時間已久但依舊存在播放高增長率。

其視頻基本內容,用戶互動率與潛在影響力分別定義為維度F1 F2 F3。

其中F2維度存在預期模型值,實時值,趨于穩定值,F3存在基礎值與不確定性的附加值具有實時性變化。但具體F2的實時性質如何進行主導性定義?這時就需要引入時間軸這一維度T。可以說時間維度T可以定義視頻影響力何時趨于穩定。

2 模型設計元素與原理組成

2.1視頻個體影響力

同一時間段收集的視頻信息,視頻的實時影響力與最終影響力會出現不同偏差。所以考慮傳播影響力時,要作出對未來影響力的綜合考量。

此時定義離發布時長為T,綜合影響力為M,ε為誤差。設時間維度存在T1

當T

當T1

當T2

當T3

2.2視頻標簽與話題關聯匹配

如果個體視頻中維度F1的信息符合時下熱門話題,F2的最終取值也會相對應提高,其產生的綜合影響力M也會相應提高。判斷F1中的熱點是否對整個F2的產生具體影響時,可以追溯UP主往期投稿數據,如果其新視頻影響力遠高于往期視頻集的加權平均值,可認為新視頻內容中存在熱點話題與標簽,但不可以排除樣本數據過少,或該視頻超水平發揮。

定向話題占比權重為hi(i=1,2,3...n),則該話題權重計算為

(A為相關系數,這里根據研究結果取1.32;c為與話題相關標簽詞;F1 數據取總標簽數)。當數據大于1時,權重視為1;權重大于0.81,可認為視頻與話題高相關;權重小于0.31,話題相關性低,可進行共性忽略(不參與話題整體計算)。

而話題關聯標簽詞可進行人工定義或機器進行數據聚類判斷。前者多用于大量視頻中發現熱點話題,后者多通過標簽發現共性話題。如圖:

h1=1.32c1/F1=0.935(ci=5,F1=7)盡管有些標簽并沒有出現在人工庫中,存在誤差,但依舊認為視頻與話題高相關。

但如果單一通過標簽關鍵詞來進行匹配判斷就會引發其他問題:同源不同類視頻相互匹配,話題匹配雜化。如此時存在另一同類視頻:

h2=1.32c2/F1=0.528(c2=4,F1=10),即使視頻的話題權重占比高,數據上表現高關聯性,但實際上是對同源話題中的共性元素匹配,這對某一話題的整體研究中會產生巨大誤差,結果不是研究者希望看到的。

所以在匹配標簽關鍵詞時,建立高耦合度相關性判斷詞庫(多為特有)與中耦合關聯度詞庫(具有共性元素)。如先對標簽詞進行高耦合判斷匹配,如果相關性hi>0.31,再與中耦合詞庫匹配,將其相加得新相關度hi可用于整體話題熱點計算。否則因相關性低,不認為存在關聯,后續不進行相關熱點計算。如建立詞庫如下:

此時h2 <0.31,該視頻不參與此定向話題的整體熱度計算。基于耦合分層匹配最大的優勢是提高相關性匹配率與降低時間復雜度,實現更高效更精準的話題匹配。

2.3詞庫聚類迭代與新建

單一人工定義話題關聯詞無疑工程量巨大,且人工詞庫時常存在缺失遺落,容易導致整體視頻話題影響力計算誤差偏大。簡單聚類算法可以更加高效對非詞庫詞是否具有關聯性產生判斷。

2.4話題整體熱度分析

整體話題分析計算不能只單一進行各視頻個體影響力加權累加,而是要對頭部視頻進行部分約束。每個視頻對不同話題存在不同關聯度,一個視頻可以與多個話題產生關聯,參與多次熱度計算。在計算話題整體影響力時,更多對高個體影響力視頻進行約束,避免統計的基尼效應。

3 仿真試驗

通過以上設計對B站生活、科技、動漫區三區,其排行榜前20名熱門視頻進行不定向話熱門題挖掘,發現其生活區搞笑類,科技區時政類,動漫區配音類與抖音相關方面熱門話題重合率高達分別為74%,63.8%,58%。

同時在針對某類化妝產品進行定向話題挖掘時,可以較為精準的得出該類產品在各類化妝產品中的熱點排行榜與對其感興趣人群的大致規模。對商業產品推廣與產品人群定位有極大的幫助。

4 結束語

在整個B站話題熱點研究中,通過各方面數據的線性組合,對非線性研究對象進行簡單分析。算法上簡單聚類算法高效完善詞庫降低與實際差值,而耦合分層使話題誤差減小。再對耦合度詞庫規劃越細,相關關聯度閾值不斷調整后,可以從話題總影響力得出關注話題人群相關規模。同樣對生產高個體影響力的視頻博主進行分析,創造出合適的合作商業視頻,也可以對產品推廣有不小的幫助。對信息傳播分析,市場挖掘起到指向性幫助。

主站蜘蛛池模板: 天天色综网| 特级欧美视频aaaaaa| 国产在线视频福利资源站| 欧美日韩免费观看| 精品自拍视频在线观看| 国产午夜精品一区二区三| 99在线观看免费视频| 亚洲国产成熟视频在线多多| 国产免费a级片| 欧美在线三级| 国产一级片网址| 日韩毛片在线播放| 亚洲综合精品香蕉久久网| 欧洲极品无码一区二区三区| 日本成人不卡视频| 日韩欧美国产综合| 国产传媒一区二区三区四区五区| 91精品视频在线播放| 白丝美女办公室高潮喷水视频| 黄色成年视频| 91免费片| 91免费观看视频| 日本少妇又色又爽又高潮| 99视频只有精品| 一级全黄毛片| 天天躁夜夜躁狠狠躁图片| 国产成人高清精品免费软件| 日韩一区精品视频一区二区| 麻豆国产在线不卡一区二区| 国产在线视频福利资源站| 在线一级毛片| 一级在线毛片| 一级香蕉视频在线观看| 久久久久夜色精品波多野结衣| 国产精品福利在线观看无码卡| 日本精品一在线观看视频| 99久久国产综合精品2023| 久久男人视频| 婷婷色中文网| 国产精品丝袜在线| 亚洲女同欧美在线| 亚洲色欲色欲www在线观看| 香蕉久久永久视频| 亚洲午夜福利在线| 国产成人精彩在线视频50| 色偷偷男人的天堂亚洲av| 国产欧美视频在线观看| 91综合色区亚洲熟妇p| 又爽又大又黄a级毛片在线视频 | 美女内射视频WWW网站午夜| 在线观看热码亚洲av每日更新| 久久国产精品波多野结衣| 小说区 亚洲 自拍 另类| 日韩久久精品无码aV| 国产欧美日韩18| 国产第八页| 国产一二视频| 欧美精品成人一区二区视频一| 欧美一区国产| 国产在线精品美女观看| 呦女亚洲一区精品| 日韩欧美中文在线| 国产成人高清亚洲一区久久| 欧美亚洲中文精品三区| 久久96热在精品国产高清| 国产在线观看一区精品| 午夜a级毛片| 中国美女**毛片录像在线| 影音先锋亚洲无码| 中国美女**毛片录像在线 | 国产乱码精品一区二区三区中文 | 日韩视频免费| 黄色成年视频| 国产精品毛片一区| 国产精品一线天| 内射人妻无套中出无码| 日韩精品高清自在线| 波多野结衣的av一区二区三区| 思思热精品在线8| 亚洲无码视频图片| 伊人中文网| 老司机aⅴ在线精品导航|