姚凱譯



摘要:對B站的個體視頻綜合影響力與整體影響兩個方面提取熱點話題因素進行聚類與耦合度分層計算,對熱點視頻進行話題相關性分析與話題挖掘研究,通過不同維度的線性關聯,可對實時熱點話題進行簡單挖掘,或基于某一話題來計算整體熱度。對青年人的信息傳播與商業推廣具有指向作用。
關鍵詞:B站? 聚類? 耦合度分層? 相關性分析? 話題挖掘
前言
隨著國內主流媒體的入住B站,傳統媒體與新興媒體混合發展,推動信息與話題的多樣性,使信息量更大,層次更多。但在B站如此海量數據提取相關有價值的熱點話題與用戶關注點并非易事。同樣從大量用戶基數找到其高認同度的關注點與興趣點具有極大的商業價值,通過相關性可發現潛在用戶規模,進行產品服務推廣。
1 數據選取
B站主流信息傳播為視頻創作,而計算機難以直接發現視頻中的相同共性。所以視頻信息采集點為視頻基本內容,用戶互動率與潛在影響力,推導價值信息。選取視頻范圍應為近期發布,或發布時間已久但依舊存在播放高增長率。
其視頻基本內容,用戶互動率與潛在影響力分別定義為維度F1 F2 F3。
其中F2維度存在預期模型值,實時值,趨于穩定值,F3存在基礎值與不確定性的附加值具有實時性變化。但具體F2的實時性質如何進行主導性定義?這時就需要引入時間軸這一維度T。可以說時間維度T可以定義視頻影響力何時趨于穩定。
2 模型設計元素與原理組成
2.1視頻個體影響力
同一時間段收集的視頻信息,視頻的實時影響力與最終影響力會出現不同偏差。所以考慮傳播影響力時,要作出對未來影響力的綜合考量。
此時定義離發布時長為T,綜合影響力為M,ε為誤差。設時間維度存在T1 當T 當T1 當T2 當T3 2.2視頻標簽與話題關聯匹配 如果個體視頻中維度F1的信息符合時下熱門話題,F2的最終取值也會相對應提高,其產生的綜合影響力M也會相應提高。判斷F1中的熱點是否對整個F2的產生具體影響時,可以追溯UP主往期投稿數據,如果其新視頻影響力遠高于往期視頻集的加權平均值,可認為新視頻內容中存在熱點話題與標簽,但不可以排除樣本數據過少,或該視頻超水平發揮。 定向話題占比權重為hi(i=1,2,3...n),則該話題權重計算為 (A為相關系數,這里根據研究結果取1.32;c為與話題相關標簽詞;F1 數據取總標簽數)。當數據大于1時,權重視為1;權重大于0.81,可認為視頻與話題高相關;權重小于0.31,話題相關性低,可進行共性忽略(不參與話題整體計算)。 而話題關聯標簽詞可進行人工定義或機器進行數據聚類判斷。前者多用于大量視頻中發現熱點話題,后者多通過標簽發現共性話題。如圖: h1=1.32c1/F1=0.935(ci=5,F1=7)盡管有些標簽并沒有出現在人工庫中,存在誤差,但依舊認為視頻與話題高相關。 但如果單一通過標簽關鍵詞來進行匹配判斷就會引發其他問題:同源不同類視頻相互匹配,話題匹配雜化。如此時存在另一同類視頻: h2=1.32c2/F1=0.528(c2=4,F1=10),即使視頻的話題權重占比高,數據上表現高關聯性,但實際上是對同源話題中的共性元素匹配,這對某一話題的整體研究中會產生巨大誤差,結果不是研究者希望看到的。 所以在匹配標簽關鍵詞時,建立高耦合度相關性判斷詞庫(多為特有)與中耦合關聯度詞庫(具有共性元素)。如先對標簽詞進行高耦合判斷匹配,如果相關性hi>0.31,再與中耦合詞庫匹配,將其相加得新相關度hi可用于整體話題熱點計算。否則因相關性低,不認為存在關聯,后續不進行相關熱點計算。如建立詞庫如下: 此時h2 <0.31,該視頻不參與此定向話題的整體熱度計算。基于耦合分層匹配最大的優勢是提高相關性匹配率與降低時間復雜度,實現更高效更精準的話題匹配。 2.3詞庫聚類迭代與新建 單一人工定義話題關聯詞無疑工程量巨大,且人工詞庫時常存在缺失遺落,容易導致整體視頻話題影響力計算誤差偏大。簡單聚類算法可以更加高效對非詞庫詞是否具有關聯性產生判斷。 2.4話題整體熱度分析 整體話題分析計算不能只單一進行各視頻個體影響力加權累加,而是要對頭部視頻進行部分約束。每個視頻對不同話題存在不同關聯度,一個視頻可以與多個話題產生關聯,參與多次熱度計算。在計算話題整體影響力時,更多對高個體影響力視頻進行約束,避免統計的基尼效應。 3 仿真試驗 通過以上設計對B站生活、科技、動漫區三區,其排行榜前20名熱門視頻進行不定向話熱門題挖掘,發現其生活區搞笑類,科技區時政類,動漫區配音類與抖音相關方面熱門話題重合率高達分別為74%,63.8%,58%。 同時在針對某類化妝產品進行定向話題挖掘時,可以較為精準的得出該類產品在各類化妝產品中的熱點排行榜與對其感興趣人群的大致規模。對商業產品推廣與產品人群定位有極大的幫助。 4 結束語 在整個B站話題熱點研究中,通過各方面數據的線性組合,對非線性研究對象進行簡單分析。算法上簡單聚類算法高效完善詞庫降低與實際差值,而耦合分層使話題誤差減小。再對耦合度詞庫規劃越細,相關關聯度閾值不斷調整后,可以從話題總影響力得出關注話題人群相關規模。同樣對生產高個體影響力的視頻博主進行分析,創造出合適的合作商業視頻,也可以對產品推廣有不小的幫助。對信息傳播分析,市場挖掘起到指向性幫助。