999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

視頻內容特征與彈幕文本相結合的短視頻推薦模型

2021-06-15 01:08:18鄒寶旭徐紅艷
遼寧大學學報(自然科學版) 2021年2期
關鍵詞:深度文本內容

馮 勇,鄒寶旭,徐紅艷

(遼寧大學 信息學院,遼寧 沈陽 110036)

0 引言

短視頻成為日活躍用戶規模增速最快的移動互聯網細分領域之一,日活躍用戶規模接近在線視頻用戶規模的2倍[1].用戶上傳的各類短視頻數量增長勢頭持續上漲,例如國外的YouTube,國內的騰訊視頻、愛奇藝以及抖音等各類在線視頻平臺通過積分、排名、推薦等服務激發用戶貢獻意愿和提升用戶體驗.

個性化推薦一直是處理海量信息的一種有效途徑,在視頻服務領域眾多平臺運用推薦系統向用戶提供優質的視頻以增加客戶粘性和提升用戶滿足度[2-4].隨著人工智能的不斷發展,基于深度學習的推薦系統能夠更好地分析用戶的行為習慣和即時興趣,進而為用戶提供更具個性化的推薦列表.這方面具有代表性的研究成果有:文獻[5]針對視頻當中的物體檢測問題,提出了一種基于深度學習的視頻物體檢測與內容推薦系統方案,通過視頻中的物體檢測和識別,將視頻內容與相關的產品內容進行匹配.文獻[6]對于視頻在推薦過程當中多樣性差的問題提出了一種所屬性聯合算法,該算法通過用戶的歷史記錄以及系統內容的各項基本屬性進行結合,以此來達到個性化推薦的目的.文獻[7]提出了一種基于深度學習模型的內容推薦策略,引入深度神經網絡詞向量方法,根據視頻自身的相關信息,以及用戶的歷史觀看記錄,以此作為基礎對于用戶進行相似用戶的刪選,進而產生推薦.文獻[8]根據視頻內容的隱含評論分析,提出了一種視頻推薦算法,其目的主要是為了解決網絡視頻當中某些多媒體信息難以提取的問題.文獻[9]提出了一種端到端的短視頻處理框架,通過該框架能夠將不同元素之間的內容進行特征提取,通過端與端之間的聯系,以此來實現語義表征.

以上研究成果雖使視頻推薦性能得到一定的提升,但由于沒有考慮短視頻中彈幕文本蘊含的豐富語義信息,導致推薦的準確度不高且效率低下.為此,本文引入彈幕文本分析,提出了一種視頻內容特征與彈幕文本相結合的短視頻推薦模型(A short video recommendation model combined video content characteristics with bullet screen text,CVBT).首先對彈幕文本進行分析,確定彈幕文本的主題;之后通過深度學習方法對短視頻進行處理,利用視頻的高光時刻,提取相應的視頻內容特征;最后基于用戶的最近興趣,確定其所屬主題,經相似度計算得到推薦列表.經對比實驗驗證,本文所提模型與LDA、RFM、VRFCL等短視頻推薦模型相比,在準確率以及召回率上均有明顯提升,并且具有良好的效率優勢[2].

1 相關工作

1.1 短文本分析技術

隨著社交網絡的不斷發展以及互聯網技術的逐漸完善,傳統的文本表述方式已經難以滿足人們生產以及生活的需求,因此短文本應運而生.在最近幾年的研究當中,國內外相關學者對于短文本的研究浪潮一直處于上升階段.國外的一些研究人員很早就開始對于Twitter和Facebook進行了分析探討.Song等[10]明確指出,進行Twitter內容分類的過程當中,是一件非常復雜且難度很高的工作.主要是因為用戶在發送Twitter的時候,所使用的詞語十分簡單,同時在用詞方面也十分隨意.文獻[11]提出了一種微博新詞識別方法,微博中存在很多網絡用語,這些網絡用語并沒有在詞典當中進行體現,因此提出了一種關于微博中網絡用語的識別方法.Wang等[12]根據圖結構的特殊性,提出了一種基于標簽的分類方法,根據用戶發送Twitter時的文本內容主題不同,以此來進行標簽劃分,通過圖結構對于各類標簽構建聯系,然后對Twitter文本的主題情感進行分類.文獻[13]根據短文本的特點,利用深度學習技術理論,在短文本計算涉及的文本語義表示、中文分詞以及文本相似度計算等環節進行了分析和研究,最終形成一個完整的短文本計算框架.

就其根本而言,所有的彈幕文本都是按照時間序列進行排序而得到的短文本,彈幕系統最近幾年才開始被國內一些視頻網站所采用.目前,隨著我國直播行業以及短視頻平臺的流行,對于彈幕數據的研究也越來越多.詹雪美[14]深入分析彈幕視頻的特點,討論了彈幕視頻網站的產生、發展與意義.文獻[15]提出一種基于深度學習的彈幕視頻片段情感分析模型,結合視頻重要性評分與LSTM網絡模型能夠有效識別短視頻當中的情感主題.

1.2 深度學習技術

深度學習是機器學習研究中的一個重要分支,隨著深度學習技術的不斷發展,其目的在于能夠建立一個模仿大腦的神經網絡系統,并且根據大腦的運行機制,對于輸入其中的各項數據進行分析與解釋,例如圖像、聲音以及文本等.

隨著對深度學習方法研究的不斷深入,越多越多的學者將其應用于視頻以及圖像的內容特征分析中.文獻[16]提出了一種基于深度學習的視頻關鍵幀提取與視頻檢索研究.文獻[17]提出了一種基于深度學習的監控視頻中的車輛實時檢測,通過視頻檢測中的車輛特征檢測,能夠有效提高車輛的檢測準確性.文獻[18]提出的方法使用CNN提取圖片特征,利用多尺度滑動窗口算法進行檢測,取得了很好的效果.文獻[19]提出了用深度卷積神經網絡來學習人臉的識別性和壓縮性二值表示,用于人臉視頻檢索.文獻[20]提出了一種基于深度學習技術的視頻表示方法,通過內容特征進行視頻的分類與聚類.

2 視頻內容特征與彈幕文本相結合的短視頻推薦

針對目前的短視頻推薦準確度不高,較少利用彈幕信息等問題,本文引入短視頻中彈幕文本進行分析,提出了一種視頻內容特征與彈幕文本相結合的短視頻推薦模型.

對短視頻進行分析,分析對象可以分為兩個部分:一部分是短視頻本身的內容,另一部分則是短視頻中的彈幕文本.彈幕技術的出現使用戶能夠即時地針對觀看的視頻內容發表文本評論,與視頻瀏覽后的評論相比,彈幕文本能夠更為即時、準確地反映出用戶在觀看短視頻時的體驗與感受,用戶通過發送彈幕以此來表達自身的情感以及對于視頻內容的評價.本文以短視頻推薦為研究背景,根據短視頻中大量的彈幕文本,確定該短視頻的彈幕文本主題;再通過深度學習方法分析短視頻中的高光時刻,確定短視頻的內容特征與主題間的關聯;最后根據用戶近期看過的視頻,形成相應的推薦列表.下面給出視頻內容特征與彈幕文本相結合的短視頻推薦模型框架如圖1所示,并對彈幕文本分析、短視頻內容特征分析、生成推薦列表進行詳細介紹.

圖1 視頻內容特征與彈幕文本相結合的短視頻推薦模型(CVBT)框架圖

2.1 彈幕文本分析

2.1.1 彈幕處理

對于彈幕信息來說,人們通過發送彈幕能夠有一種“實時互動”的感覺,彈幕信息是用戶的切實體驗或是情感表達.在同一時刻的短視頻內容當中,發送的彈幕其主題具有一定的關聯性,因此本文選擇彈幕相對豐富的位置進行彈幕文本采集.

對于一個短視頻來說,每一秒甚至是每一幀都有可能出現彈幕.在彈幕選取時,彈幕時刻的短視頻內容與其是一一對應的,本文將短視頻當中彈幕最為密集的時刻定義為該短視頻的高光時刻.

2.1.2 文本分析

目前,在短視頻推薦領域很少有人將彈幕文本作為推薦依據.而實際上,隨著短視頻的火爆以及彈幕系統的廣泛應用,用戶通過彈幕發表自己對短視頻的評論與見解,彈幕文本越來越能夠反映出用戶的喜好.彈幕文本在用戶進行視頻選擇的過程中,可以將其作為重要的參考內容,以此來滿足不同用戶對于各類視頻以及視頻內容的檢索需求.

本文采用LDA[21]模型進行彈幕文本分析.如公式(1)所示,d為彈幕文本,z為彈幕文本中的某個主題,則條件概率P(zi|d)表示在彈幕文本當中某個主題的概率,w為文本主題中的某個單詞,因此P(w|zi)表示在某個彈幕主題當中單詞的分布概率.則對于一個單詞w在整個彈幕文本d中的分布概率為:

(1)

其中,z表示隱含主題的個數,該數值大小需要提前進行確定,不同的z值將會對于文本建模結果產生影響.

本文通過Gibbs抽樣進行LDA模型的構建,利用公式(2)計算每個單詞在彈幕文本當中的概率大小,并且通過其概率來確定彈幕文本主題.對于彈幕文本di中的每個單詞wi循環抽樣,估算由wi生成一個新的主題zi=n的概率P(zi=n|wi,di,z-i)如公式(2)

(2)

通過Gibbs重復抽樣,當抽樣次數足夠多且滿足要求的時候,彈幕文本中隱含的主題概率將會趨于穩定,并且服從狄利克雷分布函數,而此時對于公式當中的平滑參數α、β,其達到其收斂值.對于其中的先驗概率可以通過式(3)和式(4)得到.

(3)

(4)

通過LDA模型,得到彈幕文本中的主題分布,進而確定該短視頻的主題,將短視頻按主題進行劃分,同一個主題下有若干短視頻.

2.2 短視頻內容特征分析

2.2.1 視頻片段處理

與傳統的視頻相比,短視頻不僅具有輕量化的特點,同時其包括的內容量大,信息全面,表達方式跟為直觀、具體.用戶能夠在短時間內找到自己感興趣的視頻內容.用戶在觀看短視頻的同時,可以發送彈幕,彈幕最為密集的時刻,本文將其定義為高光時刻,同時將高光時刻作為生成網絡的輸入,高光時刻是整個短視頻內容中的核心部分,也是用戶更為感興趣的環節.

高光時刻為短視頻當中彈幕最為密集的時刻,高光時刻的選取跟彈幕的數量密切相關.與此同時,本文通過對大量短視頻研究發現,短視頻中彈幕的生存時間為t0=5 s,即一條彈幕出現到消失持續時間為5 s,因此本文根據短視頻彈幕的生存時間t0=5 s,按照5 s時間間隔進行彈幕收集,將其中彈幕數量最多的部分,作為該短視頻的高光時刻.

2.2.2 內容特征提取

經2.1節對所選彈幕文本進行LDA主題模型分類之后,各短視頻能夠根據其彈幕文本的主題進行劃分.與此同時,根據彈幕文本的選擇,能夠確定各短視頻中的高光時刻.在同一主題下,將所屬短視頻中的高光時刻作為生成網絡的輸入,提取短視頻內容特征.

深度學習模型能夠準確識別視頻、圖像以及文字等內容,本文采用深度學習方法中的卷積神經網絡對短視頻中的“高光時刻”進行處理,如圖2所示,本文采用兩次卷積+池化的方式,以此來保證提取特征的穩定性.

圖2 主題模型生成網絡

本文將短視頻中的高光時刻作為生成網絡的輸入,在卷積層當中設置其卷積核大小為5×5的,輸入的通道數是1,輸出的通道數是32,經過卷積層之后得到6個C1特征圖,并且將其作為第一次池化的輸入,設置池化的步長為2,經過池化之后,S2中每個特征圖的大小是C1中特征圖大小的1/4,通過sigmoid激活函數,得到短視頻高光時刻中的內容特征.

在第二次卷積+池化的過程當中,其卷積核大小與第一次相同,但是其輸入的通道數增加為32,輸出的通道數64,S4中每個特征圖的大小是C3中特征圖大小的1/4,在全連接層當中,加上一個偏置,結果通過sigmoid函數輸出.生成網絡根據短視頻中視頻內容特征進行模型訓練,最終實現短視頻的主題分類.

2.3 生成推薦列表

根據用戶的歷史觀看記錄,能夠得到用戶最近所觀看過的短視頻,通過短視頻中高光時刻的內容特征,確定該短視頻的主題.這里借助one-hot[22]編碼的思想,使用N位狀態寄存器表示N位信息,每一位信息表示一種主題類別.在同一主題下,通過公式(5)進行相似度計算,最終按照相似度大小排序,選擇排序靠前的短視頻形成推薦列表.

(5)

D1表示用戶近期觀看短視頻中的高光時刻,D2表示同一主題下其他視頻的高光時刻,通過one-hot編碼對短視頻的高光時刻進行向量計算,即lk表示短視頻中的向量.分子表示兩個視頻向量的點乘積,分母表示兩個視頻向量的模的乘積,進行其相似度計算.

3 實驗分析

3.1 實驗環境與數據

本文構建的推薦模型開發工具為pycharm,運行環境為Windows10-64位系統,計算機采用2.30 GHz,Intel(R)Core(TM)i5-4200U和8 GB內存.

本文中所用數據來源于嗶哩嗶哩網站、騰訊視頻以及優酷新媒體短視頻,樣本數據的統計信息包括:視頻總量為8 000個,視頻類別包含10個大類,34個小類,所有的數據處理都是通過Python進行實現的.

3.2 評價指標

本文設置了三組對比試驗以此來驗證模型的準確性和效率.本文還設置了通過用戶的行為分析進行視頻推薦RFM[23]、融合評論分析的視頻推薦模型VRFCL[24]以及基于內容的協同過濾模型MTER[25]作為本實驗的對比實驗.本實驗采用準確率、召回率和F值三個指標來衡量各模型的有效性,評價指標的計算公式如式(6)-(8)表示.其中TP表示的是方法推薦的并且用戶真實喜歡的視頻數,FP表示方法推薦的但不是用戶喜歡的視頻數,FN表示方法沒有推薦但是用戶實際喜歡的視頻數,而TN則是方法既沒有推薦而且用戶也不喜歡的視頻數.

(6)

(7)

(8)

與此同時,為了保證彈幕文本能夠突出其主題,根據彈幕文本當中的主題數量Z進行實驗,由于片段當中的彈幕數目有成百上千條,其主題數也有幾十種,為了保證主題簡短而有效,設置Z的數值為1~10,圖3為彈幕主題個數對準確性的影響情況.由圖3可知,在主題個數Z的選取中,當主題數為3時達到最優,超過5個后,對準確率的影響不大.

圖3 彈幕文本主題Z個數對準確性的影響

圖4 各模型指標的比較

通過圖4的比較可知,模型的召回率更高,其模型的推薦性更高,并且其F值也明顯也高于另外三種模型.圖4中對于4種模型的準確率、召回率以及F值進行了匯總,通過觀察可知,本文通過引入彈幕文本,極大的提高了個性化服務水平,在模型的準確性、召回率以及F值等方面都有了一定程度的提升.

圖5 各模型效率對比圖

在方法四當中,本文提出的CVBT模型充分結合了視頻當中的彈幕信息,彈幕文本能夠在一定程度上反映出用戶的真實情感,用戶在觀看視頻的時候,可以通過彈幕的方式將自己的情感或者是對于內容的評論進行發送,這樣新型的彈幕文化對于短視頻推薦當中起到的作用是毋庸置疑的,因此推薦的準確率更高一些.同時方法四的召回率更好一些,說明其穩定性更好一些.

本文根據高光時刻進行視頻內容特征的分析,其效率要比對短視頻作整體內容分析要高,圖5所示為模型效率對比,如圖所示,本文提出的CVBT在效率上要比其他模型高很多.

4 結論

基于目前短視頻在推薦過程中的準確性與效率不高,本文提出了一種視頻內容特征與彈幕文本相結合的短視頻推薦模型,融合深度學習方法與彈幕技術的優勢,提高短視頻推薦的個性化水平.首先對于彈幕進行文本分析,確定彈幕文本的主題;然后通過深度學習分析短視頻內容的特征,得到相應的主題模型;最后根據用戶的近期興趣,確定其主題,形成相應的推薦列表通過對比實驗驗證,本文所提模型在準確率、召回率上比RFM以及VRFCL等模型有較顯著的提升,并且效率也有所提高.

猜你喜歡
深度文本內容
內容回顧溫故知新
科學大眾(2022年11期)2022-06-21 09:20:52
深度理解一元一次方程
在808DA上文本顯示的改善
深度觀察
深度觀察
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
深度觀察
主要內容
臺聲(2016年2期)2016-09-16 01:06:53
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 亚洲精品无码不卡在线播放| 欧美无专区| 欧美一级色视频| 亚洲天堂网在线观看视频| 亚洲高清无码久久久| 成人福利免费在线观看| 亚洲嫩模喷白浆| 国产欧美在线观看精品一区污| 国产成人久久综合一区| 免费一级成人毛片| 国产精品免费p区| a级毛片视频免费观看| 免费中文字幕一级毛片| 男女猛烈无遮挡午夜视频| 久久99国产乱子伦精品免| 国产日韩精品欧美一区喷| 亚洲成人一区二区三区| a级毛片免费播放| 少妇被粗大的猛烈进出免费视频| 亚洲无码高清一区| 国产成人亚洲欧美激情| 亚洲乱码在线播放| 精品视频一区二区三区在线播| 国产视频a| 激情午夜婷婷| 一级香蕉人体视频| 亚洲a级在线观看| 91丝袜美腿高跟国产极品老师| 国产人人射| 夜夜拍夜夜爽| 国产人人射| 综合亚洲网| 看看一级毛片| 欧美日韩久久综合| 日韩AV无码免费一二三区| 久久久四虎成人永久免费网站| 青青草综合网| 欲色天天综合网| 国产无码性爱一区二区三区| 国产簧片免费在线播放| 国产永久免费视频m3u8| 极品尤物av美乳在线观看| h网址在线观看| 亚洲视频欧美不卡| 国产超碰一区二区三区| 精品无码国产自产野外拍在线| 国产超碰一区二区三区| 国产主播一区二区三区| 日本三区视频| 国产精品成人第一区| 国产十八禁在线观看免费| 成人在线综合| 亚洲视频二| 日韩av无码精品专区| 青青草国产免费国产| 亚洲成a人片| 国产福利免费在线观看| 国产免费a级片| 国产精品乱偷免费视频| 亚洲视频色图| 亚洲精品在线影院| 18禁不卡免费网站| 成人免费一级片| 国产欧美日韩精品第二区| 91综合色区亚洲熟妇p| 久久6免费视频| 福利小视频在线播放| 国产精品一区二区在线播放| 黄色a一级视频| 免费人欧美成又黄又爽的视频| 免费jjzz在在线播放国产| 一级毛片免费观看不卡视频| 国产成人精品一区二区三区| 欧美午夜在线观看| 手机在线看片不卡中文字幕| 欧美精品在线视频观看| 色妞永久免费视频| 免费看一级毛片波多结衣| 亚洲αv毛片| 青青久视频| аⅴ资源中文在线天堂| 日韩经典精品无码一区二区|