999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于ViT的視頻相似度評估及同源片段定位模型

2023-10-23 02:58:20姜家皓張易誠康宇哲
計算機時代 2023年10期
關鍵詞:特征提取檢測模型

姜家皓,張易誠,康宇哲,沈 煒

(1.浙江理工大學信息科學與工程學院,杭州 浙江 310018;2.浙江理工大學計算機科學與技術學院)

0 引言

近年來,隨著數字化技術的迅速發展,視頻信息在版權保護問題日益嚴重,因此設計一種能夠評估視頻相似度并定位同源片段的方法有重要意義。目前的同源視頻檢測方法大致分為三類:①基于視頻全局特征的相似度計算;②基于視頻幀級特征的檢測;③基于視頻時空特征的檢測。由于視頻存在裁剪、融合、合并等規避侵權檢測算法的操作,而基于視頻幀內容的同源視頻檢測被認為是解決這一難題的有效方法,因此本課題利用Vision Transformer[1]模型提取語義信息的特點,提出了基于ViT 的具有細粒度的片段級同源視頻檢測模型。

1 模型架構

同源視頻片段檢測[3]的目標是在目標視頻中找到一個或多個查詢視頻片段,并定位同源片段在目標視頻與查詢視頻的所在位置。

本文視頻相似性評估模型的主要架構如圖1 所示,主要包括四個部分:數據處理層,將視頻解碼抽幀并做圖像增強,作為模型的輸入;幀間時空特征提取層,提取視頻幀的圖像信息,并在時間維度做注意力操作,獲取視頻時空特征;相似度計算層,將視頻對的視頻時空特征序列做向量點乘得到幀間相似度矩陣,然后對矩陣進行倒角相似度計算,得出兩視頻相似度;同源片段定位層,若相似度大于閾值,則利用基于圖的視頻重復片段定位算法在視頻相似度矩陣中定位同源片段。

圖1 模型基本框架

1.1 數據采集與處理

本文數據集共24類視頻,從數據集選取視頻組成視頻對作為輸入,每個視頻對由錨點視頻、同源視頻與其他23 類視頻的非同源視頻組成。首先將數據集中的視頻進行解碼并統一以200ms采樣一次的速度進行抽幀,彌補了數據集視頻在FPS上的差異,將視頻分割成視頻片段。其次,將每幀圖像的長和高變換為224 像素。最后,借鑒SimCLR[10]中提出的多種圖像增強方法的組合可以在視覺任務中發揮出更好的作用,本文采用隨機裁剪與顏色失真的組合做數據增強,效果如圖2所示。

圖2 圖像增強

1.2 幀間時空特征提取層

ViT 具有高效性和可拓展性,且其不需要大量的圖像先驗知識,在大規模數據集預訓練后,圖像表征就可以取得很好的效果。這些特性證明了ViT是視覺領域通用的骨干網絡。因此,本文采用ViT 作為特征提取器。其中,采用Divided space-time attention[2]架構,如圖3。首先,在時間維度做一維的自注意力操作,學習幀間的時間特征,從而捕捉視頻的內部相關性。其次,利用空間二維自注意力學習圖像的空間特征。以此獲取時空特征向量,不僅將深度學習從圖片分類拓展到視頻分類,還加速了計算,取得了更好的分類能力。相較于只針對時間或空間維度的注意力操作具有更好的提取視頻語義信息的能力,相較于同時做時間、空間維度的注意力操作具有降維、減少參數的效果。

1.3 相似度計算層

將提取的兩個視頻時空特征向量Mij與Mkl做點積得到幀間相似度矩陣Sim,如公式⑴:

并使用倒角相似度算法[6]計算幀間相似度CSf(Mij,Mkl),詳見公式⑵。其中,N定義為時空特征向量的編碼維度,本文參考ViT,設置為768。

這個過程利用區域向量捕獲了空間維度的信息,有利于模型學習細粒度視頻信息,幀間視頻相似度矩陣如圖4所示。其中視頻相似度矩陣橫縱軸的單位均為幀。坐標(a,b)對應的數值表示Mij的第a 幀與Mkl的第b 幀的相似度,相似度范圍[-1~1],相似度越大,表示這兩幀的時空向量相似程度越高,圖4 中相似度越大亮度越高。

1.4 損失函數

借鑒對比學習思想,相似視頻之間的特征信息需要盡可能的接近,其視頻相似度高,不相似視頻之間的特征信息需要盡可能的原理,其相似度低[11]。因此,本文使用N-pair-ms loss[8]作為損失函數,利用數據之間的結構信息來學習到更有區別性的表示,利用錨點視頻與其他多個不同源的負樣本之間的關系,加快模型的收斂速度。

N-pair-ms loss 的每個訓練樣本有N+1 元組,即MT,M+,,其中M+是MT的正樣本是N-1 個負樣本。N+1 元組不會提前構建好,而是在訓練過程中從一個batch中構建出來。公式如下:

此外,本文定義了一個正則化函數,該函數將視頻相似度規范在范圍[-1,1]內,抑制相似度過高值。為了計算正則化損失,只需將剪切范圍之外的輸出值累加,公式如下:

因此,總loss方程如下:

其中,r是超參數,用來調整相似性正則化對總損失的占比,本文設置為0.5。

1.5 同源片段定位層

在模型驗證階段,若視頻對的相似度大于閾值,則認為其具有同源視頻片段,利用基于圖的Temporal Network[9]算法進行同源視頻片段定位。此方法通過部分對齊視頻內容之間的連接,將部分對齊問題轉換為網絡流問題:此網絡由視頻A 的一組幀與視頻B 的一組幀的相似度形成,搜索到承載最大容量(相似度)的最長路徑即為視頻A與B之間的同源片段。

⑴ 將Mb={b1,...,blen(Mb)}與Md={d1,...,dlen(Md)}分別表示為查詢視頻與參考視頻的時空特征向量,其中bi?[0,len(Mb)]與di?[0,len(Md)]分別為查詢視頻與參考視頻的一系列幀集合。

⑵圖定義為G=(N,E),其中N和E分別是節點和邊的集合。

⑷邊定義為E={eij},其中eij表示從相似度最高的數量為K 的集合中連接列表Ni到Nj的任意兩個節點的加權有向邊。

2 實驗與分析

2.1 實驗數據

⑴采用CC_WEB_VIDEO[4]數據集作為測試數據集,其是由香港大學和卡內基梅隆大學從視頻網站YouTube和視頻搜索引擎Google Video、Yahoo Video中收集的近似重復網絡視頻數據集。總共包含了24 個查詢集和12790個視頻。

⑵采用VCDB[5]數據集作為同源視頻定位的測試數據集,由28 個查詢集和528 個視頻組成,且具有9236 個同源視頻片段對的精確時間位置的手動注釋,是視頻部分拷貝檢測的大規模數據集。

2.2 模型評價

此模型的好壞以以下方式對結果進行評價:

⑴加權平均準確率(weighted-mAP)可以反映系統在檢索相關視頻的性能指標,同時減輕數據不平衡帶來的影響。在計算查準率Pweighted和召回率Rweighted時,需要各個類別的查準率Pi和召回率Ri乘以該類在總樣本中的占比來求和。

其中,i 代表CC_WEB_VIDEO 的類別編號,則 |L|表示類別數量。TPi表示相似視頻對且被模型判定為相似視頻對的樣本數,FPi表示非相似視頻對且被模型判定為相似視頻對的樣本數,FNi表示相似視頻對且被模型判定為非相似視頻對的樣本數,wi表示第i類別在總樣本中的占比。

⑵ F1-Scores[7]引入幀級查準率(FP)、幀級召回率(FR)以及最佳F1 值作為評價標準,定義如公式⑺,其中FA 表示檢測的所有幀數,FC 表示檢索的正確幀數,FM表示數據集中標注的同源視頻片段幀數。

2.3 評價結果

⑴同源視頻相似度評估模型

本文比較了不同特征提取方式、損失函數相互組合的模型在訓練時的表現效果,結果如表1 所示。其中,ResNet、Vision Transformer 為特征提取方式,Npair-ms表示N 對損失函數、triplets表示三聯體損失函數。由實驗數據可知,相比三聯體損失函數,N對損失函數能夠在一定程度上提高模型準確率。相比ResNet 特征提取器,ViT 能夠更好更準確的學習視頻時空向量的語義信息,且向量維度更小,計算量更小。

表1 對比模型mAP值

對照實驗中,模型Vit+N-pair-ms 在對比實驗中準確率最高,基于該模型,本文進行了變體測試。變體測試主要測試Divided space-time attention 結構對模型學習的幫助程度,實驗證明,在特征提取層中使用時間維度的自注意力機制在一定程度上可以提高模型準確率,增強特征提取層的語義提取效果。

⑵同源片段定位方法評估

HV 表示霍夫投票算法、DP 表示動態規劃算法、DTW 表示動態時間扭曲算法、TN 表示基于圖的時域網絡算法。

表2 的對比試驗顯示,TN 算法可以較好的F1 值,同源片段定位效果如圖5所示。

表2 不同同源片段定位方法F1值

圖5 視頻同源片段定位效果圖

3 結論

本文提出了基于ViT 的同源視頻檢測模型,并將其應用于同源片段檢測與定位任務。該模型借鑒對比學習思想,將一對同源視頻及N 對非同源視頻組成視頻對作為輸入,通過其時空特征向量的相似度進行二分類預測。若預測結果高于閾值則認為視頻對是同源視頻,對其幀級相似度矩陣作基于圖的同源片段定位;若預測結果低于閾值則認為視頻對不是同源視頻。

基于視頻檢索數據集的實驗證明,本文提出的同源視頻相似度評估模型使用Transformers 進行時空特征提取,并在時間維度上做注意力處理,學習視頻幀之間的時間維度信息。CC_WEB_VIDEO 數據集的weight-mAP能夠達到0.9223,高于其他對照組。此外,通過基于圖的視頻重復片段定位算法定位同源片段,從而實現同源性檢測,于VCDB 數據集上F1-Scores達到0.7459,高于benchmark的0.6566。

猜你喜歡
特征提取檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
一種基于LBP 特征提取和稀疏表示的肝病識別算法
3D打印中的模型分割與打包
小波變換在PCB缺陷檢測中的應用
主站蜘蛛池模板: 中文字幕久久波多野结衣| 伊人久久综在合线亚洲2019| 国产一级毛片网站| 久久精品丝袜| 又黄又爽视频好爽视频| 国产亚洲欧美日本一二三本道| 91精品国产91久无码网站| 国产成人三级| 色婷婷视频在线| 伊人久热这里只有精品视频99| 欧美不卡在线视频| 啪啪免费视频一区二区| 在线观看亚洲精品福利片| 波多野吉衣一区二区三区av| 成人欧美在线观看| 亚洲最大综合网| 久久国产精品麻豆系列| 日韩在线2020专区| 日韩欧美国产精品| aⅴ免费在线观看| 亚洲中文字幕av无码区| 国产亚洲欧美在线人成aaaa| 不卡午夜视频| 亚洲精品自产拍在线观看APP| 亚洲一区二区三区麻豆| 国产女人综合久久精品视| 老司国产精品视频91| 色哟哟国产精品| 91午夜福利在线观看精品| 精品福利国产| 亚洲色偷偷偷鲁综合| 99热这里只有精品免费| 高清无码手机在线观看| 制服丝袜在线视频香蕉| 国产真实乱人视频| 久久国产精品麻豆系列| 无码乱人伦一区二区亚洲一| 国产91特黄特色A级毛片| 国产情侣一区二区三区| 午夜福利在线观看成人| 广东一级毛片| 制服丝袜 91视频| 欧美伦理一区| 国产欧美专区在线观看| 国产乱人乱偷精品视频a人人澡| 国产成人乱码一区二区三区在线| 国产91视频观看| 国产成人AV大片大片在线播放 | 欧美啪啪网| 国产91九色在线播放| 小蝌蚪亚洲精品国产| 欧美亚洲欧美| 亚洲欧美另类日本| 亚洲无码四虎黄色网站| 亚洲黄网视频| 国产麻豆精品手机在线观看| 亚洲视频一区| 亚洲天堂精品在线| 亚洲视频四区| 久久99热66这里只有精品一| 2018日日摸夜夜添狠狠躁| 国产va免费精品观看| 天天躁狠狠躁| 亚洲乱码视频| 亚洲精品人成网线在线| 久久中文电影| 亚洲自偷自拍另类小说| 高清无码手机在线观看| 91色爱欧美精品www| 婷婷色在线视频| 91青青草视频| 欧美性精品不卡在线观看| 狠狠亚洲婷婷综合色香| 亚洲动漫h| 婷婷色一二三区波多野衣| 青青草91视频| 91精品国产91久久久久久三级| 国产精品午夜电影| 国产一二三区在线| 丁香综合在线| 丝袜高跟美脚国产1区| 亚洲区第一页|