蘇志賢
基于剪切系數的視頻指紋內容拷貝檢測
蘇志賢
浙江安防職業技術學院, 浙江 溫州 325200
拷貝檢測技術廣泛應用于版權控制中,用于保護未經授權使用數字視頻,關鍵在于如何提取可靠的視頻指紋。本文提出一種基于剪切系數的視頻指紋內容拷貝檢測算法,利用TREC VID2018和Inria Copy Days數據集的相關數據,進行視頻圖像攻擊實驗,并與其它經典算法進行比較。實驗結果表明:本文算法對大多數攻擊都具有魯棒性。其F1平均得分約為0.99分,假陽性率低于0.01%,定位準確率97%。
視頻指紋; 剪切系數; 剪切波
在互聯網時代,成千上萬的視頻被上傳到網絡,這些視頻中有不少是非法復制或篡改現有媒體的版本。這種廣泛存在的視頻版權侵權使得網絡視頻版權管理成為一個復雜的過程,同時也要求開發快速、準確的拷貝檢測算法。由于視頻是最復雜的數字媒體類型,迄今為止它在版權管理方面受到的關注最少。視頻復制檢測任務是確定一組視頻中是否有重復,但是查詢視頻可能會失真,例如亮度變化、文本插入、壓縮和裁剪等[1]。數字視頻內容在不同媒體上的傳播越來越多,使得在大型視頻數據庫中搜索副本成為一個新的問題。因為視頻有不同的格式,所以基于視頻內容的拷貝檢測過程比基于名稱、描述或二進制更有效。視頻指紋識別已被提出用于此目的。視頻指紋是從視頻派生出來的基于內容的簽名,可以專門用來表示某一個視頻[2]。人們要在視頻數據庫中查找視頻的副本,可以在相應的指紋數據庫中搜索其指紋并進行匹配。兩個指紋的緊密性代表了相應視頻之間的相似性,但是兩個感知上不同的視頻應該有不同的指紋[3]。傳統的視頻指紋提取算法都是基于DCT技術,本文嘗試使用高級剪切變換來生成視頻指紋。另外,Keith基于剪切波域中的統計特征,提出一種通用的無參考圖像質量評估模型,它是基于自然場景統計和基于訓練的方法的結合,可以估計各種各樣的圖像失真[4]。本文試圖利用該模型的粗尺度,設計一種魯棒變換不變的視頻指紋剪切系數,用于基于內容的視頻拷貝檢測應用。
Amerini在研究中發現,如果自然圖像被一些常見的畸變所扭曲,粗尺度中的線性關系將被保留,但細尺度中的線性關系會受到干擾,特別是細尺度中的線性關系[5]。剪切波變換是一種多尺度、多維的小波變換,能夠處理不同尺度上的方向性信息。將具有復合擴張的仿射系統定義為:


其中M通過以下公式計算:

上式中A為各向異性膨脹矩陣,B為剪切矩陣。剪切波變換的框架是各向異性的,在不同的尺度、位置和方向上定義了分析函數,因此與傳統的小波變換相比,剪切波能夠更有效地檢測方向信息。如果信號可以用個最大系數的部分和進行重建,剪切波變換的近似特性如下:

傅立葉變換如下:

本文提出一種基于粗尺度的剪切系數指紋設計方法,用于視頻指紋內容拷貝檢測。所提出的基于檢測系數的視頻指紋定義為使用6個方向的4階剪切波變換。剪切波變換可以看成一個分解工具,同時考慮尺度和方向信息。首先,在輸入圖像中適用雙通道非子采樣分解,將輸入圖像遞歸分解為低通圖像和高通圖像。其次,在每一尺度的分解中,利用快速傅立葉變換算法,通過二維傅立葉變換將高通圖像變換成頻域,然后在頻域上應用6個方向的笛卡爾網格生成6個方向的子帶。最后,利用剪切系數揭示輸入圖像的多尺度和多方向信息。
對于健壯的視頻指紋,信號的低頻信息對許多失真如噪聲破壞等具有魯棒性。因此,粗尺度下的剪切系數更可取,因為這種剪切系數對不同類型的扭曲和變換具有較強的魯棒性,同時對感知不同圖像保持較高的分辨力。為證明剪切區高尺度系數的性質,采用子帶系數振幅歸一化進行評價,定義為:

其中SHf(,,)是剪切系數,,,分別是比例、方向和時間參數。
從Trec vid 2018和Inria Copy Days數據集中隨機選擇366個視頻幀,生成一個數據集。視頻拷貝檢測中常見的五種失真類型分別是亮度變化(LC)、jpeg、jpeg200(jp2)、鹽和胡椒噪聲(PN)、高斯噪聲(GN),相應的剪切器記為S1-S5。在這五種變形中,S3至S4中的分段譜相關函數算法受到畸變的嚴重影響,而S2與分段譜相關函數算法的魯棒性在所有類型的畸變上幾乎相同。因此,利用S2的方向信息構造相對穩健的指紋是可行的。
相關理論表明,剪切器S1對非定向空間信息和S2對定向信息具有良好的魯棒性[6]。本文提出利用S1和S2對視頻圖像進行魯棒視頻指紋生成。該指紋算法的輸入圖像是一個預先處理過的灰度圖像,可重新縮放到的×大小。將S1圖像(1×1)進一步向下采樣以生成S1哈希,然后將另外的圖像(2×2)也生成不同方向哈希。根據差分編碼規則,當前像素值大于或等于之前的像素值,則指定位“1”,否則指定位“0”。因此,S1散列的位長度為(1×1-1)位,方向散列的長度為(2×2-1)位。
在通常情況下,二進制散列可以唯一地表示成2項,其中是散列的長度。如果散列的長度太短,則假陽性率將很高。為所提出的基于剪切系數的視頻指紋選擇合適的參數,本文對具有不同散列長度的假陽性率進行實驗。在參數選擇中,發現S1的散列長度應該大于31位,以實現相對較低的假陽性率,而S2圖像的最小散列長度為7位。在此基礎上,選擇=128作為輸入圖像塊大小,1=7作為S1的采樣塊大小,2=3作為下采樣方向S2圖像塊大小,生成所提出的基于剪切系數的視頻指紋。因此,S1散列為48位,各方向散列為8位,總位長為96位。
一般來說,一個合格的視頻指紋應能在不同類型的失真下,對感知相似的視頻片段進行有效的識別。歸一化漢明距離(NHD)是測量不同指紋之間相似性的一種著名度量,它等于兩個指紋之間的不同比特數,對長度進行歸一化[7]。因此,采用NHD對Trec vid 2018和Inria Copy Days數據集的單個圖像或視頻幀上的基于剪切系數的視頻指紋魯棒性進行評估。評估數據集是通過從122個視頻中隨機選擇3幀來創建的,總共有366幀來自Trecvid2018數據集,143幅來自Inria Copy Days數據集。為了測試其魯棒性,常用的失真類型被應用到這些選定的幀上。對于亮度失真,使用亮度變化、鹽和胡椒噪聲、高斯噪聲、文本插入和jpeg壓縮。為了實現一個全面的評估,一些失真被結合在一起,創造更具挑戰性的攻擊。組合1失真強調亮度攻擊,其中結合亮度變化、鹽和胡椒噪聲、高斯噪聲、jpeg壓縮和文本插入的失真。組合2變形強調幾何攻擊,結合了字母框和旋轉的變形。在這些畸變情況下,共有509張原始圖像和4581張畸變圖像作為測試圖像。



在本實驗中,使用300個圖像進行評估,這些圖像是從Inria Copy Days數據集中選擇的。利用NHD方法計算每幀圖像與其畸變圖像的相似性。為了說明數據集中測試幀相似度的統計分布,計算了TPR和FPR,以驗證其性能。兩個NHD閾值被用來定義匹配,這意味著如果NHD小于NHD閾值(THR1=0.1和THR2=0.2),圖像被認為是知覺相似的。這兩個閾值分別為0.1和0.2,常用于多媒體拷貝檢測系統。如閾值=0.1,基于剪切系數的視頻指紋對大多數亮度畸變具有魯棒性。但是所有四種評估算法都不能在使用0.1閾值的信盒和旋轉類型的失真中表現良好。主要原因是0.1的閾值對于使用NHD進行相似性比較過于嚴格。對于一個實際系統,閾值0.2可以實現更高的TPR性能,這是因為四種算法都得到了改進,特別是在畸變的幾何類型上。此外,在TPR性能方面,基于剪切系數的視頻指紋在大多數類型的失真上表現突出。此外,指紋識別性能也是視頻指紋識別算法的一個關鍵特性,良好的指紋識別應保證盡量低的指紋識別特性。從FPR結果來看,包括基于剪切系數的視頻指紋在內的大多數測試算法都可以實現低的FPR,具有良好的識別性能。實驗結果表明,與三種比較的指紋算法相比,該算法具有較高的魯棒性和較好的性能。
本實驗使用Trec vid 2018數據集評估基于剪切系數的視頻指紋內容拷貝檢測算法的性能。為了進行性能比較,我們還實現了基于TIRI系統評估的三個著名視頻指紋。這些系統被命名為TIRI-2D-DCT、TIRI-2D-DCT-2AC和TIRI-OSI。此外,在這些系統實現中采用常用預處理過程,包括下采樣灰度輸入視頻的歸納和TIRIS的生成。其中,采用4幀/秒的降采樣幀大小和幀速率生成預處理的輸入視頻,并用于生成TIRIS。在本實驗中,從Trec vid 2018數據集中選擇了122個視頻作為參考視頻,用于生成帶有拷貝問題的查詢。然后,使用另外122個視頻作為非引用來形成查詢,沒有復制問題。在評估中,從每個參考和非參考視頻集中隨機抽取查詢,長度為15 s。此外,對這些查詢實施了8種類型的攻擊,其中976個查詢被復制,976個查詢沒有被復制。變形的8種類型是幾何攻擊,包括字母框和旋轉、亮度攻擊、亮度變化、鹽和胡椒噪聲、高斯噪聲、文本插入以及時間攻擊。在搜索數據庫之前,使用相同的指紋算法預先生成指紋參考數據庫。閾值0.2用于基于NHD的相似性匹配,這在CBCD系統的大多數實現中都是常用的。對于一個健壯的CBCD系統,它應該實現精確性(辨別性)和召回(健壯性)之間的平衡。為了評估提議的TIRI-SBVF、TIRI-2D-DCT、TIRI-2D-DCT-2AC和TIRI-OIS的性能,本文采用分數(F)作為綜合指標,定義為:


本文提出了一種基于剪切系數的視頻指紋內容拷貝檢測算法,將時間信息中的代表性圖像作為視頻指紋?;诩羟胁ㄗ儞Q的多尺度、多方向分解特性,設計了基于剪切系數的視頻指紋。針對具有四尺度剪切變換的S1和S2的不同類型失真具有很強的魯棒性,對這些剪切圖像的下采樣圖像采用1位差分編碼構造了基于剪切系數的視頻指紋。在基于歸一化漢明距離的統計評估中,與已知的TIRI-2D-DCT、TIRI-2D-DCT-2AC和TIRI-OSI三種指紋算法相比,該算法具有較高的魯棒性。此外,通過與基于另外3種拷貝檢測系統的比較,對視頻檢測和定位性能進行評估。實驗結果表明,基于剪切系數的視頻指紋是一種魯棒的視頻指紋,具有較強的識別能力和對多種視頻拷貝攻擊的魯棒性。本文算法能達到約0.99的1平均得分,假陽性率<0.01%,平均定位精度約97%。
[1] Ashok Kumar R, Kaliyaperumal G.Optimal fingerprint scheme for video on demand using block designs[J]. Multimedia tools and applications,2012,61(2):389-418
[2] Kim S, Lee SH, Ro YM. Rotation and flipping robust region binary patterns for video copy detection[J]. Journal of visual communication & image representation, 2014,25(2):373-383
[3] Zahedi M, Ghadi OR. Combining Gabor filter and FFT for fingerprint enhancement based on a regional adaption method and automatic segmentation[J]. Signal, image and video processing, 2015,9(2):267-275
[4] Yuan F,. Po LM, Liu MY,. Shearlet Based Video Fingerprint for Content-Based Copy Detection[J]. Journal of Signal and Information Processing, 2016,7(2):84-97
[5] Amerini I, Caldelli R, Del Mastio A,. Dealing with video source identification in social networks[J]. Signal Processing. Image Communication: A Publication of the the European Association for Signal Processing, 2017,57(4):1-7
[6] Li YM, Po LM, Xu XY,.No-Reference Image Quality Assessment with Shearlet Transform and Deep Neural Networks[J]. Neurocomputing, 2015,154(12):94-109
[7] Guzamn J, Feregrino C, Morales-Sandoval M,.A robust and low-cost video fingerprint extraction method for copy detection[J]. Multimedia tools and applications, 2017,76(22):24143-24163
Detection for Video Fingerprint Content Copy Based on Cut Coefficient
SU Zhi-xian
325016,
Copy detection technology is widely used in copyright control to protect unauthorized use of digital video, the key is how to extract reliable video fingerprints. In this paper, a video fingerprint content copy detection algorithm based on shear coefficient is proposed. Video image attack experiments are carried out using TREC VID2018 and Inria Copy Days data sets, and compared with other classical algorithms. The experimental results show that the proposed algorithm is robust to most attacks. The average score of F1 was about 0.99, the false positive rate was less than 0.01%, and the accuracy of location was 97%.
Video fingerprint; shear coefficient; shear wave
TP391
A
1000-2324(2019)04-0630-04
2018-06-12
2018-07-25
浙江省教育廳一般科研項目:“城市視頻監控”智慧運維管理平臺構建研究(Y201839383)
蘇志賢(1988-),男,碩士,講師,主要研究方向為智能視頻監控技術的應用. E-mail:297004967@qq.com