999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于張量模型的暴力音頻檢測研究

2016-03-02 08:47:00梁家欣李海峰馬琳
智能計算機與應(yīng)用 2016年1期

梁家欣 李海峰 馬琳

摘 要:針對傳統(tǒng)方法忽略時序信息的問題,提出了一種基于張量模型的暴力音頻分類技術(shù)。該方法首先對音頻樣本提出矩陣特征,然后把同一類型的樣本特征組成一個張量特征。采用ALS算法對張量進(jìn)行分解,然后提出一個基于張量模型的分類器。實驗結(jié)果表明,張量模型的特征對暴力音頻分類問題具有一定提高效果,證明了保留時間維度上的信息是有意義的。

關(guān)鍵詞:時序信息;特征矩陣;張量;ALS分解

中圖分類號: TP391 文獻(xiàn)標(biāo)識碼: A 文章編號:2095-2163(2015)04-

Abstract: Due to traditional method ignoring the temporal information, a new technique of audio classification based on tensor model is proposed.The method extracts the features of the audio samples in matrix form and then composes a tensor feature of the matrix feature belonged to the same category.And ALS algorithm is used to decompose the tensor, and then a classifier based on tensor feature is proposed.Experimental results show that the tensor feature has been effective on the detection of violence audio, and it proves that the temporal information is meaningful.

Keywords: Temporal Information; Feature Matrix; Tensor; ALS Algorithm

0引 言

隨著互聯(lián)網(wǎng)的發(fā)展與多媒體的普及,信息科技與網(wǎng)絡(luò)便捷給人們的生活帶來很大影響。網(wǎng)絡(luò)上的音視頻如果沒有經(jīng)過檢測,則不可避免地會有一些暴力信息流入,對于未成年等特定人群來說,這些信息會對其行為習(xí)慣等產(chǎn)生負(fù)面影響。傳統(tǒng)的方法是對用戶上傳的音視頻進(jìn)行人工審核,而由于網(wǎng)絡(luò)多媒體數(shù)量大,人工方法會浪費大量人力,因此,需要一種算法可以自動識別暴力內(nèi)容。音頻是多媒體信息的重要組成部分,且暴力場景中經(jīng)常采用特定音頻事件來渲染氣氛,可以在一定程度上影響視頻的暴力程度判定。因此暴力音頻的檢測是非常有必要的。

由于大多數(shù)音頻信號的特征都是基于幀粒度提取的,因此對于每一個樣本,提取的原始特征是由幀的特征序列組成的矩陣,傳統(tǒng)方法往往需要將矩陣轉(zhuǎn)換為向量特征再進(jìn)行分類。簡單的做法是對每個特征的時間序列求統(tǒng)計值,一般取均值或方差等[1]。而這種方法會破壞原始數(shù)據(jù)的內(nèi)在信息,只有利用高維數(shù)組,才能建立復(fù)雜模型來捕捉現(xiàn)實事物的信息。本文針對電影中所包含的音頻暴力片段,研究了基于張量模型的分類方法,提出一個新的基于張量特征的分類器,驗證了時間維度對音頻分類的意義[2]。

1張量基礎(chǔ)

張量是一個多維數(shù)組,即向量和矩陣的自然推廣,例如一個向量 為一階張量,一個矩陣 為二階張量。一個N階張量記作 ,并稱 為張量的第n個指標(biāo),如圖1是一個三階張量 。

1.1 張量的矩陣化

一個纖維定義為除某一個指標(biāo)外,其他指標(biāo)都固定而得到的向量。每個指標(biāo)對應(yīng)張量的一個模式。若X的第n個指標(biāo) 變動而其他指標(biāo)固定,則所得的 維向量稱為張量的模-n向量。例如矩陣的列是模-1纖維,行是模-2纖維,其他高階張量的纖維可以理解為“矩陣的行和列”的高階的形式。假定從張量中提出的纖維都為列向量[3]。

張量的矩陣化或者展開,是將N維數(shù)組重排序成一個矩陣的過程。設(shè)N階張量 的模式-n展開記為 ,是將模式-n纖維重排,作為展開后矩陣的列。

1.2 張量的相關(guān)計算

對于給定的成分?jǐn)?shù)目,從效果來看,交替最小二乘(Alternating Least Square)是一類比較有效的算法。大量實驗證明,ALS算法在計算代價和結(jié)果質(zhì)量上有著很好的權(quán)衡,并且易于實現(xiàn),保證收斂,易拓展到高階張量,內(nèi)存消耗少,綜合考慮優(yōu)于其他算法[4]。

1.5 ALS算法

交替最小二乘法是基于將目標(biāo)問題降為規(guī)模較小的子問題迭代求解的思想。所求的參數(shù)在不同的分組,通過固定除一組外的所有組,得到一個新的僅依賴于所留的自由變量的損失函數(shù),使之最小化。該算法用同樣的方法進(jìn)行其他分組的計算。迭代計算,交替從一組到下一個,直到損失函數(shù)或參數(shù)的變化小于一個預(yù)定義的收斂準(zhǔn)則。因為所有的步驟都是在最小二乘意義上的優(yōu)化,損失函數(shù)不可能在任何一步增加,相反,是趨于最小的[5]。

其中,初始化方法可以是隨機的或者取 的前T個奇異向量,n=1,...,N。終止條件包括,目標(biāo)函數(shù)不再下降(或下降幅度小于一個閾值),系數(shù)矩陣不再改變(或變換程度小于一個閾值),目標(biāo)值接近零,超過最大迭代次數(shù)。

張量分解不止是具有更多下標(biāo)的矩陣分解——多重線性代數(shù)是一種結(jié)構(gòu)更加豐富的線性代數(shù)。矩陣和張量具有完全不同的幾何性質(zhì),這歸結(jié)于矩陣是線性變換和二次型,而張量是多重線性映射和多元多項式。由于考慮到了多維模式的內(nèi)在表達(dá),張量分解可以挖掘更多隱藏信息[6]。

2 基于張量模型的音頻分類方法

研究用張量特征進(jìn)行分類的基本思路是,對每一類樣本構(gòu)建變換空間[7],把變換后的特征系數(shù)建立高斯模型,再將測試樣本的特征變換到子空間中,得到一個向量特征,求其高斯概率密度,最后由貝葉斯準(zhǔn)則確定預(yù)測類別。

2.1 特征提取

由于暴力樣本中包含語音較少,因此沒有選用聲音質(zhì)量或韻律學(xué)相關(guān)的特征,而主要提取了頻譜和能量的相關(guān)特征。所提取的特征如表1所示。

考慮到數(shù)據(jù)量較大且保留每一幀的特征并沒有較大意義,在此對相鄰幀的特征向量求均值,這樣得到的特征矩陣可以較準(zhǔn)確地表達(dá)時序信息,更加具有意義。在實驗中,每個音頻包含n個向量特征,每個向量特征有m維,則每個音頻可以得到一個n*m的矩陣特征。假設(shè)某一類音頻數(shù)量為s,則提出所有音頻的矩陣特征后,可以得到一個s*m*n的張量特征。這樣,就得到了一個類別的張量特征[8]。

基于此,即對一個類別的張量特征進(jìn)行處理,而不是對每個樣本特征進(jìn)行變換,其優(yōu)點是可以利用類別的整體信息,減小由于個體差異帶來的噪聲的影響,變換后的特征更能體現(xiàn)出該類別的本質(zhì)屬性。

2.2 張量特征分解

對每一類樣本的張量特征進(jìn)行分解,得到三個可以近似表示原張量的矩陣,可以作為下一步分類算法的預(yù)處理。ALS算法首先要解決的問題是CP分解 中的T,而T的取值通常做法是嘗試不同的值,直至獲得滿意結(jié)果,如果有較強的應(yīng)用背景和先驗信息,可以預(yù)先制定。在下面的實驗中,選取了T=1,2,3...,來選擇具有最佳效果的T值。

對某個類別的張量特征分別分解,可以得到A,B,C三個矩陣,其中,A為I*T的矩陣,B為J*T的矩陣,C為K*T的矩陣,需要的存儲空間為T*(I+J+K),而原張量需要的存儲空間為I*J*K,所需存儲空間明顯下降。這里用A,B,C三個較小的矩陣近似表示了原張量,是分類器的預(yù)處理過程。

2.3 基于張量特征的分類器設(shè)計

研究設(shè)計的分類器主要是構(gòu)造兩個子空間,然后分別對這兩個子空間中的訓(xùn)練樣本特征建立高斯模型,測試時求出投影后的測試樣本在兩個高斯模型中的概率密度值,較大者即為預(yù)測類別。

2.3.1 訓(xùn)練過程

訓(xùn)練過程的主要思想是,將預(yù)處理得到的三個矩陣進(jìn)行計算,得到一個子空間和對應(yīng)的系數(shù)矩陣,由于研究是對不同類別音頻的特征張量分別處理,因此會得到兩個子空間和兩個系數(shù)矩陣,然后對這兩個系數(shù)矩陣分別建立高斯模型,這個模型就是需要求取的訓(xùn)練模型。求解實現(xiàn)過程如下所示:

(1)求子空間。對 做QR分解, ,此時 是大小為(KJ)*T的歸一化列正交矩陣,

(2)求系數(shù)矩陣。由于張量的展開 ( ),又 ,則 ,其中 為T*I的矩陣。因此, 是 在基 下的表示,由于 是標(biāo)準(zhǔn)正交基,若已知向量v,可求其在基 下的表示 。

這里可以理解為,先將張量展開,得到一個矩陣,接著分解為一個基矩陣和系數(shù)矩陣的乘積 。其中 是Q的列, 是H的行。原特征矩陣的每一列是每個樣本的特征,可以表示為基向量 的線性組合,其系數(shù)是H的對應(yīng)列。基矩陣即子空間,而系數(shù)矩陣的每一列是原特征向量化后投影到子空間中的向量。

這兩個特征矩陣,就是經(jīng)過處理的樣本特征,每個樣本的特征由J*K的矩陣變換為大小為T的向量(I為樣本數(shù),J為特征維數(shù),K為時間),視為一個降維過程。對這兩類特征分別建立單高斯模型,

(8)

此時得到了訓(xùn)練模型, 是均值, 是協(xié)方差矩陣。對每個類別都重復(fù)此過程,得到所有類別的訓(xùn)練模型。

2.3.2 測試過程

測試的主要思路是,每個類別都得到一個高斯模型后,將測試樣本分別投影到這兩個子空間中,得到兩個不同空間中變換后的特征。將變換后的特征分別代入兩個高斯模型中,得到其概率密度,較大者即為預(yù)測類型。具體實現(xiàn)步驟是:

(1)將測試樣本的特征矩陣V,按列連接起來得到一個特征向量v。

(2)將該特征向量投影到某個類別的基矩陣定義的子空間上, 。

(3)把投影后的特征向量代入每個高斯模型中,得到 。

(4) 即為預(yù)測類別。

3 實驗與分析

3.1 數(shù)據(jù)集介紹

本文所使用的數(shù)據(jù)庫來自MediaEval 2013 Workshop所提供的數(shù)據(jù)庫中的部分音頻。數(shù)據(jù)庫中包含了15部Hollywood電影,其中提供了電影鏡頭的暴力和非暴力標(biāo)記。這里主要選擇了5部電影,包括,Armageddon,BillyElliot,Eragon,KillBill和ReservoirDogs。音頻剪輯時,應(yīng)盡量使其成為具有單一語義的片段。由于MediaEval數(shù)據(jù)庫中已提供暴力非暴力鏡頭的標(biāo)注,基于該標(biāo)注,盡量選取不同類型的聲音,再根據(jù)人工測聽,篩選出有代表性的,不同類別的暴力非暴力音頻進(jìn)行實驗。另外,要考慮每個音頻片段的長度,太長會包含不同的聲音事件,太短則不能完整的表達(dá)語義。由之前學(xué)者研究可知,每個音頻片段的長度為2s時,具有較好的結(jié)果[9]。最后得到的數(shù)據(jù)集中,暴力音頻共300個,非暴力音頻共302個。采用4折交叉驗證的方法進(jìn)行實驗。即,隨機選擇452個樣本作為訓(xùn)練集,其中包括227個非暴力樣本和225個暴力樣本,其余150個樣本作為測試集,具體包括75個非暴力樣本和75個暴力樣本。

3.2 實驗過程及結(jié)果分析

音頻信號的采樣率為16kHz,預(yù)加重系數(shù)為0.97,采用漢明窗進(jìn)行分幀,幀長為40ms,幀移為15ms,每幀包含640個采樣點。預(yù)處理后,對每一幀提取出上述49個特征,作為一幀的特征向量。然后將該樣本的所有幀的特征向量組成一個特征矩陣。在本實驗中,只是保留每個樣本的前129幀,即特征矩陣大小為49*129。

接下來,將對每一類樣本建立張量模型,考慮到如果保留所有幀,會增加計算量且沒有意義,因此以相鄰三幀為一組求特征向量均值,最后得到的張量特征大小為I*49*43(I是樣本大小),T取值為1-30,分別進(jìn)行實驗。結(jié)果如表2所示,當(dāng)T=4時,具有較好的結(jié)果。

4 結(jié)束語

本文使用基于張量模型的分類方法對爆炸、槍擊、尖叫等具有代表性的暴力音頻事件進(jìn)行了檢測,保留音頻的時間信息,構(gòu)造張量特征,對每一個樣本的特征矩陣進(jìn)行投影降維,并提出基于張量模型的分類方法。總體來講,本文提取的特征及處理方法是有效的,能夠產(chǎn)生較好的識別結(jié)果。但該方法主要是研究基于幀粒度的特征,沒有考慮其他粒度特征,因此接下來的工作應(yīng)考慮張量模型分類方法能否結(jié)合多粒度特征,不僅保留時間維度上的信息,還能體現(xiàn)出一個聲音事件或一個音頻樣本的高層語義特征。

參考文獻(xiàn)

[1] GIANNAKOPOULOS T, PIKRAKIS A, THEODORIDIS S. A multi-class audio classification method with respect to violent content in movies using Bayesian Networks[J]. Multimedia Signal Processing .mmsp .ieee Workshop on, 2007,(10):90 - 93.

[2] 張麗梅, 喬立山, 陳松燦. 基于張量模式的特征提取及分類器設(shè)計綜述[J]. 山東大學(xué)學(xué)報(工學(xué)版), 2009, (1):6-14.

[3] KOLDA T G, BADER B W. Tensor decompositions and applications.[J]. Siam Review, 2009, 51(3):455-500.

[4] FABER N, BRO R, HOPKE P K. Recent developments in CANDECOMP/PARAFAC algorithms: a critical review[J]. Chemometrics & Intelligent Laboratory Systems, 2003, 65(1):119-137.

[5] 張曉飛. 解張量分解問題的信賴域交替最小二乘法[D].南京:南京師范大學(xué),2014.

[6] CICHOCKI A, MANDIC D, PHAN A H, et al. Tensor decompositions for signal processing applications: From two-way to multiway component analysis[J]. Signal Processing Magazine IEEE, 2015, 32(2):145 - 163.

[7] 楊立東, 王晶, 謝湘,等. 基于張量分解模型的語音信號特征提取方法[J]. 北京理工大學(xué)學(xué)報, 2013, 33(11):1172-1175

[8] BENETOS, KOTROPOULOS E, et al. Non-negative tensor factorization applied to music genre classification[J]. Audio, Speech, and Language Processing, IEEE Transactions on, 2010, (8):1955-1967.

[9] EYBEN F, WENINGER F, LEHMENT N, et al. Affective video retrieval: violence detection in Hollywood movies by large-scale segmental feature extraction.[J]. Plos One, 2013, 8(12):e78506.

主站蜘蛛池模板: 四虎永久免费网站| 精品久久香蕉国产线看观看gif | 亚洲综合色婷婷中文字幕| 国产手机在线小视频免费观看| 亚洲无码熟妇人妻AV在线| 玩两个丰满老熟女久久网| 久热99这里只有精品视频6| 在线观看91香蕉国产免费| 亚洲视频黄| 五月婷婷激情四射| 在线色国产| 国产一区三区二区中文在线| 精品伊人久久大香线蕉网站| 手机在线国产精品| 成人日韩视频| 色综合成人| 精品国产成人av免费| 亚洲无码视频图片| 小说区 亚洲 自拍 另类| 日本伊人色综合网| 女人毛片a级大学毛片免费| 欧美激情视频一区| 99热这里只有免费国产精品 | 99久久精品视香蕉蕉| 国产成人91精品免费网址在线| 蝌蚪国产精品视频第一页| 熟女视频91| 国产精品不卡片视频免费观看| 欧美一级一级做性视频| 亚洲bt欧美bt精品| 国产丝袜第一页| 精品自窥自偷在线看| 亚洲最猛黑人xxxx黑人猛交| 久久久久亚洲av成人网人人软件| 久久婷婷五月综合97色| 国产欧美日韩91| 日本欧美视频在线观看| 欧美亚洲综合免费精品高清在线观看| 国产91导航| 香蕉精品在线| 久久午夜夜伦鲁鲁片无码免费| 九九九精品成人免费视频7| 5555国产在线观看| 视频一本大道香蕉久在线播放 | 99成人在线观看| 中文字幕在线看视频一区二区三区| 欧美日韩导航| 综合色区亚洲熟妇在线| 亚洲成人播放| 国产精品思思热在线| 日韩黄色大片免费看| 国内嫩模私拍精品视频| 超碰91免费人妻| 亚洲第一色视频| 欧美97欧美综合色伦图| 亚洲自偷自拍另类小说| 国产福利一区视频| 国产欧美日韩专区发布| 亚洲一区二区三区中文字幕5566| 久久这里只有精品国产99| 无码中文字幕加勒比高清| 日韩精品成人在线| 亚洲人成在线精品| 欧日韩在线不卡视频| 不卡无码h在线观看| 成人91在线| 青青操国产视频| 欧美啪啪一区| 欧美精品三级在线| 亚洲精品黄| 四虎永久免费网站| 亚洲床戏一区| 热99re99首页精品亚洲五月天| 色男人的天堂久久综合| 午夜国产在线观看| 亚洲男人的天堂在线| 国产呦精品一区二区三区下载| 亚洲天堂区| 欧美视频二区| 91欧美在线| 自拍中文字幕| 亚洲一区波多野结衣二区三区|