劉 彥
(青島市技師學(xué)院 山東 青島 266229)
隨著社會(huì)的信息技術(shù)水平的不斷發(fā)展,多媒體網(wǎng)絡(luò)已成為人們工作和生活的必需品[1]。音頻技術(shù)是多媒體數(shù)據(jù)處理中的重要組成部分,且形式復(fù)雜樣[2]。由于音頻數(shù)據(jù)的多樣化,對(duì)其進(jìn)行檢索分析較為困難,如何準(zhǔn)確對(duì)多媒體數(shù)字音頻進(jìn)行檢索和分析,成為當(dāng)前社會(huì)熱門話題之一[3]。
傳統(tǒng)的音頻檢索是通過人工將音頻數(shù)據(jù)上傳到數(shù)據(jù)庫(kù),通過人工標(biāo)注音頻數(shù)據(jù),這樣的方法大大增加了時(shí)間成本[4]。同時(shí)通過人工進(jìn)行標(biāo)注的方法,無(wú)法將音頻數(shù)據(jù)準(zhǔn)確且全面標(biāo)注,進(jìn)行檢索時(shí),不能準(zhǔn)確將所需音頻數(shù)據(jù)分析識(shí)別[5]。因此本文提出基于壓縮域特征的多媒體數(shù)字音頻檢索方法。以壓縮域特征為基礎(chǔ)對(duì)數(shù)字音頻進(jìn)行特征識(shí)別和分析,提高在多媒體數(shù)字音頻檢索過程中的準(zhǔn)確率。
對(duì)多媒體數(shù)字音頻進(jìn)行檢索時(shí),其過程主要分為音頻特征提取、音頻分割和分類、音頻檢索這三個(gè)主要的部分,即原始音頻需經(jīng)過細(xì)致的處理,以最后實(shí)現(xiàn)檢索的目的,如圖1所示。
對(duì)于每一幀,每個(gè)子帶矢量值的均方根為:
S為32維的子帶矢量,M為一個(gè)32維的矢量[6]。M表征這一幀的特性,則質(zhì)心的具體特征為:
質(zhì)心反映在壓縮域上音頻信號(hào)的基本頻率帶[7]。通過矢量平衡點(diǎn),獲取衰減截止頻率:
其中,R為音頻信號(hào)能量衰減3分貝時(shí)的截止頻率。格鄰兩幀的M矢量正規(guī)化后以2為模的差分,頻譜流量體現(xiàn)音頻信號(hào)的動(dòng)態(tài)特征。由均方根[8]衡量這一幀音頻信號(hào)強(qiáng)度:
通過對(duì)多媒體數(shù)字音頻的均方根計(jì)算,一共提取出11種不同的音頻特征,然后再將這些不同種類的音頻特征進(jìn)行融合,這樣能夠很好地將音頻信息中的靜態(tài)特征和動(dòng)態(tài)特征表現(xiàn)出來(lái),將音頻信息具象化,以此為音頻的識(shí)別和檢索提供了必要的基礎(chǔ)。
1.2.1 建立模糊集合
模糊數(shù)據(jù)集合以自然語(yǔ)言為主,通過建立多媒體數(shù)字音頻模糊集合來(lái)確定清晰集合中所含有的元素[9]。這種集合中的元素是確定的,且數(shù)量是不變化的。確定好清晰數(shù)據(jù)集合中的元素后,再利用排除法,將模糊數(shù)據(jù)集合中的元素進(jìn)行標(biāo)注,二者的數(shù)據(jù)集合元素不存在交集情況。
對(duì)于多媒體數(shù)字音頻來(lái)說(shuō),建立真實(shí)可靠的模糊邏輯是十分重要的。相比較普通的模糊數(shù)據(jù)邏輯,多媒體數(shù)字音頻模糊數(shù)據(jù)邏輯定義更加廣泛。分為真邏輯和假邏輯,在此將真邏輯標(biāo)注為“1”,將假邏輯標(biāo)注為“0”進(jìn)行區(qū)分。在多媒體數(shù)字音頻模糊數(shù)據(jù)邏輯中,所有的數(shù)據(jù)均會(huì)存在真假邏輯,取值可以在“0”到“1”間的任意一個(gè)數(shù)字。通過關(guān)于數(shù)字的對(duì)比,能夠確定數(shù)據(jù)中的真邏輯和假邏輯的比值情況。模糊邏輯的主要作用是反應(yīng)反映多媒體數(shù)字音頻數(shù)據(jù)中所含有的不確定因素以及發(fā)生的隨機(jī)性。通過對(duì)不確定因素以及發(fā)生的隨機(jī)性進(jìn)行整理,能夠大大提高對(duì)于多媒體數(shù)字音頻的識(shí)別和檢索的準(zhǔn)確性以及效率。
1.2.2 模糊集合的度量
若集合A的論域?yàn)閁,x為A中的元素,x屬于A的程度由隸屬度函數(shù)映射為0與l之間的某一隸屬度μA(x)表示,則模糊集A為:
式中x為模糊集合所對(duì)應(yīng)的論域中元素;μA(x1)為相應(yīng)的隸屬度。
數(shù)值種類不一樣的隸屬度之間,它們的差異可以按照模糊集合的極值中的不穩(wěn)定值和以模糊度為基礎(chǔ)而進(jìn)行建立的數(shù)據(jù)。所以,不同的模糊數(shù)據(jù)中的隸屬度,能夠通過數(shù)據(jù)樣本的不確定性和模糊程度進(jìn)行相關(guān)定義。
1.2.3 隸屬度的賦值
隸屬度函數(shù)是模糊理論中不可或缺的一部分[10]。在對(duì)一個(gè)數(shù)據(jù)樣本進(jìn)行模糊處理時(shí),它的基礎(chǔ)是確認(rèn)這個(gè)數(shù)據(jù)樣本的隸屬度函數(shù)。文將對(duì)多媒體數(shù)字音頻數(shù)據(jù)中所提取出來(lái)的壓縮域特征進(jìn)行分類操作,按照模糊程度劃分為三個(gè)不同的模糊基礎(chǔ)數(shù)據(jù)集合,并且按照數(shù)據(jù)的大小類類為L(zhǎng)、M、S三個(gè)等級(jí)。如圖2所示,為三種分類的隸屬度函數(shù)。
對(duì)熵進(jìn)行最精確分類操作的主要部分是對(duì)已經(jīng)確定好分類的數(shù)據(jù)庫(kù)進(jìn)行集中分析。通過概率分布可以看出熵存在不確定性,其不確定值為3。對(duì)于多媒體數(shù)字音頻信息的測(cè)量,需要將數(shù)據(jù)進(jìn)行分類討論,并且確定數(shù)據(jù)信息的不確定值以及數(shù)據(jù)樣本的最大容量。對(duì)樣本進(jìn)行多次測(cè)量迭代,以此測(cè)試出最佳的分類結(jié)果。集合的熵是用率和以及所有結(jié)果概率的對(duì)數(shù)來(lái)定義的。歸納法中的第三個(gè)定律表明一個(gè)規(guī)則的熵需最小化。最小的熵(S)與所有的盡可能接近1或0的pi相關(guān)聯(lián),用熵的最小化分析方法來(lái)建立模糊閾值,從而確定隸屬度函數(shù),計(jì)算出模糊域值,即隸屬度函數(shù)圖中的a,b,c三個(gè)值,從而確定隸屬度函數(shù),完成多媒體數(shù)字音頻壓縮域特征數(shù)據(jù)融合。
隸屬度函數(shù)是以分解和分類篩選為主要基礎(chǔ)的方法,通過在兩種音頻數(shù)據(jù)中間分割出一條閾值線進(jìn)行分類。這樣能夠劃分出最佳的樣本分類,以此為后續(xù)的識(shí)別檢索提供方便。
以壓縮域特征為基礎(chǔ),用偏斜度對(duì)融合特征分類,引用三角模糊集算法得到辨別函數(shù),對(duì)音頻進(jìn)行有效檢索。這種多媒體數(shù)字音頻檢索是使用用戶與多媒體數(shù)據(jù)庫(kù)之間的一種信息交互活動(dòng)。
用近似度表達(dá)音頻資源間的一致性,偏斜度可靠度矩陣表達(dá)式為:
其中,ri表示音頻檢索偏斜度;i表示音樂類別的數(shù)量;t表示多媒體數(shù)字音頻檢索時(shí)間。音頻檢索偏斜度的可靠度矩陣存在時(shí)間與空間兩個(gè)維度信息的可靠性,在t時(shí)域內(nèi)檢索壓縮域特征音頻的偏斜度為:
公式(7)得到偏斜度,用這個(gè)結(jié)果對(duì)壓縮域特征進(jìn)行分類,得到較可靠的音頻信息。設(shè)音頻特征樣本為(x,y),音頻信息庫(kù)的隱層數(shù)為L(zhǎng),引用偏斜度計(jì)算,得到第l個(gè)輸出為:
其中,Gu表示音頻壓縮域最大特征值,通過辨別函數(shù)對(duì)音頻信息進(jìn)行定位,實(shí)現(xiàn)音頻資源分布式檢索:
通過公式(9)的分布式計(jì)算分析,可以有效檢索音頻壓縮域特征,以此提升音頻相識(shí)度,為用戶提供音頻相似性判斷,優(yōu)化多媒體數(shù)字音頻。
為了驗(yàn)證本文所設(shè)計(jì)的基于壓縮域特征的多媒體數(shù)字音頻檢索方法是否能夠有效的識(shí)別數(shù)字音頻,于是設(shè)計(jì)對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)樣本隨機(jī)選取新聞報(bào)道、音樂和其他音頻文件,并且所采樣的音頻頻率均為20 500 Hz。
在對(duì)音頻進(jìn)行特征提取以及分割融合時(shí),采集三種種類不同的音頻樣本進(jìn)行實(shí)驗(yàn)分析。三種樣本分別為:第一種,30個(gè)時(shí)長(zhǎng)為20秒的純音樂片段;第二種,30個(gè)時(shí)長(zhǎng)為20秒的人聲唱歌片段;第三種,30個(gè)時(shí)長(zhǎng)為30秒的純?nèi)寺曅侣劜?bào)片段。選定的實(shí)驗(yàn)樣本一共為30個(gè),將每個(gè)樣本隨機(jī)截取10秒作為實(shí)驗(yàn)基礎(chǔ),每組實(shí)驗(yàn)由以上三種實(shí)驗(yàn)樣本組成,每組樣本組成為隨機(jī)。
首先將樣本數(shù)據(jù)進(jìn)行分割操作,將分割完的音頻數(shù)據(jù)進(jìn)行先粗分類,一共采集到70個(gè)音頻樣本片段,片段種類為純音樂片段、人聲唱歌片段、純?nèi)寺曅侣劜?bào)段歌各20個(gè)。對(duì)以上實(shí)驗(yàn)樣本進(jìn)行音頻特征提取,將提取因?yàn)橐纛l數(shù)據(jù)記錄到音頻特征數(shù)據(jù)庫(kù)中。隨機(jī)挑選一個(gè)實(shí)驗(yàn)樣本以外的音頻對(duì)數(shù)據(jù)庫(kù)中的音頻進(jìn)行對(duì)比和檢索。音頻片段識(shí)別結(jié)果如表1所示。

表1 音頻片段識(shí)別結(jié)果
由表1可以看出,本文所設(shè)計(jì)的基于壓縮域特征的多媒體數(shù)字音頻檢索方法能夠有效提取到音頻的特征,將數(shù)字音頻進(jìn)行有效分類,大大提高了音頻識(shí)別的準(zhǔn)確率。
在音頻片段識(shí)別準(zhǔn)確率較高的基礎(chǔ)上,對(duì)多媒體數(shù)字音頻檢索時(shí)間進(jìn)行測(cè)試。測(cè)試結(jié)果如圖3所示。
由圖3得出,當(dāng)信息量達(dá)到300 bit,本文方法耗時(shí)6.5 s,張樺等[4]方法耗時(shí)9.2 s,買爾丹·祖農(nóng)[5]方法耗時(shí)8.9 s,由此結(jié)果可以看出,本文方法具有較高的音頻資源檢索效率,有更廣的應(yīng)用前景。
本文設(shè)計(jì)了以壓縮域特征為基礎(chǔ)的多媒體數(shù)字音頻檢索方法。首先對(duì)多媒體數(shù)字音頻進(jìn)行特征提取和分割,然后基于壓縮域特征對(duì)多媒體數(shù)字音頻的特征進(jìn)行分析與融合,最后進(jìn)行識(shí)別。本文方法大大提高了對(duì)于數(shù)字音頻的識(shí)別,有效增加了多媒體數(shù)字音頻的檢索效率。但由于時(shí)間限制,沒有進(jìn)行多次實(shí)驗(yàn),還需在今后的研究中不斷完善。