基于稀疏字典的聽覺顯著性計(jì)算①

2016-06-15 03:51:11陳曦夏秀渝四川大學(xué)電子信息學(xué)院成都610064

計(jì)算機(jī)系統(tǒng)應(yīng)用 2016年4期

陳曦,夏秀渝(四川大學(xué) 電子信息學(xué)院,成都 610064)

基于稀疏字典的聽覺顯著性計(jì)算①

陳曦,夏秀渝
(四川大學(xué) 電子信息學(xué)院,成都 610064)

摘要:聽覺注意顯著性計(jì)算模型是研究聽覺注意模型的基本問題,顯著性計(jì)算中選擇合適的特征是關(guān)鍵,本文從特征選擇的角度提出了一種基于稀疏字典學(xué)習(xí)的聽覺顯著性計(jì)算模型.該模型首先通過K-SVD字典學(xué)習(xí)算法學(xué)習(xí)各種聲學(xué)信號(hào)的特征,然后對(duì)字典集進(jìn)行歸類整合,以選取的特征字典為基礎(chǔ),采用OMP算法對(duì)信號(hào)進(jìn)行稀疏表示,并直接將稀疏系數(shù)按幀合并得到聲學(xué)信號(hào)的聽覺顯著圖.仿真結(jié)果表明該聽覺顯著性計(jì)算模型在特征選擇上更符合聲學(xué)信號(hào)的自然屬性,基于基礎(chǔ)特征字典的顯著圖可以突出噪聲中具有結(jié)構(gòu)特征的聲信號(hào),基于特定信號(hào)特征字典的顯著圖可以實(shí)現(xiàn)對(duì)特定聲信號(hào)的選擇性關(guān)注.

關(guān)鍵詞:聽覺選擇性注意; 聽覺顯著圖; 顯著性; 字典學(xué)習(xí)

注意是一種在指定時(shí)間內(nèi)大腦關(guān)注某種特定信息的能力,根據(jù)參與器官的不同,可以分為聽覺注意、視覺注意等.注意有兩個(gè)基本特征: 指向性和集中性.指向性主要指選擇出現(xiàn)在同一時(shí)間的各種刺激; 集中性主要指對(duì)干擾的抑制,其產(chǎn)生的范圍以及持續(xù)時(shí)間取決于外部刺激的特點(diǎn)和人的主觀因素.學(xué)界普遍認(rèn)為聽覺注意是由自底向上(Bottom-Up)外源性聽覺注意和自頂向下(Top-Down)內(nèi)源性聽覺注意的兩種因素所驅(qū)動(dòng)[1-3].自頂向下的注意因受到具體任務(wù)和人的主觀意識(shí)的影響,其研究結(jié)果往往呈現(xiàn)出較大的差異性[4-7],并依賴自底向上的注意方式對(duì)信息的提取加工起作用.

研究聽覺注意計(jì)算模型無論對(duì)生理心理學(xué)和計(jì)算機(jī)科學(xué)都具有重要的理論意義和實(shí)用價(jià)值.目前國(guó)內(nèi)外對(duì)聽覺注意計(jì)算模型的研究主要集中在外源性聽覺注意上,即Bottom-Up聽覺顯著性模型.現(xiàn)有的聽覺顯著性模型主要參考了經(jīng)典Itti視覺顯著圖計(jì)算模型.該模型提取圖像的三個(gè)初級(jí)視覺特征(顏色,強(qiáng)度和方位),然后對(duì)每一個(gè)特征進(jìn)行中央周圍差和標(biāo)準(zhǔn)化得到視覺顯著圖.近年來國(guó)內(nèi)外還提出用傅里葉變換、小波分析等算法對(duì)圖像的紋理特征及運(yùn)動(dòng)顯著圖進(jìn)一步強(qiáng)化[8,9].Kayser等人[10]借鑒Itti模型首先提出了一個(gè)聽覺顯著圖計(jì)算模型,他們將聲音信號(hào)通過聽覺外周計(jì)算模型得到聽覺圖譜,然后對(duì)聽覺圖譜進(jìn)行不同尺度的高斯濾波提取圖像的強(qiáng)度、時(shí)間對(duì)比度、頻率對(duì)比度等特征,整合各種特征得到聽覺顯著圖,該計(jì)算模型初步實(shí)現(xiàn)了顯著圖的計(jì)算.Emine等人[11]在Kayser模型的基礎(chǔ)上增加了波形包絡(luò),譜圖,速度,帶寬,和音高等特征信息,同時(shí)對(duì)頻率通道分別處理得到聲音信號(hào)的顯著圖,將特征提取方法加以細(xì)化計(jì)算顯著圖.文獻(xiàn)[12]提出在音樂背景中對(duì)聲音顯著性特征進(jìn)行提取的方法,該方法對(duì)聲源信號(hào)限定了內(nèi)容.目前的聽覺顯著性計(jì)算模型主要采用了人工選取的時(shí)域、頻域、能量等各種聲學(xué)特征,采用一定的合并策略合成最終顯著圖,但在表示聲學(xué)信號(hào)自然屬性的準(zhǔn)確性和反映聽覺感知特性的完整性上存在缺陷.

本文對(duì)自底而上和自頂向下聽覺顯著性計(jì)算模型進(jìn)行研究.根據(jù)Itti模型結(jié)構(gòu)框架,其中特征選取是關(guān)鍵,但聽覺顯著性經(jīng)典模型多來源于視覺模型,選取的特征不一定符合聲音自然屬性.因而,本文提出通過稀疏字典學(xué)習(xí)算法從自然聲音中自動(dòng)學(xué)習(xí)各種聲學(xué)特征,并選擇性地利用這些特征計(jì)算聽覺顯著圖,從而得到更符合聽覺感知特性的顯著性表示.

1　聽覺顯著性計(jì)算模型

1.1經(jīng)典聽覺顯著性計(jì)算模型

自底向上聽覺顯著性計(jì)算主要是對(duì)環(huán)境中“突兀”聲音的響應(yīng),最后以顯著圖的方式凸顯值得關(guān)注的聲音.已有的聽覺顯著性提取模型大多都基于Itti的圖像顯著模型框架,以Kayser[10]提出的聽覺顯著性提取模型為例,其原理流程圖如圖1所示.

圖1　自底向上聽覺注意模型框圖

Kayser模型在聽覺前期處理中將聲音信號(hào)轉(zhuǎn)換成語譜圖,再通過二維高斯濾波器在不同尺度上提取語譜圖的強(qiáng)度、頻率對(duì)比度、時(shí)間對(duì)比度等特征,利用中心-周邊差(center-surround difference)算子計(jì)算各特征的顯著度并進(jìn)行跨尺度整合,最后通過各特征顯著度的線性合并得到聲學(xué)信號(hào)的聽覺顯著圖.該方法一度成為計(jì)算聽覺顯著圖的基礎(chǔ)模型,隨后Kalinli[13]等人在Kayser模型的基礎(chǔ)上提出依賴詞法和句法信息的使用概率作為判別條件,采用不同的顯著圖歸一化算法計(jì)算聲學(xué)信號(hào)的聽覺顯著圖.Duangudom[14]模型主要利用了信號(hào)的時(shí)頻能量和時(shí)頻調(diào)制特性,考慮聽覺譜圖中時(shí)頻接受域的輸出并計(jì)算出信號(hào)的聽覺顯著圖.

上述文獻(xiàn)通過增加符合聽覺特性的特征對(duì)模型加以完善,這些特征都是基于經(jīng)驗(yàn)人工選取的,選取工作比較困難且計(jì)算的有效性較低.為突出聽覺特性和聲音的自然屬性,本文將聲音信號(hào)送入更貼近人耳聽覺特性的Mel濾波器組得到聲音信號(hào)的聽覺圖譜,然后通過字典學(xué)習(xí)算法從自然聲音中自動(dòng)學(xué)習(xí)各種典型的聽覺特征,進(jìn)而形成聽覺顯著圖,該方法避免了傳統(tǒng)人工選取特征的困難,更符合聽覺感知特性.

1.2基于稀疏字典的聽覺顯著性計(jì)算

顯著圖計(jì)算關(guān)鍵是選取合適的特征,除根據(jù)先驗(yàn)知識(shí)人工選擇外,還可通過學(xué)習(xí)的方法獲得自然聲音的聽覺特征,利用其特征計(jì)算得到的顯著圖更符合聲源的信息特點(diǎn),減小人工干涉的影響,本文利用稀疏字典K-SVD學(xué)習(xí)算法獲取聲學(xué)信號(hào)特征.

1.2.1信號(hào)稀疏表示及K-SVD算法

語音信號(hào)具有典型的稀疏性,利用稀疏表示就能提取出信號(hào)特點(diǎn),僅用數(shù)個(gè)特征值即可.目前K-SVD算法在處理稀疏信號(hào)上應(yīng)用較廣,能夠簡(jiǎn)便高效地獲得信號(hào)的特征原子.

設(shè)聽覺譜信號(hào)為Y,字典為D和系數(shù)矩陣A,則K-SVD的目標(biāo)函數(shù)為:

① 稀疏分解

解決式(2)可用正交匹配追蹤(OMP)算法.

② 字典更新

基于SVD字典更新原理,在字典更新階段,對(duì)字典中的原子逐個(gè)進(jìn)行更新,每次更新一個(gè)字典原子和相應(yīng)的系數(shù),懲罰項(xiàng)為:

其中▽中的奇異值是由大到小排列的, 則得到U的第一列為第一個(gè)原子, 表示V的第一列乘以?(1,1)為更新后系數(shù)矢量的解. 接著進(jìn)行下一次迭代, 第一步和第二步交替完成, 得到信號(hào)的稀疏表示矩陣及相應(yīng)的字典原子.

1.2.2基于稀疏字典的聽覺顯著性計(jì)算方法

通過K-SVD算法來學(xué)習(xí)自然聲音的典型特征,經(jīng)學(xué)習(xí)得到的字典中每個(gè)原子都是聲音信號(hào)的一個(gè)典型特征,根據(jù)顯著圖計(jì)算模型可以考慮用字典原子作為顯著圖的特征,用這些特征濾波器對(duì)聲音進(jìn)行濾波,經(jīng)整合后可形成聽覺顯著圖.但由于訓(xùn)練出的初始字典原子個(gè)數(shù)較多,多特征顯著圖合并時(shí)還有相互抵消的現(xiàn)象,導(dǎo)致模型計(jì)算量較大且合并后的顯著圖區(qū)分度不夠明顯.為此本文提出直接利用聲學(xué)信號(hào)稀疏表示系數(shù)矩陣來計(jì)算聲學(xué)信號(hào)顯著度的方法,即直接將信號(hào)單元的稀疏系數(shù)相加得到最終的聽覺顯著度.這里利用系數(shù)絕對(duì)值直接相加形成顯著度曲線,具有比通過直接濾波整合計(jì)算顯著圖方法更低的算法復(fù)雜度,提升了算法的效率和信號(hào)的區(qū)分度.本文聽覺顯著圖的計(jì)算總體框架如圖2所示.

具體步驟如下:

① 將一維的聲音信號(hào)通過短時(shí)傅里葉變換轉(zhuǎn)換為語譜圖,考慮人耳聽覺特性及字典原子大小對(duì)K-SVD算法學(xué)習(xí)效率的影響,進(jìn)一步采用Mel濾波器組(24個(gè)三角濾波器組)濾波將語譜圖轉(zhuǎn)換為聽覺譜圖.普通圖像和聽覺譜圖雖然都是二維圖像,但兩者是有區(qū)別的,普通圖像兩個(gè)維度物理意義完全一樣,均表示空間分布.而聽覺圖譜第一維是時(shí)域維度,第二維是頻域維度,這兩維的物理意義完全不同.

圖2　本文聽覺顯著圖計(jì)算模型結(jié)構(gòu)

② 選取不同聲源的輸入信號(hào)通過K-SVD算法進(jìn)行字典學(xué)習(xí).圖像應(yīng)用中原子形狀常取正方形,而聲學(xué)信號(hào)更多地表現(xiàn)為頻譜隨時(shí)間的變化,所以提取聲學(xué)信號(hào)特征時(shí),本文考慮時(shí)頻特征,以每幀信號(hào)的Mel譜為基礎(chǔ)進(jìn)行稀疏字典學(xué)習(xí),原子大小設(shè)定為24*1.通過學(xué)習(xí)得到對(duì)應(yīng)不同種類聲信號(hào)的小字典集,然后通過統(tǒng)計(jì)分析挑選出部分原子合成基礎(chǔ)聲學(xué)特征庫(kù)Dn.

③ 將該字典固定,對(duì)實(shí)際輸入信號(hào)在字典Dn上進(jìn)行稀疏分解,可以獲得分解系數(shù)矩陣Ai,然后將每幀信號(hào)稀疏系數(shù)絕對(duì)值ai疊加就得到該輸入信號(hào)最終的聽覺顯著度曲線.由于字典原子具有結(jié)構(gòu)化特征,該基礎(chǔ)聲學(xué)字典可用于區(qū)分具有結(jié)構(gòu)特征的自然聲和不具有結(jié)構(gòu)特征的噪音.

④ 另外統(tǒng)計(jì)分析發(fā)現(xiàn)各原子在每類聲信號(hào)稀疏表示中出現(xiàn)的概率不同,即不同種類的聲音具有不同的特征,因此也可從基礎(chǔ)聲學(xué)特征庫(kù)Dn中挑選部分原子構(gòu)成某類特殊聲音的特征字典,用于特定聲音的顯著性計(jì)算,從而實(shí)現(xiàn)稀疏分解的簡(jiǎn)化計(jì)算和有偏向的顯著性計(jì)算.

2　仿真實(shí)驗(yàn)及結(jié)果分析

實(shí)驗(yàn)選取語音、貓叫、鳥鳴、風(fēng)扇聲各一段,所用純凈語音選自TIMIT 語音庫(kù),其中男女聲各2句,信號(hào)采樣頻率16 kHz,幀長(zhǎng)為512個(gè)樣點(diǎn),將一幀的Mel譜維數(shù)作為字典原子大小24*1.

2.1字典學(xué)習(xí)及其統(tǒng)計(jì)分析

我們將語音、貓叫、鳥鳴、風(fēng)扇聲分別作為輸入信號(hào),采用K-SVD算法學(xué)習(xí)得到各種聲音的小字典.每種聲音時(shí)頻原子大小為24*1,每個(gè)字典大小為256個(gè)原子,圖3為以上類型聲音的時(shí)頻字典,為了節(jié)省空間這里只給出了各聲音字典的部分典型原子.

圖3　各種聲學(xué)信號(hào)特征字典

從圖3可以看出時(shí)頻字典能很好地反映出各種聲信號(hào)的時(shí)頻結(jié)構(gòu),字典中的每個(gè)原子能夠表示聲學(xué)信號(hào)的局部時(shí)頻域特征.不同類信號(hào)學(xué)習(xí)得到的字典也不同,他們的主要特征結(jié)構(gòu)不同.另外還統(tǒng)計(jì)了每類聲學(xué)信號(hào)字典原子在稀疏矩陣中出現(xiàn)的概率(如圖4所示).

圖4　不同信號(hào)字典原子概率分布

通過圖4可以看出每類聲學(xué)信號(hào)各個(gè)字典原子在稀疏矩陣中出現(xiàn)的概率區(qū)別較大,可以認(rèn)為某些原子就是信號(hào)重要特征.為提高信號(hào)稀疏表示的計(jì)算效率,可挑選出現(xiàn)概率大的原子構(gòu)成特征小字典.圖3表示了各聲學(xué)信號(hào)引用概率大的10個(gè)原子.

2.2基于字典的聽覺顯著圖

通過2.1節(jié)的實(shí)驗(yàn)分析可知,用于顯著度提取的特征字典可以從小字典集中挑選部分原子構(gòu)成.首先我們從小字典集中挑選出現(xiàn)概率大的原子構(gòu)成一個(gè)基礎(chǔ)特征字典,通過對(duì)語音、貓叫、鳥鳴、風(fēng)扇聲進(jìn)行字典學(xué)習(xí)(各字典原子個(gè)數(shù)設(shè)定為256個(gè)),進(jìn)而對(duì)每個(gè)小字典的原子特征進(jìn)行統(tǒng)計(jì),提取出現(xiàn)概率大于3倍概率均值的原子作為該小字典的特征原子,每個(gè)小字典分別可以挑出10～20個(gè)原子,而后將幾組小字典組成為具有結(jié)構(gòu)化特性的基礎(chǔ)聲學(xué)字典(含原子49個(gè)).該字典的原子皆具有結(jié)構(gòu)化特點(diǎn),所以用基礎(chǔ)聲學(xué)字典來計(jì)算信號(hào)顯著度時(shí),可以區(qū)分結(jié)構(gòu)化聲音與非結(jié)構(gòu)化噪聲.截取前述四種聲音并和白噪聲拼接后送入顯著性模型計(jì)算顯著度,實(shí)驗(yàn)結(jié)果如圖5.

圖5　聲音顯著圖

由圖5看出,白噪聲不具有結(jié)構(gòu)化特性,其稀疏分解系數(shù)較小,所以對(duì)應(yīng)的顯著度曲線取值小,而語音、貓叫、鳥鳴、風(fēng)扇聲這些具有結(jié)構(gòu)化特性的聲音顯著度取值都比較大.

另外對(duì)于該字典,每類聲音對(duì)各原子的使用概率也不同,所以還可以挑選部分在某類聲音中出現(xiàn)概率高,而在其他類聲音中出現(xiàn)概率低的原子構(gòu)成特征字典,以此得到具有偏向性的顯著圖.如我們想選擇性關(guān)注語音,則從基礎(chǔ)聲學(xué)字典中挑選語音稀疏表示中使用概率大的原子構(gòu)成語音特征字典,然后基于該語音特征字典計(jì)算輸入信號(hào)的顯著度,就可以實(shí)現(xiàn)對(duì)語音的選擇性注意.

實(shí)驗(yàn)中我們從基礎(chǔ)聲學(xué)字典中挑選出18個(gè)原子構(gòu)成語音特征字典,12個(gè)原子構(gòu)成貓叫聲特征字典,下圖分別是基于語音和貓叫聲特征字典得到的具有偏向性的顯著圖.

圖6　選擇性注意顯著圖

圖6-b中只有語音段具有相對(duì)較高顯著度,圖6-c中貓叫聲段顯著值明顯偏高,基于語音和貓叫特征字典的顯著圖表現(xiàn)出對(duì)兩種特定聲音的偏向性,不僅非結(jié)構(gòu)化的噪聲顯著度低,而且和特性不同的另三種聲音顯著度也低.從而驗(yàn)證了分類小字典具有一定的選擇特性,可用于實(shí)現(xiàn)人類聽覺自頂向下選擇性注意.

3　結(jié)論

本文針對(duì)人的聽覺注意方式提出了一種基于特征字典的聽覺顯著圖計(jì)算模型.該模型在稀疏字典學(xué)習(xí)的基礎(chǔ)上提取了信號(hào)的特征字典,并利用稀疏系數(shù)矩陣表示出了信號(hào)的顯著圖.實(shí)驗(yàn)結(jié)果表明,本文方法實(shí)現(xiàn)了對(duì)具有結(jié)構(gòu)特性聲音的顯著性注意計(jì)算并通過對(duì)特征原子的提取應(yīng)用實(shí)現(xiàn)了對(duì)聲源的指向性注意.本文模型兼具自頂向下和自底向上的選擇性注意功能,降低了對(duì)顯著圖計(jì)算的復(fù)雜度和計(jì)算量,提取特性未加以人工干涉,在實(shí)現(xiàn)構(gòu)建聽覺選擇性注意模型方面更具現(xiàn)實(shí)意義.在以后的研究中,希望能用更多的聲學(xué)特征來完善本文模型,針對(duì)聲源的分類識(shí)別上有進(jìn)一步的研究.

參考文獻(xiàn)

1Itti L,Koch C,Niebur E.A model of saliency-based visual attention for rapid scene analysis.IEEE Trans.on Pattern Analysis and Machine Intelligence,1998,20(11): 1254–1259.

2Itti L,Koch C.Computational modeling of visual attention.Nature Reviews Neuroscience,2001,2(3): 194–203.

3Tsotsos J,Culhane S,Kei WW,et al.Modeling visual attention via selective tuning.Artificial Intelligence,1995,78 (1): 507–545.

4Borjia IL.State-of-the-art in visual attention modeling.IEEE Trans.on Pattern Analysis and Machine Intelligence,2013,35(1): 185–207.

5Yarbus A.Eye Movements and Vision.Plenum Press,1967.

6Foulsham T,Under WG.What can saliency models predict about eye movements spatial and sequential aspects of fixations during encoding and recognition.Journal of Vision,2008,8(2).

7Hayhoe M,Ballard D.Eye movements in natural behavior.Trends in Cognitive Sciences,2005,9(4): 188–194.

8徐貴力,毛罕平.利用傅里葉變換提取圖像紋理特征新方法.光電工程,2004,31(11):55–58.

9張焱,張志龍,沈振康.一種融入運(yùn)動(dòng)特性的顯著性特征提取方法.國(guó)防科技大學(xué)學(xué)報(bào),2008,30(3):109–115.

10Kayser C,Petkov CI,Lippert M,et al.Logothetis.Mechanisms for allocating auditory attention: An auditory saliency map.Current Biology.2005.1943.

11Kaya EM,Elhilali M.A temporal saliency map for modeling auditory attention.Department of Electrical and Computer Engineering.

12Vaclav B,Rainer M,et al.A model-based auditory scene analysis approach and its application to speech source localization.Acoustics,Speech and Signal Proccessing (ICASSP).Prague Congress Centre Prague,Czech Republic.2011.2624–2627.

13Kalinli O,Member S,Narayanan S.Prominence detection using auditory attention cues and task-dependent high level information.IEEE Trans.on Audio,Speech,And Language Processing,2009,17(5).

14Duangudom V,Anderson DV.Using auditory saliency to understand complex auditory scenes.Proc.of the 15th European Signal Processing Conference(EUSIPCO 2007).2007.1206–1210.

15王雪君,夏秀渝,張欣,何培宇.新的聽覺注意顯著圖計(jì)算模型研究.信號(hào)處理,2013,29(9):1142–1147.

Auditory Saliency Calculation Based on Sparse Dictionary

CHEN Xi,XIA Xiu-Yu
(College of Electronics and Information Engineering,Sichuan University,Chengdu 610064,China)

Abstract:Auditory attention saliency computation model is one of the fundamental problems in the study of auditory attention model,and the key of this model is the selection of appropriate features.In this paper,an auditory significance calculation model based on sparse dictionary learning is proposed from the view of feature selection.The first step is getting the characteristics of a variety of acoustic signals by the K-SVD dictionary learning algorithm.Then the dictionary set is classified and integrated.Based on a selected feature dictionary,OMP algorithm is used for signal sparse representation.And the sparse coefficients are combined frame by frame to obtain the auditory saliency map.The simulation results show that this auditory saliency map computation model can achieve better correspondence characteristic with the nature attribute of acoustic signal in feature selection.The saliency map based on dictionary of basic characteristics can highlight the structure characteristics of noisy acoustic signal.The saliency map based on dictionary of special characteristics can achieve selective attention for certain signals.

Key words:auditory selective attention; auditory saliency map; saliency; dictionary learning

基金項(xiàng)目:①四川省科技支撐項(xiàng)目(2011SZ0123,2013GZ1043)

收稿時(shí)間:2015-08-12;收到修改稿時(shí)間:2015-09-21

計(jì)算機(jī)系統(tǒng)應(yīng)用2016年4期

計(jì)算機(jī)系統(tǒng)應(yīng)用的其它文章: 利用遺傳算法求解圓排列問題①; ARP預(yù)算管理信息系統(tǒng)應(yīng)用探索①; 基于ROA的移動(dòng)個(gè)人知識(shí)管理系統(tǒng)集成①; 利用信息熵的巖心圖像自適應(yīng)壓縮感知重構(gòu)①; 基于Ceph對(duì)象存儲(chǔ)集群的負(fù)載均衡設(shè)計(jì)與實(shí)現(xiàn)①; WIFI鏡頭機(jī)無線圖像采集系統(tǒng)①

基于稀疏字典的聽覺顯著性計(jì)算①

1 聽覺顯著性計(jì)算模型

2 仿真實(shí)驗(yàn)及結(jié)果分析

3 結(jié)論

1　聽覺顯著性計(jì)算模型

2　仿真實(shí)驗(yàn)及結(jié)果分析

3　結(jié)論