999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種新穎的混合語音檢索算法

2008-01-01 00:00:00王讓定袁旭海
計算機應用研究 2008年5期

摘要:提出了一種新穎的混合語音檢索算法。利用ICA的盲分離特性,將包含兩個人聲音的混合語音分離成只含一個人的單一語音,以分離出來的單一語音為新樣本建立新的語音庫,并與基于混合語音的語音庫建立鏈接關系。查詢時,利用DTW技術進行匹配檢索,實現了基于混合語音的檢索功能。實驗表明該方法能夠在混合語音中查詢到用戶所要求的記錄。

關鍵詞:混合語音; 語音檢索; 獨立分量分析; Mel頻率倒譜系數; 動態(tài)時間歸整

中圖分類號:TP301文獻標志碼:A

文章編號:1001-3695(2008)05-1349-03

常規(guī)的信息檢索(IR)研究主要是基于文本,如人們已經非常熟悉的諸如Yahoo和Google等搜索引擎[1,2]。基于文本的信息檢索技術經過多年的發(fā)展已成為較成熟的技術,將傳統(tǒng)文本檢索技術應用于多媒體信息的檢索當中,利用多媒體的外部特征在一定程度上可以滿足用戶的檢索要求[3~5]。但基于多媒體外部特征的檢索方法很難揭示多媒體信息的內在內容,并不能表達多媒體之間的語義關系。基于文本描述的方法雖然可以利用文字對多媒體信息的內容進行描述,但由于圖像和音頻具有豐富的內涵,并且每一種媒體數據還有些內容難以用字符來描述,如圖像的紋理、視頻中的運動、聲音中的音調等。另外,多媒體形式的多元化和特征的多維性,使不同的人因個人的知識、理解不同有所差異。在對多媒體數據進行索引時,往往帶有很大的人為主觀性,在許多情況下僅有幾個關鍵詞難以充分描述多媒體的特征。這樣就使得人們在對多媒體檢索的實際應用中,不僅要求檢索系統(tǒng)能對圖像、視頻和音頻等媒體進行基于關鍵字的檢索,還需要對媒體進行語義內容的分析和理解,以達到更深層次的檢索,滿足用戶檢索的需求。隨著多媒體信息技術和互聯網的迅速發(fā)展,基于內容的多媒體信息檢索技術已越來越受到人們的關注。音頻作為多媒體信息的一種,其檢索技術也必將成為今后研究的一個重點課題之一。

音頻的種類包含音樂、語音、噪聲,因此音頻檢索相應地可分為三種類型。由于數字語音信號處理的特殊性,語音檢索的相關研究成果相對較少。所謂混合語音,就是語音記錄中包含兩個或兩個以上說話人的聲音。目前,一般的語音檢索算法所涉及的語音記錄僅僅包含單一說話人的聲音。當語音為混合語音時,系統(tǒng)檢索效率很低,甚至無法完成檢索。這是因為無論是語音庫中的還是待檢索的語音,所提取的各種語音特征均為語音記錄中所有人特征的混合,與各自本身的特征存在很大的差異,按照混合語音的特征進行檢索,必會使檢索發(fā)生錯誤。在實際的環(huán)境情況下,要求做到采集純凈的單一說話人聲音是很困難的,要么夾雜著噪聲,要么有其他人說話的干擾。這也是限制語音檢索沒有得到進一步發(fā)展,并應用到實際中的一個重要原因[6]。本文算法包含兩個部分:檢索數據庫生成和查詢。數據庫生成階段,將采集到的混合語音信號利用ICA技術進行分離,得到單一語音信號;然后將單一語音信號分離,提取MFCC特征參數,建立特征庫。數據庫查詢階段,對樣本語音信號,即待檢索語音同樣提取MFCC特征參數,利用DTW算法實現檢索匹配,最終輸出查詢結果,返回給用戶,如圖1所示。

1混合語音的分離

盲源分離的幾種主要ICA算法包括:最大似然估計、最小互信息、最大負熵、信息最大化等。目前應用最為廣泛的實現ICA算法——FastICA算法,就是基于最大負熵理論實現的。

待檢索語音和語音庫中的所有語音實現匹配檢索后,均會得到一個累計匹配距離。根據累計匹配距離的不同,輸出查詢結果,最終返回給用戶。本文算法的實現過程用圖4概括。

4仿真實驗

為了衡量算法的性能,引入文本檢索中查全率、查準率和響應時間作為評價指標,各指標分別定義如下:

查全率=[檢出相關語音記錄/語音庫內相關語音記錄總量]×100%

查準率=[檢出相關語音記錄/檢出語音記錄總量]×100%

響應時間=[語音庫中語音總數×一條語音的參數個數]

為了驗證本文算法的可行性,設計仿真實驗,步驟如下:

a)隨機選擇5位志愿者作為實驗對象,兩兩組合,用兩個麥克風同時采集兩個說話人的聲音,得到實驗所需的混合語音。這樣總共可以得到20條混合語音。

b)對5個實驗對象單獨采集一條語音記錄作為待檢索語音用于查詢,最終輸出系統(tǒng)認為最匹配的8條混合語音記錄。

實驗中設置語音信號經過分幀處理后的總幀數為100幀。每幀提取12階的MFCC系數,因此,語音特征庫可以用一個20×100×12的三維向量表示。由于采集的語音信號時間長度為2 s左右,由此可知:每一幀的時間長度約為20 ms。實驗結果如表1所示。

依實驗結果:五次查詢中,有四次的查全率和查準率做到了100%;惟一一次出現錯誤的情況,查全率和查準率也達到了75%。

對于傳統(tǒng)的語音檢索算法,在查詢階段,大多采用各種距離函數用于匹配檢索。為更加客觀地評價本文算法的各項性能指標,利用ICA技術實現混合語音的分離,提取MFCC參數之后,以最簡單的幾何距離函數代替DTW算法用于特征向量的比較,實現匹配檢索。實驗結果如表2所示。

比較上述兩種算法的實驗結果:本文算法在冗余記錄的減少、查全率和查準率的提高方面取得了很大的改進,但在響應時間上,本文算法劣于傳統(tǒng)的語音檢索算法。可見,冗余記錄的減少、查全率和查準率的提高是以犧牲響應時間作為代價的。但是,隨著計算機硬件技術的發(fā)展,計算機的處理能力得到了很大的提高,響應時間的增加已不是語音檢索所追求的最主要目標,完全可以由計算機本身處理能力的提高加以彌補。

5結束語

本文提出了一種新穎的混合語音檢索算法,實現了在混合語音中查詢特定人語音記錄的功能,但算法還可以從以下方面進行改進:a)由于匹配過程中限定了彎折的斜率,許多格點實際上是到達不了的,相關格點對應幀的匹配計算是不需要的;b)沒有必要保存所有的幀匹配距離矩陣和累積距離矩陣,因為每一列各格點上的匹配計算只用到了前一列的三個網格。另外,現有很多的語音盲分離(BBS)算法對于實際的語音信號分離效果不是很好,尤其是在環(huán)境空間比較大、回響時間比較長的情況,即存在一定數目的時延信號下,其分離效能就非常有限了。這說明環(huán)境的回響時間與算法的分離性能有著密切的關系。

目前,語音盲分離算法的研究多數還是針對有限條件的情況下進行的,如在無噪聲環(huán)境中,說話人的位置固定,麥克風的間距不是很大,說話人與各個麥克風之間的距離不是等距的,環(huán)境空間不能很大,且環(huán)境中沒有大于實際說話人聲音的揚聲器存在,這些都是對分離算法的一些人為假設。混合語音檢索技術要想真正實際應用,還有很長的一段路要走。

參考文獻:

[1]李國輝, 李恒峰. 基于內容的音頻檢索:概念和方法[J]. 計算機工程, 2000,21(11):1173-1177.

[2]朱愛紅, 李連. 基于內容的音頻檢索綜述[J].微機發(fā)展, 2003,13(12):58-61.

[3]FOOTE J.An overview of audio information retrieval[J].Multimedia Systems, 1999,7(11):2-10.

[4]LU Guo-jun. Indexing and retrieval of audio: a survey[J]. Multimedia Tools and Applications, 2001,15(10):269-290.

[5]LIE Wen-nong, SU Chen-kang. Content-based retrieval of mp3 songs based on query by singing[C]//Proc of IEEE International Con-ference on Acoustics,Speech and Signal Processing.2004:1073-1076.

[6]BYRD D, CRAWFORD T. Problems of music information retrieval in the real world[J]. Information Processing and Management, 2002,38(11):249-272.

[7]HYVARINEN A, OIA E. Independent component analysis: algorithms and applications[J]. Neural Networks, 2000,13(4-5):411-430.

[8]FENG Ya-zhong, ZHUANG Yue-ting, PAN Yun-h(huán)e. Popular song retrieval based singing matching[C]//Proc of IEEEPacific Rim Conference on Multimedia. 2002:639-646.

[9]LI Ying, HOU Yi-bin. Search audio date with the wavelet pyramidal algorithm[J]. Information Processing Letters, 2004,13(11):49-55.

[10]LI G, KHOKHAR A. Content-based indexing and retrieval of audio data using wavelets[C]//Proc of IEEE International Conference on Multimedia and Expo. 2000:885-888.

[11]LIU Jing-wei, CHENG Qian-sheng, ZHENG Zhong-guo, et al. A DTW-based probability model for speaker feature analysis and data mining[J]. Pattern Recognition Letters, 2002,23(11):1271-1276.

“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”

主站蜘蛛池模板: 六月婷婷精品视频在线观看| 国产亚卅精品无码| 国产精品污污在线观看网站| 国产白浆视频| 国产精品亚洲欧美日韩久久| 欧美一道本| 亚洲va在线∨a天堂va欧美va| 欧美日本视频在线观看| 亚洲欧美日韩另类在线一| 中文字幕日韩视频欧美一区| 亚洲高清在线天堂精品| 国产高清毛片| 亚洲手机在线| 欧美一级专区免费大片| 国产网友愉拍精品视频| 日本在线欧美在线| 欧美一区日韩一区中文字幕页| 欧美午夜精品| 极品私人尤物在线精品首页 | 久久精品国产在热久久2019| 免费jizz在线播放| 亚洲男人的天堂在线| 啪啪永久免费av| 中文字幕在线日韩91| 免费人成网站在线观看欧美| 91精品啪在线观看国产60岁| 亚洲欧美精品一中文字幕| 国产swag在线观看| 国产欧美在线观看一区| 国产网友愉拍精品| 久久久久无码国产精品不卡| 欧美三级视频网站| 久久鸭综合久久国产| 亚洲天堂日韩在线| 9丨情侣偷在线精品国产| 国产在线自乱拍播放| 无码区日韩专区免费系列| 国产情精品嫩草影院88av| 久久网欧美| 国产欧美高清| 8090午夜无码专区| 毛片网站在线看| 亚洲色图狠狠干| 欧美成人亚洲综合精品欧美激情| 国产色婷婷| 福利姬国产精品一区在线| 国产成人乱无码视频| 成人字幕网视频在线观看| 天天综合天天综合| 欧美另类图片视频无弹跳第一页| 国产精品va免费视频| 国产丝袜丝视频在线观看| 九色综合视频网| 欧美日韩91| 国产视频自拍一区| 欧美日本中文| 92午夜福利影院一区二区三区| 久久成人国产精品免费软件 | 波多野结衣无码中文字幕在线观看一区二区 | 国产精品一区不卡| 亚洲欧美精品日韩欧美| 久久国产精品国产自线拍| 亚洲国产欧美国产综合久久| 国产综合在线观看视频| 国产在线观看第二页| 日本午夜精品一本在线观看| 香蕉网久久| 免费av一区二区三区在线| 欧美国产在线看| 欧洲日本亚洲中文字幕| 国产成人精品一区二区三区| 国产亚洲精品97AA片在线播放| 91亚洲精品第一| 欧美日韩激情在线| 天天躁夜夜躁狠狠躁图片| 久久免费成人| 国产精品手机在线播放| 亚洲av成人无码网站在线观看| 亚洲精品片911| 97青青青国产在线播放| www中文字幕在线观看| 日韩成人免费网站|