999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

針對廣播電臺節(jié)目的智能SAD系統(tǒng)的研究與實現(xiàn)

2018-08-02 06:12:18孫競舟王永濱孫書韜
關鍵詞:分類特征信號

孫競舟,王永濱,孫書韜

(中國傳媒大學 廣播電視安全播出與信息安全研究所,北京100024)

1 引言

隨著時代的發(fā)展,廣播電臺有大量的未標記的節(jié)目音頻,目前都是使用人工拆條的方式對每一個小時的音頻進行拆分,然后進行人工標注,這種方式的準確率很高,但是過于費時費力,并且人工標注的費用很高,所以大部分的節(jié)目音頻還未進行標記,都是以日期+時間的文件名的形式存儲一個小時的音頻,對廣播電臺后期的查找與統(tǒng)計都造成了巨大的不便。

Speech Activity Detection(SAD)是語音識別系統(tǒng)中非常重要的預處理技術,旨在從混合有復雜背景噪聲的信號中,分離出語音信號和非語音信號[1]。

實驗研究表明,即使在沒有背景噪聲的純凈語音信號中,語音識別系統(tǒng)一半以上的錯誤均來自于語音端點檢測[2]。所以SAD對所有的語音處理都有重大的意義,它也是幾乎一切語音處理的基礎[3]。

目前,國內外的傳統(tǒng)SAD系統(tǒng)大部分只能進行端點檢測(只能區(qū)分有話段和噪聲靜音段),并不能進行層次化的分析,不能滿足廣播電臺的使用需求。所以亟待設計一套智能SAD系統(tǒng),以滿足電臺的需求。系統(tǒng)應不只能分離語音信號和非語音信號,還可將音頻信息分為男性聲音、女性聲音、現(xiàn)場報道(嘉賓采訪)、噪聲、音樂、靜音六種不同的類別。數(shù)據(jù)方面,本論文的數(shù)據(jù)均來源于大型廣播電臺的真實播出與留存的數(shù)據(jù)。

2 特征提取與選擇

2.1 特征提取

要對音頻信號進行分析,首先要對語音信號提取出可表示該語音本質的特征參數(shù)。有了特征參數(shù)才可能利用這些參數(shù)進行有效的處理。所選取的特征應該能夠充分表示音頻頻域和時域的重要分類特性,有助于對音頻內容的理解,對不同音頻類型具有魯棒性和適用性。

語音信號是一個非穩(wěn)態(tài)的、時變的信號。但語音是由聲門的激勵脈沖通過聲道形成的,而聲道,即人的口腔肌肉運動是緩慢的,所以在“短時間”范圍內可以認為語音信號是穩(wěn)態(tài)的,時不變的。這個短時間一般指10——30ms由于這個特性,故常把語音信號成為“準穩(wěn)態(tài)”的信號。這個“準穩(wěn)態(tài)”的特性貫穿于語音分析與處理的全過程中,構成了語音信號的“短時分析技術”。在短時分析中,將語音信號分為一段一段地來分析其特征參數(shù),其中每一段稱為一“幀”,幀長一般取10——30ms,本文取20ms?;谝纛l片段提取特征考慮的是任何音頻語義總是要持續(xù)一定長的時間,如新聞視頻片頭音樂和靜音區(qū)通常會持續(xù)幾秒,主持人播報新聞會持續(xù)更長的時間。如果在音頻語義持續(xù)時間內提取特征,會更好的反映音頻信號所蘊涵的語義,為此本文提出一種音頻幀和音頻片段結合的音頻特征分析與抽取方法。

在音頻特征提取方面,本文幀特征提取了包括短時能量、短時過零率、音量、基因頻率、mfcc、前三個共振峰、譜熵、頻譜質心、specBisectingFreq、localMaxInterval、子帶能量、子帶峰值,段特征選用了靜音比率、低短時能量比率、高過零率比率、基因頻率均值與方差、MFCC均值、前三個共振峰的均值與方差、譜熵均值與方差、頻譜質心均值與方差、specBisectingFreq 均值與方差、localMaxInterval 均值與方差、子帶能量分布、子帶峰值分布。

2.2 特征選擇

對于不同的分類類別,統(tǒng)一的音頻特征向量很難達到這一點,因此本文還提出一種ReliefF與SFS混合的特征選擇算法,該算法將ReliefF算法和SFS算法有效結合,既可以克服ReliefF算法容易去除一些權值較低但與其他特征組合在一起效果較好的特征,又可以克服SFS算法運算效率低的問題。并針對廣播音頻中的音頻分類,選出了相應的特征向量集。

3 整體架構

廣播音頻智能SAD系統(tǒng)是提取音頻中結構化信息和語義內容的重要手段,是音頻內容理解、分析與檢索的基礎。通過對大量廣播音頻數(shù)據(jù)的分析,本文提出了一種新的層次化的基于分類器的智能SAD系統(tǒng),能夠將廣播音頻內容分為男性聲音、女性聲音、現(xiàn)場報道、噪音、音樂、靜音六類,為基于內容的檢索提供依據(jù)。

如圖1所示為本文提出的智能SAD的系統(tǒng)流程圖。首先輸入的音頻流經(jīng)過預處理得到音頻幀信號,然后對音頻幀信號提取幀層次特征,并通過計算得到音頻片段特征,從而得到了完整的特征向量集,將其送入分類器進行訓練,分別得到五個分類器:有聲/靜音分類器、語音/非語音分類器、現(xiàn)場報道/純語音分類器、男性聲音/女性聲音分類器、音樂/噪聲分類器。最后,應用平滑準則,對經(jīng)過分類的片段序列進行分割處理,得到最后的包括男性聲音、女性聲音、現(xiàn)場報道、噪音、音樂、靜音的分類結果。

圖2為針對本文提出的問題的直接分類結構圖。

圖1 分類器結構1

圖2 分類器結構2

4 基于多種分類器的SAD系統(tǒng)的實現(xiàn)

4.1 數(shù)據(jù)準備

本實驗中的所有語音及音樂數(shù)據(jù)均來自中國國際廣播電臺以及北京人民廣播電臺的真實播出音頻,并由電臺專業(yè)人員進行標注。噪聲數(shù)據(jù)來源于NOISE92庫。

素材樣本分布如圖3所示:其中男聲:2456s,女聲:2469s,帶噪聲人聲:3559s,純音樂:3049s,噪聲:2817s。

圖3 素材樣本分布

4.2 預處理

由于項目是針對廣播而做,所以著重于對語音的分析,并且為了系統(tǒng)在速度上的保證,音頻采樣率從48000降到8k,并且雙聲道取均值,從s48格式轉換成wav格式進行分析。

預加重:

y(n)=x(n)-q*x(n-1)

(1)

其中,x(n)為原信號,y(n)為處理后的信號。參數(shù)取0.98.

分幀加窗,使用漢明窗:

(2)

幀長取20ms,也就一幀160采樣點,幀移10ms,也就是80采樣點,對于段(clip),取50幀一段,段移5幀。也就是說,一段510ms,為最基本的預測單元。

4.3 有聲/靜音分類器

對于分類器1,有聲/靜音的檢測可進行快速的檢測,項目中這里我們將靜音與噪聲區(qū)分開來,單獨區(qū)分靜音用單參數(shù)雙門限法加上平滑處理即可,單參數(shù)設為短時能量[5]。

首先分幀,設一共得到L幀,然后利用短時能量的單參數(shù)雙門限法分類,對短時能量上設有兩個閾值T1和T2,當短時能量高于該T2閾值時便肯定是有聲段,此時語音起始點應位于該閾值與短時能量包絡交點所對應的時間點之外[4]。再從短時能量在什么時候起低于T1來判決語音信號的端點。

分類結果為w(t)屬于{-1,+1},t = 1,2,…,L.由于語音信號的連續(xù)性,所以考慮在分類結果的基礎上進行平滑處理。

平滑處理使用的函數(shù)為:

(3)

其中N取50,與段的大小相同。

(4)

4.4 分類器2-5

對于其他分類器,我們使用SVM進行分類,SVM很好地解決了小樣本學習問題,具有很好的泛化能力。

圖4 SVM分類流程

在SVM分類器的設計中,我們按照上圖所示流程。特征提取與特征選擇前文介紹過,歸一化特征向量集避免了特征向量集中數(shù)值的大小影響各維特征對整個分類結果起的作用,同時減小了分類過程中計算的復雜性,因為核函數(shù)值的計算通常依賴于特征集中數(shù)值的大小和多少,大數(shù)值的特征集往往會造成計算上的困難[6]。核函數(shù)選擇模塊用來解決非線性分類問題,使用核函數(shù)將特征集轉換到更高維的特征空間[7]。本文使用 RBF核函數(shù)與多項式核函數(shù),RBF 核函數(shù)具有以下優(yōu)點:a.相對線性核函數(shù)而言,RBF 核函數(shù)可以將特征向量映射到更高維空間,有效解決分類類別與特征向量非線性的問題。b.與多項式核函數(shù)相比,RBF核函數(shù)具有較少的參數(shù),減少了模型參數(shù)選擇上的復雜性。c.與多項式核函數(shù)以及Sigmoid 核函數(shù)相比,RBF 核函數(shù)計算更為方便。因此,在本實驗中,初始選擇 RBF核函數(shù)[8]。

RBF核函數(shù):

(5)

通過多次實驗分析,RBF核函數(shù)并不能最優(yōu)地解決所有的問題,多項式核函數(shù)更靈活,通過調整coef參數(shù),擬合性更高,所以實驗中我們選擇了RBF與多項式核函數(shù)對比結合的方法。

多項式核函數(shù):

(6)

在訓練數(shù)據(jù)方面,二元SVM分類器的訓練數(shù)據(jù)最好做到兩邊的數(shù)量相似,所以對于少的一方要進行復制擴充。

5 實驗結果與分析

對于第一種結構的分類器,首先使用RBF核函數(shù)對所有的分類器進行分類,觀測結果。再使用RBF核函數(shù)使用第二種結構的分類器,觀測結果。所有的結果如下表格所示:

表1 觀測結果

由此可見,分類器3和5的結果的過擬合程度很低,對其使用多項式核函數(shù)進行分類,其中,分類器三的coef系數(shù)取3.0,分類器五的coef系數(shù)取2.8。分類器4呈現(xiàn)明顯的過擬合現(xiàn)象,對分類器4擴充訓練集,最終分類結果如下:

表2 分類結果

最終實驗結果的曲線如圖5所示:其中橫坐標1表示整體準確率,2表示男聲的正確率,3表示女聲的正確率,4表示現(xiàn)場報道的正確率,5表示純音樂的正確率,6表示噪聲的準確率。實線表示結構1純RBF結果,虛線表示結構2,實線加點線表示結構1使用RBF與多項式混合方式的結果。

圖5 實驗結果對比

由于本實驗的最終目的是將要搭建到實際環(huán)境中,那么就會有大量的音頻需要處理,速度也是影響最終選擇的主要因素,其中每預測100段音頻,結構1的時間為2.06s,結構2的時間為3.12s。

6 結論

最終本實驗使用了分類器結構1,由于它更加靈活、準確,核函數(shù)的選取方面也采用了更加靈活的RBF與多項式結合的方法,多項式的coef參數(shù)也是通過實驗選取最優(yōu)值,最終達到了理想的準確率。在速度上,結構1的速度也是超過結構2,所以,最終采用了RBF與多項式核函數(shù)結合的結構1方法。

猜你喜歡
分類特征信號
分類算一算
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
完形填空二則
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于FPGA的多功能信號發(fā)生器的設計
電子制作(2018年11期)2018-08-04 03:25:42
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
主站蜘蛛池模板: 久草网视频在线| 99精品视频九九精品| 她的性爱视频| 日本人妻丰满熟妇区| 在线观看国产网址你懂的| 国内精品久久久久久久久久影视| 亚洲男人在线| 久久综合伊人77777| 国产成人一区| 国产特级毛片| 亚洲精品自在线拍| 东京热高清无码精品| av天堂最新版在线| 亚洲—日韩aV在线| 国产91透明丝袜美腿在线| WWW丫丫国产成人精品| 国产浮力第一页永久地址| 看av免费毛片手机播放| 国产视频你懂得| 少妇精品网站| 高清免费毛片| 在线观看av永久| 国产视频欧美| 欧美日韩亚洲国产| 国产麻豆精品手机在线观看| 亚洲天堂免费观看| 久久国产精品国产自线拍| 亚洲首页国产精品丝袜| 午夜欧美在线| 久久a级片| 国产区91| 大陆国产精品视频| 欧美国产日产一区二区| 亚洲精品麻豆| 国产主播福利在线观看| 久久黄色一级片| 久久综合国产乱子免费| 超清人妻系列无码专区| 欧美成人a∨视频免费观看 | 国模视频一区二区| 中文字幕日韩视频欧美一区| 国产麻豆va精品视频| 国产高清色视频免费看的网址| 爆乳熟妇一区二区三区| 午夜免费小视频| 亚洲综合婷婷激情| 日韩精品成人在线| 久久久久夜色精品波多野结衣| 免费无码AV片在线观看国产| 国产对白刺激真实精品91| 亚洲AV无码不卡无码| 国产浮力第一页永久地址| 成人午夜网址| 欧美劲爆第一页| 欧美yw精品日本国产精品| 亚洲精品视频在线观看视频| 成人精品午夜福利在线播放| 中文字幕在线观| 中国国语毛片免费观看视频| 欧美啪啪网| 中文字幕免费播放| 激情爆乳一区二区| 无码国产偷倩在线播放老年人| 国产一区二区人大臿蕉香蕉| 国产伦精品一区二区三区视频优播 | 亚洲综合久久成人AV| 国产成人亚洲综合A∨在线播放 | 精品国产免费观看一区| 亚洲第一香蕉视频| 亚洲欧洲一区二区三区| A级毛片高清免费视频就| 天天干天天色综合网| 精品偷拍一区二区| 久久亚洲国产一区二区| 国产美女精品在线| 午夜福利网址| 视频二区亚洲精品| 在线观看亚洲精品福利片| 国产视频a| 久久久成年黄色视频| 爱做久久久久久| 99视频在线免费|