999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向音頻檢索的音頻分割和標注研究

2017-03-09 16:56:45孫衛國夏秀渝喬立能葉于林
網絡安全與數據管理 2017年5期
關鍵詞:實驗

孫衛國,夏秀渝,喬立能,葉于林

(1.四川大學 電子信息學院,四川 成都 610064;2.中國人民解放軍78438部隊,四川 成都 610066)

面向音頻檢索的音頻分割和標注研究

孫衛國1,夏秀渝1,喬立能1,葉于林2

(1.四川大學 電子信息學院,四川 成都 610064;2.中國人民解放軍78438部隊,四川 成都 610066)

解決大規模音頻數據庫快速檢索的有效手段之一是建立合適的音頻索引,其中音頻分割和標注是建立音頻索引的基礎。文中采用了一種基于短時能量和改進度量距離的兩步音頻分割算法,使得分割后的音頻片段具有段間特征差異大、段內特征方差小的特點。在音頻分割的基礎上進行了音頻數據庫中音頻流的標注;分別基于BP神經網絡算法和Philips音頻指紋算法對音頻進行了音頻類別和音頻內容的標注,為后續建立音頻索引表做準備。實驗結果表明,兩步分割算法能較好地分割任意音頻流,音頻標注算法能有效進行基于音頻類別和音頻內容的標注,算法同時具有良好的魯棒性。

音頻分割;短時能量;度量距離;音頻標注;BP神經網絡;音頻指紋

0 引言

隨著信息技術的高速發展,多媒體信息呈爆炸式增長,人們開始步入大數據時代,對音頻檢索的要求也在不斷增長[1]。如何從海量信息中快速、準確地檢索到最渴望的音頻信號成為了當前研究的一大熱點[2]。現有檢索方法大都采用遍歷的方式,通過計算、比較查詢音頻和待檢音頻之間的距離來達到檢索目的,此類方法需要龐大的計算量,檢索的效率較低。對于大規模音頻庫的快速檢索問題,建立索引是解決該問題的有效手段。張雪源等提出利用倒排索引對音頻進行檢索[3],在很大程度上減少了檢索中的計算量。

在文本檢索中,分詞是基礎的歩驟,與之類似,音頻的分割和標注也是音頻檢索中的基礎步驟。音頻分割是指把連續的音頻流分割成一系列相對獨立并具有穩定特征的音頻片段。目前音頻分割算法主要有基于距離度量的算法、基于貝葉斯信息準則分割算法、基于模型的算法等[4]。本文采用一種分層次兩步分割算法,將音頻流分割為段間差異大、段內差異小的音頻單元。音頻標注可以理解為基于音頻內容為音頻段寫摘要,是為快速建立音頻索引表做準備的,以提高音頻檢索效率為根本目的。標注的核心是音頻識別,目前音頻識別的算法有動態時間規劃算法、隱馬爾可夫模算法、反向傳播算法[5-6]等。在音頻分割完成的基礎上,本文分別采用了反向傳播(BP神經網絡)算法[7-8]和經典的Philips音頻指紋算法[9-10]對音頻流進行標注。

1 音頻分割

音頻分割是指將連續的音頻流信號切分為一系列相對獨立和穩定的基本單元。分割的目的是使分割后的音頻片段具有段間距離大且段內方差小(或段間獨立而段內穩定)的特點。本文采用了一種分層分割算法以期達到兼顧運算速度和分割精度的要求。第一層,利用能量對音頻進行有聲、無聲音頻段分割;第二層,利用改進的度量距離對有聲段進行分割,從而將任意長度的連續音頻流準確而有效地分割為音頻特征數值波動較小的短時段落,即音頻段基元。

1.1 基于能量的音頻分割

Eth=β·Eoff+Emin=

(1)

β的取值由實驗確定,實驗結果顯示β取 0.1 時分割效果最好。當超過連續10幀的音頻短時幀能量小于能量門限則認為該音頻片段為靜音段,否則為有聲段。

1.2 基于改進度量距離的音頻分割

對有聲段進行進一步的分割,目標是將其分割成為段間差異大、段內差異小的短時段落,以利于后續基于音頻內容的索引建立。本文采用基于度量距離的分割算法。霍特林統計量[3](簡記為T2),常用于度量兩個具有未知但相同方差的正態分布均值是否相等的問題,其計算公式如下:

(2)

其中N為分析窗口的總長度,b為左側數據窗的長度,均以幀數為單位。μ1和μ2是左右兩個數據窗口的特征向量均值,∑為整個分析窗的協方差矩陣。T2值越小,表示左右兩段音頻越相似,反之,兩段音頻差異越大。式(2)主要反映了音頻段間均值的差異,沒有很好地反映段內方差的情況,所以本文提出一種綜合考慮音頻段間均值和段內方差的距離測度,簡記為DIS:

(3)

假設特征各維獨立,特征維數為D,協方差矩陣∑簡化為對角陣,則:

式(3)分子表示左右兩段音頻特征均值的差異,分母反映左右兩段音頻各自方差的平均值,當兩段音頻段間距離大、段內方差小時DIS可獲較大值。。

特征參數選用了24維Mel頻率倒譜系數,使用固定窗長的分窗方法計算相鄰音頻的度量距離,考慮到計算量,將左右兩邊的數據窗長取為等長,這樣處理之后的距離測度公式簡化為:

(4)

依次逐幀滑動,取出所得距離值曲線上的局部極大值點,并利用閾值判斷其是否為分割點。具體做法是:當DIS極大值點的值超過預設門限T-DIS時,判斷為分割點,否則暫時舍去;接著計算當前分割點和前一分割點之間音頻特征的方差,若小于預設門限T-VAR則確認該分割點,并繼續下一分割點判斷,否則取當前分割點和前一分割點之間的中間點為新的分割點,確保段落內方差滿足條件為止。用該方式繼續搜尋下一分割點,直至數據段的結束。

經過上述兩層分割,可以將任意長度的音頻流準確而有效地分割為音頻特征數值波動幅度較小的短時段落。由于第1層采用能量極小值點進行分割,第2 階段才依賴均值和方差的統計,因此,當音頻數據起點略有偏移時,最終分割偏差累積主要存在于音頻的起始和結尾部分,而對音頻中間主體部分的分割影響較小,因此該分割方法具有起點魯棒性。

2 音頻標注

音頻標注這里指給出一段音頻的特征編碼。本文音頻標注工作是為音頻檢索做準備,主要進行了基于BP神經網絡的音頻類別標注和基于音頻指紋的音頻內容標注。對音頻文件進行分段,以段而不是以音頻文件為單位建立索引,能有效地提高它們之間的區分度。本文音頻類別標注實驗中段長取為1 min,即將所有音頻文件都按1 min分成等時長的段,然后針對每段進行音頻標注。

2.1 基于BP神經網絡的音頻類別標注

音頻類別識別指通過對音頻信號進行分析,確定音頻的具體類別屬性(如人聲、樂器聲、自然聲還是噪聲等)。本文針對電臺廣播節目搜索問題,音頻類別暫時分為:男聲、女聲、樂聲、歌聲、球賽聲等。

音頻類別識別的算法有很多,如矢量量化(VQ)、隱馬爾科夫模型(HMM)、高斯混合模型(GMM)等[5]。本文采用BP(Back Propagation)神經網絡[7-8]實現音頻類別的識別。

BP網絡是目前應用最廣泛的神經網絡模型之一。它是一種多層前饋網絡,學習規則使用最速下降法,通過反向傳播算法調整網絡的權值和閾值。BP神經網絡模型分為兩個階段:一是模型訓練階段,將大量已做標注的音頻信號作為訓練樣本訓練網絡,首先進行音頻預處理提取訓練樣本的特征參數,每幀音頻提取24維MFCC參數,然后將這些特征參數作為輸入送入神經網絡,同時給出期望輸出,通過BP算法對神經網絡進行訓練,最終學習得到網絡的一組連接權值和閾值;二是模型識別階段,將待識別音頻信號進行同樣的預處理和特征參數提取,輸入到訓練好的網絡中,利用訓練好的連接權值和閾值計算網絡輸出,并與預先設置的閾值比較以確定音頻類別。對段長為1 min的音頻進行標注時,只需統計各類音頻出現幀數,記錄幀數超過預設閾值的音頻類別編號即完成此1 min的音頻標注。

2.2 基于Philips音頻指紋的音頻標注

為了進行基于內容的音頻檢索,本文還進行了基于音頻指紋[9]的音頻標注。

音頻指紋作為內容自動識別技術的核心算法,已廣泛應用于音樂識別、版權內容監播、內容庫去重等領域。本文采用Philips魯棒音頻指紋模型[10]。對段長為1 min的音頻進行標注時,進行了如下改進以壓縮數據和提高抗干擾性。首先每個音頻指紋不是針對音頻幀,而是針對分割好的音頻段基元進行的,因此可以用特征均值代替音頻片段以減少數據冗余。將每個段基元所有幀的子帶能量譜進行平均,然后提取音頻指紋。假定第n幀的第m子帶的能量為E(n,m),其對應的二進制指紋比特為F(n,m),為提高音頻指紋的抗噪能力,則音頻指紋的每個比特定義可改進為:

F(n,m)=

(5)

式(5)中門限T的取值以各段基元子帶能量均值為基準,并乘以一定比例系數動態選取。對段長為1 min的音頻進行標注時,記錄出現的段基元音頻指紋即可。

3 實驗分析

本文實驗所用數據采集于廣播電臺,包括新聞、音樂、廣播劇、廣告等,數據總時為20 h,均為單聲道,采樣率為 8 kHz。在數據預處理過程時將音頻均做幅度歸一化處理;在提取聲學特征參數時,幀長為 0.064 s,幀移為0.032 s。

3.1 音頻分割實驗

采用兩層音頻分割進行音頻分割,經過實驗,選取β=0.1時有最好的分割效果;在第二層的分割實驗中,T-DIS取DIS的均值,T-VAR=0.01,N=6時有最好的分割效果。實驗結果如圖1、2所示。

從圖1可以看出,音頻有聲段和無聲段被有效分割開。在圖2中,有聲段被進一步分割成聲學特征變化小的短時段落。

根據實際音頻庫的數據來源不同,對可能出現的音頻幅度和信噪比的變化等也進行了相關實驗和分析。因為在音頻預處理中對音頻進行了幅度歸一化處理,所以在此不考察信號幅度變化對音頻分割的影響,僅僅考察信噪比的影響。設x(t)為原始音頻,y(t)為信噪比改變后的音頻。對x(t)和y(t)分別進行分割,并以x(t)的分割點為基準,統計y(t)分割的準確率:

(6)

NX表示x(t)分割點的總數,NXY表示x(t)和y(t)分割點一致的數目(兩個分割點相距1幀,也認為一致)。從數據庫中隨機選取了10 min長的音頻,分別疊加不同信噪比的高斯白噪聲生成帶噪音頻數據,統計了不同信噪比下帶噪音頻與無噪音頻的分割準確率,實驗結果如表1所示。

實驗結果顯示,信噪比降低對音頻分割準確率有一定影響,但總體看該分割算法具有一定的抗噪性。

3.2 音頻標注實驗

3.2.1 音頻類別標注

BP神經網絡設置為3層,其中輸入層節點24個,對應24維MFCC參數;輸出節點10個,對應10個不同音頻類型并分別用數字依次標記;隱層節點設置為25個。本實驗訓練時參數設置為:反向傳播算法最大循環次數為3 000,學習系數為0.000 1,誤差閾值為0.000 01。模型識別實驗結果如表2所示。

表2是BP網絡訓練10類音頻的預測正確率,統計實驗結果顯示網絡的平均識別正確率達97%。音頻類別標注實驗中,每1 min音頻數據送入訓練好的神經網絡,在輸出端通過預測門限給出每幀的音頻類別編號,然后統計該段各編號出現次數并統計為直方圖。將大于200幀的編號都記錄下來,以此作為該段進行標注有效的音頻類別。圖3是在眾多切分成1 min的音頻片段中某一片段的統計直方圖。

從圖3可以看出,該時間段標記為1、3、7、9四類,表示這1 min的音頻片段里有此四類有效音頻。

3.2.2 音頻指紋標注

音頻指紋標注同樣針對1 min音頻段進行。將該段音頻中大于3幀的段基元各幀子帶能量譜進行平均,然后提取音頻指紋,記錄該段音頻中出現過的所有音頻指紋。圖4為某1 min音頻段共270個段基元生成的指紋圖。不難發現,以段基元產生的指紋比按幀產生的指紋數據量大大減少,這樣使后續建立音頻索引表進行音頻檢索更簡潔、高效。

4 結束語

本文以建立音頻檢索的索引表為目標,研究了音頻分割與標注問題。基于能量和度量距離將音頻流分割成有聲段和無聲段,有聲段進一步分割成一系列段間差異大,而段內差異小的段基元。然后將音頻流以段長1 min為單位標注,完成了基于BP神經網絡的音頻類別標注和基于音頻指紋的音頻內容標注。仿真實驗表明,文中音頻分割和標注算法是有效的,而且具有一定的魯棒性。這為后續建立合適的音頻索引打下了良好基礎,下一步將深入研究基于內容的音頻檢索。

[1] 劉巍.基于內容的同源音頻和視頻檢索[D].北京:北京郵電大學, 2011.

[2] 張衛強,劉加.網絡音頻數據庫檢索技術[J].通信學報, 2007,28(12):152-155.

[3] 張雪源,賀前華,李艷雄,等.一種基于倒排索引的音頻檢索方法[J].電子與信息學報,2012,34(11):2561-2567.

[4] 吳宇,錢旭,周劍鳴.基于相對熵和貝葉斯信息判據的在線分割算法[J].電聲技術,2013,37(3):49-53.

[5] 王歡.語音發現與跟蹤技術的研究及應用[D].北京:北京郵電大學,2014.

[6] 張衛清.語音識別算法的研究[D].南京:南京理工大學,2004.

[7] 陳仁林,郭中華,朱兆偉.基于BP神經網絡的說話人識別技術的實現[J].智能計算機與應用,2012,2(2):47-49.

[8] 楊景花,王雙喜,周思方,等.基于神經網絡的智能語音識別研究[J].微型機與應用,2016,35(17):52-54.

[9] 周亦敏,牟同鑫.采用復倒譜和子串匹配的音頻指紋算法研究[J].上海理工大學學報,2010,32(3):277-280.

[10] 魯明明,張暉,沈慶宏. 基于功率譜特征的音頻指紋實現[J].電子測量技術,2016,39(9):69-72.

Research on audio segmentation and annotation for audio retrieval

Sun Weiguo1,Xia Xiuyu1,Qiao Lineng1,Ye Yulin2

(1. College of Electronics and Information,Sichuan University,Chengdu 610064 ,China; 2. 78438 Troops of the Chinese People’s Liberation Army, Chengdu 610066, China)

One of the effective means to solve the large-scale audio database fast retrieval is to establish an appropriate audio index, in which the audio segmentation and labeling are the basis for establishing the audio index. In this paper, a two-step audio segmentation algorithm based on short-time energy and improved metric distance is proposed, which makes the segmented audio segment have the characteristics of big difference between segments and small characteristic variance. Based on the audio segmentation, the audio stream in the audio database is annotated. Based on the BP neural network algorithm and the Philips audio fingerprint algorithm, the audio category and audio content are labeled respectively, and the audio index table is established. The experimental results show that the two-step segmentation algorithm can segment arbitrary audio stream efficiently. The audio annotation algorithm can effectively annotate audio category and audio content. The algorithm has good robustness at the same time.

audio segmentation; short-term energy; measurement of the distance; audio annotation; BP neural network; audio fingerprint

TN912.3

A

10.19358/j.issn.1674- 7720.2017.05.013

孫衛國,夏秀渝,喬立能,等.面向音頻檢索的音頻分割和標注研究[J].微型機與應用,2017,36(5):38-41.

2016-12-07)

孫衛國(1986-),男,碩士研究生,主要研究方向:語音信號處理。

夏秀渝(1970-),女,博士,副教授,主要研究方向:語音分離、語音提取。

喬立能(1991-),男,碩士研究生,主要研究方向:語音信號處理。

猜你喜歡
實驗
我做了一項小實驗
記住“三個字”,寫好小實驗
我做了一項小實驗
我做了一項小實驗
記一次有趣的實驗
有趣的實驗
小主人報(2022年4期)2022-08-09 08:52:06
微型實驗里看“燃燒”
做個怪怪長實驗
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 亚洲天堂精品视频| 亚洲成人播放| 亚洲色图欧美激情| 日韩一级二级三级| 中文字幕人成人乱码亚洲电影| 好吊妞欧美视频免费| 国产黄在线免费观看| 欧美日本视频在线观看| 熟妇人妻无乱码中文字幕真矢织江 | 亚洲女同一区二区| 日韩在线1| 啦啦啦网站在线观看a毛片 | 看看一级毛片| 成人国产精品一级毛片天堂 | 一本久道久综合久久鬼色| 中文字幕伦视频| 免费 国产 无码久久久| www.youjizz.com久久| 日本a级免费| 一本大道东京热无码av | 特级精品毛片免费观看| 久久综合丝袜长腿丝袜| 国产精品久久久久久久久久久久| 亚洲欧美在线看片AI| 亚洲高清在线天堂精品| 一本无码在线观看| 无码有码中文字幕| 免费无码AV片在线观看国产| www.精品国产| 亚洲性日韩精品一区二区| 一级在线毛片| 欧洲av毛片| 91麻豆精品国产高清在线| 国产哺乳奶水91在线播放| WWW丫丫国产成人精品| 狼友视频国产精品首页| 69综合网| 国产白浆一区二区三区视频在线| 好吊色妇女免费视频免费| 在线观看国产精品一区| 久久久久人妻一区精品| 香蕉在线视频网站| 精品久久国产综合精麻豆| 亚洲天堂视频网站| 亚洲天堂精品在线| 波多野结衣国产精品| 黄色网址免费在线| 欧美性久久久久| 日韩精品一区二区三区免费在线观看| 婷婷久久综合九色综合88| 亚洲第一天堂无码专区| 精品無碼一區在線觀看 | 日本高清在线看免费观看| 欧美精品成人| 亚洲首页在线观看| 一本大道香蕉中文日本不卡高清二区| 免费在线a视频| www.91在线播放| 欧美午夜在线播放| 亚洲国产精品久久久久秋霞影院| 99久久精品视香蕉蕉| 色偷偷av男人的天堂不卡| 在线免费a视频| 播五月综合| 高潮爽到爆的喷水女主播视频| 播五月综合| 深夜福利视频一区二区| 午夜爽爽视频| 伊人久久婷婷五月综合97色| 久久伊人色| 亚洲欧洲自拍拍偷午夜色| 欧美日韩亚洲综合在线观看| 欧美人人干| 亚洲人成网站在线播放2019| 午夜日b视频| 国产第一页亚洲| 一级黄色欧美| 亚洲国产成人精品青青草原| 国产精品毛片一区| 午夜无码一区二区三区| 91精品免费久久久| 五月天福利视频|