999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于聲紋圖和網絡遷移的說話人識別

2021-07-20 08:14:54南兆營
網絡安全技術與應用 2021年6期
關鍵詞:特征模型

◆南兆營

(中國刑事警察學院 遼寧 110854)

1 引言

說話人識別又稱為聲紋識別,是一種將某個語音樣本與其他語音樣本相比較,從而判斷兩者是否來自同一人的技術,研究基礎是基于語音的個體差異性和短時不變性。說話人識別已經成為一種類似于指紋識別和人臉識別的新型身份認證方式[1],被廣泛應用于軍事、司法以及銀行、互聯網金融等領域[2]。隨著技術的不斷進步,說話人識別方法也從早期的聽覺檢驗、聲紋圖檢驗發展到現在的自動識別。自動說話人識別包括半自動說話人識別和全自動說話人識別,半自動說話人識別仍然需要人工提取語音特征,仍然依賴鑒定人的經驗。由于語音特征提取方法眾多,不同方法提取出的語音特征對識別效果的影響是不一致的。另外,語音特征建模難,語音的復雜性無法用一個簡單的模型來表達;噪音也是影響說話人識別的關鍵因素,電腦無法分辨哪些聲音是目標聲音,也無法像人耳一樣專注于目標聲音。

深度學習的發展,使上述問題逐步得到解決。有實驗表明,深度學習提取的語音特征分類效果要好于傳統的MFCC、PLP 等特征[3]。相對于傳統的說話人識別,基于深度學習的說話人識別具有以下優點:(1)深度學習強大的非線性表達和自動學習能力,使網絡對數據有更好的識別效果,解決了人為無法用數學表達式對語音精確建模的問題。張濤濤等人利用深度網絡的非線性特點提取語音特征,去除語音信號中信道和噪聲的干擾,系統錯誤率低于傳統的MFCC 特征[4]。(2)深度學習技術可以自動從數據中提取特征,彌補了傳統說話人識別中人為提取特征不全面、容易忽略細微特征的問題。(3)深度學習在學習訓練過程中將對識別有消極作用的特征賦予負梯度,逐漸弱化其對識別結果的影響,對噪聲有很強的抑制能力。(4)深度學習通過對大量數據的學習訓練,形成對數據強大的表達能力,這種表達能力可以將不完整的數據恢復成完整的數據。這種數據聯想能力,可以幫助人類解決很多復雜的難題。

卷積神經網絡是當前應用廣泛的一種深度學習模型,該模型模仿人類理解圖像的思維方式,通過卷積和池化計算提取圖像特征,在計算機視覺領域取得了非常好的成績,尤其擅長處理圖像分類問題。研究人員也將卷積神經網絡應用到自然語音處理中,提取語音的深層空間特征[5-6]。卷積神經網絡由多個卷積層和池化層組成,網絡層數越多,特征提取能力越強,但是隨著網絡層數的增加,神經元的個數也成倍增長。為了使網絡更好的表達數據,需要大量的數據來訓練網絡,但在現實情況中,經常很難找到大量的可訓練數據集,即便可以收集到足夠的數據,前期的數據處理也需要大量的人力和時間。

遷移學習是機器學習的一個分支,是一種借助于已訓練好的網絡,在其基礎之上完成新數據集訓練的方法。遷移學習早期主要解決的是圖像領域的問題,Bengio 等人發現經過對網絡的遷移可以提高圖像的識別效果,并且遷移學習縮小了源域和目標域中數據特征的差距,增強了網絡的泛化能力[7]。Mishkin 在文獻[8]中指出將預訓練的網絡參數遷移到新的任務中,訓練效果比隨機參數的初始化訓練效果要好的多。遷移學習利用先驗知識來實現對目標域數據的訓練,這種學習方式不但降低了對數據量的要求,還可以縮短網絡的訓練時間,同時也可提高模型的泛化能力。基于這種思想,本文提出了一種基于網絡遷移的說話人識別方法。

2 算法描述

說話人識別的任務是識別輸入語音片段屬于誰,也就是說系統的輸入是語音信號,輸出是該語音片段對應的標簽。基于網絡遷移的說話人識別架構圖如圖1所示。

圖1 基于網絡遷移的說話人識別架構圖

基于網絡遷移的說話人識別核心思想是先將說話人語音信號轉換成聲紋圖,然后將源域聲紋圖輸入訓練模型,模型訓練至一定輪數時保存預訓練模型,將預訓練模型參數遷移到目標域,最終實現對目標域數據的分類。從圖1 可以看出,說話人遷移模型有兩個關鍵模塊,分別是聲紋圖生成模塊和參數遷移模塊。

(1)聲紋圖生成模塊,首先對語音信號進行預處理,包括預加重、分幀、加窗,再將處理的語音信號轉換成隨時間變化的二維圖像。

(2)參數遷移模塊,由于目標域的數據量較小,無法很好地訓練神經網絡,源域比目標域數據量要大得多,首先使用目標域數據訓練網絡的特征提取能力,再將預訓練模型的參數遷移到目標域。卷積神經網絡的卷積和池化是提取圖像特征的過程,參數遷移通過固定某些卷積層的學習率使其不參與到目標域數據的訓練,只讓一部分卷積層參與訓練。這種遷移方式不但可以降低對目標域數據的要求,還可以提高網絡的泛化能力,加快模型的收斂速度,縮短模型的訓練時間。

3 模型搭建

卷積神經網絡是一種仿生的網絡結構,由多層卷積層、下采樣層以及全連接層構成,具有很強的非線性表達能力,可以通過觀測數據使計算機進行自我學習。AlexNet 是典型的卷積神經網絡結構,曾在2012年圖像識別比賽中獲得冠軍[9],本文參考AlexNet 網絡結構,針對說話人識別任務做出修改,使其可以更好為說話人識別服務。網絡各層參數設置如表1所示:

表1 網絡參數設置

其中第一層(卷積層)輸入為圖像的像素參數,聲紋圖格式為RGB,實驗中目標域共有50 人的語音樣本,故最后一層的輸出向量設置為50。

4 模型訓練方法

基于遷移學習的說話人識別訓練過程主要包括以下四個步驟:

(1)模型預訓練

模型預訓練是使用源域數據作為輸入的訓練模型,經過多次迭代訓練模型,達到一定識別能力時停止訓練,將模型各層權值參數保存用于遷移。本文使用的源域數據集包括ImageNet 數據集和自建庫數據集,科研工作人員做了大量基于ImageNet 數據集的訓練工作,我們可以在互聯網上直接找到基于ImageNet 數據集的AlexNet 模型參數。

(2)模型遷移

模型遷移過程是將預訓練模型應用于目標域,在預訓練的基礎上繼續對目標域數據進行訓練,遷移模型時需要根據目標域數據類別對模型最后的全連接層進行修改,使模型可以適用于目標域。這個過程不需要對卷積層和池化層的參數進行修改,直接將其復用即可。

(3)模型參數調整

源域數據與目標域數據在圖像的類型和圖像質量上都存在一定的差異,如果直接遷移網絡參數進行目標域訓練,會導致網絡的泛化能力和識別效果較差,需要根據目標域類別數調節Softmax 的神經元個數,使其保持一致性。

研究表明,卷積神經網絡的前幾層提取的是圖像邊角或顏色等一般特征,隨著層數的加深,網絡提取特征的能力增強。由于源域的數據量足夠大,可以充分訓練網絡提取一般特征的能力,如果在目標域訓練中繼續對這些卷積層訓練,會導致網絡出現過擬合現象,所以我們在遷移過程中不需要再對這些卷積層進行訓練。通過控制卷積層的學習率,在目標域訓練中使這些不需要改變的層權值參數不參與到訓練中。本文只研究三層之后各層對識別效果的影響,通過凍結部分層的訓練方式,對比模型不同層的特征提取能力。

(4)模型預測

將測試集數據作為輸入,模型對數據進行特征提取,最后經Softmax 層對數據進行分類預測,得到分類結果。模型訓練過程如圖2所示,對應的識別算法如表2所示。

表2 基于網絡遷移的說話人識別算法

圖2 模型訓練示意圖

5 實驗與結果分析

5.1 數據集

實驗室錄制的自建庫,包含250 位說話人,每位說話人語音時長在2-3 分鐘,采樣率為8000HZ,采用中文普通話的方式閱讀固定文本,參與者的年齡在18-25 歲。從語音庫中選擇200 人作為源域數據集,50 人作為目標域數據集,并且每個數據集按照4:1 的比例分成訓練集和測試集。

實驗首先將所有語音轉換成聲紋圖,每1.5s 生成一張聲紋圖,不足1.5s 的語音片段以留白的形式處理。對語音進行預處理,幀長設置為512,幀移為60,窗型為Hanning 窗。因為人類語音主要的頻帶范圍在500-3000HZ,所以選取0-4000HZ 范圍內的語音信號,最后生成的聲紋圖大小為256dpi*256dpi。

5.2 實驗結果分析

實驗在 Windows10 系統上搭建了 Tensorflow 環境,基于Python3.5 語言開發,顯卡為GeForce GTXl060Ti,內存為16GB。

在卷積神經網絡初始化中,如果將權值w 初始化為0 或其他常數,會導致網絡在更新參數時各層出現等比例變化,這種情況不利于網絡訓練,并且權值初始化過大可能導致網絡出現梯度爆炸,過小也可導致網絡出現梯度消失,無論是梯度爆炸還是梯度消失都不是我們想要的。本文將權值w 初始化以均值為0,方差為0.01 的正態分布,偏置b 初始化為0,Batch size 設置為100,將網絡的最后一層的輸出設置為50,Dropout 層的比率設置為0.2。

由于ImageNet 數據集圖像與聲紋圖無關,為了檢驗源域與目標域相關性對網絡遷移的影響,本文分別使用ImageNet 數據集和自建庫進行遷移實驗。

實驗首先載入ImageNet 數據訓練好的AlexNet 模型,選取不同層進行遷移,實驗結果如圖3所示。從實驗結果可知,凍結fc1-3 的識別效果最差,凍結fc1-4 的識別效果相對較好,但是凍結fc1-5 時識別效果又顯著下降。有一種可能的解釋:卷積神經網絡的各層之間存在復雜的關系,前幾層卷積層提取的特征是圖像的淺層特征,這些淺層特征不含或者只含有少量與圖像種類相關的信息,通過遷移學習可以繼承預訓練模型的特征提取能力,隨著卷積和池化的次數增加,網絡逐漸提取圖像的深層特征,這些深層特征與圖像的類別相關,直接遷移導致網絡的識別能力下降,所以遷移學習只適合遷移淺層特征。

圖3 遷移ImageNet 數據集識別率變化曲線

利用搭建的AlexNet 模型對自建庫的源域數據進行訓練并保存訓練模型,訓練結果如圖4所示。模型迭代5000 次時,訓練集準確率為79.5%,驗證集準確率為80.6%。載入預訓練模型并微調模型參數對目標域數據進行遷移學習,其識別結果如圖5所示。

圖4 自建庫源域數據訓練變化曲線

圖5 遷移自建庫數據集識別率變化曲線

從圖5 可以看出,三種凍結卷積層的遷移方式首次識別率在20%以上,在迭代50 次左右時凍結fc1-4 識別率達到60%以上,其余兩種識別率在50%左右。從源域預訓練曲線中可以看出,網絡的首次識別率不到10%,在迭代1000 次時識別率在40%左右,可知遷移學習提高了網絡的識別率,加快了網絡的收斂速度。與跨域遷移相比,自建庫三種凍結卷積層的識別效果與跨域遷移相似,但是總體識別率要高于遷移ImageNet 數據集。由此可知,遷移學習可以提高網絡的識別能力,且同域遷移要比跨域遷移的效果好,不同遷移方式結果對比如表2所示。

表2 不同遷移方式結果對比

通過實驗結果我們可以看出,使用源域數據訓練模型,將預訓練模型參數遷移到目標域的方法是可行的。源域和目標域的相關性對遷移學習有一定的影響,同域遷移比跨域遷移的效果要好。無論是同域遷移還是跨域遷移都要注意凍結層對遷移的影響,遷移淺層特征可以提高網絡的識別能力,加快訓練速度,深層特征屬于數據集特有的屬性,不適用于不同數據集的遷移。

6 總結與展望

本文提出了一種基于聲紋圖和網絡遷移的說話人識別方法,傳統的說話人識別都是以語音信息或者語音特征作為輸入,由于聲紋圖可以反映出說話人的語音特征,以識別聲紋圖的方式從另外的角度來實現說話人識別,可以成為一種新的研究方向。

伴隨著科學技術的發展,說話人識別技術不斷提高,遷移學習在圖像識別、自然語音處理等領域取得了顯著的成效,但是如何利用已有的網絡以及參數實現目標域的任務,并且在提高識別率的基礎上進一步提高識別效率,這些工作依然有待繼續研究。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 午夜国产大片免费观看| 欧美翘臀一区二区三区| 老司机精品99在线播放| 99久久精品国产麻豆婷婷| 精品人妻一区二区三区蜜桃AⅤ| 欧美日韩午夜视频在线观看| 成年看免费观看视频拍拍| 2021亚洲精品不卡a| AV色爱天堂网| 美女高潮全身流白浆福利区| 小说区 亚洲 自拍 另类| 香蕉综合在线视频91| 红杏AV在线无码| 婷婷色一二三区波多野衣| 在线a网站| 精品精品国产高清A毛片| 国产情侣一区二区三区| 四虎在线观看视频高清无码| 91精品专区| 熟妇丰满人妻| 国产剧情无码视频在线观看| 精品视频在线一区| 亚洲性一区| 高清色本在线www| 亚洲AⅤ无码国产精品| 国产精品成| 自拍偷拍欧美日韩| 色综合日本| 精品国产黑色丝袜高跟鞋| 中国丰满人妻无码束缚啪啪| 色爽网免费视频| 热99re99首页精品亚洲五月天| 亚洲三级a| 国产欧美一区二区三区视频在线观看| 国产亚洲欧美在线中文bt天堂 | 无码国产偷倩在线播放老年人| 91久久精品国产| 亚洲第一成人在线| 国产成人综合日韩精品无码首页| 老司机精品99在线播放| 欧美亚洲国产一区| 亚洲第一视频网| 日韩无码视频专区| 99久久无色码中文字幕| 精品欧美日韩国产日漫一区不卡| 国产电话自拍伊人| 伊人天堂网| 亚洲永久视频| 99久久人妻精品免费二区| 91国内在线观看| 免费国产好深啊好涨好硬视频| 亚洲精品福利视频| 国产无遮挡猛进猛出免费软件| 国产h视频在线观看视频| 幺女国产一级毛片| 欧美色图久久| 欧美一区二区三区国产精品| 国产美女无遮挡免费视频| 久久精品国产91久久综合麻豆自制| 国产乱人乱偷精品视频a人人澡 | 久久精品免费看一| 久久精品国产在热久久2019| 波多野结衣在线se| 成人午夜精品一级毛片| 午夜电影在线观看国产1区| 亚洲码在线中文在线观看| 91久久天天躁狠狠躁夜夜| 国产三级毛片| 亚洲AV电影不卡在线观看| 日韩成人在线一区二区| 国内熟女少妇一线天| 2020极品精品国产| 99久久精品免费看国产免费软件| 国产在线一区二区视频| 日本一本正道综合久久dvd| 色婷婷狠狠干| 玖玖免费视频在线观看| 四虎AV麻豆| 國產尤物AV尤物在線觀看| 青青草a国产免费观看| 被公侵犯人妻少妇一区二区三区| 欧美色视频日本|