(杭州電子科技大學,浙江 杭州310018)
基于CNN的連續語音說話人聲紋識別
吳震東,潘樹誠,章堅武
(杭州電子科技大學,浙江 杭州310018)
近年來,隨著社會生活水平的不斷提高,人們對機器智能人聲識別的要求越來越高。高斯混合—隱馬爾可夫模型(Gaussian of mixture-hidden Markov model,GMM-HMM)是說話人識別研究領域中最重要的模型。由于該模型對大語音數據的建模能力不是很好,對噪聲的頑健性也比較差,模型的發展遇到了瓶頸。為了解決該問題,研究者開始關注深度學習技術。引入了CNN深度學習模型研究連續語音說話人識別問題,并提出了CNN連續說話人識別(continuous speaker recognition of convolutional neural network,CSR-CNN)算法。模型提取固定長度、符合語序的語音片段,形成時間線上的有序語譜圖,通過CNN提取特征序列,經過獎懲函數對特征序列組合進行連續測量。實驗結果表明,CSR-CNN算法在連續—片段說話人識別領域取得了比GMM-HMM更好的識別效果。
連續語音;語譜圖;GMM-HMM;深度學習
隨著移動互聯網、物聯網等技術的高速發展,實現人與電子產品之間的自由交互越來越受到人們的重視。聲紋識別技術在實現這一目標中扮演著非常重要的角色。語音識別技術正在走向實用。蘋果公司于2011年收購了Siri公司,并在 iPhone 4上應用了語音識別功能,但當時識別體驗不理想。2013-2015年,蘋果公司相繼收購了擁有識別整個短語的語音識別技術的Novauris公司和英國語音技術初創公司VocalIQ。與此同時,谷歌在2011年收購了語音通信公司 Say Now和語音合成公司 Phonetic Arts,2015年入資中國以導航為主的問問公司,并推出帶有語音識別技術的智能手表。Amazon在2011-2013年,相繼收購語音識別領域的Yap語音識別公司、Evi語音技術公司和Ivona Software語音技術公司。Facebook于2013年后,相繼收購了Mobile Technologics和Wit.ai語音識別公司,實現了用戶可以通過語音來控制應用程序、穿戴設備和控制機器人等功能。微軟的Cortanna和微軟小冰在記錄用戶使用習慣和智能對話等功能,使人們生活更加智能化。國內百度語音、科大訊飛等科技公司在語音識別領域也在進行大量的應用基礎及應用性研究。
與語音識別技術發展階段相似,聲紋識別技術也在走向實用。現有技術在長文本、低噪聲聲紋識別時,已達到較高識別率。但是在片段語音環境下,常用的線性預測頻率倒譜系數(linear prediction cepstrum coefficient)和 Mel頻率倒譜系數(mel frequency cepstrum coefficient)等聲學特征,識別率明顯下降。在模式識別方面,靜態說話人模型包括:高斯混合模型[1](Gaussian mixture model)、高混合通用背景模型 (Gaussian mixture model-universal background model)和支持向量機[2](support vector machine,SVM)。這些靜態模型在用特征描述目標說話人的時候有很好的效果。一般來說,傳統的重要模型包括Douglas Reynolds提出的UBM-MAP-GMM模型、Patrick Kenny提出的 Joint Factor Analysis[3-6]和NajimDehak提出的 i-vector[7,8]。在一定程度上,可以把現有短語音聲紋識別模型視為不充分的聲學特征,該模型尚不能很完美地描述說話人聲紋特點。
2006年,深層結構模型在識別領域開始發光發熱,可以說是語音、圖像識別領域突破性發展的重要一年。2006年之前,研究者們通過各種方式來搭建深層的架構來實現語音和圖像的識別,但是都得不到好的結果。因為訓練一個有深度的前饋神經網絡,用淺層的學習方法往往得不到理想的效果。當層數越深時,深層網絡的梯度就會變得很不穩定,這使得深層次的梯度對之前層的關聯度幾乎喪失,從而導致模型訓練效果急劇惡化。就在這一年,Hinton等人[9]首次提出了非監督貪心逐層訓練算法生成的模型——深度置信網絡[10](deep belief network,DBN),每一層都用訓練數據來初始化深度神經網絡,優化了深度網絡結構,一定程度上解決BP算法[11]帶來的局部最優解問題。卷積神經網絡[12](convolutional neural network,CNN)被提出并大量應用于圖像特征挖掘。
2009年以來,深度學習方法逐漸被引入聲紋識別領域,用以對語音的深層特征加以挖掘,構建更充分的聲紋識別模型,如遞歸神經網絡[13](recurrent neural network,RNN)以及RNN的各種變型(LSTM模型)[14]。RNN模型的網絡結構可以表達前后信息相關的時序效果,所以在語音識別方面有很大的優勢。但目前而言,RNN及LSTM模型均未達到超越GMM模型的聲紋識別能力。
本文將目前更為成熟的深度神經網絡CNN模型引入聲紋識別,構建連續—片段語音,基于有序語譜圖的CNN聲紋識別系統取得了比GMM模型更好的聲紋識別能力。
聲紋識別是生物特征識別[15]中的一種,也被稱作說話人識別,可分為說話人辨別和說話人確認兩類。前者是在很多說話人的情況下判斷是其中哪個說話人所說的,是“多對一”的過程;后者是判斷為某個說話人說所的。根據不同的任務需求和應用場景,選取不同的聲紋識別技術,如在支付交易或者遠程登錄的時候需要確認技術,而在縮小目標范圍的時候則需要辨別技術。
傳統的聲紋識別模型一般都是在隱馬爾可夫模型(hidden Markov model,HMM)[16]的基礎上建立的,而HMM是一種基于統計的特征識別方法。換句話說,是根據聲學模型和語言模型,通過最大后驗概率來識別。現階段基于深度學習的語音識別,模型通過對大量數據的訓練,自動地學習數據中的特征。表現一個人聲學層面的特征有好多種,包括解剖學聲學特征(倒頻譜、共振峰等)、語法特征、韻律特征、通道信息、語種、語調和習語等[17]。 傳統的聲紋識別方法需要研究者對這些聲學特征進行人工分類。而在深度學習中,研究者不用知道聲學特征的相關信息,機器會自動地學習數據中的聲紋特征信息。顯著提高了研究者的研究效率,并且經過對大量數據的學習,機器能夠學到更加完備的特征,效果比人工分類更好。
2.1 聲紋識別系統
一個完整的說話人識別系統由聲學特征提取、統計模型和分值計算組成,如圖1所示。系統訓練的過程是從原始的波形信號中提取語音的聲學特征,如詞、音節、音素及聲韻母等,并經過訓練得到一個聲學模型,這個模型作為識別語音聲學特征基元的模板,模型結合研究者通過對人類聲學特征研究得到的語言模型,經過解碼器的處理輸出相應的識別結果。

圖1 說話人識別系統結構
現有的語音識別模型運用效果最好的為高斯混合模型(GMM),其基本過程為提取語音MFCC特征序列,運用統計模型對輸出序列進行概率評分,依據評分結果進行識別判斷。具體過程如下。
2.2 特征提取
MFCC的整個提取過程如圖2所示。其中,幀周期持續10~25 ms,在這期間,聲音被認為是靜止的。幀周期取20 ms的時候,移碼一般取10 ms。
預修正的部分是高通濾波器。數學表達式如下:

其中,a是預修正系數,一般取0.95~0.97。頻率彎折能夠讓聲音有更好的表現特性,比如在聲頻壓縮方面。
漢明窗口能夠平滑幀信號的邊緣:

在音頻處理中,Mel頻率倒譜系數[18]表示聲音短期的功率譜。將功率譜取對數帶入Mel頻率倒譜系數中:

Mel頻率倒譜系數從音頻片段的倒譜表示中派生而來,Mel倒譜系數和倒譜系數的區別在于,Mel頻率倒譜的頻帶劃分在Mel刻度上是等距的,這比一般的對數倒譜更加符合人類的聽覺系統。音頻的響應函數如下:

其中,M是三角濾波器的總數,m的取值范圍是0≤m<N。f(m)是Mel帶通濾波器組的第m個濾波器,其數學表達式如下:

其中,N是FFT的長度。fh和fl分別是濾波器的最大頻率和最小頻率。是的反函數,反函數的作用是把Mel頻率轉換到Hz頻率。數學表達式如下:

2.3 統計模型
GMM和UBM的訓練過程如圖3所示。

圖2 MFCC提取過程

圖3 GMM和UBM的訓練過程
給出一連串的特征向量 X={x1,…,xt,…,xm}和說話人模型的依賴參數λ={ωi,μi,Σi},這些參數各自的迭代公式如下:

其中,第i次的后驗概率為:

經分值估算,達到某概率閾值之上,判定輸入語音為說話者語音。概念估算計算式如下:

語音方面的深度學習模型一般都是RNN模型及它的變形LSTM模型。因為RNN模型引入了定向循環,能夠處理輸入之間前后關聯的問題。這種識別技術一般應用在機器翻譯、圖像描述生成等領域。在說話人識別領域,RNN模型的識別效果并不是很理想。卷積神經網絡在很多識別問題上已經有了很好的識別效果,比如手寫字體的識別、人臉識別、交通標志分類、行人檢測、圖像標注和行為檢測[19-24]。因為 CNN模型在圖像領域的優越表現,本文想通過圖像的方法來達到連續—片段語音說話人識別的目的。本文結合CNN模型和聲紋的頻譜圖特征,在說話人識別領域提出連續—片段語音說話人識別(continuous speech recognition of convolutionalneuralnetwork,CSR-CNN)算法。
3.1 算法結構
CSR-CNN由CSR和CNN兩個模型構成。CSR是連續—片段說話人識別模型,CNN為特征提取模型,其結構如圖4所示。

圖4 CSR-CNN模型結構
系統先將時域上的說話人語音信息轉換為語譜圖(語音在時域上的表示是沒有任何聲學特征的),然后用訓練數據訓練一個CNN模型,并用測試數據檢測模型正確率。訓練好這個模型,將待檢測人的語譜圖分片傳入該模型,并提取它輸出特征向量。通過特征向量和標簽特征向量得到一個lost方程,如果lost方程計算評分大于給定的一個閾值,那么給出一個懲罰函數值,反之給出一個獎勵函數值。這兩個函數最終決定著說話人識別函數的結果。當說話人識別函數達到某個閾值時,就判定身份驗證成功,反之驗證失敗。
3.2 CNN模型
卷積神經網絡可分為輸入層、卷積層、池化層和輸出層,如圖5所示,其中卷積層和池化層是卷積神經網絡特有的。多個卷積核濾波器對原始輸入圖像卷積來提取多個抽象特征(線條、邊緣等),池化層對卷積層進行池化處理,使提取的特征更加緊湊并減少神經元個數。使用多個卷積層和池化層的組合可以提取更加具像的特征(眼睛、鼻子等)。最后,通過softmax分類器和全連接層輸出結果。卷積神經網絡有 3個主要的特征:局部感知域、權值共享和池化層。

圖5 CNN模型結構
3.2.1 局部感知域
卷積神經網絡中,本文把很小的鄰近區域作為輸入,如圖 6所示,5 dpi×5 dpi的卷積核窗口和輸入圖像做卷積,得到下一層圖像的一個像素點。其中被卷積部分就是局部感知域,每一個局部感知域在下一隱層中都有一個神經元與之對應。

圖6 局部感知區域示意
3.2.2 權值共享
如圖 7所示,每個卷積核都帶有一組自己的權值和bais值并會自左向右、自上向下依次和輸入圖像做卷積。這就說明該卷積核特征映射圖的每一個神經元都在檢測同一特征,只是這些特征位于圖片的不同地方,這使得識別目標在不斷移動時也能被識別。

圖7 卷基層特征圖提取示意
圖7舉例了3個特征映射圖,每一張特征映射圖都是通過一個權值共享的卷積核和輸入圖像卷積所得到。
每個卷積核只能提取一種特征,訓練中需要初始化多個卷積核。就計算量而言,以取20個特征為例,其需要520個參數,和全連接神經網絡23 550個參數相比,大大降低了計算量。
系統搭建了一個有L個卷積隱層的CNN。其中X= (x0,x1,…,xN)是輸入向量,H=(h0,h1,…,hL)是中間層的輸出向量,Y=(y0,y1,…,yM)是模型的實際輸出,D=(d0,d1,…,dM)是目標輸出,Vij是前一層輸出單元 i到隱層單元 j的權重,Wjk是隱層單元j到前一層輸出單元k的權重。另外,θk和j分別前一層輸出單元和隱層單元的閾值。
輸入數據和特征提取窗口做卷積,并通過一個激活函數(ReLU)得到下一層的特征圖。卷積表達式如下:

得到的特征圖作為下一個池化層的輸入,進行降維處理。降維處理對系統有3個作用:讓特征更加緊湊,特出顯著特征;減少系統的訓練參數,n尺寸的池化層可以減少n2倍的參數;增加系統的頑健性。
池化層的數學表達式如下:

其中,f(*)是激活函數,系統中使用的激活函數是ReLU,其數學表達式如下:

經過多個卷積層和池化層后,提取到的特征經過最后一個全連接層得到一組特征向量,并通過分類器實現最后的分類。
3.3 CSR模型
引入CSR模型的目的是實現在連續語音的情況下,能夠不間斷地確定目標說話人的身份。CSR模型結構如圖8所示。

圖8 CSR模型結構
CSR模型中,設置一個獎懲函數,數學表達式如下:

其中,lostn是第n個待檢測語音數據在通過CNN模型訓練后得到的歸一化特征向量和目標特征向量的誤差函數,b是根據模型識別率給定的誤差閾值。
由式(16)可以看出,當lostn的值低于給定閾值的時候,給予說話人識別函數一個獎勵函數,反之給予一個懲罰函數。
系統識別函數的數學表達式如下:

其中,φn是判斷第 n時刻的系統狀態,f(lostn)是第n時刻的獎懲函數。
設定說話人識別函數 φn取值區間為[c,d],即當說話人識別函數達到最大值或者最小值時,它的值就不會改變,并且給出一個識別閾值w。
當φn>w時,則表示目標說話人身份鑒定成功;當p<w時,則表示目標說話人身份鑒定失敗。當語音數據源源不斷輸入,該模型可以不間斷地確認說話人的身份。從φn值的設定可以看出,當識別率P值處在峰值時,即使因為周圍語音環境發生短暫性的變化以及可能的誤判,也可以持續地確認說話人身份。
CSR模型對單獨的CNN模型的識別率有很高的提升。CSR-CNN模型的識別率數學表達式如下:

其中,Pn是識別函數在識別閾值上側的最小值出現的概率,Pm是識別函數在識別閾值下側的最大值出現的概率,α(a)是錯誤接受率,β(a)是錯誤拒絕率。在一般的模型中,Pn、Pm、α(a)和β(a)的取值一般為百分之幾,所以識別率P接近于1。所以CSR-CNN模型在連續—片段說話人識別領域有很好的識別效果。
本文實驗中所使用的數據庫包含目標說話人在實驗室環境下隨機朗讀200個短語(每個短語持續1~2 s)以及目標說話人40 s的長語句和攻擊者15 s的長語句,咬字清晰,使用手持麥克風錄制語音。
本文首先要對原始的語音信號進行預處理。將時域上的語音信號進行頻域上的轉換,生成 200個頻譜圖,并調整為258 dpi×258 dpi的大小,作為模型的輸入。將預處理后的頻譜圖作為輸入傳入CSR-CNN模型中,實驗中設置的迭代步數為5 000步,在5 000步時,lost方程趨于平穩,模型趨于最優,最終lost的值為0.03。當步長在0.02時,本實驗的CNN模型的識別率比較高,最終識別率為96%。訓練完CNN模型,將連續說話人識別模型和CNN模型集合進行識別。將目標說話人和攻擊者的長語句,進行1~2 s的切片,分別得到30個和15個短語塊,并進行頻域的轉換。將這35個短語塊按圖9和圖10的序列,分別組成語音序列1和語音序列2。
提取每個短語塊的輸出特征向量,結合目標特征向量得到每個短語塊歸一化處理的lostn值。將 lostn的值輸入CSR模型,CSR模型通過對lostn的判斷來決定輸出一個獎勵函數還是懲罰函數,并輸入最后的系統判決函數。
運行自己搭建的CNN實驗模型,對準備數據庫的說話人識別率為92%,達到了一個較高的識別率水平。再結合CSR模型,對準備的長語句數據進行識別,說話人函數的輸出函數如圖11所示。
圖11中,當說話人函數的數值在虛線標識區域的上方時,即函數值大于2.5的時候,系統就認為目標說話人被識別,反之則為識別失敗。通過對表2和實驗結果圖11的對比可以發現,表1和表2中都有15個攻擊者說話人語音片段,而實驗結果的圖11中語音序列1和語音序列2分別有17次和16次的函數下降過程。這說明實驗中語音序列1和語音序列2分別有17次和16次的識別結果為非目標說話人,即其中分別有2個說話人語音片段和1個說話人語音片段被誤判為攻擊者語音。經過數據比較,本文發現在語音序列1中,第38和39個目標說話人語音片段經過CNN模型被誤判為攻擊者語音;在語音序列2中,第9個目標說話人語音片段經過CNN模型被誤判為攻擊者語音。但是將CNN結果輸入CSR模型后,這個誤判沒有影響系統的整體的結果。該系統對CNN模型的誤判率有一定的容錯率,這提高了單CNN模型的識別率。

圖9 檢測語音1的語音片段序列

圖10 檢測語音2的語音片段序列

圖11 語音序列1和語音序列2的系統輸出函數
本文主要介紹了聲紋識別的發展進程和目前應用比較廣泛的幾個深度學習模型,并闡述了這幾個模型在語音識別領域中的應用和發展現狀。最后通過結合語譜圖、CNN模型,在連續聲紋識別中提出了CSR-CNN算法。
語音作為人機交互的一個關鍵接口,在人工智能方面有非常廣泛的實際應用前景。這幾年的研究表明,深度學習技術在聲紋識別領域能夠明顯提高聲紋識別系統的準確率。
雖然深度學習技術在語音領域取得了很大的成果,但是為了能夠實現更加高效的人際關系,還有很多技術難點要克服。比如:很深層訓練網絡的梯度精確度問題、在實際應用中的噪聲頑健性問題等。其中,噪聲頑健性問題是現在語音識別中非常熱門的話題。現階段實際應用中,帶噪聲的語音識別率一般都不是很高。未來對于語音識別系統的研究方向應該更加傾向于仿人腦聽覺系統,隨著生物解剖學的發展,使模型不斷接近人腦的語音識別特性,將在這一領域持續研究。
[1]SU D,WU X,XU L.GMM-HMM acoustic model training by a two level procedure with Gaussian components determined by automatic model selection[C]//2010 IEEE International Conference on Acoustics Speech and Signal Processing,March 14-19,2010, Dallas,TX,USA.New Jersey:IEEE Press,2010:4890-4893.
[2]JOACHIMS T.Making large-scale SVM learning practical[J]. Technical Reports,1998,8(3):499-526.
[3]REYNOLDS D A,QUATIERI T F,DUNN R B.Speaker verification using adapted gaussian mixture models[J].Digital Signal Processing,2000,10(1-3):19-41.
[4]HEBERT M.Text-dependent speaker recognition[M].Heidelberg: Springer,2008:743-762.
[5]VOGT R J,LUSTI C J,SRIDHARAN S.Factor analysis modeling for speaker verification with short utterances[J]. Journal of Substance Abuse Treatment,2008,10(1):11-16.
[6]VOGT R,BAKER B,SRIDHARAN S.Factor analysis subspace estimation for speaker verification with short utterances[C]// INTERSPEECH 2008,Conference of the International Speech Communication Association,Sept6-10,2008,Brisbane,Australia. [S.l.:s.n.],2008:853-856.
[7]KANAGASUNDARAM A,VOGT R,DEAN D,et al.i-Vector based speaker recognition on shortutterances[C]//INTERSPEECH 2011(DBLP),August 27-31.2011,Florence,Italy.[S.l.:s.n.], 2011.
[8]LARCHER A,BOUSQUET P,KONG A L,et al.i-Vectors in the context of phonetically-constrained short utterances for speaker verification[C]//ICASSP,March 25-30,2012,Kyoto, Japan.New Jersey:IEEE Press,2012:4773-4776.
[9]HINTONGE,SALAKHUTDINOVRR.Reducing the dimensionality of data with neural networks[J].Science,2006,313(5786): 504-507.
[10]ZOU M,CONZEN S D.A new dynamic Bayesian network(DBN) approach for identifying gene regulatory networks from time course microarray data[J].Bioinformatics,2005,21(1):71-79.
[11]RUMELHART D E,MCCLELLAND J L.Parallel distributed processing[M]//Cambridge:The MIT Press,1986:45-76.
[12]ZORRIASSATINE F,TANNOCK J D T.A review of neural networks for statistical process control[J].Journal of Intelligent Manufacturing,1998,9(3):209-224.
[13]CHEN S H,HWANG S H,WANG Y R.An RNN-based prosodic information synthesizer for Mandarin text-to-speech[J]. IEEE Transactions on Speech&Audio Processing,1998,6(3): 226-239.
[14]TAN T,QIAN Y,YU D,et al.Speaker-aware training of LSTM-RNNS for acoustic modeling [C]// 2016 IEEE International Conference on Acoustics,Speech and Signal Processing,March 20-25,2016,Shanghai,China.New Jersey: IEEE Press,2016:5280-5284.
[15]GALES M J F.Maximum likelihood linear transformations for HMM-based speech recognition [J].Computer Speech & Language,1998,12(2):75-98.
[16]RAMASWAMY G N,GOPALAKRISHAN P S.Compression of acoustic features for speech recognition in network environments [C]//1999 IEEE International Conference on Acoustics,Speech and Signal Processing,May 15,1998,Seattle,WA,USA.New Jersey:IEEE Press,1998:977-980.
[17]PAN J,LIU C,WANG Z,et al.Investigation of deep neural networks (DNN)for large vocabulary continuous speech recognition:why DNN surpasses GMMS in acoustic modeling [C]//2012 International Symposium on Chinese Spoken Language Processing,Dec 5-8,2012,Kowloon Tong,China.New Jersey: IEEE Press,2012:301-305.
[18]HUANG Z,TANG J,XUE S,et al.Speaker adaptation of RNN-BLSTM for speech recognition based on speaker code[C]// IEEE International Conference on Acoustics,Speech and Signal Processing,March 20-25,2016,Shanghai,China.New Jersey: IEEE Press,2016:5305-5309.
[19]SAATCI E,TAVASANOGLU V.Multiscale handwritten character recognition using CNN image filters[C]//2002 International Joint Conference on Neural Networks,May 12-17,2002,Honolulu, HI,USA.New Jersey:IEEE Press,2002:2044-2048.
[20]LIU K,ZHANG M,PAN Z.Facial expression recognition with CNN ensemble [C]//International Conference on Cyberworlds, Sept 28-30,2016,Chongqing,China.New Jersey:IEEE Press, 2016:163-166.
[21]JURISIC F,FILKOVIC I,KALAFATIC Z.Multip le-dataset traffic sign classification with OneCNN[C]//Iapr Asian Conference on Pattern Recognition,Nov 3-6,2015,Kuala Lumpur,Malaysia. New Jersey:IEEE Press,2015:614-618.
[22]ZHANG L,LIN L,LIANG X,et al.Is faster R-CNN doing well for pedestrian detection?[M].Heidelberg:Springer-Verlag:443-457.
[23]ZHENG Y,LI Z,ZHANG C.A hybrid architecture based on CNN for image semantic annotation[M]//SHI Z Z,VADERA S, LI G.Intelligent Information Processing VIII,Heidelberg: Springer,2016:81-90.
[24]PARMAKSIZOGLU S,ALCI M.A novel cloning template designing method by using an artificial bee colony algorithm for edge detection of CNN based imaging sensors[J].Sensors,2011, 11(5):5337-5359.
Continuous speech speaker recognition based on CNN
WU Zhendong,PAN Shucheng,ZHANG Jianwu
Hangzhou Dianzi University,Hangzhou 310018,China
In the last few years,with the constant improvement of the social life level,the requirement for speech recognition is getting higher and higher.GMM-HMM(Gaussian mixture-hidden Markov model)have been the main method for speaker recognition.Because of the bad modeling capability of big data and the bad performance of robustness,the development of this model meets the bottleneck.In order to solve this question,researchers began to focus on deep learning technologies.CNN deep learning model for continuous speech speaker recognition was introduced and CSR-CNN model was put forward.The model extracts fixed-length and right-order phonetic fraction to form an ordered sound spectrograph.Then input the voiceprint extract from CNN model to a reward-penalty function to continuous measurement.Experimental results show that CSR-CNN model has very good recognition effectin continuous speech speaker recognition field.
continuous speech,sound spectrograph,GMM-HMM,deep learning
TP393
:A
10.11959/j.issn.1000-0801.2017046

吳震東(1976-),男,杭州電子科技大學網絡空間安全學院講師,主要研究方向為生物特征識別、生物密鑰、網絡安全、自然語言處理、人工智能等。

潘樹誠(1991-),男,杭州電子科技大學通信工程學院碩士生,主要研究方向為基于深度學習的聲紋、人臉識別研究等。

章堅武(1961-),男,杭州電子科技大學通信工程學院教授、博士生導師,主要研究方向為移動通信系統、多媒體通信技術、網絡安全等。
2017-01-22;
2017-02-13
浙江省自然科學基金資助項目(No.LY16F020016);國家重點研發計劃經費資助項目(No.2016YFB0800201);浙江省重點科技創新團隊項目(No.2013TD03)
Foundation Items:Zhejiang Natural Science Foundation of China(No.LY16F020016),National Key Research and Development Program of China (No.2016YFB0800201),Zhejiang Province Science and Technology Innovation Program(No.2013TD03)