白海莉
摘 要:聲紋鑒定運(yùn)用語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)等知識(shí),對(duì)涉案語(yǔ)音和樣本語(yǔ)音進(jìn)行聽(tīng)覺(jué)辨識(shí),同時(shí)運(yùn)用頻譜圖進(jìn)行綜合分析,判斷二者是否由同一音源發(fā)出,或者判斷聲音性質(zhì)。聲紋鑒定結(jié)果可以為偵查和訴訟活動(dòng)提供線(xiàn)索或證據(jù)。深度學(xué)習(xí)可以促進(jìn)情感語(yǔ)音合成技術(shù)的發(fā)展,而情感語(yǔ)音合成技術(shù)的發(fā)展水平越高,合成語(yǔ)音與人聲的差異就越小,聲紋鑒定的難度就越大。文章旨在研究深度學(xué)習(xí)以及情感語(yǔ)音合成技術(shù)發(fā)展的發(fā)展?fàn)顩r,以此分析其可能對(duì)聲紋鑒定準(zhǔn)確性產(chǎn)生影響的因素。
關(guān)鍵詞:語(yǔ)音;聲紋鑒定;深度學(xué)習(xí);語(yǔ)音合成;情感語(yǔ)音合成
中圖分類(lèi)號(hào):TN912.33 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):2095-2945(2018)36-0024-02
Abstract: Voiceprint identification uses the knowledge of linguistics and computer science to identify the involved speech and the sample speech. At the same time, it uses the spectral analysis to determine whether the two are generated by the same sound source, or the nature of the voice. The results of voiceprint identification can provide clues or evidence for investigation and litigation activities. Deep learning can promote the development of emotional speech synthesis technology, and the higher the development level of emotional speech synthesis technology, the smaller the difference between synthetic speech and human voice, and the more difficult it is to identify voiceprint. The purpose of this paper is to study the development of deep learning and emotional speech synthesis technology, and to analyze the factors that may affect the accuracy of voiceprint identification.
Keywords: speech; voiceprint identification; deep learning; speech synthesis; emotional speech synthesis
1 聲紋鑒定依據(jù)及科學(xué)性
語(yǔ)音屬于聲音,具有音高、音強(qiáng)、音色和音長(zhǎng)基本特征,也可用頻率、波長(zhǎng)等物理參量表述。人類(lèi)辨識(shí)語(yǔ)音目的:識(shí)別說(shuō)話(huà)內(nèi)容;判斷說(shuō)話(huà)人。聲紋即語(yǔ)音頻譜圖,在法庭科學(xué)領(lǐng)域稱(chēng)為聲紋。聲紋鑒定依據(jù)的重要原理是語(yǔ)音同一認(rèn)定,主要依據(jù)語(yǔ)音反映性、個(gè)人語(yǔ)音特征穩(wěn)定性、個(gè)人語(yǔ)音特征總體差異性。人體發(fā)音器官構(gòu)造差異和發(fā)音習(xí)慣形成過(guò)程中生理、心理差異決定語(yǔ)音特殊性;個(gè)人發(fā)音器官解剖結(jié)構(gòu)相對(duì)固定和發(fā)音習(xí)慣的動(dòng)力定型,決定了同一個(gè)人發(fā)出聲音的聲紋圖譜本質(zhì)上一致。但這項(xiàng)鑒定目前主要依賴(lài)鑒定人個(gè)人能力,這決定了鑒定不可避免地含有鑒定人主觀(guān)因素。目前語(yǔ)音同一認(rèn)定主要方法是語(yǔ)音學(xué)分析法。它是綜合運(yùn)用嗓音音質(zhì)、口頭言語(yǔ)和頻譜等特征分析語(yǔ)音是否同一的鑒定方法。以特征音節(jié)頻譜特征為主、聽(tīng)覺(jué)特征為輔的比對(duì)方法是語(yǔ)音鑒定最有效方法。
2 深度學(xué)習(xí)對(duì)語(yǔ)音領(lǐng)域的影響
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究領(lǐng)域中一個(gè)分支,本質(zhì)是訓(xùn)練深層結(jié)構(gòu)模型的方法,可理解為人工神經(jīng)網(wǎng)絡(luò)的發(fā)展。深度學(xué)習(xí)已在語(yǔ)音識(shí)別領(lǐng)域大量使用,聲紋識(shí)別技術(shù)應(yīng)用需要解決特征提取和模式識(shí)別兩個(gè)技術(shù)。深度結(jié)構(gòu)能夠處理人類(lèi)語(yǔ)音、自然聲音等,能夠分析識(shí)別提取數(shù)據(jù)特征,進(jìn)而泛化學(xué)習(xí)。用深度學(xué)習(xí)算法理解人類(lèi)情感思維難度巨大,要實(shí)現(xiàn)此技術(shù),首要的是建立破譯人類(lèi)感情的算法模型,然后建立能理解多維度情感的算法。對(duì)深度學(xué)習(xí)的研究和發(fā)展對(duì)于語(yǔ)音合成,特別是情感語(yǔ)音合成是非常好的契機(jī)。
3 語(yǔ)音合成技術(shù)與情感語(yǔ)音合成技術(shù)
3.1 語(yǔ)音合成技術(shù)
語(yǔ)音合成和語(yǔ)音識(shí)別是語(yǔ)音技術(shù)的兩個(gè)分支。語(yǔ)音合成技術(shù)就是將文字信息轉(zhuǎn)化對(duì)應(yīng)的語(yǔ)的音片段并合成為標(biāo)準(zhǔn)流暢的語(yǔ)音朗讀出來(lái),語(yǔ)音合成研究的目的是制造會(huì)說(shuō)話(huà)的機(jī)器。基于計(jì)算機(jī)和合成方法側(cè)重點(diǎn)不同,主流的分類(lèi)是將語(yǔ)音合成方法按照設(shè)計(jì)的主要思想分為規(guī)則驅(qū)動(dòng)(rule-based)方法和數(shù)據(jù)驅(qū)動(dòng)(data-based)方法。規(guī)則驅(qū)動(dòng)方法有共振峰合成以及發(fā)音過(guò)程合成兩種方法,而數(shù)據(jù)驅(qū)動(dòng)方法有波形拼接合成,基于隱馬爾可夫模型合成以及深度神經(jīng)網(wǎng)絡(luò)合成方法。發(fā)音過(guò)程模擬合成是直接模擬人的發(fā)音這一物理過(guò)程。
3.2 情感語(yǔ)音合成技術(shù)
當(dāng)合成的語(yǔ)音自然度、靈活度等基本滿(mǎn)足人們要求時(shí),需考慮的是改變基頻建模,使之能夠調(diào)整基頻來(lái)合成情感語(yǔ)音。賦予合成語(yǔ)音情感,讓合成語(yǔ)音表現(xiàn)出個(gè)性生理、心理等特點(diǎn),是語(yǔ)音合成領(lǐng)域一個(gè)難題。但已有學(xué)者提出建立多視角情感描述模型,描述認(rèn)知、心理、生理等影響因素之間的關(guān)聯(lián)性,并通過(guò)語(yǔ)音頻譜特征表現(xiàn)出來(lái)。基于文本的情感分析屬于情感語(yǔ)音合成系統(tǒng)語(yǔ)言模型的一部分。
據(jù)報(bào)道,加拿大一公司已經(jīng)發(fā)布了人工智能(AI)語(yǔ)音系統(tǒng),該系統(tǒng)比對(duì)分析文本和語(yǔ)音之間的關(guān)系并在很短的時(shí)間內(nèi)模仿語(yǔ)音。該系統(tǒng)在錄入時(shí)使用仿人腦思維模型,分析個(gè)體發(fā)音特點(diǎn),并可以深度學(xué)習(xí)個(gè)體語(yǔ)音情感及認(rèn)知,進(jìn)而輸出語(yǔ)音。盡管該系統(tǒng)合成語(yǔ)音和人的語(yǔ)音還有一定的差異,但是人工智能發(fā)展讓減弱甚至背景噪音和機(jī)器發(fā)音特點(diǎn)成為可能,計(jì)算機(jī)精確模擬人類(lèi)發(fā)音器官發(fā)出聲音指日可待。
4 結(jié)束語(yǔ)
聲紋鑒定所采用的技術(shù)決定了這種鑒定不可避免地含有鑒定人主觀(guān)因素,對(duì)于一些介于本質(zhì)差異與非本質(zhì)差異的臨界差異,不同人看法不同。而個(gè)性化發(fā)音、情感語(yǔ)音正是鑒定中的難點(diǎn)。深度學(xué)習(xí)可以促進(jìn)情感語(yǔ)音合成技術(shù)的發(fā)展,而情感語(yǔ)音合成技術(shù)的發(fā)展水平越高,合成語(yǔ)音與人聲差異就越小,聲紋鑒定的難度就越大。對(duì)于從事鑒定工作的人員而言,關(guān)注科技發(fā)展可能對(duì)鑒定工作產(chǎn)生的影響對(duì)提升個(gè)人鑒定技能同樣重要。
參考文獻(xiàn):
[1]徐立根.物證技術(shù)學(xué)(第四版)[M].北京:中國(guó)人民大學(xué)出版社,2011:267-284.
[2]王英利,李敬陽(yáng),曹洪林.聲紋鑒定技術(shù)綜述[J].警察技術(shù),2012(4):54-56.
[3]王英利.關(guān)于聲紋鑒定技術(shù)的若干問(wèn)題[A].第九屆中國(guó)語(yǔ)音學(xué)學(xué)術(shù)會(huì)議論文集[C].2010.
[4]侯一民,周慧瓊,王政一.深度學(xué)習(xí)在語(yǔ)音識(shí)別中的研究進(jìn)展綜述[J].計(jì)算機(jī)應(yīng)用研究,2017(8):2242-2246.
[5]郭麗麗,丁世飛.深度學(xué)習(xí)研究進(jìn)展[J].計(jì)算機(jī)科學(xué),2015(5):28-33.
[6]張斌,全昌勤,任福繼.語(yǔ)音合成方法和發(fā)展綜述[J].小型微型計(jì)算機(jī)系統(tǒng),2016(1):186-192.
[7]井曉陽(yáng),羅飛,王亞棋.漢語(yǔ)語(yǔ)音合成技術(shù)綜述[J].計(jì)算機(jī)科學(xué),2012(11A):386-390.
[8]高瑩瑩,朱維彬.面向情感語(yǔ)音合成的言語(yǔ)情感描述與預(yù)測(cè)[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2017(2):202-207.
[9]韓超.語(yǔ)音合成技術(shù)的功能設(shè)計(jì)和實(shí)現(xiàn)[J].科技創(chuàng)新與生產(chǎn)力,2016(12):84-87.
[10]張建明,詹智財(cái),成科揚(yáng),等.深度學(xué)習(xí)的研究與發(fā)展[J].江蘇大學(xué)學(xué)報(bào)(自然科學(xué)版),2015(2):191-200.
[11]聶翠蓉.“傾聽(tīng)”1分鐘,就能開(kāi)口模仿人類(lèi)“講話(huà)”新款人工智能語(yǔ)音系統(tǒng)高效復(fù)制人聲[N].科技日?qǐng)?bào),2017-5-4(001).