白海莉
摘 要:聲紋鑒定運用語言學、計算機科學等知識,對涉案語音和樣本語音進行聽覺辨識,同時運用頻譜圖進行綜合分析,判斷二者是否由同一音源發出,或者判斷聲音性質。聲紋鑒定結果可以為偵查和訴訟活動提供線索或證據。深度學習可以促進情感語音合成技術的發展,而情感語音合成技術的發展水平越高,合成語音與人聲的差異就越小,聲紋鑒定的難度就越大。文章旨在研究深度學習以及情感語音合成技術發展的發展狀況,以此分析其可能對聲紋鑒定準確性產生影響的因素。
關鍵詞:語音;聲紋鑒定;深度學習;語音合成;情感語音合成
中圖分類號:TN912.33 文獻標志碼:A 文章編號:2095-2945(2018)36-0024-02
Abstract: Voiceprint identification uses the knowledge of linguistics and computer science to identify the involved speech and the sample speech. At the same time, it uses the spectral analysis to determine whether the two are generated by the same sound source, or the nature of the voice. The results of voiceprint identification can provide clues or evidence for investigation and litigation activities. Deep learning can promote the development of emotional speech synthesis technology, and the higher the development level of emotional speech synthesis technology, the smaller the difference between synthetic speech and human voice, and the more difficult it is to identify voiceprint. The purpose of this paper is to study the development of deep learning and emotional speech synthesis technology, and to analyze the factors that may affect the accuracy of voiceprint identification.
Keywords: speech; voiceprint identification; deep learning; speech synthesis; emotional speech synthesis
1 聲紋鑒定依據及科學性
語音屬于聲音,具有音高、音強、音色和音長基本特征,也可用頻率、波長等物理參量表述。人類辨識語音目的:識別說話內容;判斷說話人。聲紋即語音頻譜圖,在法庭科學領域稱為聲紋。聲紋鑒定依據的重要原理是語音同一認定,主要依據語音反映性、個人語音特征穩定性、個人語音特征總體差異性。人體發音器官構造差異和發音習慣形成過程中生理、心理差異決定語音特殊性;個人發音器官解剖結構相對固定和發音習慣的動力定型,決定了同一個人發出聲音的聲紋圖譜本質上一致。但這項鑒定目前主要依賴鑒定人個人能力,這決定了鑒定不可避免地含有鑒定人主觀因素。目前語音同一認定主要方法是語音學分析法。它是綜合運用嗓音音質、口頭言語和頻譜等特征分析語音是否同一的鑒定方法。以特征音節頻譜特征為主、聽覺特征為輔的比對方法是語音鑒定最有效方法。
2 深度學習對語音領域的影響
深度學習是機器學習研究領域中一個分支,本質是訓練深層結構模型的方法,可理解為人工神經網絡的發展。深度學習已在語音識別領域大量使用,聲紋識別技術應用需要解決特征提取和模式識別兩個技術。深度結構能夠處理人類語音、自然聲音等,能夠分析識別提取數據特征,進而泛化學習。用深度學習算法理解人類情感思維難度巨大,要實現此技術,首要的是建立破譯人類感情的算法模型,然后建立能理解多維度情感的算法。對深度學習的研究和發展對于語音合成,特別是情感語音合成是非常好的契機。
3 語音合成技術與情感語音合成技術
3.1 語音合成技術
語音合成和語音識別是語音技術的兩個分支。語音合成技術就是將文字信息轉化對應的語的音片段并合成為標準流暢的語音朗讀出來,語音合成研究的目的是制造會說話的機器。基于計算機和合成方法側重點不同,主流的分類是將語音合成方法按照設計的主要思想分為規則驅動(rule-based)方法和數據驅動(data-based)方法。規則驅動方法有共振峰合成以及發音過程合成兩種方法,而數據驅動方法有波形拼接合成,基于隱馬爾可夫模型合成以及深度神經網絡合成方法。發音過程模擬合成是直接模擬人的發音這一物理過程。
3.2 情感語音合成技術
當合成的語音自然度、靈活度等基本滿足人們要求時,需考慮的是改變基頻建模,使之能夠調整基頻來合成情感語音。賦予合成語音情感,讓合成語音表現出個性生理、心理等特點,是語音合成領域一個難題。但已有學者提出建立多視角情感描述模型,描述認知、心理、生理等影響因素之間的關聯性,并通過語音頻譜特征表現出來。基于文本的情感分析屬于情感語音合成系統語言模型的一部分。
據報道,加拿大一公司已經發布了人工智能(AI)語音系統,該系統比對分析文本和語音之間的關系并在很短的時間內模仿語音。該系統在錄入時使用仿人腦思維模型,分析個體發音特點,并可以深度學習個體語音情感及認知,進而輸出語音。盡管該系統合成語音和人的語音還有一定的差異,但是人工智能發展讓減弱甚至背景噪音和機器發音特點成為可能,計算機精確模擬人類發音器官發出聲音指日可待。
4 結束語
聲紋鑒定所采用的技術決定了這種鑒定不可避免地含有鑒定人主觀因素,對于一些介于本質差異與非本質差異的臨界差異,不同人看法不同。而個性化發音、情感語音正是鑒定中的難點。深度學習可以促進情感語音合成技術的發展,而情感語音合成技術的發展水平越高,合成語音與人聲差異就越小,聲紋鑒定的難度就越大。對于從事鑒定工作的人員而言,關注科技發展可能對鑒定工作產生的影響對提升個人鑒定技能同樣重要。
參考文獻:
[1]徐立根.物證技術學(第四版)[M].北京:中國人民大學出版社,2011:267-284.
[2]王英利,李敬陽,曹洪林.聲紋鑒定技術綜述[J].警察技術,2012(4):54-56.
[3]王英利.關于聲紋鑒定技術的若干問題[A].第九屆中國語音學學術會議論文集[C].2010.
[4]侯一民,周慧瓊,王政一.深度學習在語音識別中的研究進展綜述[J].計算機應用研究,2017(8):2242-2246.
[5]郭麗麗,丁世飛.深度學習研究進展[J].計算機科學,2015(5):28-33.
[6]張斌,全昌勤,任福繼.語音合成方法和發展綜述[J].小型微型計算機系統,2016(1):186-192.
[7]井曉陽,羅飛,王亞棋.漢語語音合成技術綜述[J].計算機科學,2012(11A):386-390.
[8]高瑩瑩,朱維彬.面向情感語音合成的言語情感描述與預測[J].清華大學學報(自然科學版),2017(2):202-207.
[9]韓超.語音合成技術的功能設計和實現[J].科技創新與生產力,2016(12):84-87.
[10]張建明,詹智財,成科揚,等.深度學習的研究與發展[J].江蘇大學學報(自然科學版),2015(2):191-200.
[11]聶翠蓉.“傾聽”1分鐘,就能開口模仿人類“講話”新款人工智能語音系統高效復制人聲[N].科技日報,2017-5-4(001).