張 曉 孔華鋒 王海燕 劉文超
1(公安部第三研究所信息網絡安全公安部重點實驗室 上海 201204)2(武漢商學院 湖北 武漢 430056)3(華東政法大學刑事司法學院 上海 201620)
聲紋與指紋、虹膜等作為人的重要生物識別特征,都具有唯一性和穩定性。聲紋鑒定又稱語聲同一性鑒定,是指通過對未知說話人的語音聲學特征與已知說話人的語音聲學特征進行綜合分析比對,做出兩者是否同一的結論的過程。早期聲紋鑒定的語音資料多來自于手機、錄音筆、MP3等電子設備,錄制的語音文件失真度較低,能夠清晰地反映聲紋的共振峰特征。
在當今信息化時代,即時通信軟件是目前互聯網上使用最廣泛的應用之一。當前司法鑒定中涉及到QQ、微信、陌陌等即時通信軟件的語音鑒定案件也日益增多。通話人在使用即時通信軟件過程中產生的網絡語音記錄了語音的信息特征,使得違法犯罪行為有跡可循。語音同一性鑒定的主要內容是對檢材和樣本的共振峰特征進行比對。但是,網絡語音與普通語音的區別在于,即時通信軟件中音頻編解碼壓縮標準通常為了保持傳輸時的低帶寬占用和較高的編解碼效率,而將音頻信號的采樣頻率、采樣精度和范圍等做了降低,使音頻清晰度和還原性都有所衰減。這樣就在某種程度上使得對聲音的還原達不到要求,而通常的語音未經過壓縮編碼,語音不會失真,共振峰的特征反映比較穩定。網絡語音在經過存儲和傳輸過程中,是否會導致語音共振峰的某些特征改變,以及會對鑒定結果產生怎樣的影響,尚且需要實驗來證明。這一不確定性給網絡語音的同一性司法鑒定帶來困難和挑戰。
本文以當前互聯網上使用頻率較高且在司法鑒定領域常會涉及的5款即時通信軟件(微信、QQ、陌陌、易信、YY)為代表進行研究。通過實驗分別分析即時通信軟件產生的網絡語音與原始語音的共振峰特征,比對二者之間的差異;總結即時通信軟件產生的網絡語音相對于原始語音的共振峰特征改變規律,以提高即時通信網絡語音在同一性司法鑒定中的準確性,更加有效地打擊網絡犯罪。
根據中國人民共和國公共安全按行業標準《法庭科學語音同一認定技術規范》中的相關規定,聲譜定性分析的對象主要包括元音的聲譜特征等,定量分析的檢測對象主要包括共振峰的聲譜特征等。標準中關于認定同一的規定,“檢材語音和樣本語音中有10個以上可供比對的不同音節,且每個音節有3條(含)以上有效共振峰;或者有6個以上可供比對的不同音節,且每個音節有4條以上有效共振峰”。
本實驗設計的語音樣本中共有23個字,包括了韻母表中的大部分韻母。由10個說話人通過5款即時通信軟件重復朗讀此段話3遍,共計產生3 450個漢字的語音樣本。
軟件:微信、QQ、陌陌、易信、YY。
硬件:6部手機、1支錄音筆。
1.3.1 說話人
隨機抽取10個說話人(5男5女),年齡20~30歲,普通話發音較標準,基本無特殊發音習慣。讓他們在熟悉語音樣本內容的前提下,重復讀3遍。說話人在錄音時身體處于健康的狀態,朗讀時情緒飽滿、發音正常。
1.3.2 語音樣本
朗讀的語音內容為“他和我去無錫,找文村長洽談承包經營農田的合作項目”。
此段話中包含了6個單韻母:[a]、[o]、[e]、[i]、[u]、[ü];4個復韻母:[ao]、[ia]、[ian]、[uo];3個前鼻韻母:[en]、[un]、[an];4個后鼻韻母:[ang]、[eng]、[ing]、[ong]。語音樣本可以滿足實驗對語音樣本韻母覆蓋率的要求。
1.4.1 語音采集
準備6部智能手機,5部手機用于發送語音,一部作為用于接收語音。5部手機分別安裝微信、QQ、陌陌、易信、YY等5款即時通信軟件之一,另外一部手機安裝上述全部5款即時通信軟件。按照以下步驟進行操作:
(1) 使6部手機都處于同一無線網絡環境中。
(2) 在5部發送語音的手機上分別登錄微信、QQ、陌陌、易信、YY賬號,在一部接收語音的手機上也登錄上述5款軟件。接收手機的即時通信軟件賬號分別與5部發送手機的即時通信軟件賬號互加為好友,使接收手機能分別接收到5部發送手機通過不同的即時通信軟件發來的語音。
(3) 說話人對著錄音筆和5部接收語音手機的麥克風孔朗讀三次語音樣本。在錄音的過程中,5部手機上的即時通信軟件均開啟“按住說話”功能,直至錄音結束。
(4) 6個說話人依次重復上述語音錄制過程。
(5) 語音采集流程如圖1所示。

圖1 語音采集流程圖
1.4.2 語音提取
原始語音的提取方式較為簡易,直接從錄音筆中找到對應的語音文件提取出來,作為語音檢材。
網絡語音的提取方式較為復雜,通常分為兩種提取方式:一種是使用手機取證工具,對接收網絡語音的手機載體進行檢驗,從手機中提取出相應的語音文件;另一種是直接從手機中提取語音文件,這就涉及到語音文件的存放路徑問題,由于文件夾層級較多,需要一層一層篩查直至找到目標語音文件。
本實驗中5款即時通信軟件接收的語音文件在手機的存儲路徑如下:
微信:/tencent/MicroMsg/6a4e8d2ce598d6dc3a13c
3511243e2bf/voice2
QQ:/tencent/MobileQQ/qq號/ptt
陌陌:/immomo/users/594865788(陌陌號)/audio2
易信:/Yixin/audio
YY:/yymobile/im/voice
從上述路徑中可以提取5款即時通信軟件接收到的語音文件。
共振峰是指在聲音的頻譜中能量相對集中的一些區域,它不但是音質的決定因素,而且反映了人的聲道的物理特征。共振峰是反映聲道諧振特性的重要特征,因此對語音特征的識別中,對共振峰的特征分析是研究的關鍵。
使用科大訊飛智能聲紋鑒定工作站對語音檢材和語音樣本語音進行分析。檢材語音為用錄音筆錄制的原始語音文件。樣本語音為5款即時通信語音軟件通過“按住說話”方式采集到的5段網絡語音。選取同一時刻檢材和樣本中包含6個單元音字“他[tā]”“和[hé]”“我[wǒ]”“去[qù]”“無[wú]”“錫[xī]”進行分析。在漢語普通話中,[a]、[o]、[e]、[i]、[u]、[ü]6個元音幾乎代表了所有主要元音,因為二合元音和三合元音都是由這幾個單元音組成,因此單元音的研究結果也適用于二合和三合元音。
檢材語音和5款樣本語音的寬帶語圖如圖2所示。

圖2 寬帶語圖對比
單元音音節的韻母,其共振峰總體上是一條單調的曲線,因此主要考察其共振峰的斜度、彎曲方向、彎曲程度以及彎曲變化情況等。5款樣本語音與檢材語音的第1、2、3、4共振峰(F1、F2、F3、F4)走向特征大致呈現以下規律:
(1) 韻母[a]、[e]、[i]的共振峰走向規律。
5款樣本語音與檢材語音的共振峰的走向幾乎完全相同,每一條共振峰的斜度、彎曲方向、彎曲程度以及彎曲變化情況等均相同,基本無變化。
(2) 韻母[o]的共振峰走向規律。
YY軟件語音與檢材語音相比,在F2和F3之間存在一條虛假共振峰。其余基本無變化。
(3) 韻母[u]的共振峰走向規律。
陌陌軟件F2能量分布不均勻,末端能量較弱。其余基本無變化。
(4) 韻母[ü]的共振峰走向規律。
陌陌軟件F2能量分布不均勻,始端能量較弱。其余基本無變化。
共振峰參數包括共振峰頻率、帶寬和峰值。其中共振峰的中心頻率主要體現了語音中共振峰能量的平均強度隨頻率的分布關系,是語音共振峰的重要表現。比對檢材語音和5款樣本語音的共振峰數據特征,并計算共振峰中心頻率的偏差比例,將軟件、共振峰與偏差比例三者之間的關系用三維坐標系表示。其中:x軸代表5款軟件;y軸代表F1至F3三個共振峰;z軸代表中心頻率的偏差比例。分別統計[a]、[o]、[e]、[i]、[u]、[ü]6個元音在每款軟件的F1、F2、F3共振峰中心頻率與原始語音檢材F1、F2、F3共振峰中心頻率的偏差比例,統計結果如圖3所示。

圖3 中心頻率偏差比例對比
對圖3的中心頻率偏差比例的統計結果進行分析,可以總結出網絡語音的共振峰改變大致呈現以下規律:
1) 第1共振峰F1的特征:
(1) 大多數軟件在大多數元音上的中心頻率偏差比例數集中在5%以下。
(2) 軟件YY在所有元音上偏差比例較小,在3%左右。其中,軟件QQ在元音[e]和[i]上中心頻率偏差比例為10%左右。軟件陌陌、微信分別在元音[u]和[a]上中心頻率偏差比例在9%~17%之間。軟件易信在元音[o]、[e]和[u]上中心頻率偏差比例為11%。
2) 第2共振峰F2的特征:
(1) 5款軟件都有1~3個元音的中心頻率呈現一定的偏差比例。其中:QQ、陌陌、易信均有一個元音的中心頻率偏差比例在13%~32%之間;YY在元音[o]和[ü]上偏差比例在11%~16之間;微信在元音[o]、[u]和[ü]上的中心頻率偏差比例在11%~20%之間。
(2) 5款軟件總體在元音[a]、[e]和[i]的中心頻率偏差比例較小,在0%~6%之間;在元音[o]、[u]、[ü]都有二至三款軟件的中心頻率偏差比例較大,在11%~32%之間。
3) 第3共振峰F3的特征:
5款軟件在所有元音上的中心頻率偏差比例均較小,在0%~8%之間。
本文選取了5款即時通信軟件產生的網絡語音作為研究對象,通過實驗從寬帶語圖和共振峰中心頻率特征等方面對其聲紋特征進行研究。從圖2中可以看出,網絡語音的共振峰走向特征與原始語音基本變化不大,個別軟件在個別元音上會出現能量分布不均、存在虛假共振峰的現象。圖3中的數據反映出5款軟件在不同的元音、不同的共振峰上,共振峰的中心頻率偏差比例也表現出不同程度的變化,但是整體上偏差比例較小,十分接近原始語音的中心頻率值。
綜合分析實驗結論,總結出網絡語音的聲紋共振峰特征相對于原始語音存在著相對的穩定性,不同軟件之間存在著一定的差異,對不同的元音和不同共振峰也產生相應的影響,鑒定過程中需要排除虛假共振峰,共振峰頻率的偏差比例改變大部分不超過15%。總體來說,這些影響因素導致的差異不會對聲紋鑒定的識別造成實質性的干擾,即時通信軟件產生的網絡語音的共振峰特征較原始語音具有相對的穩定性。即時通信軟件產生的網絡語音的聲紋共振峰差異分析為語音同一性鑒定提供了基礎和依據,有利于提高司法語音鑒定效率和準確率,能夠有效打擊網絡犯罪活動,在語音鑒定中具有重要的應用價值。
在互聯網飛速發展的今天,使用即時通信軟件進行日常交流已經成為人們生活中不可缺少的一部分。根據2018年5月QQ大數據發布的《2018全國城市年輕指數》報告中顯示騰訊QQ有7.83億月活躍用戶。2018年3月6日,據運營商公布的數字,在中國微信的全球用戶帳號數量已經突破十億。國內的陌生人社交軟件中,陌陌擁有最大的用戶量。即時通信軟件產生的網絡語音作為證據的情況越來越多,而語音同一性鑒定中涉及到網絡語音鑒定的案件數量也隨著網絡的迅猛發展而不斷增長,呈直線上升的趨勢。
本文研究的即時通信軟件產生的網絡語音的共振峰特征比對分析結論,適用于英文、普通話、山東話、天津話、東北話和四川話等。但是對于閩南語、客家話、吳語和贛語等方言,由于發音方式復雜且具有很多的不確定性,能否適用還有待進一步研究。希望在今后的研究中,能夠增加對方言的實驗,深入研究每一種語音的各個音節共振峰的改變特征,使即時通信網絡語音的同一性鑒定更具有普適性,提高鑒定結果的準確率。