梁曉軒


聲音密碼破奇案
有一個(gè)事例證明了聲紋在案件證據(jù)方面的重要性:
一位來自美國(guó)佛羅里達(dá)州的母親凱西·安瑟妮(Casey Anthony)被宣判無罪,檢方指控她涉嫌謀殺自己兩歲的女兒凱利(Caylee)。控方提出的一個(gè)證據(jù)是在被告人電腦里找到的網(wǎng)絡(luò)搜索記錄,比如“氯仿(chloroform)”和其他罪證(氯仿可將人麻醉致死)。但安瑟妮的母親辯解說這是她鍵入的搜索條目(即當(dāng)我們?cè)谒阉饕嫒绨俣戎休斎肽硞€(gè)漢語單詞的首字,搜索條目中會(huì)出現(xiàn)以該首字為開頭的關(guān)聯(lián)詞句),當(dāng)時(shí)她不小心把“葉綠素”(chlorophyll)錯(cuò)拼成了“氯仿(chloroform)”。稍加分析不難看出抗辯事由很牽強(qiáng),但卻威脅到了“排除其他懷疑”的訴訟準(zhǔn)則。假如她使用 Siri 語音搜索,檢察官和陪審團(tuán)就有可能確認(rèn)當(dāng)時(shí)究竟是誰說了“氯仿”這個(gè)詞。不過,蘋果公司拒絕透露是否收到過任何要求比對(duì)聲紋記錄的官方請(qǐng)求。
發(fā)生在中國(guó)的另一起案例則從正面印證了聲紋作為關(guān)鍵證據(jù)使用的重要性。2014年8月,山東濟(jì)南警方破獲了一起電信詐騙案。該案中,一名男性犯罪嫌疑人偽裝成女性聲音,隨機(jī)撥打手機(jī)號(hào)碼,通過“猜猜我是誰”試探手機(jī)接通者的態(tài)度,并利用受害人可能忘記朋友名字的尷尬心理,冒充受害人的朋友實(shí)施電信詐騙。濟(jì)南市槐蔭區(qū)公安局就是利用聲紋識(shí)別技術(shù),成功破獲了這起離奇的電信詐騙案。
聲紋之秘
聲紋又稱voiceprint,直譯過來為聲音的痕跡,指使用聲譜儀、語圖儀等設(shè)備將聲波及其頻率記錄而為波狀圖形。按照詞典中的定義,聲紋是通過儀器記錄下來的因人而異的聲波紋。聲紋是人與人不同的痕跡密碼,一定技術(shù)條件下,可以成為區(qū)別人與人生物特征的證據(jù),是種“無形的指紋”。
當(dāng)然,“無形指紋”一說屬于現(xiàn)代的定義。其實(shí)早在科技文明興盛之前,人們就已經(jīng)開始關(guān)注人與人之間不同的聲音了,我國(guó)古代就有聞聲識(shí)人一說。近代意義上的聲紋鑒定出現(xiàn)在20世紀(jì)30年代,當(dāng)時(shí)的聲紋側(cè)重于辨認(rèn),主要通過人耳的聽覺確認(rèn)是否同一人,當(dāng)時(shí)人們已經(jīng)認(rèn)識(shí)到聲波現(xiàn)象,但受制于科技水平,尚無法記錄聲紋圖譜。二戰(zhàn)以后,濾波技術(shù)迅速發(fā)展為聲紋記錄提供了可能,聲紋因此獲得了可視化載體。隨后,借助于計(jì)算機(jī)的飛速發(fā)展,為聲紋分析打下技術(shù)基礎(chǔ),電聲轉(zhuǎn)換系統(tǒng)也愈發(fā)精確,聲紋識(shí)別的數(shù)據(jù)分析得到發(fā)展。上世紀(jì)90年代,小波技術(shù)作為一種算法,大大加快了海量信息識(shí)別與比對(duì)的速率。近年來計(jì)算機(jī)芯片快速發(fā)展,尤其是數(shù)字信號(hào)處理(DSP)芯片得到了廣泛應(yīng)用,在數(shù)據(jù)庫(kù)一定的前提下,聲紋鑒定可以達(dá)到同一認(rèn)定的要求,語音特征參數(shù)提取技術(shù)目前已經(jīng)達(dá)到比較成熟的水平。
聲紋鑒定包含語音特征提取和聲紋分析兩部分。語音特征提取即指通過電聲轉(zhuǎn)換設(shè)備提取待檢測(cè)聲音中能夠反映個(gè)體信息的特征性頻率。實(shí)務(wù)當(dāng)中,在提取聲紋圖譜的同時(shí),還經(jīng)常將聲音錄制用于人耳識(shí)別。尤其是在甄別部分方言和少數(shù)民族語言時(shí),人耳識(shí)別能夠快速縮小聲紋數(shù)據(jù)庫(kù)的范圍,有利于精確匹配合適的聲源。目前的技術(shù)條件下,僅能提取到部分已經(jīng)知曉的聲紋頻率。借助于濾波器,語音信息得以呈現(xiàn)出來。伴隨社會(huì)對(duì)于聲紋識(shí)別應(yīng)用范圍需求的持續(xù)增加,加之同一認(rèn)定的準(zhǔn)確性要求越來越高,語音特征提取的內(nèi)涵也逐漸豐富,語法、語調(diào)、韻律、方言、語種、口音、擬聲詞、俚語、通信信道等都需要被收錄以便進(jìn)行分析。這無疑大大增加了聲紋提取的任務(wù)量。所以,解決問題的關(guān)鍵在于如何選擇,也就是說要根據(jù)案情加以分析研判,決定對(duì)象采集需要精細(xì)化到具體何種程度。譬如,信道這一語音特征,在刑警偵查破案時(shí),并沒有強(qiáng)烈需求,甚至盡量不希望將信道考慮在其中,因?yàn)閷?shí)踐中偵查可以獲得的聲紋信息往往是通過隱蔽手段獲得的,信道難免存在一定瑕疵。如果能夠避免分析信道這一特征,則使用錄音手段獲得的聲音資料或?qū)⒊蔀槠瓢傅年P(guān)鍵證據(jù);而在經(jīng)濟(jì)生活中,譬如銀行交易則希望采用,也即希望信道對(duì)識(shí)別產(chǎn)生影響,這樣將有利于銀行判明并剔除錄音等惡意行為帶來的危害。所以,在聲紋特征提取過程中,往往事先判斷,配置不同特征參量的組合,進(jìn)而提高鑒定效能。尤其當(dāng)提取的各組參量的相關(guān)性不大時(shí),會(huì)獲得更好的識(shí)別效果。
除卻聲紋提取,更為有趣的便是聲紋分析的原理。聲紋之所以能夠得到分析,原因可歸結(jié)于我們的身體構(gòu)造。人在講話時(shí)所使用的器官——喉舌、牙齒、胸腔、鼻子在具體形態(tài)構(gòu)造和尺寸大小上的個(gè)體差異很大,這就是造成每個(gè)人的聲紋特征具有與其他人不同的唯一性和一定時(shí)期內(nèi)不變的穩(wěn)定性的成因。從混淆正常人體聽覺的角度,可以模仿出與他人高度相似的聲音。但如果采用聲紋識(shí)別技術(shù),則很容易就能發(fā)現(xiàn)其中的差異。所以,無論是多么高明、相似的聲音模仿都可通過聲紋識(shí)別技術(shù)辨別。
聲紋識(shí)別還可具體劃分為語音識(shí)別和說話人識(shí)別。語音識(shí)別是對(duì)信息具體含義的識(shí)別,即通過分析說話人的發(fā)音,發(fā)現(xiàn)語音、音節(jié)、單詞或單句的含義,并不需要考慮語調(diào)、方言等特征。換言之,是對(duì)語音含義的識(shí)別。說話人識(shí)別與之相反,目的在于確認(rèn)語音發(fā)出者的身份,即通過語音來辨別說話人,而并不考慮聲音的具體含義與意義。
目前,語音識(shí)別主要用于對(duì)殘缺語音材料的補(bǔ)全,其民事、商業(yè)用途大于司法用途。同一認(rèn)定意義上聲紋識(shí)別則主要指說話人識(shí)別。說話人識(shí)別包括說話人辨認(rèn)和說話人確認(rèn)兩個(gè)方面。前者的識(shí)別采取單對(duì)多形式,能夠判斷出某段語音是若干人中哪一個(gè)所說,廣泛運(yùn)用于刑事案件、確定嫌疑人、司法訴訟等方面。說話人確認(rèn)是一對(duì)一的確定過程, 即確認(rèn)某段語音是否屬于指定的某人。作為生物識(shí)別技術(shù),主要應(yīng)用于門禁系統(tǒng)、金融產(chǎn)品交易、銀行服務(wù)、聲控鎖具、信用卡等。識(shí)別圍繞同一性,事先錄入聲音作為留存樣本,通過設(shè)備分析出該樣本獨(dú)有且可識(shí)別的特征,并由數(shù)個(gè)特征整合為一組數(shù)據(jù),作為整體寫入數(shù)據(jù)庫(kù),當(dāng)待檢聲音能夠以完整的形式匹配數(shù)據(jù)庫(kù)的特征組合,則識(shí)別通過。
與其他個(gè)人信息相比,聲紋目前未被列為個(gè)人隱私的范疇。這樣一來,聲紋由于其容易帶來隱私權(quán)的問題,以聲紋為媒介的識(shí)別設(shè)備則更容易在獲得法律上的認(rèn)可。同時(shí),由于聲紋設(shè)備成本較低,容易為更多考慮成本的民用行業(yè)所接受。通過聲紋識(shí)別技術(shù),可用聲音來代替金融交易的傳統(tǒng)數(shù)字加字母式密碼,以聲音作為密鑰。如此,人們不需隨身攜帶鑰匙、智能卡之類硬件識(shí)別設(shè)備,也不需記住復(fù)雜的密碼。尤其是在監(jiān)所門禁識(shí)別當(dāng)中,使用聲紋生物識(shí)別取代指紋識(shí)別將能夠有效避免罪犯為脫逃而殺死獄警并切下手掌的殘忍情況發(fā)生。在偵查破案中,對(duì)于只能獲取到聲音線索的情況,聲紋識(shí)別也大有助益。譬如綁架勒索案件中,犯罪分子往往通過需要通過聲音作為媒介與受害者家屬進(jìn)行聯(lián)絡(luò)。那么,其中能夠獲得的線索就是錄音,通過聲紋識(shí)別技術(shù),就能根據(jù)電話錄音獲得線索,縮短破案周期。對(duì)于我國(guó)而言,現(xiàn)有的刑事證據(jù)、民事證據(jù)體系中就列有視聽資料一條,給聲紋作為證據(jù)使用留下了法律依據(jù)。
蘋果和它的Siri語音技術(shù)
Siri在蘋果手機(jī)的中文操作環(huán)境下又叫做語音控制。開啟語音控制功能之后,只要對(duì)著聲音接收孔發(fā)布語音指令,智能手機(jī)就能夠根據(jù)聲音判斷其中的語義,進(jìn)行網(wǎng)絡(luò)搜索、開啟某個(gè)程序或者撥打通訊錄電話。對(duì)于某些常用程序,使用Siri能夠有效提高效率。譬如通訊錄的調(diào)取聯(lián)系人的電話號(hào)碼,說出想要聯(lián)系的對(duì)象,語音識(shí)別系統(tǒng)就會(huì)將聲紋轉(zhuǎn)化為電子設(shè)備能夠理解的數(shù)字算法,同時(shí)將通訊錄中文字信息轉(zhuǎn)化為數(shù)字算法,與前者匹配,當(dāng)計(jì)算比對(duì)完成時(shí),則自動(dòng)發(fā)出指令,查詢相應(yīng)號(hào)碼,隨之發(fā)出撥出指令。分析Siri的技術(shù)來源,則可將其歸屬于聲紋識(shí)別的一種,其中,語音識(shí)別為其主要的工作機(jī)制。
但是可以想象,一部手機(jī)的芯片與處理器的主頻顯然不能支持如此巨大的語音分析——信息比對(duì)的任務(wù)量。那么,蘋果手機(jī)是怎么做的呢?顯然是通過移動(dòng)互聯(lián)網(wǎng)將手機(jī)接入了蘋果公司的服務(wù)器,使用者的語音記錄、檢索信息被上傳到云端或者大型計(jì)算設(shè)備。蘋果公司則公開承認(rèn)了上述信息收集行為。楚蒂·穆蕾(Trudy Muller)作為蘋果公司的新聞發(fā)言人肯定地說,當(dāng)使用者對(duì) Siri提出“今天天氣怎么樣”之類的問題時(shí),錄音是被保存了下來的。但她補(bǔ)充說,“存儲(chǔ)這些數(shù)據(jù),只是為了讓 Siri 正常工作,以及幫助 Siri 提高語音理解和識(shí)別能力”;“蘋果公司‘高度重視用戶的隱私,請(qǐng)注意,Siri 通過互聯(lián)網(wǎng)發(fā)送的問題和回答都是加密的”;“雖然為了完成你的指令,Siri 的確會(huì)上傳你的通訊錄、位置信息、已存歌曲等,但蘋果公司不會(huì)把你的聲音錄音和你儲(chǔ)存在蘋果的其他數(shù)據(jù)聯(lián)系起來。”盡管如此,當(dāng)使用者的信息被儲(chǔ)存到他們無法掌控的環(huán)境之中時(shí),很難想象儲(chǔ)存管理者會(huì)如何使用信息數(shù)據(jù)。同時(shí),聲紋由于具有可識(shí)別的特性且每個(gè)人都不得不通過發(fā)聲進(jìn)行交流,那么被收集的數(shù)據(jù)將會(huì)成為重大的生物特征源。可以想象,如果聲紋因?yàn)榉N種原因發(fā)生泄露,則有危害公民隱私之虞。
正是由于聲紋的唯一與可識(shí)別特性,美國(guó)國(guó)家安全部門已經(jīng)開始使用聲紋來驗(yàn)證跨境旅客,以便更快辦理過境手續(xù)。同樣值得擔(dān)憂的是,假如你曾經(jīng)向 Siri 詢問過一些敏感性的問題,譬如政治敏感詞、生理、疾病敏感詞,一旦發(fā)生信息泄露,你將處境十分尷尬。
雷神科技(Raytheon BBN Technologies)的執(zhí)行副總裁普瑞姆· 納塔瑞杰(Prem Natarajan)認(rèn)為,基于生物特征的識(shí)別技術(shù)提出了一個(gè)全新的隱私爭(zhēng)議。舉個(gè)例子,如果政府可以得到這些數(shù)據(jù),那么,當(dāng)有人在 Siri 上搜索反專制抗議組織的位置時(shí),他可就麻煩了。上月美國(guó)國(guó)會(huì)的一項(xiàng)法案恰恰印證了普瑞姆的擔(dān)憂。該法案擬構(gòu)建私營(yíng)企業(yè)與政府機(jī)構(gòu)之間的網(wǎng)絡(luò)信息分享機(jī)制,使政府能夠真正接觸到需要保護(hù)的個(gè)人信息數(shù)據(jù)。保護(hù)的同時(shí)是否意味著監(jiān)控和建立聲紋數(shù)據(jù)庫(kù)?也許斯諾登會(huì)給我們答案。
保護(hù)聲音的密碼,切斷聲紋的關(guān)聯(lián)信息
那么如何對(duì)聲紋進(jìn)行保護(hù)呢?譬如蘋果手機(jī),其語音識(shí)別系統(tǒng)的工作機(jī)制是通過將使用者發(fā)出的問題傳輸至服務(wù)器當(dāng)中,利用服務(wù)器的特定程序分解該段語音資料,將其轉(zhuǎn)化為可供分析的代碼并提取相關(guān)特征,最后進(jìn)行語音識(shí)別。當(dāng)我們說出“我想去吃火鍋”時(shí),實(shí)際上共享了我們的即時(shí)位置。但其實(shí),我們是有辦法在享受科技便捷的同時(shí),把自己的生物特征變得隱蔽一些的。智能手機(jī)本身帶有一定的數(shù)據(jù)處理能力,語音識(shí)別的過程,一般在手機(jī)自行處理數(shù)據(jù)開始,如果待識(shí)別的信息可以在手機(jī)本身得到處理的話,將避免上傳至云端。專家給出的建議是“也許任何能和你本人直接掛鉤的東西都只該留在手機(jī)里”。那么,在使用語音功能時(shí),不妨選取部分能夠有效表達(dá)內(nèi)容又不會(huì)過度暴露自己的短詞語。此外,聲音音量的大小,對(duì)于說話人辨認(rèn)很重要,但是對(duì)于聲紋識(shí)別中的語音識(shí)別卻沒什么影響。所以音量的控制或可減少聲紋的暴露程度,或者說至少會(huì)為聲紋的提取和識(shí)別制造些難度。
此外,可以通過聲音模糊處理程序隱匿聲音,其原理如同“會(huì)說話的湯姆貓”App。另一種方法,就是更改智能設(shè)備端的設(shè)置,或者加入程序附件,將識(shí)別的目標(biāo)庫(kù)鎖定在本人所使用的硬件終端上、本地主機(jī)上。但是這種方法也并非絕對(duì)安全,儲(chǔ)存介質(zhì)可以通過數(shù)據(jù)技術(shù)進(jìn)行恢復(fù)。所以,如果使用了智能設(shè)備,完全隱匿數(shù)據(jù)幾乎沒有可能。進(jìn)一步而言,匿名聲紋最簡(jiǎn)單且是唯一的方法:像手機(jī)sim卡那樣,切斷聲紋和其他數(shù)據(jù)的關(guān)聯(lián)。
編輯:黃靈 yeshzhwu@foxmail.com