向 菲
(湖北省恩施州公安局,湖北 恩施 445000)
人類的機體構成十分復雜難以解釋,俗話說“世界上沒有兩片相同的葉子”,無論是人臉分析,還是指紋、DNA等標志性的分析,都是經過了長期發展而產生的技術。人類的發聲是一個神奇復雜的生理功能,每個人的聲帶構成不同,所形成的聲線也完全不同,受到神經系統,基因等多個復雜因素的共同控制。同時,每個人的聲線,還與成長環境,外界因素等影響息息相關,使得每個人的聲音構成都完全不同,且聲學上的聲譜特征穩定且唯一。從這個角度來看,對個人的聲線進行分析并進行身份識別是可行的。此外,近年來,人工智能技術不斷地發展,云計算、大數據處理等技術不斷涌現,因此,從技術上,聲紋識別和語音識別技術應用到公安領域,可行性就大大增加了。
不僅如此,該技術不僅用于政府單位,也被企業家們發掘并商用。在國家的積極投入下,近年來培養出了大批的大數據應用人才,技術在不斷提升,聲紋識別和語音識別技術正在逐步商業化,經典的應用場景有:公安偵查、智能家電、手機語音識別、金融保密行業等,代替復雜難記的密碼,安全高效。
近年來,在公安機關偵辦電信詐騙、涉恐涉毒等復雜案件時,語音識別和聲紋識別技術起到了相當大的輔助作用,相關技術人員對案件偵破作出了重大貢獻。[1]
綜上所述,相比現在比較完善發達的語音交互來說,聲紋識別的技術需要更高的入行門檻,目前處在穩步發展的階段。通過該技術,可以精準識別人與人之間的區別。本文將介紹該技術的原理和目前的應用現狀,并闡述其在公安領域發揮的重大作用。
聲紋指的是經過相關儀器測試現實的攜帶語言信息的聲波頻譜,有波長頻率等多種特征組成,受到發聲器官(舌頭,口腔,牙齒,肺,鼻腔尺寸)、心理、環境干擾等多種因素的影響。盡管如此,每個人的具體構造不同,因此在一般情況下,還是能通過聲音特征和聲譜來判斷是否是同一個人。在這個角度上,聲紋識別的意義就是獲取一個人具體的發聲方式和發生特征。主要體現在人的發聲共鳴方式特征、嗓音純度特征、音高特征以及音域特征等。語音識別略有不同,主要體現的是識別語言中的字符和語言信息,并加以解讀,從本質上不是為了識別說話人的身份,關注的是傳達的信息內涵。兩者相結合,能通過聲音對說話的人有一個基本輪廓的了解。目前兩個技術應用都各自形成了較為完善的應用流程和方式:
聲紋識別的應用主要經過三個步驟:預處理,特征提取以及識別。預處理指的是從一段語音信息中提取出干凈便于數字識別的人聲信息,將非人聲的信息過濾掉,防止后期分析時候造成不必要的干擾,是整個識別過程中最基礎的部分。往往最基礎的部分是最重要的,可以分為數字信號處理以及機器學習。第二部分就是進行特征提取,通過專業的技術分析人員的操作,識別過程進入到核心部分,進行信息提取,提取后再進行分析。該部分需要的信息包括上文所提到的所有基本特征信息,聲音特征的提取一般具有泛化特征,在較長時間跨度下還能表現出一定的穩定性,因此對于公安領域的應用來說是十分有利的。
最后一步就是識別部分,作為壓軸流程,所需要的技術就比較關鍵,要求具有較高的準確性,需要通過模型對提取出的聲紋進行分析,目前也已經存在較為成熟的幾種模型和技術。
綜上所述,語音識別與聲紋識別的主要區別在于語音識別是提取內容信息,聲紋識別是針對特征提取身份信息。語音識別技術的核心是將聲音內容變為文本進行輸出,以便公安系統在進行案件偵辦時作為參考。包括語音合成、識別和理解三個方面的內容。
第一部分要在技術限制內盡可能地提取并保留完整的原始語音,保證清晰度,是整個識別工作的基礎;第二部分是要進行語音的識別,基于內容對語音進行處理,將復雜的語境轉換為能夠理解的文本或命令,作為可識別的參考證據;第三部分工作作為收尾,前兩步已經基本將所有的前期基本工作鋪墊好,最后的理解部分就是在相應的語境之中,對應邏輯關系,通過不斷地變化語境進行語義推理。
兩者在單獨使用的時候,是針對不同的內容和效果,但是在公安領域內的應用,通常是兩者結合應用。在公安領域中,利用兩種技術的結合,以及實戰時的信息采集技術,幾乎可以達到聲音找人、聲音定人的效果。隨著大數據的不斷發展,我國的公安系統也形成了龐大的內部數據庫,將收集、分析過的聲音數據和聲音信息作為歷史檔案儲存與數據庫,再次利用時可以直接進行匹配對比,節省了大量的翻閱檔案的人力物力和時間資源。提升了公安辦案的效率、便捷度和可信度。
兩者相結合不僅僅是各司其職,一般兩項內容會對同一則音頻同時進行,兩者需要實現同一且真實。與此同時,對公安內部技術人員的要求也更高,需要盡到維護系統安全、保證系統健康運行的職責,并且在進行數據分析的時候,要盡量做到快速準確,減少操作失誤,以對案件偵辦盡到相應的責任。
關于聲音處理的相關技術最早出現于40年代末的美國貝爾實驗室,其最早開發的目的是將其應用于軍事情報領域。此后,技術不斷成熟發展,不少人發現了其中的潛力,將其應用于商業等其他領域。[2]如,60年代后期應用于美國的法證領域,經過幾十年的發展,該項技術的成熟程度已經可以達到公安部的標準,其可信度是可以作為證據進行當庭提供的。目前較為成熟的應用方法是模板匹配法、最近鄰方法、神經元網絡方法以及聚類法等。
以上提到的幾種方法,雖然操作方式上存在差異,但本質上沒有什么變化,采用的基本原理都是相似的,目前公安系統采用的就是將聲譜圖提取出來,并將其與已存在的數據對比進行聲紋識別。目前無論是國內還是國外都有不少企業在相關領域進行研究,設備的先進程度得到不斷提高,公安部專門為采購相關設備頒布了《安防聲紋識別應用系統技術要求》的行業標準,以識別市面上設備是否達到公安部的采購要求。
聲音的識別技術分為動態檢測和靜態檢測兩個方式,目前應用的許多靜態檢測的方法存在很大的弊端,其實時性是無法與動態方法相比較的,很顯然動態檢測的實際需求更大。
上文提到的識別過程中,十分關鍵的一步是對聲音進行提前處理,目的不是檢測聲音,而是將音頻降噪和排除環境干擾,該步驟對于語音識別來說至關重要,這一步出現問題,將會對識別內容的有效性產生巨大影響。無論是進行聲紋識別還是語音識別,都要事先建立數據庫,目前最為龐大的就是公安系統下的聲紋庫。然而,該識別方式存在兩個局限性:龐大數據庫不易建立和管理和聲音處理是否順利進行存在很多不確定因素。此外,還存在許多不確定的物理和計算等相關問題。
即使聲音存在唯一性,音頻數據的穩定性也非常好,但是目前的技術局限性下,還是存在很多難以掌握的因素,比如人聲的易變性很強,與年齡性別甚至情緒都息息相關;上文也提到,若音頻錄制所處的環境以及采集數據的設備不利于分析,聲音特征的建模和分析也存在局限性。因此,筆者認為這種技術不應單獨使用,應結合相關認證手段一并,提高數據的可信度。
在國家的大力扶持下,公安系統在案件偵破上可以使用的技術手段越來越多,也越來越先進,然而相應的犯罪手段也在不斷現代化,存在很多的涉網新型犯罪手段。如語音電信詐騙、恐嚇、涉黑涉毒涉恐等案件類型,都涉及聲音數據的收集,聲音數據都可以用于案件的辦理。新型犯罪頻發的當代社會,公安系統不斷迎來全新的挑戰。因此,先進的鑒定技術是以上幾類刑事案件偵破的關鍵一步,也是取證的重要手段:
筆者查閱資料,了解到目前該技術應用較多的案件類型有敲詐勒索,綁架勒索,陷害恐嚇等性質惡劣的事件。以上提到的案件多以音頻和電話錄音為關鍵性證據,不僅僅是通過通信手段對犯罪分子的所在地點進行確定,對未知的犯罪分子身份確定的唯一途徑就是聲音鑒別,包括電話背景音、環境音。運用聲紋和語音識別技術,判斷是否是再犯人員,判斷人的性別年齡體態等多種特征,進行畫像描述,刻畫特征,為刑偵人員的判斷提供依據。
除了上述的基本信息以外,還可以根據聲譜和語言內容的分析,進行說話習慣,口音,受教育級別等特征的分析,是案件進一步偵查的關鍵道路。
隨著技術的進步,犯罪手段不斷創新,變聲器等干擾措施層出不窮,通過上文提到的幾個步驟的處理,通過對已經變異過的聲音提取出聲譜,獲取較為穩定不變的聲音特征,得到一定的規律,識別聲音材料是否有偽造的可能性,以確保證據的真實性。在與犯罪分子斗智斗勇的同時,我國的公安系統也在不斷提升和突破。
根據上文所述,語音識別技術要將語音材料經過精密的處理,鑒于犯罪證據的特殊性,大量的語音材料并不是那么完美,存在很多噪音和錄音設備質量問題,導致達不到刑偵工作所需的標準。經過處理之后,將語音內涵從音頻之中提取出來,并將關鍵信息進行聲音放大和清晰處理,從而解決上述問題,改善證據的質量,使其成為刑偵過程中的得力助手。
所謂聲音辨別,就是同一性的另一種表達方式,先前熱播的《人民的名義》真實地反映了識別技術在同一性方面的作用。通過語音材料的分析對比,確定該證據是否對應正確的嫌疑人。[3]該技術的應用在確定嫌疑人身份上起到了很大作用,為刑偵人員下結論提供了多一條道路,在龐大的公安機關數據庫中查詢是否存在再犯的情況,為判斷量刑提供了又一依據。
在一些恐嚇陷害的惡性事件中,當事人會將語音材料作為證據提供。為了保證法律的公平公正性,公安機關的職責是分辨該音頻的真實性,不僅要進行上述的同一性檢測,分析音頻是否為人工合成。是否存在增加刪減惡行剪輯等情況。利用相關技術進行聲譜的識別,檢查音頻是否為合理存在,從技術上辨別真偽,證明數據的真實性。
以上僅為大致的應用,實際上該技術有更多的益處,如提高應用語音材料的案件偵破速度。可以將語音作為數據材料跨區域進行傳輸,更高效率地協助跨區域辦案,不斷豐富公安機關的數據庫,作為歷史數據,能加強對有案底的相關人員的監控和管理,快速檢索嫌疑人身份,減少了大量的人工成本及物資耗費,但同時對于技術人員的培養要求也更高。
綜上,已知本文提到的相關技術已經廣泛應用于公安領域,但鑒于技術發展存在局限性,其普及度也有待提高,為了讓科技在助力案件偵破、提高公安系統智能化方面繼續做貢獻,[4]將相關技術在公安領域中廣泛普及是十分有必要的:
警務的主要任務還是為人民服務,為基層人民提供安全健康的區域管理,是區域警務的最基本要求,理應達到“案件量少,秩序好,社會安全,群眾安心”等基本目標。將相關技術普及到社區警務,對于區域人口的信息管理方面,有助于警務人員更加全面便捷地了解區域人口的情況,對于安全事故的處理效果也會大幅提高。構建區域該技術數據庫,豐富智慧社區警務的建設,方便群眾配合警務工作,完善公安系統服務機制。
該技術數據庫的建立,方便警務人員在日常治安巡邏中,發現并確定在逃嫌疑人,消除社區安全隱患,有助于通過設備進行身份確認,及時處理相關事務。
根據涉恐涉毒等數據庫的信息,以及隨身配備的語音識別設備,集中管理集中查詢,助力公安機關有效打擊犯罪分子,維持管轄區域的和諧穩定,保證居民人身安全。
總而言之,筆者認為聲紋識別和語音識別技術在公安領域中,是傳統偵辦手段與現代科技融合的成果,是公安領域與高科技犯罪不斷斗智斗勇得出來的智慧結晶,是預防犯罪、快速結果犯罪的有效手段之一。語音材料數據庫的構建,為公安領域的工作減少了許多錯誤的發生以及人力物力資源的浪費。本文結合應用場景進行描述,探究了該技術具體如何發揮作用。
綜上,雖然該技術上還存在一些缺陷,但是為了進一步實現普及和高效使用,應該不斷完善設備和數據庫的建設,助力公安領域與科技進步的結合,為廣大公民爭取幸福平安的生活環境。