鄧宗權,邱立欣
(天津市公安局物證鑒定中心,天津 300061)
傳統錄音機和數碼錄音筆在信道中的差異
鄧宗權,邱立欣
(天津市公安局物證鑒定中心,天津 300061)
語音是重要的法庭證據。隨著科學技術的進步,各種各樣的語音采集設備出現在人們的日常生活中。從傳統的錄音機到數字錄音筆、手機、MP3,語音采集經歷了由模擬信號到數字信號的轉換過程。不同的采集設備和方法會造成語音的信道差異。傳遞語音信號的通道,如:傳統錄音機和數碼錄音筆由于各自的頻率響應性能不同,對信號施加的影響也不同。傳統錄音機傳遞的是連續變化的模擬信號,數碼錄音筆傳遞的則是以有限個“1”和“0”的代碼組合成為信息的數字信號,兩者是現在普遍應用的兩種信號模式。研究表明:信號通道對于語音識別,特別是自動語音識別的影響是明顯的,但是對于圖譜視覺檢驗的影響、影響的程度如何還尚待進一步的深入研究。
信道;模擬信號;數字信號
引言
視聽資料(Audio-Video Materials,AVM)是以數字化形態為特征的、證明案件事實情況的新的證據形式,視聽資料包括數字化的語音、圖像資料,以及廣義的計算機存儲資料,在數字化的視聽性能方面達到了高度的統一①崔景旭等.《視聽資料檢驗》.警官教育出版社.2004,第1頁。。視聽資料作為一種獨立的訴訟證據,分別在1898年、1991年、1997年被列入中華人民共和國行政訴訟法、民事訴訟法和刑事訴訟法②崔景旭等.《視聽資料檢驗》.警官教育出版社.2004,第3頁。。20世紀80年代中后期以后,錄音錄像設備的使用在社會各界逐漸普及,使得錄音、影像資料在各類案件中出現的頻率越來越高。隨著計算機技術、網絡技術和IT產業的發展,視聽資料取得了巨大的發展。視聽資料以其客觀、公正、真實和信息豐富,再現能力強等獨特的特點在公安司法中的作用越來越明顯。
語音、聲音資料是將言語聲波、非言語聲波以物理方法記錄下來而形成的。語音作為言語信號的物質載體,既有社會性又有話者個體特征。它的社會意義可以反映說話人要表達的意志,而語音的個體特征可以表明話者的身份。通過對話者言語語音的采集進行視覺檢驗,從而可以進行身份、性別、年齡等的認定。語音信號處理中,由于檢材和樣本的條件差異,會對語音檢驗在基頻、音長、共振峰、強度等參數有很大的影響。檢材和樣本的條件差異太大會直接影響鑒定結果的準確性。鑒于此,本文對信號通道對于語音識別,特別是自動語音識別的影響、影響的程度如何進行系統的研究。
傳統錄音機主要是由機器的內置話筒、錄放磁頭、錄音磁帶、揚聲器、放大電路、傳動機構等部分組成。錄音磁帶表面涂有磁粉,錄音機內磁頭在錄音時,磁頭內的線圈因通過的錄音電流而產生的磁場,磁化了傳動中的磁帶,在磁帶中留下了磁記錄信號。而在放音時,磁帶中的磁記錄信號,在放音磁頭的線圈上轉為電流信號而推動后面的喇叭發聲。軟盤上有一個鍍有磁化材料的圓片狀塑料薄片,在軟驅中的磁頭從轉動的薄片上讀取或寫入的是數字信號,磁頭對軟盤進行兩個數字命令;磁化和否磁化,以完成連續的數字信號讀取③公安部人事訓練局《公安信息通信技術教程》第367頁。。錄音機錄制聲音時,聲音通過話筒而產生隨聲音變化的感應電流(音頻電流),聲音通過放大電路的放大以后,進入錄音磁頭的線圈中,隨即在磁頭縫隙處產生隨著音頻電流變化的磁場,錄音磁帶緊貼著磁頭縫隙不斷的移動,致使磁帶上的磁粉層被磁化,因此磁帶上就記錄下了聲音的磁信號。錄音機放出聲音時是錄音的逆過程,磁帶不斷緊貼著放音磁頭的縫隙通過,磁帶上變化磁場使磁頭線圈中產生感應電流,因為感應電流的變化線與磁信號相同,所以線圈中產生的就是音頻電流,在這個音頻電流經過放大電路放大后,通過揚聲器就將音頻電流還原成聲音。
數碼錄音筆是通過對模擬信號的采樣、編碼之后通過數模轉換器將模擬信號轉換為數字信號的,后又進行一定的壓縮進行存儲。所以數字信號即便經過多次復制,聲音信息也不會受到任何損失,將保持不變。
數碼錄音筆的特點:1.體積小巧、重量輕便
數碼錄音筆是以存儲器為主題,加上閃存和超大規模的集成電路的內核系統所組成的,因此整個產品重量輕便、體積小巧。
2.連續錄音的時間長
傳統錄音機使用的每一盒錄音磁帶的錄音時間長度是40~60分鐘,最長的也就是90分鐘。而目前存儲容量最小的數碼錄音筆的連續錄音時間長度都在5~8小時,更高端的產品達到幾十個小時的連續錄音能力也是很常見的。
3.使用壽命長
傳統錄音機的內部采用的是機械結構,使用時間長樂就會發生磨損的情況,因此壽命有限。一盒普通的磁帶,反復的錄、擦幾十次基本上就是報廢了,而且磁頭和傳動裝置時間長了也會發生一定的磨損。而數碼錄音筆所采用的是電子結構,因此可以做到無磨損,使用的壽命也會比較長。
為了更好的了解傳統錄音機和數碼錄音筆的區別,我們根據以上內容進行了歸納總結,詳見表1.3。

表1.3錄音機與錄音筆的區別情況
模擬數據也稱為模擬量,相對于數字量而言,指的是取值范圍是連續的變量或者在某個區間產生的連續值.例如,聲音、圖像、溫度、壓力。數字數據也稱為數字量,相對于模擬量而言,指的是取值范圍是離散的變量或者數值.例如:計算機中使用二進制代碼來表示的字符、音頻、圖形與視頻數據。
模擬信號指幅度的取值是連續的(幅值可由無限個數值表示)。時間上離散的模擬信號是一種抽樣信號,它是對模擬信號每隔時間T抽樣一次所得到的信號,雖然其波形在時間上是不連續的,但其幅度取值是連續的,所以仍是模擬信號,稱之為脈沖幅度調制(PAM,簡稱脈幅調制)信號。平時我們聽到的聲音、看到的電視圖像都是模擬信號。數字信號采用斷續變化的電壓或光脈沖來表示,通信雙方則需要用電纜、雙絞線或光纖介質將連接起來,這樣才能將信號從一個節點傳到另一個節點。
模擬信號和數字信號之間是可以相互轉換的,模擬信號中的不同幅度分別對應數字信號中不同的二進制值,實用中常采取24位或30位編碼;數字信號則通過采用載波進行移相的方法,將其轉換為模擬信號。
信號是信息的載體,所以模擬信號和數字信號本質上是相同的。不同點在于存貯,傳輸及其它處理的方式。模擬信號和數字信號有著很大的區別。模擬信號是用連續變化的數值來表示要說明的信息;數字信號是用有限個“1”和“0”的代碼來表示信息中某一個字符,當很多字符組合起來時,才能表達完整的信息。
1.傳統錄音機的信號轉化
如果從發射信號到接收信號都是模擬信號的話,那么這個通信系統就是一個模擬通信系統。
2.數碼錄音筆的信號轉化
如果將傳送的信號轉變為數字信號,經過通信線路的傳輸,并且接收端所接收到的信號是數字信號的話,那么這個通信系統就是一個數字通信系統。
1.由于將信號進行了數字化處理,所以就有可能對聲音、靜止圖像及其他各種數據進行一些處理。
2.由于不容易受通信線路的噪聲和失真的影響,所以可以實現誤碼率低、可靠性高的通信。
3.為通信信號的復用提供了便利,可以提高效率。
4.由于可以利用數字信號處理器等各種數字技術成果,所以可構成具有柔軟性的系統。
5.通過對數字信號進行各種處理,使通信具有保密性。
傳遞語音信號的通道,如傳統錄音機和數碼錄音筆等,由于各自的頻率響應性能不同,對信號施加的影響也就不同。而案件語音的樣本和檢材往往來自不同的信號通道,例如樣本和檢材分別用傳統錄音機和數碼錄音筆來采制和錄制。檢材和樣本來自不同信號通道是造成鑒別困難的主要原因。為了提高司法語音鑒定的精度和可信度,對于信號通道對話者語音的改變以及這種變化對識別的影響等問題,應該進行系統的實驗研究。
1.發音人
共5名,男性,是中國刑警學院大學四年級的學生,普通話很好,無明顯言語障礙,發音清晰。
2.語料
選取有代表性的五個單元音作為發音語料。具體如下:
i、a、u、e、ü、
3.錄音方法
以話者正常發音為基準,研究傳統錄音機和數字錄音筆兩種信道語音的差異。首先選擇一個相對安靜無雜音的地方為錄音地點。讓每個話者在熟悉語料的基礎上按照語料正常發音,同時使用傳統錄音機和數碼錄音筆同時錄音。
對所錄制的語音輸入計算機,然后利用Praat語音分析軟件作出寬帶圖譜進行形態分析和數值比較。在視覺和聽覺檢驗的基礎上,分別測出每個話者各個音節的基頻平均值、基頻最大值、強度平均值、強度最大值、音長和前四個共振峰的頻率值,然后利用SPSS統計分析軟件進行統計處理。
首先提取了兩種信道下10個音節的基頻均值、基頻最大值和基頻最小值。由于篇幅所限,我們僅列出其中一個話者5個單元音的基頻數據,詳見表4.1.1,

表4.1.1錄音機和錄音筆兩種信道語音的基頻(Hz)
統計數據表明:兩種信道語音的基頻值大體相當,基頻最大值和最小值上的差異要比均值大一些。但是,總的說來,兩種信道語音的基頻差異不大。為了深入比較二者的差異,我們利用SPSS軟件對兩種信道20個音節的語音基頻均值、基頻最大值和基頻最小值進行了單因素方差分析(ANOVA)。
統計結果表明:兩種信道語音,無論是基頻均值、最大值還是最小值,它們的檢驗概率P值都遠遠大于檢驗水準0.05。因此,兩種信道下語音的基頻差異不顯著,即信道改變不會引起語音基頻的顯著改變。圖4.1舉例說明了兩種不同信道的i、u的基頻曲線形態的細微差異。其中,實線代表錄音機信道,虛線代表錄音筆信道。

圖4.1在錄音機和錄音筆信道下的基頻圖譜
對兩種信道10個音節強度的平均值和強度最大值我們也進行了統計測量,其中5個單元音音節的數據詳見表4.2.1。

表4.2.1錄音機和錄音筆兩種信道語音的強度(dB)
表4.2.1中的數據表明:在強度均值和強度最大值方面,各個音節上兩種信道的差異都最大,強度差均在20dB。由此可見,信道的不同造成了強度的很大差異。進一步的單因素方差分析表明:都遠遠小于檢驗水平0.05。因此,兩種信道語音的強度差異是非常顯著的。
見圖4.2.2舉例說明兩種不同信道下元音i和a的強度曲線差異。其中,實線為錄音機信道,虛線為錄音筆信道。

圖4.2.2在錄音機和錄音筆信道下的強度圖譜
為了深入研究兩種信道語音強度之間的關系和變化規律,我們對所有發音人的20個音節的強度均值和最大值進行相關分析。相關分析的結果表明,兩種信道語音的強度均值的相關系數為0.44,強度最大值的相關系數為0.05。顯著性檢驗表明前者呈顯著相關。因此,進一步的回歸分析得到了兩種不同信道語音一元線性回歸模型為:Y=0.06X+87.37。其中,X代表錄音筆的強度平均值,Y代表錄音機的強度平均值。利用這個回歸公式,可以實現兩種信道下語音強度的互推。
對兩種信道10個音節的音長進行了統計測量,其中5個單元音音節的數據結果見表4.3.1。

表4.3.1錄音機和錄音筆兩種信道語音音長(ms)
從表4.3.1可以看到:兩種信道下的相同語音音節的音長有一定的差異。方差分析(ANOVA)的結果(見表4.3.2)表明,顯著概率P值為.001,確實差異顯著。按照我們的預測,由于語音的采集過程中采用的是錄音機和錄音筆同步錄音,音長不應該出現差異。究其原因,可能使由于在實際的操作中對音節劃分時有較大誤差。
對語音圖譜仔細觀察的基礎上,我們測量了所有發音人全部語音音節的前四個共振峰的頻率值。表4.4.1僅列出了其中5個單元音兩種信道下的共振峰頻率值。

表4.4.1錄音機和錄音筆兩種信道5個單元音的共振峰(Hz)
比較兩種信道下各個音節的共振峰的頻率數據發現:在兩種信道下每個元音的相應共振峰的數值都非常接近,沒有明顯的差別。單因素方差分析的結果也表明了這一點(詳見表4.4.1)。
方差分析的結果表明:四個共振峰的顯著概率P值都遠遠大于檢驗水準0.05。因此,兩種信道下語音的四個共振峰的差異均不顯著,即信道改變不會引起語音共振峰的顯著改變。由此可以得出這樣的結論:盡管信道不同會對語音的部分聲學參數有影響,但是總的說來,這種影響不足以引起語音話者鑒別的基本參數,如共振峰頻率的明顯改變以及由此導致的語音鑒定結論的錯誤。從這個意義上講,在實際語音案件檢驗鑒定中,當檢材和樣本取自不同信道時,除了對強度及與強度相關參數(如:功率譜)給予注意以外,對于其它參數的檢驗采用常規方法即可。以下以元音i和u舉例說明共振峰的圖譜,如圖4.4.2和圖4.4.3。

圖4.4.2元音i在錄音機(左)和錄音筆(右)信道下的共振峰圖譜

圖4.4.3元音u在錄音機(左)和錄音筆(右)信道下的共振峰圖譜
結論
通過對傳統錄音機和數字錄音筆兩種不同信道的語音的比較研究和統計分析認為:兩種信道下語音的基頻差異不顯著,信道不同沒有引起語音基頻的顯著改變。信道改變時,語音的強度有很大變化,兩種信道下語音的強度差異顯著。因此,在比較和檢驗來自不同信道的語音時,對于信道不同導致的強度改變要給予充分的注意,使用強度參數對比時要慎重。信道的改變一般不會引起音長的顯著變化。我們的差異顯著結果是由于音節切分時的誤差所致。兩種信道下語音的共振峰差異不顯著,由此決定了不同信道語音是不存在本質差異的。
綜上所述,盡管信道不同會對語音的部分聲學參數有影響,但是總的說來,這種影響不足以引起語音話者鑒別的基本參數,如共振峰頻率的明顯改變以及由此導致的語音鑒定結論的錯誤。從這個意義上講,在實際語音案件檢驗鑒定中,當檢材和樣本取自不同信道時,對于話者識別來說不會有本質的影響。當然,對于語音強度及與強度相關的聲學參數(如:功率譜)要給予特殊的注意。
[1]高政.信號處理與系統分析[M].北京:中國水利水電出版社,2005.
[2]崔景旭等.視聽資料檢驗[M].北京:警官教育出版社,2004.
[3]公安部人事訓練局,公安部信息通信局.公安信息通信技術教程(上冊)[M].北京:中國人民公安大學出版社,2001.
[4]韓紀慶,張磊,鄭鐵然.語音信號處理[M].北京:清華大學出版社,2004.
[5]姚天任.數字語音處理[M].武漢:華中理工大學出版社,1992.
Key works:voice channel;analogical signals;digital signals
The Differences in Transmission Channels of Traditional Tape Recorders and Digital Recorders
DENG Zong-quan QIU Li-xin
(The Material Evidence Identifying Center of Tianjin Public Security Bureau,Tianjing,300061)
Voice is one of the most important court evidences.With the development of science and technology,various voice recording equipments appear in people's daily life.From the traditional tape recorders to the digital recorders,mobile phones and MP3,the voice gathering has experienced the development from the analogical signals to digital signals.The different recording equipments and methods will result in.The transmission channels,such as traditional tape recorders and digital recorders,have different effects on voice signals due to different functions of response performances.The traditional tape recorder transmits simulate signals which change continuously while the digital recorder transmits the digital signal from the limited code combination of"1"and"0".Both of them are common models of signaling at present.Previous studies indicate that the effect of signal channel on speech recognition is obvious,especially on automatic speaker recognition.But there is few further study on its effects on visual examination of speech spectrum.
D918.2
A
2095-1140(2011)06-0120-05
2011-07-15
鄧宗權(1983- ),男,天津市公安局物證鑒定中心助理工程師,主要從事數字化模糊圖像處理和音頻處理工作;邱立欣(1982-),男,天津市公安局物證鑒定中心,助理工程師,主要從事數字化模糊圖像處理和音頻處理。
左小絢)