楊磊



編者按:近年來,隨著人工智能技術和硬件設備的快速發展,越來越多的人工智能應用產品走進我們的日常生活,語音識別、語音合成和說話人識別等相關智能產品如雨后春筍般出現在人們的視野內。人們不禁好奇:人工智能領域的語音技術是什么?它和我們中學時代物理課上學習的聲波有什么聯系?本期就讓我們談談有關聲音的故事。
圖像和聲音作為人機智能交互領域的兩個最重要媒介,正在吸引著全世界的科學家開展各類的相關算法研究和產品應用開發。由于二者的數據結構存在重大差異導致相應的研究工作主要分為圖像和聲音兩個基本的發展方向。前者主要是指和圖片處理相關的工作,關注圖片內部元素的空間排列;后者主要是指處理與音頻信號相關的工作,注重音頻信號內部元素的時間關聯性。音頻信號的范圍廣泛,它除了包括語音研究外,還包含其他很多重要而有趣的研究方向,如聲音場景分析、音樂風格分類和語音情緒識別等。因此,我們可以將音頻視作為傳遞信息、主觀意向、情緒表達的重要溝通工具,它是人類最為熟悉和運作最為有效的消息傳遞方式之一。隨著多媒體信息處理技術的發展、計算機數據處理能力的增強,音頻處理技術及其相關現實場景的開發應用正受到越來越多的關注。
聲波、聲音、語音和音樂
認識音頻之前,我們先弄清楚幾個概念——聲波、聲音、語音和音樂。
從物理學范疇來定義聲波。介質是一系列相互聯系、相互作用的粒子,由于聲波的傳播需要粒子與粒子之間的相互作用,所以聲波被定義為一種機械波。一切聲音的產生都源于發音體的振動,發音體振動時,會擾動周圍的空氣或其他媒介,使之產生波動,這樣就形成了聲波。聲波是一種典型的縱波,橫波的傳播方向垂直于振動粒子,而縱波則與振動粒子的傳播方向相同。在空氣傳播過程中,聲波由分別稱為壓縮和稀疏的高壓和低壓區域組成。圖1為空氣傳播過程中聲波波形的一種可視化表現,較亮的區域是低壓,而較暗的區域是高壓。
和其他波相同,我們用速度、頻率和波長這三項指標來描述聲波的性質。波長、頻率和速度的關系為:速度=頻率×波長。振源和介質決定了波長,聲波的速度取決于傳播介質的性質。聲速在固體材料中傳播較快,在液體或氣體中較慢,這是因為材料的密度和彈性性能的不同。固體材料之間粒子的相互作用最強,其次是液體,然后是氣體。介質的這種性質被稱作彈性性質,它是影響聲速的重要因素之一。彈性性能被視為決定材料在外力作用下保持其形狀而不變形的能力。介質密度是影響聲速的另一個重要的因素,介質密度越大,聲音傳播的速度就越快,這兩個因素相比較而言,彈性性能比密度對聲速有更大的影響。眾所周知,在標準大氣壓和溫度下,聲波以每秒343米的速度在空氣中傳播,下頁表1列出了同一振源在不同介質條件下的聲波傳播速度。
聲音是指可被人耳聽到的,其振動頻率在20Hz~20kHz之間的聲波。我們把低于這個范圍的聲音稱為次聲波,高于這個范圍的聲波稱為超聲波。由此可見,聲音是聲波的一個子集,二者的關系如同可見光和光的關系。自然界包含各種各樣的聲音,如風聲、雷聲、樂器聲等。許多動物的聽力范圍要比人類的更廣,如狗可以檢測到低至約50Hz~45kHz的聲波;貓可以檢測到大約45Hz~85kHz的聲波;蝙蝠則可以檢測出高達120kHz的聲波,這主要是由于蝙蝠是夜間活動的生物,它必須依靠聲音回聲定位來進行導航和狩獵,所以它對聲波的檢測范圍更寬廣;海豚檢測出的聲波頻率可以達到200kHz。自然界是否存在次聲波檢測的高手呢?有,它就是大象,它的可聽范圍約為5Hz~10kHz。
那么,語音是如何產生的?首先要明確語音是聲音的一個子集。語音是由人體的發音器官在大腦的控制下做生理運動產生的、有一定的語法和意義的聲音,它的頻率通常在80~1.1kHz,最高可達1.5kHz。人體發音器官主要由肺和氣管、喉、聲道組成。肺是語音產生的能源所在;氣管連接著肺部和喉部,它是肺部與聲道的聯系通道;喉是由一個軟骨和肌肉組成的復雜系統,其中包含著重要的發音器官——聲帶,聲帶為產生語音提供了主要的激勵源;聲道是指聲門(喉)至嘴唇的所有發音器官,包括咽喉、口腔和鼻腔,如圖2所示。聲音經過氣流通道所形成的共鳴系統或經過濾波器以后,頻譜發生改變,再經過口唇和鼻腔時頻譜又發生了改變。不同音位之間的差別可以是由發聲源引起的,也可以是由聲道的形狀和空氣柱的長度不同所引起的。聲波發生后經過一個共鳴系統后,其頻譜可以發生變化。這樣的共鳴系統就相當于一個聲學濾波器,濾波器的作用可以用頻響曲線,即各個頻率的增益或輸出來表達??梢哉f,濾波在言語的產生過程中起到重要的作用。咽喉、口腔、牙齒、口唇、鼻腔組成了一個聲道,此聲道即為一共鳴腔,對從氣管或聲帶發出的聲波進行濾波。之后,通過外部空氣的傳導,到達人的耳朵里,就產生了語音的感覺。
音樂是一種人造聲音,它有節拍和旋律,被視為一種聲音藝術。人們用音程來描述音樂,音程與聲音的頻率有關,頻率比為2:1的聲音稱為八度音,5:4的聲音被稱為三度音,4:3的聲音稱為四度音,3:2的聲音稱為五度音。任何音符都有一個獨特的頻率,任何物體都有一個可以振動的固有頻率。音樂家使用的樂器能夠以特定的頻率振動。以弦樂器為例,弦樂器通過振動的琴弦發出聲音,并且音高會因琴弦的粗細、張力和長度而改變。弦樂器可以以多種方式演奏,并且可以有多種變化。弦樂器的種類繁多,如七弦琴、吉他、小提琴和鋼琴等。所有的弦樂器都會用張緊的琴弦發出聲音,較長的弦相比較短的弦產生較低的音調,較緊的弦相比較松的弦產生更高的聲音,較粗的琴弦相比較細的琴弦產生的聲音更低,這就是為什么即使吉他上的所有弦長都相同但它們的音色卻不同。弦樂器必須通過擰緊或放松樂器上的弦來進行完美調音。弦樂器以不同的方式產生不同的音符,如古箏、豎琴和鋼琴之類的樂器具有一組平行的弦,每個音符對應一個弦,可以單獨聽起來,也可以一起發音以制作和弦。
聽覺的主觀感受:樂音三要素
生活中的各種聲音能夠給人的聽覺帶來不同的主觀感受,有的悅耳動聽,有的刺耳難耐。聲音由于振動的不同可分為樂音和噪音。在音樂中所使用的音也既有樂音又有噪音。樂音的振動比較有規律,聽起來音高很明顯,如果在示波器上則能顯示為規則的正弦曲線。在音樂中所使用的有固定頻率的音一般都是樂音,如小提琴、二胡、鋼琴等樂器發出的聲音。而噪音的振動比較雜亂,聽起來音高不很明顯,在示波器上顯示為十分復雜的曲線。當然,音樂所用的噪音是經過挑選的打擊樂器,如鑼、鼓、梆子、木魚等。在物理學上,把聲源有規律振動時發出的聲音叫做樂音,用響度、音調和音色來描述它,即稱為樂音三要素。
①響度是人耳對聲音強弱程度即聲音輕、響的主觀反應,與聲源的幅度有關。每單位時間傳輸經過介質給定區域的能量數量稱為聲波強度。介質粒子的振動幅度越大,能量通過介質傳輸的速率就越大,并且聲波越強烈,用瓦特/米來表示。響度隨離振源距離的增大而減小,人的健康和年齡對識別不同頻率和分貝的能力有很大的影響。聽覺閾值是人類耳朵能探測到的最微弱的聲音,聽覺閾值一般為10~12瓦特/米或0分貝。分貝是對數標度(以10的冪為基礎),用它來表示聲功率級。人耳對3000~4000Hz聲音的音強感覺最靈敏,正常人能感知的聲強范圍是0~140分貝。
②音調是指聲音頻率的高低,主要由聲音的頻率決定,同時也與聲音強度有關。它表示人的聽覺分辨一個聲音的調子高低的程度。人類感知音調的能力與撞擊在耳朵上的聲波頻率有關。由于通過空氣傳播的聲波是縱波,會在給定頻率下對空氣顆粒產生高壓和低壓擾動,因此,耳朵具有檢測此類頻率并將其與音調關聯的能力。對一定強度的純音,音調隨頻率的升降而升降;對一定頻率的純音、低頻純音的音調隨聲強增加而下降,高頻純音的音調卻隨強度增加而上升。經過音樂訓練的人,能夠檢測到兩種單獨的聲音之間的頻率差僅為2Hz。當同時播放兩個頻率差大于7Hz的聲音時,大多數人都能夠檢測到由于兩個聲波的干擾和疊加而導致的復雜波型的存在。當同時播放(和聽到)某些聲波時,聽到時會產生特別令人愉悅的感覺。例如,頻率為2:1的任何兩種聲音被說成是用八度音程分開的,聽到時會讓人產生特別愉悅的感覺。也就是說,如果一種聲音的頻率是另一種聲音的兩倍,則兩個聲波一起播放時聽起來不錯。類似地,頻率比率為5:4的兩種聲音間隔三分之一,這樣的聲波一起演奏時聽起來也不錯。
③音色也稱音質。樂器和聲帶在振動時發出的聲音都是由一系列頻率、振幅各不相同的振動復合而成的。發音體整體振動產生的音,叫做基音,決定音調;發音體部分振動產生的音,叫做泛音,決定音色;基音和泛音結合在一起而形成的音,叫做復合音。日常我們所聽到的聲音多為復合音。所以,除了音調所對應的頻率f外,還伴隨著一些高頻的泛音成分(2f、3f……),這些泛音成分幅度各不相同,所以造就了獨特的聽覺感受,如下頁圖3所示。對語音而言,男聲基音頻率在64~523Hz左右,泛音可擴展到7~9kHz;女聲基音頻率在160Hz~1.2kHz左右,泛音可擴展到9~10kHz。
音頻信號的處理方法
說完人們是如何描述聲音的,接下來談談機器是如何識別聲波的。我們把有關聲波的信號稱為音頻信號。
①時域與頻域。時域是描述數學函數或物理信號對時間的關系。例如,一個信號的時域波形可以表達信號隨著時間的變化。時域是真實世界,因為我們的經歷都是在時域中發展和驗證的,已經習慣于事件按時間的先后順序發生。以信號為例,信號在時域下的圖形可以顯示信號如何隨著時間變化,如圖4a所示。頻域是指在對函數或信號進行分析時,分析其和頻率有關的部分,而不是和時間有關的部分,和時域一詞相對。通過傅里葉變換將一個復雜的信號分解為更簡單的部分,將復雜信號描述為多個單頻率分量的總和,進而確定復雜信號由哪些頻率組成。傅里葉變換是一種線性積分變換,用于信號在時域和頻域之間的變換,在物理學和工程學中有許多應用。因其基本思想首先由法國學者傅里葉系統地提出,所以,以其名字來命名以示紀念。光學里,棱鏡可以根據波長(頻率)將光分解為不同的顏色。傅里葉變換其實就是數學中的棱鏡,其可以將函數基于頻率分解為不同的成分。函數或信號可以透過傅里葉變換在時域及頻域之間轉換。信號在頻域下的圖形一般稱為頻譜,可以顯示信號分布在哪些頻率及其比例,如圖4b所示。
②時頻分析。一般來說,時域的表示較為形象與直觀,頻域分析則更為簡練,剖析問題更為深刻和方便。信號分析的趨勢是從時域向頻域發展。時域分析是以時間軸為坐標表示動態信號的關系。以語音信號為例,語音信號為非平穩信號,不能直接應用于傅里葉變換,但由于語音信號隨時間變化緩慢,故可以將語音切分成有限長度,應用短時傅里葉變換,從而得到聲譜圖。聲譜圖是時序相關的傅里葉分析的顯示圖像,可以反映音樂信號頻譜隨時間改變而變換,聲譜圖的橫坐標是時間,縱坐標是頻率,坐標點值為語音數據能量。由于是采用二維平面表達三維信息,所以,能量值的大小是通過顏色來表示的,顏色深,表示該點的語音能量越強,如圖5所示。
聲譜圖中顯示了大量與聲音信號特性相關的信息,如共振峰、能量等頻域參數隨時間的變化情況,它同時具有時域波形與頻譜圖的特點。聲譜圖本身包含了聲音信號的所有的頻譜信息。聲譜圖中的花紋有橫線、亂紋和豎直條等,橫線是與時間軸平行的亮顏色帶紋,它們是共振峰,從橫線對應的頻率可以確定相應的共振峰頻率,在一段音頻的聲譜圖中有沒有橫線出現是判斷它是不是濁音的重要標志;豎直條是與時間軸垂直的條紋,每個豎直條相當于一個基音,條紋的起點相當于聲紋脈沖的起點,條紋之間的距離表示基音,條紋越密表示基音頻率越高。
③梅爾頻譜圖(Mel-Spectrogram)與梅爾頻率倒譜系數(MFCC)。音調與頻率有關,頻率低的聲音聽起來音調低,頻率高的聲音聽起來音調高。但音調與頻率不成正比,而近似為對數關系,如圖6所示。音調還與聲音強度及波形有關??陀^上用頻率(Hz)表示音調,主觀感覺上的音調單位為美(mel),它是音調的度量單位。
通過對原始聲音每一幀的短時傅里葉變換,我們捕獲了每一幀頻譜包絡線,即連接所有共振峰的曲線,如圖7a所示。但實驗表明,人耳只專注于某些區域,而不是使用整個頻譜?;谌祟惛兄獙嶒炗^察到人耳僅感知某些頻率分量,類似濾波器的作用。梅爾濾波器組在頻率軸上的間距不均勻,低頻中的濾波器更多,高頻區域的濾波器較少,目的是模擬人耳對聲音的非線性感知,在較低的頻率下更具辨別力,在較高的頻率下則不具辨別力,如圖7b所示。將每一幀原始聲音的頻譜經過梅爾濾波器去處理后,得到梅爾頻譜,進而形成梅爾頻譜圖,如圖7c所示。
共振峰是語音信號中的主頻分量,帶有聲音的重要識別的特征。如圖7a所示,在頻譜中可以看到出共振峰的包絡線。在聲音處理過程中,采用倒譜分析將此包絡線從頻譜中分離出來,進而獲得梅爾倒譜系數,如圖8所示。MFCC是重要的語音特征。
本期,我們從認識聲音入手,最終得到表示聲音的梅爾頻譜和梅爾頻率倒譜系數,從而使一段語音被映射為時間軸上一系列的向量集合,這些集合再通過一些規整的操作后,即可成為反映語音特性的特征集合。下期,我們將討論語音信號處理在人工智能領域的應用。