黃雅婷 石晶 許家銘 徐波,3
雞尾酒會問題(Cocktail party problem)最早是由英國認知科學家Cherry于1953年[1]在研究選擇注意(Selective attention)機制時提出的一個著名問題,該問題嘗試探明在受到其他說話人或者噪音干擾的情況下人類理解目標說話人言語這一過程背后的邏輯基礎,從而建模出能夠過濾出目標說話人信號的智能機器.通俗地描述,雞尾酒會問題關注人類在復雜聽覺環境下的一種聽覺選擇能力.在這種情況下,人可以很容易地將注意力集中在某一個感興趣的聲音刺激上并忽略其他背景聲音,而計算聽覺模型卻受噪音影響嚴重.如何設計一個能夠靈活適應雞尾酒會環境的聽覺模型是計算聽覺領域的一個重要問題,在語音識別,語音增強,說話人識別,語音分離等一系列重要任務上都具有非常重要的研究意義和應用價值.尤其在近些年,隨著智能設備和便攜式計算設備的爆炸式發展,語音已經成為了人類接入智能計算設備和平臺的最重要的入口之一.基于此,面對日常生活中最典型和常見的復雜聽覺場景,如何有效地處理雞尾酒會問題就顯得意義重大.換句話說,針對雞尾酒會問題的計算模型,也即針對復雜聽覺場景的建模方法的好壞直接影響著輸入信息的解析是否完備,關鍵信息是否被有效篩選,干擾信息是否被忽略,以致從源頭上影響了后續任務能否成功完成,其重要性自然不言而喻.如上所述,智能設備的廣泛普及為雞尾酒會問題帶來了前所未有的挑戰和需求,但同時人工智能方法和學科的高速發展也為解決雞尾酒會問題帶來了更好的機遇.
事實上,面對復雜環境的聽覺選擇注意能力是人類在進化過程中聽覺系統形成的一項驚人天賦[2].雞尾酒會效應的產生機制雖然十分復雜,但對于人類來說,在多個聲源之間轉換注意是一件非常輕松的事,以至于我們甚至感受不到這個過程的存在.遺憾的是,目前,智能機器卻難以取得跟人類一樣理想的表現.不過,經過半個多世紀的不斷探索,隱藏在雞尾酒會問題背后的神經機制雖然尚未明朗,但是相關研究依舊取得了一定的成果.例如,研究人員們對于人類聽覺通路的形成過程,聽覺信號在神經傳遞過程中的編碼方式等,已經有了比較清晰的認識.在另一方面,對于當今的人工智能方法和建模方式而言,尤其對于神經網絡和深度學習的方法,借鑒人腦過程中的相關機制來構建類腦的,腦啟發式的模型已經成為一種非常有效的手段.比如,卷積神經網絡(Convolutional neural networks,CNN)的設計過程正是借鑒了人類視覺通路中感受野和層次化紋理感應的相關機制,有效地構建了類似的計算模型框架,從而在圖像處理領域取得了非常卓越的進步.類似地,我們認為,要真正解決雞尾酒會問題,需要從聽覺研究取得的相關成果中有所借鑒.因此,本文從人類處理雞尾酒會問題的相關聽覺機制出發,總結了聽覺選擇過程中的一些關鍵機制,并在之后詳細對比了目前就雞尾酒會問題建模的一些計算模型.
本文具體章節安排如下:第1節介紹與雞尾酒會問題相關的聽覺機制;第2節介紹之前就雞尾酒會問題進行建模的多說話人語音分離計算模型;第3節介紹基于聽覺注意的多說話人語音分離計算模型;第4節介紹近期就雞尾酒會問題進行建模的多說話人語音識別計算模型;第5節就目前研究存在的問題進行總結并對未來的研究方向進行展望.
本節將就至今為止聽覺通路的相關神經學和心理學機制進行一個簡單的介紹,以期對雞尾酒會問題相關的計算模型的建立提供基礎的生理學背景知識,并能夠起一定啟發作用.
人類聽覺系統能夠在復雜的聽覺環境下,魯棒地對外界的各種聲音進行編碼,加工和處理.盡管對聽覺通路的研究并沒有對視覺通路的研究那般透徹,到目前為止,相關的研究對聽覺通路中的早期皮層下處理過程已較為清楚,并開始對聽覺通路中的后期初級聽覺皮層及之后的皮層結構的功能進行深入研究[3].聽覺通路從耳蝸開始,通過聽神經中的神經元以短電脈沖即動作電位的形式傳遞信息[4?5],經過4~7個核團傳輸到聽覺皮層.相比視覺通路,聽覺通路經過了數量更多的神經核團的處理.雖然聽覺通路中處理復雜聲音的具體神經編碼方式尚未明確,不過已發現了以下三種主要的編碼方式:頻率編碼(Rate coding),時間編碼(Temporal coding)和群體編碼(Population coding).頻率編碼即神經元通過動作電位的發放頻率來編碼刺激信息.在理論和實踐層面,無論在神經科學還是計算建模方面,神經元的發放頻率都被廣泛使用來描述神經元的活動.當神經元發放動作電位的時間攜帶與刺激有關的信息時,我們稱這種編碼方式為時間編碼.相比頻率編碼只考慮一段時間內的脈沖發放頻率,時間編碼多了時間這個維度,比頻率編碼更為有效.而群體編碼則指一個神經元群組共同編碼刺激的編碼方式,例如耳蝸中的毛細胞對聲音頻譜的編碼就屬于群體編碼.每個毛細胞對應一條具有一個最佳響應頻率的頻率響應曲線,各個頻率的毛細胞在耳蝸中按照一定的空間位置形成一個拓撲分布(Tonotopy).當某個頻率的刺激出現時,就會激活最佳頻率與該刺激相近的一組毛細胞的活動,因此單個頻率是由一組神經元來編碼的.
聽覺通路中各部分的連接非常復雜.類比視覺系統的腹側通路和背側通路,一般認為聽覺通路中也存在腹側通路用來處理聲音的非空間屬性和背側通路處理聲音的空間屬性.但也有研究表明分布式的自適應網絡可能比上述的兩條并行通路更適合解釋聽覺認知,在這種理論下,腦區之間的反饋連接有助于促進聽覺物體選擇[6].除了串行,并行和反饋連接之外,聽覺通路中還存在匯合連接,即某個區域整合從另外幾個區域得到的信息,例如下丘(Inferior colliculus,IC);發散連接,即某個區域的信息傳遞到其他幾個區域進行處理,例如內側膝狀體(Medial geniculate body,MGB);短路連接,比如從蝸核(Cochlear nucleus,CN)直接連到內側膝狀體[3].
回顧雞尾酒會問題被提出的場景,當時英國認知科學家Cherry正是在研究人類選擇注意機制時闡述了這一著名問題.在人類進化過程中,由于大腦中央處理部(Central processor)的能力有限,繼而形成了選擇注意機制來對需要更詳細加工的部分進行進一步加工[7].事實上,人類對復雜聽覺環境認知時,聽覺注意(Auditory attention)往往起到非常重要的作用.有實驗研究發現,人類不可能聽到或者記住兩個同時發生的語音.相反,人類卻可以精準地從被混合的復雜語音中選擇出來其注意到的語音,以及同時忽略掉其他語音或者噪音等背景音[8].以上種種研究表明,聽覺注意在人類處理復雜聽覺場景中是非常重要且必不可少的一個機制.聽覺系統處理外界刺激一般可以分為自下而上(Bottom-up)的刺激驅動的過程和自上而下(Top-down)的任務驅動的過程.自下而上的處理過程是指從輸入的刺激進行處理,繼而完成相應的任務.自上而下的處理過程是指在高層的抽象概念或信息的指引下完成特定的任務,其過程通常涉及長期記憶和學習機制.傳統聽覺研究認為,在自下而上的過程中,在處理較為簡單的刺激時,聽覺系統遵從Old-plus-new原則,即信號中的突然改變可以認為是源自單一聲源的改變,而頻譜中若只有能量增加則可以認為原聲源不變而有新聲源出現.但是自然界中充滿了各式各樣復雜的聲音,很難出現像傳統聽覺研究中的單一頻率的純音刺激,因而Old-plus-new原則往往難以解釋復雜聲音.近年來,時間相干性(Temporal coherence)的提出較為有效地解釋了復雜聲音的處理[9].時間相干性理論主要基于以下基本假設:來自同一聽覺流(Auditory stream)的各個特征通道在時間上的變化是高度相關的,而來自不同聽覺流的各個特征通道在同一時間同時變化的可能性很低,從而根據時間相干性,我們可以將各個聽覺流分離開來.盡管聽覺注意的參與對于聽覺流的分離并非必須,但是其參與對于聽覺流的形成依然有十分深刻的影響.當新奇刺激呈現的時候,比如不熟悉的說話人的語音,由于沒有先驗知識,時間相干性在驅使注意綁定屬于同一個聲源的特征時起重要作用.時間相干性在綁定跨模態特征方面也起到一定作用.
另外,聽覺系統對新奇的刺激高度敏感.刺激特異性適應(Stimulus-specific adaptation,SSA)是指聽覺上行通路中神經細胞對普遍或者重復性的聲音的響應有所降低,而對新奇,稀有的聲音維持高度敏感性的一種現象[10].刺激特異性現象跟大腦中用以維持和更新聽覺表示的基于規律(Regularity)的改變機制有關,并涉及感知記憶的加工,即涉及自上而下的先驗知識.這里聽覺規律是指聲音序列中的重復可預測的模式.研究表明SSA現象是由以下兩種因素共同決定的:“局部效應”和“局部加整體”.局部效應是指對當前刺激的響應僅由過去短期的刺激歷史決定.局部加整體附加考慮了每個刺激的整體出現概率[11].Winkler等認為基于規律的表示具有預測性,是感知物體–即感知的基本單元[12].同時,聽覺系統還能在嘈雜的環境中根據上下文信息補全被噪音掩蓋的缺失的音素或音節,這種現象稱為音素恢復(Phonemic restoration).最近有研究顯示,聽覺中樞的一個區域能夠實時補充和恢復缺失的音素或音節,而且大腦中更高級的認知區域的神經活動能夠在噪聲開始之前就預測被試(心理學實驗或心理測驗中接受實驗或測試的對象)要報告的單詞[13].這些研究給預測加工(Predictive processing)理論提供了有力支持,表明預測加工在感知中起到至關重要的作用[14?16].預測加工是近年來認知神經科學中愈發受到關注的前沿理論,認為大腦是一個具有預測能力的層次化結構,持續地對未來的內部狀態進行預測,目的在于最小化內部狀態和外部感知輸入的預測誤差以對未來的刺激進行近似.當刺激以一定的非隨機的方式呈現出來的時候,大腦會將外在刺激與已存儲的規律進行匹配,并根據預測誤差對存儲的規律進行一定的調整;即使對于隨機刺激或者新奇刺激,大腦依然采取預測加工的策略來處理[17].而預測加工機制和選擇注意機制的聯系,在神經科學中甚至提出了兩種看似會得到完全相反結果的理論.Pearce-Hall理論認為由于人腦處理資源有限,預測加工是誤差驅動的,因而為了最大限度利用有限的計算資源,應該將更多的選擇注意關注到預測誤差較大的刺激[18].而Mackintosh-Kruschke理論則認為選擇注意是在特征層次的,應該更多關注到那些能得到更好的預測的特征上[19?20].事實上,這兩種理論關注的層次并不相同,前者是在刺激層次上來進行討論的,而后者是在特征層次上進行討論的,因此可以視為互補[21].
此外,各個模態之間的信息處理不是相互獨立的.多感知整合(Multisensory integration)通過組織不同模態的輸入,在多模態腦區(Heteromodal brain areas)中進行處理,得到噪音更少的,更魯棒的目標信號,從而使背景噪音和目標之間的分離,連續時間之間的分割更加容易[22].研究表明,視覺輸入對其他模態的信息處理具有非常強的影響[23].其中,麥格克效應(McGurk effect)顯示嘴唇及其周圍區域的動作對言語處理起到關鍵作用.將一個音節“ga”在配合發作“ba”的唇部動作的視頻呈現給被試看,被試稱聽到的音節既不是“ga”也不是“ba”,而是“da”[24].而且嘴唇和下顎的動作跟言語的聲學包絡相關,通過觀看說話人的正在說話的臉,能夠增強聽覺皮層對言語的跟蹤和對目標說話人的注意選擇[25].關于多感知整合發生在哪個階段目前未有定論,有三種可能:一是早期整合(Early integration),在相當早的處理階段就進行融合,是一個前注意(Pre-attentive)加工過程,即感知驅動注意[26?28],框架圖如圖1(a);二是晚期整合(Late integration),在整合過程中需要注意的參與[29?30],框架圖如圖1(b);三是并行整合(Parallel integration),即發生早期整合還是晚期整合取決于手頭上任務可獲得的資源[31],框架圖如圖1(c).

圖1 多感知整合框架[22]Fig.1 Multisensory integration framework[22]
語音分離是解決雞尾酒會問題的第一步.在過去的數十年,研究人員嘗試用各種方法解決多說話人語音分離問題,但是機器在語音分離上的表現與人類相比,效果不甚理想.根據麥克風的個數,語音分離算法可以分為單通道語音分離算法和多通道語音分離算法.多通道語音分離相比單通道語音分離多了空間信息.常見的多通道語音分離算法有基于麥克風陣列的波束成形(Beamforming)算法[32?33]和多通道盲信號分離(Blind signal separation,BSS)算法[34].基于麥克風陣列的波束成形算法通過麥克風陣列的恰當配置進行空間濾波,根據空間位置來削弱干擾信號而增強來自期望聲源的各通道信號的加和,通常可以分為可控波束成形技術和自適應波束成形技術.可控波束成形技術的濾波器參數的確定依賴于聲源信號的頻譜特性的先驗知識,主要有延遲–累加(Delay-and-sum)波束成形算法和濾波–累加(Filter-and-sum)波束成形算法.自適應波束成形技術的濾波器參數的確定則基于期望信號和干擾信號的統計屬性,通過優化一定的準則來確定濾波器參數,常用的準則有最大信噪比(Maximum signal-to-noise ratio,MSNR)準則,最小均方差(Minimum mean-squared error,MMSE)準則,最小方差無失真響應(Minimum variance distortionless response,MVDR)準則和線性約束最小方差(Linear constraint minimum variance,LCMV)準則.由于波束成形算法利用空間信息來分離語音,因此當目標語音和噪聲源位置相近的時候,算法就會失效.除此以外,當聲學環境的混響時間很大或者麥克風數少于信號源數的時候,表現也會大大下降.而多通道盲信號分離算法主要分為線性混合模型和卷積混合模型.通過多個麥克風獲取多個信號源也就是聲源S(t)混合后的信號X(t),其混合過程H未知,見式(1).

通過假設信號源之間統計上相互獨立,可以克服對信號源和混合過程缺乏先驗知識這個問題.因此可以使用獨立成分分析(Independent component analysis,ICA)來對分離過程G進行建模獲得重建信號,見式(2).當麥克風數少于聲源數時,傳統盲信號分離就會變得困難.

一般來說,單通道語音分離比多通道語音分離更具挑戰性.在后文中,除非明確指明多通道語音分離算法,約定語音分離指的是單通道語音分離.下面根據輸入的不同,將語音分離算法分為只利用聽覺信息的語音分離算法和引入視覺信息的語音分離算法進行介紹.
2.1.1 傳統語音分離算法
根據算法原理的不同形式,傳統的語音分離算法可以分為基于信號處理的算法,基于分解的算法和基于規則的算法[35].基于信號處理的方法從信號處理的角度估計噪音的功率譜或者理想維納濾波器,通常用在語音增強中,比如譜減法[36],維納濾波器[37?38].該類算法假定語音服從一定的分布,而噪音是平穩或慢變的.但是真實環境中的語音很難滿足這些假設條件,此時這類算法就會失效[39].基于分解的算法的基本假設是聲音的頻譜具有低秩結構,因此可以用一個數量比較小的基來進行表示,如式(3)所示,

這里,頻譜X∈RF×T被分解成基矩陣W∈RF×K和激活矩陣H∈RK×T的矩陣乘積,其中K是超參數,通常比F和T小很多.在語音處理中,一種最廣泛的做法是令W和H非負,從而得到非負矩陣分解(Non-negative matrix factorization,NMF)[40].NMF能夠挖掘到語音或噪音中非負數據的基本譜模式[39].在NMF的基礎上引入其他約束,則可以得到NMF的不同變種.稀疏NMF[41?43]對NMF加入稀疏約束,來提高分解的魯棒性.卷積NMF則將頻譜X分解成矩陣卷積的形式來對時間依賴進行建模,此時基矩陣隨時間變化,每個時刻的基矩陣編碼了該時刻的頻譜,激活矩陣也對應變化.RNMF(Robust non-negative matrix factorization)則將NMF與RPCA(Robust principle component analysis)結合起來,將頻譜分解成重建信息與低秩殘差,其中重建信息代表語音,而低秩殘差代表噪音[44?45].但是基于分解的方法屬于淺層模型,假定頻譜可以表示成基的線性組合,而聲音本身卻是高度非線性的,因此這種假設過于簡單,不能對聲音的長時依賴等建模.為了挖掘語音中豐富的時空結構和非線性關系,后續有工作將NMF拓展成深層結構,提出DNMF[46],L-NMF[47]等結構,從而獲得了性能的巨大提升.另一方面,從計算角度來看,基于分解的方法計算代價昂貴,學習到的表示所需要的參數會隨著數據變化的增長而呈現線性增長,一般采用迭代算法求解,計算復雜度高,難以滿足實時應用要求[35].基于規則的算法,也指計算聽覺場景分析(Computational auditory scene analysis,CASA),旨在建立像人類一樣處理雞尾酒會問題的智能系統用以分離混合的聲音[48].這類系統一般根據聽覺場景分析研究中發現的一些規則或機制來對雞尾酒會問題進行建模.
CASA系統一般分為兩個階段:特征提取和特征綁定的階段,分組之間的競爭階段[49].特征提取階段會經過一個聽覺外周模型提取出聲音的特征屬性,然后根據這些特征屬性來進行分組得到不同的聽覺流(Auditory stream).常用來分組的聲音屬性,也就是分組線索(Grouping cues)有聲音的開始和/或結束時間,諧波結構,基音,音色和位置等[6].根據建模遵循的規則不同,CASA模型主要可以分為三種:基于貝葉斯推斷規則的模型,基于神經計算的模型和基于時間相干性的模型[49].這幾類模型主要在處理分組之間的競爭和對預測機制的建模上有所不同.基于貝葉斯推斷的模型中,預測與分組之間的競爭密切相關,通過調整各分組之間的先驗概率來實現競爭機制,同時用先驗概率來得到預測結果;而分組的數量可固定也可不作限制.Barniv等在其模型中不對分組的數量也就是分類數作限制,當有輸入的條件似然低于一個閾值的時候,定義一個新類,此時原有類的先驗概率會降低并和條件似然成比例,但是這個輸入不一定會被分到新的類,只有當更多的輸入映射到新的類對應的特征區域后,新類的先驗概率有所增加,才會參與分類[50].基于神經計算的模型則以神經元為單位來表示聽覺流,聽覺流之間的競爭則由神經元之間的抑制連接來實現.這類方法主要基于神經科學中發現的神經振蕩(Neural oscillation)[51]機制,采用振蕩脈沖網絡來對分離過程進行建模.Wang等在其兩層振蕩脈沖神經網絡模型中采用局部興奮(Local excitatory)和全局抑制(Global inhibitory)的動態機制,根據振蕩子之間的同步性來分離不同的聽覺流[52].基于神經計算的模型并不像基于貝葉斯推斷的模型一樣本身就對預測機制進行建模,不過Mill等在他們的模型中額外加入了預測機制,即對接下來的聲音預測誤差的表示進行修正和通過相同聲音的聽覺流之間的抑制來促進其競爭[53].基于時間相干性的模型則是根據上一節提到的時間相干性來對分離過程進行建模,注意和記憶可加入到模型中,也可以額外加入預測機制[54?56].對比這三類模型,基于貝葉斯的模型本身就具有預測機制,而神經計算模型和基于時間相干性的模型則不具有這種特性.不過基于貝葉斯推斷的模型的競爭機制基于對先驗概率之間的調整,相對其他模型來講比較抽象,而神經計算模型則更為直觀,而且更容易拓展.基于貝葉斯推斷的模型和神經計算模型假設,特征提取和特征綁定的過程和分組之間的競爭過程是相互獨立的,但實際上兩者相互影響;相比之下,基于時間相干性的模型則直接提供了一個一步解決的方案,用時間相干性來建立特征綁定和聽覺流形成.不過基于時間相干性的模型并沒有提供捕捉聲音中的高階規律的途徑,而已有研究表明高階規律對聽覺流的分離有幫助作用.可以注意到這三類模型適用于解決聽覺處理的不同問題,基于貝葉斯推理的模型提供了使用先驗知識的預測框架;神經計算模型里的競爭機制更為直觀;基于時間相干性的的模型則對特征綁定和聽覺物體形成問題提供了較好的解決方案[49].但是CASA模型也有一些缺陷,由于這些模型基本上是基于聽覺場景分析研究得到的一些規則來進行建模,而聽覺場景分析的研究一般采用較為簡單的刺激,得到的規則在復雜聽覺環境下并不一定適用,大多數CASA模型的任務目標是為了重現聽覺場景分析中的實驗結果,很少有能應用到實際中的大規模數據集上的模型;而且,大部分CASA模型嚴重依賴于分組線索,尤其是基音提取的準確性,而這在復雜聽覺環境下又難以保證,因此語音分離效果并不理想[35].
2.1.2 基于深度學習的語音分離算法
近年來,隨著計算成本的降低與計算速度的提高,語音分離任務的表現越來越得益于數據驅動型方法,尤其是深度學習方法.CASA模型的一個主要目標是學習一個理想二值掩蔽(Ideal binary mask,IBM),來決定頻譜中的目標信號在哪些時頻單元(Time-frequency units)中做主導,Wang等將時頻單元級別的特征作為深度神經網絡(Deep neural networks,DNN)的輸入,將學習到的特征和原始特征拼接在一起作為輸入,利用線性SVM 進行二分類并得到IBM,在一定程度上緩解了傳統語音分離問題難以在大數據集上進行訓練的問題[57].一方面,時頻單元級別的特征能夠關注到更加微小的細節,卻缺乏對語音的全局性和整體性的描述,無法獲得語音的時空結構和時序相關性[39];另一方面,IBM的估計若出錯,則會導致信息丟失過大[58].在后續工作中,Narayanan等將相鄰子帶的輸出作為最后的分類器的輸入,將理想比值掩蔽(Ideal ratio mask,IRM)作為DNN的訓練目標,做語音增強任務[59].上述兩項工作需要對每個濾波器組通道(Filterbank channel)訓練一個神經網絡,當濾波器組通道數太大的時候,訓練如此多的神經網絡非常不實際,難以達到拓展性要求.為解決這個問題,Huang等提出用一個神經網絡直接同時訓練所有特征通道和掩蔽函數應用到兩個說話人的語音分離任務上.在每一個時刻,將落在以該時刻為中心的時間窗口內的特征拼接起來作為深度神經網絡或遞歸神經網絡(Recurrent neural networks,RNN)的輸入,學習得到兩個聲源的頻譜,并在神經網絡之后額外加入一個掩蔽層將IRM 整合到網絡中,從而聯合地訓練優化整個網絡,見式(4)和式(5),其中Xt表示在t時刻混合語音的頻譜,和表示神經網絡的預測,表示最后經過掩蔽層得到的輸出[60],⊙為逐個元素依次相乘(Element-wise multiplication),系統框架如圖2.


圖2 Huang等提出的基于深度學習的語音分離系統的結構[60]Fig.2 The structure of the proposed deep learning based speech separation system by Huang et al.[60]
文獻[60]還提出一個區分性的訓練目標使得在考慮源信號與預測信號的相似性的同時,還考慮預測信號與其他源信號的相似性,見式(6),其中γ是超參數.

在其后續工作中,文獻[61]進一步拓展該框架為一個應用更為廣泛的通用框架,將深度遞歸神經網絡(Deep recurrent neural networks,DRNN)和堆疊遞歸神經網絡(Stacked RNN)應用到模型建模中,并通過實驗結果驗證了額外的掩蔽層和區分性訓練的有效性.Du等則應用深度神經網絡模型作為回歸模型,利用其高度非線性特性對混合語音與純凈語音之間的映射關系進行建模[62?63],作者將對數功率譜作為DNN的輸入,用DNN直接學習輸出目標說話人或者目標說話人和干擾說話人的對數功率譜,再對得到的信號進行重建.在其后續工作中,作者將這個模型加以拓展,提出SND-DNN(Signalnoise-dependent DNN)系統利用一個正信噪比的DNN和一個負信噪比的DNN克服單個DNN難以學習不同信噪比下混合語音的變化特性的問題,并聯合說話人識別和語音分離采取多遍算法獲得了比單個DNN更好的分離表現[64].Weninger等將信號估計(Signal approximation,SA)作為目標,并將長短時記憶網絡(Long-short term memory networks,LSTM)應用到語音分離問題中,其實驗結果顯示LSTM比DNN在分離性能上更優[65].其中,SA通過訓練一個比值掩蔽估計器(Ratio mask estimator)來最小化純凈語音和預測語音之間的頻譜幅度之間的差距,見式(7)和式(8),其中X(t,f)和(t,f)分別是混合語音和預測的語音的頻譜幅度,SMM(Spectral magnitude mask)是傅里葉變換掩蔽,RM是對SMM的一個估計.信號近似可以看作是比值掩蔽方法和頻譜映射方法的結合[66].

總的來說,早期利用基于深度學習的語音分離算法在模型網絡架構上較為簡單,根據訓練目標主要可以分為三類:基于時頻掩蔽的算法[57?60],基于頻譜映射的算法[62?64]和基于信號近似的算法[65].基于時頻掩蔽的算法相比基于頻譜映射的算法,能夠更好地發現目標和干擾說話人之間的互信息,運用在數據驅動的深度學習算法中能夠更好地利用訓練集中大量的訓練數據.而基于頻譜映射的算法相比于基于時頻掩蔽的算法,則對數據中的SNR變化更不敏感,在低SNR的時候表現比基于時頻掩蔽的算法表現會更好[67].后續的工作多數在這三類模型基礎上進行擴展,對網絡架構及訓練方法等進行改進.
上述基于深度學習的模型在利用上下文信息的時候時間分辨率固定,而難以發現尺度較大的時序依賴性并進行建模,引入不同時間分辨率的表示或多尺度上下文時間窗口的模型有助于整合更長時間內的上下文信息.對比不同分辨率的表示或基于單一尺度上下文時間窗口的模型,在語音分離任務上更勝一籌[67?68].Sprechmann等[68]提出每層產生不同時間分辨率的特征圖的Wavelet pyramid scattering transform網絡,并將學習到的多時間分辨率特征作為深度神經網絡,卷積神經網絡的輸入,實驗結果顯示使用了多時間分辨率的小波特征作為輸入的模型在語音分離各項指標SDR,SIR和SAR[69]上表現遠超使用單一時間分辨率的短時傅里葉變換表示作為輸入的模型[68].Zhang等利用集成學習的思想提出Multi-context networks,對有不同尺度的上下文窗口時間長度的DNN的輸出作平均(Multicontext averaging,MCA)或者堆棧(Multi-context stacking,MCS),其中MCS模型的模塊可以是基于時頻掩蔽的模型,基于頻譜映射的模型和基于信號近似的模型;實驗結果顯示Multi-context networks比單一固定上下文窗口時間長度的DNN在語音分離任務上效果更好[67].深度神經網絡模型訓練學習對特定說話人的掩蔽函數或者頻譜映射常常面臨兩個困難,即排列問題(Permutation problem)和輸出維度不匹配問題(Output dimension mismatch problem).前者通常是由于訓練樣本的目標標簽有序,而混合語音中各個源的順序卻是順序無關而導致.后者一般源自大多數模型都采用的固定源的數目的設置,導致一些模型不具備適應混合語音中源數目可變特性的靈活性[70].Hershey等將深度神經網絡模型和譜聚類結合起來,提出深度聚類(Deep clustering,DC)算法來解決這兩個問題[71?72].DC算法提出一個目標函數使得DNN學習到一種單位嵌入表示,使得同一個源信號占主導地位的時頻單元之間距離最小,而不同源信號占主導地位的時頻單元之間距離最大,用這樣的嵌入表示得到的目標函數具有低秩的特性,從而在實現的時候高效地計算出矩陣的導數,降低譜聚類的計算復雜度,同時獲得良好的聚類效果.設V=fθ(x)∈RN×D是通過參數為θ的深度神經網絡學習到的D維嵌入表示且|vi|2=1,則A=V VT可以用來表示一個估計的N×N的親和度矩陣.Y={yi,c}∈RN×C是一個指示矩陣,將每個元素i,在語音分離的場合i指時頻單元的索引,映射到C個聚類之中:即yi,c=1表示元素i屬于聚類c,因此(Y YT)i,j=1表示元素i和元素j同屬于一個聚類c,(Y YT)i,j=0表示元素i和元素j屬于不同的聚類,則A?=Y YT可以表示一個真實的N×N的親和度矩陣.因此,DC定義了一個目標函數,來使得估計的親和度矩陣盡可能接近真實的親和度矩陣,目標函數見式(9),其中是Frobenius范數.

DC有較好的泛化能力,直接將只用兩個說話人混合語音進行訓練得到的模型應用到分離三個說話人混合語音的任務上,依舊能夠獲得較好的分離表現.但由于DC優化的目標函數是映射到嵌入空間的源的親和度矩陣而非信號本身,后續需要另外用聚類算法來進行聚類,因而不是一個端到端的系統.Yu等提出幀級別的具有排列不變性的訓練方法(Permutation invariant training,PIT)來解決排列問題[73],具體框架如圖3.PIT方法的關鍵在于誤差回傳的時候計算預測輸出序列與標注序列各種排列的均方差,并選擇最小均方差用于優化參數.在后續工作中,研究者提出語料級別的具有排列不變性的訓練方法(Utterance-level permutation invariant training,uPIT),解決了PIT方法中的說話人跟蹤問題(Speaker tracing problem)[74].Chen等[70]根據人類聽覺認知研究中的感知磁效應(Perceptual magnet effect)[75]提出深度吸引子網絡(Deep attractor network,DANet),從而做到端到端訓練.和DC類似,DANet在訓練階段用訓練神經網絡將語音頻譜映射到一個D維嵌入空間,不同的是之后DANet會在嵌入空間內根據時頻單元的嵌入表示生成各個源的吸引子,之后通過每個時頻單元與每個吸引子的相似性來估計每個源的掩蔽,見式(10),其中A是吸引子矩陣,V代表嵌入空間,M代表掩蔽.


圖3 Yu等提出的基于排列不變性訓練方法的雙說話人語音分離系統的結構[73]Fig.3 The structure of the proposed PIT-based two-speaker speech separation system by Yu et al.[73]
在測試階段,可以用兩種策略來估計吸引子,第一種是用K-means算法對時頻單元進行估計得到吸引子,第二種是根據吸引子在嵌入空間的位置相對穩定使用固定的吸引子.DANet對比DC,通過生成吸引子有效地將與源相關的信息整合進來;當吸引子矩陣變成自由參數的時候,掩蔽沒有有關源的信息.
前面提到的模型只運用了聽覺信息本身作為輸入來源.然而,只使用聽覺信息的模型在分離相似聲音的時候,比如相同性別的說話人的聲音時,面臨困難[76].在實際生活中,人類在進行聽覺選擇的同時,通常也會接受其他形式的信息來源.其中,視覺信息在處理雞尾酒會問題中也起到了非常明顯的促進作用.基于這種認識,近年來,研究人員開始將視覺信息作為額外的輸入信息引入到語音分離和雞尾酒會問題的建模當中.根據視覺信息和聽覺信息之間具有高度相關性的觀測,早期的研究一般尋找與聲學特征高度匹配的視覺特征集合作為語音分離的輔助信息,比如提取嘴唇及其周圍的區域與唇部運動相關的視覺信息,來區分噪音環境下的靜音片段和言語片段[77],為音頻的頻譜提供估計信息[78?79].另一種思路則是通過一些統計模型,比如隱馬爾科夫模型或者高斯混合模型對視聽覺信息的分布進行建模,對視聽覺信息的高度非線性相關性進行建模,通過最大化分離的語音和視頻信息之間的相關性[80],或者采用傳統的盲信號分離算法[81]來得到最后的分離結果.Barzelay等提出了一個匹配準則,獎勵視聽覺信息之間的時間相干性而懲罰不匹配,尋找各個模態的顯著特征之間的對應關系[82].Casanovas等提出BAVSS(Blind audiovisual source separation)系統,其中根據視頻中檢測到的源在音頻中存在有且僅有一個聲源與其對應的假設和各聲源不太可能每時每刻都混合的假設,用視覺信息確定說話人數目和各自說話的時間片段[83].但是,上述這些工作一般只能在孤立語音或者小數據集上工作.近幾年,深度神經網絡模型的引入使得視聽覺語音分離能夠在更大規模的數據集上工作.Hou等提出AVDCNN(Audio-visual deep CNN)模型,分別利用卷積神經網絡提取混合語音的信息和唇部圖片的信息并將其融合,在多任務學習的學習目標和編碼器–解碼器框架下,恢復出增強語音和重建的唇部圖片[84].受啟于機器唇讀的研究進展,Ephrat等用Vid2Speech網絡[85]將已知說話人無聲視頻作為輸入生成音頻的頻譜,在分離兩個說話人的情況下,根據生成的兩個說話人的頻譜強弱,生成IBM或者IRM作用于混合語音的頻譜得到分離的語音[76].與Hou的工作類似,Gabbay等提出相似的基于編碼器–解碼器的深度學習模型來解決視覺語音增強,不同的是后者沒有恢復輸入的唇部圖片,而是在訓練集中通過添加同一個說話人的聲音作為噪音,促使網絡利用視覺信息[86].近期,同時利用視覺信息和聽覺信息來處理雞尾酒會問題的方法得到了廣泛的關注.其中最主要的一種方法是利用語音和視覺信息的對應性,完成自監督訓練的過程,以達到利用視覺信息作為刺激來完成語音分離的任務.例如,Owens等通過自監督學習[87]利用視頻中視覺信息和聽覺信息本身的對齊性,用神經網絡學習視覺和聽覺特征是否在時間上對齊,在較早的階段就混合視覺和聽覺信息而得到不同時間分辨率的多模態整合特征,用在On/O ffscreen語音分離任務上[88].Ephrat等構建了大規模視聽覺數據集(Audio-visual dataset),提出基于神經網絡的AVSpeech模型,在語音分離任務中利用外部視頻分析工具的人臉識別功能引入人臉信息作為刺激,訓練得到了一個說話人無關的模型,并在真實場景下取得了較好的效果[89].最近還有一些雞尾酒會問題的延伸工作,對視頻中的發聲物體的聲音進行分離和定位[90?92].
對第2.1節和第2.2節的語音分離算法進行一個簡單的總結和對比,如表1.基于信號處理的算法,基于分解的算法和基于規則的算法往往只能在較小規模的數據集上工作,且難以處理開放數據集的情況.隨著數據的不斷積累和計算設備性能的大幅進步,處理雞尾酒會問題的模型已經逐漸從基于信號處理,分解和規則的方法轉變成為通過數據驅動形式進行學習的方法.以深度學習的一系列方法為代表,當前模型可以在大規模數據集上進行訓練,從而在給定的條件下得到比較好的效果.然而,當前對雞尾酒會問題建模的深度學習方法雖然充分利用了大規模數據集帶來的優勢,卻也一定程度上過分依賴模型本身的優異性能,從而忽略了從人類聽覺回路中進行借鑒,造成了可解釋性較差,適用情況較局限等一系列問題.值得注意的是,近期出現了一批語音分離的工作,將人類在雞尾酒會環境中進行聽覺選擇的部分機制,集成到現有的深度學習方法當中來,從而解決了一些之前工作中存在的問題,獲得了更好的可解釋性和比較優秀的性能.本文將在第3節介紹這一類新方法的代表工作.
回顧第1節,我們知道聽覺注意在人類處理復雜聽覺場景時是非常重要且必不可少的一個機制,同樣,對于雞尾酒會問題的語音分離計算模型而言,聽覺注意也應該得到關注.但從第2節回顧的模型可以發現,現有模型大多數只有自下而上的推斷過程,也就是說,各類模型往往對復雜的聽覺信號進行直接處理,通過數據驅動的方式進行大量學習,分離出可能出現的多條語音通道,而忽略了自上而下的聽覺注意過程.認知心理學研究表明,自上而下的聽覺注意過程有利于更好地利用先驗知識,使人在雞尾酒會環境中的表現更加高效而魯棒.具體而言,Bregman[7]和Ciocca[93]等曾指出,除了聲音在環境當中的物理屬性,聽者也會探索他們近期或者長期經驗中已經學習到的知識來更好地處理復雜的聽覺場景.事實上,這種學習到的經驗或者說概念中就包含多種不同來源.例如,其可能來自于聽者對于各類聲源的統計特性的熟知,可能源于對于某個特定聲源的短期或者長時記憶,甚至是能夠幫助聽者更好地關注目標聲源從而忽略其余背景干擾的這種注意狀態.從聲源信號處理的角度來看,這一類自上而下的過程相當于對于可能的最優解施加了一個限定范圍,從而減少了許多無謂的重復處理的過程,繼而在解決雞尾酒會問題中起到了非常重要的作用[94].
基于以上認識,Xu等首次將自上而下的任務驅動的聽覺注意過程和自下而上的刺激驅動的推斷過程整合到一個統一的框架而提出ASAM(Auditory selection framework with attention and memory)[95],具體框架如圖4.在ASAM 中,模型設置了一個長期記憶單元,并在處理過程中對該記憶的各個元素進行更新和提取的操作.該長期記憶單元類似人腦記憶模型中的長時記憶(Long-term memory,LTM)模塊,在整個模型中起到了非常重要的作用.具體來說,在模型當中,長期記憶單元由多個槽組成,每個槽用以存放并更新學習到的有關說話人的聲紋特征.在自下而上的過程中,根據刺激對長期記憶進行更新,長期記憶被建模成一個三元組M,見式(11),其中向量K是記憶鍵值,矩陣V是記憶的值,而向量A記錄長期記憶槽中存放記憶的年齡.

表1 對雞尾酒會問題建模的單通道語音分離計算模型的回顧總結Table 1 A review for single-channel speech separation models attacking the cocktail party problem

圖4 Xu等提出的ASAM系統的結構[95]Fig.4 The structure of the proposed ASAM system by Xu et al.[95]

如果給定說話人p在長期記憶中已經存在,則將其年齡重設為0表示最近訪問,并將原記憶值和現有值取平均并歸一;否則,如果記憶槽未滿,則將說話人p寫入記憶槽中,如果記憶槽已滿,則找年齡最大的記憶槽將其覆蓋.每次記憶更新操作,其他未更新的槽的年齡均加一.在自上而下的過程中,模型假定已知需要關注的目標說話人p,然后從長期記憶中提取該說話人的聲紋特征作為先驗知識與由當前混合語音經過神經網絡得到的隱狀態整合到一起,得到聽覺注意掩蔽,作用于混合語音得到關注目標說話人的言語.總之,ASAM 模型提出的框架利用類似人腦長時記憶的單元作為關鍵的信息存儲和交互的模塊,將人類聽覺過程中的自上而下和自下而上的處理方式統一到一個計算模型中,突破了之前很多數據驅動模型中單一的自下而上的計算范式,為雞尾酒會問題的建模提供了新的思路.與之前的基于深度學習的方法相比,ASAM模型明確引入了說話人的聲紋信息充當可被學習的先驗知識,為處理雞尾酒會問題的一項重要線索.由于先驗知識和概念的存在,自上而下的注意過程變得容易實現.在復雜的聽覺環境下,這種自上而下的過程可以提升注意的效率,對于已經建立的概念而言避免了在每個時刻重復且不穩定地推斷.另外,從ASAM 模型對于噪音加入之后的性能表現也可以看到,由于說話人聲紋信息的明確性,其抗干擾能力得到了加強,避免了在復雜環境下一些無關緊要的各類噪聲或背景人聲對之前深度學習方法的劇烈影響.然而,在ASAM 模型的設定中,其對注意目標的形成做了簡單的假定,規定模型一次只能關注一個給定的目標說話人,這在真實場景中并不現實,限制了模型在復雜聽覺環境中的適用性.如何從混合語音中自動地抽取多個可能的目標說話人,并對其各自語音通道進行分離成為了更為關鍵的問題.針對這一目標,Shi等提出TDAA(Top-down auditory attention)模型,使得從混合語音中分離出多個目標說話人成為可能,而且一定程度上解決了之前的語音分離模型難以處理數目可變說話人的問題[96],具體框架如圖5.該模型在設計層面上遵循了模塊化的原則,將原始語音數據驅動的自下而上的過程與目標說話人引導的自上而下的過程串聯起來,更好地模擬了人類聽覺通路在雞尾酒會問題處理過程中的行為.具體來說,該模型首先完成自下而上的推理,預測出候選說話人.該過程中,TDAA采用RNN分類器一步步地推斷出候選說話人,即每一步從混合語音中推斷出最顯著的說話人,然后從混合語音的頻譜中減去預測的說話人的頻譜作為新的混合語音頻譜,迭代地進行下一步,預測下一個說話人,直到最后為空或者滿足一定條件為止.在得到候選說話人之后,若干個候選說話人各自被用于作為高階的概念,引導之后的針對每一個候選說話人的自上而下的語音分離.在自上而下的過程中,遞歸神經網絡將輸入混合語音的頻譜映射到一個D維嵌入空間V∈RT×F×D,其中T和F表示混合語音頻譜的時間維度和頻譜維度;說話人的聲紋信息被映射到一個嵌入矩陣E∈RN×D,其中N代表訓練集中已知的說話人數;注意模塊將V和Ei作為輸入通過注意機制得到候選的第i個說話人的IRM,作用于混合語音的頻譜獲得預測的第i個說話人的頻譜.對整個TDAA模型而言,其設計的自下而上的過程能夠動態地解析出若干個候選說話人作為目標,解決了之前一大批方法由于多個通道帶來的排列問題.同時,也使得TDAA模型擺脫了說話人數量上的限定,可以處理說話人數量可變的情況.從實驗結果來看,該方法在開放數據集上,即測試集含有未知說話人的數據集上,也取得了比之前的工作更好的表現.但是跟封閉數據集比,TDAA在開放數據集上的表現要差一些,其表現主要受到自下而上的推斷過程的結果影響.

圖5 Shi等提出的TDAA系統的結構[96]Fig.5 The structure of the proposed TDAA system by Shi et al.[96]
由以上幾個工作可以看出,近期的雞尾酒會語音分離計算模型依托于深度學習的方法框架,進行了進一步地升級和探索.部分工作已經從以深度學習本身的算法為主要關注點,轉變成為結合類腦聽覺機制來建模,從而解決之前遇到的一些問題.同時形成了以注意為核心,融合記憶等模塊的更加具有解釋性的新型架構.總結而言,此類結合類腦機制的新型架構更多地借鑒了人類聽覺通路過程中的各類機制.與之前的基于深度學習的方法對比,該類方法在模型的設計和流程中,提出了如自上而下的注意過程,外部長期記憶等有益的模塊.對于目前雞尾酒會問題中基于數據驅動的,以自下而上的深度學習方法,該類計算模型存在受噪聲干擾較大,且通常只能針對于一種設定好的環境(例如說話人數目固定或者給定)的局限.針對這些局限,結合類腦機制的新方法增強了面對不同情形的魯棒性,對于現實環境中的復雜聽覺環境無疑具有更好的適應性.可以預見的是,這種結合人類聽覺工作機制,腦啟發式的模型應該會引起研究人員的關注,從而進一步促進如聽覺注意等機制與雞尾酒會問題計算模型的更好融合,并探索出更加合適的建模方式,為復雜聽覺場景的關鍵問題上提供更好的解決方案.
第2節和第3節描述的計算模型專注于解決復雜聽覺環境下的多說話人語音分離問題,但在雞尾酒會問題中,語音分離之后的進一步智能化處理也十分重要.在深度學習時代之前,也有不少工作致力于解決多說話人語音識別問題,其中最有效和著名的一個是factorial GMM-HMM,在2006年單通道語音分離和識別競賽中表現超越人類[97?98].最近出現一批工作致力于用深度學習的方法,解決復雜聽覺環境下的多說話人語音識別問題.多說話人語音識別算法目前有兩種思路.第一種思路是構建一個兩階段的模型,即在語音分離模型之后接語音識別模型對每個分離的語音流進行識別[99?100].Isik等在DC語音分離模型之后接入一個增強網絡進行端到端訓練來增強分離的語音流,再用一個單說話人語音識別系統對分離的語音進行識別[72].Qian等提出基于PIT的多說話人語音分離–識別系統,即在基于PIT的語音分離系統后接入基于PIT的語音識別系統,對整個系統進行聯合訓練[98].Settle等在CTC/Attention混合結構(Hybrid connectionist temporal classification/attention architecture)下在改進的DC模型后接入一個端到端的語音識別系統并采用PIT方法,對語音分離系統和語音識別系統進行聯合訓練[101].上述模型基本需要分別對語音分離模型和語音識別模型進行訓練或者預訓練,難以直接從頭開始訓練(From scratch).第二種思路則是直接對混合語音進行識別而沒有顯式的分離階段.Weng等使用多方式訓練(Multi-style training)結合不同的目標函數,針對多說話人復雜聽覺環境中的不同情況生成相應的訓練數據用來訓練深度神經網絡[102].Qian和Yu等對PIT進行拓展直接對混合語音進行識別,使用交叉熵作為誤差函數,對所有可能的排列進行計算并選擇最小的排列來更新模型參數[98,103],模型結構如圖6,這里模型輸出的標簽為多元音素(Senone).基于PIT的多說話人語音識別系統由于其簡潔性,很容易和其他成熟的技術結合起來,從而提高語音識別的正確率,比如說話人自適應技術(Speaker adaptation)[104],序列判別訓練(Sequence discriminative training)[105],知識蒸餾(Knowledge distillation)[106]和注意機制(Attention mechanism)[107].但是上述沒有顯式分離階段的模型,在訓練語音識別模型的時候需要使用一個預訓練的單說話人語音識別模型做多元音素對齊(Senone alignment)[101],無法做到真正的端到端訓練.因此Seki等提出一個端到端的多說話人語音識別系統并采用PIT方法,直接對輸入的混合語音進行語音識別而無需使用音素級別的標簽[100],具體框圖如圖7.整個模型是一個CTC/Attention混合結構:在編碼器端共有三個層次的編碼器,分別為混合語音編碼器,說話人區分的編碼器和識別編碼器,而在解碼器端則使用CTC和基于注意的解碼器.編碼器端的混合語音編碼器相當于一個創建了能夠區分多個聲源的嵌入向量的語音分離模塊,說話人區分的編碼器則從上一階段的輸出提取出各個說話人的說話內容以備識別,識別編碼器則相當于一個編碼了單個說話人的言語的聲學模型用以最后的解碼.解碼器端為減小計算成本,通過采用CTC來確定所有可能的排列中誤差最小的排列,而基于注意的解碼器則采用該排列進行解碼.實驗表明該工作和之前端到端有顯式分離和識別過程的模型[101]效果相當,但無需依賴預訓練的語音分離系統.Chang等則在文獻[100]的基礎上對其中的基于注意的解碼器進行改進,使得解碼每個說話人的基于注意的解碼器權值不共享,以減輕編碼器區分語音的負擔[108].
由上面的工作可見,近期一批對雞尾酒會問題建模的計算模型進一步升級,開始同時考慮語音分離之后的智能化處理.語音分離只是朝向解決雞尾酒會問題的第一步,如何協同后續的智能化處理以進一步提升模型的性能,將成為今后該領域研究的一個研究熱點.

圖6 Qian和Yu等提出的基于排列不變性訓練方法的雙說話人語音識別系統的結構[98,103]Fig.6 The structure of the proposed direct two-speaker speech recognition system with PIT by Qian and Yu et al.[98,103]

圖7 Seki等提出的雙說話人語音識別系統的結構[100]Fig.7 The structure of the proposed end-to-end two-speaker speech recognition system by Seki et al.[100]
近年來,隨著智能設備廣泛進入日常生活的各個角落,處理復雜聽覺環境下的雞尾酒會問題變成了非常受關注的一個領域,在某種意義上成為了智能設備的關鍵入口和通道.受益于大數據和深度學習技術的迅猛發展,對雞尾酒會問題建模的語音分離計算模型已從原來的基于規則,基于信號處理的方法逐漸變為了數據驅動型的,基于深度學習的方法.近期還出現了一批工作,關注雞尾酒會問題建模中的聽覺機制建模和隨后的智能化處理.到目前為止,盡管各類研究取得了一定的成果,但是離真正解決雞尾酒會問題還相去甚遠.可以預見,未來若干年,關于如何處理雞尾酒會問題勢必仍然是非常受矚目的一個方向.本文回顧了聽覺研究的相關機制和對雞尾酒會問題建模的相關模型.我們認為,針對雞尾酒會問題的神經學機制以及計算模型方面,目前還有一些非常值得探索的問題和方向,主要包括:
1)聽覺系統是一個高度非線性的系統,神經回路中神經元之間的連接十分復雜,神經元對刺激采用多種編碼方式,主要有頻率編碼,時間編碼和群體編碼這三種方式.聲音中富有豐富的時空結構,而聽覺系統對這些時空結構是高度敏感的.而在最近的基于深度學習的語音分離算法中,對語音的編碼方式較為單一,即神經元只使用頻率編碼,可能不能充分挖掘利用語音中的時空結構.CASA中基于神經網絡的模型采用的振蕩脈沖神經網絡[52],而脈沖神經網絡在時間編碼較有優勢.但是目前脈沖神經網絡的性能與人工神經網絡相比,存在較大差距.對語音時間編碼的研究是一個值得探討的問題.
2)傳統計算模型對復雜聽覺場景的建模能力較為有限,難以遷移到真實場景中.盡管近年來通過擴大訓練數據集覆蓋大多數聽覺環境,運用深度學習,模型在真實場景下的語音分離表現大幅度提升,并且能夠在開放數據集上取得不錯的表現,但相比人類處理雞尾酒會問題的表現,依舊有一定差距.大多數模型都假定說話人的數目固定,難以處理有不確定數目的說話人的情況,比如DC[71?72]需要給定聚類的個數才能工作.雖然TDAA模型[96]通過結合迭代的自下而上推斷過程和自上而下的注意過程,令模型能夠處理可變數目的說話人,但該模型的表現大大受到自下而上推斷過程得到的候選結果,而其在開放數據集上的表現依然遜色于封閉數據集.
3)僅僅用聽覺模態的信息,難以區分相類似的聲音,比如同性別說話人的聲音.近幾年,基于多感知整合的理論,計算模型開始將視覺信息整合到語音分離當中,一定程度上解決處理類似聲音的問題.利用聽覺信息和視覺信息時間上的高度相關性,可以進行自監督學習,從而無需標記數據[88].盡管關于多感知整合發生在哪個階段尚未有定論,但是跨模態注意和多感知整合在大腦的某些處理層次中確實存在[22].目前已有工作從聽覺注意出發,對雞尾酒會問題進行計算建模,比如ASAM[95],TDAA[96],但是尚未有工作從視聽覺多通道注意的角度對雞尾酒會問題進行建模.
4)值得注意的是,ASAM還在建模中引入了長期記憶的機制,但是目前其長期記憶的每個單元可能過于簡化.另外,視聽覺注意的觸發時機問題,也值得關注.如何對視聽覺注意與跨模態進行計算建模,并將得到的時序模式根據一定的規則轉存為長期記憶作為先驗知識加以利用,使得語音分離更有效率,是未來值得探索的方向.
5)語音分離之后的智能化處理.近期多說話人語音識別計算模型的工作開始同時考慮語音分離之后的智能化處理[98,100?108].語音分離雖然十分關鍵,但只是朝向解決雞尾酒會問題的第一步,如何協同后續的智能化處理,是今后解決雞尾酒會問題一個值得研究的關鍵點.
6)如何將預測加工融入到聽覺計算模型中.前面在第1節也提到,大腦是一個具有預測能力的層次化結構,在處理復雜聽覺場景時,總是試圖預測接下來要到來的聲音,而且預測加工機制的存在使得人大腦的聽覺中樞能夠根據上下文實時補充和恢復單詞中缺失的音素或音節.但是現在幾乎沒有計算模型從這方面入手進行建模.如果計算模型能夠實時補全言語中被噪聲掩蓋的音素或音節而形成在語義上符合上下文內容的單詞,這勢必是邁向雞尾酒會問題計算建模解決方案的一大步.
綜上所述,我們認為要解決復雜聽覺場景下的雞尾酒會問題,需要將計算模型和聽覺研究中的一些相關機制深度結合起來.聽覺系統對刺激的編碼策略,聽覺感知中的預測特性,視聽覺注意的整合和觸發時機等等聽覺和認知心理學研究中得到的一些基本成果,應該如何借鑒到計算模型的建模中,可能會成為解決雞尾酒會問題的新的突破口.