
我們生活在一個嘈雜的世界里。如果你不喜歡噪音,降噪耳機可以減少環境中的雜音,但它們也會不分青紅皂白地過濾掉所有聲音,所以你很容易錯過你真正想聽到的東西。
現在,一個新的人工智能系統旨在解決降噪耳機的這一問題。
該系統名為“收聽目標語音(TargetSpeechHearing)”,用戶可以選擇一個人作為目標,即使所有其他聲音都被消除,他的聲音也依舊能被聽到。
盡管這項技術目前仍處在概念驗證階段,但其開發者表示,他們正在與廠商討論將其加入流行品牌的降噪耳機中,并努力嘗試將其用在助聽器上。
參與該項目的美國華盛頓大學教授什亞姆·戈拉科塔說:“傾聽特定人群的聲音是我們在世界上如何溝通,以及如何與他人互動的一個基本要素。但在特定情況下,即使你沒有任何聽力問題,專注于特定的人也可能變得非常有挑戰性。”
當人工智能模型需要在計算能力和電池壽命有限的耳機中實時工作時,這種復雜性就成為了一個問題。
為了滿足這些限制,神經網絡需要做到體積小、能耗低。
因此,該團隊使用了一種名為“知識提取”的人工智能壓縮技術。
他們使用了一個經過數百萬種聲音訓練的大型人工智能模型(“老師”),并讓它訓練一個小得多的模型(“學生”),以模仿其行為和表現達到相同的標準。
然后,他們利用降噪耳機上的麥克風捕捉到的環境噪音,訓練學生模型從中提取特定聲音的發聲模式(規律)。
要激活該人工智能系統,佩戴者需要面對目標對象,并按住耳機上的按鈕幾秒鐘。
在這個“注冊”過程中,系統會通過耳機上的麥克風捕獲音頻樣本,并使用此錄音提取講話者的聲音特征,即使附近有其他人聲和噪音。
這些音頻特征被輸入到第二個神經網絡中,該網絡運行在一臺微控制器計算機上,兩者通過通用串行總線(USB)連接。
這個神經網絡會持續運行,將目標聲音與其他聲音分開,并將其播放給耳機佩戴者。
一旦該系統鎖定了一名講話者,即使佩戴者轉身離開,它也會繼續優先區分這個人的聲音。
該系統從講話者的聲音中獲得的訓練數據越多,其區分聲音的能力就越強。
目前,該系統只能成功注冊一種聲音,而且該聲音必須是注冊時最響亮的那個,但該團隊的目標是即使特定方向上最大的聲音不是目標人物,該系統仍然可以工作。
微軟研究語音和人工智能的高級研究員塞菲克·埃姆雷·埃斯基梅茲表示,在嘈雜的環境中捕捉一個聲音是非常困難的。“我知道很多公司都想這么做。”他說,“如果他們能做到這一點,就會解鎖很多應用場景,尤其可以用在會議場景中。”
美國卡內基梅隆大學語言技術研究所的研究員薩姆勒·康奈爾認為,雖然語音分離研究往往是理論性的,而不是實踐性的,但這項工作在現實世界中有著明確的應用。他表示:“我認為這是朝著正確方向邁出的一步,是很新穎的嘗試。”(綜合整理報道)(策劃/萊西)