李敘瑾

在被吸音綿包裹的消音室,天籟實驗室的研究員正在訓練算法識別各種聲音。
因為仍在傳播的新冠疫情,如今,人們似乎都已習慣了隨時佩戴口罩。很少有人關注的是,這一抗擊病毒的好習慣,有可能讓聽障者舉步維艱—即便用上聽力輔助工具,在嘈雜的室外環境中,聽障者在和人溝通時也總會下意識地緊盯對方嘴唇,試圖讀懂唇語以輔助理解。而口罩,可能讓唇語在公共場合消失。
正常人耳中擁有1.5萬個聽覺細胞,它們直接與大腦相連,由此人類能從幾十種環境聲音中自覺捕捉到需要放大的那一項。聽障者耳中卻僅存幾百個聽覺細胞,為了讓大腦獲得聽覺刺激,它們會拼命放大包括噪音在內的一切聲音。
然而,如今普遍使用的輔聽設備—無論是放大聲音的助聽器,還是將外界聲音轉換成電信號(著時間而變化的電壓或電流)的人工耳蝸,在面對復雜的聲學場景時,都不太能從嘈雜的環境中直接還原出自然的聲音。即使戴上動輒十幾萬元的人工耳蝸,聽障者也無法感受到千奇百怪的蟲鳴鳥叫。
世界衛生組織發布的《世界聽力報告》顯示,目前全球有15億人受到聽力損失影響;到2050年,預計至少7億人需要聽力康復服務。當聽力受損成為一種普遍疾病時,技術必然會推動人們尋求新的解決辦法。
比如騰訊天籟實驗室就研發出一款人工智能(AI)降噪算法,它會吸收環境里的眾多聲音,篩選出環境噪聲和與會者的話語,然后消除前者,針對性地增強后者。這款降噪算法目前主要搭載在騰訊自己的在線會議平臺騰訊會議上,與會者會置身于各種場景—高鐵、超市、咖啡廳乃至自家廚房中,但終端另一側的人基本不會感知到他們所處的嘈雜環境。
天籟實驗室有一個專門的被吸音綿包裹的消音室,這里充斥著研究員用錄音筆和聲卡捕捉到的各種噪聲—鍵盤聲、關門聲、紙巾的摩擦、杯子碰撞桌面的聲音……研究員會將這些聲音交由AI算法,通過學習,AI能像人耳一樣分辨它們。
天籟實驗室的研究員一直在思考如何將這種AI降噪與場景識別技術運用到其他領域。該實驗室的技術曾搭載在騰訊一款針對聽障用戶居家問診需求的線上測聽調音小程序上,這讓研究員產生了將其放到人工耳蝸上的想法,他們找到耳蝸廠商諾爾康合作,一起進一步幫助聽障人士。
然而在具體執行時,天籟實驗室發現,人工耳蝸給AI算法帶來的挑戰遠大于應用在諸如騰訊會議這樣的在線會議軟件中。
由于佩戴者在實際生活中面臨的環境比開會時復雜得多,人工耳蝸不能只是做到“減少噪音、增強人聲”。
“不是人聲越大、環境聲音越小越好,比如日常出行,在地鐵上就要聽到報站,以及適當的過往車笛聲?!碧旎[實驗室研究員肖瑋對《第一財經》雜志說,“我們所做的事情并不是為了抑制噪聲,而是為了增強我們想聽的聲音?!毙が|在音頻技術行業擁有15年經驗,專注于語音增強、心理聽覺建模等研究。
肖瑋他們的解決方法是,先找到算法的普適能力,即盡可能還原人耳所能覆蓋的各種場景,再讓AI通過深度學習學會區分場景,并根據不同環境給出相匹配的反應—日常單人對話、安靜場合聆聽音樂、純噪聲場景的馬路和市場,以及帶有噪音的語音場景,例如聚餐和會議,就需要靠4種截然不同的方案提升耳蝸佩戴者的聽音效果。

對于助聽翻譯眼鏡來說,很重要的一點是實現“音字同步”的效果。
最終,諾爾康的試驗檢測數據顯示,天籟技術與人工耳蝸結合后,語音平均識別率達到96.28%,其中帶噪語音識別率為93.38%,環境噪音中聲音識別率達到94.24%。
在提高識別率之外,更重要的是植入帶有AI技術的人工耳蝸能讓聽障者“聽”到此前無法感受到的豐富聲音。比如佩戴普通人工耳蝸的聽障者是無法欣賞音樂的—從聲學角度看,相比人聲,音樂的振動與噪音更加接近,所以常被人工耳蝸視為需要“去除”的部分。
經過學習的AI算法解決了這個問題:純音樂的場景中,它能完整保留音樂旋律;在比較敏感的頻段,它還會增強音樂旋律和音色。
除了讓聽障人士能更清楚地“聽到”聲音,AI技術其實還可以幫助他們通過“看到”聲音,與外界更好地溝通。
成立8年的增強現實(AR)眼鏡公司亮亮視野,正在嘗試在產品上搭載AI字幕翻譯系統。
2020年年初,在與相關公益組織的一次交流中,亮亮視野的產品設計總監劉天一了解到,很多先天失聰的孩子因為無法有效接觸外界信息,甚至連肢體發展都出現了障礙,這讓他很受觸動。
而來自外界的被動信息有時會比聽障人士自主接收的信息提供更多的內容,比如走在街上路人隨口一句“天快下雨了”,對于聽障人士來說,這個重要內容就很可能被遺漏。
所以,劉天一決定改造團隊后于2020年年底發布的一款面向企業端的AR眼鏡。這款眼鏡鏡片采用亮亮視野自研的雙目光波導AR技術,這使得即便在陽光下,呈現在佩戴者眼前的內容也可以清楚顯示;鏡腿略寬,下接一根可以連接手機的電線,手機提供電池供應,并與一款名為“可譯”的翻譯App自動連接。
這款專門服務于聽障群體的助聽眼鏡,搭載了字節跳動旗下的火山引擎,而火山翻譯是火山引擎的核心AI能力之一,它通過神經網絡機器翻譯技術開展模型訓練,可以讓語音識別、自動斷句和機器翻譯等功能表現得更加優異。
對于助聽翻譯眼鏡來說,很重要的一點是實時性。為此,亮亮視野的這款產品配備了AI處理芯片,以盡可能接近“音字同步”的效果?!白帜伙@示至多半句話延遲?!眲⑻煲粚Α兜谝回斀洝冯s志說。
不過這枚算力強大的芯片,也給劉天一團隊帶來了一些困擾。安裝到AR眼鏡上時,它出現了散熱、耗電不匹配的問題,這讓團隊不得不從各方面盡可能降低延時與耗電?!熬拖褡黾訙p法,減掉我們原先面向B端時成熟但不合適的地方,再針對聽障人群的需求做一次加法。”劉天一 說。
比如,為了更方便聽障人士,團隊通過調研,在保障語音翻譯足夠準確、字體觀看效果足夠清晰的前提下,對文字選擇、字體大小、顯示位置都做了調整。
此外,這款AR助聽眼鏡還有環境音智能識別、人名喚醒等功能?!奥牎钡脚宕髡叩拿趾笏茏詣咏o出提示,這讓聽障人士在醫院、民政窗口等公共場所可以更方便地辦事。
天籟實驗室也在芯片上遇到了問題:其研制出的滿足需求的算法程序太大了。一開始,程序無法被塞進位于人工耳蝸中央的那枚微小的芯片中。后來,團隊想到了通過手機處理器和藍牙協議連接程序的辦法,并最終確立了人工耳蝸+手機伴侶的架構。但同樣,為了緩解由此帶來的延時問題,團隊必須盡量精簡耗電的功能。
目前,天籟實驗室的AI音頻技術免費開放給公益開發者、設備廠商、NGO及相關行業,這意味著,這一技術不僅可以用在人工耳蝸,未來還有可能植入手機、耳機中,服務對象也可從聽障人士擴展至聽力逐漸衰退的老年人群體。
而亮亮視野的第一代AI助聽眼鏡原本是專為研究開發的,因為測試時不少聽障人士表示它的確在生活中幫了大忙,亮亮視野決定將其推向市場,聽障人士拿著國家認證的聽力障礙殘疾證明能以3999元的價格買入—產品的成本大約是1.2萬元。
當然,無論是騰訊和諾爾康的AI人工耳蝸還是亮亮視野的AI助聽眼鏡,目前都遠非完美產 品。
肖瑋和他的團隊如今每一至兩周就要迭代出一份新版本的程序,但仍有一些當前技術還無法解決的難題。
比如他們的這款人工耳蝸可以讓聽障人士欣賞純音樂,但面對一首由人聲演唱的歌曲時,眼下它依舊無法展現歌曲的原貌—器樂和人聲混雜在一起,超出了當下算法的處理能力。
另外,聽障人士的病因和病情各不相同,對人工耳蝸的適應性也由此存在著差異。有的用戶佩戴人工耳蝸時可能突然就聽不到了,降低人工耳蝸的電刺激強度后聲音才“回來”—人的神經系統藏著各種醫學專業人士至今都未徹底揭開的奧秘。
對于劉天一團隊來說,如今稍顯笨重的助聽眼鏡怎樣做到和普通眼鏡沒有區別,是他下一步要解決的問題。目前,它還只能連接安卓設備,蘋果手機因為接口標準不同暫時不支持,“大概今年還會出新一代的助聽眼鏡,它會是無線的一體機,能支持的機型更多,而且佩戴感受也會提升不少?!眲⑻煲徽f。
至于在AI算法上,助聽眼鏡也仍有許多提高的空間。更好地適應復雜環境背景,進一步拓展語料庫,引入手語識別、助聽技術,并提供除交流以外的更多使用場景等等,劉天一都列入計劃表了。
從不完美到逐漸趨于完美也正是AI的特性之一:只有讓它學習得足夠多,積累了足夠的用戶使用習慣和環境場景等數據,它才能擁有更強的適應和推導能力。
肖瑋和劉天一都相信,隨著計算機每秒幾億次的高速運算,總有一天,冰冷的技術會更加善解人意,并讓聽障人士以不同方式接觸到無限接近真實的所有聲音。
3026500338294