技術(shù)宅

人類可以輕松地通過(guò)耳朵辨別出男女聲,是因?yàn)槟信曇粲斜容^顯著的不同。比如我們到了12歲~13歲以后,男孩的喉結(jié)增大,聲帶變得比較長(zhǎng),聲音就逐漸變粗了;女孩的聲帶仍然又短又窄,所以發(fā)出的聲音高而尖。
當(dāng)然這只是我們的主觀感覺(jué),如果要讓Al機(jī)器人也能對(duì)男女聲進(jìn)行識(shí)別,就必須將男女聲的不同點(diǎn)作數(shù)字化處理,這就需要從本質(zhì)上對(duì)聲音進(jìn)行分析。男女聲音的不同大致有以下幾點(diǎn):
音高不同,一般女生的音高比男生高4度—6度,這樣在聽覺(jué)上女生的聲音聽起來(lái)就更高亢。
亮度不同,女聲普遍更“亮”、“尖”,穿透力更強(qiáng),這是由于女生高頻泛音豐富而形成的。
糙度不同,一般來(lái)說(shuō)男聲天生低,泛音之間的間距更小,所以聽起來(lái)顯得更“糙”(圖1)。

因?yàn)锳l機(jī)器人只能分辨出數(shù)字化的區(qū)別,所以科學(xué)家們?cè)跒槿斯ぶ悄芙⒙曇舾兄P蜁r(shí),需要提取出聲音中具備數(shù)字化特征的元素。首先聲音的頻率是可以數(shù)字化表示的,通過(guò)頻率來(lái)辨別聲音效果就很不錯(cuò)。我們可以為男女聲音制定一個(gè)分辨標(biāo)準(zhǔn),一般男性的聲音頻率在50Hz—250Hz之間,女性聲音則在100Hz—500Hz之間(圖2)。

接著科學(xué)家們會(huì)準(zhǔn)備大量的語(yǔ)音數(shù)據(jù)讓這個(gè)感知模型進(jìn)行學(xué)習(xí),再借助其他科學(xué)家已經(jīng)開發(fā)好的算法函數(shù)進(jìn)行數(shù)據(jù)特征的提取(一個(gè)開源的R語(yǔ)言函數(shù)包,就可以提取出聲音的20個(gè)特征)。通過(guò)大數(shù)據(jù)學(xué)習(xí)后,這個(gè)模型就可以對(duì)大部分的男女聲進(jìn)行識(shí)別了(圖3)。
為了提高學(xué)習(xí)和處理的效率,Al機(jī)器人還會(huì)根據(jù)人耳結(jié)構(gòu)通過(guò)仿生的神經(jīng)元進(jìn)行音頻處理。人的耳蝸核可以對(duì)聽覺(jué)神經(jīng)收集到的神經(jīng)信號(hào)進(jìn)行編碼,它包含許多有著不同特性、能夠完成聲音特征初步處理的神經(jīng)元,從而對(duì)獲取的音頻進(jìn)行高級(jí)的處理。Al機(jī)器人配備類似的神經(jīng)元后,就可以更精準(zhǔn)地實(shí)現(xiàn)對(duì)音頻的識(shí)別和處理。
當(dāng)然因?yàn)槟信曨l率會(huì)有重復(fù)的部分,比如生活中有些女人的聲音可能偏男性,為了提高識(shí)別率,在實(shí)際的訓(xùn)練中,人工智能還會(huì)結(jié)合人類男女對(duì)話的不同來(lái)進(jìn)行性別的識(shí)別,很多男孩喜歡使用“酷、棒、帥”的口頭禪,女孩則愛(ài)用“比心、很好哦、難怪”之類的口語(yǔ),人工智能通過(guò)這些大數(shù)據(jù)的學(xué)習(xí),再結(jié)合上述男女聲的不同點(diǎn)進(jìn)行識(shí)別,最終生成一種算法部署在服務(wù)器中。以后只要我們?cè)跀?shù)據(jù)模型中輸入人類的音頻,Al機(jī)器人就可以很精準(zhǔn)地識(shí)別出男女聲了(圖4)。
Al機(jī)器人能夠精準(zhǔn)地識(shí)別男女聲,這個(gè)應(yīng)用可以給我們的生活帶來(lái)什么影響呢?
若由Al機(jī)器人充當(dāng)客服,可以給我們提供更加人性化的體驗(yàn)。首先Al客服根據(jù)用戶來(lái)電或者語(yǔ)音輸入精準(zhǔn)識(shí)別出男女客戶,如果是男生來(lái)電,Al客服就切換到溫柔的女聲輸出,反之則切換到男聲輸出,這樣就能夠和客戶進(jìn)行相對(duì)有效的溝通了(圖5)。


聲音識(shí)別還可以解決當(dāng)前智能產(chǎn)品只能識(shí)別用戶所說(shuō)的內(nèi)容,而不能區(qū)分說(shuō)話人身份的問(wèn)題。隨著人工智能語(yǔ)音識(shí)別技術(shù)的提高,Al機(jī)器人不僅可以識(shí)別男女聲,還可以識(shí)別同一性別不同身份的人們,比如識(shí)別出是家里的奶奶還是小孫女。在區(qū)分出不同的角色后,讓系統(tǒng)有針對(duì)性地對(duì)每個(gè)人提供不同的內(nèi)容與服務(wù),從而使得人機(jī)交互更加簡(jiǎn)單(圖6)。