張汀
很多人越來(lái)越習(xí)慣通過(guò)語(yǔ)音助理與自己的電腦、手機(jī)和智能揚(yáng)聲器“聊天”,比如亞馬遜Alexa、蘋(píng)果Siri、微軟Cortana和谷歌助手。

不識(shí)字的農(nóng)民Yacouba Sawadogo正在測(cè)試移動(dòng)網(wǎng)絡(luò)上的語(yǔ)音服務(wù)
幾十年來(lái),盲人和弱視群體一直在使用文本轉(zhuǎn)語(yǔ)音轉(zhuǎn)換器。有些人認(rèn)為,語(yǔ)音很快就可以代替打字和點(diǎn)擊,成為在線互動(dòng)的主要方式。那么,向“語(yǔ)音網(wǎng)絡(luò)”轉(zhuǎn)化將面臨哪些挑戰(zhàn)?
如果您無(wú)法閱讀,那么網(wǎng)絡(luò)的文字內(nèi)容有什么用處?這是加納不識(shí)字的農(nóng)民所面臨的境況,他們也因而無(wú)法接收互聯(lián)網(wǎng)向其他多數(shù)人提供的重要信息。
“鑒于加納北部的識(shí)字率只有22.6%,農(nóng)民們常常以低于市場(chǎng)標(biāo)準(zhǔn)的價(jià)格出售其農(nóng)產(chǎn)品,因?yàn)樗麄兛赡軟](méi)有意識(shí)到時(shí)下的價(jià)格。”弗蘭西斯·迪托表示,他是語(yǔ)音天氣信息服務(wù)商Mr Meteo的研究員。
“最常見(jiàn)的投訴是關(guān)于天氣預(yù)報(bào),”住在加納北部塔馬利的迪托先生說(shuō)。
“農(nóng)民告訴我們,他們的祖先用來(lái)預(yù)測(cè)天氣的方法現(xiàn)在似乎不管用了。”他認(rèn)為這是氣候變化導(dǎo)致的。預(yù)知何時(shí)下雨對(duì)于想播種、灌溉作物或放牧的農(nóng)民來(lái)說(shuō)至關(guān)重要。
迪托說(shuō),將在線天氣報(bào)告轉(zhuǎn)換成語(yǔ)音的想法來(lái)自農(nóng)民自己,他們?cè)贕uabuligah村召開(kāi)一次研討會(huì)之后提出了這個(gè)想法。
Mr Meteo發(fā)布在線天氣預(yù)報(bào),將其轉(zhuǎn)換為能在普通手機(jī)上播放的簡(jiǎn)短錄音。農(nóng)民撥打電話接收信息。在加納,有120萬(wàn)人使用當(dāng)?shù)卣Z(yǔ)言Dagbani,但谷歌翻譯卻不提供該語(yǔ)種的翻譯服務(wù)。
迪托說(shuō),規(guī)劃這個(gè)服務(wù)的初衷就是便宜且易于操作。
語(yǔ)音網(wǎng)絡(luò)還可以幫助歐美五分之一閱讀能力差的成年人,在阿姆斯特丹工作的大學(xué)研究員安娜·波恩說(shuō),她曾在馬里和布基納法索從事“網(wǎng)絡(luò)到語(yǔ)音”系統(tǒng)的早期原型開(kāi)發(fā)工作。
但是建立語(yǔ)音網(wǎng)絡(luò)——“網(wǎng)絡(luò)到語(yǔ)音”和“語(yǔ)音到網(wǎng)絡(luò)”——并非易事。“理解意大利餐廳供應(yīng)披薩很容易,”語(yǔ)音識(shí)別公司Nuance的研究主管尼爾斯·倫克說(shuō),“要覆蓋多個(gè)領(lǐng)域并且能夠在每個(gè)主題上都能與用戶對(duì)話,實(shí)現(xiàn)起來(lái)仍然遙遙無(wú)期。”
因此,盡管Alexa和其他類似服務(wù)可以回答簡(jiǎn)單的天氣問(wèn)題并為我們播放音樂(lè),但大多數(shù)專家都認(rèn)為,要進(jìn)行各種內(nèi)容寬泛的對(duì)話還需要幾十年才能實(shí)現(xiàn)——人工智能還不夠聰明。
就連將一個(gè)人的聲音轉(zhuǎn)化為文字,即自動(dòng)語(yǔ)音識(shí)別,仍是“有待解決的最大的難題之一,因?yàn)槿澜绲恼Z(yǔ)言太多了,發(fā)音各不相同”,位于巴黎的語(yǔ)音創(chuàng)業(yè)公司Snips的創(chuàng)始人蘭德·因迪如是說(shuō)。

?醫(yī)生通過(guò)語(yǔ)音在線填寫(xiě)患者信息表格,每分鐘可以口述150個(gè)單詞,比在鍵盤上打字快三倍
這種說(shuō)法可能有些夸張,但是地方方言和口音的多樣性確實(shí)增加了這項(xiàng)任務(wù)的難度。
因迪表示,網(wǎng)絡(luò)-語(yǔ)音界面正在逐步優(yōu)化。他們已經(jīng)開(kāi)始學(xué)習(xí)如何處理引號(hào)以及標(biāo)題和旁白之間的停頓,而且現(xiàn)在的發(fā)音聽(tīng)起來(lái)也不那么像機(jī)器人了。現(xiàn)在“它們可以強(qiáng)調(diào)重音和低語(yǔ)了”,他說(shuō)。
但安娜·波恩相信,數(shù)字語(yǔ)音需要更多的個(gè)性才能讓它們受到追捧。“機(jī)器人還不夠機(jī)智,Siri很無(wú)聊。”她說(shuō)。
使用語(yǔ)音而不是敲擊手指的好處顯然取決于應(yīng)用環(huán)境。
倫克表示,例如,醫(yī)生通過(guò)語(yǔ)音在線填寫(xiě)患者信息表格,每分鐘可以口述150個(gè)單詞,比在鍵盤上打字快三倍。這樣一來(lái),他們減少了花在管理上的時(shí)間,有了更多時(shí)間治療患者。
2017年,Nuance為英國(guó)曼徹斯特一家診所的手術(shù)提供了幫助,為進(jìn)行手術(shù)的六名醫(yī)生建立了一個(gè)語(yǔ)音系統(tǒng)。現(xiàn)在,他們可以對(duì)患者的健康狀況和治療對(duì)策進(jìn)行口述,而智能助理會(huì)自動(dòng)將信息輸入到網(wǎng)頁(yè)表單的正確位置。而之前的做法是,醫(yī)生先錄制音頻,再由秘書(shū)抄錄——這個(gè)過(guò)程不僅耗資巨大,而且容易被拖延。
診所經(jīng)理朱莉·普雷格納爾表示,在新系統(tǒng)的作用下,該診所每天可以多治療四個(gè)患者,不僅如此,給患者的信件也能包含更多細(xì)節(jié)。
當(dāng)一個(gè)人在用手做其他事情的時(shí)候,使用語(yǔ)音也很方便。
“比如你正在做飯,”因迪說(shuō),“你只是想知道菜譜的下一步是什么。你的手很油膩,你不想弄臟iPad,所以用講話的方式操作就自然很多。”
開(kāi)車的時(shí)候用語(yǔ)音也大有用處。根據(jù)保險(xiǎn)公司State Farm的數(shù)據(jù),在美國(guó),29%的司機(jī)承認(rèn)會(huì)在開(kāi)車的時(shí)候?yàn)g覽網(wǎng)頁(yè)。而2009年這個(gè)比例只有13%。統(tǒng)計(jì)顯示,美國(guó)每年由于駕車時(shí)使用手機(jī)而導(dǎo)致的車禍?zhǔn)录染坪篑{車的案例更多。
史蒂夫·韋德是一名工程師,他最近開(kāi)發(fā)了一款名為Polly的插件,該插件為WordPress網(wǎng)站提供語(yǔ)音功能。
“在像中文這樣復(fù)雜的書(shū)面語(yǔ)言體系中,語(yǔ)音可能會(huì)給你帶來(lái)優(yōu)勢(shì)。”他說(shuō)。
當(dāng)然,語(yǔ)音在圖書(shū)館、禮拜場(chǎng)所或講座劇院等場(chǎng)所的用處不大,所以顯然,盡管有一些預(yù)測(cè)表明到2020年將有多達(dá)一半的搜索可能會(huì)使用語(yǔ)音,但網(wǎng)絡(luò)必須能允許用戶根據(jù)環(huán)境決定使用的任一方式訪問(wèn)。然而建設(shè)語(yǔ)音網(wǎng)絡(luò)這件事,說(shuō)起來(lái)容易做起來(lái)難。