今天,科大訊飛、百度等已經(jīng)成功讓電視機(jī)、汽車能“聽(tīng)懂”你的話——
想象一下,你坐在車?yán)铮瑢?duì)著空氣說(shuō),“我想在附近找個(gè)地方吃飯”。你的車會(huì)立即回應(yīng)說(shuō)“已為您找到附近10個(gè)餐廳”。你接著說(shuō):“我想吃火鍋,還想看場(chǎng)電影。”汽車會(huì)篩選出周邊有電影院的海底撈大鐘寺店。如果你說(shuō)現(xiàn)在前往,導(dǎo)航就會(huì)立即開(kāi)始線路規(guī)劃。
注意,整個(gè)過(guò)程,你不需要說(shuō)類似“嘿,siri”這樣的喚醒詞,也不需要?jiǎng)邮诌M(jìn)行任何操作。對(duì)于開(kāi)車過(guò)程中經(jīng)常冒險(xiǎn)調(diào)整導(dǎo)航線路的司機(jī)來(lái)說(shuō),這套名為“飛魚(yú)助手”的語(yǔ)音操作系統(tǒng)簡(jiǎn)直是夢(mèng)寐以求的行車神器。
現(xiàn)在,訊飛、百度等企業(yè)的人工智能已經(jīng)把科幻片一樣的黑科技變成了現(xiàn)實(shí)。不僅汽車、電視機(jī)、電冰箱、電燈,任何你能想到的電器都能跟你愉快地聊天,并按照語(yǔ)音指令完成各種操作。
所聽(tīng)即所見(jiàn)
世界第一的智能語(yǔ)音是什么樣
計(jì)算機(jī)時(shí)代,輸入的主要工具是鍵盤。人工智能時(shí)代,語(yǔ)音輸入成為主流。而在這方面,中國(guó)走在了世界前列——科大訊飛公司已經(jīng)連續(xù)11年獲得全球語(yǔ)音合成大賽冠軍,百度語(yǔ)音也在今年被MIT科技評(píng)為2016年十大突破性技術(shù)之一。
目前,兩家公司對(duì)外公布的語(yǔ)音識(shí)別率都是97%。這意味著什么呢?
百度首席科學(xué)家吳恩達(dá)講一口軟糯的美式中文,筆者注意到,當(dāng)他說(shuō)到“長(zhǎng)段語(yǔ)句”時(shí),最開(kāi)始系統(tǒng)誤聽(tīng)成了“長(zhǎng)男語(yǔ)句”。但是經(jīng)過(guò)兩三句話后,結(jié)合上下文的“音頻切分”“切成短的去識(shí)別”等內(nèi)容,系統(tǒng)自動(dòng)將“長(zhǎng)男語(yǔ)句”更正為“長(zhǎng)段語(yǔ)句”。
訊飛的語(yǔ)音識(shí)別同樣達(dá)到了高精度。當(dāng)訊飛集團(tuán)董事長(zhǎng)劉慶峰用帶著濃重口音的普通話快速演講時(shí),顯示屏不僅實(shí)時(shí)出現(xiàn)了中文,還能同步翻譯成英語(yǔ)、維吾爾語(yǔ)、日語(yǔ)、韓語(yǔ)等十幾個(gè)語(yǔ)種。
毫無(wú)疑問(wèn),新技術(shù)已經(jīng)為人工智能裝上了一對(duì)堪比真人的“耳朵”。不過(guò)機(jī)器能聽(tīng)人說(shuō)話只是第一步,要實(shí)現(xiàn)無(wú)障礙的語(yǔ)音交流,還需要系統(tǒng)會(huì)說(shuō)話,而且要像真人一樣說(shuō)話。
訊飛的普通話語(yǔ)音合成系統(tǒng)達(dá)到了4.5分。也就是說(shuō),訊飛語(yǔ)音合成的普通話,比大多數(shù)人都要標(biāo)準(zhǔn)、自然。公司在此基礎(chǔ)上發(fā)展了特殊音色,想讓機(jī)器給你模仿一段郭德綱的聲音或者模仿一段林志玲的聲音都沒(méi)有問(wèn)題。
百度語(yǔ)音主要聚焦在為合成語(yǔ)音“加入情感”,目前可接近真人發(fā)聲效果。現(xiàn)場(chǎng)測(cè)試表明,57%的用戶無(wú)法區(qū)分真人語(yǔ)音與合成語(yǔ)音,基本可代替真人講故事。《讀者》雜志使用百度的情感語(yǔ)音開(kāi)發(fā)“聽(tīng)書(shū)”功能,為農(nóng)村的留守兒童、老人以及不便閱讀的殘障人士提供近似真人朗讀的聽(tīng)書(shū)體驗(yàn)。
可應(yīng)用在翻譯、
智能家居、車載系統(tǒng)等領(lǐng)域
人工智能能聽(tīng)會(huì)說(shuō),能在各種語(yǔ)言之間無(wú)障礙切換,最直接的應(yīng)用領(lǐng)域就是翻譯和速記。
今年11月,上海高級(jí)法院招待了11個(gè)國(guó)家的法院大法官和高層管理。訊飛的翻譯轉(zhuǎn)寫(xiě)平臺(tái)為會(huì)議提供多國(guó)語(yǔ)言的實(shí)時(shí)翻譯,得到了參會(huì)國(guó)際專家的高度評(píng)價(jià)。普通消費(fèi)者想要體驗(yàn),可以使用訊飛輸入法、百度輸入法的語(yǔ)音輸入,比打字快得多。
人工智能更大的“野心”是讓一切物體都有耳朵,都會(huì)說(shuō)話,特別是智能家居領(lǐng)域,是任何一個(gè)企業(yè)都不想放過(guò)的入口。今年5月谷歌推出了谷歌家庭,蘋果更新的iOS10里加入了家庭板塊,亞馬遜的echo試圖用一只音箱操控家里的冰箱、洗衣機(jī)、空調(diào)等全部家電。訊飛則將自己的語(yǔ)音交互解決方案稱為aiui系統(tǒng),其核心依然是用語(yǔ)音連接全世界。
除了能夠跟汽車無(wú)障礙溝通的“飛魚(yú)助手”,訊飛的電視機(jī)操作系統(tǒng)也已經(jīng)廣泛應(yīng)用。操作者只要說(shuō)出“安徽衛(wèi)視”“中央一臺(tái)”“錦繡未央第十集”等要求,電視就會(huì)自動(dòng)切換。如果說(shuō)“我想學(xué)英語(yǔ)”“我想玩游戲”,電視也會(huì)自動(dòng)打開(kāi)應(yīng)用程序。最令人驚訝的是,在欣賞《冰雪奇緣》中聽(tīng)到好聽(tīng)的歌曲,操作者問(wèn)“這首歌是什么名字”,系統(tǒng)很快在后臺(tái)識(shí)別、搜索出了let it go。整個(gè)過(guò)程里,系統(tǒng)準(zhǔn)確無(wú)誤地完成了多輪對(duì)話和上下文理解,完全沒(méi)有其他系統(tǒng)例如蘋果siri對(duì)話時(shí)的斷續(xù)感。
免費(fèi)開(kāi)放的系統(tǒng)
所有企業(yè)都可以使用
訊飛語(yǔ)音和百度語(yǔ)音的背后都有一個(gè)聰明的腦袋:訊飛超腦和百度大腦。簡(jiǎn)單地說(shuō),這是一種深度學(xué)習(xí)的云端計(jì)算機(jī)。訊飛超腦和百度大腦都是開(kāi)放的系統(tǒng),通過(guò)軟件開(kāi)發(fā)工具包(SDK),其他企業(yè)可以免費(fèi)應(yīng)用這一服務(wù)。
作為語(yǔ)音市場(chǎng)的老大哥,訊飛在這一領(lǐng)域深耕近20年,能提供從芯片到后臺(tái)的本地引擎,再到后面的云傳輸、語(yǔ)音服務(wù)的整套解決方案,占據(jù)了超過(guò)80%的市場(chǎng)份額。
青島海爾克路德機(jī)器人應(yīng)用了訊飛系統(tǒng)。公司市場(chǎng)部工作人員蘇青竹告訴筆者,訊飛進(jìn)入市場(chǎng)早,技術(shù)好,他們已經(jīng)合作多年。現(xiàn)在克勞德機(jī)器人可以擔(dān)任幼兒園老師,在青島流亭機(jī)場(chǎng)擔(dān)任人工客服,還為泰康人壽定制了保險(xiǎn)客服版本。
據(jù)介紹,訊飛語(yǔ)音和人工智能開(kāi)放平臺(tái)已經(jīng)覆蓋8.9億終端用戶,20萬(wàn)位開(kāi)發(fā)伙伴,每日提供30億次的服務(wù),其中僅機(jī)器人領(lǐng)域全球3000多家機(jī)器人采用訊飛技術(shù)大腦。百度也在2013年對(duì)外開(kāi)放了語(yǔ)音技術(shù)服務(wù),很快得到了市場(chǎng)認(rèn)可。自上線以來(lái),每日在線語(yǔ)音識(shí)別要求從500萬(wàn)次上升到1.4億次,在線語(yǔ)音合成每日請(qǐng)求達(dá)2億次,開(kāi)發(fā)者數(shù)量超過(guò)14萬(wàn)人。
愛(ài)奇藝公司就應(yīng)用了百度的語(yǔ)音模塊。公司技術(shù)總監(jiān)吳桂林問(wèn)自己手機(jī)上的愛(ài)奇藝客戶端:“成龍兒子演的電影?”屏幕上立即出現(xiàn)了房祖名參演的電影。
“別看就一句話,但系統(tǒng)不僅要識(shí)別我說(shuō)的話,還要懂成龍、兒子和房祖名的關(guān)系,并完成搜索,難度相當(dāng)大。”吳桂林表示,愛(ài)奇藝從2013年和百度合作,應(yīng)用了百度語(yǔ)音助手,并開(kāi)發(fā)了語(yǔ)義分析技術(shù)和知識(shí)圖譜。目前,愛(ài)奇藝用戶每天使用語(yǔ)音搜索超過(guò)100萬(wàn)次,而且呈現(xiàn)成倍增長(zhǎng)。
“識(shí)別準(zhǔn)確率高、軟件開(kāi)發(fā)工具包(SDK)應(yīng)用方便、技術(shù)支持隨叫隨到。”吳桂林總結(jié)百度語(yǔ)音助手的好處時(shí),特別強(qiáng)調(diào)了免費(fèi),“我們和百度合作的時(shí)候,只有百度語(yǔ)音沒(méi)有真正的流量限制”。
“未來(lái)我們會(huì)有陪伴機(jī)器人、個(gè)性化私教、音樂(lè)作曲、機(jī)器人醫(yī)生等等。”吳恩達(dá)對(duì)人工智能的未來(lái)寄予厚望,但他認(rèn)為任何一家公司都無(wú)法獨(dú)占這么多領(lǐng)域和機(jī)會(huì),“所以我們的目標(biāo)就是把人工智能技術(shù)輸出給大家,近期百度語(yǔ)音開(kāi)放平臺(tái)再開(kāi)放四項(xiàng)免費(fèi)語(yǔ)音技術(shù):情感合成、遠(yuǎn)場(chǎng)方案、喚醒二期技術(shù)和長(zhǎng)語(yǔ)音方案,希望支持其他企業(yè)探索有潛力的項(xiàng)目”。