技術宅
電話訂餐,相信很多吃貨們都使用過。不過大家可能沒有想過使用機器人來向商家訂餐,因為雖然只是簡單的對話,但是在對話過程中需要向商家確定諸如就餐時間、人數、包間等信息。另外還可能有許多“意外”發生,比如餐館預約人數太多,就需要臨時改變計劃,經雙方協作溝通才能最終順利完成訂單。這些對于人類來說可能非常簡單,但如果全程是由機器人來完成的,我們就不得不驚嘆機器人的智慧了。谷歌的AI訂餐視頻展示中,AI機器人就通過語音電話和實體餐廳完成了訂餐活動,而且商家根本沒有察覺是在和機器人對話(圖1)。

很多人意識不到一次簡單的訂餐活動對AI來說有多大難度。因為在對話過程中,AI機器人需要理解、思考人類的回話,并作出得體的回復,這意味著機器人能夠完全讀懂并處理人類的自然語言。谷歌AI機器人是怎樣擁有這些“超能力”的呢?
一方面要讓AI可以“聽”懂人類的對話,就需要讓機器人熟悉人類的對話場景。谷歌科技人員準備了海量的對話場景,并通過這些場景對機器人進行訓練(上述訂餐的例子中,谷歌就將我們常用的訂餐對話輸入到機器人的數據庫中進行訓練)。通過海量的數據訓練后,AI機器人基本熟悉人類某個場景的對話,就知道該怎么與對方進行交流,從而可以在接收對方的回復后選擇合適的語句進行回復。
另一方面借助AI強大的自我學習能力,它可以在海量數據訓練后實現自我學習和提高。在谷歌展示的訂餐視頻中,AI機器人在整個對話中語氣非常自然,包括停頓、縮略語,甚至會在回復中增加一些看似“無用”的口語性語氣助詞“Mmhmm”、“uh”等,這些語氣助詞的出現非常自然。這是AI典型的自我學習能力,這種逼真的模擬場景讓對方根本不知道是在和機器人對話(圖2)。

為了讓機器人的發音顯得更加自然、逼真,谷歌借助強大的TTS引擎技術,不僅可以使AI機器人的語音和人類的語音非常類似,還可以根據不同的情境控制語音的語調,這樣使得AI的發音、語氣、語境水平和真正的人類相差無幾。在上述訂餐視頻中出鏡的就是谷歌智能助理Google Assistant,它成功地“騙”過人類,完成了一項人工電話訂餐(圖3)。
AI機器人成功訂餐視頻,展示的實際上是谷歌在自然語言處理方面的技術積累。谷歌賦予了AI機器人進行多輪自然對話的能力,也是通過這種多輪對話能力的延伸,谷歌聯合使用了一個級聯TTS引擎和一個生成式TTS引擎,來根據不同的情境控制語音的語調,讓AI機器人的語音對話達到了和真正的人類相比都難以區分的地步。


當然類似人工智能的應用,同樣出現在谷歌的其他產品中。我們常用的Gmail新增了一種全新的智能回復功能——Smart Compose,通過機器學習理解一封郵件的上下文,這樣在你寫郵件時都不用將一個句子寫完,機器學習就能通過理解幫你補全你想說的話,實現非常智能的回復(圖4)。
從上述介紹可以看到,AI不僅可以理解人類的對話,而且可以根據人們的需要智能協助完成很多的工作。將上述AI訂餐機器人的技術應用到大型超市、熱門景區等場所的前臺,就可以完全實現無人化操作,甚至可以提供比人工客服更好的導游服務。
一些APP上的人工智能,比如 Google Photos,可以幫你一鍵分享照片給同框入鏡的好友,這樣一起出游的朋友在完成合影照片上傳后,同框好友就會自動收到合影照片。再如Google Map運用圖像識別實景導航,這樣在手機上使用谷歌地圖導航時,前面商店、餐館、加油站的信息會自動顯示出來,成為一個非常智能的導航專家(圖5)。


當然AI應用場景還會出現在我們生活的方方面面。在手機上練習英語口語,每讀一句話,AI會給你打分;當你洋洋灑灑寫完一篇作文,AI會圈出作文中出現的多詞、缺詞、錯詞和次序錯誤等……總之,隨著AI技術的發展,它必定會給我們的生活帶來各種意想不到的便利(圖6)。