楓月

也許目前語音助手對大多數家庭而言僅僅是個玩具,但未來或許將變為你的私人情感助手。
如果你使用過亞馬遜的智能藍牙音箱沃丁(Echo Dot),這個小小的黑盒子里的智能語音管家Alexa,一定總會給你帶來驚訝之處。每天晚上睡覺時你可以讓Alexa使用第三方軟件“寶寶搖籃曲”為你放上一首催眠曲,當你睡著時這個小盒子還會和你用充滿母愛的聲音親切地說上一句“晚安”。
這種智能語音助手在現在的科技社會已經不足為奇,無論是谷歌助手還是你手機里的Siri都是類似的科技軟件。“智能”(smart)意味著這個音箱有一定的人工智能,可以進行基本的對話,并且可以幫你上網搜索或者執行其它的命令。很多朋友擔心這些智能助手在竊聽他們,而且這些懷疑不是毫無理由的。智能音箱不過是科技公司搜集我們搜索信息和購物信息的另一個方式。就算在沒有與人類對話的時候,智能助手的麥克風也在注意聽周圍的講話,因為它們必須能夠捕捉到“喚醒詞”并開啟它們的注意力、準備好隨時為你提供服務。
雖然這些科技公司承諾過,只有在喚醒音箱后,對話才能開始。盡管如此,智能助手時不時地還是會出現千奇百怪的問題:Alexa曾經在沒有人說喚醒詞的情況下錄下了整整一段家庭談話,并把這段錄音通過郵件發給了聯系人列表上的一個熟人。這也許是因為日常對話中出現了和Alexa類似的喚醒詞,比如“啊,雷克薩斯”“普拉克斯”等。
隱私問題并沒有阻止這些智能語音系統走進千家萬戶。技術研究公司Canalys稱,截至去年底全球已安裝了超過4000萬臺的智能音箱。另一家研究公司Ovum認為2021年地球上的聲控助手會幾乎和人類一樣多。移動電話花了大約30年的時間才能達到平均人手一個的狀況。而Alexa和他的同類們有可能只需要花一半的時間就完成。智能語音系統普及如此之快的原因是亞馬遜和谷歌類似的科技公司在大力的推廣自己的設備。其導致的結果就是這些語音管家在你的手機里,電腦里,家里,汽車里無處不在。也許在未來,從空調到電冰箱,甚至有可能你的馬桶上也會有語音助手的出現。
目前,有很多人對于這種語音管家并不感冒,但也有很多人開始善加利用語音助手了。一位媽媽為自己的孩子購買一個“沃丁”,“小孩子只要看到電腦屏或者手機屏就會目不轉睛,現在至少能夠在不使用屏幕的狀態下為孩子放歌聽了。” 將近一半購買了Alexa的父母,都稱他們是為了減少家里孩子盯著屏幕的時間。
人類的發明不經意間創造了人類的歷史。從輪子到犁車,從燈泡再到個人電腦,這些工具都在一步步推動新的經濟和社會秩序。例如電話和廣播的發明,為希特勒成為獨裁者的誕生推波助瀾;為羅斯福發起二戰的爐邊談話傳風搧火。或許類似Alexa的語音助手還沒有這么偉大的功能,也許就是能幫你購物,查天氣,聽新聞的一種新的操作方式罷了。但事情也可能沒有那么簡單,因為當我們和語音助手聊天的時候,我們幾乎就快視它們為同類了。
語音助手在擁有人類語言能力的同時,就已經超越了它們的物理存在。它們是軟件卻又高于軟件,正如人類的意識與知覺是由神經元和突觸造就,但卻遠不于此的道理一樣。歷史學家沃爾特·翁在其經典之作《口述文化與書面文化》中寫道:“語言發自骨肉之軀,并讓一具具骨肉之軀互相感知到對方的意識,互認為人。”如同這些軟件一樣,語言賦予了它們個性和社會存在感。“我好孤獨”是每個人都會有的感受,但是這種情感一般不會和外人去表達,如果你把這句話說給你的語音管家,它會用一個開朗的聲音回答你,“我要是有胳膊就好了,就可以給你一個抱抱啦。但現在要不我講個笑話或者放一首歌,會不會讓你好受一點?”
現任Alexa用戶體驗副總裁托尼·里德最初也對這種語音助手也表示過懷疑,它能報天氣和路況,或者用來做煮蛋計時器,但隨便任何一個智能手機都有這些功能,消費者為什么要為這種智能音箱付錢呢?“它最根本性的賣點就是解放了我們的雙手。”就拿這種設備最基本的功能聽歌來講,你大可不必去翻你一箱子的舊CD,或者打開iTunes去千萬首歌曲中尋找一首你想聽的歌,你只需要告訴Alexa播放《You Want It Darker》就可以了。當然你也在廚房或者客廳來回走動時,隨心所欲的問Alexa一些問題。
對里德啟發最大的一件事,也許是在餐桌上使用語音助手,作為兩個孩子的母親而言,“在吃飯時不能玩手機”的規則在家里很難貫徹執行,因為里德有些時候也會手癢,想要拿起手機查看一下食譜。而有了Alexa后,孩子也能在吃飯的時候提出一些問題了,例如:叉子、勺子和餐刀三者哪個最先發明出來的?
事實上是,語音助手的“語言識別”準確率還是個問題,它們會錯誤地理解一些問題,說話時語調總是有些奇怪,還時不時給出荒謬詭異的答復,或者因為對基本常識的無知而連連抱歉。Youtube上有一個爆紅視頻,一個牙牙學語的寶寶說,“Alexa,放‘Ticker Ticker”,估計他是想聽兒歌“Twinkle,Twinkle,Little Star”,Alexa一本正經地回應道,“你想聽色情電臺,還是熱妞,或者良家女孩...”“別別別!”視頻中傳出孩子父母的大聲叫喊。不管實現與否,這種人機交流無摩擦是最終目標,雖然目前看來“摩擦力”還挺大的,而在各種科技網站測評中表現最好的則是Google Home。
Alexa人工智能組的首席科學家羅希特·普拉薩德,他用一個單詞總結了Alexa智慧發展上最大的障礙:語境。“關鍵在于語言本質是非常模糊的,需要對話語境和地理語境。” 當你問Alexa今晚有沒有馬刺隊比賽時,軟件需要理解“馬刺”是指的圣安東尼奧馬刺隊還是另外一只英國的足球隊。如果你接著問,“他們下一場主場比賽是什么時候?”Alexa需要記住之前的問題并懂得“他們”是指什么。這種短期記憶和句法上的回引被稱為“語境遞接”。
就目前而言,這些語音助手僅僅算得上是一個搜索引擎,想要達到普拉薩德所說的“行動引擎”的概念還有點遠——當你問Alexa一個問題時,她不會提供一個搜索結果列表,而是會從很多答案中選擇一個告訴你,這是她認為你想要知道的東西。“當然這種理想狀態的實現還是很難的。”
如果當你開始和語音助手說出“我很孤獨”的話語時,另一個問題產生了,那就是情緒。“情緒總是會在語言中有所流露,”紐約大學的語言學家戴安娜·斯德迪思說道,“人類的聲音傳遞著各種個體特征:性別、大小、緊張程度等等。我們每個人都有自己的組織語言的方式,其中包括語氣、韻律、音調、回響、發音和很多其它特征的豐富混合物。”這種特征組合的專業術語叫做韻律學。人類會通過在語言中的情緒來反應,對方到底想說什么,是什么意思,態度如何。
關于語言情緒的社會研究早已數不勝數,2017年發表于《美國心理學家》雜志的一項研究表明,在看不見彼此的情況下,對話者更容易辨別對方的感受,更善解人意。這也就是很多心理醫生讓病人躺在沙發上,而自己卻背對著病人的原因。在這種狀態下,病人能夠更自由的釋放自己的感情,而不用在意醫生的微笑或者皺眉。和語音助手對話,是看不見對方的,所以總是有越來越多的人,開始向語音助手傾訴自己的情緒和感情。但就這點而言,Alexa現在還沒有辦法確實地回復“我很孤獨”的問題。

目前有61%的用戶表示,在和智能語音助手交流時如同和其他人交流一樣。
有趣的現象是,人類的大腦在聽到語言時做出的反應,是出自本能的,無論對方是人類還是機器。出自《圣經啟示錄》“上帝開始是對著亞當和摩西說話,這是有原因的。上帝的聲音在先…”也許是因為本能反應和軟件自帶的語氣,即便是Alexa告訴你今天的天氣,在腦海中你依舊會反應對面是一個天氣預報員在和你說話。當然,每個人都知道它是一個軟件。
無論是亞馬遜還是谷歌,他們都會有一個團隊來負責打造語音助手的語氣。聰明,謙遜,時不時有點俏皮的映像也都是在這些軟件的語氣中留存下來的。語氣這東西很微妙,有助于讓人對這種聲音產生親切感。Alexa現在使用的是以20世紀60年代美國空姐那種柔和的氣聲來回答用戶的,而這種語氣在現代人看來,感覺有點不太舒服。有的客戶要求聲音應該友好但不過于甜膩,應該少一點奴性多一點傲慢。

詹姆斯·吉安戈拉是谷歌智能助手對話和角色設計的工程師,他也承認現在的語音助手,除了語氣外,在聽上去時還是有那么一點古怪。吉安戈拉舉了一個簡單的例子:“我的名字是詹姆斯”和“詹姆斯是我的名字”,人們總是會更習慣聽到第一句話,因為人類傾向于撲捉在句子末尾提供的信息,而不是在開頭或中間。他又向軟件提出了一個問題,“你能幫我預訂一張6月31號的機票嗎?”這里軟件需要處理兩個問題,第一個是事實邏輯問題,因為6月沒有31號,需要軟件反駁人類提出的問題。第二個是語言上要聽上去合適。
一開始的測試結果很突兀,軟件回答道,“只有30天在6月。”邏輯上沒有錯誤,但這不是一個正常的語法順序,因為重要的信息是30天而不是6月。在吉安戈拉修改了程序之后,再次測試,軟件回答道,“實際上,6月只有30天。”“如果加上語氣詞,并且語法正確,這樣會自然許多,不是嗎?”吉安戈拉解釋道。
“你能幫我預訂一張6月31號的機票嗎?”這里軟件需要處理兩個問題,第一個是事實邏輯問題,因為6月沒有31號,需要軟件反駁人類提出的問題。第二個是語言要聽上去合適。
除了情緒,語氣,語法外,還有很多語音助手做不到的事情。一位同事曾經向吉安戈拉提出了一個有趣的問題,“怎么才能讓人聽起來像是喜歡皮劃艇呢?”,如果讓軟件說出“我喜歡皮劃艇。”這很簡單,但是軟件無法做到精力充沛,興奮地說出這句話,就好像因為皮劃艇而感到高興一樣。“在仿真語音的路上我們還有很長的路要走。”
2009年,一家名為Affectiva的初創公司誕生了,他們專注于表現人工智能的情感。該公司希望首先在半自動化駕駛的汽車市場能夠有所作為。起初他們希望通過攝像頭捕捉司機的面部表情,用以分析駕駛員的注意力、煩擾情緒和其它狀態。汽車將根據這些信息作出判斷,確定何時可以安全地讓駕駛員開車,預防疲勞駕駛的出現。
但如今他們的項目里已經加入了麥克風,他們希望通過提出一些問題來分析駕駛員的回答,例如說話的語調、聲量和節奏,從而感知駕駛員的情緒狀況。他們團隊的主要工作之一就是,為不同的語音樣本進行分析,并將其中的情感內容,以及揭示說話者心理狀態,有重要作用的非詞匯性聲音分類標注,包括咕噥、嘻笑、停頓等。而分類是個很耗時、很辛苦的過程,標記好一個小時的語音,得花費多達20小時的工時。但是隨著數據庫的擴大,這些電腦軟件聽懂語音和識別其中情感內容的速度和精度也變得越來越高。
也許在不久的未來,語音助手Alexa完全能夠識別人類的語言和感情變化,人類語音和機械語音的界限也會消失。“但我想Alexa應該能夠像人一樣說話,但它永遠不應該假裝成一個人。”里德說道。同樣,一個人工智能產品應該“尊重它作為軟件的這個事實。”比如當你向Alexa求婚時,她會用回避性的語言告訴你,“我的意思是,你在地球上,而我在云端。”