本刊編譯 黃子婧
顧名思義,語音玩具就是“會說話”的玩具,特指憑借特殊技術手段而具備說“人話”、甚至懂“人話”的玩具。因為人機交互難度低,且更生動,受到了家長和兒童的歡迎,也出現了不少有代表性的經典產品。
語音玩具起源于最古老而傳統的玩具品類——娃娃。從十八世紀歐洲工業革命后,玩具廠家開始嘗試讓娃娃“說話”,使之更顯逼真生動,讓陪伴不再“沉默”。
據考證,最早的一款語音玩具由愛迪生發明。他歷經數年,將自己在1877 年發明的留聲機,改良成一個可拆卸的微型蠟筒式留聲機,裝在娃娃身上,轉動留聲機上的手柄,就能讓娃娃唱起童謠。產品于1890年上市,但僅開售了數周。盡管銷售時間不長,但是鼓舞了后來大批的模仿者。

據說是玩具歷史上首代語音娃娃,由愛迪生發明(網上資料圖)
當時間的齒輪轉到20 世紀下半葉。美泰在1960 年推出一款名為“愛說話的凱西”(Chatty Cathy)的拉線語音娃娃。一拉線,娃娃就會說簡單的短語。玩具公司邀請知名配音演員June Foray 預先錄制了11 個短語。這名配音演員也是后來迪士尼1998 年版《花木蘭》動畫電影中花奶奶的配音。這種采用專業配音人員錄音的做法,在當時來說,也是一個創舉。凱西賣了6 年時間,有資料稱其為60年代人氣僅次于芭比的娃娃玩具。
進入21 世紀,互聯網的快速發展給語音識別注入了新的生命力,先后出現了哈嘍芭比(Hello Barbie)、智能小龍(Dino)、凱拉娃娃(My friend Cayla)等智能語音玩具。這些玩具利用語音識別技術,“聽”懂孩子的問話,在數據庫中搜索出相應的答案來回答孩子,做到最起碼的雙向互動,比前輩們只能單向地播放錄音要先進得多。
翻閱最近半個世紀的圣誕熱賣玩具榜單,筆者發現,雖然登頂的語音玩具并不算多,僅有3 款(見表1),但都自帶爆款元素。
從右表中可以看到,這3 款圣誕熱銷的語音玩具在技術上,都有其獨特之處。
其中,泰迪熊華斯比可以說是語音玩具在單向播放時代的一個突破性產品。首先,它是第一款采用動物形象的語音玩具。其次,它使用了突破性的技術,把立體錄音卡帶和同步控制器裝進了約半米高的毛絨熊體內,使其眼睛和嘴巴運動與小熊“講故事”的節奏同步。小熊發明者Ken Forsee 創造性地使用體積較小的雙軌立體聲卡帶,一條軌儲存錄音,另外一條軌記錄動作信號,控制頭部的眼睛和嘴巴,使動作與音頻幾乎可以完美同步匹配。這在當時,尤其是在玩具領域,是相當先進的技術。因為,同樣體積的語音玩具,面部表情是固定不變的(比如前文提到的留聲機娃娃和美泰的愛說話的凱西);而當時面部表情能隨語音變化的產品,是用于電影拍攝的玩偶道具,比如迪士尼的電動玩偶,還在使用巨型的卷軸磁帶,體積要比泰迪熊華斯比大得多。
泰迪熊華斯比從研發到上市,只用了半年時間,耗資6000 萬美元。1985 年9 月正式推出,上市首月就賣出了4.1萬只。到1985 年年底,這款玩具就賣出了9300 萬美元的銷售業績,令人驚嘆。因其人氣高企,更以這只小熊為主角,推出了一部電視動畫片《華斯比歷險記》。多重因素疊加之下,這只小熊于1986 年登頂圣誕熱銷玩具排行榜。
而1993 年最熱賣的圣誕玩具則是一只迷你的盒式錄放機(Talkboy)。其原型是1992 年的熱映影片《小鬼當家2:迷失紐約》中原創的道具。因為電影太受歡迎而在次年推出玩具,廠家經研發加入了變速和變聲的功能,語音有了更為生動的感情元素,算是語音玩具從單向播放時代向雙向互動時代的過渡性產品。后來一度在中國大火的“會說話的湯姆貓”也使用了類似原理。
1998 年的圣誕玩具銷售冠軍菲比精靈則更進一步,它具有一定的“智力”和“語言能力”。最初,菲比精靈只能說自帶的母語“菲比語”,但隨著與主人的接觸,菲比精靈會逐漸學會說英語。據發明人Dave Hampton 介紹,菲比說的英語其實都是預先錄制的,隨著使用時長的增加,逐漸激活英語錄音播放功能,看起來,就好像逐漸學會了說英語。雖然菲比并沒有語音識別能力,也聽不懂孩子對它說的話,但這個延時激活英語錄音技術所造成的語言學習假象使其獲得了極大的成功。在上市后的3 年間賣出了4000 萬只。

表1

經拆解后的古董泰迪熊華斯比機器分解圖(國外網友Damien Scogin 繪)

這款簡單的盒式錄放機在電影亮相后,加入變速、變聲技術,成為孩子搞怪游戲的最愛
除了技術創新之外,活靈活現的載體也是必不可少的因素。語音玩具研發的初衷就是為了通過有感情的語音,給孩子提供有情感溫度的陪伴,而作為載體,活靈活現的外形就成了絕對的加分項。
還記得愛迪生發明的首個語音玩具——留聲機娃娃嗎?產品上市數周就無奈退市了,失敗的原因中就有一條——聲音不自然。錄音來自一位普通的工廠女工,聲音經過留聲機的處理后,失去了自然人聲的靈動。而且,娃娃在唱歌的時候,面部是固定不變的,給人生硬之感。美泰推出的拉線語音娃娃“愛說話的凱西”,雖然請來了專業人士配音,錄音技術也比愛迪生時代先進不少,克服了人聲不夠自然的缺點,但是面部表情生硬依然是一大缺陷。泰迪熊華斯則從錄音和表情兩方面下手。除了上文提到的聲情同步技術之外,發明者Ken Forsee 還利用自身在迪士尼工作的便利,邀請到了專業的演員來幫忙設計眼部、嘴部動作,使其更加生動逼真;請米妮老鼠、高飛狗等家喻戶曉的動畫角色配音演員為其錄制故事;專業的音樂劇導演為其故事錄音創作背景音樂。多管齊下,方才造就了這么一款充滿情感溫度、令人聲臨其境的語音玩具。
試想一下,如果沒有活靈活現的載體,而只有冷冰冰的機械合成語音,哪怕產品聰明如人工智能語音助手Siri,總是缺少那么點情感溫度,并不利于兒童的情商培養。所以,這也是為什么語音玩具多采用人形娃娃,或可愛的動物毛絨作為載體的原因。
經歷了1.0 時代的單向播放錄音、1.5 時代的音情同步,語音玩具在語音識別技術和互聯網技術的賦能之下,終于邁向了可以雙向互動的2.0時代。通過錄音、語音識別、聯通云端數據庫搜索、語音回復這一系列復雜操作,語音玩具終于從“能說話”進化到“能聽懂”。這一時期的代表性產品有2015 年美泰的哈嘍芭比(Hello Barbie)、Cogni Toys 的智能小龍(Dino)和2016 年Genesis Toys的凱拉娃娃(My friend Cayla)。
雖然這些語音玩具表現得相當智能,但是,玩具的應答主要還是由廠家事先根據關鍵詞設定好。比如,哈嘍芭比能作出約8000 條語音回答,由美泰請配音員事先錄制。智能小龍雖然靈活一些,背靠世界頂級科技公司IBM 當時最新的“沃森”(Watson)人工智能程序,同一個問題會根據家長設定孩子的年齡,用不同的表達方式來回答問題,但核心答案還是固定的。因此,也有家長擔心,這種模式會扼殺孩子的想象力和創造力,不利于孩子的成長。有家長反映,當孩子發現語音玩具翻來覆去只會說固定的回答之后,也就失去了興趣。美國麻省理工大學長年研究人機交互的教授Sherry Turkle 指出,這類智能語音玩具是兒童了解人際交往的一個窗口,并不完善的交互技術對兒童的交際能力培養不利。

1998 年第一代菲比(左)和2016 年智能聯網菲比(右)

智能語音玩具的三大代表
此外,還有更令家長擔憂的隱私問題存在。2015 年,全球最大嬰幼兒電子學習產品制造商就曾因數據庫被黑客襲擊導致客戶信息泄露,約640 萬兒童的名字、性別和生日等隱私信息外泄,震驚業界。凱拉娃娃也曾被爆出有技術漏洞可能導致隱私泄露,雖然漏洞很快就被修復,但依然在多國被禁售。
麻省理工大學媒體實驗室個人機器小組負責人Cynthia Breazeal 教授則認為,技術的不完善也為語音玩具提供了新的發展機遇。