張潤澤 王子豪 柏宇 戴海鴻 南京郵電大學通信與信息工程學院
引言:智能語音作為一種最天然的“交互技術”,已成為服務型機器人領域的場景標配。隨著人類不斷進化,從最初通過手掌、肢體使用簡單工具、傳遞簡單信息,發展到控制發聲并通過耳朵接收,形成了一個以語音為載體的快速信息傳遞通道和收發閉環,成為人類間最自然、最重要的信息交互手段。聲波對接收指向性的要求更寬松,這個寶貴的特性會在很多場景下帶來極大便利。隨著智能設備和應用的影響逐漸擴大,用戶群向老齡人群、低齡人群、身體殘障人群擴散的趨勢非常明顯。幼兒時期作為最具有可塑性的一個時期,這一時段的德智教育伴隨一生,近些年來,掀起了一陣早教的風潮。但不是所有的父母都有足夠的時間能進行足夠的教育,也不是所有的父母都有正確的早教經驗。本作品針對2-6歲兒童的益智多功能玩具,在家長沒有時間照顧孩子時可以充當一個玩伴的角色,通過豐富的內置早教與對話資源可以很好地培養孩子的語言和學習能力。語音交互技術主要分為語音喚醒、語音識別、和語音合成這三大技術。
基于這三項關鍵技術,本文將深入解析基于語音交互技術的智能兒童玩具。
智能兒童玩具選用了SYN7318中文語音交互模塊,模塊的核心技術為語音識別、語義理解、語音合成三項技術,在此基礎上可以應用在自動售貨機、POS機、車載GPS設備、智能玩具等多種語音交互場合。
在和智能兒童玩具進行語音交互之前,必須先對其進行語音喚醒。喚醒之后才能讓智能玩具開始接收語音并且進行識別。語音喚醒支持以下特定名字的喚醒功能模塊支持下列特定喚醒名字進行喚醒。同時還支持用戶自定義設置喚醒名。模塊支持用戶按照自己的喜好進行喚醒名稱自定義。如“快樂小播”等四個漢字的喚醒名。用戶設置喚醒名字方便快速,可以通過控制命令設置模塊的當前喚醒名為以上喚醒名中的任意一個或者自定義一個個性喚醒名,為設備取一個名字,交互方式簡單有趣。還可以通過控制命令開啟喚醒模式,之后進行人機的交互。
SYN7318中文語音交互模塊支持非特定人命令詞識別,即只識別語音內容而不區分說話人。同時不限定被識別語音范圍,男女老幼語音均可使用普通話進行識別。語音交互模塊還支持中文、英文、中英文混合識別。系統最多支持定義10000條語音命令,識別命令詞可以在單片機編程時動態更新,用戶可以通過控制命令直接更新內部詞條。
模塊支持任意中文文本的合成,可以采用GB2312、GBK、BIG5和Unicode大頭或Unicode小頭 四類五種編碼方式。文本智能分析處理模塊具有文本智能分析處理功能,對常見的數值、電話號碼、時間日期、度量衡符號等格式的文本,模塊能夠根據內置的文本匹配規則進行正確的識別和處理。例如: “火車的速度是622km/h”讀作 “火車的速度是六百二十二公里每小時”,“-12℃”讀作“零下十二攝氏度”等等。
基于智能語音交互技術的兒童玩具建立在SYN7318中文語音交互模塊語音識別、語義理解、語音合成三項技術設計實現了語音喚醒玩具、幼兒語音的識別、語音指令的處理和反饋。其優點十分明顯,通過這三項技術設計而成的智能玩具能夠實現對幼兒的語音識別和指令處理,完成講故事、唱兒歌、說英語等早教功能,以此實現早教、陪伴的功能,對于幼兒的早期智力、語言功能的發展具有十分重要的意義,因此具有廣闊的商業前景。