莊偉瑋 張 馳 孔睿迅 張明珠 許蘊盈
(1.廣東中創智家科學研究有限公司 廣州 510663;2.威凱檢測技術有限公司 廣州 510663)
隨著技術的演進和成本的降低,語音控制器的應用場景越來越多。傳統家用電器通過安裝語音控制器具備了語音識別與交互控制功能,提升了用戶體驗。作為一類新型控制器,語音控制器其安全和性能日益受到關注。本文研究現行標準對語音控制器的適用性,并提出了語音控制器的標準化需求。
一般地,語音控制器由麥克風,電控板,揚聲器等部件組成。
裝有語音控制器的電器設備通過麥克風采集聲音信號后,傳輸給電控板,利用軟硬件系統將其解析成可供識別的電信號,并做出相應的操作。
在這個過程中,語音控制器需要用專門詞匯進行“喚醒”(圖1中步驟1),以確定用戶此時說出的話是對特定電器設備而言的。在匹配完聲音信號,確定用戶是正在對電器設備進行交互控制之后,通常會反饋一個信號給用戶(圖1中步驟2),提示“喚醒”成功,此時,用戶就可以開始通過語音發出實際控制需求(圖1中步驟3)。
因此,這個過程可以大體分為兩個階段:通過喚醒詞“喚醒”語音控制器階段(圖1中步驟1和步驟2)和操作階段(圖1中步驟3和步驟4)。

圖1 語音交互一般流程圖
“喚醒”階段的功能基本比較固定,就是激活語音控制器進入操作階段,因此一般都是本地軟硬件離線解析完成即可。在本文中,不考慮通過手動按鍵激活等非語音“喚醒”的模式。
在操作階段,若僅是簡單功能控制(如開關電源,溫度調節等)的語音控制器可繼續本地軟硬件離線解析即可滿足應用需求;但對于功能豐富的電器設備,則語音控制器需要通過互聯網將語音信號發送到云端系統,利用云端算法進行解析,以實現復雜的語義識別(如自然語言理解,獲取天氣信息等)。
目前并未有現行國家標準對語音控制器進行專門要求。
參考GB/T 14536.1-2008《家用和類似用途電自動控制器 第1部分:通用要求》中給出的“電控制器”的定義:
“在設備內或與設備連用的,用于改變設備輸出的裝置,它包括激勵、傳輸和操作三個部分,其中至少有一個部分是電的或電子的。”
可將語音控制器與其他類型電子式控制器進行簡要比對,如表1所示。

表1 不同類型電子控制器的三個控制部分對比
可見,語音控制器在功能實現上符合“電控制器”的定義,并契合常見的控制器類型對控制器三個部分的劃分,因此,GB/T 14536.1-2008適用于對語音控制器的考核。
表1中對各種電子式控制器的劃分依據是功能用途,且不同電子式控制器在基本電氣安全方面的要求大同小異,故選取GB/T 14536.1-2008第6.3條款中,根據用途給出的多種控制器分類,進行語音控制器適用類型的進一步研究。
狹義上的語音控制器到輸出指令就結束了,因為如溫度調節這類功能性控制,都有相應的后續模組(如溫控器)來實現,所以排除GB/T 14536.1中6.3條款的各種專有功能的分類,如熱切斷器、定時器、電動閥門等,選取“人工控制器”,“敏感控制器”,“操作控制器”三種與語音控制器有關聯度的類型進行研究。
對于“人工控制器”,GB/T 14536.1-2008的2.2.2中的定義為:
“一種由起動而激勵的控制器,其傳輸和操作都是直接完成的,無任何故意的時間延遲。”
該定義中有兩個關鍵點:
1)要求“激勵”是由“起動”產生;
2)“傳輸”和“操作”不再受其他環節控制(如其他環境因素限制)。
語音控制器在“傳輸”和“操作”時不再需要對其他控制因素進行判斷,故第2)點符合要求。至于第1)點語音“喚醒”是否可以作為一種“起動”的判斷,需要進一步研究“起動”的定義。
“起動”的定義在GB/T 14536.1-2008的2.3.7中給出:
“由使用者以手、腳或其他人為活動使控制器的起動元件產生的移位。”
姑且認為從人口中發出聲音這一動作產生的聲波對麥克風上的振膜產生了移位,從而形成激勵,因此僅需確認麥克風及聲學處理電路是否可以作為 “起動元件”。
引用GB/T 14536.1-2008的2.8.3中對“起動元件”的定義為:
“通過人工推、拉、旋轉來引起控制器動作所需的激勵的或用于由使用者的設定的部件。”
用戶和麥克風之間的語音喚醒的動作不屬于“推、拉、旋轉”,于是需要確認語音“喚醒”控制器是否可以屬于“使用者的設定”。
一般喚醒詞及操作階段的交互用語屬于“控制器制造商的設定”(GB/T 14536.1 -2008 2.3.18定義),即語音控制器在出廠時,就由制造商將產品的交互用語音頻特性寫入控制器,或者經過數據訓練后形成特定算法,后期使用中無法經由用戶權限進行修改。例外情況是少數產品的喚醒詞可以由使用者自行設定喚醒詞,故再研究“設定”在標準語境中的意義。
根據GB/T 14536.1-2008的2.3.17對“設定”的定義:
“為了選定操作值而對控制器的部件進行的機械定位。”
顯然,喚醒詞的設定是完全由電子電路處理完成的,不涉及“機械定位”,不能作為一種“設定”。
因此,各種情況對照條款定義分析下來,可以得出語音控制器不符合“人工控制器”的定義。
對于“敏感控制器”,GB/T 14536.1-2008的2.2.4中的定義為:
“一種自動控制器,其激勵是通過對所聲明的特殊起動量,這些特殊的起動量包括溫度、電流、濕度、光、液位、位置、壓力或速度等一個敏感的元件來完成的。”
雖然定義中給出的“起動量”示例類型沒有指明聲音,但是聲波的變化與其他所列物理特性的變化是可以相類比的,為了進一步確定聲波是否可以作為一種“起動量”,需要進一步研究它的定義。
“起動量”的定義在GB/T 14536.1-2008的2.3.10中給出:
“介質的一種可感知其變化或穩定的物理特性。”
語音控制器通過軟硬件對音頻信號進行一系列處理的過程包含了多種和復雜的物理特性變化,若將其視作成一種“物理特性”來理解則顯然太過于簡化與抽象,不能表達實際技術內涵。
因此,語音控制器也不符合“敏感控制器”的定義。
對于“操作控制器”,GB/T14536.1-2008的2.2.12中的定義為:
“由電氣原動機構來實現傳輸的自動控制器。在這種控制器中,控制器的操作控制一個電路且沒有故意的延時。”
定義要求“傳輸”需由“原動機構”來實現。“原動機構”的定義在GB/T14536.1-2008的2.8.6中給出:
“用于產生自動控制器的傳輸所需的機械能的機構,例如電動控制器、電動閥、電動機構或時基控制器。”
語音控制器對音頻信號進行語義解析后,輸出指令,調動或激活其他模塊進行電器設備控制(如激活空調啟動模組)。在語音控制器的交互框架之外,還需要其他類型控制器或電子電器模塊作為組合模組來實際執行控制電器設備的動作。因此,單從拾音開始到解析完成輸出控制指令就結束而言,語音控制器基本是由電子電路實現功能操作,不涉及機械機構的動作,故不符合“操作控制器”的定義。
開關和控制器均是用于配合其他電器設備使用,改變它們的工作狀態。語音交互控制器具具有類似的聯系,因此可擴展研究開關標準對語音控制器的適用性。
參照GB/T 15092.1-2020 《器具開關 第1部分:通用要求》第1章給出的范圍:“這類開關由人通過操動件操作、間接操作或者靠激發傳感器操作”。
此處“操動件”的英文原文與前文2.2中分析過的“起動元件”相同,只是不同歸口單位翻譯時的差異。此外,GB/T 15092.1-2020 的3.4.11還補充了“電子操動件”的定義:
“控制傳動機構或開關器件的部件、元件或元件組。注:光學或聲學傳感器是元件組的一個例子。”
帶有聲學傳感器的聲控開關是符合上述規范的一類產品。與語音控制器僅受特定聲波觸發不同,聲控開關只要聲波達到一定響度,即可被激發。雖然從功能角度簡化語音交互模型后,語音控制器的作用類似于“傳感器”受激發后產生電信號啟動了對應的操作階段,與聲控開關的作用相同,但參考GB/T 2900.83-2008《電工術語 電的和磁的器件 》中對“傳感器”的定義:“被某一物理現象激發后產生一個電信號來表征此物理現象的器件”后就發現,會陷入與前文2.3中研究的“物理特性”一樣的困境,無法對底層技術實現進行表達。目前市面上的語音控制器產品方案中,有的設計成數字信號處理器(DSP)專門處理降噪、“喚醒”、離線指令識別,操作階段的邏輯運算交由另一款芯片處理;也有使同一塊芯片處理完所有邏輯運算。但不管哪一種方式,所有模塊都高度集成化,在軟硬件上難以按“喚醒”階段與操作階段進行剝離獨立考核,這與聲控開關具有不同的技術實現路徑。
此外,控制器與開關的最大區別在于:開關旨在修改其端子之間的電氣連接,控制器的核心功能是計算,側重于分析和處理。相比之下,語音控制器更加復雜,能實現的功能更多,其對聲音的辨識要求更苛刻,技術難度遠在聲控開關之上。特別是對于具有復雜交互能力的在線語音控制器已經超出了開關的概念。
因此,器具開關標準難以覆蓋語音控制器的底層技術方案,若以器具開關標準考核語音控制器,將極大弱化語音控制器與前沿智能技術之間的關系。
控制器是實現新型云計算、物聯網、新一代人工智能等新技術領域的最核心支撐部件,是各項新技術的實現基礎。
但是歸結前文的分析,語音控制器都難以從GB/T 14536.1-2008 或GB/T 15092.1-2020中找到相應的類別來進行規范。
語音交互涉及電器的功能控制,一旦出現安全漏洞,可造成人身和財產傷害。而且由于用戶的隱私可能長時間暴露在拾音環境中,對于隱私保護的要求是傳統電器產品未曾遇到的情況。
此外,不同于手機、麥克風等產品,帶有語音交互功能的家用電器的應用場景更為多樣化,拾音條件較為惡劣(如電器工作時自身的噪聲、振動),這些都可能對語音模組的正常應用造成影響。
事實上,語音控制器由人主觀意識啟動后,發揮控制的作用,與“人工控制器”的定義初衷是相符的。但傳統控制器的操作和調節是通過人的接觸操作完成,受外部條件影響較小;語音交互則屬于非接觸式的交互操作,不同用戶口音、語速,不同的使用環境,不同的設備安裝情況,都可能對交互結果產生影響。
再者,經過多年的發展,基于物理特性研發的傳統電子器件已相對穩定可靠,而現代前沿語音交互技術一般是基于大數據訓練出來的復雜算法,其工作原理如黑盒一般,對于各種可能出現的輸出結果具有不確定性。
可見在語音交互功能已成為日常生活助手的今天,傳統電氣安全標準亟需針對新型激勵引入新的技術規范,對可能出現的問題進行預防,降低具備語音控制功能產品的潛在著安全風險,為新技術的應用保駕護航。