



摘 要:語音控制是當下智能家居系統的主流管理方式。然而目前大部分語音控制系統只針對普通話進行研發并使用,而對于方言的支持則相對有限,普及率不高。針對目前語音控制系統存在的方言識別水平較低等問題,設計了一款可實現多種方言精準識別的智能家居語音控制系統,該系統能夠實現方言種類的自適應判斷,可以通過多種方言實現對智能家居系統的控制。實驗結果表明,在加入3種不同噪音值的音樂噪聲下,系統對兩種方言的語音識別準確率均保持在90%以上,最高可達95.1%,表明本系統具有較好的自適應識別能力,是一種可實現方言自適應判斷和精準識別的智能家居控制系統。
關鍵詞:語音識別;方言識別;智能家居系統;自適應判斷;家居終端;STM32
中圖分類號:TP302.1 文獻標識碼:A 文章編號:2095-1302(2025)06-0-03
DOI:10.16667/j.issn.2095-1302.2025.06.025
0 引 言
智能家居系統作為物聯網技術及人工智能技術持續進步的結晶,逐漸與傳統家居結合并成為方便人們生活的一大利器。在智能家居應用技術尚未成熟時,智能控制系統主要應用于商務辦公以及工業領域。伴隨著物聯網技術及人工智能技術的持續進步,智能控制系統應用于商務辦公和工業領域的局面逐漸被扭轉。而現有智能家居系統的智能化水平普遍較低,難以滿足用戶日益增長的多樣化、個性化、智能化需求。因此,更加便利的語音控制成為當下智能家居系統的主流管理方式。目前,大多數語音交互系統主要依賴于大規模語種訓練。但由于方言分支種類繁多、方言數據收集困難,所以語音控制系統在方言領域的應用水平和識別精準度普遍偏低。
在方言語音識別研究的前期階段,比較常見的研究方法是為每種方言搭建專屬的語音識別系統,這一方法至今依舊是語音識別領域內的一大研究重點。例如,文獻[1]探討了為五種主要的阿拉伯語方言分別建立特定方言的ASR系統可行性問題。文獻[2]對于藏語的民族方言研究處于初級階段,其將主要的研究焦點集中在藏語安多方言的連續語音識別效果上,并成功實現了基于混合端到端技術的藏語安多方言語音識別;文獻[3]針對方言語音識別研究的局限性和有限性,在現有語音識別理論的基礎上,建立了陜北方言語料庫,并借助開源語音識別工具搭建了陜北方言語音識別系統。這類專注識別單一方言的模型,具有一定的局限性。
有些研究者更多地著眼于多方言模型的搭建。文獻[4]為了簡化訓練多方言系統的過程,研究并探索了訓練單個模型來識別不同英語方言的可能性,但本質上還是單類語音識別模型;文獻[5]針對日本方言中的語言差異問題,提出了一種可接受多種方言的自動語音識別系統;文獻[6]以藏語的衛藏方言、康方言和安多方言為研究對象,以藏語多方言語音識別為主任務,探討了基于多任務學習的藏語多方言語音識別技術和方法。由此可見,目前大部分方言語音識別基本圍繞一大類方言的分支方言展開,此類方言的差異粒度較小,它們當中的聲學特征、語調韻律都具有相似之處,實質上此類多方言識別的跨度不大。并且由于漢語方言分支種類繁多、方言數據收集困難,所以針對大跨度多方言的語音識別研究在我國的發展比較緩慢。
因此,本文設計了一款以語音控制為基礎、能夠識別多種方言的智能語音家居系統。為了提升用戶使用方言與控制系統進行語音交互的良好體驗,此系統實現了方言種類的自適應判斷,能夠將準確的指令精準傳遞給家居終端。該系統具有簡單易用、高效便捷的特點,提高了智能家居系統的智能化程度和用戶體驗。
1 智能家居系統總體設計
本文設計的智能家居系統以語音識別技術為核心、以語音信號作為操作指令。本系統采用STM32微處理器作為主控模塊,結合基于云服務器的語音識別引擎以及Python、Visual Studio開發環境作為控制管理中心。該系統能夠連接小型家電系統,包含照明系統、空調系統等,通過連接多個智能家居設備,實現了無線智能控制家電終端的功能,達到了用戶通過語音控制智能家居設備的目的,滿足人們對家居生活更高質、更舒適、更便捷的需求。
該系統主要分為基于云的語音識別引擎、主控模塊硬件、智能家居終端。系統工作流程如圖1所示,主控硬件中語音采集模塊將收集的語音指令上傳并調用云語音識別引擎,通過云端引擎進行方言的自識別處理,并將處理后的控制信號傳輸到主控模塊硬件,從而達到控制家居終端的目的。同時,該系統還支持自定義語音指令,用戶可以根據自己的需求和習慣自由定義語音指令,提高系統的靈活性和易用性。這不僅提升了家居系統的交互體驗,還使得系統能夠更深入地理解用戶需求,從而為用戶提供更加貼心、便捷的智能化生活體驗。
2 智能家居系統的硬件結構
本文的智能語音控制系統中的嵌入式主控模塊采用STM32F103C86作為主控芯片,主要用于接收和處理來自軟件的信號,再將其傳遞給輔助控制模塊以控制智能家居終端。STM32F0系列產品基于超低功耗的ARM Cortex-M0處理器內核[7],STM32系列單片機功耗低,運算速度快[8],因此選擇此產品作為主控芯片以滿足主控制模塊對資源的需要。主控模塊的電壓使用范圍為2.0~3.6 V,工作頻率最高可以達到72 MHz,內部采用64 KB FLASH程序存儲器,以及高達20 KB的SRAM數據存儲器[9],含有異步串行接口。主控模塊結構如圖2所示。
智能語音控制系統的主控硬件包含信息采集模塊,其主要通過各類傳感器完成語音信息、室內溫度、照明強度等數據的采集,并進行處理及傳輸。
3 智能家居系統的軟件設計
在本文設計的智能家居語音控制系統中,軟件部分主要結合基于云服務器的語音處理引擎、Python和Visual Studio開發環境進行搭建。
在利用云語音識別引擎對語音數據進行自適應識別時,應考慮多種方言的語種判斷問題,同時還需要考慮語料庫存儲空間的限制。盡管當前的本地資源硬件在算法層面已經能夠實現對語音數據的方言語種判斷,但這一過程仍需要綜合考量語種識別的準確性以及硬件資源的高效利用,存在本地研發成本過高、本地硬件存儲資源有限、算力性能未達到理想結果的情況[10]。因此,充分考慮到軟件設計的可推廣性和完整性,本系統采用基于云服務器的語音識別引擎進行語種判斷的方案。
語音識別過程如圖3所示。首先對硬件采集模塊收集的語音信息進行分析,創建喚醒詞與命令詞數據,通過喚醒詞數據請求云端,對提取的語音進行方言特征提取,進而自適應判斷方言種類,并進一步調用對應的方言命令。然后,通過語義轉譯引擎將數據轉譯并傳輸到硬件主控模塊,從而控制智能家居終端[11-13]。
本系統通過調用云方言識別引擎中的大規模語料庫進行訓練,能夠高效、準確地實現語音到文本的轉換,并對多種方言進行特征提取,具有較高的拓展性,可以滿足不同用戶的需求。同時,可以充分發揮云語音識別引擎的強大算力。
4 實驗測試
云語音識別引擎對多種方言具備自適應判斷功能,本實驗選取適用范圍相對較廣并且方言發音特征跨度較大的四川話和粵語進行喚醒及語種判斷性能驗證。在對語種判斷性能的驗證中,加入不同噪音值的音樂噪音,將實驗分為三種情況進行驗證:在安靜環境(即不加入音樂噪音)下、在次級噪音環境(即加入20 dB的音樂噪音)下、在噪音環境(即加入40 dB的音樂噪音)下。
表1展示了多種方言的喚醒性能及語種識別準確率統計數據。分析表1中的數據得出,四川話語種在安靜環境條件下表現出色,其喚醒率接近100%,語種識別準確率高達95.1%,體現出四川話語種在家居系統中的良好適應性和識別準確性;在次級噪音環境下,四川話系統喚醒率為98.4%,相比普通話略低,但其語種識別準確率為92.6%,略低于普通話;加入40 dB的音樂噪音后,四川話系統的喚醒率略有降低,同時其語種識別準確率在噪音的干擾下,降低到了91.2%。在相同的對比條件下,粵語在安靜環境條件下的喚醒率為99.4%,同樣展現出較好的喚醒性能,與普通話的喚醒率基本保持持平;粵語語種識別準確率為93.6%,與普通話相比還有一定差距;在次級噪音環境條件下,粵語語種喚醒率為99.1%,相比普通話略低,語種識別準確率為94.7%,優于相同條件下的四川話識別準確率;在噪音條件下,粵語的喚醒率為99%,喚醒率依舊表現出良好的適應性,其語種識別準確率為93.2%,和普通話相比有所降低。當然,實驗過程中可能會遇到由于概率性問題導致驗證結果存在偏差的情況[14-16]。
綜上所述,普通話、粵語和四川話等語種在整體的喚醒算法延遲和語種識別準確率方面,與單獨的普通話喚醒算法相比,基本保持相當的水平。這表明本文的智能家居語音控制系統在處理不同語種時,其性能和穩定性均得到了良好的保證。在噪音的干擾下,本文系統對于不同語種的識別準確率均保持在90%以上,證明云語音識別引擎在處理語音數據方面,有較好的表現。
5 結 語
在物聯網技術快速發展的當下,萬物互聯已成為現實。智能家居系統作為物聯網技術及人工智能技術不斷發展的產物,極大程度地改善了用戶的生活環境、提升了人們的生活體驗,具有深遠的意義和廣闊的前景。尤其是自然語言處理等人工智能技術和算法的持續進步,家居系統的智能化控制得以不斷優化,為用戶提供了更加個性化和智能化的產品與服務。本文設計了一個可實現多方言精準識別的智能家居語音控制系統,能夠完成方言種類的自適應判斷,使用戶可以通過多種方言控制智能家居系統。測試結果表明,本文系統在噪音環境下對兩種方言的判斷正確率可以達到90%以上,證明了系統良好的適應性和穩定性。未來將在云系統中加入更多方言模塊,使系統的功能更加豐富,以實現更加舒適、節能、方便的家居生活。
注:本文通訊作者為丁千惠。
參考文獻
[1] EIMAN A, ALLAN R. Investigating the effects of gender, dialect, and training size on the performance of Arabic speech recognition [J].Language resources and evaluation, 2020, 54(4): 975-998.
[2]孫婧雯. 基于深度學習的藏語安多方言語音識別的研究[D].蘭州:西北師范大學,2021.
[3]楊迪一.基于深度學習的陜北方言語音識別系統設計[D].延安:延安大學,2023.
[4] LI B, SAINATH T N, SIM K C, et al. Multi-dialect speech recognition with a single sequence-to-sequence model [C]// 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Calgary, AB, Canada: IEEE, 2018: 4749-4753.
[5] HIRAYAMA N, YOSHINO K, ITOYAMA K, et al. Automatic speech recognition for mixed dialect utterances by mixing dialect language models [J]. Transactions on audio speech amp; language processing, 2015, 23(2): 373-382.
[6]旦正加. 低資源藏語多方言語音識別[D].北京:中央民族大學,2023.
[7]李聰,李春梅,周志群,等.基于STM32數據傳輸轉換接口器的設計與實現[J].計算機工程與設計,2014,35(10):3416-3421.
[8]黃江,趙玲峰.基于STM32的廚房智能機器人的設計[J].現代電子技術,2021,44(19):183-186.
[9]沙鵬程,賈艷玲,羅浩,等.基于NB-IoT的城市橋梁監測與信息共享系統設計[J].數字技術與應用,2023,41(5):187-189.
[10]周婕,劉婷婷,黃才華,等.智能家居環境中計算資源的分配方法[J].計算機應用,2021,41(z2):165-168.
[11]余亞東,李春江,楊麗.基于語音識別的智能家居物聯網系統[J].計算機應用,2022,42(z1):391-394.
[12]陳希祥,黃伍,李德英.基于語音識別的智能家居控制系統設計[J].自動化與儀表,2021,36(7):91-95.
[13]田鈺彬,朱劍剛,王國坤.智能家居語音交互體驗的設計方法探析[J].家具,2021,42(3):23-27.
[14]蔡青竹.基于人工智能的語音識別分析[J].集成電路應用,2020,37(9):6-7.
[15]黨丹丹,陳健聰.基于云端的智能家居物聯網系統的研究與實現[J].現代信息科技,2020,4(16):170-172.
[16]黃興,李文金,蘇凱雄.一種基于安卓與云平臺的智能家居系統設計[J].電腦知識與技術,2021,17(7):5-8.
作者簡介:張 昱(1979—),男,博士,副教授,研究方向為大數據、人工智能與巖爆。
丁千惠(1999—),女,在讀碩士研究生,研究方向為大數據、人工智能。
王俊超(1998—),男,在讀碩士研究生,研究方向為大數據、人工智能。
收稿日期:2024-04-26 修回日期:2024-05-31
基金項目:北京市教育科學“十四五”規劃2024年度課題(ADDB24251);北京建筑大學研究生教育教學質量提升項目(J2025003);北京建筑大學碩士研究生創新項目(PG2025106)