劉露萍
(重慶水利電力職業技術學院,重慶 402160)
隨著我國經濟已由高速增長時期轉向高質量發展時期,可持續發展戰略的推進,人們的生態環保意識不斷提升,如何開展垃圾分類管理,成為各地政府與人們群眾高度關注的問題,一方面要構建長效的管控機制,加強人們對垃圾分類處理的認知,另一方面還要引入現代化及科學技術,以推動綠色經濟體系的完善,養成良好的衛生習慣和節約意識。2017年國務院下發《生活垃圾分類制度實施方案》,2019年起,全國啟動生活垃圾分類,但成效不夠明顯,人們缺乏垃圾分類常識,無法自主分類。隨著語音識別技術應用領域的越來越廣泛,基于語音識別控制的智能垃圾分類系統迎難而上,解決了人們自主分類難的問題,從而引導人們正確投放垃圾,助推國家垃圾分類工作,特別是在疫情期間可以避免人們和垃圾存放裝置直接接觸,減少病毒傳播的途徑。
隨著信息技術、智能控制技術的迅速發展,人們越來越重視語音數據的識別和處理,近十年語音識別技術得到了飛躍式的發展,已成為信息技術領域十大重要的科技發展技術之一,已應用到工業、家庭服務、通信、電子產品、汽車電子等各個領域。語音識別技術是計算機科學、信號處理、單片機技術、聲學等多學科交叉的技術,語音識別就是讓機器識別出人說出的語音,轉化為機器自身可以運行的指令。可以分為特定人語音識別和非特定人語音識別,特定人語音識別是對指定人的語音識別,其他人的話不識別,例如手機的語音解鎖;非特定人語音識別是不分年齡、性別,只要說相同語言就可以,智能垃圾分類系統的使用者是廣大受眾,所以應當使用非特定人語音識別技術。
非特定人語音識別是通過預處理、特征提取、訓練和匹配4個過程完成(如圖1)。預處理是要完成語音信號的采樣、降噪、增強,特征提取是通過頻譜分析從語音信號波形中提取一組或幾組能夠描述語音信號特征的參數,訓練階段就是構建詞表參考模式庫,它由這個詞重復發音多遍,再經預處理和特征提取得到,匹配是將輸入語音的特征矢量參數和參考模式庫中的參考模式進行相似性度量比較,得分最高的一條作為識別結果輸出。
圖1
LD3320芯片是一顆基于ASR技術非特定人語音識別的語音識別芯片,LD3320芯片集成了語音識別處理器和一些外部電路,包括AD、DA轉換器、麥克風接口、聲音輸出接口等。通過加強語音識別系統,針對原有的識別技術體系進行強化,可以解決單芯片語音識別速度慢、效率低、不準確等問題,由于該芯片集成A/D與D/A接入途徑,可以對各類設備實現對接,而不像傳統設備只能依靠RAM與FLASH,在多種工作環境中都能實現對語音信息的精準識別。例如聲控功能與人機交互功能的融合,可以根據不同的作業環境展開動態編輯,增加模糊處理功能,在多環境中提升芯片的運行功能。同時,LD3320芯片還可以輕松實現語音轉化,多環境聲控,人機對話等功能,將實時語音轉換為文字進行處理分析,加強設備的運行效率,在各種運行環境中區別各類語音的接受效果,還可與與相關模糊處理裝置進行搭配,提升語音識別的準確效率。尤其是人機對話功能中的關鍵詞語設計,可以根據使用情況,提前設定50條關鍵詞,當對操作人員的口語進行識別分析時,可以加強信息轉化與處理聯動,快速將語音內容轉化為文字。加強芯片對特定環境與特定語言的識別效率。
目前,對于智能垃圾分類系統要能夠實現語音智能識別垃圾種類有兩種方式,一種方式是在單片機程序中調用語音開發包;另一種是在系統中嵌入語音芯片。第一種方法程序量大,計算復雜,需要占用大量的處理器資源,開發周期長;第二種方法相對簡單,只需要關注語音芯片的接口部分與單片機相連,結構簡單,搭建方便,單片機的計算負擔大大降低,增強了可靠性,縮短了開發周期,所以更多的是選擇嵌入語音芯片。基于LD3320不需要外接任何的Flash、RAM、AD等輔助設備,可以獨立完成語音識別功能,我們通常選擇嵌入LD3320語音識別芯片。
非特定人語音識別技術ASR技術是基于關鍵詞語列表識別的技術。對于智能垃圾分類系統這個列表的條目內容就是50個精短的,有關于垃圾內容的詞組進行分類,例如可回收垃圾、不可回收垃圾、濕垃圾、干垃圾、有害垃圾等詞語,ASR技術可以加強芯片對關鍵詞語的識別效果,例如操作人員的語音指令中存在特定關鍵詞時,可以進一步縮小語音分析與轉化范圍,將相應的待識別垃圾名稱傳遞給操作者,完成后續垃圾處理工作。LD3320通過對垃圾名稱、種類進行識別處理,快速有效的找出相應的功能列表,為后續的算法工作提供數據支撐。根據實際使用情況,當操作人員說出超過八個字時,ASR技術可以對話語進行合理劃分,并且盡量找出當中存在的關鍵詞,而LD3320芯片則是重點對話語中的錯誤表達或模糊不清進行處理,提升識別準確率。通常情況下,為了加強設備的識別效果,操作人員在說出語音指令時,要盡量簡短、準確,建議處理指令不要過長。
LD3320芯片為3.3V供電與其連接的單片機必須為 3.3V供電的單片機,從而保證IO口電平不超過3.3V,否則將導致語音芯片驅動不成功甚至導致語音芯片燒壞,該模塊有并口和SPI兩種驅動方式的端口連接。連接成功后可進行程序移植,根據自己的單片機使用情況移植配套程序,配套程序包括LD3320芯片的驅動函數、讀寫函數等,其中讀寫函數是通用的,可以讀寫即可。在移植過程中注意不要修改驅動函數中寄存器的配置和初始化函數,用戶需要修改讀寫函數的端口定義。做好電路連接和移植好程序端口后根據LD3320芯片簡明調試步驟進行程序調試,程序調試包括上電調試、讀寫寄存器調試、檢查寄存器初始值、在運行過程中檢查寄存器的狀態等步驟。
我們將“西瓜皮”等50個精短的垃圾名稱和可回收垃圾、不可回收垃圾、有害垃圾及其他垃圾4種不同的垃圾類別名一起存入到LD3320語音識別芯片中,當人們說出“西瓜皮”后首先通過MIC(麥克風)輸入聲音,將該語音流數據進行頻譜分析得到語音信號隨頻率變化的波形、特征提取以后得到西瓜皮詞條的特征矢量參數,再和已經設置的系統關鍵詞進行信息匹配,得分最高的廚余垃圾將作為識別結果輸出到單片機,單片機接收到此信號以后驅動執行機構打開的廚余垃圾桶蓋(如圖2)。
圖2
目前市場上大多數的智能垃圾分類系統都是人們通過鍵盤輸入垃圾名稱后,在系統中查找所對應的垃圾種類,再將垃圾進行分類投放,這樣的操作一是比較麻煩需要人們自主查找并手動開合桶蓋。二是人們通過接觸鍵盤和手動打開垃圾存放裝置會增加疾病傳染的風險,特別是在疫情期間會增加新冠病毒的傳染概率。語音識別技術最重要的現實意義就在于提供了一種脫離按鍵,鍵盤,鼠標的基于語音的用戶界面,使得人們對于垃圾分類投放的操作更快速,更準確、更衛生,切實推行生活垃圾分類投放的實施。
ASR技術通過對語音數據包進行匯總分析,利用數學模型,加強芯片對各類語音的識別分析效果,在工作中要反復核對提取關鍵詞的轉化準確性,同時還要對基元特征展開分析,將關鍵詞相關的語音轉化代碼嵌入到ASR數據包中,這樣才能使語音識別體系更加先進,在今后的使用中要加強對各類ASR設備應用效果的匯總,不斷加強ASR技術與LD3320芯片的融合應用,為智能垃圾分類系統提供良好的技術保障。
可以預測在未來5~10年內,語音識別技術的應用會更加廣泛。各種各樣的語音識別智能控制系統產品將出現在市場上。在智能垃圾分類系統中嵌入LD3320語音芯片實現了垃圾種類的智能識別,解決了目前垃圾分類推行中人們無法自主分類的難題,降低了垃圾投放中病毒傳播的風險,為人們提供了更好的綠色生活環境,只是能識別的垃圾名稱數量和長度有限,人們在說垃圾名稱時不能多說出垃圾名稱以外的任何詞,這些問題的解決將成為今后語音識別技術在智能垃圾分類系統中應用的發展方向。