苗文
摘 要:人工智能技術已經得到了人們的重視,且在眾多領域開始承擔重要角色。本文結合對聲控設備的理解,研究并分析了人工智能語音處理技術和智能聲控的原理,并就家庭的聲控應用展開一定的設想,為進一步建設智能家庭提供新的思路。
關鍵詞:人工智能;聲控;智能語音處理;信息處理系統
中圖分類號:TP18 文獻標識碼:A 文章編號:1671-2064(2019)12-0032-02
0 引言
在科學技術飛速發展的今天,人工智能被越來越多的人所熟知。“人工智能”一詞已經成為熱門詞匯,越來越多的科學家致力于研究人工智能,希望通過人工智能這一技術來提高我們生活和工作的效率。什么才是人工智能?它是通過用計算機來模擬人的思維想法和行為,從而幫助人們完成一系列事情的智能技術。人們最熟悉的應該是深度學習,它也是人工智能的一個分支。其原理應用最有名的就是AlphaGo,該智能機器戰勝了李世石圍棋大師。它能夠通過根據當前下棋的情況,計算黑白棋的勝率;能夠不斷的進行自我學習等。新版本AlphaGoZero能夠自我對弈,并且在對棋的過程中能夠發現新的下棋策略。從另一方面來說,這也是一種突破,人們可以從圍棋機器身上在學習到新的游戲策略。
說起聲控,首先能夠想到的就是Siri。即使是在手機屏幕關閉的情況下,你也能喚醒它。然后對它說出你想要做什么,例如,問它明天天氣如何,它就會立馬給你搜索你所在城市的天氣并將天氣情況讀出來;或者你想定一個明天早上的鬧鐘,你只需要告訴它什么時間即可。語音助手的使用能夠極大程度上提高我們生活的效率,并且能夠釋放我們的雙手。不過,語音助手也并不是萬能的,并不像人工智能機器一樣可以自我學習和訓練,它只是基于現有的一些數據庫上進行操作,如果你問的事情超出數據庫中的內容,語音助手將無法回答或完成。本文將通過分析人工智能技術和智能語音處理技術等,來深度了解人工智能在聲控設備中的原理和應用。
1 人工智能語音處理
1.1 人工智能技術概況
人工智能技術從1956年開始提出發展到至今,也是有了質的飛躍。人工智能最主要的意義也是能夠讓機器去替人類完成更復雜的事情。目前,在人們日常的生活中隨處可見的人工智能運用,它給我們的生活帶來了非常多的便捷和效率。比方說,無人機、智能機器人(掃地機器人等)、語音識別、圖片視頻識別等,這些用到了人工智能技術。就現在科學技術發展的情況來看,人工智能的發展是必然的結果。眾所周知,我們處在一個大數據的環境下,如果僅僅將數據收集和管理,這將失去大數據的意義了。如何使我們的生活變得智能,這也需要用到人工智能技術,將收集到的數據進行深度分析,挖掘這些數據之間潛在的內容,這樣才能體現這些數據的真實價值。
人工智能運用的比較多的是在智能手機上,剛剛也提到蘋果手機的智能語音助手Siri,這就是一個很好的例子。目前,人工智能也運用到了醫療方面,智能手臂、人體植入芯片等。在人工智能給我們帶來益處的同時,也有人會質疑人工智能的安全性,是否有一天智能機器人會不受人類控制。但是有人不這么認為,有學者認為目前的人工智能還處于弱人工智能,并沒有達到強或超人工智能水平。弱人工智能階段還無法做到讓機器人擁有自己的各種情緒。而超人工智能則是能夠讓機器人有自己的情緒和思考能力,能夠讓機器人做出和人一樣的舉動。雖然人工智能在不斷地發展和完善,但是從弱向強人工智能發展還有很長一段路要走,就目前的科學技術還很難突破。
1.2 智能語音處理技術
針對智能語音技術的定義有很多,其包含的種類也是非常多的。本文主要通過分析語音識別技術基本原理來解讀智能語音處理技術[1]。
智能語音識別是指用機器將人類說的話轉變為能夠被機器所能執行的語言或者文本,使得機器人能夠明白人類所要表達的意思,并加以實施。語音識別最基本的工作原理可以分為兩個階段:(1)從人類的語言轉換到文本或其他形式階段。即語音信號輸入到機器設備中,然后設備取讀語言信號,最后轉換為機器能夠接受的語言形式(文本或者編碼等)。(2)處理和執行階段。在語言形式轉換完成之后,機器將會執行接收到的命令。
在第一個階段時,機器會對接收到的語音信號進行采樣和比對,然后將聲波轉換成為數據。由于將聲波轉換為數字信號的過程非常的關鍵,而這一過程采用的是語音活性檢測技術,它能夠幫助檢測語音信號的存在,避免一些不必要的數據影響。其技術的基本原理是聲波波形和頻譜分析,之后再基于統計分析,將聲波轉換為數字數據[2]。
2 聲控設備的技術分析
2.1 智能聲控原理
現在市場上普遍用的聲控產品就是聲控燈了,最早使用的聲控燈是通過聲音的大小來控制的。而現在聲控燈能夠識別“開燈”和“關燈”,通過所發出的命令來執行相應的操作。本文主要通過分析智能聲控的組成和工作過程來了解智能聲控的原理。文本對聲控的分析都是基于語音識別的聲控門的基礎之上[3,4]。
2.1.1 智能聲控的組成
圖1所示,智能聲控系統由九部分組成,分別是輸入端;C1卷積層;S2池化層;C3卷積層;S4池化層;C5卷積層;F6全連接層;F7全連接。
輸入端是將人的聲波轉化成為一個灰度圖,此后所有的操作都是基于該灰度圖形之上。C1卷積層的主要作用是對輸入的灰度圖形進行特征的提取;S2池化層的目的是減少參數的訓練,即C1層提取的特征之后,給提取的圖像尺寸進行對半縮小;C3卷積層是對C1卷積層的深入,從上一層訓練得到的數據進行深入分析。S4池化層和C5卷積層是對上兩層的深入和重復;后兩層都市對數據的訓練。
2.1.2 智能聲控的工作過程
根據聲控的組成部分,給出智能聲控系統的工作過程。其系統訓練主要是利用卷積網絡模型。主要過程可以描述為[5]: