999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于超聲波信號的行為識別方法

2023-04-29 00:00:00楊飏張雪
計算機時代 2023年12期

摘" 要: 作為近年來計算機視覺領域的研究熱點,國內的行為識別技術主要依靠于不同場合的攝像頭拍攝視頻和圖像進行分類識別、目標檢測等相關視覺處理。因此,為了減少行為識別的消耗以及保護用戶隱私,提出并實現了一種基于多普勒效應的行為識別技術,主要技術過程包括生成超聲波信號、音頻轉換與降噪、連續音頻切割、進行傅里葉變換以及卷積神經網絡分類識別,行為識別的準確率可以達到 96.32% 并且具備一定的泛化性能,應用前景廣泛。

關鍵詞: 超聲波; 多普勒效應; 卷積神經網絡; 行為識別

中圖分類號:TP1.4" " " " " 文獻標識碼:A" " "文章編號:1006-8228(2023)12-162-05

Behavior recognition method based on ultrasonic signals

Yang Yang1, Zhang Xue2

(1. Ocean University of China, Faculty of Information Science and Engineering, Qingdao, Shandong 266404, China;

2. Wuhan University, School of Information Management Wuhan University)

Abstract: As a research hotspot in the field of computer vision in recent years, the behavior recognition technology used in China mainly relies on the video and images captured by cameras for relevant visual processing such as classification, recognition and target detection. In order to reduce the consumption of behavior recognition and protect user privacy, a behavior recognition technology based on Doppler effect is proposed and implemented. The main technical process includes generating ultrasonic signal, audio conversion, noise reduction, continuous audio cutting, Fourier transform, and CNN classification and recognition. The accuracy of behavior recognition can reach 96.32%. It has certain generalization performance and broad application prospects.

Key words: ultrasonic wave; Doppler effect; convolutional neural network (CNN); behavior recognition

0 引言

20世紀40~50年代,隨著計算機及人工智能技術的誕生,模式識別的概念也應運而生。研究者發現,計算機網所具有的存儲和計算能力將給模式識別技術帶來革新。行為識別技術也逐漸成為計算機視覺領域關注的重點[1]。

目前已有的針對于無接觸式行為識別的研究,國內外已有的技術多基于計算機視覺、光學和雷達探測等技術。基于光學的識別系統功耗大、容易受到光學噪聲的影響且不易與計算機設備進行信息傳遞;基于雷達技術的識別系統,雷達傳感器可能會使用相同或者相似的電磁波頻率,有可能降低捕獲信號的質量,環境噪聲的干擾會進一步導致性能的下降[4]。國內基于計算機視覺的行為識別主要利用攝像頭等實時設備拍攝圖像或者視頻,經過一定的預處理后通過深度學習或機器學習算法進行目標檢測或分類識別,這對適用場所要求較高并且不利于用戶隱私的保護。同時,分析攝像頭所拍攝視頻的算法能耗高、數據存儲和運算量大,對硬件和網絡環境要求較高,同時容易受到環境物體的遮擋,大大限制了該技術的推廣[5],并不適合小規模行為識別的應用。

本文提出并實現的基于超聲波的行為識別技術是使用超聲波作為發射聲源,采集經過人體行為動作反射的連續行為音頻,經過一定處理后得到相應的頻譜分析,通過深度學習算法進行識別分類,整個過程不受光線強度的干擾,對所需設備的要求不會太高,且在不使用攝像頭等設備侵犯被測試者隱私的情況下對被測試者的狀態進行識別和監督,算法所需能耗少、數據存儲量小、運算速度快,特定情景下具有高效性能。

1 基本原理

1.1 多普勒效應

多普勒效應產生于波源和觀察者之間的相對運動,可以簡單概括為當觀察者接近發射源時,聲波的波長縮短導致頻率上升,當遠離發射源時產生相反的效果,波長增大頻率下降。假設波源以頻率[f]發送正弦信號,觀察者接收到的頻率為[f'],多普勒效應如公式⑴所示。

[f'=v±v0v?vsf] ⑴

其中,[f]為發射頻率,[f']為接收到的頻率,[v]為超聲波在介質中的行進速度,[v0]是接收者相對于發射源的速度,接收者向發射源運動為正值,遠離取負;[vs]為發射源的移動速度,移向接收者取負,遠離取正。

1.2 短時傅里葉變換

短時傅里葉變換,能夠通過對信號加窗將時域分解為無數個等長的近似穩定的片段。短時傅里葉變換的表達式如公式⑵所示,將窗函數[h(x)]位移到某一時間點[t]處與原始信號[x(t)]相乘就可以得到截取后的信號片段,再進行傅里葉變換就可以得到第一個片段序列的頻譜分布[STFT(t,f)]。

[STFT(t,f)=-∞∞x(τ)h(τ-t)e-j2πfτdτ]" ⑵

1.3 窗函數簡述

非平穩信號的特征成分與平穩信號有很大的不同,其特征會隨著時間的變化而變化。在對時域信號進行短時傅里葉變換時,我們只能在每個窗函數長度的范圍內對原信號進行觀察,也就是對時域信號進行加窗函數截斷。常用的窗函數有矩形窗、三角窗、漢寧窗、海明窗和高斯窗等,矩形窗和三角窗比較局限,對特征分析要求較高時一般選擇漢寧窗或者海明窗。

1.4 機器學習與深度學習

機器學習是人工智能的一個子集,其任務是利用計算機程序從訓練數據中提取一定的規律在未知的測試集上進行預測并輸出測試結果。機器學習可以概括為從大量的數據集上學習出模型,也就是學習算法,在面對未知數據集時,這個模型會反饋出一定的判斷,多次學習可以使模型更加完善,對于新數據的預測也會更加準確。

深度學習作為人工智能領域的重要技術手段,它在人臉識別、自然語言處理、自動駕駛等領域被廣泛應用[4]。與傳統的機器學習將原始數據進行多次轉換,之后輸入到預測函數中得到預測結果的過程不同,深度學習在分配權重時可以使嵌套的概念變得更具象。

2 技術實現步驟

本文技術實現部分的代碼主要為Python語言,Python擁有功能十分齊全的標準庫,可以很好地滿足實驗過程中各部分的實現需求。技術總體流程為超聲波信號的生成、音頻處理、傅里葉頻譜的生成和架構模型及處理數據集。起初由電腦麥克風發射已生成的超聲波信號,利用手機收集反射的音頻,轉換為固定格式并去除噪聲,根據振幅大于閾值部分的頻偏程度進行音頻切割,分出不同的動作頻譜片段,利用短時傅里葉變換STFT將該信號由時域轉為頻域進行頻譜成分的分析,最后由深度學習卷積神經網絡進行動作的識別分類。程序流程圖如圖1所示,本章技術實現的具體過程也會以圖示順序進行展開介紹。

2.1 超聲波信號的生成

為了避免人類聲音、環境中的嘈雜聲等干擾聲音的影響,進一步提高識別的準確性,上述預設超聲波信號的信號頻率不同于人類聲音、環境中的嘈雜聲等干擾聲音的頻率,具體的信號頻率值可以根據實際情況調整、設置。

在數字信號處理中,對聲波信號的特性比較重要的參數有聲道數、采樣頻率和采樣字節長度等,采樣字節長度設為2字節即16比特,可以使采樣后的音頻達到CD標準。

2.2 音頻處理

為了便于進行信號處理,在收集一定數量的音頻后,需要將信號進行格式的轉換,將mp4格式的音頻利用終端命令行ffmpeg命令轉換為wav格式。

為了使下一步根據頻偏進行音頻切割的準確率進一步提升,在這個過程中我們將連續音頻音頻中的噪聲部分抹除,這個過程需要用到Python自帶的音頻處理庫Librosa。首先對連續音頻進行快速傅里葉變換,產生復數數組。利用振幅數組進行傅里葉逆變換并保存濾波后的音頻文件,重塑數組維度時只保留數據的實部并以Fortran順序存儲在內存中。圖2展示了原始和降噪的傅里葉變換頻域圖像,可以看到高分貝的低頻噪聲已經被去除。

接下來需要切割音頻來盡量保證每一個完整的動作可以被劃分到一幀中。標記所有動作片段的起始時間和結束時間,利用Python自帶的Pydub庫以毫秒為單位截取此段時間的音頻。依此對原始連續音頻進行切割,分為動作幀和靜止幀,便于后續進行深度學習。圖3為連續音頻切割頻譜示意圖,白色線條即為需要切割的地方,可以看到以0.5秒為單位切割可以達到不錯的效果。

2.3 傅里葉頻譜的生成

首先讀出切割過后的wav文件,每個音頻包含一個完整的動作片段。利用getparams()獲取音頻文件的相關參數。之后對數據進行短時傅里葉變換。由于本文中此技術采用漢寧窗作為窗函數,而Signal的 stft函數參數Window默認即為hann,因此不必修改。我們處理的信號為正弦信號而非脈沖信號,為獲得較高的頻率分辨率我們選取漢寧窗長度nperseg為4096,零填充fft的長度設為采樣頻率的一半,即24000,這樣轉換出的短時傅里葉頻譜特征較明顯,便于之后的深度卷積神經網絡學習,同時返回采樣頻率序列、時間序列和stft序列。

2.4 架構模型及處理數據集

根據以上技術結構和模型架構,用cnn卷積神經網絡識別圖像一般需要的步驟總結如下:①卷積層初步提取特征;②激活層將特征映射到高維非線性區間;③池化層減少參數、提取主要特征;④全連接層將各部分特征匯總;⑤產生分類器,進行預測識別。

本實驗在模型架構選擇方面針對激活函數和池化方式的組合進行了比對。組合方式共有四種,分別為ReLU+Max,Sigmoid+Max,ReLU+Average以及 Sigmoid+Average,我們可以看出,采用ReLU+Max Pooling能夠在最短的輪次中提取到最有效的數據特征。

本文使用自定義的cnn網絡模型對采集的數據集進行訓練。相對于其他神經網絡,卷積神經網絡對于圖片處理有著更好的表現,可以在原始像素點上人工抽取特征的同時極大的降低參數的數量,防止過擬合。本文所采用的神經網絡模型架構如圖6所示。

利用PIL包的Image處理圖片再通過Pytorch的數據迭代器DataLoader對上一步得到的Dataset進行shuffle以及mini-batch操作,將訓練集和測試集劃分成一個個小的數據集,便于后續進行訓練和測試。

最后定義自己的卷積神經網絡cnn模型。本文采用四層卷積結構進行特征抽取,由于此技術針對頻譜圖象,因此使用nn.Conv2d二維卷積。網絡設置完成后進行前向傳播獲得預測值,以便進行后續的反向傳播參數更新過程。

數據訓練與測試:

使用聯想電腦和華為手機,讓設備與測試者之間保持正常情況下的使用距離,測試環境為宿舍,一般情況下較為安靜,存在的少量低頻噪聲對20kHz超聲波的影響很小。由于此技術主要應用于使用私人電腦在安靜環境下的行為識別,因此我們沒有在極端嘈雜的環境下收集數據集和測試集。

實驗共采集訓練數據集975份,其中打瞌睡、打響指、靜止、說話動作各100份,拍手動作125份,晃動、舉手和起立動作各150份。每一輪訓練過程如下:

⑴ 初始化模型。

⑵ 選擇優化器以及優化算法,本文選擇Adam優化器,學習率設為最常見的0.001,即1e?3。

⑶ 選擇損失函數,多分類任務通常選擇交叉熵函數CrossEntropyLoss(),因為圖像分類過程中使用交叉熵損失函數可以提升模型的泛化性以及分類的準確率[6]。

⑷ 對每一個batch里的數據,將它們轉成能被GPU計算的類型。

⑸ 進行梯度清零、前向傳播、計算誤差、反向傳播、更新參數的操作。

由于卷積神經網絡參數較多,且需要大量樣本,此處device選擇GPU而不是CPU。之后便進行測試,共采集測試樣例300份,其中打響指、靜止、拍手、說話動作各25份,打瞌睡、晃動、舉手和起立動作各50份,將模型預測的標簽與動作實際標簽做比對,得出各動作準確率和總體測試準確率,以及畫出訓練損失率圖像和混淆矩陣便于后續分析。

經過測試,本技術模型準確率可達到96%以上,總準確率結果和各動作準確率結果如圖7所示。訓練50輪次和100輪次的損失率曲線圖如圖8所示。

除了以上標準以外,泛化能力也是神經網絡常用的性能測試指標。泛化能力是指已建成的神經網絡對于新樣本的適應能力。我們將新收集的動作只放在測試集中而不放在訓練集中,觀察自定義的卷積神經網絡是否能夠將其識別為與之最相似的起立動作。結果表明測試準確率仍在95%以上,說明即使對于新收集的測試集,神經網絡也可將其泛化為與之相似度最高的動作類別,證明實驗所用的卷積神經網絡具有良好的泛化性能。同時由于本網絡采用的優化器為 Adam,而Adam類優化器通常收斂速度很快,所以訓練損失率可能會更低,但是泛化性能相對于SGD優化器而言比較差,所以如果追求泛化能力,可以將優化器換為SGD,此外正則化、Dropout等數據增強也可以為搜索最優解時增加隨機性,通過避免局部最優來提高神經網絡的泛化性能。

從以上結果分析可以看出,本技術對于正常測試環境下的行為識別準確率較高,并且具備一定的泛化能力。該結果證明,本文所展示的技術能夠在環境允許的情況下實現較為精準的識別率。

3 結束語

人機交互的方式隨著計算機技術的發展和用戶需求的增加不斷豐富,不再僅僅局限于計算機視覺等技術,基于聲波的行為識別的優點逐漸被發現。本文在無接觸的情境下設計并實現了一個基于多普勒效應的行為識別技術,測試者與預設的超聲波信號進行無接觸交互,對麥克風接收的連續音頻進行音頻切割和噪聲去除,使用短時傅里葉變換算法提取信號特征并重點分析19.9kHz~20.1kHz區間內的頻率特征,采用基于卷積神經網絡的深度學習技術實現對對行為動作的高效識別。實驗表明,該技術的行為識別準確率達96.32%,可以實現在沒有實時設備的情況下對一些基本行為的識別分類。與其他行為識別方法相比,利用超聲波的行為識別技術所需要的存儲空間小、運算速度快并且對環境不會產生污染。

參考文獻(References):

[1] 史鑫.基于視覺的深度學習行為識別算法研究[D].北京:

北方工業大學,2021.

[2] 朱杰.基于卷積神經網絡的人體行為識別研究[D],北京:北京

郵電大學,2021.

[3] 許丞.基于卷積神經網絡的鋼琴音頻信號識別算法[J].自動

化與儀器儀表,2021(12):12-15.

[4] 張晨光.基于超聲波多普勒效應的手勢識別研究[D].桂林:

桂林理工大學,2021.

[5] Bi-Xiao Wu,Chen-Guang Yang,Jun-Pei Zhong.

Research on Transfer Learningof Vision-basedGesture Recognition[J].International Journal of Automationand Computing,2021,18(3):422-431.

[6] 葉建龍,胡新海.基于卷積神經網絡的圖像識別算法研究[J].

安陽師范學院學報,2021(5):14-18.

主站蜘蛛池模板: 国产一二三区在线| 在线看AV天堂| 欧美一级色视频| 亚洲第一成年免费网站| 狠狠色丁香婷婷| 国产高潮视频在线观看| 久久77777| 国产一在线观看| 国产尤物视频网址导航| 日本在线国产| 国产经典免费播放视频| 欧美亚洲另类在线观看| 国产在线视频导航| 精品国产污污免费网站| 香蕉色综合| 99久久人妻精品免费二区| 国产黄在线免费观看| 最新亚洲人成无码网站欣赏网| 国产一区二区色淫影院| 少妇人妻无码首页| 亚洲成人一区二区| 亚洲人成在线免费观看| 久久免费视频6| 曰AV在线无码| 中文字幕欧美日韩| 在线国产91| 久久久久久久97| 操操操综合网| 中文字幕免费播放| 亚洲天堂区| 国产无码制服丝袜| 九色视频最新网址| 欧洲一区二区三区无码| 在线a视频免费观看| 乱系列中文字幕在线视频| 99精品热视频这里只有精品7 | 熟妇丰满人妻av无码区| 精品国产欧美精品v| 不卡色老大久久综合网| 永久免费无码日韩视频| 亚洲国产中文欧美在线人成大黄瓜| 亚洲区视频在线观看| 黄片一区二区三区| 国产SUV精品一区二区6| 二级特黄绝大片免费视频大片| 91精品综合| 不卡国产视频第一页| 国产一区二区三区视频| av大片在线无码免费| 亚洲天堂网在线观看视频| 亚洲男人的天堂久久香蕉网| 亚洲精品成人片在线观看 | 日韩123欧美字幕| 亚洲综合第一区| 2021国产v亚洲v天堂无码| 麻豆国产精品一二三在线观看| 亚洲美女一级毛片| 亚洲v日韩v欧美在线观看| 亚洲精品波多野结衣| 亚洲精品国产日韩无码AV永久免费网 | 国产av剧情无码精品色午夜| 亚洲高清中文字幕| 色婷婷天天综合在线| 精品福利视频网| 亚洲日本在线免费观看| 久久国产拍爱| 人妻精品全国免费视频| 97视频在线精品国自产拍| 亚洲欧美一区二区三区麻豆| 福利视频久久| 国产成人h在线观看网站站| 72种姿势欧美久久久大黄蕉| 99久久精品视香蕉蕉| 激情乱人伦| 人妻出轨无码中文一区二区| 午夜丁香婷婷| 欧美人与性动交a欧美精品| 亚洲AV人人澡人人双人| 欧美精品1区| 自慰高潮喷白浆在线观看| jizz国产在线| 国产精品丝袜在线|