999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于MIMO-CNN的多模態坐姿識別

2021-03-23 09:38:50黃安義
計算機工程與設計 2021年3期
關鍵詞:方向深度實驗

黃安義,沈 捷,秦 雯,王 莉

(南京工業大學 電氣工程與控制科學學院,江蘇 南京 211816)

0 引 言

目前國內外對人體姿態識別的研究,如文獻[1-5],都是基于計算機視覺的人體姿態識別。相比而言,坐姿的識別對人體姿態細節特征提取的方法有著更高的要求。目前從數據獲取方式上主要分為基于人體半接觸的傳感器和基于視覺的坐姿識別兩類。

朱衛平等和Qian等[6,7]通過壓電類傳感器獲取的數據和其它數據相融合進行坐姿識別。但這類方法因為人的體重和在椅子上坐的面積等差異因素,導致產生的數據不具有規律性,使其精度大打折扣。

而基于視覺的坐姿識別,如袁迪波等[8]提出基于膚色的YCbCr的BP神經網絡的坐姿識別。張鴻宇等[9]通過提取坐姿的深度圖像的Hu矩,采用SVM分類坐姿。Yao等[10]通過Kinect深度攝像頭捕獲的實時骨架數據估算頸部角度和軀干角度來判斷坐姿。曾星等[11]對坐姿深度圖像采用閾值進行前景提取并進行三維投影和降維,最后運用隨機森林對姿進行分類識別。

綜上所述,目前的方法主要有以下缺陷:第一,對于復雜背景下的抗干擾性較差;第二,不同人體坐姿多樣性和拍攝角度變化適應性較差;第三,坐姿的分類問題的類間區分方法具有模糊性。而本文提出的基于MIMO-CNN的多模態特征的坐姿識別在解決以上問題上提供了一個可行的方法。

1 系統框架

本文所提出的坐姿識別方法流程如圖1所示。

圖1 坐姿識別方法流程

首先通過Kinect深度攝像頭獲取初始圖像,并對其進行預處理,并以預處理后的圖像為基礎進行三視圖映射。為了達到訓練含有大量參數的網絡,對數據集進行數據增強達到擴展數據集的目的,并使用增強后的數據集進行模型訓練,最終使用訓練后的模型進行左右和前后方向的坐姿識別。10種坐姿可分為前后和左右方向的識別,前后分為正坐、低頭、后仰和趴桌,左右方向分為左偏、居中和右偏。考慮到趴桌的特殊性不再進行左右方向判斷,具體分類如圖2所示。

圖2 坐姿分類

2 深度圖像的采集

本文使用二代Kinect進行坐姿采集,因其強大功能的SDK,其可在深度數據的基礎上,應用骨骼評估算法獲得人體骨骼信息,生成人體外骨架圖像。

而本文所用的基本特征為深度圖像,深度圖像是指將從傳感器中得到它到場景中各點的距離信息并歸一換算為像素值的圖像。本文使用Kinect強大的SDK,獲得其人體輪廓圖和人體深度圖像,如圖3所示。

圖3 (左)人體輪廓圖和(右)人體深度圖像

3 坐姿識別算法

3.1 圖像獲取與預處理

本文通過Kinect獲取深度圖像和人體輪廓圖,并以此為基礎進行預處理。首先對深度圖像進行直方圖均值化,使得深度信息可以更好地在直方圖上分布。在增強局部對比度的前提下而不影響整體對比度,使得深度圖像能更清晰表達距離信息

(1)

g(x,y)=Sf(x,y)*(L-1)

(2)

式中:L是圖像中的灰度級總數,原圖像f的像素總數為n,nj為灰度值為j的像素數量。f(x,y)為原圖(x,y)位置的原像素值,g(x,y)為直方圖均值化后的像素值。均值化后的結果對比,如圖4所示。

圖4 直方圖均值化前后對比

接著對人體輪廓圖使用5*5的核進行開運算及中值濾波操作,減少圖像的噪聲和填補部分深度圖像小缺塊,對比結果如圖5所示。

圖5 開運算與濾波后的前后對比(左為原圖)

最后將前面預處理完的輪廓圖和深度圖像進行掩模操作,形成所需的人體深度前景圖像

(3)

式中:F(x,y)為生成的人體前景深度圖像,G(x,y)為深度圖像,D(x,y)為人體輪廓圖,rows為圖像的行數,cols為圖像的列數,結果如圖6所示。

圖6 人體前景深度圖像

接著進行閾值自動裁剪,裁減掉多余的白色背景,得到224×224的圖像,如圖7所示。

圖7 閾值自動裁剪效果

最后以裁剪后的圖像為基礎進行三視圖映射,并進行歸一化,最終得到224×224的人體坐姿深度三視映射,如圖8所示。

圖8 人體坐姿深度三視映射

3.2 數據增強

目前沒有關于坐姿的深度開源數據集,所以在確保我們能在較少的樣本中較好地訓練和驗證所提方法,對其進行數據增強顯得尤為重要。因此在訓練過程中我們對數據集中每一張圖片進行50%概率的隨機裁剪。設原始圖像的寬度W和高度H,本文將以(0.85 W)×(0.85H)的滑動窗口對圖像進行自動隨機裁剪,并將裁剪后的圖像重新插補為W*H大小的圖像。

3.3 MIMO-MobileNet模型

考慮到本問題的特殊性,不同于傳統的分類問題,其在人體姿態的坐姿方面的差異性與傳統的圖像分類相比,更加側重于更加細致深度信息的變化,而不是傳統的色彩、輪廓和紋理。因此也需要更多特征信息,所以本文將坐姿深度圖像的三視圖的多模態信息分別輸入到3個不同的通道中。

另一方面,本文考慮到坐姿的特殊性,其在左右方向和前后方向的識別具有差異性,因此本文的模型結構在輸出端使用的是雙通道輸出,分別對應坐姿的左右方向和前后方向的坐姿姿態的判斷。

而目前較為出色的網絡結構主要針對彩色圖像為場景。因此本文提出MIMO-MobileNet模型,搭建了一個適用于坐姿識別的三輸入兩輸出網絡結構,后期實驗也驗證了此結構的可行性。

其主要以MobileNet V2的Inverted Residual Block結構塊為基礎,結構塊先用point-wise convolution將輸入的feature map維度變大,然后用depth-wise convolution方式做卷積運算,最后使用point-wise convolution將其維度縮小。注意,此時的point-wise convolution后,不再使用ReLU激活函數,而是使用線性激活函數,以保留更多特征信息,保證模型的表達能力,同時也具有Resnet的思想,其結構如圖9所示。

圖9 Inverted Residual Block結構

MIMO-MobileNet模型結構如圖10所示,上層3個通道的網絡net_L、net_M、和net_T分別以坐姿深度圖像的左視圖、主視圖和俯視圖為輸入,并獨立對其進行特征提取,并將提取后的特征用于后面通道的網絡的輸入,使得淺層網絡能更充分的單獨對3個視圖不同的信息進行提取,而不進行權值共享。接著將net_L、net_M和net_T 的輸出進行通道合并作為net_pred_v的輸入,net_M、和net_T的輸出進行合并作為net_pred_h的輸入。最終net_pred_v輸出坐姿在前后方向的識別結果,net_pred_h輸出坐姿在左右方向的識別結果。其依據在于前后方向的坐姿變化在主視圖、左視圖和俯視圖都有明顯的變化,而在左右方向的坐姿變化,圖像信息變化主要體現在主視圖和俯視圖。

圖10 MIMO-MobileNet模型結構

MIMO-MobileNet模型的網絡框架參數見表1、表2和表3。

3.4 損失函數的定義

本文提出的MIMO-MobileNet模型為雙輸出網絡,因此在損失函數上,我們分別計算兩個輸出的交叉熵。交叉熵其本身具有較好的計算概率分布差異的能力,且利于梯度下降。所以在模型輸出后,本文對其進行softmax回歸處理后,得到輸出的概率分布,再進行交叉熵計算

(4)

式(4)為softmax公式,yi為原始輸出,y′i代表經過softmax回歸輸出后的概率分布,c表示分類問題的類別數

表1 net_L、net_M、net_T網絡框架參數

表2 net_pred_v網絡框架參數

表3 net_pred_h網絡框架參數

(5)

式(5)為交叉熵公式,其中labeli表示為one-hot編碼后的標簽,m為訓練batch的樣本數

(6)

4 實驗仿真與分析

4.1 實驗方法和數據集

本實驗中,以云端服務器作為工具,處理器型號為E5(8核),內存10 GB,顯卡為RTX2080Ti。linux系統作為基本系統環境,以python語言調用谷歌tensorflow進行網絡搭建及訓練。

驗證的數據集方面,因為目前沒有公開的坐姿數據集,所以本文自定義了10種人們最常見的坐姿狀態,并在攝像頭固定在離人座位1 m遠的位置處的條件下錄制了15個男性女性志愿者的坐姿數據。每種坐姿有30個樣本,前15張為正對攝像頭的錄制樣本,后15張為人體正對攝像頭并左右旋轉(小于45度)的錄制樣本,訓練樣本共4500張樣本,在訓練過程中使用上文提到的方法進行數據增強,因此實際訓練樣本遠多于此數。另外錄制5名志愿者的有視角變化的和無視角變化的兩個小樣本集分各750張,一共1500張坐姿數據測試集。以(正坐、左偏)坐姿為例的具有攝像頭角度變化的樣本,如圖11所示。

圖11 不同攝像頭角度的(正坐、左偏)樣本

同時本文數據集將不僅具有角度變化,人體坐姿也更加接近真實環境中的坐姿,坐姿數據復雜度高于近幾年其它方法,數據樣本與文獻[8]和文獻[11]的樣本進行對比,如圖12所示。因此不再將本文的結果與其它方法進行對比。

圖12 樣本復雜度對比

實驗一,將人體深度前景圖像進行通道復制為三通道的圖像作為輸入,選用MobileNet-V2模型進行坐姿識別。而實驗二,將三視圖合并為一張三通道的圖像作為輸入,具有更豐富的特征信息,仍使用MobileNet-V2模型進行坐姿識別。實驗三(本文方法),為本文提出的MIMO-MobileNet 模型方法,以上文的三視映射圖作為輸入。并分別在無角度變化的測試集和有角度變化的測試集上進行驗證。

4.2 實驗結果

實驗結果見表4,實驗一和實驗二在無攝像頭視角變化的測試集中,表現較為相似。但在更加復雜的視角變化的測試集中,我們發現具有更多信息的三視圖映射圖像作為輸入的實驗二,其81%的識別率明顯高于實驗一僅以人體深度前景圖像為輸入的74%的識別率。因此也驗證了三視圖映射圖像作為輸入,對于坐姿識別精度具有顯著的提升。但識別率依然不是特別突出。

而對比實驗二和實驗三(本文方法)可知,本文提出的網絡結構在各個測試集上識別精度都高于傳統的MobileNet-V2網絡。其總識別率也比實驗二高出3%。因此驗證了本文方法的合理性和優勢。

表5、表6分別為無視角變化測試集上各個方向識別的混淆矩陣,在前后方向的坐姿識別上,依然存在一部分的正坐被識別為相近的后仰或者低頭坐姿的情況。而在左右

表4 實驗準確率對比結果/%

方向,左偏和右傾被識別為居中,可能是與左右傾斜程度較小導致一定的混淆。

表5 無視角變化的前后方向混淆矩陣

表6 無視角變化的左右方向混淆矩陣

表7、表8為有視角變化測試集上各個方向識別的混淆矩陣。表中尤為明顯的是正坐被識別為低頭的錯誤,原因可能是某些的視角下,正坐的圖像特征與低頭極為相似。但在前后方向的其它坐姿下,識別率尤為出色。

表7 有視角變化的前后方向混淆矩陣

表8 有視角變化的左右方向混淆矩陣

5 結束語

為應對人體坐姿多樣性和拍攝角度變化,本文提出了基于MIMO-CNN的多模態特征人體坐姿識別方法。相比于單純的使用物理接觸式傳感器,基于視覺方案的坐姿識別具有更好的性能和可實現性。另一方基于多模態深度信息,和識別過程中使用具有分類性能更加突出的深度學習網絡的坐姿識別方法的確具有較高的識別率和魯棒性。需要指出的是本文所提出的坐姿識別方法主要適合用在單人坐姿識別的情況。接下來將對復雜的多人坐姿識別和更加復雜的三維多視角問題進行進一步的研究。

猜你喜歡
方向深度實驗
記一次有趣的實驗
2022年組稿方向
計算機應用(2022年2期)2022-03-01 12:33:42
2021年組稿方向
計算機應用(2021年4期)2021-04-20 14:06:36
2021年組稿方向
計算機應用(2021年1期)2021-01-21 03:22:38
深度理解一元一次方程
做個怪怪長實驗
深度觀察
深度觀察
深度觀察
NO與NO2相互轉化實驗的改進
主站蜘蛛池模板: 亚洲首页在线观看| 国产又色又爽又黄| 久久这里只有精品23| 五月天婷婷网亚洲综合在线| 中文字幕乱码二三区免费| 亚洲三级色| 亚洲精品成人片在线观看| 国产精品深爱在线| 欧美日韩高清在线| 奇米影视狠狠精品7777| 久久久久88色偷偷| 亚洲欧洲日产国码无码av喷潮| 亚洲欧美在线精品一区二区| 激情无码视频在线看| 亚洲欧洲国产成人综合不卡| 91人妻在线视频| 国产啪在线91| 国产女人综合久久精品视| 婷婷中文在线| 在线免费无码视频| 久久伊伊香蕉综合精品| 亚洲综合色婷婷中文字幕| 国产日本一区二区三区| 国产精品无码一二三视频| 丝袜亚洲综合| 久久精品一卡日本电影| 中文字幕调教一区二区视频| 91九色国产porny| 91日本在线观看亚洲精品| 国产精品视频猛进猛出| 99在线国产| 欧美日韩国产精品综合| 午夜日b视频| 色综合五月婷婷| 色屁屁一区二区三区视频国产| 国产精品成人观看视频国产| 真人高潮娇喘嗯啊在线观看| 日韩无码视频专区| 亚洲va在线∨a天堂va欧美va| 欧美精品不卡| 欧美在线视频a| 国产SUV精品一区二区6| 中文字幕无码制服中字| 片在线无码观看| 老司机久久99久久精品播放| 99精品影院| 国产91小视频在线观看| 国产综合亚洲欧洲区精品无码| 狠狠躁天天躁夜夜躁婷婷| 色哟哟国产精品一区二区| 国产成人狂喷潮在线观看2345| 中文国产成人精品久久| 国产精品区视频中文字幕| 国产靠逼视频| 97视频精品全国免费观看| 91小视频在线| 日韩国产精品无码一区二区三区| 高清不卡毛片| 国产男女免费视频| 99精品在线看| 伊人久久婷婷五月综合97色| 国产高清在线观看91精品| 在线视频精品一区| 美臀人妻中出中文字幕在线| 在线观看无码a∨| 青青青伊人色综合久久| 综合色在线| 国产一级做美女做受视频| 欧美精品亚洲精品日韩专区| 国产激情无码一区二区三区免费| 操美女免费网站| 中文字幕66页| 欧美日韩国产系列在线观看| 亚洲无码熟妇人妻AV在线| 2020极品精品国产 | 911亚洲精品| 亚洲一区毛片| 精品国产香蕉伊思人在线| 亚洲欧美在线看片AI| 国产91精选在线观看| 99久久精品免费看国产电影| 国产一区自拍视频|