強(qiáng)保華 ,翟藝杰,陳金龍*,謝 武,鄭 虹,王學(xué)文,張世豪
(1.廣西可信軟件重點(diǎn)實(shí)驗(yàn)室(桂林電子科技大學(xué)),廣西桂林 541004;2.廣西圖像圖形與智能處理重點(diǎn)實(shí)驗(yàn)室(桂林電子科技大學(xué)),廣西桂林 541004)
(?通信作者電子郵箱chengjl@guet.edu.cn)
隨著計(jì)算機(jī)視覺技術(shù)的發(fā)展,人體姿態(tài)估計(jì)已經(jīng)成為眾多領(lǐng)域的研究熱點(diǎn),并且得到更普遍的應(yīng)用,如步態(tài)分析[1]、動作捕捉[2]、行為識別[3]和人機(jī)交互[4]等。人體骨骼關(guān)鍵點(diǎn)檢測是用于人體姿態(tài)估計(jì)的一類算法,近幾年,卷積神經(jīng)網(wǎng)絡(luò)的興起,讓人體骨骼關(guān)鍵點(diǎn)檢測技術(shù)有了很大提升,然而,如何簡化模型、提高檢測模型的準(zhǔn)確率和檢測速度仍是目前面臨的一個(gè)問題。
基于深度學(xué)習(xí)的人體骨骼關(guān)鍵點(diǎn)檢測算法,可以通過一系列深層網(wǎng)絡(luò)自動學(xué)習(xí)圖像數(shù)據(jù)中的隱含關(guān)系,提取出更抽象的圖像特征,具有比傳統(tǒng)方法更強(qiáng)的特征表達(dá)能力[5]。近年來眾多學(xué)者對此問題進(jìn)行了研究,Lifshitz 等[6]提出基于16層的VGG(Visual Geometry Group based on 16 layers,VGG-16)網(wǎng)絡(luò)模型預(yù)測人體各關(guān)鍵點(diǎn)位置,但是準(zhǔn)確率有待提升。Pishchulin 等[7]提出DeepCut,結(jié)合Fast R-CNN(Regions with Convolutional Neural Network features)檢測人體骨骼關(guān)鍵點(diǎn),提升了準(zhǔn)確率,但是檢測速度較慢。之后,Insafutdinov 等[8]提出DeeperCut,結(jié)合ResNet(Residual Network)進(jìn)行檢測,進(jìn)一步提高檢測精度和速度。2016 年,Wei 等[9]提出的CPMs(Convolutional Pose Machines)模型在人體骨骼關(guān)鍵點(diǎn)檢測的標(biāo)準(zhǔn)數(shù)據(jù)集MPII(Max Planck Institut Informatik)人體姿態(tài)數(shù)據(jù)集[10]和LSP(Leeds Sports Pose)數(shù)據(jù)集[11]上都取得不錯(cuò)的檢測效果,具有較好的魯棒性。然而,這種方法仍然具有參數(shù)多、訓(xùn)練時(shí)間長和檢測速度不理想的問題。因此,本文主要研究如何改進(jìn)人體骨骼關(guān)鍵點(diǎn)檢測模型CPMs,以減少模型參數(shù)和訓(xùn)練時(shí)間、提高檢測速度。
2016年出現(xiàn)的輕量級卷積神經(jīng)網(wǎng)絡(luò)模型SqueezeNet[12]有效地解決了網(wǎng)絡(luò)模型參數(shù)多的問題。SqueezeNet 能達(dá)到很好的識別精度,且與其他模型相比參數(shù)更少。因此,本文結(jié)合CPMs 和SqueezeNet 的優(yōu)勢,設(shè)計(jì)了一種基于CPMs 和SqueezeNet 的輕量級人體骨骼關(guān)鍵點(diǎn)檢測模型。本文主要工作如下:
1)針對CPMs 模型訓(xùn)練時(shí)間長、檢測速度慢的問題,采用CPMs-Stage4 模型。CPMs-Stage4 通過減少兩個(gè)預(yù)測階段縮短訓(xùn)練時(shí)間、提高檢測速度。但由于預(yù)測階段較少,CPMs-Stage4的檢測準(zhǔn)確率有待提升。
2)針對CPMs-Stage4模型檢測準(zhǔn)確率降低、模型參數(shù)多的問題,結(jié)合SqueezeNet 與CPMs-Stage4 設(shè)計(jì)SqueezeNet15-CPMs-Stage4 模型。新模型利用SqueezeNet 的網(wǎng)絡(luò)結(jié)構(gòu)重新設(shè)計(jì)CPMs-Stage4 的第一階段,一方面,改進(jìn)后的模型具有更深的網(wǎng)絡(luò)層數(shù),進(jìn)而增強(qiáng)新模型的特征提取能力,提高準(zhǔn)確率;另一方面,利用SqueezeNet 壓縮模型權(quán)值參數(shù),使新模型具有更少的參數(shù)和更快的檢測速度。此外,模型訓(xùn)練中引入初始結(jié)構(gòu),顯著降低訓(xùn)練時(shí)間。
CPMs 是2016 年由卡內(nèi)基梅隆大學(xué)(Carnegie Mellon University,CMU)機(jī)器人研究所的Wei等[9]提出的使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行單人人體骨骼關(guān)鍵點(diǎn)檢測的模型,具有魯棒性好、準(zhǔn)確率高的優(yōu)點(diǎn)。CPMs 采用一系列順序化卷積架構(gòu)來表達(dá)空間和紋理信息,逐步預(yù)測使最終結(jié)果更精確[9],CPMs 框架如圖1 所示。每個(gè)Stage 均是一個(gè)預(yù)測階段,Stage1 是一個(gè)基本的卷積神經(jīng)網(wǎng)絡(luò),Stage>1 部分是相同的卷積結(jié)構(gòu),每個(gè)Stage 的輸出均添加一個(gè)“Loss”損失函數(shù),最小化關(guān)鍵點(diǎn)的預(yù)測坐標(biāo)與真實(shí)標(biāo)注坐標(biāo)之間的距離,“Center map”是一個(gè)高斯函數(shù)模板,把預(yù)測圖中的關(guān)鍵點(diǎn)顯示在各自的中心區(qū)域,最終生成包含各人體骨骼關(guān)鍵點(diǎn)的預(yù)測圖。
CPMs 中Stage1 對人體骨骼關(guān)鍵點(diǎn)進(jìn)行粗略預(yù)測,從輸入圖像中直接生成關(guān)鍵點(diǎn)的響應(yīng)圖。Stage>1 部分,將特征提取層提取的深度為128 的特征圖作為紋理信息[13],前一個(gè)Stage輸出的響應(yīng)圖作為上下文空間信息,將兩者與中心約束三方面信息融合使下一個(gè)Stage 輸出的預(yù)測圖更準(zhǔn)確[14]。每個(gè)Stage 共輸出15 個(gè)響應(yīng)圖,包括14 個(gè)關(guān)鍵點(diǎn)和1 個(gè)背景響應(yīng)圖。各個(gè)Stage 輸入的特征圖均進(jìn)行多尺度處理[9],將不同尺度的特征圖和響應(yīng)圖作為輸入,可以避免關(guān)鍵點(diǎn)之間的遠(yuǎn)近距離對預(yù)測圖的影響過大,保證預(yù)測精度。
CPMs根據(jù)輸入圖像確定一系列縮放尺度,然后預(yù)測不同尺度下每個(gè)關(guān)鍵點(diǎn)的置信值,最后對不同Stage下各關(guān)鍵點(diǎn)所有尺度的置信值相加求和,將得分最高的置信值作為該關(guān)鍵點(diǎn)的最終預(yù)測結(jié)果,并將結(jié)果在圖像中可視化。
CPMs 算法的偽代碼見算法1,pds()表示預(yù)測因子[15],預(yù)測不同Stage 下人體骨骼關(guān)鍵點(diǎn)的位置。定義第n個(gè)人體骨骼關(guān)鍵點(diǎn)在圖像中的像素位置為Wn∈Z,其中Z是圖像中所有像素位置(u,v)的集合,要預(yù)測的所有N個(gè)關(guān)鍵點(diǎn)位置為W=(W1,W2,…,WN)。用Xz表示圖像z處的特征圖,每個(gè)預(yù)測因子pds()根據(jù)Xz預(yù)測各個(gè)關(guān)鍵點(diǎn)的位置,生成一個(gè)響應(yīng)圖Wn=z,?z∈Z。預(yù)測因子pds()在s階段預(yù)測的第n個(gè)人體骨骼關(guān)鍵點(diǎn)在圖像位置z處的得分表示為hns(Wn=z)。φs()表示hs-1得到的特征圖,pds()表示前一Stage 對上下文特征的映射,融合上下文空間信息。
算法1 CPMs。

Wei 等[9]在其研究中將1-Stage 至6-Stage 對應(yīng)的CPMs 在數(shù)據(jù)集上的檢測準(zhǔn)確率做了對比,指出6-Stage 的CPMs 效果最佳。
雖然6-Stage 的CPMs 圖像提取能力更強(qiáng),但是模型參數(shù)多和訓(xùn)練時(shí)間長等問題影響了模型的檢測速度。而4-Stage相比6-Stage 對應(yīng)的模型減少2 個(gè)預(yù)測階段,在模型參數(shù)數(shù)量和訓(xùn)練時(shí)間上更有優(yōu)勢,而且檢測效果較好,因此本文采用論文中4個(gè)Stage的CPMs-Stage4進(jìn)行人體骨骼關(guān)鍵點(diǎn)檢測。
然而CPMs-Stage4 不僅在模型參數(shù)和訓(xùn)練時(shí)間上提升較小,還存在檢測速度不夠快的問題。此外,由于模型中預(yù)測階段較少以及網(wǎng)絡(luò)層數(shù)不夠深,CPMs-Stage4的檢測準(zhǔn)確率也有所下降。為提高準(zhǔn)確率、減少模型參數(shù)、加快檢測速度,一種有效的方法就是增加網(wǎng)絡(luò)結(jié)構(gòu)深度和卷積層數(shù)并且減少權(quán)值參數(shù)。
SqueezeNet 是2017 年由Iandola 等[12]提出的一個(gè)輕量型的網(wǎng)絡(luò)模型,該網(wǎng)絡(luò)模型能保證識別精度,同時(shí)將原始AlexNet 參數(shù)壓縮至原來的約1/50,使模型大小只有4.8 MB。SqueezeNet 模型的核心構(gòu)件是Fire Module,F(xiàn)ire Module 將一個(gè)卷積層分解為一個(gè)squeeze層和一個(gè)expand層,并各自帶上ReLU 激活層,增加網(wǎng)絡(luò)結(jié)構(gòu)的深度。squeeze 層包含的全部是1×1 的卷積核,expand 層包含1×1 和3×3 的卷積核,每一個(gè)Fire Module 的最后一層用Average Pooling 層替換全連接層,大幅減少了模型權(quán)值參數(shù)。SqueezeNet 證明了小的神經(jīng)網(wǎng)絡(luò)也能達(dá)到很好的識別精度。
為解決CPMs-Stage4在準(zhǔn)確率、模型參數(shù)和檢測速度上的問題,本文將SqueezeNet 的Fire Module 結(jié)構(gòu)引入CPMs-Stage4的Stage1 中,用SqueezeNet 的前15 層Fire8 替換Stage1 中一個(gè)卷積池化層,并對每個(gè)Stage 新增兩個(gè)卷積層,提出SqueezeNet15-CPMs-Stage4 模型。該模型Stage2-Stage4 的網(wǎng)絡(luò)結(jié)構(gòu)均相同,每個(gè)Stage 的輸出都作為下個(gè)Stage 的融合內(nèi)容之一。在Stage1 中,輸入圖像經(jīng)過Fire8 和五層卷積后提取的特征均作為后續(xù)每個(gè)Stage 的輸入之一,SqueezeNet15-CPMs-Stage4框架如圖2所示。
新模型在Stage1 中引入Fire Module 結(jié)構(gòu),同時(shí)使用4 個(gè)卷積架構(gòu),不僅增加網(wǎng)絡(luò)結(jié)構(gòu)的深度和卷積層數(shù),而且大量減少權(quán)值參數(shù),從而使準(zhǔn)確率、模型參數(shù)以及檢測速度都有很大的提升。
本文模型中Stage1的網(wǎng)絡(luò)結(jié)構(gòu)如表1所示,Stage2~Stage4的網(wǎng)絡(luò)結(jié)構(gòu)如表2 所示。表1 和表2 表示模型中各Stage 的網(wǎng)絡(luò)深度和特征圖的變化。

表1 Stage1的網(wǎng)絡(luò)結(jié)構(gòu)Tab.1 Network structure of Stage1

表2 Stage2~Stage4的網(wǎng)絡(luò)結(jié)構(gòu)Tab.2 Network structure of Stage2-Stage4
為了評價(jià)算法性能,本文使用MPII人體姿態(tài)數(shù)據(jù)集、LSP數(shù)據(jù)集和擴(kuò)展的LSP(LSP extended,LSPet)[16]三個(gè)基準(zhǔn)數(shù)據(jù)集進(jìn)行評估,這三個(gè)數(shù)據(jù)集都是來自于真實(shí)的人類日常活動的圖像。本文使用關(guān)鍵點(diǎn)正確估計(jì)的比例(Percentage of Correct Keypoints,PCK)來評估所有算法的準(zhǔn)確率,2.2 節(jié)中對PCK 有詳細(xì)定義,使用單張圖像檢測時(shí)間反映檢測速度,單張圖像檢測時(shí)間越短,檢測速度越快。本文從兩個(gè)方面來驗(yàn)證本文模型算法的性能:第一方面實(shí)驗(yàn)展示了在兩個(gè)不同數(shù)據(jù)集上訓(xùn)練的SqueezeNet15-CPMs-Stage4 與CPMs、CPMs-Stage4 的對比,驗(yàn)證SqueezeNet15-CPMs-Stage4 模型在提高準(zhǔn)確率和加快檢測速度方面的有效性;第二方面實(shí)驗(yàn)則展示了在擴(kuò)展的LSP 上訓(xùn)練的SqueezeNet15-CPMs-Stage4 與目前主流模型算法性能的對比。
MPII 人體姿態(tài)數(shù)據(jù)集是目前評價(jià)人體姿態(tài)估計(jì)的一種最先進(jìn)的基準(zhǔn)數(shù)據(jù)集。該數(shù)據(jù)集大約包括25 000 張圖片,其中包含40 000 多個(gè)帶有人體關(guān)節(jié)注釋的人,每個(gè)人的各個(gè)關(guān)節(jié)點(diǎn)的位置坐標(biāo)和可見性都被標(biāo)注了。將MPII 人體姿態(tài)數(shù)據(jù)集中25 000 個(gè)人作為訓(xùn)練樣本,3 000 個(gè)人作為驗(yàn)證樣本,檢測范圍為全身的14個(gè)人體骨骼關(guān)鍵點(diǎn)。
LSP 數(shù)據(jù)集包含2 000 張照片,擴(kuò)展的LSP 數(shù)據(jù)集包含10 000張圖片,LSP和擴(kuò)展的LSP數(shù)據(jù)集中每幅圖片都標(biāo)注了14個(gè)關(guān)鍵點(diǎn)的具體位置。從LSP 和擴(kuò)展的LSP 數(shù)據(jù)集中隨機(jī)抽取11 000張圖片作為訓(xùn)練樣本,剩余1 000張圖片作為驗(yàn)證樣本。從數(shù)據(jù)集中隨機(jī)選取的數(shù)據(jù)集樣本示例如圖3所示。

圖3 三個(gè)數(shù)據(jù)集中部分樣本示例Fig.3 Some samples from three datasets
本文采用Caffe 深度學(xué)習(xí)框架作為項(xiàng)目的支持框架,實(shí)驗(yàn)中硬件環(huán)境采用的CPU 是20 核的Intel Xeon E5-2698v4,內(nèi)存為50 GB,GPU 是NIVDIA Tesla P100;軟件環(huán)境中使用LINUX 64 Ubuntu14.04 的操作系統(tǒng),使用Python 2.7 作為編程語言,使用Pycharm 2017.1.2作為開發(fā)工具。
為驗(yàn)證本文模型在人體骨骼關(guān)鍵點(diǎn)檢測中的泛化能力[17]和在準(zhǔn)確率和檢測速度方面的有效性,本文設(shè)置了兩組實(shí)驗(yàn),分別在MPII 人體姿態(tài)訓(xùn)練樣本和擴(kuò)展的LSP 訓(xùn)練樣本上進(jìn)行模型訓(xùn)練。
第一組實(shí)驗(yàn)是在MPII 訓(xùn)練樣本上訓(xùn)練的新模型,與Wei等[9]在MPII上訓(xùn)練的CPMs、CPMs-Stage4作對比;第二組實(shí)驗(yàn)是在擴(kuò)展的LSP訓(xùn)練樣本上訓(xùn)練的新模型,與Wei等[9]在擴(kuò)展的LSP 上訓(xùn)練的CPMs、CPMs-Stage4 作對比。兩組實(shí)驗(yàn)均在擴(kuò)展的LSP驗(yàn)證集上進(jìn)行模型驗(yàn)證。
本文使用目前通用的準(zhǔn)確率評估指標(biāo)PCK 作為模型評估的度量標(biāo)準(zhǔn)。PCK定義為模型檢測的關(guān)鍵點(diǎn)與正確標(biāo)注關(guān)鍵點(diǎn)之間的歸一化距離,小于某一設(shè)定閾值的一定比例p,又稱為PCK@p評估方法[14],常用的PCK 評估有PCK@0.5、PCK@0.2。本文選用PCK@0.2 作為本文模型在擴(kuò)展的LSP驗(yàn)證集上的準(zhǔn)確率評估標(biāo)準(zhǔn)。
根據(jù)PCK@0.2的評估標(biāo)準(zhǔn),若模型檢測的關(guān)鍵點(diǎn)與正確標(biāo)注關(guān)鍵點(diǎn)之間的像素坐標(biāo)距離小于人體軀干長度的一定比例0.2 時(shí),表示對該關(guān)鍵點(diǎn)檢測正確[14]。記人體骨骼關(guān)鍵點(diǎn)檢測正確的個(gè)數(shù)為RD,總檢測的人體骨骼關(guān)鍵點(diǎn)個(gè)數(shù)為AD,則檢測準(zhǔn)確率的表達(dá)式如式(1)所示:

CPMs的順序框架提供了一種訓(xùn)練深層網(wǎng)絡(luò)的方法,通過在每個(gè)Stage 的輸出位置定義一個(gè)“Loss”函數(shù),最小化每一個(gè)人體骨骼關(guān)鍵點(diǎn)的預(yù)測響應(yīng)圖與它的真實(shí)標(biāo)注圖之間的距離,從而引導(dǎo)網(wǎng)絡(luò)模型達(dá)到一個(gè)預(yù)期的檢測效果[15]。SqueezeNet15-CPMs-Stage4 中每個(gè)Stage 都會輸出第n個(gè)人體骨骼關(guān)鍵點(diǎn)的預(yù)測響應(yīng)圖,而第n個(gè)人體骨骼關(guān)鍵點(diǎn)的真實(shí)標(biāo)注圖被記作(Wn=z),通過在每個(gè)人體骨骼關(guān)鍵點(diǎn)n的真實(shí)坐標(biāo)位置放置一個(gè)高斯響應(yīng),來構(gòu)造真實(shí)標(biāo)注響應(yīng)圖,定義式(2)為各Stage最小化輸出中的代價(jià)函數(shù):

其中:n遍歷每一個(gè)人體骨骼關(guān)鍵點(diǎn);z表示圖像位置。取所有Stage代價(jià)函數(shù)gs的總和G為最終代價(jià)函數(shù),用式(3)表示:

采用帶動量的隨機(jī)梯度下降法聯(lián)合訓(xùn)練所有網(wǎng)絡(luò)。為了在所有后續(xù)階段共享圖像特征,本文網(wǎng)絡(luò)模型在Stage>1階段共享相應(yīng)的卷積層權(quán)重(如圖2所示)。
模型訓(xùn)練時(shí),由于剛開始的模型還不能學(xué)習(xí)到很好的特征,檢測效果與真實(shí)標(biāo)注點(diǎn)相差較大,導(dǎo)致?lián)p失函數(shù)值變化較大,容易引起梯度分散。如果可以在原來模型的基礎(chǔ)上繼續(xù)訓(xùn)練,不僅可以減少模型的訓(xùn)練時(shí)間,而且可以提高準(zhǔn)確率。因此,本文在模型訓(xùn)練時(shí)引入SqueezeNet 的預(yù)訓(xùn)練模型初始化網(wǎng)絡(luò),使用微調(diào)的方法[18]在SqueezeNet 權(quán)重的基礎(chǔ)上訓(xùn)練模型,以達(dá)到提高準(zhǔn)確率、縮短訓(xùn)練時(shí)間的目的,然后在擴(kuò)展的LSP 驗(yàn)證集上進(jìn)行驗(yàn)證,本文網(wǎng)絡(luò)模型的訓(xùn)練方法如表3所示,各參數(shù)的設(shè)置值來自深度學(xué)習(xí)的訓(xùn)練經(jīng)驗(yàn)。

表3 SqueezeNet15-CPMs-Stage4訓(xùn)練方法Tab.3 Training method of SqueezeNet15-CPMs-Stage4
將第一組實(shí)驗(yàn)在擴(kuò)展的LSP 驗(yàn)證集上進(jìn)行驗(yàn)證對比,結(jié)果如表4所示。
從表4 可以看出,本文提出的模型不僅準(zhǔn)確率最高,而且訓(xùn)練時(shí)間最少、單張圖像檢測時(shí)間最短,也即檢測速度最快。CPMs-Stage4 雖然比CPMs 的訓(xùn)練時(shí)間要少得多,但是其準(zhǔn)確率也低于CPMs,其主要原因在于CPMs-Stage4 采用的是4 個(gè)Stage 的卷積架構(gòu),相比CPMs 少了2 個(gè)卷積架構(gòu),因此在提取特征方面要比CPMs稍差一些。

表4 MPII數(shù)據(jù)集上訓(xùn)練的模型的驗(yàn)證結(jié)果對比Tab.4 Comparison of validation results of models trained on MPII dataset
將第二組實(shí)驗(yàn)在擴(kuò)展的LSP 驗(yàn)證集上進(jìn)行驗(yàn)證對比,結(jié)果如表5 所示,其中:帶“*”表示在模型訓(xùn)練過程中將MPII 訓(xùn)練樣本加入到LSP和擴(kuò)展的LSP訓(xùn)練樣本中。
從表5可以看出,本文提出的模型準(zhǔn)確率與CPMs相匹敵達(dá)到90.4%,且訓(xùn)練時(shí)間和單張圖像檢測時(shí)間最佳,其主要原因在于,與另外兩個(gè)模型相比,本文模型在增加網(wǎng)絡(luò)層數(shù)和卷積層數(shù)的基礎(chǔ)上壓縮模型權(quán)值參數(shù),因此具有較高的準(zhǔn)確率、更少的模型參數(shù)和更快的檢測速度。與CPMs 相比,本文模型在訓(xùn)練時(shí)間上減少86.68%,在單張圖像檢測時(shí)間上減少44.27%。

表5 擴(kuò)展LSP數(shù)據(jù)集上訓(xùn)練的模型的驗(yàn)證結(jié)果對比Tab.5 Comparison of validation results of models trained on extend LSP dataset
在相同的實(shí)驗(yàn)環(huán)境下進(jìn)行的第一組實(shí)驗(yàn)和第二組實(shí)驗(yàn)的實(shí)驗(yàn)數(shù)據(jù)對比顯示,在同等配置下,本文提出的模型訓(xùn)練時(shí)間更少,運(yùn)行速度更快、更穩(wěn)定,對資源的消耗更少。
本文模型可以檢測全身范圍內(nèi)的14 個(gè)骨骼關(guān)鍵點(diǎn),包括頭部、頸部、左肩、右肩、左肘、右肘、左腕、右腕、左髖、右髖、左膝、右膝、左腳踝、右腳踝。隨機(jī)從驗(yàn)證集中挑選一張圖像和部分關(guān)鍵點(diǎn)被遮擋的圖像進(jìn)行檢測,兩幅圖像中14 個(gè)關(guān)鍵點(diǎn)的檢測詳情如圖4所示,圖中的“Full Pose”為真實(shí)關(guān)鍵點(diǎn)標(biāo)注圖,“bkg”為SqueezeNet15-CPMs-Stage4 模型檢測的關(guān)鍵點(diǎn)標(biāo)注圖。從圖4 中兩幅圖像各自的檢測結(jié)果可以看出,無論圖中關(guān)鍵點(diǎn)有無遮擋,各關(guān)鍵點(diǎn)的檢測結(jié)果接近真實(shí)標(biāo)注關(guān)鍵點(diǎn)。

圖4 SqueezeNet15-CPMs-Stage4關(guān)鍵點(diǎn)檢測結(jié)果Fig.4 Key point detection results of SqueezeNet15-CPMs-Stage4
將在擴(kuò)展的LSP 訓(xùn)練集上訓(xùn)練好的本文模型(SqueezeNet15-CPMs-Stage4*)從訓(xùn)練時(shí)間、單張圖像檢測時(shí)間和準(zhǔn)確率三方面與改進(jìn)VGG-16[6]、DeepCut[7]、DeeperCut[8]和CPMs[9]等人體骨骼關(guān)鍵點(diǎn)檢測模型作對比,結(jié)果如表6所示。
從表6 可以看出,本文模型在單張圖像檢測時(shí)間上,相較改進(jìn)VGG-16 模型減少79.24%,相較DeeperCut 模型減少36.83%。與上述主流的人體骨骼關(guān)鍵點(diǎn)檢測模型相比,本文模型的檢測準(zhǔn)確率不僅與CPMs 公開的準(zhǔn)確率相匹敵,且具有最快的訓(xùn)練時(shí)間和檢測速度,明顯優(yōu)于其他幾種參照模型。

表6 本文模型與參照模型的對比Tab.6 Comparison between proposed model and reference models
本文提出了一種基于CPMs 和SqueezeNet 的單人人體骨骼關(guān)鍵點(diǎn)檢測模型,該模型在訓(xùn)練時(shí)間和檢測速度方面均優(yōu)于主流參照模型。CPMs是一種魯棒性好、準(zhǔn)確率高的人體骨骼關(guān)鍵點(diǎn)檢測模型,SqueezeNet 是一種識別精度高,模型參數(shù)小于0.5 MB的輕量級卷積神經(jīng)網(wǎng)絡(luò)模型。實(shí)驗(yàn)結(jié)果表明,準(zhǔn)確率較高的人體骨骼關(guān)鍵點(diǎn)檢測模型與識別精度高的輕量級網(wǎng)絡(luò)模型相結(jié)合設(shè)計(jì)新模型的方法是有效的,改進(jìn)后的模型,不僅具有較高的準(zhǔn)確率,而且大大縮短了模型訓(xùn)練時(shí)間、提高了檢測速度。后期將繼續(xù)研究如何改進(jìn)本文模型,使模型參數(shù)更少,以及如何將其他人體骨骼關(guān)鍵點(diǎn)檢測經(jīng)典模型與識別精度高的模型相結(jié)合,設(shè)計(jì)新的網(wǎng)絡(luò)模型。