基于動作
——身份模型的動作分類

2014-03-25 10:22:46劉碩明劉

中國新技術(shù)新產(chǎn)品 2014年8期

關(guān)鍵詞：分類動作信息

劉碩明劉佳

（1．武警北京總隊醫(yī)院信息科，北京 100000；2．武警工程大學(xué)電子技術(shù)系，陜西西安 710086）

基于動作
——身份模型的動作分類

劉碩明1劉佳2

（1．武警北京總隊醫(yī)院信息科，北京 100000；2．武警工程大學(xué)電子技術(shù)系，陜西西安 710086）

早期動作識別的研究主要關(guān)注在簡單背景及可控環(huán)境下單個人體動作的分類從而忽略了人的身份信息。本文主提出如何同時識別動作和身份。提出時空興趣點(diǎn)不僅僅刻畫了動作的時空屬性，在采取不同的描述算子的情況下，它也能反映出關(guān)于動作執(zhí)行人的身份信息。實驗的結(jié)果驗證了本文的想法。

動作識別；身份識別；碼書；主題模型

1 概述

絕大多數(shù)用于識別的方法中，僅僅存在一種視覺碼書。本文提出利用兩種碼書來進(jìn)行視頻表示。具體來說，用動作碼書來表示動作，而用作者碼書來表示身份。基本思想類似于文章的內(nèi)容用主題來表示，而寫文章的人用作者來表示。本文認(rèn)為時空興趣點(diǎn)不僅僅刻畫了動作的時空屬性，在采取不同的描述算子的情況下，它也能反映出關(guān)于動作執(zhí)行人的身份信息。實驗的結(jié)果驗證了本文的想法。已經(jīng)有一些文獻(xiàn)致力于同時進(jìn)行動作識別和身份驗證。例如文獻(xiàn)[1,2]。

2 動作身份模型

1）識別框架

基本框架如下：首先，利用時空興趣點(diǎn)檢測器提取局部時空點(diǎn)區(qū)域，然后分別對動作和身份兩種問題，提取不同的局部描述子，接著利用聚類的方法得到兩種碼書：動作碼書和作者碼書。利用LDA和AM進(jìn)行模型參數(shù)的學(xué)習(xí)和推斷。

2）視頻表示及碼書

文中利用Dollar[3]提出的時空檢測器進(jìn)行興趣點(diǎn)的檢測，它能產(chǎn)生穩(wěn)健的時空點(diǎn)，給定一組時空興趣點(diǎn)的描述子后，建立了兩種類型的碼書，分別用來進(jìn)行動作信息的表示和身份信息的表示。首先為了學(xué)習(xí)得到碼書中的詞項，首先將所有訓(xùn)練視頻中的時空興趣描述子進(jìn)行聚類，本文采用K均值聚類的方法，每一個聚類中心對應(yīng)碼書（動作碼書和身份碼書）中的一個詞項。

3）動作-身份模型

本文提出的動作身份模型是一個概率主題模型，因此可用圖模型的方法表示，如圖1所示。

圖1 動作-身份模型的圖模型表示

圖3 KTH數(shù)據(jù)庫上的混淆矩陣結(jié)果

其中ad表示身份信息，w1和w2分別表示動作碼書和身份碼書中的單詞項。Nd1和Nd2分別表示動作單詞和身份單詞的個數(shù)，其余變量為隱含變量或模型參數(shù)。在這個生成模型中包含了兩種類型的碼書，w1和w2是分別來自動作碼書和身份碼書中的視覺詞。實際上，這個包含兩種碼書的動作身份模型正是LDA模型[4]和作者模型[5]的組合。在動作模型和身份模型相對獨(dú)立時，可以將動作模型和身份模型分開進(jìn)行學(xué)習(xí)和推斷。盡管w1和w2來自不同的描述子，但他們都對應(yīng)相同的時空點(diǎn)位置，只是在這個時空點(diǎn)上提取的特征不同。

3 實驗及結(jié)果分析

本文在KTH 數(shù)據(jù)庫上進(jìn)行了測試。通過利用時空興趣點(diǎn)局部特征以及采用隱主題模型進(jìn)行動作身份分類，能夠有效的克服這些因素的影響。實驗結(jié)果表明本文的方法不僅能夠?qū)幼黝悇e和位置進(jìn)行識別，同時還能給出關(guān)于身份的信息。平均識別率的混淆矩陣如圖3所示。6個主題的LDA模型對應(yīng)的混淆矩陣如圖3 （a）所示，這里采用的動作碼書的大小為1000。關(guān)于身份模型的25類的混淆矩陣如圖3 （b）所示，這里作者碼書的大小也是1000。從圖中可以看出，對于身份的識別具有一定的可判別性。

（a）動作分類的結(jié)果（b）身份的分類結(jié)果平均分類正確率（54.6%）。

實驗結(jié)果表明本文的方法不僅能夠?qū)幼黝悇e和位置進(jìn)行識別，同時還能給出關(guān)于身份的信息。

結(jié)語

本文在時空興趣點(diǎn)的基礎(chǔ)上，提出了一種動作身份模型用來識別動作的類型、位置以及動作執(zhí)行人的身份。文中將動作身份模型在三種數(shù)據(jù)庫上進(jìn)行了測試，驗證了該方法的有效性。

[1]Fabio, C． Using bilinear models for viewinvariant action and identity recognition． in CVPR． 2006．

[2]．Jack M．． Multifactor Gaussian process models for style-content separation． In ICML． 2007． Corvallis．

[3] Dollar, , Behavior recognition via sparse spatio-temporal features． IEEE Workshop on VSPETS, 2005: p． 1-8．

[4] Blei, D．M．, Latent Dirichlet allocation, In JMLR, 2003． 3（4-5）: p． 993-1022．

[5] M． Rosen-Zvi, The author-topic model for authors and documents． in Conference on UAI． 2004．

TP915

基于動作——身份模型的動作分類

1 概述

2 動作身份模型

3 實驗及結(jié)果分析

結(jié)語

基于動作
——身份模型的動作分類