李君君,張彬彬,江朝暉
(合肥工業(yè)大學(xué) 計(jì)算機(jī)與信息學(xué)院,合肥230601)
行為識(shí)別技術(shù)是近年來(lái)計(jì)算機(jī)視覺(jué)研究領(lǐng)域被廣泛關(guān)注的技術(shù),受到國(guó)內(nèi)外專家學(xué)者的廣泛重視和深入研究,其相關(guān)技術(shù)在智慧監(jiān)控、人機(jī)交互、視頻序列理解、醫(yī)療衛(wèi)生等領(lǐng)域發(fā)揮著越來(lái)越重要的作用。目的是通過(guò)研究人體在視頻中的圖像幀或圖像序列的時(shí)空變化,利用計(jì)算機(jī)處理和分析視覺(jué)信息,自動(dòng)識(shí)別出視頻中的行為模式。由于人體行為類別多樣,復(fù)雜多變的背景,視頻視角的差異性等問(wèn)題,網(wǎng)絡(luò)模型難以魯棒、準(zhǔn)確對(duì)真實(shí)的視頻行為動(dòng)作進(jìn)行辨別,因此行為識(shí)別亟待研究工作者深入地開展研究工作。
現(xiàn)有的深度學(xué)習(xí)模式對(duì)特征提取模型的訓(xùn)練多采用端到端的模式,使用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型參數(shù)去學(xué)習(xí)視頻的顯著特征,對(duì)行為進(jìn)行分類識(shí)別。一些早前的相關(guān)研究工作主要專注于利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)來(lái)學(xué)習(xí)視頻幀連續(xù)序列中蘊(yùn)含的行為的深度特征。主流的CNN網(wǎng)絡(luò)模型包括雙流結(jié)構(gòu)的一系列的模型和3DCNN模型。然而,卷積神經(jīng)網(wǎng)絡(luò)通常有兩個(gè)缺點(diǎn):
(1)假設(shè)卷積計(jì)算的幾何變換是固定的和已知的,一般是使用這些先驗(yàn)知識(shí),來(lái)做數(shù)據(jù)的增強(qiáng)工作并且設(shè)計(jì)特性和算法,但是這種默認(rèn)的規(guī)則,會(huì)導(dǎo)致算法不能對(duì)未知幾何變換的新任務(wù)進(jìn)行有效泛化,會(huì)導(dǎo)致任務(wù)建模的不正確或不恰當(dāng);
(2)相對(duì)更加復(fù)雜的變換來(lái)說(shuō),即使已經(jīng)知道其固定的特征和算法,也難以用手工的方式進(jìn)行設(shè)計(jì)[1]。……