劉向陽, 李陽, 姜樹明, 王帥
(山東省科學院情報研究所,山東 濟南 250014)
近年來,動作行為識別成為計算機視覺、模式識別等領域的一個研究熱點,廣泛應用于人機交互[1-2]、運動視頻分析[3]和視頻監控[4]等領域。目前國內外有關人體動作行為識別的研究取得了重要進展,但人體運動的多變化性,以及視角、光照、遮擋等問題使得識別的精確性成為研究難題。現有的行為識別模型大都是基于監督學習框架的,然而現實應用中,大多數都是未標記且多特征描述的數據,對樣本進行標記是一個費時費力的工作。
協同訓練算法(co-training)[5-7]是半監督學習中的重要風范(paradigm)之一,能夠很好地解決上述問題。該算法利用兩個或者多個學習器,以迭代的方式結合多視角信息。在學習過程中,挑選出置信度高的未標記樣本進行相互標記,互換信息,更新模型以提高分類器識別效果。協同訓練算法是一種非常具有研究價值的學習算法,目前協同訓練及其相關改進算法[8]已應用于自然語言處理[9]、模式識別[10]等領域,但是在人行為識別領域應用甚少。
標準協同訓練算法[6]及其相關改進算法[11-12]利用各視角上標記樣本訓練初始分類器,通常采用傳統分類方法,如支持向量機[13](support vector machine, SVM)、決策樹(decision tree)、樸素貝葉斯(naive Bayes,NB)等分類算法。當標記樣本數目較少時,僅僅利用有標記樣本訓練所得的分類器的性能較弱,容易對未標記樣本預測錯誤,如果被添加到對方標記樣本集,就給對方引入了噪聲信息,且噪聲會在迭代過程中不斷積累,會導致最終分類器性能下降,無法得到用戶滿意的結果。
本文引入流形正則化的半監督方法來訓練初始分類器,建立拉普拉斯正則化[14-15]的協同訓練(Laplacian-regularized co-training, LapCo)模型,并將其應用到動作識別中。該算法模型在訓練初始分類器時,添加laplacian正則利用大量未標記信息,更好地探索數據邊緣分布的內在幾何特性,提高初始分類器性能,避免引入噪聲從而提高動作識別的精確度。

半監督學習模型LapCo的目的是為了在訓練過程中利用大量未標記數據的信息來提高識別分類性能,類似于標準的協同訓練,LapCo算法也采用迭代的方式工作。首先,分別在不同的視角上利用樣本訓練初始分類器,然后初始分類器對未標記樣本進行預測,挑選出置信度高的未標記樣本添加到標記樣本集中,重新訓練分類器,迭代幾次或達到一定精確度條件后停止。
在LapCo中,本文采用的是拉普拉斯正則支持向量機(Laplacian regularized support vector machines(LapSVMs))算法來訓練分類器,該算法在標準支持向量機(support vector machines, SVMs)的基礎上加入拉普拉斯流形正則項,在訓練過程中,拉普拉斯流形正則利用大量未標記樣本的信息來提高初始分類器性能,從而避免迭代過程引入噪聲,以提高最終分類器性能。
對于核函數K:X×X→R,存在一個相關的希爾伯特再生核空間與相對應的范數‖‖K,對于SVMs,目標函數為:
(1)
其中,(1-yif(xi))+=max(0,1-yif(xi))表示邊界函數,γ為控制函數復雜度的參數。
流形假設[15]指的是當高維空間的數據映射到低維空間中,如果兩個樣本在低維流形上同處于一個局部領域內,則有較大概率有相同的性質,其標記也相似,這一假設體現了決策函數在局部空間具有平滑性。在SVMs的基礎上引入Laplacian正則懲罰項,則拉普拉斯正則支持向量機(LapSVMs)的目標函數為:
(2)
由表示定理[18]可得上述問題的解為:
(3)
引入拉格朗日乘子,得

(4)
(5)
其中,
通過在SVM目標函數中添加一個二次型范數,形成LapSVMs,將最優解β*加入(4)中,解得膨脹系數α*,值得注意的是,當膨脹系數為0時,上述就變為標準的SVMs問題。
為了驗證本文提出LapCo模型在行為識別中的有效性,我們在動作數據集UCF-iphone上進行了大量驗證實驗。UCF-iphone 數據集由佛羅里達中心大學提供,是由10個志愿者在腰部佩戴iphone手機,做一系列的重復動作,如跳、跑、爬樓梯、下樓梯、騎車等9個動作 (biking,climbing,descending,exercise biking,jump roping, running,standing,treadmill walking,walking),由內嵌到手機里的慣性測量裝置(Inertial measurement unit, IMU)采集數據,每個動作重復記錄5次,慣性測量裝置(60 Hz)同時記錄瞬時三維加速度(加速度計)、角速度(陀螺儀)和方向(磁力計),手動采樣500個(8.33 s)。由不同測量裝置采集的數據可以看作是不同視角。
我們隨機選取了UCF-iphone數據集上4類動作,采用角速度數據為一個視角,加速度數據為另一個視角。為了驗證本文提出LapCo模型的有效性,我們還與標準協同訓練算法(Std-Co)做了對比實驗。本文實驗選取任意兩類進行二分類實驗,數據集4類,共進行了6組實驗。在每組實驗中,從訓練集中隨機挑選1,5,10,15,…,50個樣本作為有標記樣本,其余的作為未標記的樣本。為了綜合評判算法的性能,我們采用平均識別正確率(average precision, AP)來展示實驗結果。
圖1表示的是兩種方法在4類數據集上的平均識別正確率AP值。每一個子圖代表的是一類動作的識別結果。橫軸表示有標記的樣本數,縱軸表示平均識別率。虛線表示Std-Co的識別結果,實線表示本文提出的LapCo的識別結果。隨著標記樣本數目的增加,兩種方法的識別結果都會提高。在大多數情況下,實線要高于虛線,由此可得,本文提出的LapCo識別效果要好于Std-Co。

圖1 不同方法在4類數據集上的平均精確度均值Fig.1 Average precision of different methods for four classes
協同訓練是多視角學習中[19]典型的算法之一,能有效地結合多視角之間的信息,相互補充完善。為獲得更好的識別精確度,關鍵在于如何有效地利用大量的未標記數據信息,為此,本文提出一種基于流形正則協同訓練模型,即基于拉普拉斯正則的協同訓練(LapCo)算法,并將其應用到行為識別中。LapCo在訓練過程中,引入的拉普拉斯正則能利用大量未標記信息,更好地探索數據邊緣分布的內在幾何特性,從而提高初始分類器性能。在動作數據集UCF-iphone上的大量實驗結果表明,本文提出的LapCo能提高動作識別精確度。引入的拉普拉斯正則參數雖然不多,但參數值調整范圍比較大,采用手動調整參數到最優結果需耗費較多時間和精力。如何在較短時間內,自動獲取最好的實驗參數,提高算法效率,是下一步需要改進的問題。
[1]MOKHBER A, ACHARD C, MILGRAM M. Recognition of human behavior by space-time silhouette characterization[J]. Pattern Recognition Letters, 2008, 29(1): 81-89.
[2]POLAT E, YEASIN M, SHARMA R. Robust tracking of human body parts for collaborative human computer interaction[J]. Computer Vision and Image Understanding, 2003, 89(1): 44-69.
[3]LEWIS C, BRAND C, CHERRY G, et al. Adapting user interface design methods to the design of educational activities[M]//Proceedings of the SIGCHI conference on human factors in computing systems. New York, NY, US:ACM Press/Addison-Wesley Publishing Co., 1998: 619-626.
[4]AYERS D, SHAH M. Monitoring human behavior from video taken in an office environment[J]. Image and Vision Computing, 2001, 19(12): 833-846.
[5]周志華,王玨.機器學習及其應用[M].北京:清華大學出版社,2007.
[6]BLUM A, MITCHELL T. Combining labeled and unlabeled data with cotraining[M]//Proceedings of the eleventh annual conference on Computational learning theory. New York, NY, US:ACM, 1998: 92-100.
[7]NIGAM K, GHANI R. Analyzing the effectiveness and applicability of cotraining[M]//Proceedings of the ninth international conference on Information and knowledge management. New York, NY, US:ACM, 2000: 86-93.
[8]BALCAN M F, BLUM A, YANG K. Co-training and expansion: Towards bridging theory and practice[C]// Proceedings of the 17th international conference on neural information processing systems. Cambridge, MA, US: MIT Press ,2004: 89-96.
[9]SARKAR A. Applying co-training methods to statistical parsing[C]//Proceedings of the second meeting of the North American chapter of the association for computational linguistics on language technologies. Stroudsburg, PA, US :Association for Computational Linguistics, 2001: 1-8.
[10]PIERCE D, CARDIE C. Limitations of co-training for natural language learning from large datasets[EB/OL].[2017-03-04].. http://www.aclweb.org/anthology/W01-0501.
[11]ABNEY S.Bootstrapping[EB/OL].[2017-03-04]. http://delivery.acm.org/10.1145/1080000/1073143/p360-abney.pdf?ip=218.
57.145.1&id=1073143&acc=OPEN&key=4D4702B0C3E38B35%2E4D4702B0C3E38B35%2E4D4702B0C3E38B35%2E6D2181445
11F3437&CFID=841997444&CFTOKEN=14396075&__acm__=1513668499_91c8cfe6ab532cfec81740b5270b979c.
[12]LI Y, TAO D P, LIU W F, et al. Co-regularization for classification[C]// Proceedings 2014 IEEE International Conference on Security, Pattern Analysis, and Cybernetics (SPAC). [S.l.]:IEEE, 2014: 218-222.
[13]CORINNA C, VAPNIK V. Support-vector networks[J]. Machine learning, 1995, 20(3): 273-297.
[14]BELKIN M, NIYOGI P. Laplacian eigenmaps and spectral techniques for embedding and clustering [EB/OL].[2017-03-04]. http://papers.nips.cc/paper/1961-laplacian-eigenmaps-and-spectral-techniques-for-embedding-and-clustering.pdf .
[15]BELKIN M, NIYOGI P, SINDHWANI V. Manifold regularization: a geometric framework for learning from labeled and unlabeled examples[J]. Journal of Machine Learning Research, 2006,7:2399-2434.
[16]CHAPELLE O, SCH18LKOPF B, ZIEN A. Semi-supervised learning using semi-definite programming[M]. Cambridge, MA, US: MIT Press, 2006.
[17]SHAHSHAHANI B M, LANDGREBE D A. The effect of unlabeled samples in reducing the small sample size problem and mitigating the Hughes phenomenon[J]. IEEE transactions on geoscience and remote sensing, 1994, 32(5): 1087-1095.
[18]WARDETZKY M,MATHUR S,KALBERER F,et al. Discrete laplace operators:No free lunch[EB/OL].[2017-03-04]. http://www3.math.tu-berlin.de/geometrie/Lehre/SS12/MathVisII/nofreelunch.pdf .
[19]WU Y, CHANG E Y, CHANG K C C, et al. Optimal multimodal fusion for multimedia data analysis[C]//Proceedings of the 12th annual ACM international conference on Multimedia. New York, NY, US: ACM, 2004: 572-579.