一種基于人工標簽數據的行為識別模型遷移方法

2016-07-06 01:44:51王忠民

西安郵電大學學報 2016年2期

關鍵詞：用戶模型

王忠民，王　晶，張　榮

(西安郵電大學計算機學院，陜西西安710121)

一種基于人工標簽數據的行為識別模型遷移方法

王忠民，王晶，張榮

(西安郵電大學計算機學院，陜西西安710121)

摘要:針對通用模型對新用戶行為識別準確率的問題，給出一種基于人工標簽數據的模型遷移方法。對新用戶采集少量帶標簽數據，經過帶通濾波、特征提取和歸一化預處理，將其加入到通用模型訓練集中。對更新后的訓練集進行重新訓練，以所得模型與通用模型對新用戶數據識別準確率的差值作為遷移必要性度量閾值，利用K-均值算法以及由底至頂的決策樹子節點屬性平均值替代法，對模型進行遷移。實驗結果顯示，與原通用模型相比，由所給方法遷移學習得到的個性化模型的識別準確率有明顯提高。

關鍵詞:行為識別；分類回歸樹；人工標簽；類K-means均值修改模型遷移方法

隨著智能可穿戴設備的普及和移動情景識別領域的深入研究[1]，人們的日常生活已與移動終端緊密相連，基于智能終端內嵌傳感器的行為識別研究也應運而生[2]。目前，大多研究工作是構建通用識別模型[3,4]。當把通用模型應用到新用戶時，用戶個體行為差異、終端設備的放置位置以及內置傳感器的精度差異，導致了個體行為數據在特征空間分布上出現差別，從而降低了通用模型行為識別的準確率[5,6]。

較之于不帶遷移學習的機器學習算法，帶上遷移學習的分類算法就能夠解決通用模型對新用戶行為識別準確率下降的問題，使整個分類系統兼具行為識別和將已有知識遷移應用到新數據域的能力[7]。文獻[8]是屬于事后修改的模型遷移方法，讓用戶給予行為識別系統二值反饋，依據用戶的反饋信息對系統模型進行修改，對初次使用該系統的用戶會產生錯誤的識別結果，而且每識別一批新數據的時候都需要用戶參與反饋，整個修改過程耗時長，也給用戶的使用帶來了很多不便。自適應行為識別方法[9]利用K-means聚類算法[10]對新數據和已分類的新用戶數據進行聚類，并把聚類結果帶回通用模型，對其進行模型修改，但K-means算法的聚類結果依賴初始質心的選取，而且容易陷入過早局部收斂，導致聚類不理想，從而影響通用模型的遷移。基于TransEMDT的遷移學習算法[11]對決策樹模型進行了跨用戶學習，提出了決策樹的帶權路徑、一步K-means聚類以及子節點均值修改法等，是對文獻[9]的改進和優化，但依舊存在過早收斂的問題，而且算法復雜度高，難于在計算能力有限的移動終端上使用。

本文結合文獻[9]和文獻[11],提出一種類K-means均值修改模型遷移方法(K-meansSimilarAverageModifyAlgorithm，KSAM)。利用目標域帶標簽數據和類K-means方法對通用模型(GeneralDecisionTree,G_DT)中非葉子節點閾值進行修改。同時，在包含人工標簽數據在內的訓練集上，對通用模型進行重新訓練，得到重新訓練模型(RetrainedDecisionTree,Re_DT),根據G_DT和Re_DT進行交叉驗證的正確率，給出遷移必要性度量方法。

1決策樹識別模型

利用分類回歸樹 (ClassificationAndRegressionTree，CART)算法訓練得到的決策樹模型如圖1所示。每個葉子節點代表1種類行為，類D為下樓、類R為跑步、類S為靜止、類U為上樓、類W為走路。而非葉子節點是其子節點的分裂節點，包含分裂屬性名稱和分裂閾值，可表示為(Aj，Dj)，其中j為非葉子節點的個數，j=1,2,3,4。

圖1　CART樹形結構

2KSAM決策樹模型遷移方法

2.1KSAM模型遷移方法

KSAM模型遷移方法包括兩個階段。

(1)類K-means計算階段

設X為目標域標簽數據集，CART模型的訓練集為S。對X內所有數據，按照標簽將其劃歸到對應的行為集合中，依次對每個行為集合求得中心點[12]

(1)

其中N為類i行為集合中數據點的個數, i=D,R,S,U,W，xk為該集合中的數據點， k=1,2,...,N。

計算各類數據點和中心點的距離[13]

dxk→Ci=‖xk-Ci‖2,

(2)

利用式(2)求得距離中心點Ci最近的數據點xk，將xk作為類i的類別代表R,可表示為

(3)

(2)算數平均值修改階段

獲取非葉子結點(Aj, Dj)，以及左、右葉子節點對應的類別代表RL、RR，獲取RL的Aj屬性值為PL，RR的Aj屬性值為PR。計算PL和PR的算術平均值

θ=(PL+PR)/2，

(4)

用θ替換Dj的值，自下而上依次對決策樹模型非葉節點進行閾值修改，直至模型的根節點修改完畢。

2.2遷移必要性度量

遷移必要性度量是目標域的數據分布情形與源域數據分布情形的差異度量。行為識別模型遷移學習必要性度量方法如下。

設訓練集為S，通用模型G_DT對自身訓練集進行十折交叉驗證，測試的正確率為ΦG；令擴展訓練集E={y|y?(S∪X)}，重新訓練后得到模型Re_DT，則Re_DT對其自身訓練集數據進行十折交叉驗證，測試正確率為ΦR。ΦR和ΦG的差值為

Δ=ΦR-ΦG

(5)

當Δ<0時，表示目標域數據分布與源域數據之間差異較大，則必須進行遷移學習；而當Δ≧0時，目標域數據分布與源域數據分布相似或一致，在這種情況下G_DT的識別效果較好，則不需要進行遷移學習。

2.3算法框架與流程

算法流程如圖2所示。

圖2　算法流程

算法描述如下。

輸入：源域數據集S，目標域數據集T，目標域標簽數據集X。

輸出：通用模型G_DT，重新訓練模型Re_DT，個性化模型(KSAMedDecisionTree,KSAM_DT)，以及目標域數據的類別標簽。

(1)初始化階段

步驟1輸入S，T，X。

步驟2在S上利用CART算法訓練出通用識別模型G_DT，并將原始訓練集數據反帶入G_DT進行測試，記錄測試結果。

步驟3將X數據加入到S，再次調用CART算法進行重新訓練，得到Re_DT，將S和X反帶入Re_DT進行測試，記錄結果。

(2)遷移學習階段

步驟1將X分別帶入G_DT和Re_DT進行測試，記錄測試準確率。分別對這兩種模型進行交叉驗證，統計其各自的測試準確率ΦG、ΦR，計算差值Δ，若Δ<0，轉步驟2，否則，結束。

步驟2調用KSAM算法對G_DT進行修改，得到KSAM_DT，即個性化模型構建完畢。

步驟3對T進行測試，得到集合T內數據的類別標簽。

3實驗及結果分析

3.1數據采集

基于Android平臺采集靜止、走路、上/下樓、跑步等5種日常行為時的加速度數據，采樣頻率為50Hz，單次采樣時長為5s。所得數據以(ax,ay,az)元組(其中ax代表手機坐標系X軸的加速度值，ay代表手機坐標系Y軸的加速度值，az代表手機坐標系Z軸的加速度值)的形式保存于文本文件中。訓練集數據采集所用設備為HUAWEIU8950D智能手機，手機操作系統為AndroidOS4.0；測試集數據采集所用設備為HUAWEI、ZTE、MX、Samsung、小米、HTC等智能手機，手機操作系統為AndroidOS。采集時手機所處位置為包里、褲兜、手里，手機放置方位任意。采集人數共8人，采樣人群年齡分布區間為22～52周歲，采樣量為10 次/(人·位置·行為)。

3.2預處理及特征提取

通過對人體行為加速度信號的頻譜分析可知，信號能量主要集中在0～5Hz之間。為了減少干擾，對原始數據進行了帶通濾波(通帶頻段：0～5Hz)。圖3～圖7分別為5種日常行為加速度信號帶通濾波前、后頻域圖。

采用特征優選方法[14,15]，構建一個包含12種特征的特征集。(1)時域特征集[14]：中位數、標準差、最大值、最小值、范圍以及均方根；(2)小波特征集[15]：分別為小波分解的第3、4層的小波能量、小波波峰個數、小波波峰值均值。然后，對每種特征的數值進行了散落于[0,1]區間的歸一化處理，以均衡各特征對識別系統的貢獻，排除因各自量綱不同而產生不良影響。

(a) 帶通濾波前 (b) 帶通濾波后

圖3下樓行為的頻域

3.3實驗設計與結果分析

選取8個人的加速度數據，數據總量為8×5×10×250=100 000條三軸加速度數據，其中2人的全部數據作為訓練集的原始數據集Do，大小為2×5×10×250=25 000條數據，其余6人數據依次作為目標域數據集T。對Do中數據進行預處理和特征提取，得到訓練集S；利用CART算法對該數據集進行訓練，得出行為識別通用模型G_DT。將與T對應的X中的數據進行相關預處理和特征提取，得到目標域子集S1，將其加入到S中，構成新的訓練集，再次利用CART算法對此新的數據集進行訓練，得出重新訓練后的模型Re_DT。對G_DT和Re_DT分別進行十折交叉驗證實驗，得到各自的測試準確率ΦG、ΦR，根據遷移必要性度量方法，判斷是否對T進行遷移學習。若遷移，則對G_DT調用KSAM算法，可得最終修改模型KSAM_DT。將T進行相關預處理以及特征提取操作，可得由其產生的特征子集S2，使用KSAM_DT對S2進行測試，并統計測試準確率，否則，不進行遷移學習。

表1和表2分別為訓練集和單目標域的原始數據，實驗結果分別如表3和表4所示。

表1　訓練集原始數據

表2　單目標域原始數據

表3　重新訓練前后準確率對比

表4　模型修改前后準確率對比

從表3中可以看出當帶標簽數據加入到原始訓練集后，對更新后的訓練集進行重新建模，得到的模型測試準確率有小幅度提升，但其所達到的準確率水平對于實際應用還是有限的。其提高水平也有限，介于6.93%～13.36%之間，而從表4可以看出，KSAM算法對模型進行修改后，個性化模型對新用戶的測試準確率有了較大提升。其最低識別準確率達到79.46%，準確率提高水平高于重新訓練后的模型，介于6.81%～30.00%。

4結束語

利用目標域數據與源域數據之間的分布差異，對新用戶進行少量標簽采樣，利用K-means聚類方法，以類別劃分、依次求得聚類中心的方式，對各個行為類別中的數據求得類代表，給出了一種通用模型對新用戶行為識別準確率不高的解決方法。實驗結果表明，該方法能夠較好地度量源域與目標域之間的差異，進而對通用模型進行有效修改，實現了對新用戶行為數據的準確識別。

參考文獻

[1]INCELOD,KOSEM,ERSOYC.AReviewandTaxonomyofActivityRecognitiononMobilePhones[J].BioNanoSci，2013(3):145-171.DOI:10.1007/s12668-013-0088-3.

[2]霍藝偉.移動用戶情境感知及其應用研究[D].西安：西安郵電大學.2013：1-55.

[3]衡霞,王忠民.基于手機加速度傳感器的人體行為識別[J].西安郵電大學學報,2014,19(6):76-79.DOI:10.13682 /j.issn.2095 -6533.2014.06.015.

[4]徐川龍,顧勤龍,姚明海.一種基于三維加速度傳感器的人體行為識別方法[J].計算機系統應用,2013,22(6):132-135.

[5]莊福振,羅平,何清,史忠植.遷移學習研究進展[J].軟件學報,2015,26(1):26-39.DOI: 10.13328/j.cnki.jos.004631.

[6]戴文淵.基于實例和特征的遷移學習算法研究[D].上海：上海交通大學，2008：1-45.

[7]PANSJ,YANGQ.Asurveyontransferlearning[J].IEEETransactionsonKnowledgeandDataEngineering, 2010, 22(10):1345-1359.DOI: 10.1109/TKDE.2009.191.

[8]JUSSIP,JAYAPRASADB,JUSSIC,etal.AdaptiveActivityandEnvironmentRecognitionforMobilePhones[J].Sensors, 2014,14:20753-20778.DOI:10.3390/s141120753.

[9]趙中堂,馬倩,陳益強.個人運動管理系統中的行為識別方法[J].計算機工程,2013,39(1):213-216.DOI: 10.3969/j.issn.1000-3428.2013.01.046.

[10]王千,王成,馮振元,等.K-means聚類算法研究綜述[J].電子設計工程,2012(7):21-24.DOI:10.14022/j.cnki.dzsjgc.2012.07.034.

[11]ZHAOZT,CHENYQ,LIUJF,etal.Cross-PeopleMobile-PhoneBasedActivityRecognition[C]//ProceedingsoftheTwenty-SecondInternationalJointConferenceonArtificialIntelligence.California:AAAIPress,2011:2545-2550.DOI:10.5591/978-1-57735-516-8/IJCAI11-423.

[12]JAINAK,MURTYMN,FLYNNPJ.Dataclustering:Areview[J].ACMComputingSurveys,1999,31(3):264-323.

[13]ZHANGT,RAMAKRISHNANR,LIVNYM.Birch:Anefficientdataclusteringmethodforverylargedatabases[C]//Proceedingsofthe1996ACMSIGMODInternationalConferenceonmanagementofData.Montreal:ACMPress,1996:103-114.

[14]王忠民,王斌.多頻段時域分解的行為識別特征優選方法[J].計算機應用研究,2015,32(7):1956-1958.DOI: 10.3969/j.issn.1001-3695.2015.07.009.

[15]王忠民,曹棟.基于蟻群算法的行為識別特征優選方法[J].西安郵電大學學報,2014,19(1):73-77.DOI:10.13682/j.issn.2095-6533.2014.01.016.

[責任編輯：祝劍]

Amodeltransferlearningalgorithmforactivityrecognitionbasedonartificiallabelingdata

WANGZhongmin,WANGJing,ZHANGRong

(SchoolofComputerScienceandTechnology,Xi’anUniversityofPostsandTelecommunications,Xi’an710121,China)

Abstract:To raise the classifying accuracy of general model for new users activity recognition, a model transfer learning method based on artificial labeling data is proposed. Collect a small amount labeled data from new users, after the process of band pass filtering, feature extraction and normalization, add them into the training set. Retrain the updated set, count out the new users discriminating accuracy difference between general model and retrained model, and set it as the threshold to measure transfer learning necessity. Execute model transfer by K-means algorithm and the average value substitution method of non-leaf node on the decision tree from bottom to top. Experimental results show that, compared with the general model, by the proposed transfer learning method, the new achieved model has a higher classifying accuracy.

Keywords:activity recognition, decision tree, manual tagging, KSAM algorithm

doi:10.13682/j.issn.2095-6533.2016.02.018

收稿日期：2015-12-28

基金項目：國家自然科學基金資助項目(61373116)；工業和信息化部軟科學研究計劃資助項目(2014R32)；陜西省工業公關計劃資助項目(2012K06-05)；陜西省教育廳產業化培育基金資助項目(2012JC22)

作者簡介：王忠民(1967-)，男，博士，教授，從事智能信息處理研究。E-mail：zmwang@xupt.edu.cn 王晶(1990-)，男，碩士研究生，研究方向為模式識別與人工智能。E-mail：wangjing1303210019@163.com

中圖分類號：TP391

文獻標識碼：A

文章編號：2095-6533(2016)02-0092-06