程豪,呂曉玲,范超,趙昱
(1.中國科學技術協會創新戰略研究院調查統計中心,北京100012;2.中國人民大學a.應用統計科學研究中心;b.統計學院,北京100872;3.QuestMobile&人大統計移動互聯網大數據研究院,北京100015)
近年來,“打造智能生活”的理念不斷落實到社會各個領域。作為智能化產業之一,智能手機的迅猛發展,影響并改變著人們的生活方式。智能手機的普及和推廣直接導致海量數據和信息的產生。比如,越來越多的用戶位置信息(GPS軌跡、手機的基站定位數據等)能夠被精確地記錄和獲取[1]。隨著日常運營中生成和積累的用戶行為數據的逐漸堆積龐大,給人類在這些數量龐雜、種類繁多的資源中甄別并獲取有價值的信息資源增加了難度[2]。因此,數據清洗和數據分析顯的更為重要。而針對智能手機監測數據的數據清洗方案鮮有人涉及,如何在盡可能保證信息不受損失的同時,清晰條理的提出一套智能手機數據清洗方案顯得尤為迫切。
目前有關手機大數據的研究主要集中通過手機GPS或通信基站來獲取用戶的具體地理位置經緯度數據,以此來分析用戶的行為軌跡特征,研究的內容主要集中在智能交通和用戶行為兩個方面[3]。在智能交通方面,Zhang等[4]研究數據驅動下的智能交通系統,Cao等[5]根據GPS軌跡繪制電子地圖等;在用戶行為方面,Pablo[6]根據行為理解提煉出用戶行為模式、Leskovec等[7]在考慮時間因素下討論社交關系、David等[8]根據地理信息完成服務推薦研究等。但是,這些研究往往基于用戶在生活中進行用餐、購物、旅游等與物理世界緊密相連的行為[1],將用戶的生活狀態和興趣習慣毫無保留的予以公開,其敏感性導致研究工作受到局限。此外,將研究關注在用戶行為軌跡方面,而非手機屬性本身,對手機智能化推廣指導借鑒意義不大。在智能手機逐步取代傳統功能型手機的大潮中,通過對手機用戶群體現在選擇偏好和潛在需求的深入研究[9],并提供方法學依據,成為智能手機廠商成功打開市場急需思考的問題。
因此,本文提出以APP應用程序為用戶行為標識,分析不同手機屬性下的用戶行為特征,預測選擇偏好,為智能手機監測數據的研究提供一種新思路。
本文數據來自QM公司的智能手機監測數據。該數據包括2015年2月1日到5月17日內13余萬安卓系統用戶,具備數據量巨大(Volume)、增長速度快(Velocity)、內容多樣化(Variety)、價值密度低(Value)的4V特征。見表1所示。
本文以Shell、Python為工具[10],根據手機用戶數據特點和分析目的,提取用戶ID全集及相關信息表和用戶APP使用信息表。其中,用戶ID全集及相關信息表包含用戶的地理位置和手機型號數據。這兩項數據是用戶重要的特征標簽,但并非所有的用戶都存在地理位置和手機型號信息記錄,本文提取在106天中同時存在該兩項信息記錄的人群。
用戶ID全集及相關信息表的提取流程如下(流程圖見圖1):

圖1 用戶ID全集及其相關信息表的提取流程圖
第1步:根據106天每天的地理位置數據表,將用戶ID及所在省份合并作為唯一標識,進行word count處理。
第2步:根據106天每天的手機型號信息表,以用戶ID、品牌、型號、尺寸、分辨率為唯一標識進行word count處理。
第3步:將106天的word count結果合并,進而得到在Location表和手機信息表中都出現過的所有用戶ID,并記錄他們被監測的天數、次數。
第4步:106天匯總結果中可能存在用戶ID重復的問題,原因是某用戶在這106天中出入了多個省份,或者是使用過不同的手機。為解決該問題,本文將用戶在106天內停留時間最長的省份作為該用戶的常駐省份,將其使用時間最長的手機型號作為該用戶的常用手機。
第5步:最后根據用戶ID匹配的省份和手機信息,將無法匹配的用戶刪除,最終得到132845名用戶ID全集及相關信息表。
用戶APP使用信息表的提取流程如下(流程圖見圖2):

圖2 APP使用信息表的提取流程圖
第1步:提取每天的App行為監測表,按用戶ID以及打標簽后的APP類別作為唯一識別,匯總每人每天每類APP的使用時長,把不屬于APP分揀表內的APP標記為ELSE類處理。
第2步:利用第1步得到的匯總數據,根據用戶ID將其各類APP使用時間進行連接,進而得到每人每天每類APP使用情況矩陣。該矩陣中每一行代表一個用戶,每一列代表一個APP,每個位點的數據代表該用戶當天使用該APP的時間。
第3步:根據用戶ID將第2步中得到的用戶APP使用情況矩陣進行匯總,進而得到106天每人每類APP總使用時間及使用天數矩陣,最后刪除ELSE類所在的列。
根據數據中的現有信息,以20類APP使用時間(單位:秒)作為用戶行為特征的標識,通過研究手機名牌、價格、屏幕大小和分辨率四個屬性與20類APP間的關系,對用戶進行分類,并為不同類用戶貼標簽。由于任一屬性與APP間的相關系數都較低(大多在0.1以下),故可以推斷變量間不存在顯著的線性關系。考慮到所選模型要既能夠分析數據間的非線性特征,又能對變量間的關系有較強的解釋性,因此選擇決策樹[11]作為分析工具,分析用戶行為特征。需要說明的是,本文以使用人數超過100為標準,從3000多款手機型號中選取240個具體型號(涉及用戶102614人),通過中關村在線(www.zol.com.cn)網站獲得手機價格。
經統計,102614個用戶中三星和小米的使用比重最高(分別占43.7%和22.3%)。這兩個品牌中國市場也極具代表性,不妨以品牌二分類變量(三星、小米)為因變量,20類APP的使用時間為自變量,構建決策樹1(如圖3所示)。102614個用戶中,手機價格的中位數為1400元,不妨定義小于等于1400元的手機為價格相對便宜的低端手機,大于1400元的手機為價格較貴的高端手機,即把手機價格轉換為取值為高端和低端的二分類因變量,構建決策樹2(如下頁圖4所示)。同理,以屏幕尺寸的中位數為5寸為分界,將小于5寸的手機定義為小屏幕手機,大于等于5寸的手機定為大屏幕手機,構建決策樹3(如下頁圖5所示)。設定對角線分辨率<=1500為低分辨率手機,對角線分辨率>1500為高分辨率手機,構建決策樹4(如下頁圖6所示)。

圖3 基于手機品牌構建的決策樹1

圖4 基于手機價格構建的決策樹2

圖5 基于手機屏幕大小構建的決策樹3

圖6 基于手機屏幕分辨率構建的決策樹
圖3表明,區分三星和小米用戶的最主要變量是系統工具(手機自帶的應用、刷機軟件等)。三星手機用戶的特征是對系統工具的使用更頻繁,且非常喜歡使用通信聊天APP(微信、QQ等),會使用網絡金融APP(理財、基金應用等),但對于鬧鐘、天氣預報等實用工具的使用則較少;而部分小米用戶非常喜歡滴滴打車等汽車服務類應用,對手機自帶的系統工具則使用較少,但對鬧鐘、萬年歷等實用工具的使用相對多一些。因此,三星手機的特點是手機內已事先安裝了大量質量較好的APP(如日歷、鬧鐘等功能),用戶已無需再下載安裝這類實用軟件,導致對系統工具使用較多而對實用工具APP使用較少。而有些用戶可能覺得預裝的APP過多,因此會用ROOT系統工具軟件來卸載部分APP。小米手機用戶追求的是手機性價比,注重價格,使用者多為年輕人,他們易于嘗試新鮮事物,因此對滴滴打車這類既方便又省錢的新鮮事物感興趣。
圖4表明,判別用戶使用手機價位的最重要變量是實用工具,使用高端機的用戶特點是喜歡使用效率辦公APP,也會使用新聞資訊APP,相比低端手機用戶,游戲軟件的使用也更為頻繁,但對打車軟件(即汽車服務)使用較少;而低端機型用戶的特點是基本不使用新聞資訊和效率辦公APP,對APP的普遍使用相對較少。因此,中高收入者一般會使用高端機型,他們大多屬于社會精英,注重辦事效率和時事新聞,而不太關注像滴滴打車這種“占便宜”的行為。高端機通常是大屏幕、高分辨率、運行速度快,適合玩游戲。而低端機配置一般,內置軟件的用戶體驗也一般,使用APP會降低手機運行速度,因此對APP整體使用較少。此外,一般老年人會選擇低端機,對APP的整體使用也相對較少。
圖5表明,區分用戶屏幕大小偏好的最重要變量是系統工具,大屏手機用戶更愛玩游戲,愛聊天,使用主題美化APP和效率辦公軟件。而小屏手機則對這些APP使用較少。因此,大屏手機更適合玩游戲,適合聊QQ,也適合通過主題美化軟件為屏幕設定更漂亮的壁紙,且大屏手機可能價格更貴,因此,注重效率的社會精英更青睞這類手機。而小屏手機則不適合玩游戲,不適合長時間看手機屏幕,用戶僅是用于最基本的通信功能,較少使用游戲、主題美化等APP。
圖6表明,使用高分辨率用戶的特點是經常使用通信聊天、游戲和網絡視頻APP,使用低分辨的用戶則不常用這些APP。顯然,因為高分辨率的手機屏幕更加清楚,更適合打游戲、看視頻及網上聊天。
根據用戶行為特征研究建立監督學習下的預測模型,預測不同特征的用戶更傾向于選擇使用哪類手機,可為手機廠商提供巨大的商業前景。按照Breiman對統計模型的劃分[11,12],本文分別選擇4個數據模型(線性判別分析、二次判別分析、Probit回歸和Logistic回歸)和4個算法模型(決策樹、Bagging、隨機森林和人工神經網絡)。其中,判別分析和Logistic回歸是統計學中常用的分類方法,應用領域非常廣泛,特別在醫學生物學領域和經濟管理等研究領域。需要說明,線性判別需要假定兩類樣本的協方差矩陣相同,而二次判別的假定不同。作為最早的組合數方法之一,Bagging實現了從訓練集中隨機抽取部分樣本生成決策樹[11]。而在此基礎上提出的隨機森林在每個分割節點處隨機選取一定數量的變量而非所有變量,避免某些“強勢”變量支配模型。大量研究表明,隨機森林具有很高的預測準確率,對異常值和噪聲具有很好的容忍度,且不容易出現過擬合[11]。人工神經網絡(NNET)作為一種按照誤差逆傳播算法訓練的多層前饋網絡,具有良好的自適應能力和自學習能力[11,13]。人工神經網絡可以通過比較模型在測試集和訓練集上的分類正確率,以訓練集分類正確率最大處為最佳層數(見表2)。

表2 人工神經網絡的最佳層數
研究表明,對于價格和分辨率,選取1層最為合適,對于品牌和屏幕大小,選取2層最為合適(見表2)。確定好人工神經網絡的最佳層數后,用決策樹(DT)、Bagging(BG)、隨機森林(RF)、人工神經網絡(NNET)、Logistic回歸(LR)、Probit回歸(PR)、線性判別分析(LDA)和二次判別分析(QDA)進行10折交叉驗證,計算測試集和訓練集的平均正確率。
顯然,兩種組合方法(Bagging和隨機森林)在訓練集上表現最優,手機4個屬性的分類正確率幾乎均為1(見表3)。但是,測試集上的分類表現才是手機選擇偏好預測效果的評判標準。研究表明,根據手機價格預測用戶選擇偏好效果最好的模型為Bagging(0.662);根據手機品牌預測用戶選擇偏好效果最好的模型為隨機森林(0.858),Bagging(0.857)的表現不差上下;根據手機屏幕分辨率預測用戶選擇偏好效果最好的模型為Logistic回歸(0.696);根據手機屏幕大小預測用戶選擇偏好效果最好的模型為隨機森林(0.628)。

表3 8個模型在測試集和訓練集的平均正確率
以測試集上分類正確率為評判標準,預測效果最佳者推薦為手機偏好預測模型。4個手機屬性中有2個(手機品牌和手機屏幕大小)推薦隨機森林,3個(手機價格、手機品牌和手機屏幕大小)推薦組合算法。因此,應該推薦組合算法(尤其是隨機森林)作為手機屬性整體意義上的最佳預測模型。4個手機屬性中,手機價格、手機分辨率和手機屏幕大小在8個模型下的分類正確率都不是很高(低于0.700)。而8個模型在手機品牌這一屬性的分類正確率幾乎都在相對較高的水平(80%左右),明顯高于其他屬性。因此,可以考慮根據手機品牌一個屬性對手機選擇偏好進行預測,減少獲取手機價格、手機分辨率和手機屏幕大小信息的任務量,提高預測效率。綜上所述,根據手機品牌,選擇組合算法,依次計算隨機森林和Bagging的分類正確率,兼顧兩種模型的預測效果,為手機生產廠商推測消費者選擇偏好提供指導和借鑒。
智能手機的推廣和普及隨時隨地產生海量的數據信息。這些數據的清洗會直接影響后續研究結論。就用戶ID全集及相關信息表和用戶APP使用信息表的數據提取問題,本文提出一套清洗方案,為大數據清洗提供一種思路。智能手機用戶行為特征分析揭示了不同手機屬性下用戶行為規律:(1)三星用戶更傾向使用系統工具、通信聊天、網絡金融,小米用戶更傾向使用汽車服務、實用工具;(2)高端機用戶較多使用效率辦公、游戲,關注新聞資訊,低端機用戶較少使用APP;(3)大屏手機用戶喜歡玩游戲、網聊和美化手機,小屏手機用戶則對以上行為不感興趣;(4)高分辨率手機用戶較常使用通信聊天、游戲、網絡視頻,低分辨率手機用戶則較少使用上述應用。這些研究結論反饋用戶的真實感受與偏好,明確智能手機未來的研發方向,縮短產品更新速率,也為手機生產和銷售提供指導和借鑒。以用戶行為特征分析為基礎,預測手機選擇偏好面臨模型選擇的挑戰。通過8大模型的對比研究,選擇針對智能手機選擇偏好預測效果最好的模型——隨機森林和Bagging,為智能手機由研發階段投入市場環節提供方法學依據,提升整個智能產業的運營效率,為打造智能生活提供基石。
但是,本文以安卓系統的智能手機用戶為例,沒有涉及蘋果用戶。用戶行為特征與選擇偏好預測的相關結論是否適用于所有智能手機數據,有待進一步研究。
[1]張富崢.基于大規模位置和消費數據的用戶行為理解[D].合肥:中國科學技術大學博士學位論文,2015.
[2]呂苗.基于情境的商品個性化推薦方法研究[D].大連:大連理工大學博士學位論文,2015.
[3]陳康,黃曉宇,王愛寶等.基于位置信息的用戶行為軌跡分析與應用綜述[J].電信科學,2013,(4).
[4]Zhang J P,Wang F Y,Wang K F.Data-driven Intelligent Transportation Systems:A Survey[J].IEEE Transations on Intelligent Transportation Systems,2011,(7).
[5]Cao L,Krumm J.From GPS Traces to a Routable Road Map[R].17thACM SIGSPATIAL International Conference on Advances in Geographic Information Systems,2009.
[6]PabloBellver A K.Extracting Patterns From Location History[R].In Proceedings of the 19th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems,2011.
[7]Leskovec J,Kleinberg J,Faloutsos C.Graphs Over Time:Densification Laws,Shrinking Diameters and Possible Explanations[R].Proceedings of the Eleventh ACM SIGKDD International Conference on Knowledge Discovery in Data Mining,2005.
[8]Crandalla D J,Backstromb L,Cosleyc D.Inferring Social Ties from Geographic Coincidences[J].Proceedings of the National Academy of Sciences of the United States of America,2010,(10).
[9]楊歡.基于聯合分析的智能手機購買偏好研究——以北京地區大學生為樣本[D].北京:北京工商大學碩士論文,2013.
[10]Miller T W.Modeling Techniques in Predictive Analytics With Python and R[M].London:Pearson Education,Inc.,2014.
[11]Hastie T,Tibshirani R,Friedman J.The Elements of Statistical Learning:Data Mining,Inference and Prediction[M].Heidberg:Springer,2001.
[12]Breiman L.Statistical Modeling:The Two Culture[J].Statistical Science,2001,(16).
[13]劉鵬飛.基于神經網絡的數據統計研究[D].西安:西安科技大學碩士論文,2012.