999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據下智能手機用戶行為特征與選擇偏好預測

2018-03-21 10:37:25程豪呂曉玲范超趙昱
統計與決策 2018年2期
關鍵詞:智能手機用戶信息

程豪,呂曉玲,范超,趙昱

(1.中國科學技術協會創新戰略研究院調查統計中心,北京100012;2.中國人民大學a.應用統計科學研究中心;b.統計學院,北京100872;3.QuestMobile&人大統計移動互聯網大數據研究院,北京100015)

0 引言

近年來,“打造智能生活”的理念不斷落實到社會各個領域。作為智能化產業之一,智能手機的迅猛發展,影響并改變著人們的生活方式。智能手機的普及和推廣直接導致海量數據和信息的產生。比如,越來越多的用戶位置信息(GPS軌跡、手機的基站定位數據等)能夠被精確地記錄和獲取[1]。隨著日常運營中生成和積累的用戶行為數據的逐漸堆積龐大,給人類在這些數量龐雜、種類繁多的資源中甄別并獲取有價值的信息資源增加了難度[2]。因此,數據清洗和數據分析顯的更為重要。而針對智能手機監測數據的數據清洗方案鮮有人涉及,如何在盡可能保證信息不受損失的同時,清晰條理的提出一套智能手機數據清洗方案顯得尤為迫切。

目前有關手機大數據的研究主要集中通過手機GPS或通信基站來獲取用戶的具體地理位置經緯度數據,以此來分析用戶的行為軌跡特征,研究的內容主要集中在智能交通和用戶行為兩個方面[3]。在智能交通方面,Zhang等[4]研究數據驅動下的智能交通系統,Cao等[5]根據GPS軌跡繪制電子地圖等;在用戶行為方面,Pablo[6]根據行為理解提煉出用戶行為模式、Leskovec等[7]在考慮時間因素下討論社交關系、David等[8]根據地理信息完成服務推薦研究等。但是,這些研究往往基于用戶在生活中進行用餐、購物、旅游等與物理世界緊密相連的行為[1],將用戶的生活狀態和興趣習慣毫無保留的予以公開,其敏感性導致研究工作受到局限。此外,將研究關注在用戶行為軌跡方面,而非手機屬性本身,對手機智能化推廣指導借鑒意義不大。在智能手機逐步取代傳統功能型手機的大潮中,通過對手機用戶群體現在選擇偏好和潛在需求的深入研究[9],并提供方法學依據,成為智能手機廠商成功打開市場急需思考的問題。

因此,本文提出以APP應用程序為用戶行為標識,分析不同手機屬性下的用戶行為特征,預測選擇偏好,為智能手機監測數據的研究提供一種新思路。

1 數據簡介與清洗

1.1 數據簡介

本文數據來自QM公司的智能手機監測數據。該數據包括2015年2月1日到5月17日內13余萬安卓系統用戶,具備數據量巨大(Volume)、增長速度快(Velocity)、內容多樣化(Variety)、價值密度低(Value)的4V特征。見表1所示。

1.2 數據提取方案設計

本文以Shell、Python為工具[10],根據手機用戶數據特點和分析目的,提取用戶ID全集及相關信息表和用戶APP使用信息表。其中,用戶ID全集及相關信息表包含用戶的地理位置和手機型號數據。這兩項數據是用戶重要的特征標簽,但并非所有的用戶都存在地理位置和手機型號信息記錄,本文提取在106天中同時存在該兩項信息記錄的人群。

用戶ID全集及相關信息表的提取流程如下(流程圖見圖1):

圖1 用戶ID全集及其相關信息表的提取流程圖

第1步:根據106天每天的地理位置數據表,將用戶ID及所在省份合并作為唯一標識,進行word count處理。

第2步:根據106天每天的手機型號信息表,以用戶ID、品牌、型號、尺寸、分辨率為唯一標識進行word count處理。

第3步:將106天的word count結果合并,進而得到在Location表和手機信息表中都出現過的所有用戶ID,并記錄他們被監測的天數、次數。

第4步:106天匯總結果中可能存在用戶ID重復的問題,原因是某用戶在這106天中出入了多個省份,或者是使用過不同的手機。為解決該問題,本文將用戶在106天內停留時間最長的省份作為該用戶的常駐省份,將其使用時間最長的手機型號作為該用戶的常用手機。

第5步:最后根據用戶ID匹配的省份和手機信息,將無法匹配的用戶刪除,最終得到132845名用戶ID全集及相關信息表。

用戶APP使用信息表的提取流程如下(流程圖見圖2):

圖2 APP使用信息表的提取流程圖

第1步:提取每天的App行為監測表,按用戶ID以及打標簽后的APP類別作為唯一識別,匯總每人每天每類APP的使用時長,把不屬于APP分揀表內的APP標記為ELSE類處理。

第2步:利用第1步得到的匯總數據,根據用戶ID將其各類APP使用時間進行連接,進而得到每人每天每類APP使用情況矩陣。該矩陣中每一行代表一個用戶,每一列代表一個APP,每個位點的數據代表該用戶當天使用該APP的時間。

第3步:根據用戶ID將第2步中得到的用戶APP使用情況矩陣進行匯總,進而得到106天每人每類APP總使用時間及使用天數矩陣,最后刪除ELSE類所在的列。

2 用戶行為特征分析

根據數據中的現有信息,以20類APP使用時間(單位:秒)作為用戶行為特征的標識,通過研究手機名牌、價格、屏幕大小和分辨率四個屬性與20類APP間的關系,對用戶進行分類,并為不同類用戶貼標簽。由于任一屬性與APP間的相關系數都較低(大多在0.1以下),故可以推斷變量間不存在顯著的線性關系。考慮到所選模型要既能夠分析數據間的非線性特征,又能對變量間的關系有較強的解釋性,因此選擇決策樹[11]作為分析工具,分析用戶行為特征。需要說明的是,本文以使用人數超過100為標準,從3000多款手機型號中選取240個具體型號(涉及用戶102614人),通過中關村在線(www.zol.com.cn)網站獲得手機價格。

經統計,102614個用戶中三星和小米的使用比重最高(分別占43.7%和22.3%)。這兩個品牌中國市場也極具代表性,不妨以品牌二分類變量(三星、小米)為因變量,20類APP的使用時間為自變量,構建決策樹1(如圖3所示)。102614個用戶中,手機價格的中位數為1400元,不妨定義小于等于1400元的手機為價格相對便宜的低端手機,大于1400元的手機為價格較貴的高端手機,即把手機價格轉換為取值為高端和低端的二分類因變量,構建決策樹2(如下頁圖4所示)。同理,以屏幕尺寸的中位數為5寸為分界,將小于5寸的手機定義為小屏幕手機,大于等于5寸的手機定為大屏幕手機,構建決策樹3(如下頁圖5所示)。設定對角線分辨率<=1500為低分辨率手機,對角線分辨率>1500為高分辨率手機,構建決策樹4(如下頁圖6所示)。

圖3 基于手機品牌構建的決策樹1

圖4 基于手機價格構建的決策樹2

圖5 基于手機屏幕大小構建的決策樹3

圖6 基于手機屏幕分辨率構建的決策樹

圖3表明,區分三星和小米用戶的最主要變量是系統工具(手機自帶的應用、刷機軟件等)。三星手機用戶的特征是對系統工具的使用更頻繁,且非常喜歡使用通信聊天APP(微信、QQ等),會使用網絡金融APP(理財、基金應用等),但對于鬧鐘、天氣預報等實用工具的使用則較少;而部分小米用戶非常喜歡滴滴打車等汽車服務類應用,對手機自帶的系統工具則使用較少,但對鬧鐘、萬年歷等實用工具的使用相對多一些。因此,三星手機的特點是手機內已事先安裝了大量質量較好的APP(如日歷、鬧鐘等功能),用戶已無需再下載安裝這類實用軟件,導致對系統工具使用較多而對實用工具APP使用較少。而有些用戶可能覺得預裝的APP過多,因此會用ROOT系統工具軟件來卸載部分APP。小米手機用戶追求的是手機性價比,注重價格,使用者多為年輕人,他們易于嘗試新鮮事物,因此對滴滴打車這類既方便又省錢的新鮮事物感興趣。

圖4表明,判別用戶使用手機價位的最重要變量是實用工具,使用高端機的用戶特點是喜歡使用效率辦公APP,也會使用新聞資訊APP,相比低端手機用戶,游戲軟件的使用也更為頻繁,但對打車軟件(即汽車服務)使用較少;而低端機型用戶的特點是基本不使用新聞資訊和效率辦公APP,對APP的普遍使用相對較少。因此,中高收入者一般會使用高端機型,他們大多屬于社會精英,注重辦事效率和時事新聞,而不太關注像滴滴打車這種“占便宜”的行為。高端機通常是大屏幕、高分辨率、運行速度快,適合玩游戲。而低端機配置一般,內置軟件的用戶體驗也一般,使用APP會降低手機運行速度,因此對APP整體使用較少。此外,一般老年人會選擇低端機,對APP的整體使用也相對較少。

圖5表明,區分用戶屏幕大小偏好的最重要變量是系統工具,大屏手機用戶更愛玩游戲,愛聊天,使用主題美化APP和效率辦公軟件。而小屏手機則對這些APP使用較少。因此,大屏手機更適合玩游戲,適合聊QQ,也適合通過主題美化軟件為屏幕設定更漂亮的壁紙,且大屏手機可能價格更貴,因此,注重效率的社會精英更青睞這類手機。而小屏手機則不適合玩游戲,不適合長時間看手機屏幕,用戶僅是用于最基本的通信功能,較少使用游戲、主題美化等APP。

圖6表明,使用高分辨率用戶的特點是經常使用通信聊天、游戲和網絡視頻APP,使用低分辨的用戶則不常用這些APP。顯然,因為高分辨率的手機屏幕更加清楚,更適合打游戲、看視頻及網上聊天。

3 手機選擇偏好預測

根據用戶行為特征研究建立監督學習下的預測模型,預測不同特征的用戶更傾向于選擇使用哪類手機,可為手機廠商提供巨大的商業前景。按照Breiman對統計模型的劃分[11,12],本文分別選擇4個數據模型(線性判別分析、二次判別分析、Probit回歸和Logistic回歸)和4個算法模型(決策樹、Bagging、隨機森林和人工神經網絡)。其中,判別分析和Logistic回歸是統計學中常用的分類方法,應用領域非常廣泛,特別在醫學生物學領域和經濟管理等研究領域。需要說明,線性判別需要假定兩類樣本的協方差矩陣相同,而二次判別的假定不同。作為最早的組合數方法之一,Bagging實現了從訓練集中隨機抽取部分樣本生成決策樹[11]。而在此基礎上提出的隨機森林在每個分割節點處隨機選取一定數量的變量而非所有變量,避免某些“強勢”變量支配模型。大量研究表明,隨機森林具有很高的預測準確率,對異常值和噪聲具有很好的容忍度,且不容易出現過擬合[11]。人工神經網絡(NNET)作為一種按照誤差逆傳播算法訓練的多層前饋網絡,具有良好的自適應能力和自學習能力[11,13]。人工神經網絡可以通過比較模型在測試集和訓練集上的分類正確率,以訓練集分類正確率最大處為最佳層數(見表2)。

表2 人工神經網絡的最佳層數

研究表明,對于價格和分辨率,選取1層最為合適,對于品牌和屏幕大小,選取2層最為合適(見表2)。確定好人工神經網絡的最佳層數后,用決策樹(DT)、Bagging(BG)、隨機森林(RF)、人工神經網絡(NNET)、Logistic回歸(LR)、Probit回歸(PR)、線性判別分析(LDA)和二次判別分析(QDA)進行10折交叉驗證,計算測試集和訓練集的平均正確率。

顯然,兩種組合方法(Bagging和隨機森林)在訓練集上表現最優,手機4個屬性的分類正確率幾乎均為1(見表3)。但是,測試集上的分類表現才是手機選擇偏好預測效果的評判標準。研究表明,根據手機價格預測用戶選擇偏好效果最好的模型為Bagging(0.662);根據手機品牌預測用戶選擇偏好效果最好的模型為隨機森林(0.858),Bagging(0.857)的表現不差上下;根據手機屏幕分辨率預測用戶選擇偏好效果最好的模型為Logistic回歸(0.696);根據手機屏幕大小預測用戶選擇偏好效果最好的模型為隨機森林(0.628)。

表3 8個模型在測試集和訓練集的平均正確率

以測試集上分類正確率為評判標準,預測效果最佳者推薦為手機偏好預測模型。4個手機屬性中有2個(手機品牌和手機屏幕大小)推薦隨機森林,3個(手機價格、手機品牌和手機屏幕大小)推薦組合算法。因此,應該推薦組合算法(尤其是隨機森林)作為手機屬性整體意義上的最佳預測模型。4個手機屬性中,手機價格、手機分辨率和手機屏幕大小在8個模型下的分類正確率都不是很高(低于0.700)。而8個模型在手機品牌這一屬性的分類正確率幾乎都在相對較高的水平(80%左右),明顯高于其他屬性。因此,可以考慮根據手機品牌一個屬性對手機選擇偏好進行預測,減少獲取手機價格、手機分辨率和手機屏幕大小信息的任務量,提高預測效率。綜上所述,根據手機品牌,選擇組合算法,依次計算隨機森林和Bagging的分類正確率,兼顧兩種模型的預測效果,為手機生產廠商推測消費者選擇偏好提供指導和借鑒。

4 結論

智能手機的推廣和普及隨時隨地產生海量的數據信息。這些數據的清洗會直接影響后續研究結論。就用戶ID全集及相關信息表和用戶APP使用信息表的數據提取問題,本文提出一套清洗方案,為大數據清洗提供一種思路。智能手機用戶行為特征分析揭示了不同手機屬性下用戶行為規律:(1)三星用戶更傾向使用系統工具、通信聊天、網絡金融,小米用戶更傾向使用汽車服務、實用工具;(2)高端機用戶較多使用效率辦公、游戲,關注新聞資訊,低端機用戶較少使用APP;(3)大屏手機用戶喜歡玩游戲、網聊和美化手機,小屏手機用戶則對以上行為不感興趣;(4)高分辨率手機用戶較常使用通信聊天、游戲、網絡視頻,低分辨率手機用戶則較少使用上述應用。這些研究結論反饋用戶的真實感受與偏好,明確智能手機未來的研發方向,縮短產品更新速率,也為手機生產和銷售提供指導和借鑒。以用戶行為特征分析為基礎,預測手機選擇偏好面臨模型選擇的挑戰。通過8大模型的對比研究,選擇針對智能手機選擇偏好預測效果最好的模型——隨機森林和Bagging,為智能手機由研發階段投入市場環節提供方法學依據,提升整個智能產業的運營效率,為打造智能生活提供基石。

但是,本文以安卓系統的智能手機用戶為例,沒有涉及蘋果用戶。用戶行為特征與選擇偏好預測的相關結論是否適用于所有智能手機數據,有待進一步研究。

[1]張富崢.基于大規模位置和消費數據的用戶行為理解[D].合肥:中國科學技術大學博士學位論文,2015.

[2]呂苗.基于情境的商品個性化推薦方法研究[D].大連:大連理工大學博士學位論文,2015.

[3]陳康,黃曉宇,王愛寶等.基于位置信息的用戶行為軌跡分析與應用綜述[J].電信科學,2013,(4).

[4]Zhang J P,Wang F Y,Wang K F.Data-driven Intelligent Transportation Systems:A Survey[J].IEEE Transations on Intelligent Transportation Systems,2011,(7).

[5]Cao L,Krumm J.From GPS Traces to a Routable Road Map[R].17thACM SIGSPATIAL International Conference on Advances in Geographic Information Systems,2009.

[6]PabloBellver A K.Extracting Patterns From Location History[R].In Proceedings of the 19th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems,2011.

[7]Leskovec J,Kleinberg J,Faloutsos C.Graphs Over Time:Densification Laws,Shrinking Diameters and Possible Explanations[R].Proceedings of the Eleventh ACM SIGKDD International Conference on Knowledge Discovery in Data Mining,2005.

[8]Crandalla D J,Backstromb L,Cosleyc D.Inferring Social Ties from Geographic Coincidences[J].Proceedings of the National Academy of Sciences of the United States of America,2010,(10).

[9]楊歡.基于聯合分析的智能手機購買偏好研究——以北京地區大學生為樣本[D].北京:北京工商大學碩士論文,2013.

[10]Miller T W.Modeling Techniques in Predictive Analytics With Python and R[M].London:Pearson Education,Inc.,2014.

[11]Hastie T,Tibshirani R,Friedman J.The Elements of Statistical Learning:Data Mining,Inference and Prediction[M].Heidberg:Springer,2001.

[12]Breiman L.Statistical Modeling:The Two Culture[J].Statistical Science,2001,(16).

[13]劉鵬飛.基于神經網絡的數據統計研究[D].西安:西安科技大學碩士論文,2012.

猜你喜歡
智能手機用戶信息
智能手機是座礦
智能手機臉
英語文摘(2020年5期)2020-09-21 09:26:30
假如我是一部智能手機
趣味(語文)(2018年8期)2018-11-15 08:53:00
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
智能手機
小說月刊(2014年4期)2014-04-23 08:52:21
主站蜘蛛池模板: 波多野结衣视频一区二区| 四虎永久在线精品国产免费| 国产成人精品高清不卡在线 | 欧美一区二区自偷自拍视频| 国产精品无码一二三视频| 视频二区中文无码| a免费毛片在线播放| 一本大道香蕉高清久久| 伊人成人在线视频| 久久国产亚洲偷自| 国产精品手机视频一区二区| 青青极品在线| 国产日韩精品欧美一区喷| 一区二区三区四区在线| 一级看片免费视频| 日韩精品无码免费一区二区三区| 97视频在线精品国自产拍| 亚洲 欧美 日韩综合一区| 久久久成年黄色视频| 色婷婷色丁香| 无码免费试看| 日本国产精品| 欧美午夜在线视频| 日韩欧美国产三级| 亚洲精品成人片在线观看 | 毛片久久久| 一级成人a毛片免费播放| 久久国产av麻豆| 亚洲AⅤ无码国产精品| 亚洲午夜国产精品无卡| 日韩国产精品无码一区二区三区 | 国产在线视频欧美亚综合| 91在线激情在线观看| 日韩精品资源| 天堂中文在线资源| 国产成人精品高清在线| 久久视精品| 久久国产精品电影| 99草精品视频| 色综合成人| 国产麻豆va精品视频| 欧美国产另类| 黄色网页在线播放| 免费国产好深啊好涨好硬视频| 久久久久久国产精品mv| 刘亦菲一区二区在线观看| 国模私拍一区二区三区| 国产日韩欧美精品区性色| 国产无人区一区二区三区| 久青草免费在线视频| 亚洲天堂.com| 国产真实乱子伦视频播放| 国产中文一区a级毛片视频| 97精品国产高清久久久久蜜芽| 婷婷综合色| 青青草原国产| 亚洲日本中文字幕乱码中文| 麻豆精品视频在线原创| 国产无码精品在线播放| 黑人巨大精品欧美一区二区区| 91蝌蚪视频在线观看| 九九热精品在线视频| 成人综合在线观看| 国产成人综合亚洲欧洲色就色| 亚洲精品国产综合99| 欧美综合区自拍亚洲综合天堂| 秋霞国产在线| 久久永久精品免费视频| 成人在线综合| 亚洲美女高潮久久久久久久| 久久人搡人人玩人妻精品| 久久影院一区二区h| 伊人久久久大香线蕉综合直播| 播五月综合| 无码精油按摩潮喷在线播放| 国产精品免费p区| 丁香六月综合网| 在线观看国产小视频| 亚洲精品中文字幕无乱码| 欧美激情一区二区三区成人| 69视频国产| 欧美色亚洲|