999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LBS簽到事件的數(shù)據(jù)挖掘研究

2015-05-30 10:48:04黃喜發(fā)等
軟件工程 2015年8期
關(guān)鍵詞:數(shù)據(jù)挖掘用戶分析

黃喜發(fā)等

摘 要:隨著社會信息大爆炸和大量數(shù)據(jù)的產(chǎn)生,數(shù)據(jù)挖掘成了廣泛關(guān)注的話題。本文從Check-in簽到事件的數(shù)據(jù)出發(fā),回顧了基于LBS的數(shù)據(jù)分析和挖掘現(xiàn)狀。通過對Gowalla數(shù)據(jù)處理與分析,統(tǒng)計簽到事件的數(shù)據(jù)分布規(guī)律,分析用戶的簽到行為,發(fā)現(xiàn)Check-in的時間戳具有明顯的規(guī)律性,體現(xiàn)了人們的工作休閑活動特點,進(jìn)一步探討了簽到數(shù)據(jù)在用戶的行為習(xí)慣分析及興趣發(fā)現(xiàn)等方面的應(yīng)用。

關(guān)鍵詞:數(shù)據(jù)挖掘;地理位置服務(wù);簽到

中圖分類號:TP311.52 文獻(xiàn)標(biāo)識碼:A

Abstract:Along with the social information explosion as well as the production of large amounts of data,data mining has become prevalent interest.This paper reviews the development and application of check-in data based on LBS.We draw check-in data statistical distribution and analyze users behavior based on Gowalla data processing and analysis.The conclusions based on experiment indicate that the obvious regularity of check-in time stamp reflects individual's work and leisure activities.In addition,the paper has also discussed how to utilize check-in data in the field of user's behavior analysis and interest discovery.

Keywords:data mining;location-based service;check-in

1 引言(Introduction)

近年來,數(shù)據(jù)挖掘引起了學(xué)術(shù)界和產(chǎn)業(yè)界的極大關(guān)注,其主要原因是隨著社會發(fā)展產(chǎn)生的大量數(shù)據(jù),缺乏有效的利用,迫切需要從這些數(shù)據(jù)中發(fā)掘有用的隱含信息和知識。因此,在數(shù)據(jù)量飛速增長背景下,如何從大量數(shù)據(jù)中挖掘有用的信息是一個相當(dāng)熱門的研究話題。

目前,國外流行諸多基于Loction-base Service(LBS,基于地理位置服務(wù))服務(wù)的應(yīng)用軟件,例如Foursquare、Facebook、Twitter、Gowalla和Brightkite等。國內(nèi),也有互聯(lián)網(wǎng)公司開發(fā)基于位置的在線應(yīng)用,例如,騰訊QQ空間、微信朋友圈和陌陌等。這些軟件或者應(yīng)用程序能夠記錄用戶活動或者事件發(fā)生的地理位置信息,通過用戶分享將這些信息推送給朋友用戶。

2 基于簽到數(shù)據(jù)分析的研究現(xiàn)狀(Review onanalysis based on check-in)

Check-in是基于LBS的應(yīng)用服務(wù),它把分享的信息從虛擬世界延伸到現(xiàn)實,并且提供真正和參與者密切相關(guān)的有用信息,這使得LBS展現(xiàn)了其巨大的吸引力和潛在價值[1]。在簽到(Check-in)事件的分析應(yīng)用方面,有研究者在用戶價值理論的基礎(chǔ)上,融合技術(shù)接受模型,探討了用戶價值、感知易用性與服務(wù)體驗等因素對用戶持續(xù)使用意愿的影響進(jìn)行了分析[2]。基于LBS的社交網(wǎng)絡(luò)用戶,是比較愿意分享簽到數(shù)據(jù)和自己的活動情況,并希望能通過簽到提高更好的服務(wù)體驗[3]。北京大學(xué)的陰紅志通過挖掘時間信息、空間信息以及時空信息,提出了一種結(jié)合上下文信息的用戶模型和推薦算法,用來改善社會化媒體中的推薦效果和提高用戶體驗水平[4]。武漢大學(xué)的曹勁舟還提出一種基于微博數(shù)據(jù)的方法,對其簽到事件的POI數(shù)據(jù)更新開展了研究工作[5]。基于位置簽到數(shù)據(jù)還被用于及時準(zhǔn)確地獲取城市層次性空間知識,有學(xué)者提出了一種基于簽到屬性顯著度的差異,從位置簽到數(shù)據(jù)中提取城市分層地標(biāo)的方法,從位置簽到數(shù)據(jù)中的簽到次數(shù)、簽到用戶數(shù)和用戶影響因子等方面,討論影響POI顯著度的因素[6]。胡慶武提出一種基于社交網(wǎng)絡(luò)位置簽到數(shù)據(jù)的城市熱點探測與商圈挖掘方法,對位置簽到數(shù)據(jù)進(jìn)行了空間自相關(guān)檢驗,發(fā)現(xiàn)武漢市商圈分布與城市規(guī)劃商圈具有強相關(guān)性[7]。還有學(xué)者在傳統(tǒng)基于社交網(wǎng)絡(luò)的好友推薦算法的基礎(chǔ)上,結(jié)合用戶的歷史行為的GPS地理簽到信息,提出用戶社交位置距離的概念用于改善推薦效果[8]。

本文針對國外基于LBS的社交網(wǎng)絡(luò)Gowalla的Check-in數(shù)據(jù)進(jìn)行了深度挖掘和分析,探討了用戶的行為習(xí)慣及朋友關(guān)系發(fā)現(xiàn)等問題。

3 基于Gowalla數(shù)據(jù)的統(tǒng)計分析(Statistical analysis on Gowalla)

本文采用的Gowalla數(shù)據(jù)集,由斯坦福大學(xué)的研究學(xué)者從Gowalla網(wǎng)站爬取,并進(jìn)行了初步整理,數(shù)據(jù)下載網(wǎng)址:http://snap.stanford.edu/data/loc-gowalla.html,數(shù)據(jù)以txt文件格式存放。每個基本數(shù)據(jù)項包含用戶ID,簽到時間,簽到經(jīng)緯度,簽到地點ID等數(shù)據(jù)項。

3.1 數(shù)據(jù)預(yù)處理

斯坦福大學(xué)公開的Gowalla數(shù)據(jù)集,文件較大,用MATLAB或者Java語言編程讀取,存在內(nèi)存溢出等問題。本文采用SQL語句讀取數(shù)據(jù)記錄存入MySQL數(shù)據(jù)庫。首先,在數(shù)據(jù)讀入后,刪除極個別可能出現(xiàn)重大誤差的數(shù)據(jù)。其次,根據(jù)預(yù)處理的數(shù)據(jù),編寫SQL語句命令進(jìn)行分類統(tǒng)計,統(tǒng)計的結(jié)果導(dǎo)入Excel。然后,根據(jù)相關(guān)的數(shù)據(jù)分析結(jié)果和規(guī)律,可以進(jìn)行相關(guān)的深度挖掘分析。

預(yù)處理后的數(shù)據(jù),是對原數(shù)據(jù)的數(shù)據(jù)項進(jìn)行了拆分,方便后期處理分析。數(shù)據(jù)包含字段:用戶ID、簽到時間、星期、時間點、緯度、經(jīng)度和地點編號。

3.2 統(tǒng)計用戶的Check-in數(shù)的概率分布

數(shù)據(jù)集合的概率分布統(tǒng)計,可以更直觀的了解整個數(shù)據(jù)大致分布和基本情況。先將所有的基本用戶數(shù)和用戶編號寫入數(shù)據(jù)庫的基本表,根據(jù)基本表統(tǒng)計簽到的數(shù)量及其概率分布,進(jìn)一步可以得到每個簽到次數(shù)的分布。

根據(jù)數(shù)據(jù)的分布可以得到散點圖如圖1所示。

根據(jù)平均簽到次數(shù)對應(yīng)的人數(shù),可以計算出前面百分比量級的人平均Check-in次數(shù),如圖2所示。

3.3 統(tǒng)計用戶在不同時段的簽到習(xí)慣

通過統(tǒng)計用戶在每個小時的時間段內(nèi)的簽到次數(shù),如圖3所示,可以初步了解用戶的簽到習(xí)慣。

從圖4的結(jié)果分析,白天簽到的地方有一定的聚集時間段,比如說黃昏的時候,簽到的人數(shù)比較多,即大多數(shù)用戶選擇簽到的時間。

簽到高峰期在傍晚,可以推斷大多數(shù)人是在下班時間進(jìn)行工作簽到,而簽到低谷在早晨,這與現(xiàn)實生活情況比較吻合,在早上剛起床的時間段內(nèi)簽到人數(shù)比較少,隨著時間推移,活動的人數(shù)逐漸增多,簽到數(shù)量也在逐漸增大。

當(dāng)然還可以按照月份統(tǒng)計,如圖5和圖6根據(jù)兩年內(nèi)(按照12個月統(tǒng)計)的簽到次數(shù)大致可以看出簽到次數(shù)在9月達(dá)到了簽到的高峰期,金秋9月天氣逐漸轉(zhuǎn)涼,正是出行的絕佳時機,大部分人選擇出行,并在出行的過程中簽到。

3.4 根據(jù)簽到的地理位置分析用戶習(xí)慣

根據(jù)簽到數(shù)據(jù)中的地理位置,按照地理的緯度將全球以南北回歸線和南北極圈做分割。將簽到地點大致分為三個板塊,即南北極圈內(nèi),回歸線到南北極圈之間,南北回歸線之間。基本操作是選擇簽到地點在南極圈和北極圈內(nèi)的簽到用戶(即Check-in緯度大于66.5度或者小于-66.5度),具體分布詳見表格1。

從表1結(jié)果分析,有1%的用戶在南北極圈里面進(jìn)行過簽到,2%的用戶在南北回歸線之間簽過,說明這部分人具有探險精神,喜歡旅行與探險,并希望將自己獨特的簽到地點分享給他人,希望與周圍人分享自己的旅行路線。

3.5 根據(jù)簽到的時間段統(tǒng)計和分析

工作日和雙休日的簽到情況反映用戶的作息規(guī)律。在周一到周五的11:00—13:00時間段,即中午午休時間段,分析公共交通場所的簽到數(shù)據(jù),可以推斷出擁堵程度。根據(jù)統(tǒng)計的簽到分布規(guī)律,可以找出的工作地點周圍的交通樞紐地帶。

因為周末可能有些人不上班,統(tǒng)計工作日比較有代表性。通過對排名的統(tǒng)計,可以推斷出在哪些交通樞紐比較擁擠。排名靠前的前三位詳見表2。

4 基于統(tǒng)計數(shù)據(jù)的挖掘與分析(Data mining and analysis on statistical data)

4.1 興趣相同朋友發(fā)現(xiàn)

根據(jù)用戶的簽到地點的地理位置信息,分析地點的現(xiàn)實社會屬性,可以發(fā)現(xiàn)具有相同興趣的朋友。例如,在南極有簽到信息的用戶ID為117874,在2010-09-21T12:53:52Z到達(dá)某地(經(jīng)緯度為-90,-139.266667),記錄見下表3。

然后根據(jù)簽到地點,查詢ID為33843的用戶在之前去過南極,他同用戶117874可能具有諸多相同興趣愛好,他們交流去南極的心得體會,并可以交朋友,分享經(jīng)驗等。

在他到達(dá)南極的時候,可以根據(jù)簽到時間判斷是否有人跟他在同一天簽到的,如果有的話,且是同一天到達(dá)南極,可以聯(lián)系另一個人,共同探險,使得在南極這個氣候惡劣的地方能找到志趣相投的同伴。

4.2 根據(jù)星期來推斷工作地點和休閑地點

根據(jù)原始數(shù)據(jù)將簽到時間映射到的具體星期值,通過分析每個星期的簽到數(shù),結(jié)合相應(yīng)的信息,可以得出一個人基本的活動規(guī)律和生活圈子,以ID編號0的用戶為例。

可以看到用戶0在地點420315(506 Congress Avenue、Austin、TX78701美國)簽到最多,然后根據(jù)地點編號420315找出所有在此處簽到的人。

經(jīng)過對于之后的數(shù)據(jù)進(jìn)行驗證,同樣在位置420315(506 Congress Avenue、Austin、TX78701美國)簽到的人有7、31、52、103749、10290、10300等。

然而10152在420315處只簽到了1次,可以判斷出,0上班的公司的地點編號為420315,但是用戶10152到0的公司交流過,并在公司使用Gowalla簽到。

而用戶66在420315處簽到次數(shù)為47次,并且是66簽到最多的地方,所以可以初步斷定用戶66和用戶0在同一棟辦公樓上班,極有可能就是同事,并且之間認(rèn)識的可能性很大。

5 結(jié)論(Conclusion)

本文通過對簽到信息的分析,從數(shù)據(jù)上得到一些常規(guī)的統(tǒng)計信息,例如查看用戶簽到最多的地方,用戶簽到的時間、地點、頻率的統(tǒng)計,這些基本的統(tǒng)計有助于了解數(shù)據(jù)的總體分布情況。根據(jù)對Check-in的時間戳進(jìn)行分析,發(fā)現(xiàn)簽到信息體現(xiàn)了人們的工作和休閑活動的規(guī)律特點。從多個用戶的共同簽到地點,可以推斷他們之間可能存在著共同的興趣和愛好。這些分析結(jié)果,可以為將來的用戶在指定旅行規(guī)劃路線時,進(jìn)行個性化推薦奠定基礎(chǔ)。例如,在旅游出發(fā)前,查詢某旅游地點A信息,根據(jù)已有的好友中哪些已經(jīng)在A簽到過,從而進(jìn)行推薦。還可以根據(jù)簽到的地點,得出可能的工作地點和家庭地點,從而推薦周邊餐廳或休閑場所等一系列信息。

參考文獻(xiàn)(References)

[1] 石安.切客盛行,誰將暢享LBS大餐?[J].軟件工程師,2010,(11):34-35.

[2] 周永杰.LBS簽到服務(wù)中隱私關(guān)注及影響因素研究[D].大連海事大學(xué),2013:2-9.

[3] 徐國虎,孫凌,許芳.網(wǎng)絡(luò)用戶移動簽到服務(wù)持續(xù)使用意愿研究[J].中南財經(jīng)政法大學(xué)學(xué)報,2013,(4):131-138.

[4] 陰紅志.社會化媒體中若干時空相關(guān)的推薦問題研究[D].北京大學(xué),2014:6-12.

[5] 曹勁舟,武紅宇.基于微博位置簽到數(shù)據(jù)的POI更新方法[J].地理空間信息,2013,11(2):15-18.

[6] 王明,等.基于位置簽到數(shù)據(jù)的城市分層地標(biāo)提取[J].計算機學(xué)報,2014,37(123):1-11.

[7] 胡慶武,王明,李清泉.利用位置簽到數(shù)據(jù)探索城市熱點與商圈[J].測繪學(xué)報,2014,(3):314-321.

[8] 劉乾.基于社交網(wǎng)絡(luò)和地理位置信息的好友推薦方法研究[D].浙江大學(xué),2013:16-21.

作者簡介:

黃喜發(fā)(1994-),男,本科生.研究領(lǐng)域:Web數(shù)據(jù)挖掘.

劉興旺(1991-),男,碩士生.研究領(lǐng)域:機器學(xué)習(xí).

孫 媛(1984-),女,碩士,實習(xí)研究員.研究領(lǐng)域:計算機輔助語料庫分析.

徐 科(1981-),男,博士,講師.研究領(lǐng)域:機器學(xué)習(xí),社交網(wǎng)絡(luò).

猜你喜歡
數(shù)據(jù)挖掘用戶分析
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
隱蔽失效適航要求符合性驗證分析
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
電力系統(tǒng)及其自動化發(fā)展趨勢分析
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
如何獲取一億海外用戶
主站蜘蛛池模板: 婷五月综合| 久久人午夜亚洲精品无码区| 欧美午夜视频| 亚洲嫩模喷白浆| 99性视频| 亚洲精品无码在线播放网站| 国产精品久久自在自线观看| 欧美日韩国产成人高清视频| 亚洲天堂高清| 婷婷六月激情综合一区| 国产精品99一区不卡| 色135综合网| 日本一区二区不卡视频| 国产午夜人做人免费视频中文 | 亚洲综合九九| 久久精品无码一区二区国产区| 一级毛片免费不卡在线视频| 欧美日在线观看| 色婷婷丁香| 日本欧美在线观看| 福利在线不卡| 精品国产中文一级毛片在线看| 亚洲国产午夜精华无码福利| 国产国语一级毛片在线视频| 亚洲中久无码永久在线观看软件| 婷婷色中文网| 久青草免费在线视频| 国产成人你懂的在线观看| 中文字幕2区| 亚洲最新网址| 亚洲人成电影在线播放| 国产一区二区人大臿蕉香蕉| 亚洲av无码久久无遮挡| 亚洲一区二区三区国产精华液| 亚洲一区色| 99在线视频精品| 东京热一区二区三区无码视频| 久久鸭综合久久国产| 成人午夜视频免费看欧美| 亚洲日本www| 性喷潮久久久久久久久| 97超碰精品成人国产| 天天色天天操综合网| 亚洲黄色成人| 免费国产在线精品一区| YW尤物AV无码国产在线观看| 精品国产一区二区三区在线观看 | 欧美区国产区| 国产欧美日韩另类| 国产大片黄在线观看| 亚洲国产中文精品va在线播放| 欧美啪啪网| 日本中文字幕久久网站| 亚洲成人网在线观看| 啪啪永久免费av| 美臀人妻中出中文字幕在线| 欧美伊人色综合久久天天| 亚洲女人在线| 亚洲熟妇AV日韩熟妇在线| 朝桐光一区二区| 亚洲区欧美区| 97精品久久久大香线焦| 亚洲区欧美区| 成人午夜免费视频| 国产三级视频网站| 国产第二十一页| 亚洲人成色77777在线观看| 亚洲大尺度在线| 亚洲男人在线| 99热最新在线| 日本亚洲欧美在线| 免费观看国产小粉嫩喷水| 91精品视频播放| av天堂最新版在线| 久久久久亚洲AV成人网站软件| 视频二区欧美| 免费不卡视频| 99免费视频观看| 国内视频精品| 女同久久精品国产99国| 亚洲欧洲日本在线| 无码一区二区三区视频在线播放|