999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于微博簽到數據的出行行為分析

2018-01-03 09:45:02聶琦
山東科學 2017年6期
關鍵詞:用戶分析研究

聶琦

(北京交通大學交通運輸學院,北京 100044)

基于微博簽到數據的出行行為分析

聶琦

(北京交通大學交通運輸學院,北京 100044)

應用Python爬蟲程序,通過新浪API端口爬取了新浪微博2012年的地點簽到數據,共計5 028 980條。將這些數據按城市劃分,共分為340個地級以上的城市或地區。通過統計發現,簽到次數最多的3個城市為北京、上海和廣州,說明微博用戶更多地活躍在這三個城市。進一步通過相關性分析發現,這些城市的微博用戶簽到流量和當地GDP呈一定的相關性,說明經濟發展水平會影響用戶的旅行行為。此外,本文還按照用戶的出行流量對各大城市進行了聚類劃分,進一步印證了經濟發達城市對微博用戶簽到的吸引會高于其他經濟欠發達的城市。

微博簽到;經濟水平;聚類劃分;相關性

隨著互聯網的高速發展,中國的網民數量持續增長。尤其是最近幾年智能手機的普及,更促進了網民數量的激增。據中國互聯網絡信息中心發布的報告,中國網民規模逾七億,其中手機網民占比達95.1%。網民在利用網絡的同時,其活動也會被記錄,尤其是其出行行為。這些用戶出行數據,已在國外得到有效的利用。例如,Mok等[1]使用Twitter的數據,研究了社交和用戶空間位置的相互關系。Goldenberg等[2]利用Facebook的用戶簽到數據,研究了社交和空間移動行為之間的相互影響。Dhar等[3]利用Gowalla和Brightkite的用戶簽到數據,研究了用戶的社交關系對用戶出行距離的影響。這些研究充分說明了社交簽到數據的重要性,同時深化了人們對于人類出行行為的理解。

除了對簽到數據的處理和運用,研究人員也使用了其他類型的數據,并做出了不少有價值的研究。Jiang等[4]利用出租車的GPS定位數據,研究了人類整體流量分布的影響因素。González等[5]利用手機通訊數據,研究了個人移動模式下基于位置跟蹤的時間分辨方式,并描述了一個普遍的流動模式,這對城市規劃和交通預測具有十分重要的理論意義。Ni等[6]利用SIR傳染病模型模擬了人類旅行行為在時空上的標度律分布。這些研究均對人類出行行為做出了扎實的基礎理論驗證。韓華瑞等[7]利用微博簽到數據研究了湖北省各地區的空間差異,發現武漢市的簽到占比超過七成。王明等[8]提出了一種根據簽到屬性顯著度差異來提取城市分層地標的方法,并以北京市的位置簽到數據為例對該方法進行了進一步的論證。除了對實際出行位置的研究之外,也有人站在傳播學的角度對微博進行了分析,例如,曹玖新等[9]分析了新浪微博的信息轉發與傳播特征。目前,對微博位置數據的使用多局限于小區域內的移動研究,微博用戶在全國范圍內的移動行為研究相對較少。本文在中國大陸這一空間尺度上,對微博用戶在不同城市之間的出行行為進行了研究。

1 數據處理

本文使用Python爬蟲程序,通過新浪提供的API中微博地理位置信息接口[10],爬取新浪微博用戶2012年1月—12月的簽到數據。該數據包含用戶出行的起訖點位置編號和經緯度等信息,如表1所示。經過匿名化處理,提取出本文所需的OD量及地點信息。再利用百度地圖提供的API,將各用戶的簽到地點按照不同的城市地區(地級及以上)進行劃分,于是得到不同城市間的OD量數據。

表1 數據樣本

2 微博簽到數據的空間分布

由于微博的用戶量較大,且簽到數據帶有位置信息,所以使用微博數據來反映人的空間出行行為是比較可靠的。圖1顯示的是微博用戶在340個城市里有簽到記錄的OD出行圖,圖中連線表示OD的遷移,連線的粗細表示OD量的多少。由圖1可以看出,北京、上海、廣州三地之間的出行流量巨大,可以形成一個明顯的三角形。另外,成都和重慶對于這三地的出行流量貢獻也很大。考慮到以上幾個城市的人口和經濟量,本文猜測用戶在遠距離出行行為中的地點選擇可能與當地的人口和經濟有關。

為了更好地說明用戶遷移的OD量分布密度,本文將用戶出行某地的OD量相加,然后以密度圓的形式標度在地圖上,如圖2所示,圖中圓圈的大小和顏色代表該地的流量多少??梢院苊黠@地看出,用戶出行多集中于北京、上海、廣州這些大型城市之中。另外,各省省會城市的用戶出行流量一般多于其他城市的出行流量。

圖1 微博用戶出行行為OD圖Fig.1 OD diagram of Weibo users' travel behavior

圖2 微博用戶出行OD密度圖Fig.2 OD density map of Weibo users

圖3 微博用戶出行雙對數分布Fig.3 Log-log distribution of Weibo users

3 數據分析

3.1 統計分析

本文將微博用戶的出行量數據放到雙對數坐標上,橫軸表示流量,縱軸表示概率??梢院苊黠@地看到,用戶出行量在雙對數坐標系下存在肥尾分布(圖3),這說明大多數的用戶都集中出沒于少數幾個地點,而剩余的大多數地點都只吸引了小部分人的出行。實際上,經過統計可以發現,北京、上海、廣州等大城市對微博用戶的吸引明顯更大一些,所以短時的旅行行為發生在這些大城市里也不足為奇。

3.2 貢獻度分析

貢獻度分析又稱為帕累托分析,其原理是帕累托法則(Pareto principle),由意大利經濟學家維弗雷多·帕累托(Vilfredo Pareto)于1897年在觀察19世紀英國人財富收益模式時發現。這一法則又稱二八定律(The 80/20 Rule),揭示了生活中的不平衡現象。本文將不同的地點表示在橫軸上,將不同區域的流入量及其累計概率表示在縱軸上,作出微博用戶出行行為的流量吸引帕累托圖,如圖4所示??梢钥吹?,在人類出行行為中,這種不平衡關系依然存在。具體地說,前十幾個省份地區吸引了百分之八十以上的微博用戶,其中廣東、北京、上海、江蘇和浙江位于微博用戶吸引量前五的省市,這幾個省市除了是GDP比較靠前的省市外,同時也是網絡普及率較高的幾個省市。于是,有理由考慮網絡普及率(微博簽到率)和GDP之間的相關關系是否為正相關的關系。

圖中長條表示流入量的頻數,圓點表示累積概率圖4 微博用戶出行行為的帕累托圖Fig.4 Pareto diagram of Weibo users' travel behavior

3.3 聚類分析

聚類分析是在沒有給定任何劃分類別的條件下,按照數據相似度對樣本分組的一種方法,是一種無監督學習方法[11-12]。K-means聚類是一種典型的空間聚類方法,是將研究對象的空間距離指標依照某種相似性準則劃分到若干組中去,然后使組內的距離最小化,同時使組間的距離最大化。通常來說,空間聚類算法是建立在各種距離上的,如歐幾里得距離、曼哈頓距離、閔可夫斯基距離等。

其中,閔可夫斯基距離為:

(1)

式中,i=(xi1,xi2,…,xin)和j=(xj1,xj2,…,xjn)為兩個n維的數據對象;q為正整數,q=1時d(i,j)即為曼哈頓距離,q=2時d(i,j)則是歐幾里得距離。

簇Ei的聚類中心ei計算公式為:

(2)

式中,Ei表示第i個簇;x表示樣本;ei為第i個簇的聚類中心;ni為第i個簇中樣本的個數。

目標函數為:

(3)

式中,K表示聚類簇的個數。

算法流程:

(1)首先從N個樣本數據中隨機抽取K個對象作為初始聚類的中心;

(2)依次計算樣本到各聚類中心的距離(由于涉及與經緯度相關的實際坐標,故本文采用歐幾里得距離進行計算),然后使各個對象劃分至歐氏距離最近的聚類當中;

(3)當所有的對象完成之后,再次計算K個聚類的中心;

(4)和上一次計算得到的K個聚類中心作比較,若聚類中心發生變化,則返回(2)步,否則進入(5)步;

(5)當質心不再發生移動時,停止迭代,然后輸出聚類的結果。

K-means算法最核心的思想就是通過迭代,將數據對象劃分到不同的簇中,以期目標函數(3)最小化。

本文以各城市的吸引量為聚類指標,將新浪微博用戶在各城市的簽到地點進行聚類分析??紤]到分類數(如果分類太少則無法區分開來,如果分類太多則會無意義),所以最終決定按照各城市的吸引量將各城市分為五類。其中,第I類和第II類表示了微博簽到中絕大多數吸引力較小的城市,對微博用戶吸引力較大的城市都集中在第V類。如圖5所示,這五類城市正好區分了對出行用戶的吸引力大小。圖中可以看出,北京、上海、廣州等地被劃為同一類,和圖1中直觀的出行流量相呼應,同時也驗證了簽到用戶流量很大一部分集中在這三地之間流動。

圖5 微博用戶出行數據聚類結果Fig.5 Clustering results of Weibo users' travel data

3.4 輪廓系數

輪廓系數是用來評價聚類效果好壞的參數。對于任意數據對象i,其輪廓指標s(i)定義為

(4)

式中,a(i)是同一簇中數據對象i的平均差異,即向量i到同簇內所有其他點的“距離”(不相似程度)的平均;b(i)是i對其他簇的最小平均差異,即向量i到其他簇中所有點平均“距離”的最小值。

(4)式也可以更直觀地寫成

(5)

從上面的定義式可以清楚地看到,輪廓系數s(i)的值是-1~1之間的某個數,即s(i)∈[-1,1]。s(i)越大,說明聚類效果越好,反之越差。s(i)的值越趨近于1,則說明內聚度和分離度都相對比較好;當s(i)的值小于0時,說明與其簇內元素的平均距離間隔小于最近其余的簇,這說明此時的聚類效果還有待提高。

根據以上定義,本文將上面聚類的結果帶入進行計算,求得此類情況下的輪廓系數值為0.879 158 192 628。該值較為接近1,這說明內聚度、分離度都相對比較好,也就是說聚類效果良好。

3.5 相關性分析

相關性分析是對兩個或兩個以上的變量元素進行分析計算,最后得出衡量這兩個變量因素的相關密切程度,從而對這些變量進行評價分析的方法。由上述的聚類分析結果可以看出,大多數經濟較為發達的城市被聚為了一類,而經濟量較低的一些城市也被聚成一類。于是,本文推斷經濟量可能是影響城市吸引量的重要因素。

本文利用微博用戶遷入數據,對各城市的用戶流入量與該地的GDP做了相關性分析。相關系數的絕對值越大,相關性越強。通常認為,相關系數越接近于1或-1,相關度越強;相關系數越接近于0,相關度越弱。

如表2所示,本文將微博用戶的簽到數據和各城市GDP數據導入SPSS軟件進行皮爾森相關性檢驗,在0.01的置信水平下算出其Pearson相關系數為0.79。通常情況下,Pearson相關系數取值區間在0~0.2之間時,可認為變量之間極弱相關或無相關;當取值在0.2~0.4之間時,可認為變量之間弱相關;當取值在0.4~0.6之間時,可認為變量之間中等程度相關;當取值在0.6~0.8之間時,可認為變量之間強相關;當取值在0.8~1.0之間時,可認為變量之間極強相關。綜上,本文認為GDP和微博用戶的流入量具有強相關性,即目的地的經濟水平能夠影響用戶的出行。

表2 微博用戶流入量和GDP的皮爾森相關性分析

注:**表示在0.01水平(雙側)上顯著相關。

4 結論

本文利用微博用戶2012年的簽到數據,先進行初步的統計分析,發現大部分移動的流量集中于少數幾個特定的城市之間,這說明微博用戶的旅行行為在空間上呈現出一定的聚集性,表明這幾個特定的城市比其他城市的吸引力要大。實際上,在中國三十多個省級地區中,微博用戶的旅行行為基本集中在廣東、北京、上海、江蘇等省市地區內。為了更直觀地觀察,本文按照吸引量對各城市進行K-means聚類,發現北京、上海、廣州、深圳等地被劃分到同一類型當中,這進一步印證了微博用戶的這種空間聚集性跟城市的發展有一定聯系。通過進一步對各城市的GDP和吸引量做相關性分析,發現這兩個變量的Pearson相關性系數為0.79,在強相關的范圍內,因而可以認為城市的吸引量和當地的經濟發展存在著強相關關系。之前已有的研究多是在較小的空間尺度下進行的,且都是基于距離的出行行為分析,本文重點分析經濟量對人類移動行為的影響,發現在大空間尺度下的旅行行為中,人們的出行所受到的吸引和經濟水平具有強相關關系。一般來說,城市的吸引力除了經濟因素之外,還有其他很多的影響因素。由于數據來源的局限,同時也為了簡便,本文單獨選擇了經濟量進行分析。未來如果能夠獲取更多樣化的數據集,可以結合經濟水平、教育水平、基礎設施水平等指標進行更全面的分析。

[1]MOK D, WELLMAN B, CARRASCO J. Does distance matter in the age of theInternet?[J]. Urban Studies, 2010, 47(13):17-20.

[2]GOLDENBERG J, LEVY M. Distance is not dead: Social interaction and geographical distance in the Internet Era[EB/OL]. [2017-03-02].http://api.ning.com/files/4SGMTw61ZJMWGCZrfDfIcbVhygzhq1TMfCWF2-IuyyK2svuoxwOk9P8zY8eTi8MGpXkwBwuTOCagp3jP1OCHanpbC0cpA8-E/0906.3202.pdf.

[3]DHAR S, VARSHNEY U. Challenges and business models for mobile location-based services and advertising[J]. Communications of the ACM, 2011, 54(5):121-128.

[4]JIANG B, YIN J, ZHAO S. Characterizing the human mobility pattern in a large street network[J]. Physical Review E Statistical Nonlinear & Soft Matter Physics, 2009, 80(2):021136.

[6]NI S, WENG W. Impact of travel patterns on epidemic dynamics in heterogeneous spatialmetapopulation networks[J]. Physical Review E Statistical Nonlinear & Soft Matter Physics, 2009, 79(1):016111.

[7]韓華瑞, 代偵勇. 湖北省微博簽到活動空間差異分析——以新浪微博為例[J]. 測繪與空間地理信息, 2016,39(10):159-162.

[8]王明, 胡慶武, 李清泉,等. 基于位置簽到數據的城市分層地標提取[J]. 計算機學報, 2016, 39(2):405-413.

[9]曹玖新, 吳江林, 石偉,等. 新浪微博網信息傳播分析與預測[J]. 計算機學報, 2014,37(4):779-790.

[10]張晶. 網絡地理信息應用中用戶行為數據獲取與分析研究[D]. 鄭州:解放軍信息工程大學, 2015.

[11]王駿, 王士同, 鄧趙紅. 聚類分析研究中的若干問題[J]. 控制與決策, 2012, 27(3):321-328.

[12]白雪. 聚類分析中的相似性度量及其應用研究[D]. 北京:北京交通大學, 2012.

TravelbehavioranalysisbasedonWeibocheck-indata

NIEQi

(SchoolofTrafficandTransportation,BeijingJiaotongUniversity,Beijing100044,China)

∶Using Python crawler, the location check-in data of Sina Weibo in the year of 2012 were crawled through the Sina API port. The data set consisted of 5,028,980 records. These data were divided into 340 cities or regions above prefecture level. Data statistics showed that there was the largest number of check-in in 3 cities: Beijing, Shanghai and Guangzhou, which revealed that Weibo users were more active there. Furthermore, through correlation analysis, it was found that the Weibo users′ attendance flow in these cities was related to the local GDP, indicating that the level of city economic development would affect the users′ travel behavior. In addition, this paper also divided the major cities into clusters according to the users' trip volume, further confirming that the developed cities were more attractive to Weibo users than other economically underdeveloped cities.

∶Weibo check-in; economic level; clustering; correlation

10.3976/j.issn.1002-4026.2017.06.014

2017-05-17

國家自然科學基金(71525002)

聶琦(1992—),男,碩士研究生,研究方向為交通運輸系統科學、人類移動性。E-mail: nie_qi@bjtu.edu.cn

U491

A

1002-4026(2017)06-0087-07

猜你喜歡
用戶分析研究
FMS與YBT相關性的實證研究
遼代千人邑研究述論
隱蔽失效適航要求符合性驗證分析
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
電力系統及其自動化發展趨勢分析
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 国产精品视频观看裸模| 色悠久久综合| 日韩午夜片| 久久人人爽人人爽人人片aV东京热| 午夜福利在线观看入口| 亚洲无限乱码| 午夜免费小视频| 亚洲中文无码av永久伊人| 亚洲综合婷婷激情| 国产日韩精品一区在线不卡| 国产鲁鲁视频在线观看| 国产成人艳妇AA视频在线| 国产精品成人不卡在线观看| 青草视频久久| 国产一级在线观看www色| 四虎成人精品在永久免费| 国产成人精品免费视频大全五级| lhav亚洲精品| 国产成人综合日韩精品无码首页| 亚洲一区二区视频在线观看| 亚洲欧洲日产国产无码AV| 四虎国产成人免费观看| 四虎AV麻豆| 激情综合激情| 色婷婷国产精品视频| 亚洲日韩第九十九页| 国产精品手机在线播放| 国产99视频在线| 亚洲视频欧美不卡| 亚洲av无码牛牛影视在线二区| 一区二区三区在线不卡免费 | 亚洲AV无码乱码在线观看裸奔| 狠狠躁天天躁夜夜躁婷婷| 亚洲综合18p| 免费女人18毛片a级毛片视频| 国产自在线播放| 国产成人综合亚洲欧美在| 亚洲综合在线最大成人| 日韩欧美国产综合| 国产成人精品一区二区不卡| 欧美精品在线免费| 国产主播在线一区| 亚洲欧美日韩成人在线| 亚洲综合专区| 国产一级裸网站| 55夜色66夜色国产精品视频| 尤物视频一区| 2019年国产精品自拍不卡| 日韩高清一区 | 国产精品页| 黄片一区二区三区| 亚洲自拍另类| 久久久久国产精品嫩草影院| 日韩在线中文| 国产精品13页| 久久精品aⅴ无码中文字幕| 香蕉国产精品视频| 日韩天堂网| 国产成人一区| 欧美人在线一区二区三区| 制服无码网站| 先锋资源久久| 亚洲欧美在线精品一区二区| 亚洲aaa视频| 亚洲欧美成人在线视频| 狠狠色婷婷丁香综合久久韩国| 亚洲天堂网站在线| 人妻夜夜爽天天爽| 亚洲天堂视频网| 老司国产精品视频91| 很黄的网站在线观看| 国产丰满成熟女性性满足视频| 性色在线视频精品| 国产精品美人久久久久久AV| 欧美日韩国产综合视频在线观看| 亚洲视频三级| 久久先锋资源| 69免费在线视频| 色婷婷狠狠干| 国产人成乱码视频免费观看| 99热这里只有精品免费| 日韩第八页|