999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

社交網絡簽到地點分類

2017-04-15 15:01:58左甜甜
福建質量管理 2017年4期
關鍵詞:分類用戶語言

左甜甜

(沈陽理工大學 遼寧 沈陽 110159)

?

社交網絡簽到地點分類

左甜甜

(沈陽理工大學 遼寧 沈陽 110159)

隨著4G和Wi-Fi技術的發展,越來越多的定位技術被運用到網絡和智能終端中,對已簽到的地理位置進行分類(如餐廳、商店等)成為基于地理位置的服務應用的重中之重。以Python爬取的新浪微博簽到及互動數據為基礎,以假設的未分類樣本作為對象,將經緯度數據輸入基于Java的改進DBSCAN密度聚類算法,輸出其地理范圍,用基于R語言的機器學習中KNN分類算法建立模型,實現社交網絡簽到地點的分類。

簽到地點;分類;DBSCAN;KNN

位置可以是絕對的地理位置,如經緯度;也可以是相對意義的地理位置,如XX路XX號XX商場附近100米處;還可以是語義上的地理位置,如某某商場。本文以經緯度為切入點,結合已知的簽到地點分類信息對未知的簽到地點進行分類。

其中兩個地點之間的距離采用公式:

C=sin(LatA)*sin(LatB)*cos(LonA-LonB)+cos(LatA)*cos(LatB)

Distance=R*Arccos(C)*Pi/180

LatA、LonA是A點的經度、緯度,LatB、LonB是B點的經度、緯度,R為地球半徑取6371km,Pi取3.14。

一、基于DBSCAN的地點聚類

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)基于密度的聚類算法,它將簇定義為密度相連的點的最大集合,能夠把具有足夠高密度的區域劃分為簇,并可在有“噪聲”的數據中發現任意形狀的聚類。

(一)DBSCAN算法流程

1.如果一個點p的ε鄰域包含多于m個對象,則創建一個p作為核心對象的新簇;

2.尋找并合并核心對象直接密度可達的對象;

3.沒有新點可以更新簇時,算法結束。

(二)對簽到地點數據中的經緯度應用DBSCAN算法

以遼寧省沈陽市的44914個樣本為例,在做過數據清洗之后剩余40967個樣本,取經緯度兩個特征,并將二級分類信息粗劃為一級分類共11種。(參考美團、大眾點評分類信息進行歸類)。由于Java以及R語言對中文處理敏感,因此將一級分類標號1~11替換文字,作為DBSCAN算法的待輸入數據。由于DBSCAN是將候選服務集每一個對象作為核心對象進行密度聚類,但是該應用場景不需要,只需要將未知地點分類的對象作為核心對象即可,所以,應用用Java語言編寫的改進DBSCAN算法。

二、基于KNN的簽到地點分類

KNN(k-NearestNeighbor)鄰近算法,其主要思想是給定測試樣本,基于某種距離度量找出訓練集中與其最靠近的k個訓練樣本,然后基于這k個“鄰居”的信息來進行預測,通常,在分類任務中可使用“投票法”,即選擇這k個樣本中出現最多的類別標記作為預測結果;在回歸任務中可使用“平均法”,即將這k個樣本中出現最多的類別標記作為預測結果;還可基于距離遠近進行加權平均或加權投票,距離越近的樣本權重越大。該場景應用“投票法”。

(一)KNN算法流程

1.計算距離:通常采用歐氏距離與曼哈頓距離。

2.k值的選取:通常取訓練集樣本數量的平方根,或通過實驗的準確率確定k值。

3.準備數據:通常對數據進行0-1標準變換或z-score標準變換。

(二)對未簽到地點數據應用KNN算法

以假設的未知的簽到地點分類樣本作為對象,通過上述DBSCAN算法確定其地理范圍,然后應用基于R語言的KNN算法,通過R語言的CrossTable()命令輸出交叉校驗表,由此表可看出真實分類與預測分類的對比情況以及分類準確率。

通過將遼寧省沈陽市的40967個樣本中抽取4338個樣本作為訓練樣本,將余下樣本分成10份作為測試集進行測試,其平均準確率達到96.7%,由此證明了模型的優秀。

三、分類模型的現實意義

(一)個性化位置推薦。流行位置推薦雖然可以給用戶推薦相應的位置,但這些位置并沒有考慮用戶的個性化信息,即對所有用戶推薦的都是相同的位置。通過找到與自己相似性高的用戶,再根據這些用戶訪問的位置進行推薦網。也可以通過得到位置間的相關性,再根據與用戶經常訪問的位置相關性大的位置進行推薦。

(二)位置活動推薦。當用戶指定一個位置時,可以給用戶推薦在這個位置上發生的最流行的活動,當用戶指定一種活動時,也可以給用戶推薦進行這種活動的最流行的位置叫。可通過矩陣來描述每個位置發生的每種活動的情況,但由于在每個位置可以進行的活動是有限的,而活動的種類卻是非常多的,因此這個矩陣是非常稀疏的,而進行推薦的主要依據就是矩陣中每個元素的數值。

(三)商店位置選擇。為一個新的商店選擇最好的位置是一個很有意義的問題。與傳統的方法不同,基于LBSN中收集到的描述用戶移動的細粒度數據和位置的流行性,給出問題的形式化定義,并從不同特性的角度進行商店位置預測,如密度特性、竟爭特性、區域的流行性等。

[1]楊帆,徐建剛,周亮.基于DBSCAN空間聚類的廣州市區餐飲集群識別及空間特征分析[J].經濟地理,2016,36(10):110-116.

[2]杜蓉.基于豆瓣同城活動的線上線下社交影響研究[J].計算機學報,2014,37(1):238-245.

[3]黃文,王正林.數據挖掘:R語言實戰[M].電子工業出版社,2014:111-120.

[4]BrettLantz.機器學習與R語言[J].2015:82-95.

[5]Java獲取Map地圖經緯度與所處地理名稱相互轉化.http://yegshine.blog.163.com

左甜甜(1993-),女,滿族,遼寧鐵嶺市人,工科碩士,沈陽理工大學通信與信息系統專業,研究方向:移動無線網絡技術。

猜你喜歡
分類用戶語言
分類算一算
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
分類討論求坐標
數據分析中的分類討論
讓語言描寫搖曳多姿
教你一招:數的分類
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
累積動態分析下的同聲傳譯語言壓縮
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 亚洲天堂视频在线播放| 91免费国产高清观看| 国产精品自在自线免费观看| 四虎成人免费毛片| 蜜臀AV在线播放| 精品亚洲麻豆1区2区3区| 亚洲Av激情网五月天| 91久久偷偷做嫩草影院精品| 久久久久亚洲AV成人人电影软件| 2021最新国产精品网站| 最新国产成人剧情在线播放| 亚洲第一成人在线| 毛片一级在线| 国产区91| 97se亚洲综合不卡| 国产精品原创不卡在线| 韩国福利一区| 2021天堂在线亚洲精品专区| 亚洲高清中文字幕| 自偷自拍三级全三级视频| 97精品国产高清久久久久蜜芽 | 中文字幕波多野不卡一区| 精品无码视频在线观看| 国产午夜不卡| 狠狠v日韩v欧美v| 2020最新国产精品视频| 国产精品主播| 乱人伦中文视频在线观看免费| 国产午夜看片| 一本大道香蕉中文日本不卡高清二区 | 多人乱p欧美在线观看| a色毛片免费视频| 国产97色在线| 久久精品一品道久久精品| a亚洲天堂| 亚洲成人在线网| 欧洲精品视频在线观看| 日本午夜三级| 久久香蕉国产线看精品| 精品国产免费观看一区| 国产成人综合亚洲网址| 免费看av在线网站网址| 亚洲日韩在线满18点击进入| 免费不卡在线观看av| 久久综合九色综合97网| 免费A∨中文乱码专区| A级全黄试看30分钟小视频| 无码免费视频| 成人国产一区二区三区| AV无码无在线观看免费| 国产又爽又黄无遮挡免费观看| AV熟女乱| 国产精品刺激对白在线| 国产乱肥老妇精品视频| 91福利国产成人精品导航| 伊人无码视屏| 日本精品αv中文字幕| 亚洲人成人伊人成综合网无码| 亚洲色图另类| 欧美日韩高清在线| 亚洲无码A视频在线| 波多野结衣无码AV在线| 亚洲国产成人精品无码区性色| 亚洲一区二区无码视频| 五月激情综合网| 成人在线亚洲| 国禁国产you女视频网站| 三级毛片在线播放| 啪啪啪亚洲无码| 国内精品伊人久久久久7777人| 狠狠做深爱婷婷综合一区| 久久狠狠色噜噜狠狠狠狠97视色| 午夜激情福利视频| 国产福利小视频高清在线观看| 国产在线无码一区二区三区| 视频一本大道香蕉久在线播放 | 久久国产高潮流白浆免费观看| 久久一本精品久久久ー99| 97青青青国产在线播放| 欧美中文字幕一区| 国产一级妓女av网站| 欧美自慰一级看片免费|