999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

社交網絡簽到地點分類

2017-04-15 15:01:58左甜甜
福建質量管理 2017年4期
關鍵詞:分類用戶語言

左甜甜

(沈陽理工大學 遼寧 沈陽 110159)

?

社交網絡簽到地點分類

左甜甜

(沈陽理工大學 遼寧 沈陽 110159)

隨著4G和Wi-Fi技術的發展,越來越多的定位技術被運用到網絡和智能終端中,對已簽到的地理位置進行分類(如餐廳、商店等)成為基于地理位置的服務應用的重中之重。以Python爬取的新浪微博簽到及互動數據為基礎,以假設的未分類樣本作為對象,將經緯度數據輸入基于Java的改進DBSCAN密度聚類算法,輸出其地理范圍,用基于R語言的機器學習中KNN分類算法建立模型,實現社交網絡簽到地點的分類。

簽到地點;分類;DBSCAN;KNN

位置可以是絕對的地理位置,如經緯度;也可以是相對意義的地理位置,如XX路XX號XX商場附近100米處;還可以是語義上的地理位置,如某某商場。本文以經緯度為切入點,結合已知的簽到地點分類信息對未知的簽到地點進行分類。

其中兩個地點之間的距離采用公式:

C=sin(LatA)*sin(LatB)*cos(LonA-LonB)+cos(LatA)*cos(LatB)

Distance=R*Arccos(C)*Pi/180

LatA、LonA是A點的經度、緯度,LatB、LonB是B點的經度、緯度,R為地球半徑取6371km,Pi取3.14。

一、基于DBSCAN的地點聚類

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)基于密度的聚類算法,它將簇定義為密度相連的點的最大集合,能夠把具有足夠高密度的區域劃分為簇,并可在有“噪聲”的數據中發現任意形狀的聚類。

(一)DBSCAN算法流程

1.如果一個點p的ε鄰域包含多于m個對象,則創建一個p作為核心對象的新簇;

2.尋找并合并核心對象直接密度可達的對象;

3.沒有新點可以更新簇時,算法結束。

(二)對簽到地點數據中的經緯度應用DBSCAN算法

以遼寧省沈陽市的44914個樣本為例,在做過數據清洗之后剩余40967個樣本,取經緯度兩個特征,并將二級分類信息粗劃為一級分類共11種。(參考美團、大眾點評分類信息進行歸類)。由于Java以及R語言對中文處理敏感,因此將一級分類標號1~11替換文字,作為DBSCAN算法的待輸入數據。由于DBSCAN是將候選服務集每一個對象作為核心對象進行密度聚類,但是該應用場景不需要,只需要將未知地點分類的對象作為核心對象即可,所以,應用用Java語言編寫的改進DBSCAN算法。

二、基于KNN的簽到地點分類

KNN(k-NearestNeighbor)鄰近算法,其主要思想是給定測試樣本,基于某種距離度量找出訓練集中與其最靠近的k個訓練樣本,然后基于這k個“鄰居”的信息來進行預測,通常,在分類任務中可使用“投票法”,即選擇這k個樣本中出現最多的類別標記作為預測結果;在回歸任務中可使用“平均法”,即將這k個樣本中出現最多的類別標記作為預測結果;還可基于距離遠近進行加權平均或加權投票,距離越近的樣本權重越大。該場景應用“投票法”。

(一)KNN算法流程

1.計算距離:通常采用歐氏距離與曼哈頓距離。

2.k值的選取:通常取訓練集樣本數量的平方根,或通過實驗的準確率確定k值。

3.準備數據:通常對數據進行0-1標準變換或z-score標準變換。

(二)對未簽到地點數據應用KNN算法

以假設的未知的簽到地點分類樣本作為對象,通過上述DBSCAN算法確定其地理范圍,然后應用基于R語言的KNN算法,通過R語言的CrossTable()命令輸出交叉校驗表,由此表可看出真實分類與預測分類的對比情況以及分類準確率。

通過將遼寧省沈陽市的40967個樣本中抽取4338個樣本作為訓練樣本,將余下樣本分成10份作為測試集進行測試,其平均準確率達到96.7%,由此證明了模型的優秀。

三、分類模型的現實意義

(一)個性化位置推薦。流行位置推薦雖然可以給用戶推薦相應的位置,但這些位置并沒有考慮用戶的個性化信息,即對所有用戶推薦的都是相同的位置。通過找到與自己相似性高的用戶,再根據這些用戶訪問的位置進行推薦網。也可以通過得到位置間的相關性,再根據與用戶經常訪問的位置相關性大的位置進行推薦。

(二)位置活動推薦。當用戶指定一個位置時,可以給用戶推薦在這個位置上發生的最流行的活動,當用戶指定一種活動時,也可以給用戶推薦進行這種活動的最流行的位置叫。可通過矩陣來描述每個位置發生的每種活動的情況,但由于在每個位置可以進行的活動是有限的,而活動的種類卻是非常多的,因此這個矩陣是非常稀疏的,而進行推薦的主要依據就是矩陣中每個元素的數值。

(三)商店位置選擇。為一個新的商店選擇最好的位置是一個很有意義的問題。與傳統的方法不同,基于LBSN中收集到的描述用戶移動的細粒度數據和位置的流行性,給出問題的形式化定義,并從不同特性的角度進行商店位置預測,如密度特性、竟爭特性、區域的流行性等。

[1]楊帆,徐建剛,周亮.基于DBSCAN空間聚類的廣州市區餐飲集群識別及空間特征分析[J].經濟地理,2016,36(10):110-116.

[2]杜蓉.基于豆瓣同城活動的線上線下社交影響研究[J].計算機學報,2014,37(1):238-245.

[3]黃文,王正林.數據挖掘:R語言實戰[M].電子工業出版社,2014:111-120.

[4]BrettLantz.機器學習與R語言[J].2015:82-95.

[5]Java獲取Map地圖經緯度與所處地理名稱相互轉化.http://yegshine.blog.163.com

左甜甜(1993-),女,滿族,遼寧鐵嶺市人,工科碩士,沈陽理工大學通信與信息系統專業,研究方向:移動無線網絡技術。

猜你喜歡
分類用戶語言
分類算一算
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
分類討論求坐標
數據分析中的分類討論
讓語言描寫搖曳多姿
教你一招:數的分類
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
累積動態分析下的同聲傳譯語言壓縮
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: a级毛片网| 国产第三区| 亚洲国产第一区二区香蕉| 天堂网亚洲系列亚洲系列| 亚洲精品无码在线播放网站| 亚洲伦理一区二区| 福利一区三区| 国产青榴视频| 亚洲精品在线91| 91人人妻人人做人人爽男同| 日韩A∨精品日韩精品无码| 亚洲浓毛av| 国产精品一老牛影视频| 91精品人妻一区二区| 好紧太爽了视频免费无码| 亚洲av无码专区久久蜜芽| 国产成人a在线观看视频| 欧美日在线观看| 亚洲成在线观看| 亚洲国产天堂久久综合| 亚洲天堂久久| 一本大道AV人久久综合| 久久公开视频| 国产精品区视频中文字幕| 国产精品一区二区不卡的视频| AV不卡在线永久免费观看| 久青草国产高清在线视频| 日韩精品亚洲一区中文字幕| 中文字幕 日韩 欧美| 久久9966精品国产免费| 丰满少妇αⅴ无码区| 久久香蕉国产线看观看式| 99精品国产高清一区二区| 91福利在线看| 亚洲综合亚洲国产尤物| 国产区在线观看视频| 成人在线天堂| 國產尤物AV尤物在線觀看| 国产全黄a一级毛片| 欧美啪啪精品| 四虎精品黑人视频| 91久久国产成人免费观看| 99热这里只有精品国产99| 国产免费a级片| 激情网址在线观看| 久久综合色天堂av| 亚洲欧洲日韩综合| 欧美成人看片一区二区三区 | 国产传媒一区二区三区四区五区| 亚洲精品波多野结衣| 久一在线视频| 萌白酱国产一区二区| 国产一级无码不卡视频| 亚洲天堂视频网| 国内精品久久人妻无码大片高| 国产在线98福利播放视频免费| 玖玖精品在线| 2021天堂在线亚洲精品专区| 911亚洲精品| 亚洲青涩在线| 亚洲无码37.| 亚洲欧美成人网| 色欲色欲久久综合网| 亚洲成人高清在线观看| 精品国产自在在线在线观看| 国产在线视频福利资源站| 超碰91免费人妻| 99久久精品免费看国产电影| 日本不卡在线| 日韩精品久久无码中文字幕色欲| 中文无码精品a∨在线观看| 久久综合五月| 欧美日韩精品一区二区在线线 | 夜精品a一区二区三区| 国产福利观看| 国产在线欧美| 亚洲高清无在码在线无弹窗| 日韩AV无码免费一二三区| 国产a在视频线精品视频下载| 伦伦影院精品一区| 波多野结衣一区二区三区四区视频 | 亚洲精品第一页不卡|