999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LDA模型和聚類算法的城市熱點推薦與應用

2018-09-05 10:19:04王詩童劉美玲孫立研
智能計算機與應用 2018年3期

王詩童 劉美玲 孫立研

文章編號: 2095-2163(2018)03-0136-04中圖分類號: 文獻標志碼: A

摘要: 關鍵詞: application of city hot sites

(College of Information and Computer Engineering, Northeast Forestry University, Harbin 150040, China)

Abstract: According to the functions of short text posting and sign-in to elicit the details post by the users. Cutting the vast short texts and geography positions to the phrases by LDA(Latent Dirichlet Allocation) Model, in order to count up the frequency of every phrase, and then obtain the hot geography positions, as well as label them on the map. With the Spatial Distance Clustering Algorithm, optimizing the recommendation function when the users offer their situations and restrict the searching conditions. And the system shows the details of some active sites, such as shopping malls, hot sites and restaurants to recommend to the users.

Key words:

基金項目: 國家自然科學基金(61702091);省自然科學基金(F2015037); 東北林業大學大學生創新訓練計劃項目(201610225196)。

作者簡介: 王詩童(1996-),女,本科生,主要研究方向:數據分析; 劉美玲(1981-),女,博士,講師,CFF高級會員,IEEE CS會員,ACM會員,主要研究方向:自然語言處理、數據挖掘、數據分析;孫立研(1994—),男,碩士研究生,主要研究方向:林業信息工程、空間數據挖掘。

通訊作者: 收稿日期: 引言

隨著計算機技術的進步和Web2.0的日益完善,社交媒體在不斷向前發展。在這其中,新浪微博是較為廣泛應用和流行的社交媒體軟件。與其他社交軟件相比,新浪微博具有信息發布方式多,信息傳播速度快,交互性強等特點。因此,利用新浪微博上用戶發布的文本進行數據分析和挖掘亦可以獲取大量潛在的且有價值的信息。

本文利用新浪微博開放平臺獲取的用戶數據,采用LDA模型和多距離空間聚類算法,收集微博數據,挖掘出其中的地理位置信息和相應的用戶評價,獲取用戶感興趣的內容,在地圖中形成定位點并標注,并向用戶進行推薦。

1相關工作

1.1文本主題聚類的方法

基于文本主題的聚類,顧名思義,就是以文本為主題,即描述對象的標準,將數據聚集成不同的類[1]。Ivan Titov等[2]人提出一種情感總結的文本和方面評分的聯合模型來挖掘文本中相關聯的主題,提高情感分析結果的準確性和高效性。Chao Shen等[3]人提出基于參與者的事件提取方法zooms-in 來偵測和捕捉與參與者相關的突發性和連續性的重要子事件。劉振鹿等[4]人利用LDA模型對潛在語義進行分類,并分成高頻區、中頻區、低頻區,再將高頻和中頻區語義進行聚類。李國等[5]利用基于加權的LDA模型挖掘到文本中潛在主題分布和不同主題中詞語分布,結合K-Means 算法對文本進行聚類,比傳統聚類算法得到更好的聚類效果。汪進祥[6]利用LDA模型從語義上挖掘微博話題,使用增量聚類方法發現話題個數,從而提高話題發現率。邢長征等[7]利用耦合空間LDA算法線性融合計算文本相似度,優化閾值敏感問題,使文本聚類精度更高。

1.2LDA模型的提出

LDA算法是一種3層貝葉斯概率主題模型。概率模型是通過對中文分詞分布規律的觀察,實現對相似分布規律詞集的聚類[8]。3層貝葉斯模型的每一層次的一個項包含下一層次主題的集合,主題的下一層次包含的是詞語的集合。pw|d=pw|t*pt|d(1)對于文檔集合D,在公式(1)中,D中每個文檔d均為一個單詞序列。LDA以文檔集合D作為輸入,對每個D中的文檔d,對應到不同topic(主題)集合T的概率θd< pt1,..., ptk>。對每個T中的topic t,生成不同單詞的概率φt< pw1,…, pwm>,通過當前的θd和φt得出文檔d中出現單詞w的概率。其中p(t|d)利用θd計算得到,p(w|t)利用φt計算得到。

根據θd和φt,計算文檔中的一個單詞對應任意一個topic時的p(w|d),根據結果更新這個單詞所對應的topic。若更新該單詞對應的topic,就會反過來影響θd和φt。

1.3文本處理與中文分詞

文本信息即文字信息、數字信息和符號信息的集合。本文中被處理的源數據是經過新浪微博開放平臺獲取的XML格式文件,即有格式文本。本文所處理的文本是文本信息,即為文本的主體信息。

詞是“最小的能獨立運用的語言單位”[9]。中文分詞(Chinese Word Segmentation)是指將組成句子的漢字序列用分隔符加以區分,切分成一個個單獨的詞[10]。同時,在自然語言處理領域中,中文分詞也是其中一種較為關鍵的基礎技術,其性能的優劣對于中文信息處理尤為重要[11]。本文采用的中文分詞算法是基于字典或詞庫匹配的分詞算法,所采用的字典是“庖丁解牛”字典庫。

1.4空間地理位置與多距離空間聚類

地理位置是用來描述地理事物時間和空間關系的物理量。由圖1可知,按照地理位置的相對性和絕對性來劃分,一般分為自然地理位置、相對地理位置和絕對地理位置等3種。在本文中,采用絕對地理位置描述所有坐標點,即利用空間位置坐標點的經緯度信息來確定某個地點在地圖上的實際位置。

空間聚類有助于識別空間目標分布的密集和稀疏區域,進而發現全局空間的空間分布模式,以及空間目標間人們感興趣的、潛在的相互關系[12]。本文應用的多距離空間聚類算法(The Spatial Distance Clustering Algorithm)主要是按照相似的測度或一定的測量距離在較大型的空間數據集中標記出聚類或是能體現稠密程度的區域。具體做法是在空間中選擇n個對象作為類或簇的中心,對剩余的對象計算其到各個類中心的距離,并將其加入到離這個對象最近的一個類中,反復迭代計算各個類的平均值,并將其作為中心,直至目標函數收斂。

2文本及位置信息分詞模型

2.1文本及位置信息分詞模型應用

在LDA模型中,分析計算得到的結果是詞頻。詞頻可以被看作是微博的一項元數據特征,而微博具有多項元數據[13]。在獲取微博短文本數據后,采用JGibbLDA v1.0對文本數據進行中文分詞訓練,利用基于字典或詞庫匹配的分詞算法對每個單詞進行匹配。訓練后的文本如圖2所示。

2.2實驗分析與總結

采用LDA模型對獲取到的用戶所發文本信息及簽到位置數據進行中文分詞訓練,得到了各個文本集分詞后的結果及其詞頻。如圖3所示,該中文分詞模型能有效地將文本集進行分詞訓練,表明該結果集的詞組包含微博用戶簽到的地理位置,文本內容,并將分詞的詞頻計算出來,由此可以確定在下一節中地理位置的定位及其評價,從而向用戶推薦周邊娛樂活動。

3基于地圖的位置定位與搜索

3.1基于地圖的定位與標注

在新浪微博上獲取的用戶簽到的地理位置信息,其信息包括地址、經緯度、地址信息描述等。在實際地圖上標注時采用百度地圖開放平臺進行操作。本文利用API中的批量地址解析功能,將信息中經緯度的具體數值轉換成具體地址,并將其和描述(title)添加到示例地圖中,形成可視點。如圖4所示,根據中心定位位置,在地圖上顯示周邊一定區域內的熱點位置及商家名稱信息。

3.2基于位置的搜索功能

基于位置的搜索服務是基于地理位置服務中很重要的一類服務,這種服務將搜索引擎和地理信息系統相結合,為用戶提供想搜索場所的具體信息[14]。在從微博短文本中獲取地理位置數據并將其標注在地圖中后,會將其展示給用戶。具體做法是,由用戶填入篩選條件,如城市、區域、熱點位置等后,提交表單進行搜索,由系統給出推薦方案,按照用戶提供的定位信息或需求,給出一定距離內的周邊區域中商場、景點、飯店等娛樂場所的推薦。用戶可以點擊地圖中具體的標注點來檢視商家的詳細信息。

3.3多距離空間聚類算法的應用

本文應用多距離空間聚類算法實現熱點位置的推薦,在輸入示例地點后搜索得到的商家位置結果集呈現無明顯特征的分布,即沒有集中在某個區塊供用戶來選擇。除此之外,在測試樣例中,搜索得到的結果并顯示在地圖上的時間很慢,存在信息過載的問題,降低了用戶體驗。為了解決上述問題,可以將搜索的結果確定在一定范圍內,實現效率更高的檢索,這樣就可避免出現不切合實際的推薦結果,且能夠減少計算量,從而縮短系統的響應時間[15]。因此,提出一種改進的空間聚類算法來優化現有的搜索算法,提高搜索結果的準確率和效率。

聚類算法的思路繁雜,可以通過劃分、層次、模型、密度等方法進行探索[16]。基于劃分的空間聚類算法有K-means、K-medoids、ClARANS等算法。在本實驗中,由于要預先確定用戶的位置,即聚類的中心,再向聚類中心的周圍進行輻射,獲取熱點位置的推薦,恰好符合基于劃分的空間聚類的思想。因此,實驗采用K-means算法完成空間聚類,對已有算法進行改進和優化。K(r)=A∑ni-1∑nj-1w(i,j)πn(n-1) ,i≠j(2)式中,r為期望半徑;A為整個研究區域的面積;w(i,j)表示權重,可理解為在指定區域內的實體間的聚集系數;n為區域內所有實體點的總個數。K(r)=ρ-1E(3)式中,ρ表示一個給定的區域密度,E表示挑選的事件,實驗中挑選的事件為周邊推薦。在區域密度ρ一定的情況下,K(r)值越大,該事件越大,說明該點的聚集程度越大。

4實驗分析與結果

4.1整體開發框架

平臺功能框架如圖5所示。其中包括:數據文件上傳模塊、數據分析模塊、地圖顯示模塊和用戶推薦平臺模塊。

4.2基于K-means算法對搜索功能的優化

在確定最優聚集效果時,考慮的是函數自變量,即最佳區域半徑r,根據經驗,先選取若干個半徑值作為候選值,再逐一測試,得出最優聚集效果,便可得到優化后的空間聚類結果集。實驗中分別輸入1 km、0.7 km、0.5 km、0.3 km進行計算,結果如圖6所示。

由圖6可以看出,在以經緯度(126.623 839,45.779 025)為中心坐標點進行計算時,若半徑r過大,包含過多無效區域和遠距離推薦,得不到周邊區域熱點位置的推薦的初衷,若半徑r過小,則造成疏漏大量有價值的坐標點。因此,認為當r近似等于0.5 km時,空間中所有實體點聚類關系較密切,聚集程度較高,契合度較好。

5結束語

本文以基于地理位置的熱點推薦為研究目標,以地理位置信息為基礎,實現了城市熱點推薦的平臺開發。利用新浪微博開發API接口獲取的用戶數據,結合開源的LDA模型進行中文分詞,并進行詞頻統計處理,將地理位置信息和空間相結合,進而轉換成在地圖上參考的可視化實體。實現了向用戶推薦周邊熱點地理位置的功能。優勢在于結合多距離空間聚類算法檢驗某一區域內結果集的聚集程度,計算出最優的空間聚集距離,優化搜索功能,提高了搜索的速度,增大了查詢的精確度。

利用互聯網中社交媒體的數據信息進行文本信息處理,具有重要的意義。隨著當今“互聯網+”的發展,對于互聯網的數據分析和挖掘這一領域有著巨大的價值和前景,利用互聯網的海量數據進行分析、挖掘和創新,可以研究出更多更有意義的應用,實現對數據更大的價值體現。參考文獻

[1] 張夢笑. 基于LDA模型的觀點聚類研究[D].山西大學,2012.

[2] Ivan T, Mcdonald R. A joint model of text and aspect ratings for sentiment summarization[J]. PROC. ACL-08: HLT, 2008:308--316.

[3] Shen C,Liu F,Weng F, et al. A Participant-based Approach for Event Summarization Using Twitter Streams[C].//HLT-NACCL,2013:1152-1162.

[4] 劉振鹿,王大玲,馮時,等. 一種基于LDA的潛在語義區劃分及Web文檔聚類算法[J]. 中文信息學報,2011,25(1):60-65,70.

[5] 李國,張春杰,張志遠. 一種基于加權LDA模型的文本聚類方法[J]. 中國民航大學學報,2016,34(2):46-51.

[6] 汪進祥. 基于主題模型的微博話題挖掘[D]. 北京郵電大學,2015.

[7] 邢長征,趙全穎,王偉,等. 基于優化密度的耦合空間LDA文本聚類算法研究[J]. 計算機應用研究,2017,34(7):1966-1970.

[8] 張培晶,宋蕾. 基于LDA的微博文本主題建模方法研究述評[J]. 圖書情報工作,2012,56(24):120-126.

[9] 漢語信息處理詞匯01部分:基本術語(GB12200.1-90)6[S]. 中國標準出版社,1991.

[10]韓冬煦,常寶寶. 中文分詞模型的領域適應性方法[J]. 計算機學報,2015,38(2):272-281.

[11] 斯惟,徐立恒,陳玉博,等. 基于表示學習的中文分詞算法探索[J]. 中文信息學報,2013,27(5):8-14.

[12]曾紹琴,李光強,廖志強. 空間聚類方法的分類[J]. 測繪科學,2012,37(5):103-106.

[13]唐曉波,向坤. 基于LDA模型和微博熱度的熱點挖掘[J]. 圖書情報工作,2014,58(5):58-63.

[14]崔宏鵬. 移動定位社交服務中好友與位置推薦框架[D]. 哈爾濱工程大學,2013.

[15]陳紅亮,周少華. 移動商務中基于定位的個性化推薦系統研究[J]. 統計與決策,2008,21:71-73.

[16]于磊. 基于地理位置信息的關聯規則挖掘研究與應用[D]. 北京工業大學,2015.

主站蜘蛛池模板: 国产成人精品免费av| 热re99久久精品国99热| 国产杨幂丝袜av在线播放| 亚洲自偷自拍另类小说| 欧美另类第一页| 国产又色又刺激高潮免费看| 在线观看国产网址你懂的| 无码又爽又刺激的高潮视频| 欧美一区二区三区不卡免费| 毛片视频网址| 精品夜恋影院亚洲欧洲| 国产精品亚洲精品爽爽| 亚洲一区二区黄色| 久久人妻系列无码一区| 欧美久久网| 人妻丰满熟妇AV无码区| 国产理论一区| 日日拍夜夜操| 少妇精品久久久一区二区三区| 国内精品视频在线| 青青操国产| 青青操国产视频| 国产精品第| 97视频精品全国免费观看| 在线日本国产成人免费的| 国内精品久久九九国产精品 | 另类专区亚洲| 欧洲免费精品视频在线| 久久99精品久久久久久不卡| 亚洲av无码片一区二区三区| 国产超碰在线观看| 欧美www在线观看| 91精品啪在线观看国产91九色| 黄色a一级视频| 国产成人精品一区二区| 精品国产免费人成在线观看| 亚洲中文字幕久久精品无码一区| 老司国产精品视频91| 久精品色妇丰满人妻| 国产香蕉国产精品偷在线观看 | 成人免费视频一区二区三区 | 91精品综合| 91亚洲精选| 日韩av无码DVD| 亚洲av中文无码乱人伦在线r| 一区二区三区在线不卡免费| 日韩免费视频播播| 久久国产精品无码hdav| 99精品影院| 日韩av在线直播| 第九色区aⅴ天堂久久香| 专干老肥熟女视频网站| 亚洲欧美综合精品久久成人网| 国产免费羞羞视频| 99中文字幕亚洲一区二区| 久久久久国色AV免费观看性色| 亚洲国产清纯| 国产精品不卡永久免费| 国产第一页第二页| 日韩免费中文字幕| 在线观看av永久| 国产精品三级av及在线观看| 好吊色国产欧美日韩免费观看| 午夜精品一区二区蜜桃| 久久精品人人做人人爽| 国产原创自拍不卡第一页| 国产在线精品网址你懂的| 国产在线一区二区视频| 日本欧美视频在线观看| 国产麻豆精品手机在线观看| 国产成人精品一区二区| 欧美综合区自拍亚洲综合绿色| 亚洲精品第一页不卡| 五月天在线网站| 国产jizz| 亚洲经典在线中文字幕| 亚洲综合色婷婷| 国产美女一级毛片| 1769国产精品视频免费观看| 91网址在线播放| 色妞永久免费视频| 色婷婷综合在线|