基于LDA模型和聚類算法的城市熱點推薦與應用

2018-09-05 10:19:04王詩童劉美玲孫立研

智能計算機與應用 2018年3期

王詩童劉美玲孫立研

文章編號： 2095-2163（2018）03-0136-04中圖分類號：文獻標志碼： A

摘要：關鍵詞： application of city hot sites

（College of Information and Computer Engineering， Northeast Forestry University， Harbin 150040， China）

Abstract： According to the functions of short text posting and sign-in to elicit the details post by the users. Cutting the vast short texts and geography positions to the phrases by LDA（Latent Dirichlet Allocation） Model， in order to count up the frequency of every phrase， and then obtain the hot geography positions， as well as label them on the map. With the Spatial Distance Clustering Algorithm， optimizing the recommendation function when the users offer their situations and restrict the searching conditions. And the system shows the details of some active sites， such as shopping malls， hot sites and restaurants to recommend to the users.

Key words：

基金項目：國家自然科學基金（61702091）；省自然科學基金（F2015037）；東北林業大學大學生創新訓練計劃項目（201610225196）。

作者簡介：王詩童（1996-），女，本科生，主要研究方向：數據分析；劉美玲（1981-），女，博士，講師，CFF高級會員，IEEE CS會員，ACM會員，主要研究方向：自然語言處理、數據挖掘、數據分析；孫立研（1994—），男，碩士研究生，主要研究方向：林業信息工程、空間數據挖掘。

通訊作者：收稿日期：引言

隨著計算機技術的進步和Web2.0的日益完善，社交媒體在不斷向前發展。在這其中，新浪微博是較為廣泛應用和流行的社交媒體軟件。與其他社交軟件相比，新浪微博具有信息發布方式多，信息傳播速度快，交互性強等特點。因此，利用新浪微博上用戶發布的文本進行數據分析和挖掘亦可以獲取大量潛在的且有價值的信息。

本文利用新浪微博開放平臺獲取的用戶數據，采用LDA模型和多距離空間聚類算法，收集微博數據，挖掘出其中的地理位置信息和相應的用戶評價，獲取用戶感興趣的內容，在地圖中形成定位點并標注，并向用戶進行推薦。

1相關工作

1.1文本主題聚類的方法

基于文本主題的聚類，顧名思義，就是以文本為主題，即描述對象的標準，將數據聚集成不同的類[1]。Ivan Titov等[2]人提出一種情感總結的文本和方面評分的聯合模型來挖掘文本中相關聯的主題，提高情感分析結果的準確性和高效性。Chao Shen等[3]人提出基于參與者的事件提取方法zooms-in 來偵測和捕捉與參與者相關的突發性和連續性的重要子事件。劉振鹿等[4]人利用LDA模型對潛在語義進行分類，并分成高頻區、中頻區、低頻區，再將高頻和中頻區語義進行聚類。李國等[5]利用基于加權的LDA模型挖掘到文本中潛在主題分布和不同主題中詞語分布，結合K-Means 算法對文本進行聚類，比傳統聚類算法得到更好的聚類效果。汪進祥[6]利用LDA模型從語義上挖掘微博話題，使用增量聚類方法發現話題個數，從而提高話題發現率。邢長征等[7]利用耦合空間LDA算法線性融合計算文本相似度，優化閾值敏感問題，使文本聚類精度更高。

1.2LDA模型的提出

LDA算法是一種3層貝葉斯概率主題模型。概率模型是通過對中文分詞分布規律的觀察，實現對相似分布規律詞集的聚類[8]。3層貝葉斯模型的每一層次的一個項包含下一層次主題的集合，主題的下一層次包含的是詞語的集合。pw|d=pw|t*pt|d（1）對于文檔集合D，在公式（1）中，D中每個文檔d均為一個單詞序列。LDA以文檔集合D作為輸入，對每個D中的文檔d，對應到不同topic（主題）集合T的概率θd< pt1，...， ptk>。對每個T中的topic t，生成不同單詞的概率φt< pw1，…， pwm>，通過當前的θd和φt得出文檔d中出現單詞w的概率。其中p（t|d）利用θd計算得到，p（w|t）利用φt計算得到。

根據θd和φt，計算文檔中的一個單詞對應任意一個topic時的p（w|d），根據結果更新這個單詞所對應的topic。若更新該單詞對應的topic，就會反過來影響θd和φt。

1.3文本處理與中文分詞

文本信息即文字信息、數字信息和符號信息的集合。本文中被處理的源數據是經過新浪微博開放平臺獲取的XML格式文件，即有格式文本。本文所處理的文本是文本信息，即為文本的主體信息。

詞是“最小的能獨立運用的語言單位”[9]。中文分詞（Chinese Word Segmentation）是指將組成句子的漢字序列用分隔符加以區分，切分成一個個單獨的詞[10]。同時，在自然語言處理領域中，中文分詞也是其中一種較為關鍵的基礎技術，其性能的優劣對于中文信息處理尤為重要[11]。本文采用的中文分詞算法是基于字典或詞庫匹配的分詞算法，所采用的字典是“庖丁解牛”字典庫。

1.4空間地理位置與多距離空間聚類

地理位置是用來描述地理事物時間和空間關系的物理量。由圖1可知，按照地理位置的相對性和絕對性來劃分，一般分為自然地理位置、相對地理位置和絕對地理位置等3種。在本文中，采用絕對地理位置描述所有坐標點，即利用空間位置坐標點的經緯度信息來確定某個地點在地圖上的實際位置。

空間聚類有助于識別空間目標分布的密集和稀疏區域，進而發現全局空間的空間分布模式，以及空間目標間人們感興趣的、潛在的相互關系[12]。本文應用的多距離空間聚類算法（The Spatial Distance Clustering Algorithm）主要是按照相似的測度或一定的測量距離在較大型的空間數據集中標記出聚類或是能體現稠密程度的區域。具體做法是在空間中選擇n個對象作為類或簇的中心，對剩余的對象計算其到各個類中心的距離，并將其加入到離這個對象最近的一個類中，反復迭代計算各個類的平均值，并將其作為中心，直至目標函數收斂。

2文本及位置信息分詞模型

2.1文本及位置信息分詞模型應用

在LDA模型中，分析計算得到的結果是詞頻。詞頻可以被看作是微博的一項元數據特征，而微博具有多項元數據[13]。在獲取微博短文本數據后，采用JGibbLDA v1.0對文本數據進行中文分詞訓練，利用基于字典或詞庫匹配的分詞算法對每個單詞進行匹配。訓練后的文本如圖2所示。

2.2實驗分析與總結

采用LDA模型對獲取到的用戶所發文本信息及簽到位置數據進行中文分詞訓練，得到了各個文本集分詞后的結果及其詞頻。如圖3所示，該中文分詞模型能有效地將文本集進行分詞訓練，表明該結果集的詞組包含微博用戶簽到的地理位置，文本內容，并將分詞的詞頻計算出來，由此可以確定在下一節中地理位置的定位及其評價，從而向用戶推薦周邊娛樂活動。

3基于地圖的位置定位與搜索

3.1基于地圖的定位與標注

在新浪微博上獲取的用戶簽到的地理位置信息，其信息包括地址、經緯度、地址信息描述等。在實際地圖上標注時采用百度地圖開放平臺進行操作。本文利用API中的批量地址解析功能，將信息中經緯度的具體數值轉換成具體地址，并將其和描述（title）添加到示例地圖中，形成可視點。如圖4所示，根據中心定位位置，在地圖上顯示周邊一定區域內的熱點位置及商家名稱信息。

3.2基于位置的搜索功能

基于位置的搜索服務是基于地理位置服務中很重要的一類服務，這種服務將搜索引擎和地理信息系統相結合，為用戶提供想搜索場所的具體信息[14]。在從微博短文本中獲取地理位置數據并將其標注在地圖中后，會將其展示給用戶。具體做法是，由用戶填入篩選條件，如城市、區域、熱點位置等后，提交表單進行搜索，由系統給出推薦方案，按照用戶提供的定位信息或需求，給出一定距離內的周邊區域中商場、景點、飯店等娛樂場所的推薦。用戶可以點擊地圖中具體的標注點來檢視商家的詳細信息。

3.3多距離空間聚類算法的應用

本文應用多距離空間聚類算法實現熱點位置的推薦，在輸入示例地點后搜索得到的商家位置結果集呈現無明顯特征的分布，即沒有集中在某個區塊供用戶來選擇。除此之外，在測試樣例中，搜索得到的結果并顯示在地圖上的時間很慢，存在信息過載的問題，降低了用戶體驗。為了解決上述問題，可以將搜索的結果確定在一定范圍內，實現效率更高的檢索，這樣就可避免出現不切合實際的推薦結果，且能夠減少計算量，從而縮短系統的響應時間[15]。因此，提出一種改進的空間聚類算法來優化現有的搜索算法，提高搜索結果的準確率和效率。

聚類算法的思路繁雜，可以通過劃分、層次、模型、密度等方法進行探索[16]。基于劃分的空間聚類算法有K-means、K-medoids、ClARANS等算法。在本實驗中，由于要預先確定用戶的位置，即聚類的中心，再向聚類中心的周圍進行輻射，獲取熱點位置的推薦，恰好符合基于劃分的空間聚類的思想。因此，實驗采用K-means算法完成空間聚類，對已有算法進行改進和優化。K（r）=A∑ni-1∑nj-1w（i，j）πn（n-1），i≠j（2）式中，r為期望半徑；A為整個研究區域的面積；w（i，j）表示權重，可理解為在指定區域內的實體間的聚集系數；n為區域內所有實體點的總個數。K（r）=ρ-1E（3）式中，ρ表示一個給定的區域密度，E表示挑選的事件，實驗中挑選的事件為周邊推薦。在區域密度ρ一定的情況下，K（r）值越大，該事件越大，說明該點的聚集程度越大。

4實驗分析與結果

4.1整體開發框架

平臺功能框架如圖5所示。其中包括：數據文件上傳模塊、數據分析模塊、地圖顯示模塊和用戶推薦平臺模塊。

4.2基于K-means算法對搜索功能的優化

在確定最優聚集效果時，考慮的是函數自變量，即最佳區域半徑r，根據經驗，先選取若干個半徑值作為候選值，再逐一測試，得出最優聚集效果，便可得到優化后的空間聚類結果集。實驗中分別輸入1 km、0.7 km、0.5 km、0.3 km進行計算，結果如圖6所示。

由圖6可以看出，在以經緯度（126.623 839，45.779 025）為中心坐標點進行計算時，若半徑r過大，包含過多無效區域和遠距離推薦，得不到周邊區域熱點位置的推薦的初衷，若半徑r過小，則造成疏漏大量有價值的坐標點。因此，認為當r近似等于0.5 km時，空間中所有實體點聚類關系較密切，聚集程度較高，契合度較好。

5結束語

本文以基于地理位置的熱點推薦為研究目標，以地理位置信息為基礎，實現了城市熱點推薦的平臺開發。利用新浪微博開發API接口獲取的用戶數據，結合開源的LDA模型進行中文分詞，并進行詞頻統計處理，將地理位置信息和空間相結合，進而轉換成在地圖上參考的可視化實體。實現了向用戶推薦周邊熱點地理位置的功能。優勢在于結合多距離空間聚類算法檢驗某一區域內結果集的聚集程度，計算出最優的空間聚集距離，優化搜索功能，提高了搜索的速度，增大了查詢的精確度。

利用互聯網中社交媒體的數據信息進行文本信息處理，具有重要的意義。隨著當今“互聯網+”的發展，對于互聯網的數據分析和挖掘這一領域有著巨大的價值和前景，利用互聯網的海量數據進行分析、挖掘和創新，可以研究出更多更有意義的應用，實現對數據更大的價值體現。參考文獻

[1] 張夢笑. 基于LDA模型的觀點聚類研究[D].山西大學，2012.

[2] Ivan T， Mcdonald R. A joint model of text and aspect ratings for sentiment summarization[J]. PROC. ACL-08： HLT， 2008：308--316.

[3] Shen C，Liu F，Weng F， et al. A Participant-based Approach for Event Summarization Using Twitter Streams[C].//HLT-NACCL，2013：1152-1162.

[4] 劉振鹿，王大玲，馮時，等. 一種基于LDA的潛在語義區劃分及Web文檔聚類算法[J]. 中文信息學報，2011，25（1）：60-65，70.

[5] 李國，張春杰，張志遠. 一種基于加權LDA模型的文本聚類方法[J]. 中國民航大學學報，2016，34（2）：46-51.

[6] 汪進祥. 基于主題模型的微博話題挖掘[D]. 北京郵電大學，2015.

[7] 邢長征，趙全穎，王偉，等. 基于優化密度的耦合空間LDA文本聚類算法研究[J]. 計算機應用研究，2017，34（7）：1966-1970.

[8] 張培晶，宋蕾. 基于LDA的微博文本主題建模方法研究述評[J]. 圖書情報工作，2012，56（24）：120-126.

[9] 漢語信息處理詞匯01部分：基本術語（GB12200.1-90）6[S]. 中國標準出版社，1991.

[10]韓冬煦，常寶寶. 中文分詞模型的領域適應性方法[J]. 計算機學報，2015，38（2）：272-281.

[11] 斯惟，徐立恒，陳玉博，等. 基于表示學習的中文分詞算法探索[J]. 中文信息學報，2013，27（5）：8-14.