張恒才,陸 鋒,仇培元
(中國科學院地理科學與資源研究所 資源與環境信息系統國家重點實驗室,北京 100101)
?
基于D-S證據理論的微博客蘊含交通信息提取方法
張恒才,陸 鋒,仇培元
(中國科學院地理科學與資源研究所 資源與環境信息系統國家重點實驗室,北京 100101)
微博客消息中經常蘊含大量實時交通信息,有望與現有實時交通信息采集方式形成互補。該文針對微博客消息語義模糊性及用戶描述差異性問題,提出了一種微博客消息蘊含交通信息的D-S證據理論提取方法。該方法首先構建微博客消息蘊含交通狀態信息評價體系,利用百科知識提高評價精度,然后定義微博客消息源的基本概率分配函數,通過證據合成與證據決策,實現微博客消息蘊含實時交通信息的甄別與融合。實驗結果表明,該方法能夠對微博客消息蘊含實時交通信息的可信度進行有效判斷,并能夠在最大程度上利用不同微博客用戶發布消息的信息內容,且較之傳統的文本聚類融合方法具有更高的準確率。
微博客;交通信息;文本聚類;證據理論;維基百科
實時交通信息有助于提高交通運輸效率,保障交通安全。現有實時交通信息獲取方式包括固定傳感器技術(感應線圈、視頻監控和微波探測)、安裝GPS和無線通訊設備的浮動車技術、移動通訊終端信令分析技術等。但這些基于移動目標速度感知方式的采集手段在運營成本和時空覆蓋范圍上仍存在很大局限[1]。作為Web 2.0時代新興產物,微博客逐漸成為一種信息快速獲取、分享與傳播平臺,成為志愿者地理信息(VGI)和用戶創造內容(UGC)的有效來源。目前,相關研究主要集中在微博客消息熱點專題事件監測[2-3]、冗余信息過濾[4]、消息索引及傳播模式[5],微博客用戶行為研究[6-7]等方面。由于交通出行與公眾生活息息相關,微博客消息中往往蘊含著大量交通信息,且時空分布廣泛,有望彌補現有交通信息采集手段不足。
然而,微博客消息的語義模糊性及其不同用戶發布消息的語義差異性直接影響了微博客消息蘊含實時交通信息的利用。首先,微博客消息非結構化特征造成語義理解困難:由于微博客消息內容精簡,僅140字左右,且口語化特征明顯,含有較多冗余內容,給自動化語義判斷與提取造成很大壓力;其次,不同微博客用戶發布消息的描述差異造成信息匯集矛盾:在一定時間段內,可能存在描述同一路段交通狀態的多條微博客消息。針對同一路況,不同用戶的描述可能差異很大,有些描述甚至語義相斥。
文本聚類是自然語言處理領域中一個重要的研究課題[8],也是一種微博客文本處理的典型技術[9],可以用于發現熱點信息。但是針對微博客這類短文本信息,聚類方法并不能達到很好的信息提取效果[10-11]。原因在于文本聚類一般是首先構建文本表示模型,如向量空間模型、概率模型、概念空間模型等,然后選定特征權值,如布爾權值、詞頻權值、TF/IDF權值、TFC權值等,接著選定相似性度量方法,如角余弦距離、切比雪夫距離、歐幾里得距離等,最后選定聚類方法,如K-means聚類、層次聚類以及神經網絡聚類算法等完成聚類過程[12-13]。當文本具有一定詞匯數量時,這種基于詞袋(bag of words)的文本聚類過程才能夠確定準確的文本主題描述。但微博客消息內容短小,在經過分詞、詞義消歧等過程后,可以利用的交通狀態描述關鍵詞匯很少。因此,文本聚類并不能很好地解決微博客消息的語義模糊性問題以及不同微博客用戶發布消息的語義差異性問題。
針對上述問題,本文提出了一種微博客消息蘊含交通信息融合的D-S證據理論方法,通過引入百科知識,豐富微博客消息的語義信息,解決微博客消息描述的語義模糊性問題。百科知識(如維基百科、百度百科等)是一個通過志愿者群體眾包(Crowd Sourcing)方式產生的在線百科全書,知識點豐富、覆蓋面廣,包含豐富的網絡流行語,資源查找方式便捷,是互聯網上流行的參考咨詢網站[14],也是語義知識抽取非常重要的語料數據源[15]。在百科知識基礎之上,通過對微博客消息內容詞義相似度的加權評價,利用證據理論解決不同微博客用戶發布消息的語義差異性造成的信息融合不確定性推理問題。
2.1 基本思想 利用D-S證據理論提取微博蘊含交通信息的基本思想如下:
(1) 通過在線百科知識語料庫豐富微博消息詞匯語義,解決微博客消息語義模糊問題。由于微博客消息的口語化特征顯著,且包含很多與社會環境密切相關的表達方式、流行用語等,不可能在預定義的詞典中包含所有的地址和事件描述方式。即使通過同義詞詞典wordnet等去擴展同義詞詞匯,也很難獲取消息中部分詞匯的正確語義。如圖1為某微博用戶發表的一則消息“機場高速全程飄紅”。在分詞后的語義理解環節,引入實時更新的維基百科、百度百科、互動百科等在線自動獲取未知的詞匯“飄紅”的合理語義解釋,從圖2可以看出,詞匯“飄紅”與“交通擁堵”有很強的語義關聯。通過百科知識的引入,可以有效加強對微博客消息的語義理解。

圖1 新浪微博客消息示例

圖2 維基百科“2010年北京交通擁堵治理措施”條目
(2) 利用證據理論解決微博客消息語義差異性問題,如圖3是以“機場高速”為關鍵詞,對某時間段內不同用戶發布的相關微博客消息集進行過濾,所得到的關于機場高速交通狀態的多條微博客消息,可以看出不同用戶發送微博客消息的語義差異性。本文在對微博客消息進行語義理解后,利用證據理論對多個不同的微博客消息源進行證據合成與決策,從而完成對微博客消息蘊含交通信息的提取。

圖3 微博客消息描述實時交通狀態的差異性
2.2 證據理論
D-S證據理論[16-17]作為概率論的一個擴展,是信息融合領域的主流方法,在交通數據融合[18]、不確定性知識發現[19]、遙感信息提取[20]等方面都有成功應用。其最大的特點是擺脫了傳統貝葉斯理論需要先驗概率和條件概率知識的限制,在證據中引入了不確定性,對不確定信息的描述采用“區間估計”的方式,具有較強的不確定信息處理能力。當發生信息沖突時,可以通過“懸掛”在所有目標集上共有的概念(可信度)使得發生的沖突獲得解決,并保證原來高可信度的結果比低可信度的結果權重更大。證據理論在處理不確定信息方面的優勢,使其比較適合微博客消息蘊含交通信息的融合過程。
證據理論的基本概念包括:
定義1 辨識框架
辨識框架 Θ 是針對所解決問題空間,能夠識別所有可能結果構成的集合。根據我國公安部等四部委聯合發布的《城市道路交通管理評價指標體系(2012年版)》*公安部、教育部、住房與城鄉建設部、交通運輸部,城市道路交通管理評價指標體系(2012年版),公交管[2012]54號。和北京市質量技術監督局發布的《城市道路交通運行評價指標體系》(2011年版)北京市地方標準[21],路網交通運行等級可以包含以下五種: 暢通(主干道機動車平均行駛速度大于40km/h)、基本暢通(主干道機動車平均行駛速度30~40km/h)、輕度擁擠(主干道機動車平均行駛速度20~30km/h)、 擁擠(主干道機動車平均行駛速度在10~20km/h),堵塞(主干道機動車平均行駛速度低于10km/h)。由于本文所針對微博客消息內容是對交通狀況概括描述,難以精確到速度級別,為了保證微博客消息蘊含交通信息融合精度,并與微博客用戶對交通狀態習慣性描述方式相符,本文將暢通與基本暢通合并為“暢通”,將輕度擁擠和擁擠合并為“緩慢”,定義辨識框架為
Θ= {暢通,緩慢,堵塞}
則命題空間 2Θ為:

定義2 基本概率賦值函數(Basic Probability Assignment,BPA)
如果函數 m:2Θ→[0,1],A為問題空間 2Θ的任一子集,m(A) 為證據數據源對該命題支持程度,滿足式(1)。
(1)
則稱m為辨識框架上Θ的基本概率賦值函數。
定義3 信任函數(Belief Function)
在識別框架 Θ 上的信任函數Bel(A) 定義為式(2),命題A?Θ對證據數據源的可信程度,可以用命題A所有子集的基本概率分配函數之和表達。

(2)
定義4 似然度函數(Plausibility Function)
似然函數 Pl 定義為式(3)。


(3)
定義5 證據Dempster合成規則
對于 ?A?Θ 的n基本概率分配函數m1,m2,...,mn, 則合成規則為式(4)。
(4)
其中K為歸一化常數如式(5)所示。

(5)
2.3 信息提取
基于D-S證據理論的微博客消息蘊含交通信息提取算法流程如下:
輸入:同一時間段Tinterval內,關于同一條路段road交通狀態描述的所有微博客消息MB
輸出:該時段Tinterval內,該路段對應交通狀態Trafficstate
1) 微博客消息內容預處理
包括三個階段,a)冗余信息消除:去除微博客消息文本中標點符號、圖片超鏈接信息等;b)中文文本分詞:通過與地址詞庫、事件詞庫以及方向詞庫匹配[22],識別微博客消息中路段、方向和事件;c)詞義干化:去除助詞、代詞及系動詞等詞匯,只保留交通狀態描述詞匯集合W。
2) 基于百科知識的詞義相似度計算
本文采用Milne等提出的依據百科條目中錨文本之間相互鏈接關系構建語義模型的WLM(WikipediaLink-basedMeasure)算法[23-25],實現詞匯的詞義相似度計算。該算法首先根據式(6)計算詞匯之間鏈接權重w(s→t), 其中s為源詞匯,t為指向詞匯,w為百科中的所有條目文章集合,t為百科中所有鏈接到指向詞匯t的條目文章集合。接著利用這些鏈接權重產生百科知識詞匯條目之間的特征向量,完成詞義相似度計算。
(6)
3) 基于詞義相似度的微博客消息評價
基于詞義相似度的微博客消息評價計算公式為式(7)~(8)。
(7)
(8)

4) 基本概率賦值函數BPA計算
基本概率賦值函數BPA計算公式為式(9)。
(9)
其中p為微博客消息用戶,k={k暢通,k緩慢,k堵塞}為交通狀態信息。
5) 證據合成
根據式(4)的證據合成規則,對描述同一路段交通狀態多條微博客消息數據源進行證據合成,得到微博客消息數據源新的概率分配函數,然后根據式(2)計算三種不同交通狀態信任函數Bel(Trafficstate)。
6) 證據決策
選擇具有最大信任函數值交通狀態作為融合后的交通狀態Trafficstate,完成交通信息提取。
算法基本流程圖如圖4所示。
3.1 實驗環境 實驗采用的微博客消息來源于新浪微博客(http://weibo.com)。消息主要內容包括: 微博客ID、創建時間、信息內容、來源、是否已收藏、是否被截斷、回復人UID、微博客MID、圖片地址、轉發數、評論數、附加注釋信息、地理信息字段、作者信息字段等。我們提取了2010年9月至2014年4月22日期間部分微博客用戶發布的與交通狀態有關的65 117條微博客消息。圖5 為獲取原始微博客消息記錄樣本。
考慮API開放訪問程度,本文實驗選用維基百科中文版*http://zh.wikipedia.org。維基百科主要由條目組成,每一個條目指定唯一的page_id表示,且歸屬于一個或者多個分類,總共有六種類型條目組成: 文章、重定向、消歧義、模板、分類、無效。每個條目對應著詳細解釋文檔,在文檔中存在很多錨文本信息,對構建語義知識有重要的作用。錨文本對應著內部鏈接(鏈接到維基百科內部其他條目)或者外部鏈接(鏈接到外部網址)。錨文本通常以兩個方括號進行識別,例如,“[[交通意外]],[[車禍]],[[堵車]]”。本實驗采用維基百科數據為2011年7月26日備份的中文版數據pages-articles.xml.bz2[26],數據大小為535.2M,對其進行解析處理,信息抽取后,得到中文條目數據為404 602條,重定向條目為354 528條,分

圖4 微博客消息蘊含交通信息提取算法流程

圖5 蘊含實時交通信息的新浪微博客消息
類條目為112 605條,模板條目59 328條,消歧義條目1 042條,圖6是數據解析后的條目“交通堵塞”。
本實驗程序測試運行環境為CentOS Linux 操作系統,CPU為4核Intel(R) Xeon(R) CPU E5520 2.27GHz,內存4G,采用JAVA語言實現,實驗過程使用了OpenNLP、 Lucene、 Hadoop及Wikipedia-

圖6 解析處理后的維基百科條目“交通堵塞”
Miner等工具。實驗數據將收集的65 117條交通狀態信息相關微博客消息按照時間間隔為1個小時進行分組,并按照含有交通信息狀態信息數量進行排序,選擇交通信息較多前66組數據,共1 105條微博消息,并對每組數據進行人工標定,識別真實交通狀態。實驗數據集數據及分組如表1所示。

表1 實驗數據集
為有效驗證本文提出交通信息提取算法,采用文本K-Means聚類算法及基于支持向量機(Support Vector Machine, SVM)的文本分類算法[27-28]作為對比實驗方案,算法以The Dragon ToolKit[29]開源NLP工具為基礎,修改后實現本文信息處理需求,其中,SVM核心算法來自SVM-Light[30]工具包。比較傳統文本聚類算法、分類算法與本文提出算法在含有描述誤差情況下的交通信息提取效果。對SVM分類算法,本文從測試集外的交通狀態相關微博客消息中隨機選取100條微博客消息, 經人
工判讀后標記其描述的交通狀態類型,作為訓練集。之后,對各組測試數據中的微博客消息進行分類,將對應微博客消息數量最多交通狀態作為該測試組的交通狀態。對K-Means聚類算法,設定聚類類別為3,起始種子為隨機。將聚類后各測試組里微博客數量最多的類中數量最多的交通狀態,作為該測試組的交通狀態。將K-Means聚類、SVM分類及本文算法得到的各測試組交通狀態與正確狀態比較,計算不同算法提取交通狀態的精度以評價提取效果。為減少偶然因素影響,每種算法各執行20次實驗,統計得出平均處理時間以評價算法效率。需要指出的是,由于K-Means聚類算法的效果受起始種子位置影響,本文將20次聚類實驗的平均精度作為最終精度。
3.2 實驗分析
表2為微博蘊含交通信息提取實驗結果,圖7為微博客消息蘊含交通信息提取算法精度實驗精度結果。可以看出,本文所提出算法平均精度優于SVM及K-Mean算法,特別是當數據量增大時,本文算法精度有顯著提高。在效率方面,本文算法的平均耗時僅為SVM和K-Mean算法的1%左右,具有明顯優勢。

表2 微博蘊含交通信息提取實驗結果

圖7 微博客消息蘊含交通信息提取算法精度比較
本文算法在處理微博客消息時領先于K-means及SVM算法,分析其原因,對K-means聚類算法而言,微博客消息中有效信息往往只蘊含在幾個關鍵詞匯中,因此正確理解這些關鍵詞匯對信息提取有重要意義,而聚類算法無法識別這些關鍵詞匯與其他詞匯在交通狀態描述中的重要程度,聚類過程易受其他詞匯干擾,導致算法精度受到影響。對半監督分類算法而言,通常需要相似數據的訓練過程,否則無法對新采集數據集進行正確分類。此外,本文算法在解決微博語義模糊方面優于其他兩種算法,體現在實驗數據集III時,效率達到最優,微博中交通信息的描述模糊性在描述交通擁堵時表現最為明顯,且描述擁堵微博數量多于描述暢通微博數量,這也符合現實情況,當出現交通擁堵時,用戶發布微博的幾率更高,經常會出現新口語化描述方式和描述詞匯,SVM分類算法效果將會受到影響。本文算法避免了文本聚類和文本分類過程中的文本表示模型構建過程,直接將關鍵詞匯的詞義相似度作為信息提取過程中重要指標;另一方面,通過引入維基百科語料庫,豐富了詞匯語義信息,微博客消息中極為有限信息詞匯得到充分利用,提高了交通信息提取精度。
3.3 討論
1) 開放百科知識平臺引入,對提高微博客消息文本語義理解有很大幫助。但是由于中文維基百科目前所包含的詞匯條目數量有限(如本文實驗采用的2011年7月份的維基百科數據有404 602條詞匯條目,其中交通信息相關詞匯數量相對較少),且詞性單一,多為名詞,缺乏形容詞、動詞等詞匯條目,對本文所提出語義理解方法的精度有一定影響。如果能夠引入中文詞匯量更大的百度百科(目前尚未開放)作為語義理解輔助平臺,預計將會取得更好的效果。
2) 本文采用的詞匯相似度計算方法通過基于百科中錨文本之間的連接關系構建語義模型。在百科詞匯條目中,大部分的交通詞匯并沒有被定義為錨文本。因此百科語料庫知識并沒有得到充分利用。后續的研究中可以考慮采用其他詞匯相似度計算方法。
3) 本文采用的自然語言分詞方法為交通信息詞庫分詞方法。該分詞方法在處理口語化嚴重、網絡流行語、圖片及表情符號眾多的微博客消息時還存在不足。很多未登錄詞、語氣詞及雙重否定詞給微博客消息蘊含交通信息的提取造成了影響。后續研究工作中嘗試改進分詞算法,增加對以上類型詞匯的識別,并在微博客消息評價過程中考慮這些詞匯含有的感情色彩對語義的影響,進一步改善評價質量。
4) 本文主要關注微博客消息蘊含交通信息的提取方法,尚未考慮交通信息的時效性影響。交通信息可以分為時效性較短的交通信息(如突發交通事故、臨時交通限制等)、時效性較長的交通信息(如占道施工信息、交通管制信息等)及歷史交通信息等,而且微博客消息的發表時間也往往具有一定的滯后性。后續研究中需要關注從微博客消息提取交通信息的時效性。
本文針對微博客消息蘊含交通信息提取過程中所面臨的微博客消息高動態性、模糊性及其不同微博客用戶發布消息的描述差異性問題,提出了一種基于D-S證據理論的微博客消息蘊含交通信息提取方法。該方法通過引入百科知識來豐富微博客消息的語義理解過程,克服因微博客消息內容精簡、口語化特征明顯等所造成的語義理解困難;利用證據理論處理不確定性問題的優勢,解決不同微博客用戶發布消息的描述差異性問題;并以新浪微博客及中文維基百科為實驗環境,驗證了該方法的可行性。實驗結果表明,本文提出的方法能夠有效提取微博客消息蘊含交通信息,并能夠最大程度上利用不同微博客用戶發布消息的信息內容,且與基于文本聚類的信息提取方法相比,精度和效率更高。該方法可以促進微博客成為一種有效的交通信息采集手段,與現有的交通信息采集方法互補。在后續研究工作中,一方面將繼續構建更加精確的維基百科語義模型;另一方面將爭取引入其他大型中文語料庫(如百度百科、知網[31]、LDC中文樹庫、賓夕法尼亞樹庫以及北京大學語料庫等),進一步提高信息提取的精度。
[1] 陸鋒, 鄭年波, 段瀅瀅等. 出行信息服務關鍵技術研究進展與問題探討[J]. 中國圖象圖形學報,2009, 14(7): 1219-1229.
[2] Jagan Sankaranarayanan HS, Benjamin E Teitler, Michael D Lieberman, et al. TwitterStand: news in tweets[C]//Proceeding of the GIS ’09 Proceedings of the 17th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems. 2009.
[3] 楊亮, 林原, 林鴻飛. 基于情感分布的微博熱點事件發現[J]. 中文信息學報,2012,26(1): 84-90,109.
[4] Abel F, Gao Q, Houben GJ, et al. Semantic enrichment of twitter posts for user profile construction on the social web[J]. The Semanic Web: Research and Applications. 2011: 375-389.
[5] Castillo C, Mendoza M, Poblete B. Information credibility on twitter[C]//Proceeding of the ACM 2011: 675-684.
[6] Michelson M, Macskassy SA. Discovering users’ topics of interest on twitter: a first look[C]//Proceeding of the 2010 ACM; 2010: 73-80.
[7] Wu X, Wang J. How about micro-blogging service in China: analysis and mining on sina micro-blog[C]//Proceeding of the 2011 ACM; 2011: 37-42.
[8] 宗成慶. 統計自然語言處理: 清華大學出版社; 2008.
[9] 張劍峰, 夏云慶, 姚建民. 微博文本處理研究綜述[J]. 中文信息學報,2012,26(04): 21-27,42.
[10] 彭澤映, 俞曉明, 許洪波等. 大規模短文本的不完全聚類[J]. 中文信息學報,2011, 25(01): 54-59.
[11] Wang L, Jia Y, Han W. Instant message clustering based on extended vector space model. Springer-Verlag. 2007: 435-443.
[12] 程顯毅, 朱倩. 文本挖掘原理: 科學出版社; 2010.
[13] 白秋產, 金春霞, 周海巖. 概念向量文本聚類算法[J]. 計算機工程與應用,2011, 35: 155-157,209.
[14] 趙飛, 周濤, 張良等. 維基百科研究綜述[J]. 電子科技大學學報,2010, 40(03): 321-334.
[15] 王錦, 王會珍, 張俐. 基于維基百科類別的文本特征表示[J]. 中文信息學報,2011, 25(02): 27-31.
[16] Dempster AP. Upper and Lower Probabilities Induced by a Multivalued Mapping[J]. Annals of Mathematical Statistics. 1967, 38(2): 325-339.
[17] Shafer G. A Mathematical Theory of Evidence: Princeton University Press. 1976.
[18] 郭璘, 方廷健, 葉加圣等. 基于最小二乘支持向量機和證據理論的交通數據融合[J]. 中國科學技術大學學報,2007, 12: 1500-1504.
[19] 李德仁, 王樹良, 李德毅等. 論空間數據挖掘和知識發現的理論與方法[J]. 武漢大學學報(信息科學版),2002, 3: 221-233.
[20] 李曉峰, 張樹清, 韓富偉等. 基于多重信息融合的高分辨率遙感影像道路信息提取[J]. 測繪學報,2008, 2: 178-184.
[21] 北京市質量技術監督局. 城市道路交通運行評價指標體系[S]. 北京市地方標準 DB11/T 785-2011.
[22] 陳傳彬, 陸鋒, 勵惠國等. 自然語言表達實時路況信息的路網匹配融合技術[J]. 中國圖象圖形學報,2009, 8: 1669-1676.
[23] Milne D. Computing semantic relatedness using Wikipedia link structure[C]//Proceedings of the New Zealand Computer Science Research Student Conference, NZ CSRSC’07, Hamilton, New Zealand; 2007.
[24] Milne D, Witten IH. An effective, low-cost measure of semantic relatedness obtained from Wikipedia links[C]//Proceedings of the AAAI 2008 Workshop on Wikipedia and Artificial Intelligence (WIKIAI 2008); 2008.
[25] Milne D, Witten IH. Learning to link with wikipedia[C]//Proceedings of the 17th ACM conference on Information and knowledge management. Napa Valley, California, USA: ACM; 2008:509-518.
[26] WikipediaDataset. http://dumps.wikimedia.org/zhwiki/20110726/,2011.
[27] Joachims T. Making large-scale support vector machine learning practical[J]. In Advances in Kernel Methods—Support Vector Learning: MIT Press; 1999: 169-184.
[28] Joachims T. Learning to classify text using support vector machines: Methods, theory and algorithms: Kluwer Academic Publishers; 2002.
[29] The Dragon ToolKit. http://dragon.ischool.drexel.edu/, 2008.
[30] SVM-Light. http://svmlight.joachims.org/, 2008.
[31] 劉青磊, 顧小豐. 基于《知網》的詞語相似度算法研究[J]. 中文信息學報,2010, 24(06): 31-36.
Extracting Traffic Information from Micro-Blog Based on D-S Evidence Theory
ZHANG Hengcai, LU Feng, QIU Peiyuan
(State Key Lab of Resources and Environmental Information System, Institute of Geographic Sciences and Natural Resources Research, Chinese Academy of Sciences, Beijing 100101, China)
Micro-Blog messages usually contain a great amount of real-time traffic information which can be expected to become an important data source for city traffic. In this paper, we propose an approach for extracting traffic information from massive micro-blogs based on D-S evidence theory to solve the data fusion problem brought by micro-blog’s characteristics of high dynamic, uncertainty and ambiguous narrating. Firstly, an evaluation index system for the traffic information collected from the mass micro-blog messages is built, whose accuracy is enhanced by use of a wikipedia semantic model. Secondly, a function of basic probability assignment is defined for the micro-blog messages with the help of word similarity. Finally, the D-S theory is adopted to judge and fuse the extracted traffic information, throught evidence composition and decision. An experiment on Beijing road networks and Sina Micro-blog platform shows the presented approach can effectively judge the reliability of the traffic information contained in mass micro-blog messages, and can utilize the message contents delivered by different micro-blog users at utmost. Meanwhile, compared with traditional text clustering algorithm, the proposed approach is more accurate.
micro-blog; traffic information; text clustering; D-S evidence theory; wikipedia

張恒才(1985—),博士,博士后,主要研究領域為互聯網空間信息搜索、軌跡數據管理與數據挖掘。E?mail:zhanghc@lreis.ac.cn陸鋒(1970—),博士,研究員,博士生導師,主要研究領域為交通地理信息系統、導航與位置服務技術、空間數據庫技術等。E?mail:luf@lreis.ac.cn仇培元(1986—),博士研究生,主要研究領域為文本數據挖掘。E?mail:qiupy@lreis.ac.cn
1003-0077(2015)02-0170-09
2012-09-20 定稿日期: 2014-05-05
國家863項目(2012AA12A211, 2013AA120305);國家自然科學基金(41271408)
TP391
A