趙 婷,華一新,李 響,李 翔,楊 飛
(信息工程大學 地理空間信息學院,河南 鄭州 450052)
?
一種基于Heat Map的地理標簽數據可視化表達的研究
趙婷,華一新,李響,李翔,楊飛
(信息工程大學 地理空間信息學院,河南 鄭州 450052)
摘要:地理標簽數據是指蘊含在網頁、照片、微博等信息媒介中的地理空間信息,其表現形式通常是經緯度坐標。通過分析地理標簽數據的研究現狀,對地理標簽數據進行分類,并歸納地理標簽數據具有屬性數據非結構化、海量信息分布不均、強調位置相對關系等特點。針對其中一個特點,通過對K-means算法進行改進,結合計算機圖形學相關知識,利用熱力圖表達地理標簽數據的分布特征。最后,通過與ArcGIS核密度圖、散點圖進行比較,得出該熱力圖算法具有表達效果明顯、用戶體驗好等優點。
關鍵詞:地理標簽數據;可視化;熱力圖;K-means聚類
隨著移動互聯網技術的進步,對地理信息應用研究的深入,制圖者與地圖使用者的界限變的模糊,傳統的制圖方式發生變革;新地圖學委員會的成立,也同樣預示著新的地理時代已經悄然來臨。伴隨著智能移動終端的普及,人們越來越習慣于通過智能移動終端上的應用及時獲取或分享信息。在使用此類應用的過程中,產生了海量的含有地理位置信息的社交數據,我們稱這類爆發性增長的新型數據為地理標簽數據(Geotagged data),由于該數據的產生與人類活動息息相關,為可視化研究領域帶來了新的挑戰。
地理標簽數據[1]指在HTML網頁、照片、微博等信息媒介顯式或隱式植入的地理空間信息,其表現形式是地理經緯度坐標,也包含高程、范圍、形狀等其它地理空間信息,采用的是與傳統空間數據組織結構(即用“數據分層”以及“幾何+屬性”)不同的形式。
根據地理標簽數據的數據結構,一般常用k-means算法生成地理標簽聚類。其核心思想是基于聚類對象的屬性將數據分為k組,最終實現類內方差最小化。然而該算法雖然方法簡單且保證了計算速度,但是犧牲算法精度;其結果的準確性很大程度上取決于最初的簇集;k值需提前給定。有很多采用該算法生成任意聚類的例子,在這些例子中,沒有依據初始的種子點位置,且在隨機選取中心點的概率甚至無限高。
對此,本文采用一種根據非常具體的概率來選擇初始種子點的方法來對k-means方法進行初始化,利用啟發式算法來確定k值,以此提高聚類算法的精度;此外,在研究地理標簽數據的基礎上,分析歸納該數據特點,選擇合適的可視化方法進行表達。針對其中一種可視化方法——熱力圖,結合該聚類算法進行實現,并對此做出評價。
1地理標簽數據分類
地理標簽數據的存在形式通常有:照片、視頻或音頻文件、SMS消息、地理位置微博、網頁、維基百科的文章應用等。其三種數據類型可歸納為:地理標簽文檔、地理標簽照片、地理位置微博。
地理標簽文檔:現在對地理標簽文檔的研究大都以維基百科為主,維基百科有大量的數據,可將其作為數據源對其內容進行知識挖掘,從而提取相關關聯。如通過研究地理標簽文檔和作者所在地理位置進而判斷兩者之間是否存在一定的空間規律[2]。
地理標簽照片:從地理標簽照片中獲取的信息主要有三類:照片本身;除地理標簽外其他標簽信息,可稱為注釋信息;拍攝者信息(包含設備信息)。Flickr[3]網站常常用于獲取照片、視頻等含地理坐標的多媒體產品,該平臺給人們的生活帶來便利,對地理標簽照片的研究也大都基于Flickr。如Eric Fischer[4]建立了一系列“本地人和旅游者”的城市分布地圖,從中清晰地分辨本地人和旅游者對同一個城市不同地方的喜好,即從地理標簽照片上挖掘事件和用戶行為。
地理標簽微博:也稱位置微博,因含有地理空間位置信息的標簽信息,常用于挖掘地名和興趣點或是地理輿情的預測。國內對位置微博[5,6]的研究較為火熱,對其他兩種標簽數據研究較少。
2地理標簽數據特點分析
從空間數據可視化方法的角度對地理標簽數據特點進行分析,可視化方法可以表達數據的探索發現特征、位置分布特征、表達空間統計特征,并且由于地理標簽數據具有強調位置相對關系、海量信息分布不均、屬性數據非結構化這三個特點,故而可基于以上特點進行可視化方法分類。
屬性信息非結構化:與傳統的矢量數據不同,地理標簽數據的屬性信息可能是非結構化的,需要對這種非結構化的文本信息進行可視化研究;而標簽云是一種從大文本中提取有效知識的可視化方法,適用于文本信息的表達,是文本分析處理的簡單而高效的可視化表達方法,所以利用標簽云與表達地理位置的地圖相結合而得到的標簽云地圖能更好地表示含有文本信息的可視化。
海量信息分布不均:隨著地理標簽數據以百萬級涌現,其密集程度很高,此時單個點的顯示沒有意義,只有把多個點聚合起來可視化研究才有意義,據此可采用熱力圖來研究地理標簽數據的分布統計特征,以一種非常直觀的形式來呈現密度信息,帶來效果明顯的用戶體驗。
強調位置的相對關系:隨著互聯網發展不斷涌現出的海量的地理標簽數據,研究其個人絕對位置(即精準位置)已經沒有意義,更多是表達地理標簽數據的相對位置關系,可采用拓撲圖來表達地理標簽數據的相對位置關系。
從新地理信息時代的[7]角度,通過與傳統統計數據的對比,研究地理標簽數據進的特點,如表1所示:

表1 地理標簽數據與傳統統計數據的比較
3基于Heat Map的標簽數據可視化表達
本文以地理標簽數據的海量數據分布不均的特點為出發點,利用熱力圖研究地理標簽數據的分布特征。熱力圖(Heat Map)最初作為一個研究模型于2006年在微軟公司內部發布,隨著地理位置相關的空間信息大量涌現,熱力圖的應用范圍得到更大拓展。它是數據可視化(Information Visualization) 中常用的一種方法,直觀地反映地理對象某一特征的空間分布態勢。
3.1熱力圖生成步驟
熱力圖是一個理想的表達密度空間數據的解決方法,它清晰地揭示了高發地區的分布情況,其生成過程如下:
1)建立一個含有256個RGBA值的數組,這個數組用來當作熱力圖的配色矩陣(調色板),其中A代表Alpha通道,用來記錄圖像中的透明度信息。地圖上的熱區賦予數組靠右的顏色,而冷區賦予靠左的顏色如調色板圖1所示。

圖1 調色板
2)坐標系轉換。將經緯度坐標轉換為屏幕坐標,可利用百度地圖Web服務API為開發者提供的http接口,即用java發起http請求,然后解析json或xml數據等,也可使用Chunk Taylor的“地緣/UTM轉換算法[9]”進行坐標轉換。
3)標簽聚類。由于地理標簽數據中包括坐標信息以及注釋信息,可首先利用坐標信息來創建地理聚類。為提高聚類精度,可選擇k-means ++算法[8]來確定初始種子點,隨后可采用啟發式算法來確定k值,通過該方法,最終得到這個k值、初始種子點的位置。完成數據集的聚類時,每一個聚類標簽具有三個屬性:標簽名稱、中心點坐標、聚類半徑,其中聚類半徑由中心點到其成員距離的平均值通過歐氏距離計算得到。
4)計算中心點透明度。反映熱點顏色深淺的變量值,即透明度(Intensity),透明度也可稱為對象的影響因子,該值作為每個對象的影響范圍的中心點的透明度,熱點的顏色深淺直接表達出數據的變化特征[10]。常見的計算對象透明度公式如下:

(1)
其中,Z代表中心點待表示特征值,Z0代表數據集中待表示特征值的最小值,Zmax代表待表示特征值的最大值。
5)繪制灰度圖。以每個點的坐標值作為中心點,并以第4節標簽聚類半徑為半徑繪制一個顏色漸變的圓。中心點顏色最深,從圓的邊緣到中心點顏色逐漸變淺,直至所有點的漸變圓繪制完成。
6)灰度圖色彩化。利用調色板中的值對圖中每一個像素進行色彩化,選擇RGBA模型中任意通道(R、G、B任選其一)值(0~255)作為配色矩陣的索引,并提取通道值來代替舊顏色,完成灰度帶到調色板的映射。
3.2熱力圖實驗
本文以近40年全球地震分布帶以及地震等級對周邊的影響為例,利用主題爬蟲技術從互聯網上獲取1973年至今全球各地發生地震的時間、位置、震級等地理信息,采用C#語言,并結合計算機圖形學相關知識,在VS2013平臺上進行圖形圖像編程,實現全球地震分布的熱力圖,并結合地震帶地圖集對所得結果進行驗證,以確保該方法的有效性,其過程如圖2所示。

圖2 熱力圖生成流程
3.2.1數據獲取
通過分析地理標簽數據特點,可通過網絡爬蟲技術獲取這類數據。網絡爬蟲工作原理是一種按照規則自動抓取萬維網信息的程序或腳本。它首先獲得初始網頁上的URL,在抓取網頁的過程中不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件。本文實驗數據通過爬取地震相關網站,經過正則表達式等方法進行匹配,得到含有經度、緯度、地震發生時間、震級等信息。其字段存儲結構如表2所示:

表2 字段存儲結構
3.2.2數據分年
為研究近40年全球地震帶的變遷,需對獲取的數據進行分年,每十年為一個節點。通過建立讀寫文件的指針讀取文件,然后以動態鏈表的形式開辟存儲空間,依次將文件中的各個字段讀到內存中,通過對字段進行處理得到分年后的文件。也可將數據存儲在服務器中,利用ArcGIS Server發布地圖服務調用所需數據。
3.2.3熱力圖算法實現
從數據庫讀取全球地震數據后,利用k-means算法和k-means++算法,對標簽數據進行聚類分析,隨后通過灰度圓疊加得到灰度圖,再根據灰度圖與調色板的映射關系進行色彩化,最終得到熱力圖圖層。可以采用百度、谷歌等地圖作為底圖,然后將生成的新圖層與底圖疊加,從而得到完整的熱力圖。
3.3結果分析
圖3為通過改進的熱力圖算法生成的1973—1982年地震分布熱力圖,可看出地震高發帶大都集中在各大板塊的交界處,分布情況與三大地震帶相符合,即環太平洋地震帶、歐亞地震帶和海嶺地震帶,可見該種熱力圖分析方法是合理的。此外,采用地理標簽數據作為實驗數據,可實時獲取最新的信息,獲取速度快,成本低,且信息量豐富,為研究分布特征提供分析支持,尤其是為政府部門對某些突發事件提供決策支持。
圖4分別為利用1973—1982年地震數據得到

圖3 1973—1982年地震分布熱力圖

圖4 ArcGIS核密度圖、散點圖
ArcGIS生成的核密度圖、散點圖,圖3、圖4中這三種方法都可以表達數據的分布特征,對上述三種方法從用戶體驗、表達效果2個方面進行比較。
1)點密度法采用的顏色過于單一,且無法反映數據分布的差異性,由于數據量的增加,不能通過多張點密度圖來觀察事件的發展變化趨勢,用戶體驗差。圖5是利用熱力圖得到每十年地震帶分布的變化圖,可看出歐亞板塊與印度洋板塊活動較頻繁,地震發生頻率逐年增加,需要當地政府對這一帶地區加強防震意識,減少地震對當地的損失。
2)熱力圖和ArcGIS核密度圖都可以通過設置顏色梯度很好地反映數據分布的差異性,效果好,數據越密集越熱,顏色越亮。

圖5 1973—2014年每10 a全球地震分布熱力圖
4結束語
地理標簽數據是大數據時代和科技發展的產物,其對人們生活的影響越來越大。本文分析了地理標簽數據的數據類型與特點,研究了標簽數據的可視化技術,并通過改進k-means算法實現了地震帶熱力圖,驗證本實驗中熱力圖的可用性和優越性。由于地理標簽數據的內涵是不斷發展的,今后還需要研究更多技術以完善標簽數據的可視化技術。
參考文獻:
[1]Geotagging[EB/OL].(2015-01-09)[2015-04-03].https://en.wikipedia.org/wiki/Geotagging.
[2]HARDY D.Volunteered geographic information in Wikipedia[M].University of California,Santa Barbara,2010.
[3]HAUFF C.A study on the accuracy of Flickr’s geotag data.Proceedings of the 36th international ACM SIGIR conference on Research and development in information retrieval[C].ACM Press,2013:1037-1040.
[4]FISCHER E.Locals and Tourists[J].Av Proyectos,2015:70-71.
[5]袁曉如,張昕,肖何,等.可視化研究前沿及展望[J].科研信息化技術與應用,2011,2(4):3-13.
[6]張恒才,陸鋒,陳潔.微博客蘊含交通信息的提取[J].中國圖象圖形學報,2013,18(1):123-129.
[7]李德仁,邵振峰.論新地理信息時代[J].中國科學(F輯:信息科學),2009,39(6):579-587.
[8]ARTHUR D,VASSILVITSKII S.k-means++:The advantages of careful seeding.Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms[C].Society for Industrial and Applied Mathematics,2007:1027-1035.
[9]TAYLOR C.Geographic/utm coordinate converter[Z/OL].(2003-06-20)[2015-01-09].http://home.hiwaay.net/~taylorc/toolbox/geography/geoutm.html.
[10] 曾毅,高斌,李明銘,等.一種HeatMap技術可視化GIS三維數據方法[J].電腦編程技巧與維護,2012 (22):120-122.
[責任編輯:路曉鴿]
Research on heat map visualization of geotagged dataZHAO Ting,HUA Yixin,LI Xiang,LI Xiang,YANG Fei
(School of Geospatial Information,Information Engineering University,Zhengzhou 450052,China)
Abstract:Geotagged data means being embedded in web pages,photos,microblogging and other information media geospatial information,on which the manifestations are usually latitude and longitude coordinates.This paper,through the analysis of the research status of geotagged data,classifies the geographic label data and summarizes non-structured attribute data,mass distribution of information,and the relative position relationship.And for one of the features,K-means algorithm is proposed to use Heuristic algorithm to determine the k value.Combined with knowledge of computer graphics,the heat distribution graph is used to represent the geotagged data.Compared with scatter diagram and ArcGIS nuclear density map,this algorithm has high efficiency of being expressive and user-friendly.
Key words:geotagged data;visualization;heat map;K-means cluster
中圖分類號:P208
文獻標識碼:A
文章編號:1006-7949(2016)06-0028-05
作者簡介:趙婷(1987-),女,研究生.
基金項目:國家自然科學基金青年科學基金項目(41401467);國家自然科學基金面上項目(41471336);國家自然科學基金(41271450);國家科技支撐計劃(2012BAK12B02)
收稿日期:2015-05-18