999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合遙感與社會感知數(shù)據(jù)的城市土地利用分類方法

2023-01-17 02:16:38吳郁文林杰
浙江大學學報(理學版) 2023年1期
關(guān)鍵詞:分類特征用戶

吳郁文,林杰*

融合遙感與社會感知數(shù)據(jù)的城市土地利用分類方法

吳郁文1,2,林杰1,2*

(1.浙江大學 地球科學學院,浙江 杭州 310027; 2.浙江大學 地理與空間信息研究所,浙江 杭州 310027)

傳統(tǒng)的土地利用分類方法大多基于對資料或影像的人工解譯,存在一定的局限性。近年來,結(jié)合空間大數(shù)據(jù)和自然語言處理技術(shù)進行低成本快速的土地資源管理已成為研究熱點。以美國紐約市曼哈頓區(qū)為例,提出了融合遙感影像和社會感知數(shù)據(jù)的城市土地利用分類方法。從遙感影像中提取光譜特征、從推特數(shù)據(jù)中提取用戶活動時空和主題特征,基于隨機森林法和深度神經(jīng)網(wǎng)絡(luò)法,構(gòu)建了細粒度的城市土地利用分類模型。通過對比不同特征組合分類方法的精度,得到結(jié)合光譜特征和用戶活動時空、主題特征的深度神經(jīng)網(wǎng)絡(luò)方法的結(jié)果最優(yōu),總體精度達82.65%,Kappa系數(shù)為70.1%。結(jié)果表明,社會感知數(shù)據(jù)中隱含的用戶活動時空模式和活動主題信息均有助于提高城市土地利用分類的精度,而神經(jīng)網(wǎng)絡(luò)法可有效融合多源數(shù)據(jù),為快速、低成本獲取城市土地利用信息提供了新的途徑。

土地利用分類;遙感;社會感知;隨機森林;深度神經(jīng)網(wǎng)絡(luò)

城市土地利用信息一定程度上反映社會的經(jīng)濟功能,細粒度的城市土地利用數(shù)據(jù)在城市土地規(guī)劃、自然災(zāi)害監(jiān)測、環(huán)境脆弱性評估等領(lǐng)域有重要應(yīng)用[1]。傳統(tǒng)的細粒度土地利用數(shù)據(jù)大多來自人工解譯圖像或?qū)嵉乜疾欤@取較耗時,不適合用于監(jiān)測土地利用變化。隨著遙感技術(shù)的快速發(fā)展,大量遙感影像精細提取后可作為城市土地利用信息[2]。然而,由于基于像元的遙感影像分類方法得到的結(jié)果在空間上不連續(xù),不能很好地表征城市土地利用格局[3]。而且城市中相同類型的土地可能具有不同的物理性質(zhì)(如頂棚覆蓋材料不同的房屋),而不同類型的土地也可能呈現(xiàn)相同或相似的光譜特征(例如瀝青道路和停車場),僅采用影像分類易造成誤判。由于遙感影像只反映土地的物理信息,無法反映城市社會經(jīng)濟活動與土地利用類型的相互作用[4]。因此,僅使用遙感影像進行土地利用分類的方法難以適應(yīng)種類多樣、結(jié)構(gòu)復(fù)雜的城市地塊分類問題。

近年來,GPS設(shè)備的普及和基于位置的服務(wù)快速發(fā)展,產(chǎn)生了許多與位置相關(guān)的大數(shù)據(jù)。這些社會感知數(shù)據(jù)因能有效捕捉社會經(jīng)濟特征,可作為遙感數(shù)據(jù)的補充[5]。其中,社交媒體數(shù)據(jù)因包含了豐富的人群社會經(jīng)濟活動信息,常被輔助用于城市土地利用分類[6]。社交媒體推特(Twitter),因用戶體量大、活躍度高,且數(shù)據(jù)開源,可免費實時獲取,故用帶有地理標記的推特數(shù)據(jù)進行低成本、高效的城市土地利用分類逐漸成為近年的研究熱點。如JIANG等[7]比較了基于推特和基于谷歌社區(qū)手機定位2種方式挖掘得到的人群移動模式,發(fā)現(xiàn)二者的結(jié)果類似,說明可以從推特數(shù)據(jù)中提取人群活動時空信息進行土地利用分類。KOZLOWSKA等[8]按照預(yù)定義的關(guān)鍵詞將推特劃分為不同主題類別,觀察用戶在不同土地利用類型地塊的活動主題屬性差異。IRANMANESH等[9]用核密度估計法描繪推特在時間和語義(關(guān)鍵詞標注)上的分布,與真實土地類型做相關(guān)分析后發(fā)現(xiàn),結(jié)合推特的時空分布和語義特征有助于區(qū)分城市土地類型。盡管推特數(shù)據(jù)越來越多地被用于城市土地利用分類,但是大多研究只利用社交媒體數(shù)據(jù)的時空分布揭示人群的流動模式[10-12],或利用關(guān)鍵詞標簽粗略劃分推特語義信息[8-9]。而結(jié)合自然語言處理技術(shù)的土地利用分類研究大多基于POI語義特征[13-15],或是對推特的位置預(yù)測[16],得到的結(jié)果空間尺度較大,不能滿足細粒度的城市土地利用分類的數(shù)據(jù)要求。

為填補上述相關(guān)工作的空缺,本文提出了融合遙感與社會感知數(shù)據(jù)的城市土地利用分類方法。如圖1所示,該方法主要分三部分,分別為數(shù)據(jù)獲取及預(yù)處理、特征提取與分析、分類結(jié)果與分析。雖然推特具有開源、易獲取、體量大、用戶活躍度高等優(yōu)勢,但其數(shù)據(jù)質(zhì)量良莠不齊,需要設(shè)計專門的處理方案。受推特數(shù)據(jù)所限,研究難點有二:第一,因用戶發(fā)布帶有地理標記推特的喜好和習慣不同,導(dǎo)致數(shù)據(jù)中隱含的用戶人群活動時空記錄相對不完整,干擾時空特征的提取。有些用戶非常頻繁地發(fā)布帶有地理標記的推特,有些用戶發(fā)布的頻率較低或很少附地理標記,使得經(jīng)常發(fā)布帶有地理標記推特的用戶其訪問過的地塊所包含的推特數(shù)量較大,而其余地塊包含的推特數(shù)量較少,即使是相同土地利用類型的地塊,所包含的推特數(shù)量差異也很大。為排除這一干擾,本文基于用戶連續(xù)發(fā)布的推特推斷每個用戶的移動軌跡,以此挖掘用戶活動的時空特征。第二,推特內(nèi)容具有主觀性,難以提取其隱含的用戶活動主題類型信息。推特文本由用戶生成,不僅存在很多俚語、網(wǎng)絡(luò)用語,而且包含的語義信息欠明確。已有研究嘗試利用詞向量技術(shù)對推特文本進行分類,但仍存在大量無法分類的文本,影響分類效果[17]。無法分類的文本,可能是包含了多個主題的交叉類別推特,也可能是不包含與用戶活動類型相關(guān)信息的無效推特。對此,本文設(shè)計了一種從推特文本中提取用戶活動主題類型信息的方法。用傳統(tǒng)的主題概率模型Labeled-LDA代替復(fù)雜的詞向量模型,用Foursquare評論文本作為Labeled-LDA模型的訓練集,用Foursquare地點類型作為文本標簽,這樣既避免了人工標注推特文本帶來的人為影響,也考慮了同一土地利用類型地塊可能存在多主題類別推特的問題,并可根據(jù)推特的主題概率分布值方便地過濾無效推特,降低篩選工作量。

圖1 城市土地利用分類框架

本文的主要貢獻如下:

(1)將自然語言處理技術(shù)應(yīng)用于城市土地利用分類研究,設(shè)計了一種從社交媒體文本中挖掘與土地利用類型相關(guān)的語義信息方法。以Foursquare評論文本為參照,訓練Labeled-LDA監(jiān)督模型,從推特文本中提取用戶活動主題類型,并刪除無效推特文本。該方法在數(shù)據(jù)集研究中取得了較好的效果,可推廣至不同城市和社交媒體平臺。

(2)提出了融合遙感與社會感知數(shù)據(jù)的城市土地利用分類方法。將從推特數(shù)據(jù)中提取的用戶活動時空特征和主題特征相結(jié)合,用于城市土地利用分類。通過對比不同特征組合模型的精度,發(fā)現(xiàn)時空特征和主題特征均有助于提高城市土地利用分類精度。充分挖掘了社交媒體數(shù)據(jù)在城市土地利用分類中的應(yīng)用潛力。

(3)方法在紐約市曼哈頓區(qū)的土地利用分類應(yīng)用中,總體精度達82.65%,具有實際意義。對比了不同數(shù)據(jù)和特征的貢獻重要度,量化分析了特征對區(qū)分各土地利用類型的作用;對比分析了隨機森林模型和深度神經(jīng)網(wǎng)絡(luò)模型的分類結(jié)果。

1 數(shù)據(jù)獲取及預(yù)處理

1.1 地塊數(shù)據(jù)

地塊數(shù)據(jù)來自紐約市開放數(shù)據(jù)網(wǎng)站,均為當?shù)卣畡澏ǖ囊?guī)劃功能一致的稅收地塊。經(jīng)裁剪后得到曼哈頓區(qū)共42 808個地塊,根據(jù)建筑物類別將所有地塊劃分為11個土地利用類型,分別為政府機關(guān)用地、商業(yè)服務(wù)用地、文化設(shè)施用地、商務(wù)辦公用地、教育用地、工業(yè)倉儲用地、醫(yī)療衛(wèi)生用地、住宅用地、公園與綠地、交通運輸用地和待建成地。對包含混合功能建筑類別的地塊(如低層商鋪高層住宅樓),用地塊內(nèi)POI主要類型定義其土地利用類型。

1.2 推特數(shù)據(jù)

本研究使用的推特數(shù)據(jù)由基于GESIS網(wǎng)站的紐約市所有帶地理標記的推特ID收集得到。共收集了曼哈頓區(qū)713 767條帶有地理坐標的推特,涉及95 836個用戶。每條推特均含時間戳、地理坐標、文本內(nèi)容及用戶ID信息。為確保后續(xù)分析的正確性,對推特文本進行了預(yù)處理。

1.3Foursquare評論數(shù)據(jù)

用Foursquare場所API在曼哈頓區(qū)收集了65 686個場所信息和335 929條用戶對場所的評論反饋,這些評論可體現(xiàn)被評論場所的功能屬性。考慮Foursquare的原分類體系存在交叉和重復(fù),根據(jù)其可能涉及的活動類型,將所有場所重新劃分為20種類型,并對評論文本進行預(yù)處理。

2 方法

2.1 特征提取

2.1.1地塊光譜特征提取

從美國地質(zhì)勘探局網(wǎng)站下載了曼哈頓區(qū)2014年4月10日的Landsat-8遙感衛(wèi)星影像,云覆蓋率低于5%。對影像進行大氣校正后,提取了該地塊的4個歸一化指數(shù):歸一化植被指數(shù)NDVI,土壤調(diào)節(jié)植被指數(shù)SAVI,歸一化建筑物指數(shù)NDBI和歸一化裸地指數(shù)NDBAI,計算式為:

2.1.2用戶活動時空特征提取

城市人群在不同功能地塊間的流動具有規(guī)律性。本文參考了FALCONE等[18]的研究方法,由同一用戶連續(xù)發(fā)布的推特,挖掘用戶訪問地塊的時空模式,計算了用戶活動時空特征的6個指標,見表1。

表1 用戶活動時空特征指標

2.1.3用戶活動主題類型特征提取

用戶發(fā)表的推特內(nèi)容通常與用戶當前正在進行的活動關(guān)聯(lián)度很大[19],而用戶的活動類型與用戶當前所在地塊的功能屬性密切相關(guān),因此推特中潛在的用戶活動類型信息可用于土地利用分類。推特和Foursquare平臺具有相似性,F(xiàn)oursquare評論可作為推特文本的參照[20-21]。研究中使用的主題模型為Labeled-LDA,其是一種改進的LDA模型,通過將主題限定為已分配的訓練文檔的標簽進行有監(jiān)督的主題挖掘[22]。已有研究表明,Labeled-LDA模型適用于短且主題分布稀疏的文本[23-24]。

首先將所有的Foursquare評論文本按地點劃分或合并為多個文檔,每個地點對應(yīng)一個文檔,并用該地點類型作為文檔標簽。然后將文檔集作為輸入,訓練Labeled-LDA模型,預(yù)測推特的主題概率分布。研究清理了主題概率分布值小于0.1的推特,以排除不包含用戶活動類型信息的無效推特的干擾,計算每個地塊所屬推特的主題概率均值,將其作為該地塊的用戶活動主題特征。為避免分類時變量的共線性對模型的影響,刪除了其中一個主題變量。

2.2分類模型

隨機森林法,由多個學習器結(jié)合完成任務(wù),即使其中一個學習器的結(jié)果錯誤,其他學習器也可能將其糾正,具有較高的精確度;此外,對原始數(shù)據(jù)集進行有放回的隨機采樣,既增加了基學習器的多樣性,也避免了模型過擬合,具有較高的穩(wěn)定性。同時,方法的計算開銷較小,可解釋性強,能評估變量的重要性。

圖2 BP神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)

Fig.2 Architecture of back propagation neural network

2.3 精度評估

通過分層抽樣方法將地塊數(shù)據(jù)集劃分為兩部分,將80%的地塊樣本作為訓練集,另20%作為測試集。由3種特征組合和2種分類方法,共構(gòu)建了6個模型,用測試集的分類混淆矩陣評價模型分類精度,評價指標包括用戶精度、生產(chǎn)者精度、值、總體精度和Kappa系數(shù)。

3 結(jié)果與分析

3.1 分類方法比較

圖3展示了6個模型分類結(jié)果中各類型地塊的用戶精度和生產(chǎn)者精度。其中,特征組合Ⅰ僅使用了光譜特征,特征組合Ⅱ使用了光譜特征和用戶活動時空特征,特征組合Ⅲ使用了光譜特征、用戶活動時空特征和用戶活動主題特征。3個隨機森林模型均經(jīng)過網(wǎng)格搜索進行參數(shù)調(diào)優(yōu),深度神經(jīng)網(wǎng)絡(luò)中也加入了L2正則懲罰,為避免過擬合,設(shè)定學習率為0.001。從總體精度看,基于BP神經(jīng)網(wǎng)絡(luò)的3種特征組合總體精度分別為61.89%,75.56%和82.65%,基于隨機森林的3種特征組合總體精度分別為58.59%,75.32%和81.55%,BP神經(jīng)網(wǎng)絡(luò)的總體精度相對較高,2種方法的總體精度較接近,均能較好地區(qū)分土地利用類型。隨機森林方法是比較成熟的集成模型,穩(wěn)定性好、精度較高、運行速度快。深度神經(jīng)網(wǎng)絡(luò)模型相較傳統(tǒng)邏輯演算機器學習模型的優(yōu)勢是,對數(shù)據(jù)分布沒有任何限制,可以很好地捕捉特征與城市土地利用類型之間的復(fù)雜非線性關(guān)系,但隨著隱藏層數(shù)量的增加,計算時間復(fù)雜度增加。由于BP神經(jīng)網(wǎng)絡(luò)模型的分類精度更高,所以后續(xù)在進行不同特征組合對比和特征重要度計算時均采用BP神經(jīng)網(wǎng)絡(luò)模型的分類結(jié)果。

圖3 不同特征組合和分類方法的分類精度比較

3.2 特征組合比較

基于BP神經(jīng)網(wǎng)絡(luò)的特征組合Ⅰ模型分類結(jié)果的總體精度為61.89%,Kappa系數(shù)為29.30%。表2為該模型的分類結(jié)果混淆矩陣。在所有土地利用類型中,住宅的分類精度最高,其次是待建成地和公園綠地。被誤分類為住宅的地塊數(shù)量最多,政府機關(guān)用地、文化設(shè)施用地、商務(wù)辦公用地、商業(yè)服務(wù)用地、教育用地、工業(yè)倉儲用地、醫(yī)療衛(wèi)生用地和交通運輸用地中有一半以上被誤分為住宅。被誤分為商業(yè)服務(wù)地塊的數(shù)量位居第二。這說明由遙感影像提取的歸一化植被、建筑物和裸地指數(shù)對區(qū)分綠地和待建成地效果明顯,但對其他功能地塊的區(qū)分能力較弱。

表2 僅用光譜特征作為輸入向量的分類結(jié)果混淆矩陣

表3 用光譜特征和用戶活動時空特征作為輸入向量的分類結(jié)果混淆矩陣

注*表示該特征組合的準確度在顯著性水平為0.05、自由度為1時的卡方檢驗較表2有明顯提升。

基于BP神經(jīng)網(wǎng)絡(luò)的特征組合Ⅱ模型分類結(jié)果的總體精度為75.56%,Kappa系數(shù)58.06%。表3為該模型的分類結(jié)果混淆矩陣。將特征組合Ⅱ結(jié)果與特征組合I結(jié)果進行配對卡方檢驗,結(jié)果顯示,增加了用戶活動時空特征后,住宅用地、商務(wù)辦公用地、商業(yè)服務(wù)用地的分類精度顯著提高。政府機關(guān)用地、文化設(shè)施用地、公園與綠地的分類精度也有一定提升,說明這些場所的人群流動規(guī)律特征比較明顯。相對地,工業(yè)倉儲用地、醫(yī)療衛(wèi)生用地、教育用地、交通運輸用地的分類精度改善不大,待建成地的分類精度有所下降。圖4(a)顯示的為推特用戶數(shù)在不同類型地塊之間的差異,可以看出,公園與綠地、商業(yè)服務(wù)用地和文化設(shè)施用地的用戶數(shù)較其他地塊類型多,教育用地、醫(yī)療衛(wèi)生用地和工業(yè)倉儲用地3種類型之間的差距不大。圖4(b)顯示的為推特用戶周末停留時長比例在不同類型地塊之間的差異,可知,公園與綠地和商業(yè)服務(wù)用地的用戶周末停留比例較其他地塊類型高,商務(wù)辦公用地的用戶周末停留比例較其他地塊類型低,其他類型地塊之間的差距都不大。根據(jù)用戶活動時空特征,社交媒體數(shù)據(jù)中體現(xiàn)人群數(shù)量的特征(如推特用戶總量)可用于區(qū)分商業(yè)用地、公園與綠地和文化設(shè)施用地這些休閑娛樂場所,而社交媒體數(shù)據(jù)中體現(xiàn)人群流動模式的特征(如推特用戶周末時段停留比例)可用于區(qū)分商務(wù)辦公用地。將這兩類特征結(jié)合可更好地進行城市土地利用分類。但從社交媒體數(shù)據(jù)中提取的這兩類特征均不能很好地區(qū)分其他非娛樂或辦公性質(zhì)的功能地塊,如教育用地、醫(yī)療衛(wèi)生用地、工業(yè)倉儲用地。原因是用戶經(jīng)常訪問這些日常生活、辦公和休閑娛樂場所,如文化設(shè)施用地、商業(yè)服務(wù)用地、商務(wù)辦公用地、住宅用地、公園與綠地、政府機關(guān)用地和教育用地,所以這些地塊包含帶有地理標記的推特數(shù)量更多,研究提取的人群活動時空特征更具代表性。而用戶訪問工業(yè)倉儲用地、醫(yī)療衛(wèi)生用地、交通運輸用地和待建成地的概率較小,導(dǎo)致所提取的用戶活動時空特征噪聲較大,影響模型的分類效果。

圖4 典型用戶活動時空特征在各土地利用類型上的分布

基于BP神經(jīng)網(wǎng)絡(luò)的特征組合Ⅲ模型分類結(jié)果的總體精度為82.65%,Kappa系數(shù)為70.1%。表4為該模型的分類結(jié)果混淆矩陣。增加了用戶活動主題特征后,所有類型地塊的分類精度均有所提高。其中,住宅用地的分類精度最高,1指數(shù)達87.1%;其次是公園與綠地和文化設(shè)施用地,1指數(shù)分別為86.71%和85.71%;商務(wù)辦公用地和商業(yè)服務(wù)用地的1指數(shù)接近,分別為79.86%和79.01%;政府機關(guān)用地、教育用地、工業(yè)倉儲用地、醫(yī)療衛(wèi)生用地、交通運輸用地和待建成地的分類精度均很高,達到90%以上,有許多被誤分為住宅和商業(yè)服務(wù)用地。與特征組合Ⅱ的分類結(jié)果做配對卡方檢驗,發(fā)現(xiàn)政府機關(guān)用地、文化設(shè)施用地、教育用地、交通運輸用地和醫(yī)療衛(wèi)生用地的分類精度均有顯著提高,說明這些地塊包含的推特文本主題類型與地塊功能類型匹配度高。觀察推特文本數(shù)據(jù)集后發(fā)現(xiàn),某些政府機構(gòu)會發(fā)布一些政務(wù)新聞或?qū)崟r道路信息,醫(yī)療衛(wèi)生機構(gòu)和私人診所也會發(fā)布健康宣傳專欄,大學的社團或?qū)W生組織會發(fā)布校園活動信息,博物館和美術(shù)館會發(fā)布展覽預(yù)告,這些信息均含明顯的主題指向,因此推特文本的主題屬性可幫助判斷地塊的功能類型。

表4 用光譜和用戶活動時空、主題特征作為輸入向量的分類結(jié)果混淆矩陣

注*表示該特征組合的準確度在顯著性水平為0.05、自由度為1時的卡方檢驗較表3有明顯提升。

3.3 分類結(jié)果的局部區(qū)域比較

除對分類結(jié)果進行整體評估外,本文還比較了局部區(qū)域的真實值和預(yù)測值,以深入分析分類模型的性能。選取曼哈頓區(qū)中城和上東2個典型區(qū)域,分類結(jié)果如圖5所示。總體而言,特征組合的局部分類性能與基于全局指標的分類性能一致。

中城是曼哈頓區(qū)的中心,是世界上最大的中央商務(wù)區(qū),也是全美最大的商業(yè)、娛樂、媒體中心和不斷發(fā)展的金融中心。中城有一些著名的建筑,如帝國大廈、克萊斯勒大廈、聯(lián)合國總部、中央車站和洛克菲勒中心以及百老匯和時代廣場等旅游景點。從真實的土地利用分布圖中可以看出,中城(圖5(a)大圈區(qū)域)主要是商業(yè)服務(wù)和商務(wù)辦公用地,夾雜一些住宅、文化設(shè)施用地、交通運輸用地和政府機關(guān)用地。基于特征組合Ⅰ的模型(圖5(b)大圈區(qū)域)誤將大部分商業(yè)服務(wù)和商務(wù)辦公用地劃分為住宅用地,而且未能區(qū)分文化設(shè)施用地、交通運輸用地和政府機關(guān)用地。基于特征組合Ⅱ的模型(圖5(c)大圈區(qū)域)因為添加了推特的時空分布特征,并將其作為輸入向量,在對上述類型區(qū)分上比基于特征組合Ⅰ的模型好。大部分商業(yè)服務(wù)用地和商務(wù)辦公用地能被正確分類,但是不能準確區(qū)分文化設(shè)施用地,交通運輸用地和政府機關(guān)用地在此特征組合的分類結(jié)果中仍然缺失。基于特征組合Ⅲ的模型(圖5(d)大圈區(qū)域)表現(xiàn)最好,所有土地利用類型有相當比例的地塊被正確分類,包括住宅用地、商業(yè)服務(wù)用地、醫(yī)療衛(wèi)生用地、政府機關(guān)用地、工業(yè)倉儲用地和教育用地。

圖5 不同特征組合的分類結(jié)果局部分析

上東(圖5(a)小圈區(qū)域)左靠中央公園,有適合散步的公園大道和豪華的戰(zhàn)前建筑物,右毗鄰依斯特河,有優(yōu)美的水景,是著名的富人區(qū),配備了許多學校和醫(yī)院。中央公園前第五大道周邊有許多博物館。麥迪遜大道是高級商業(yè)街,兩側(cè)有許多時裝店、精品店、豪華酒店。因此,上東的土地利用類型主要為住宅,穿插一些商務(wù)辦公用地、文化設(shè)施用地、教育用地、商業(yè)服務(wù)用地和交通運輸用地。在基于特征組合Ⅰ的模型(圖5(b)小圈區(qū)域)中,大部分住宅用地都被正確分類,部分住宅用地被誤分為商務(wù)辦公用地,有1個教育用地和1個政府機關(guān)用地被正確分類,有近一半的商業(yè)服務(wù)用地被誤分。在基于特征組合Ⅱ的模型(圖5(c)小圈區(qū)域)中,幾乎所有地塊都被劃分為住宅和商業(yè)服務(wù)用地,教育用地、醫(yī)療衛(wèi)生用地和政府機關(guān)用地類型缺失。基于特征組合Ⅲ的模型(圖5(d)小圈區(qū)域)得到的土地利用空間分布最接近于真實情況,大部分地塊都被正確分類了。

3.4 特征重要性分析

為進一步驗證地理標記推特數(shù)據(jù)在城市土地利用分類研究中的可用性,基于BP神經(jīng)網(wǎng)絡(luò)模型計算了各特征對分類模型的貢獻度。雖然隨機森林法的可解釋性很強,可通過計算基尼不純度得到各變量的重要度,但得到的特征重要度偏向于跨度大的數(shù)值特征或基數(shù)高的類別特征,因為這些變量可用于分割數(shù)據(jù)的中間節(jié)點較多[30],只能作為相對參考值。本文采用排列特征重要度方法確定各變量的重要度[31]。通過打亂各輸入對象某一特征值的順序,令計算模型精度下降,精度下降越多,說明該特征對分類的貢獻度越大。

圖6為每個特征的貢獻度,縱軸表示打亂特征順序后模型的平均精度下降值,不同顏色代表不同的特征類型。圖7為各特征對土地利用類型的分類重要度熱力圖,重要度已按行(即各土地利用類型)進行了數(shù)據(jù)歸一化。從整體上看,重要度最高的是地塊的光譜特征,其次是推特數(shù)據(jù)隱含的用戶活動時空特征和主題特征。光譜特征中的NDVI均值和SAVI均值的重要度很高,特別是關(guān)于商務(wù)辦公用地、公園與綠地、工業(yè)倉儲用地和待建成地的分類。NDBI對住宅用地、商務(wù)辦公用地和待建成地的分類重要度也較高。NDBAI對公園與綠地和待建成地的分類重要度較高。在社會感知數(shù)據(jù)提取的特征中,與住宅相關(guān)的主題特征在分類中的貢獻度最大,其次是與寫字樓、餐館和酒吧相關(guān)的主題信息。從圖7中可以看出,這些主題特征關(guān)于住宅用地、商業(yè)服務(wù)用地和商務(wù)辦公用地的重要度較高。其余的主題特征在識別與其相關(guān)的土地利用類型時也表現(xiàn)出較高的重要度。但是娛樂場所、運動場館和旅館這3個相關(guān)主題的重要度較低,說明在這3種類型場所發(fā)布的推特主題復(fù)雜程度較高。在時空特征方面,用戶總數(shù)和周末停留時長比例這2個特征起重要作用,它們對區(qū)分文化設(shè)施用地、商業(yè)服務(wù)用地、商務(wù)辦公用地和待建成地有重要作用。訪問熵特征對區(qū)分住宅用地有重要作用。而用戶日均停留時長和夜間周末停留比例這2個變量的貢獻較其他變量小,可能原因是部分用戶發(fā)布推特時未附地理坐標,導(dǎo)致數(shù)據(jù)不完整,不能很好地體現(xiàn)以日為單位的人群流動規(guī)律。但是當以周末或更大時間尺度為單位時,部分數(shù)據(jù)的缺失對觀察人群流動模式的影響將減小。

圖6 特征重要度比較

圖7 在土地利用分類中特征的重要度比較

4 結(jié)論

基于開源數(shù)據(jù),提出了融合遙感影像和社會感知數(shù)據(jù)的低成本高效城市土地利用分類方法。以紐約市曼哈頓區(qū)為例,從遙感影像中提取地塊的光譜特征,從推特數(shù)據(jù)分布中提取人群社會經(jīng)濟活動的時空特征,從推特文本內(nèi)容中提取用戶活動的主題類型。分別用隨機森林和BP神經(jīng)網(wǎng)絡(luò)2種分類方法,構(gòu)建并比較了6個城市土地利用分類模型。其中,僅考慮光譜特征的分類,混淆程度最高,隨機森林法和BP神經(jīng)網(wǎng)絡(luò)法的總體精度分別為58.59%和61.89%。加入人群活動的時空分布特征后,總體精度分別提高至75.32%和75.56%。再加入用戶活動主題特征后,總體精度分別可達81.55%和82.65%。結(jié)果表明,社會感知數(shù)據(jù)可輔助用于城市土地利用分類。其中,社交媒體數(shù)據(jù)中隱含的用戶活動時空特征可顯著提高住宅用地、商務(wù)辦公用地、商業(yè)服務(wù)用地和文化設(shè)施用地的分類精度,社交媒體文本中隱含的用戶活動主題特征對區(qū)分政府機關(guān)用地、教育用地、交通運輸用地和醫(yī)療衛(wèi)生用地有一定幫助。隨機森林法和BP神經(jīng)網(wǎng)絡(luò)法在本研究區(qū)域均能較好地融合不同數(shù)據(jù)特征進行城市土地利用分類,BP神經(jīng)網(wǎng)絡(luò)法的分類精度略高,隨機森林法的時間復(fù)雜度低且模型的可解釋性強。同時,還進一步對比了不同特征組合模型的分類效果變化情況,用于量化特征的重要度,所得結(jié)論可為其他類似城市的土地利用分類研究做參考。

本文創(chuàng)新性地將自然語言處理技術(shù)中的主題概率模型遷移至城市土地利用分類中,設(shè)計了一種從推特文本中提取與城市土地利用類型相關(guān)的語義信息方法。將與推特文本相似的Foursquare評論文本作為推文的參照,用監(jiān)督主題模型Labeled-LDA從發(fā)布的推特文本中提取用戶正在進行的活動類型信息。實驗結(jié)果表明,該方法考慮了相同類型地塊可能存在多種主題類別的推特,刪除了不能體現(xiàn)地塊功能類型的無關(guān)推特,有效地提取了推特文本中與用戶活動類型相關(guān)的主題信息。

城市建筑通常具有混合社會經(jīng)濟功能,本研究雖然對研究區(qū)域政府提供的稅收地塊進行了細致分割,但仍存在一些混合功能類型的建筑物。未來可結(jié)合其他高精度室內(nèi)定位數(shù)據(jù)做進一步研究,或者為建筑物分配多個類型標簽,構(gòu)建分類模型。另外,本文不涉及社交媒體的用戶屬性信息,如用戶網(wǎng)絡(luò)拓撲結(jié)構(gòu)和用戶標簽,該類特征對城市土地利用類型分類精度的影響尚待進一步研究。

[1] 王協(xié),章孝燦,蘇程. 基于多尺度學習與深度卷積神經(jīng)網(wǎng)絡(luò)的遙感圖像土地利用分類[J]. 浙江大學學報(理學版), 2020, 47(6): 715-723. DOI:10.3785/j.issn.1008-9497.2020.06.009

WANG X, ZHANG X C, SU C, et al. Land use classification of remote sensing images based on multi-scale learning and deep convolution neural network[J]. Journal of Zhejiang University (Science Edition), 2020, 47(6): 715-723. DOI:10.3785/j.issn.1008-9497.2020.06.009

[2] 周珂,楊永清,張儼娜,等. 光學遙感影像土地利用分類方法綜述[J]. 科學技術(shù)與工程, 2021, 21(32): 13603-13613. DOI:10.3969/j.issn.1671-1815.2021. 32.001

ZHOU K, YANG Y Q, ZHANG Y N, et al. Review of land use classification methods based on optical remote sensing images[J]. Science Technology and Engineering, 2021, 21(32): 13603-13613. DOI:10. 3969/j.issn.1671-1815.2021.32.001

[3] JOZDANI S E, JOHNSON B A, CHEN D. Comparing deep neural networks, ensemble classifiers, and support vector machine algorithms for object-based urban land use/land cover classification[J]. Remote Sensing, 2019, 11(14): 1713. DOI:10.3390/rs11141713

[4] LI X T, HU T Y, GONG P, et al. Mapping essential urban land use categories in Beijing with a fast area of interest (AOI)-based method[J]. Remote Sensing, 2021, 13(3): 477. DOI:10.3390/rs13030477

[5] LIU Y, LIU X, GAO S, et al. Social sensing: A new approach to understanding our socioeconomic environments[J]. Annals of the Association of American Geographers, 2015, 105(3): 512-530. DOI:10.1080/00045608.2015.1018773

[6] 陳子龍,王芳,李少英,等. 基于多源數(shù)據(jù)的縣域主導(dǎo)功能類型劃分及其空間結(jié)構(gòu)模式識別[J]. 地球信息科學學報, 2021, 23(12): 2215-2231.

CHEN Z L, WANG F, LI S Y, et al. Classification of county leading function types and pattern recognition of its spatial structure based on multi-source data[J]. Journal of Geo-Information Science, 2021, 23(12): 2215-2231.

[7] JIANG Y Q, HUANG X, LI Z L. Spatiotemporal patterns of human mobility and its association with land use types during COVID-19 in New York city[J]. ISPRS International Journal of Geo-Information, 2021, 10(5): 344. DOI:10.3390/ijgi10050344

[8] KOZLOWSKA A, STEINNOCHER K. Urban activity detection using geo-located Twitter data[J]. GI_Forum, 2020, 2020(8): 15-31.

[9] IRANMANESH A, C?MERT N Z, HO?KARA ? ?. Reading urban land use through spatio-temporal and content analysis of geotagged Twitter data[J]. GeoJournal, 2021: 1-18. DOI:10.1553/giscience2020_01_s15

[10]王潤澤,周鵬,潘悅,等. 基于大數(shù)據(jù)的城市功能區(qū)人口時空聚散模式研究[J]. 地理與地理信息科學, 2022, 38(1): 45-50. DOI:10.3969/j.issn.1672-0504. 2022.01.007

WANG R Z, ZHOU P, PAN Y, et al. Study on spatiotemporal aggregation and dispersion patterns of population in different urban functional areas based on big data[J]. Geography and Geo-Information Science, 2022, 38(1): 45-50. DOI:10.3969/j.issn. 1672-0504.2022.01.007

[11]YIN J J, CHI G Q. Characterizing people's daily activity patterns in the urban environment: A mobility network approach with geographic context-aware twitter data[J]. Annals of the American Association of Geographers, 2021, 111(7): 1967-1987. DOI:10.1080/24694452.2020.1867498

[12]CHEN B, XU B, GONG P. Mapping essential urban land use categories (EULUC) using geospatial big data:Progress, challenges, and opportunities[J]. Big Earth Data, 2021, 5(3): 410-441. DOI:10.1080/24694452.2020.1867498

[13]ZHAI W, BAI X Y, SHI Y, et al. Beyond word2vec: An approach for urban functional region extraction and identification by combining place2vec and POIs[J]. Computers, Environment and Urban Systems, 2019, 74: 1-12. DOI:10.1016/j.compenvurbsys.2018.11.008

[14]ANDRADE R, ALVES A, BENTO C. POI mining for land use classification: A case study[J]. ISPRS International Journal of Geo-Information, 2020, 9(9): 493.

[15]吳琳琳,李曉燕,毛德華,等. 基于遙感和多源地理數(shù)據(jù)的城市土地利用分類[J]. 自然資源遙感, 2022, 34(1): 127-134. DOI:10.6046/zrzyyg.2021061

WU L L, LI X Y, MAO D H, et al. Urban land use classification based on remote sensing and multi-source geographic data[J]. Remote Sensing for Natural Resources, 2022, 34(1): 127-134. DOI:10. 6046/zrzyyg.2021061

[16]TIAN H C, ZHANG M, LUO X Y, et al. Twitter user location inference based on representation learning and label propagation[C]// Proceedings of the Web Conference 2020. New York: Association for Computing Machinery, 2020: 2648-2654. DOI:10. 1145/3366423.3380019

[17]H?BERLE M, WERNER M, ZHU X X. Geo-spatial text-mining from Twitter: A feature space analysis with a view toward building classification in urban regions[J]. European Journal of Remote Sensing, 2019, 52(supp2): 2-11. DOI:10.1080/22797254.2019.1586451

[18]FALCONE D, MASCOLO C, COMITO C, et al. What is this place? Inferring place categories through user patterns identification in geo-tagged tweets[C]// 6th International Conference on Mobile Computing, Applications and Services. Austin: IEEE, 2014: 10-19. DOI:10.4108/icst.mobicase. 2014.257683

[19]CUI R H, AGRAWAL G, RAMNATH R. Tweets can tell: Activity recognition using hybrid long short-term memory model[C]// Proceedings of the 2019 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining. Vancouver: Association for Computing Machinery, 2019: 164-167.

[20]LEE K, GANTI R K, SRIVATSA M, et al. When twitter meets foursquare: Tweet location prediction using foursquare[C]// Proceedings of the 11th International Conference on Mobile and Ubiquitous Systems: Computing, Networking and Services. London: ICST, 2014: 198-207.

[21]HALIMI A, AYDAY E. Profile matching across online social networks[C]// International Conference on Information and Communications Security. Copenhagen: Springer, 2020: 54-70.

[22]RAMAGE D, HALL D, NALLAPATI R, et al. Labeled LDA: A supervised topic model for credit attribution in multi-labeled corpora[C]// Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing. Singapore: Association for Computational linguistics, 2009: 248-256. DOI:10.5555/1699510.1699543

[23]王瑞,龍華,邵玉斌,等. 基于Labeled-LDA模型的文本特征提取方法[J]. 電子測量技術(shù), 2020, 43(1): 141-146. DOI:10.19651/j.cnki.emt.1903246

WANG R, LONG H, SHAO Y B, et al. Text feature extract method based on Labeled-LDA mode[J]. Electronic Measurement Technology, 2020, 43(1):141-146. DOI:10.19651/j.cnki.emt.1903246

[24]QUERCIA D, ASKHAM H, CROWCROFT J. TweetLDA: Supervised topic classification and link prediction in twitter[C]// Proceedings of the 4th Annual ACM Web Science Conference. 2012: 247-250. DOI:10.1145/2380718.2380750

[25]朱曉霞,寧曉剛,王浩,等. 高精度地表覆蓋數(shù)據(jù)優(yōu)化分割的土地利用分類[J]. 測繪科學, 2021, 46(6): 140-149.

ZHU X X, NING X G, WANG G, et al. Land use classification for optimization segmentation based on high-precision land cover data[J]. Science of Surveying and Mapping, 2021, 46(6): 140-149.

[26]李敏,劉國棟,譚凌. 基于隨機森林的土地利用分類與景觀格局分析[J]. 地理空間信息, 2022, 20(2): 51-56. DOI:10.3969/j.issn.1672-4623.2022.02.010

LI M, LIU G D, TAN L. Land use classification and landscape pattern analysis based on random forest method[J]. Geospatial Information, 2022, 20(2): 51-56. DOI:10.3969/j.issn.1672-4623. 2022.02.010

[27]段宇英,湯軍,劉遠剛,等. 基于隨機森林的山西省柳林縣黃土滑坡空間敏感性評價[J]. 地理科學, 2022, 42(2): 343-351.

DUAN Y Y, TANG J, LIU Y G, et al. Spatial sensitivity evaluation of loess landslide in Liulin county, Shanxi based on random forest[J]. Scientia Geographica Sinica, 2022, 42(2): 343-351.

[28]靖娟利,劉兵,徐勇,等. 基于多特征融合的反向傳播神經(jīng)網(wǎng)絡(luò)高分影像分類與變化檢測[J]. 科學技術(shù)與工程, 2021, 21(36): 15378-15385.

JING J L, LIU B, XU Y, et al. High-resolution remote sensing image classification and change detection based on back propagation neural network with multi-feature fusion[J]. Science Technology and Engineering, 2021, 21(36): 15378-15385.

[29]張貝娜,馮震華,張豐,等. 基于時空多視圖BP神經(jīng)網(wǎng)絡(luò)的城市空氣質(zhì)量數(shù)據(jù)補全方法研究[J]. 浙江大學學報(理學版), 2019, 46(6): 737-744. DOI:10. 3785/j.issn.1008-9497.2019.06.016

ZHANG B N, FENG Z H, ZHANG F, et al. Urban air quality data completion method based on spatio-temporal multi-view BP neural network[J]. Journal of Zhejiang University (Science Edition), 2019, 46(6): 737-744. DOI:10.3785/j.issn.1008-9497. 2019.06.016

[30]SANDRI M, ZUCCOLOTTO P. A bias correction algorithm for the Gini variable importance measure in classification trees[J]. Journal of Computational and Graphical Statistics, 2008, 17(3): 611-628. DOI:10.1198/106186008X344522

[31]ALTMANN A, TOLO?I L, SANDER O, et al. Permutation importance: A corrected feature importance measure[J]. Bioinformatics, 2010, 26(10): 1340-1347. DOI:10.1093/bioinformatics/btq134

Integrating remotely sensed and social sensed data for urban land use classification

WU Yuwen1,2, LIN Jie1,2

(1,,310027,;2,310027,)

Traditional land use classification methods are mostly based on labor-intensive interpretation of image, which have certain limitations. In recent years, integrating big data and natural language processing technology to carry out low-cost and rapid land resource management has become a hot issue. Take Manhattan as an example, this paper studies the urban land use classification based on remotely sensed and social sensed data. The spectral features of remotely sensed image, the spatiotemporal pattern of twitter user trajectory and the latent topics of tweet content related to user activity are extracted. Two common classification methods, random forest and deep neural network, are applied to construct urban land use classification models. The highest accuracy is obtained by deep neural network method based on remotely sensed and social sensed data, with overall accuracy at 82.65%, and Kappa at 70.1%. The results show that both spatiotemporal and textual features extracted from social sensed data are of great importance in urban land use classification. And deep neural network can integrate information from multi-source data, which provides a potential way for effectively classifying urban land use with open-source data.

land use classification; remotely sensed; social sensed; random forest; deep neural network

P 237

A

1008?9497(2023)01?083?13

2021?12?08.

國家自然科學基金資助項目(41501423).

吳郁文(1996—),ORCID:https://orcid.org/0000-0002-8726-6287,女,碩士,主要從事時空地理數(shù)據(jù)分析與建模研究.

通信作者,ORCID:https://orcid.org/0000-0003-4106-7474,E-mail:jielin@zju.edu.cn.

猜你喜歡
分類特征用戶
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: www.亚洲一区二区三区| 色亚洲成人| 国产亚洲精久久久久久久91| 99久久精品免费看国产免费软件| 中文字幕乱妇无码AV在线| 自偷自拍三级全三级视频| 中文字幕亚洲综久久2021| 五月婷婷丁香综合| 欧美中文一区| 国产乱视频网站| 色综合久久综合网| 久久永久精品免费视频| 欧美精品H在线播放| 久久女人网| 国产在线观看一区精品| 最新亚洲人成网站在线观看| 日本免费一区视频| 国产精品区视频中文字幕| 国产无遮挡裸体免费视频| 国产精品私拍在线爆乳| www.国产福利| 亚洲精品国产首次亮相| 久久不卡精品| 99久久精彩视频| 夜夜操国产| 黄色免费在线网址| 久久香蕉国产线看观看式| 91伊人国产| 成人免费黄色小视频| 波多野结衣一区二区三区四区视频 | 丁香婷婷久久| 久久人人爽人人爽人人片aV东京热| 亚洲色成人www在线观看| 日韩国产无码一区| 青草午夜精品视频在线观看| 2021国产在线视频| 九九精品在线观看| 制服丝袜 91视频| 久久免费视频播放| 一级做a爰片久久毛片毛片| 国产精品自拍露脸视频| 欧美成人日韩| 日本亚洲最大的色成网站www| 国产精品丝袜在线| 国产一线在线| 91国内视频在线观看| 亚洲欧美国产五月天综合| 丰满少妇αⅴ无码区| 日韩美一区二区| 国产亚洲精久久久久久久91| jizz国产视频| 老司国产精品视频91| 特级毛片8级毛片免费观看| 国产 在线视频无码| 99久久精品免费看国产免费软件| 亚洲精品色AV无码看| 69精品在线观看| 精品国产香蕉伊思人在线| 久久人妻xunleige无码| 五月六月伊人狠狠丁香网| 欧美精品aⅴ在线视频| 色天堂无毒不卡| 啪啪国产视频| 成人福利一区二区视频在线| 自拍亚洲欧美精品| 国产女人爽到高潮的免费视频| 国产小视频a在线观看| 狠狠色噜噜狠狠狠狠色综合久| 无码一区中文字幕| 亚洲中文字幕精品| 国产毛片基地| 免费jizz在线播放| 欧美成人看片一区二区三区 | 亚洲天堂日本| 青青草原国产| 国产美女人喷水在线观看| 欧美激情,国产精品| 亚洲一欧洲中文字幕在线| 日韩国产一区二区三区无码| 色成人综合| 国产网站免费| 超清人妻系列无码专区|