摘" 要:隨著全球氣候變暖情況的嚴(yán)重,城市內(nèi)澇現(xiàn)象頻發(fā),對(duì)人們生活和城市運(yùn)行產(chǎn)生嚴(yán)重影響。通過社交媒體對(duì)數(shù)據(jù)進(jìn)行采集和挖掘,解決傳統(tǒng)的災(zāi)害信息收集效率低、全域覆蓋困難等問題,在災(zāi)害應(yīng)急管理中發(fā)揮著關(guān)鍵作用。圍繞對(duì)社交媒體內(nèi)澇數(shù)據(jù)的采集、主題挖掘的關(guān)鍵技術(shù)方法,梳理國(guó)內(nèi)外相關(guān)文獻(xiàn),進(jìn)行必要的評(píng)述分析。最后,對(duì)現(xiàn)有研究存在的問題和未來發(fā)展趨勢(shì)進(jìn)行總結(jié)與展望。旨在為城市內(nèi)澇數(shù)據(jù)采集、主題挖掘研究提供理論和方法支持,也為城市內(nèi)澇災(zāi)害分析和管理提供參考。
關(guān)鍵詞:社交媒體;災(zāi)害信息收集;城市內(nèi)澇;數(shù)據(jù)采集;主題挖掘
中圖分類號(hào):P429" " " 文獻(xiàn)標(biāo)志碼:A" " " " " 文章編號(hào):2095-2945(2024)32-0079-04
Abstract: With the serious global warming, urban waterlogging has occurred frequently, which has had a serious impact on people's lives and urban operations. Collecting and mining data through social media solves the problems of low efficiency and difficulty in full coverage of traditional disaster information collection, and plays a key role in disaster emergency management. Focusing on the key technical methods of collecting waterlogging data and mining topics on social media, this paper combs through relevant domestic and foreign literature and conducts necessary reviews and analyses. Finally, the problems existing in existing research and future development trends are summarized and prospected. It aims to provide theoretical and methodological support for urban waterlogging data collection and topic mining research, and also provide reference for urban waterlogging disaster analysis and management.
Keywords: social media; disaster information collection; urban flooding; data collection; topic mining
隨著極端天氣的增多和城市化進(jìn)程步伐的加快,城市內(nèi)澇現(xiàn)象頻發(fā),已經(jīng)嚴(yán)重影響到了城市居民生產(chǎn)生活以及城市經(jīng)濟(jì)社會(huì)的可持續(xù)發(fā)展,給人民的生命財(cái)產(chǎn)安全構(gòu)成了巨大的威脅[1]。因此,及時(shí)準(zhǔn)確地掌握城市內(nèi)澇信息,對(duì)災(zāi)害應(yīng)急管理和防災(zāi)減災(zāi)至關(guān)重要[2]。城市內(nèi)澇信息獲取途徑眾多,相比傳統(tǒng)的災(zāi)害信息獲取方法,社交媒體數(shù)據(jù)具有實(shí)時(shí)性強(qiáng)、基數(shù)大、來源廣泛、獲取成本低和內(nèi)容綜合程度高等優(yōu)點(diǎn)[3],被越來越多地應(yīng)用于災(zāi)害的監(jiān)測(cè)和災(zāi)情信息的獲取之中[4-5]。從海量的社交媒體數(shù)據(jù)中篩選出與內(nèi)澇相關(guān)的信息進(jìn)行主題挖掘,可以為城市的防汛救災(zāi)應(yīng)急管理提供決策支持,可以為災(zāi)情響應(yīng)和評(píng)估提供有力支持[6]。
1" 城市內(nèi)澇主題挖掘綜合架構(gòu)
數(shù)據(jù)采集是基于社交媒體城市內(nèi)澇主題挖掘整個(gè)架構(gòu)中的基礎(chǔ),采集到的原始數(shù)據(jù)需要先經(jīng)過預(yù)處理。主題挖掘是整個(gè)架構(gòu)中的核心,用于從預(yù)處理后的數(shù)據(jù)中自動(dòng)識(shí)別和提取核心概念或主題,以便后續(xù)分析工作的進(jìn)行。基于社交媒體數(shù)據(jù)的城市內(nèi)澇主題挖掘綜合結(jié)構(gòu)圖如圖1所示。
2" 城市內(nèi)澇數(shù)據(jù)采集技術(shù)
2.1" 網(wǎng)絡(luò)爬蟲
網(wǎng)絡(luò)爬蟲,用于自動(dòng)化地在互聯(lián)網(wǎng)上搜集信息和提取數(shù)據(jù)。通過模擬用戶瀏覽器的行為,遍歷網(wǎng)站的不同頁面,從中提取、解析出有用的信息,并將其存儲(chǔ)以供后續(xù)使用[7]。在實(shí)際操作中,首先發(fā)送HTTP請(qǐng)求以獲取目標(biāo)網(wǎng)頁的數(shù)據(jù),可以通過編程語言中的網(wǎng)絡(luò)請(qǐng)求庫來實(shí)現(xiàn)。接下來解析數(shù)據(jù)以提取出所需的特定信息,最后將解析出來有用的數(shù)據(jù)存儲(chǔ)起來。爬蟲的框架眾多,如Selenium、Scrapy[8]、Crawley、Heritrix、StormCrawler等,每種都有其各自的優(yōu)缺點(diǎn),可以根據(jù)需求選擇合適的爬蟲程序。
2.2" 基于官方API接口
許多社交媒體平臺(tái)提供了官方開放的API接口,允許開發(fā)者通過這些接口獲取用戶公開的數(shù)據(jù)或經(jīng)過授權(quán)的私有數(shù)據(jù)。與網(wǎng)絡(luò)爬蟲相比,官方API提供了更加直接和結(jié)構(gòu)化的數(shù)據(jù)訪問途徑,更加簡(jiǎn)潔方便和快速高效。例如,通過訪問微博官方提供的高級(jí)搜索API,地址為'https://s.weibo.com/weibo?q=大暴雨amp;typeall=1amp;suball=1amp;timescope=custom:2021-07-20-18:2021-07-21-18amp;Refer=g',可根據(jù)檢索條件設(shè)置初始的接口,獲取到更為精確的與城市內(nèi)澇相關(guān)的微博數(shù)據(jù)。
2.3" 基于第三方平臺(tái)
第三方平臺(tái)通常提供了用戶友好的界面和豐富的功能,顯著提升了數(shù)據(jù)獲取的靈活性和便捷性。例如,Hootsuite是一個(gè)流行的社交媒體管理平臺(tái),支持多平臺(tái)的數(shù)據(jù)管理和分析;Sprout Social提供了社交媒體的管理、監(jiān)控、分析等功能,支持多個(gè)平臺(tái)的數(shù)據(jù)采集。在選擇適合的第三方平臺(tái)時(shí),用戶必須綜合考慮多個(gè)關(guān)鍵因素,包括平臺(tái)的穩(wěn)定性和可靠性,數(shù)據(jù)采集的全面性,平臺(tái)的易用性,以及成本因素。
上述3種采集技術(shù)的優(yōu)缺點(diǎn)見表1。
3" 城市內(nèi)澇主題挖掘技術(shù)
3.1" 基于語義分析
基于語義分析的方法在城市內(nèi)澇主題挖掘中,著重于深入理解社交媒體文本中的語義內(nèi)容。這種方法通過句法分析、語義詞典和本體等技術(shù),能夠揭示用戶對(duì)內(nèi)澇事件的復(fù)雜認(rèn)知和態(tài)度。適用于分析城市內(nèi)澇數(shù)據(jù)中用戶的情感、態(tài)度等潛在信息。通過句法分析,研究者可以識(shí)別出用戶對(duì)事件的不同看法和情感傾向,從而更準(zhǔn)確地把握公眾對(duì)城市內(nèi)澇問題的反應(yīng);此外,詞匯鏈分析通過追蹤特定主題或概念在社交媒體上的演變,有助于研究者理解公眾關(guān)注的焦點(diǎn)是如何隨時(shí)間變化的。然而在實(shí)際應(yīng)用中可能面臨數(shù)據(jù)量大、處理復(fù)雜度高的挑戰(zhàn)[9],需要結(jié)合其他方法提高主題挖掘的準(zhǔn)確率。
3.2" 基于統(tǒng)計(jì)特征
基于統(tǒng)計(jì)特征的方法主要依賴于對(duì)文本數(shù)據(jù)中詞匯的統(tǒng)計(jì)分析來識(shí)別主題和概念,通過分析社交媒體文本中關(guān)鍵詞出現(xiàn)的頻率來識(shí)別和評(píng)估詞匯的重要性。適用于快速發(fā)現(xiàn)城市內(nèi)澇數(shù)據(jù)中的熱點(diǎn)話題或趨勢(shì),對(duì)城市內(nèi)澇關(guān)鍵詞進(jìn)行提取,以及熱點(diǎn)事件進(jìn)行監(jiān)控。通過詞頻統(tǒng)計(jì)進(jìn)行自動(dòng)標(biāo)引,研究者可以識(shí)別文本中的高頻詞匯。TF-IDF是一種目前廣泛使用的詞頻加權(quán)技術(shù),用于提取關(guān)鍵詞或主題詞,快速識(shí)別出討論的熱點(diǎn)和趨勢(shì)[10];此外,共詞分析則進(jìn)一步揭示了不同詞匯之間的關(guān)聯(lián)性,幫助研究者發(fā)現(xiàn)社交媒體用戶關(guān)注的內(nèi)澇相關(guān)主題和議題;詞袋模型也是一種簡(jiǎn)單而強(qiáng)大的文本表示方法,通過統(tǒng)計(jì)文檔中詞匯的出現(xiàn)次數(shù)來捕捉文本信息[11]。
3.3" 基于圖挖掘
圖挖掘?qū)W⒂趶膱D結(jié)構(gòu)數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的模式和信息,圖由節(jié)點(diǎn)和邊構(gòu)成,節(jié)點(diǎn)表示實(shí)體或?qū)ο螅厔t表示節(jié)點(diǎn)之間的關(guān)系或連接,能清晰反映文本中的對(duì)象和關(guān)系。適用于揭示社交媒體中用戶之間的互動(dòng)模式或城市內(nèi)澇主題關(guān)聯(lián),對(duì)社交媒體輿情傳播進(jìn)行分析。通過構(gòu)建文本數(shù)據(jù)的圖結(jié)構(gòu)來識(shí)別城市內(nèi)澇關(guān)鍵主題和概念,郭紅梅等[12]基于圖挖掘的文本主題識(shí)別方法寫出研究綜述。TextRank模型是圖挖掘的經(jīng)典算法,通過評(píng)估文本中各個(gè)節(jié)點(diǎn)的重要性,識(shí)別出社交媒體討論中最為核心和關(guān)鍵的主題。
3.4" 基于機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)技術(shù)在城市內(nèi)澇主題挖掘中的應(yīng)用,主要體現(xiàn)在通過訓(xùn)練模型自動(dòng)識(shí)別文本數(shù)據(jù)中的關(guān)鍵主題。適用于大規(guī)模城市內(nèi)澇數(shù)據(jù)的分類、主題聚類以及預(yù)測(cè)等任務(wù)。基于主題概率模型的機(jī)器學(xué)習(xí)主題挖掘算法,最為常見的有LDA,被廣泛應(yīng)用于發(fā)現(xiàn)和分析隱含的主題結(jié)構(gòu)。通過概率分布的方式,將文檔中的詞匯映射到潛在的主題空間,從而自動(dòng)識(shí)別出一系列主題,并將文檔分配到相應(yīng)的主題中[13];此外,BTM模型特別適用于短文本數(shù)據(jù),能夠更有效地處理社交媒體短文本中的詞匯稀疏性問題[14];支持向量機(jī)算法可以用于提取社交媒體文本中的關(guān)鍵詞并分類,進(jìn)一步對(duì)內(nèi)澇信息聚合,可實(shí)現(xiàn)對(duì)新獲取的數(shù)據(jù)自動(dòng)進(jìn)行主題分類[15]。雖然基于機(jī)器學(xué)習(xí)的主題挖掘模型和算法有很多,但可能面臨過擬合、模型泛化能力不足等問題,需要調(diào)整模型參數(shù)、選擇合適的特征和算法來優(yōu)化模型性能,進(jìn)一步提高準(zhǔn)確性和效率。
3.5" 基于深度學(xué)習(xí)
結(jié)合深度學(xué)習(xí)的強(qiáng)大表示能力和傳統(tǒng)主題模型的語義分析優(yōu)勢(shì),可以從社交媒體文本中高精度地識(shí)別出與城市內(nèi)澇相關(guān)的信息。適用于復(fù)雜的文本處理任務(wù),如自動(dòng)生成文本摘要、語義匹配和理解用戶情感等。利用神經(jīng)網(wǎng)絡(luò)的主題挖掘模型,使用神經(jīng)網(wǎng)絡(luò)來捕捉文檔中詞匯的語義信息,并用于主題建模[16];此外,基于雙向LSTM語義強(qiáng)化的概率主題模型,利用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)構(gòu)建文檔的語義向量,分別從文檔-主題、詞匯-詞匯2個(gè)角度進(jìn)行GPU強(qiáng)化[17]。實(shí)際應(yīng)用中需要考慮計(jì)算資源消耗大、數(shù)據(jù)需求量大、可解釋性差等多個(gè)方面,研究者需要在模型設(shè)計(jì)、訓(xùn)練策略、數(shù)據(jù)處理和評(píng)估方法等方面進(jìn)行創(chuàng)新和改進(jìn)。
上述5種技術(shù)的優(yōu)缺點(diǎn)見表2。
4" 結(jié)論
現(xiàn)有對(duì)社交媒體數(shù)據(jù)的城市內(nèi)澇主題挖掘取得了一定的進(jìn)展,但仍存在一些問題和挑戰(zhàn)。首先,社交媒體數(shù)據(jù)的噪聲和非結(jié)構(gòu)化特性使得數(shù)據(jù)預(yù)處理和清洗成為一項(xiàng)重要而復(fù)雜的任務(wù)。其次,不同社交媒體平臺(tái)的數(shù)據(jù)特性和訪問限制增加了數(shù)據(jù)采集的難度。此外,仍需進(jìn)一步提高準(zhǔn)確性和效率,尤其是在處理大規(guī)模數(shù)據(jù)集時(shí)。未來的發(fā)展趨勢(shì)可能包括:①開發(fā)更先進(jìn)的自然語言處理算法,以更好地理解和挖掘分析社交媒體數(shù)據(jù);②利用深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)技術(shù)來提高城市內(nèi)澇主題挖掘的準(zhǔn)確性和自動(dòng)化程度;③結(jié)合地理信息系統(tǒng)和物聯(lián)網(wǎng)技術(shù),實(shí)現(xiàn)更精細(xì)化的時(shí)空分布規(guī)律分析;④加強(qiáng)跨學(xué)科合作,整合氣象、城市規(guī)劃、環(huán)境科學(xué)等領(lǐng)域的知識(shí),以全面提升城市內(nèi)澇災(zāi)害管理的科學(xué)性和有效性。隨著技術(shù)的進(jìn)步和社會(huì)的發(fā)展,城市內(nèi)澇主題挖掘的研究將更加深入和廣泛,為城市管理和災(zāi)害響應(yīng)提供更有力的支持。
參考文獻(xiàn):
[1] 李雅嫻.基于社交媒體數(shù)據(jù)的極端天氣對(duì)城市公眾影響測(cè)度研究[D].西安:長(zhǎng)安大學(xué),2023.
[2] 李智星.基于機(jī)器學(xué)習(xí)的城市內(nèi)澇快速模擬預(yù)報(bào)方法研究[D].西安:西安理工大學(xué),2024.
[3] 鄔柯杰,吳吉東,葉夢(mèng)琪.社交媒體數(shù)據(jù)在自然災(zāi)害應(yīng)急管理中的應(yīng)用研究綜述[J].地理科學(xué)進(jìn)展,2020,39(8):1412-1422.
[4] 肖楊.基于微博文本的暴雨內(nèi)澇災(zāi)情判別與輿情研究[D].南京:南京信息工程大學(xué),2020.
[5] 胡文翰.城市內(nèi)澇脆弱性評(píng)估及時(shí)空分異研究[D].北京:北京建筑大學(xué),2024.
[6] 梁春陽.基于社交媒體的臺(tái)風(fēng)災(zāi)情信息抽取方法研究[D].福州:福建師范大學(xué),2020.
[7] 薄濤.基于社交媒體的地震災(zāi)情數(shù)據(jù)挖掘與烈度快速評(píng)估應(yīng)用[D].哈爾濱:中國(guó)地震局工程力學(xué)研究所,2020.
[8] 宋雅蓉,王譯啡.基于LDA模型和情感分析的網(wǎng)上教學(xué)輿情分析研究[J].網(wǎng)絡(luò)空間安全,2023,14(1):112-118.
[9] 周心悅,許項(xiàng)東.交通相關(guān)學(xué)科研究生學(xué)位論文主題挖掘與演化分析[J].交通與運(yùn)輸,2023,39(6):65-71.
[10] AWAJAN A. Keyword extraction from Arabic documents using term equivalence classes[J].ACM Transactions on Asian and Low-Resource Language Information Processing,2015,14(2):1-18.
[11] 閻亞亞.詞袋模型和TF-IDF在文本分類中的比較研究[J].電腦知識(shí)與技術(shù),2021,17(28):138-140.
[12] 郭紅梅,張智雄.基于圖挖掘的文本主題識(shí)別方法研究綜述[J].中國(guó)圖書館學(xué)報(bào),2015,41(6):97-108.
[13] 黃晶,李夢(mèng)晗,康晉樂,等.基于社交媒體的暴雨災(zāi)情信息實(shí)時(shí)挖掘與分析——以2019年“4·11深圳暴雨”為例[J].水利經(jīng)濟(jì),2021,39(2):86-94,98.
[14] 何旭濤.基于BTM主題模型的微博輿情動(dòng)態(tài)畫像研究[D].秦皇島:燕山大學(xué),2023.
[15] 周銳.基于社交媒體的城市內(nèi)澇災(zāi)害信息實(shí)時(shí)挖掘與分析[D].武漢:華中科技大學(xué),2021.
[16] 楊利君.微博用戶長(zhǎng)短期興趣挖掘及推薦算法研究[D].邯鄲:河北工程大學(xué),2023.
[17] 彭敏,楊紹雄,朱佳暉.基于雙向LSTM語義強(qiáng)化的主題建模[J].中文信息學(xué)報(bào),2018,32(4):40-49.