999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

挖掘社交媒體數據探究自然災害時公眾注意力的變化

2022-10-11 12:33:00張曉涵呂金鑫
北京測繪 2022年9期
關鍵詞:文本情感分析

張曉涵 呂金鑫

(山東科技大學 測繪與空間信息學院, 山東 青島 266590)

0 引言

對一般災害來說,遙感技術已成為當下應急減災的重要手段,當災害發生的第一時間,遙感能夠提供受災區域宏觀、連續的災情快照,從而為減災提供有效的數據支持。盡管遙感技術在災害領域應用中仍存在局限性,但隨著科學的進步,高質量遙感數據的不斷涌現,可更大程度上對災情信息進行反饋。而隨著新媒體時代的來臨,正如過去十年所見證的那樣,社交媒體使用量的激增為災難情況下的多向交流提供了巨大的潛力。個人越來越多地使用社交媒體來表達他們對當前情況的需求、意見、描述和緊迫性。因此,大多學者認為社交媒體數據可以作為災害情況下態勢感知和救援需求的指標[1-3]。近幾年,許多人研究了社交媒體社區的信息流在自然災害事件階段的演變模式[4-6],還有部分人專注于災害期間社交媒體文本情感趨勢,例如,有相關研究提出了一種基于情感詞語義規則[7]的情感傾向計算方法[8],以及基于詞向量的話題聚類方法用于對災難發生時的社交媒體數據進行輔助分析[9-12],也有研究在災害主題下通過使用情感詞典對微博短文本進行情緒分析,并在災害應對方面給出指導性建議[13-15]。

語義分析是指綜合運用各類方法,學習或理解一段文本中所表達的語義內容,因此有助于對語言理解的方法基本都可算為語義分析的范疇[16]。本研究以微博文本數據源為主著重討論了一個利用社交媒體數據評估災害影響的框架,綜合運用了語義分析中的批量分詞、元詞頻統計、實體識別以及情感分析等方法,并以2021年10月山西暴雨災害為例,考察了利用微博平臺社交媒體信息提取以告知山西省災害響應和恢復的潛力。

1 研究區域及數據

1.1 研究案例

自2021年10月2日起,山西降雨顯著增強。監測顯示,2日20時至6日20時,忻州南部、呂梁、太原、陽泉、晉中、臨汾、長治累計雨量突破100 mm。其中,太原、陽泉、臨汾、長治、呂梁、晉中等大部分地區創下了10月上旬累計降雨量紀錄。并受持續強降雨影響,多地出現內澇、地質災害、洪水等災情,造成人員傷亡。借此,本研究選取山西省為研究區域,并對一些受暴雨影響較大的城市進行重點分析。

1.2 研究數據

通過網絡爬蟲技術獲取2021年10月1日至2021年10月20日包含山西各城市名稱的且與暴雨相關的微博數據,爬取內容包含每條推文的用戶ID、用戶名、鏈接、發布日期、位置以及文本內容等信息。由于社交媒體數據龐大且嘈雜,他們需要被挖掘和整合才能用于研究抗災能力。挖掘社交媒體數據包括數據清理、文本分析和數據可視化,由于其巨大的數量、不平衡的用戶構成,并且還有一些因為網絡延遲問題導致用戶重復發表的推文,所以對于所獲取的數據我們進行了數據去重、語料清洗和停用詞過濾等數據預處理工作。經初步清洗后的涉災社交媒體數據共10 815條。示例數據如表1所示。

表1 山西暴雨社交媒體示例數據

其中各城市社交媒體數據量占比如圖1所示。

圖1 各城市社交媒體數據量占比

2 研究方法

2.1 關鍵詞抽取

詞頻-逆文檔頻率法(term frequency-inverse document frequency,TF-IDF)是用于數據挖掘的一種加權技術,其中TF是詞頻(term frequency, TF),式中用F表示,詞頻指的是某一個給定的詞語在該文件中出現的次數,這個數字通常會被歸一化。IDF是逆文本頻率指數(inverse document frequency,IDF),式中用FID表示,這是一個詞語普遍重要性的度量。某一特定詞語的IDF,可以由總文件數目除以包含該詞語之文件的數目,再將得到的商取對數。因此,TF-IDF是一種統計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。

TF的計算如式(1)所示。

(1)

式中,Nw是在某一文本中詞條w出現的次數;N是該文本總詞條數。

IDF的計算公式如式(2)所示。

(2)

式中,Y是語料庫的文檔總數;Yw是包含詞條w的文檔數,分母加一是為了避免w未出現在任何文檔中從而導致分母為0的情況。

TF-IDF就是將TF和IDF相乘,如式(3)所示。

(3)

從以上計算公式便可以看出,某一特定文件內的高詞語頻率,以及該詞語在整個文件集合中的低文件頻率,可以產生出高權重的TF-IDF。因此,TF-IDF傾向于過濾掉常見的詞語,保留重要的詞語。

2.2 命名實體識別

關于社交媒體文本的地理命名實體抽取,本文選用中文詞法分析(lexical analysis of Chinese,LAC)模型,LAC是一種聯合的詞法分析模型,輸入采用獨熱編碼(one-hot)方式表示,每一個字有相應的id對應,one-hot序列通過字表轉換為實向量表示的字向量序列,字向量再作為循環單元(gated recurrent units,GRU)的輸入,學習輸入序列的特征表示得到新的特性表示序列,這里還使用一個堆疊的雙向GRU結構來增強學習能力,條件隨機場(conditional random field,CRF)以GRU學習到的特征為輸入,從而可以實現中文分詞、詞性標注、專名識別等功能。在長文本上準確復刻了百度AI開放平臺上的詞法分析算法。效果方面,分詞、詞性、專名識別的整體準確率95.5%;單獨評估專名識別任務,F值87.1%,準確率90.3%,召回率85.4%。

2.3 基于百度的情感分析

百度AI開放平臺提供全球領先的語音、圖像、自然語言處理等多項人工智能技術,我們將預處理后的社交媒體文本數據通過百度的AI接口進行的情感傾向性分析。首先對社交媒體文本數據進行情感語料標注,其中積極、消極語料各標注一千條。然后采用百度AI內置神經網絡訓練模型進行訓練,本次研究所訓練模型相對于百度AI平臺提供模型準確度提升20%左右。情感結果為[-1,1]之間的情感值,當數值越接近-1代表有強烈的消極情感,當數值越接近1代表有強烈的積極情感。

3 結果分析

3.1 公眾區域注意力分析

社交媒體中的位置信息是實現一系列分析的基本參數,但一般公眾發布社交媒體時只有少部分人選擇發送位置,借此本研究考慮利用社交媒體文本中的位置信息來彌補社交媒體位置信息不足的缺點。當災害發生時,處在災害影響范圍的人可能會發布社交媒體以告知災害嚴重性,但不在災害影響范圍的公眾會通過新聞等途徑對災害進行了解,并發布社交媒體對受災嚴重的地區進行討論,所以受公眾談論最多的城市和區域可能是最應收到關注的地方。

借此本研究使用中文詞法分析LAC模型對暴雨中階段社交媒體文本中的位置信息進行抽取,通過地理編碼賦予其坐標值,其中經LAC模型得到的公眾關注區域的前十五,如表2所示。

表2 暴雨期間公眾重點關注區域

根據關注權重將公眾關注高的區域以核密度分析方法進行可視化,從圖2可知,公眾關注的重點區域都在山西省南部,其中太原市受到的關注最多,這是因為太原作為山西省會人口基數相對于其他城市較多,當暴雨對城市道路通行造成影響時自然有較多的人進行關注,值得注意的是位于太原西南方向的平遙古城也受到了較多的關注,這是因為公眾十分擔心強降雨是否會對該世界文化遺產造成實質影響。

圖2 文本位置核密度圖審圖號:晉S(2022)005號

3.2 公眾情感時空分析

本研究依托于EasyDL平臺,選擇高精度且同時兼顧準確率(Precision)和召回率(Recall)的情感分析模型。根據本研究所標注的情感語料,其模型訓練效果如表3所示。

表3 情感分析模型效果 單位:%

從結果精度來看,整體情感預測的準確率達到94.6%,且正向和負向樣本的F值、精確率以及召回率都有著較好的精度結果。這也為我們后續災害背景下的公眾情感值預測提供了科學支持。

3.2.1公眾情感時間演變

我們從時間尺度上對社交媒體文本情感值進行分析,由圖3可看出在災害發生的各個階段積極情感占比始終高于消極情感和中性情感,且積極情感呈現先下降再上升的趨勢,在暴雨中階段達到最低值50%,隨后在暴雨后階段上升至70%。而消極情感的走勢與積極情感呈現相反的趨勢,在暴雨階段達到峰值40%后大幅降落,中性情感占比則是一直維持在10%左右。

圖3 情感趨勢變化

由此可以看得,大部分公眾對這次災害始終抱有積極的態度,就算是暴雨發生最密集的階段積極情感也占據著較高的占比。而在暴雨后更是達到了積極情感占比的峰值,說明盡管暴雨災害對公眾過生活帶來了較大的影響,尤其是暴雨后帶來了滑坡、墻體開裂等所導致的次生災害,但是隨著救援工作和后續修繕工作的展開,公眾始終保持著較為積極的態度。

3.2.2公眾情感空間分布

對于公眾情感分布的空間特征來說,本研究將自身帶有地理位置的微博進行地理展布,并借助漁網圖進行空間分析,以此分析暴雨中和暴雨后階段的公眾情感變化趨勢。借助漁網圖可以高效地統計出格網中所占要素的多少,有助于分析不同區域間的情感狀態。

由圖4的社交媒體文本情感值空間分析可看出,在暴雨中階段山西省南部還是存在大量的消極情感,這也是因為該階段持續的高強度降雨使得公眾的生活受到了影響,但隨著暴雨停止以及全國各地前來支援工作的展開,在暴雨后階段山西省各城市的公眾情感值也基本被積極情感所占據,這也體現了災害各階段情感值的異步性和差異性。社交媒體數據與路網數據相結合可看得在暴雨期間山西省南部道路主干道上存在大量的消極情感,這也證實了交通可達性高的區域受暴雨影響較大。

圖4 公眾情感分布圖

3.3 公眾文本關注熱點分析

對于社交媒體文本關注內容的挖掘,我們首先使用jieba這一成熟的中文分詞python庫完成社交媒體的分詞,隨后通過sklearn中實現的TfidfVectorizer類方法來完成TF-IDF關鍵詞信息抽取,同時在處理過程中設置哈工大停用詞表(stopword)來去掉復雜符號以及無效字詞等數據噪聲,最后根據所得詞頻的權重制作詞云圖,如圖5所示。

(a)暴雨前 (b)暴雨中 (c)暴雨后

通過詞云圖對高詞頻關鍵詞進行可視化展示,過濾了大量的低質文本信息,有助于快速了解災害主題。從圖5可看出災害不同階段的公眾注意力變化,在暴雨前的公眾發布微博中大多是對氣象局做的預警進行討論,所以高詞頻被“天氣”“預計”和“降雨”等所占據,而在暴雨發生階段公眾除了發布一些有關暴雨的實時變化和受損程度外,關注更多的是如何進行災情處理和救援工作,所以該階段的詞頻被“暴雨”“救援”“高速”“滑坡”和“坍塌”等詞所占據,而在暴雨后階段我們可以看出詞云中出現了“文物”“古建筑”“嚴重”等對詞,這是因為山西為中國地上文物最多的省份,據山西省文化廳在《山西省文化資源概況》中公布的文物資源統計數據為:古建筑及歷史建筑約2萬處,其中木構建筑9 000余處,宋、金以前的木構建筑106處,占全國同期木結構建筑物的70%以上;元代以來的古戲臺2 000多座,均居全國之冠。所以當公眾解決暴雨對自身帶來的不利影響后,注意力焦點自然放到了易受暴雨次生災害影響的古建筑上,而相關減災部門在災后也需要仔細排查古建筑的受損情況并進行修繕。

4 結束語

自然災害事件會在很大程度上影響人類的生活,而這一過程也會不可避免地在社交媒體上留下痕跡,社交媒體數據似乎是對傳統數據的有益補充,每個數據都闡述自己的情感和觀念。當通過社交媒體數據對災害發生過程有一個準確理解的時候,可以更有效地降低災害風險。借此我們將社交媒體數據作為災害影響評估的重要數據源。在本研究中我們以2021年10月山西暴雨為例,借助于語義分析的多種文本探測方法對微博涉災社交媒體文本進行深度挖掘,探究了災害期間公眾注意力焦點和情感變化,主要解決在災害發生期間減災人員無法獲取災害發生地的實時狀況的情況。但仍然存在一些不足,本研究采用的數據相對來說較為單一,因此,如何將災害發生過程中所采集到的多源數據進行深度融合將是我們下一步研究的重點。接下來可考慮將社交媒體數據和災害傳統檢測數據進行深度融合,使社交媒體數據和權威數據在災害研究中相互補充。

猜你喜歡
文本情感分析
隱蔽失效適航要求符合性驗證分析
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
電力系統及其自動化發展趨勢分析
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 青青青国产视频手机| 亚洲伊人久久精品影院| 91精品国产综合久久不国产大片| 日韩国产欧美精品在线| 欧美成人精品在线| 久久狠狠色噜噜狠狠狠狠97视色| 国产精品视频观看裸模| 成人毛片免费观看| 亚洲网综合| 喷潮白浆直流在线播放| 国产精品55夜色66夜色| 精品国产免费人成在线观看| 亚洲天堂视频在线免费观看| 天天综合色网| 亚洲精品无码日韩国产不卡| 91精品国产福利| 91成人免费观看在线观看| 超碰91免费人妻| 99re经典视频在线| 国产成人一区免费观看| 久热re国产手机在线观看| 亚洲美女久久| 人妻丰满熟妇av五码区| 亚洲av无码牛牛影视在线二区| 真实国产乱子伦视频| 国产精品欧美日本韩免费一区二区三区不卡| 亚洲欧洲综合| 日韩第一页在线| 新SSS无码手机在线观看| 午夜啪啪福利| 精品视频第一页| 精品久久久久久久久久久| 欧美日韩在线成人| 在线观看国产精品一区| 国产高清无码麻豆精品| 97视频免费在线观看| 区国产精品搜索视频| 她的性爱视频| 国产永久在线视频| 中文字幕1区2区| 国产青青草视频| 免费又黄又爽又猛大片午夜| 国产在线高清一级毛片| 国产黄色爱视频| 日日碰狠狠添天天爽| 欧美精品aⅴ在线视频| 欧美在线视频a| 性视频一区| 欧美日本在线观看| 中文字幕va| 国产一区二区色淫影院| 国产精品分类视频分类一区| 国产精品亚洲专区一区| 欧美精品啪啪| 久青草网站| 欧美亚洲国产日韩电影在线| 精品成人一区二区三区电影 | 久久精品国产在热久久2019 | 欧美伊人色综合久久天天| 色成人亚洲| 亚洲二区视频| 老司机午夜精品视频你懂的| 2020久久国产综合精品swag| av午夜福利一片免费看| 玖玖精品视频在线观看| 久久免费成人| 天天色天天综合网| 免费无码在线观看| 久久午夜夜伦鲁鲁片不卡| 大香伊人久久| 久久国产精品麻豆系列| 国产精品va| 在线看片中文字幕| 国产香蕉一区二区在线网站| 2022精品国偷自产免费观看| 国产精品深爱在线| 久久伊人操| 99精品高清在线播放| 99热这里只有精品国产99| 啦啦啦网站在线观看a毛片| 人妻丰满熟妇αv无码| 国产精品九九视频|