999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結合文本分析和NLP 的水旱災害識別及風險評估研究

2023-10-20 08:30:46馬世榮
水利科技與經濟 2023年10期
關鍵詞:文本模型研究

馬世榮

(珠江水利委員會珠江水利科學研究院,廣州 510630)

0 引 言

廣東省自2020 年起開始出現入汛早、區域性、旱澇交替等情況,各種風險頻發,導致防御形勢極為嚴峻復雜[1]。 因此,研究該地區的水旱災害識別以及風險評估十分迫切。

目前,自然語言處理(Natural Language Processing,NLP)是人工智能中發展與表現極好的技術,可用于解決計算機與人類自然語言的交互問題,其在情感分析、人機對話及觀點挖掘等方面的應用也很成熟[2]。

眾多學者對水旱災害也進行了相關研究。聶明秋等[3]為提升干旱風險評估的準確性,利用核參數密度估計法,建立了綜合干旱指數體系,探究干旱風險的動態變化趨勢。 李蒙等[4]為探究云南小粒咖啡產業發展與干旱災害風險狀況的關系,搭建了干旱風險評估模型,為其產業發展提供針對性措施。 黃國如等[5]通過考慮近期城市洪澇災害頻發的危險性,在綜合洪澇影響因素的基礎上,構建模糊綜合風險評估法,為洪澇災害的管理提供科學依據。

綜上所述,有關水旱災害風險評估的研究已獲得許多成果,但隨著科學技術的發展,NLP 算法能實現更精準的評估結果。 因此,本文基于文本分析與NLP 結合的方式,搭建水旱災害風險評估模型,以保障經濟發展與社會安全穩定。

1 水旱災害風險評估模型的構建

1.1 基于文本分析的水旱災害識別

近年來,全球氣候變暖,引發各地極端天氣頻繁產生,且水旱災害呈現急劇增長的趨勢,已嚴重影響全球的經濟發展和生存環境的保障。因此,本研究從時間維度與空間維度,確定水旱災害的識別,使用文本挖掘與NLP 算法,對技術數據提取基礎數據的水旱災害信息,分析引發水旱災害的影響因素與災害等級之間的關系。 首先對數據進行預處理,后續分析與評估均以該階段的分詞結果為基礎,因此確保其分詞的準確性非常重要。 由于研究的數據多為史料文本數據,因而建立停止詞詞典與水旱相關專有名詞,其中的停止詞詞典為文言文中無實意或意義很小的詞語,專有詞典詞庫由于洪澇和干旱各自的特性,分別建立兩個專有名詞詞典。 分詞方法原理的具體流程見圖1。

圖1 分詞方法的流程

分詞方法的流程如下:首先需要構造前綴詞典,然后判斷劃分的詞是否在前綴詞典中。 若在前綴詞典中,則通過其切分輸入的本文數據,構建對應的位置索引,劃分的尾端所構成的列表是值的映射,再計算所有可能性的切分方式,就可搭建有向無環圖,然后使用動態規劃計算最大概率路徑,最后每到達一個節點,可得前面節點到終點的最大路徑,即可得到分詞結果。 若不在前綴詞典中,就將其作為觀察序列,結果作為狀態序列,在HMM 模型中輸入數據進行訓練,然后用Viterbi 算法求解,最終尋找對應的狀態序列即可輸出分詞結果。 然后進行詞頻分析,研究使用詞頻-逆向文件頻率算法(Word Frequency-Reverse File Frequency,WF-RFF),該算法是一種對字詞評估其對文本數據重要性的統計方法[6]。 其次使用共詞分析法確定關聯詞間的關聯強度,根據統計文檔中詞匯在一篇文檔中共同出現的次數情況,詞匯出現的頻率越多,表明兩個主題之間的關聯越緊密,以此創建共詞網絡圖,尋求其中蘊含的隱藏信息[7]。

研究使用的潛狄利克雷分配主題模型(Latent Dirichlet Allocation,LDA)是在詞與文檔間引入主題,解決一個詞組對應多重含義以及一種含義對應多個詞組的問題[8]。 基于LDA 的災害等級確定步驟如下:首先將文本數據進行分詞,計算每個詞的WF-RFF 值,以此得到文檔的向量化形式,構建詞典形成矩陣;其次設置主題數與先驗參數;然后統計每個詞對應不同主題的頻率以及所有文檔中不同主題出現的頻率,對文檔中的每個詞與主題進行采樣,計算某個位置的詞所屬全部主題的概率,文檔就可得到主題分布的后驗概率,通過樣本可得某位置所在詞對應的主題,按照上述內容可計算所有主題對應的詞分布;最后設定最大循環次數,檢查模型是否收斂,且得到最終的每一年災害等級。 通過上述數據的預處理以及LDA 模型的構建,即可得到在時間維度中基于文本分析的水旱災害識別流程,見圖2。

圖2 在時間維度下基于文本分析的水旱災害識別流程

1.2 結合文本分析與NLP 的水旱災害風險評估模型

水旱災害不僅存在時間規律特性,還具有獨特的空間分布情況,在同一時間維度下,水旱災害在空間的分布狀況是不同的,探究水旱災害發生的空間維度,能為不同區域的預防和應對措施提供科學有效的指導[9]。 研究基于語義檢索和活動窗口匹配算法進行匹配檢索文本數據,將識別的地名與相應發生的災害等級進行匹配。 根據上述方法,可以統計廣東省各區域發生的不同災害等級的水旱災害次數,進而得到各區域水旱災害的空間分布情況。 基于空間維度的水旱災害等級識別過程如下:首先是數據的預處理,確保分詞過程中的準確率;其次確定全部文本數據中表示洪水和干旱不同等級的詞;然后設定滑動窗口,匹配描述水旱等級的詞語與地點,統計各區域不同等級水旱災害發生的頻率,對結果進行補充與校正后,即可取得各區域水旱災害發生的頻數;最后將得到的災害頻數按照發生的次數比例進行劃分,就可得到洪澇與干旱的風險分布情況。

在水旱災害的風險評估中,研究采用正態分布和伯努利大數定律,對數據進行統計分析,以此評估水旱災害發生的風險。 水旱災害的形成進程中,會受到多種因素的影響或多因素共同作用,但根據文本數據情況,研究采用致災因子的危險性作為水旱災害風險的評估指標。 水旱災害的風險評估包含兩部分:一部分是運用時間序列對每年水旱災害等級發生的概率進行評估;另一部分是對研究各區域的不同等級水旱災害發生頻數進行統計。 使用伯努利大數定律確定各區域不同等級水旱災害發生的概率,將這兩部分的內容加權處理,就可準確得到不同區域水旱災害發生風險的情況。 時間序列預測部分采用滑動平均法估計變量的局部均值,即可將更新變量同歷史取值關聯,再設定時間窗口的大小,就可讓更新后的時間點的值使用之前一段時間的平均值[10]。 在運用伯努利大數定律的階段,隨機變量序列為{Un},且序列的均值和其數學期望E(Un)存在,若?ε>0,則有式(1):

式(1)表示隨機變量序列的均值收斂于其數學期望,代表 {Un}服從大數定律。 設nv為n次獨立重復試驗中V事件發生的次數,p為V事件在每次獨立重復試驗中發生的概率,因此對任意正數ε都存在式(2):

式(3)中u存在4 種災害等級,PD(u) 代表未來一年研究區域不同水旱災害等級發生的概率。

綜合上述數據的預處理,通過在時間與空間維度的水旱災害識別與風險評估,就可得到水旱災害風險評估模型,流程見圖3。

2 水旱災害風險評估模型的效果分析

為了驗證研究提出的基于文本分析與NLP結合的水旱災害風險評估模型的效果,首先干旱文本數據在經過分詞預處理后,輸入到LDA 模型進行計算。 根據以往的研究可知,干旱等級的分類至少為4 種,即輕旱、中旱、重旱和特旱,因而主題數目的設定至少在4 以上。 根據文本分析,就可得到不同主題參數的聚類效果,對比結果見圖4。

圖4 參數不同的干旱災害聚類效果對比

將模型進行可視化處理,將權值向量降維處理到三維向量,分別設置簇數為4 與5,最后通過k均值算法就可得到聚類結果。 從圖4 可以觀察到,當K=4 時,模型的聚類效果不是很明顯,不同主題數均向各維度散開;當K=5 時,模型的聚類效果十分明顯,5 種主題數目均聚集在一定的范圍中。

因此,在研究干旱的文本數據時,需要將LDA 模型的主題參數數目設定為5,就可以得到更好的干旱災害聚類效果。 在處理有關洪澇的文本數據時,仍然按照上述過程,同樣根據以往的研究可得洪澇等級為4 種,分別為小、中、大和特大洪水,也就是主題數目的確定至少是4 以上。 采用文本分析,可得到不同主題參數的聚類效果,對比結果見圖5。

圖5 參數不同的洪澇災害聚類效果對比

由圖5 可知,當K=4 時,模型的聚類效果相對較好,4 種主題數目均聚集在一定的范圍中;當K=5 時,模型的聚類效果表現較差,5 種主題數目的離散程度較大。 因此,在研究洪澇的文本數據時,需要將LDA 模型的主題參數數目設定為4,以此能得到更好的洪澇災害聚類效果,為后續的災害等級評估奠定堅實的基礎。 在得到水旱災害風險評估模型更好的參數設定后,就可確定能取得更優秀的結果模型,然后將其應用在實際情況中。

研究選擇廣東省作為應用驗證區域,根據上述模型參數的確定,計算省內各區域的干旱災害風險概率。 按照氣象5 種干旱等級進行劃分,確定廣東省干旱風險等級為低風險、中低風險、中風險、中高風險與高風險5 種。 最后利用研究提出的水旱災害風險評估模型,計算干旱風險發生概率以及干旱災害風險區劃分的界限值,就可得到廣東省干旱災害風險分布情況,結果見圖6。

圖6 廣東省各區域的干旱風險分布情況

從圖6 可以看到,干旱低風險區集中分布在韶關市、湛江市與東莞市;干旱中低風險區集中分布在河源市、清遠市、廣州市、珠海市和汕頭市;干旱中風險區分布在深圳市、中山市、肇慶市和潮州市;干旱中高風險區分布在梅州市、佛山市、云浮市、茂名市與陽江市;干旱高風險區主要分布在江門市與揭陽市。 通過模型參數的確定,按照氣象4 種洪澇等級進行劃分,可確定廣東省洪澇風險等級為低風險、中低風險、中風險、中高風險與高風險5 種。 最后利用水旱災害風險評估模型進行計算與統計,即可得到廣東省洪澇災害風險與水系分布情況,結果見圖7。

由圖7 可知,洪澇低風險區集中分布在茂名市、湛江市、陽江市、珠海市、中山市、深圳市與惠州市;洪澇中低風險區集中分布在肇慶市、佛山市、汕尾市、揭陽市、汕頭市、東莞市和梅州市;洪澇中風險區分布在陽江市、江門市、云浮市、廣州市、清遠市與河源市;洪澇中高風險區與高風險區均分布在韶關市。 自古以來,北江水系的周圍區域極易發生洪澇災害,這與研究通過文本分析得到的洪澇風險分布結果保持一致。 根據上述研究結果,可以驗證研究提出的水旱災害風險評估模型的準確性與實用性。

3 結 論

為了評估水旱災害發生的風險,協助高風險區域制定保障安全措施,本文采用文本分析與NLP 結合的方法,構建水旱災害風險評估模型。結果顯示,在該模型性能驗證部分,當K=5 時,干旱的聚類效果最好;當K=4 時,洪澇的聚類效果最好。 在檢驗該模型的使用效果時,廣東省干旱中高風險區域集中分布在東北與西南地區,洪澇中高風險區域主要分布在西北地區,均與實際情況保持一致。 表明研究提出的水旱災害風險預測模型在實際運用中表現十分優異,準確性極高。

猜你喜歡
文本模型研究
一半模型
FMS與YBT相關性的實證研究
遼代千人邑研究述論
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
在808DA上文本顯示的改善
EMA伺服控制系統研究
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
主站蜘蛛池模板: 免费无码一区二区| 亚洲永久视频| 刘亦菲一区二区在线观看| 国产精品成人一区二区不卡| 国产91丝袜在线播放动漫 | 激情乱人伦| 91视频精品| 国产成人精品一区二区不卡| 2048国产精品原创综合在线| 中文字幕在线看| 精品国产aⅴ一区二区三区| av尤物免费在线观看| 黄色三级网站免费| 亚洲性视频网站| 国产裸舞福利在线视频合集| 日本一区高清| 日本少妇又色又爽又高潮| 亚洲狠狠婷婷综合久久久久| 免费av一区二区三区在线| 免费激情网址| 亚洲精品高清视频| A级毛片高清免费视频就| 亚洲自拍另类| 91精品免费久久久| 国产精品无码制服丝袜| 亚洲国产亚综合在线区| 日本一区二区三区精品视频| AV不卡国产在线观看| 无码人妻免费| 中文字幕欧美日韩| 在线欧美一区| 成人在线观看不卡| 国产成人精品午夜视频'| 国产男女免费完整版视频| 色播五月婷婷| 亚洲男人的天堂在线| 五月丁香伊人啪啪手机免费观看| 沈阳少妇高潮在线| 久久久精品无码一二三区| 欧美午夜小视频| 欧美视频二区| 亚洲一级毛片免费观看| 五月婷婷导航| 71pao成人国产永久免费视频| 8090午夜无码专区| 国产欧美精品一区aⅴ影院| 精品乱码久久久久久久| 国产午夜不卡| 99re经典视频在线| 国产SUV精品一区二区6| 乱人伦中文视频在线观看免费| 国产91丝袜在线观看| 久久久久夜色精品波多野结衣| 国产精品美女网站| 亚洲妓女综合网995久久| 国产男女免费视频| 欧美三级自拍| 久久精品波多野结衣| 国产精品亚洲一区二区三区z| 欧美翘臀一区二区三区| 日韩视频免费| 国产精品无码AV片在线观看播放| 国产成人亚洲综合A∨在线播放 | 成人av专区精品无码国产| 日韩无码视频专区| 毛片在线播放网址| 国产成人a在线观看视频| 日韩欧美中文字幕一本| 91欧美亚洲国产五月天| 欧美一级视频免费| 久久精品最新免费国产成人| 99热亚洲精品6码| 中文字幕无码电影| 亚洲综合一区国产精品| 亚洲午夜18| 国产女人在线| 免费国产小视频在线观看| 亚洲日韩图片专区第1页| 夜夜拍夜夜爽| 高清国产在线| 激情爆乳一区二区| 经典三级久久|