關鍵詞:泥石流災害;知識抽取;質量評估;知識融合;Word2Vec
中圖分類號:P694文獻標志碼:A doi:10.3969/j.issn.1000-1379.2025.07.016
引用格式:,,,等.基于Word2Vec模型的泥石流多源災害數據融合研究[J].人民黃河,2025,47(7):97-102.
Research on Multi-Source Debris Flow Disaster Data Fusion Based on Word2Vec Model
JIN Lei1,XU Peng2,LI Jie2,CAI Yingchun1,3,YANG Haibo1,3
(1.School of Water Conservancy and Transportation, Zhengzhou University, Zhengzhou 45ooo1,China; 2.Guiyang Engineering Corporation Limited,Power Construction Corporation of China,Guiyang 550081,China; 3.NationalKeyLaboratoryofTunnel Boring MachineandInteligentOperationand Maintenance,Zhengzhou450oo1,China) Abstract:Underkgdofdeelotoftateodtialteleles,s flowdisastersisilseitactesgiuouedessdaillo tionmodellibrasuchsjbdLteadectustucuredebrsfsastedatabseetlygegaigl intoadatabasetoachevedatafusionBymappingwodsintoaigdimesioalspacetrouhteWordVecodel,texualvocablaryaso vertedintoalvadtoprsentatiosndKeeCAereaplidtoucetimesioalitoftvctorsdthKmeansalgoitmwasusedforlusteringandvisualization.Theresultssowtatindataextractionevaluation,theveragevaluesofosistecy, completenesandacuacyareallabove8Oiheansuaredevaoselow5.CmparingthCAandtSNEdimnsioalitucto metodsusingeeScoSS)taatecseiscSSvue59pefogtd, whichhasanSSueof.3einmostateattCAdesperpefoancditioallhertdeliis strongontealuestadigsoiablefoebsoastedataetaceveragigthOieureftedecod eltoobtaind,taltftallaaoegeiggsdyuli sourcedebrisfasteatadaticsisteissdyduseptchataeactiosioalitutd clusteringuliatelyprovdingabeakouhhcalethoebrisdasterdataogsifatiodmanticocyfu sion,as well as an important technical solution for disaster data integration.
Key words: debris flow disaster;knowledge extraction;quality evaluation; knowledge fusion;Word2Vec
0 引言
受地理與氣候條件的綜合影響,我國泥石流災害發生頻率較高,是世界上受該類災害影響較為嚴重的國家之一[1-5]。為了提高對突發泥石流災害的應急反應和管理能力,相關部門積極出臺政策,以增強全社會在面對自然災害時的綜合防控能力。目前,隨著科技的發展,防災減災數據呈現多元化趨勢,涵蓋了高分辨率的無人機影像、災害發生前后的監測預警時間序列數據、基礎社會經濟數據、歷史災害數據以及氣候與環境數據等多種形式[6。在此背景下,整合多源災害數據并實現信息共享已成為應急響應工作中愈加重要的一環。應急響應體系需要具備高效的信息整合能力、快速決策機制和強大的資源調度能力。如何有效匯聚海量、多維、多源、異構的分散數據資源,并構建統一的信息資源體系,以實現高效的數據共享與利用,已成為當下自然災害應急響應領域的核心挑戰[7-8] 。
在災害數據管理領域,能否迅速、精準地獲取、分析和利用海量災害數據至關重要。傳統的人工處理方式不僅投入成本高、耗時長,而且難以應對日益復雜的多元化數據來源與格式需求,因而無法滿足現代災害數據管理的發展需求。隨著信息技術的持續進步,尤其在自然語言處理、機器學習和數據挖掘等技術日趨成熟的推動下,災害信息處理的效率和準確度得到了顯著提升,為災害數據管理提供了新的解決方案[9-10]在此背景下,基于預訓練模型的自然災害元數據自動抽取技術應運而生。通過自動識別并提取災害事件的關鍵信息,該技術不僅能迅速構建災害數據,而且可以從海量數據中高效挖掘出具有重要價值的信息,為后續的災害研究工作奠定堅實基礎。
本研究聚焦于泥石流災害數據在多源性與語義一致性方面所面臨的挑戰,系統探討了災害數據的抽取、降維與聚類方法,提出了一條具有創新性的技術路線,旨在解決泥石流災害數據的知識分類與語義一致性融合問題。該方法可為災害數據的集成工作提供技術保障,有助于進一步提升自然災害監測、預警與應對的整體效能,為應對日益嚴峻的自然災害形勢提供技術支撐。
1泥石流災害研究所用數據
本研究所使用的數據來源于中國科學院空天信息創新研究院以及該院所屬的國家對地觀測科學數據中心和國家綜合地球觀測數據共享平臺。試驗所用的泥石流數據涵蓋了災前、災中和災后3個階段,時間跨度從2006年到2023年,涵蓋中國不同地區的小型、中型和大型泥石流災害事件。在空間方面,數據覆蓋了全國范圍,涉及各類災害發生地點。這些數據存儲格式多樣,主要為TXT數據。數據包含270份文檔,包括了詳細的時間、空間和影像信息,見表1。
2泥石流災害數據抽取及聚類方法
2.1 數據預處理方法
在開展數據抽取工作之前,為保障數據質量和提升抽取模型的準確性,需對原始文檔進行一系列預處理,通常包括數據清理、分詞處理。
1)數據清理。首先,剔除文本中的無關內容,如封面、前言、頁眉頁腳以及導航欄等;然后,過濾噪聲信息,包括特殊符號、HTML標簽、空白行和冗余空格等;最后,統一文本編碼格式(通常轉換為UTF-8),以避免字符亂碼并確保數據處理的一致性。
2)分詞處理。使用jieba、NLPIR以及LTP等中文分詞工具,將泥石流災害數據集的文本分割為詞或子詞,轉換為機器可處理的格式。
2.2 約束規則與評估方法
多源泥石流災害數據存在格式不統一、缺失值與噪聲等問題。為確保后續文本分析和聚類的可靠性,需要對數據進行基本的質量控制和評估。具體包括以下3個方面。
1)一致性。指數據在內部及其描述對象之間的邏輯性和連貫性,確保字段在語義和格式上相互匹配[]。約束規則包括外鍵約束、等值一致性約束、邏輯一致性約束和存在一致性約束,見表2。
表2一致性約束規則
Tab.2 Consistency Constraint Rule
2)完整性。確保數據記錄中的各個元素和屬性沒有缺失,且所有必要的信息均被準確地記錄[12]。常見約束規則包括主鍵約束、非空約束、唯一約束等(見表3)。
表3完整性約束規則
Tab.3 Integrity Constraint Rule
4提供了準確性約束規則,包括數據類型約束、長度約束、精度約束和固定值約束等[13]
表4準確性約束規則
Tab.4 Accuracy Constraint Rule
2.3 聚類分析方法
Word2Vec是一種利用深度學習生成詞向量的模型,通過將詞語映射到高維空間,能夠將文本中的每個詞轉換為實數向量。在這種空間中,語義相似的詞語通常會聚集在一起。Word2Vec主要有兩種架構:連續詞袋模型(CBOW)和跳字模型(Skip-gram)[14]。相較于Skip-gram,CBOW在處理大規模數據集時,訓練速度更快、對高頻詞匯的建模效果更好以及語義平滑性更強,通常表現出更優的計算效率。本文采用CBOW模型,通過設定固定窗口大小 c ,選取目標詞的上下文詞 wt-c,…,wt-1,wt+1,…,wt+c ,窗口的大小決定了考慮的上下文詞的范圍。該模型通過對上下文詞的向量進行平均,忽略詞序信息,并使用平均向量來預測中心詞wt ,其目標是最大化中心詞在上下文中的出現概率,公式如下:
式中: vwt 為目標詞 wt 的詞向量, 為上下文詞向量的平均值。
式中: vwt+j 為上下文詞 wt+j 的詞向量。
2.4 詞向量降維
詞向量通過高維向量的形式來表示詞匯的語義信息,但由于高維度的存在,計算和存儲的復雜性隨之增強,因此降維技術被廣泛應用于將高維詞向量轉換為較低維度。詞向量降維旨在處理高維數據,將其映射到一個更緊湊的低維空間中,從而使得詞向量的可視化變得更加簡單,并有助于更直觀地理解詞與詞之間的關系[15]
t-SNE是一種常見的非線性降維方法。在高維空間中, Ωt-SNE 為每個數據點計算概率,并通過在低維空間中盡量保持相似的概率分布來進行降維。其通過最小化高維與低維空間之間的Kullback-Leibler散度,從而確保在高維空間中相距較近的數據點,在低維空間中仍然保持接近。對于任意兩個數據點 xi 和 xj ,高維空間中的相似度定義為 pij ;而在低維空間中,相似度則為 qij 。通過最小化這兩者之間的差異,優化數據點的嵌入,從而實現降維
主成分分析(PCA)是一種常見的線性降維方法,通過將數據投影到多個正交方向上,保留數據中方差最大的信息[16]。首先,進行數據中心化處理,即從每個特征值減去其均值,使得數據集的均值為零,得到矩陣 X ;其次,計算矩陣 X 的協方差矩陣A;然后,求解A的特征值 b 和特征向量 ,其中特征值表示每個主成分所解釋的方差大小,特征向量則表示主成分的方向,根據特征值的大小對特征向量進行排序,選擇前 k 個特征向量組成轉換矩陣 W ;最后,通過將數據矩陣 X 與轉換矩陣 W 相乘,使數據投影到二維或低維空間中。
Y=XW
式中: Y 為降維后的數據矩陣。
把降維后的數據作為輸入,應用 K- means聚類算法進行分析[17]。該算法的基本原理是將數據集劃分為 K 個簇,每個簇的中心位置表示該簇內所有數據點的均值。K-means算法通過迭代過程,將每個文本數據分配到與其最近的簇中,并更新每個簇的中心位置,直到算法收斂,即簇中心不再發生變化。
3泥石流災害數據聚類結果分析
3.1 數據預處理方法對比
對比不同工具的精度( (P) )、召回率 (R) 和 F1 值,具體結果見表5。
Jieba的 P 值大于其他兩個分詞工具的,表明Jieba在識別正確詞匯方面更為精確。Jieba在 R 指標仍然相對較大,即能夠識別出較多的相關詞匯。從整體來看,Jieba取得了較大的 F1 值。由表5可知,jieba在泥石流信息分詞處理過程中表現最佳,其 P,R 和F1 值均優于其他方法,并且文本內容丟失較少,表明jieba在分詞精度和覆蓋度之間具有更好的平衡性,因此后續試驗選用jieba作為分詞工具。
本文采用通用信息抽取模型(UniversalInformationExtraction,UIE)[18],通過設定的結構化生成方式利用不同信息抽取跨任務的知識,從而達到只用一個模型來兼顧各種任務的效果。研究基于自然語言處理(NLP)技術的文本數據抽取方法,結合PaddleNLP任務流(Taskflow),對原始文檔中的非結構化文本數據、表格和段落等進行信息抽取。為了優化模型效果,設定學習率 lr=3×10-4 、批大小Batch_size =32 作為最優參數組合,如圖1所示。在數據抽取過程中,模型輸出的每項數據都伴隨有置信度(probability),取平均值來代表模型的抽取效果。優化后的模型不僅提高了平均置信度,而且顯著減少了預測置信度的波動,表明模型的輸出更加穩定。
3.2 數據抽取模型對比
為了評估本文提出的自訓練UIE模型的效果,設置了多個對比試驗,將其與現有的基于測試集預測精度的抽取方法進行了比較。對比的試驗組包括正則表達式、Bert模型、未經過二次訓練的UIE(U-UIE)模型,以及使用本研究優化參數二次訓練后的UIE(S-UIE)模型。
表6為4種泥石流災害信息抽取方法的性能對比,包括基于規則的正則表達式以及3種深度學習模型( 和S-UIE)。從不同方法的結果來看,正則表達式在簡單或結構化程度較高的文本中具備一定效率與靈活性,但 F1 值僅為0.692,難以應對需要深度語義理解的復雜場景。Bert模型在語義表示和上下文理解上表現較好, F1 值達0.789,但其對標注數據規模和計算資源的依賴較高。相較之下,未經二次訓練的UIE(U-UIE)在較少標注數據的條件下,能夠保持較快的迭代速度, F1 值提升到0.826。進一步通過最優參數組合對UIE進行二次訓練后,S-UIE模型的P,R,F1 指標分別達0.936、0.921、0.925,顯著超越其他方法。
在此基礎上,還對抽取結果進行了數據一致性、完整性、準確性3個維度的評估,平均分均在0.80以上,具體均值分別為0.895、0.961、0.897,標準差分別為0.049、0.039、0.037,表明該模型在多源泥石流災害數據的抽取中不僅精度較高,而且穩定性良好。綜上所述,S-UIE模型在少量標注數據場景下展現了較高的抽取性能和迭代效率,為資源受限環境下的災害信息管理與應用提供了有效支持。
3.3 不同抽取模型的評估結果對比
在一致性評估方面,Bert模型表現中等,評分較為穩定,但由于未專門針對泥石流災害數據進行訓練,因此其一致性低于UIE模型。U-UIE評估結果優于Bert,說明UIE模型在零次學習任務中表現出了較強的泛化能力,能更好地適應不同的數據。S-UIE模型取得了最高的評分和最低的波動,表明其依據泥石流災害數據優化參數后顯著提高了一致性。
在完整性評估方面,Bert模型的得分稍高于一致性評估,且波動較小,優于U-UIE。這表明Bert模型能夠較好地捕捉數據中的主要信息,且在信息覆蓋方面相對穩定,但依然未能完全覆蓋所有數據內容。S-UIE在此方面的表現最佳,表明經過訓練后的UIE模型對泥石流災害數據的覆蓋更加全面。通過二次訓練,模型對災害數據的結構和內容有了更深入的理解,從而提升了抽取的完整性
在準確性評估方面,Bert模型在準確性上表現良好,數據分布相對集中,說明其抽取結果的準確度較高。Bert模型的預訓練優勢使其在文本語義理解上具有一定的優勢。U-UIE在準確性上的表現穩定,并且與Bert模型接近,表明UIE模型在文本抽取任務中有出色的表現。S-UIE則在準確性上表現最佳,數據分布高度集中,準確度最高。該結果表明,經過本研究的二次訓練,UIE模型在災害數據的準確提取上取得了顯著進展,能夠有效地識別并抽取出正確的災害數據信息
Bert模型在一致性、完整性和準確性方面都表現出穩定性,作為一種通用的預訓練模型,它具有強大的語言理解和信息抽取能力。但由于沒有經過特定領域的訓練,因此Bert模型在某些任務中的表現仍有提升的空間。UIE模型則展現了較好的性能,證明了UIE架構在信息抽取任務中的適應性。然而,未經過二次訓練的U-UIE模型未能充分挖掘災害數據中的特定特征。通過本研究進行的二次訓練,S-UIE模型在一致性、完整性和準確性方面表現出了顯著的提升,這表明模型經過特定領域適配后能夠更加精確地處理災害數據,從而實現最佳的抽取效果。
3.4 泥石流災害數據聚類結果分析
災害聚類分析是一種無監督學習方法,對與泥石流災害相關的文本數據根據其內容或特征進行自動分組,使得同一組內的文本之間具有較高的相似性。該方法首先使用Word2Vec算法生成詞向量,并通過PCA和 技術將高維詞向量映射到二維空間,從而使聚類結果更加直觀和易于理解。為了確定泥石流災害數據的最佳聚類數目,采用輪廓系數(SilhouetteScore,SS),Davies-Bouldin指數(DBI)和慣性(Inertia)3個指標進行評估,并利用這些指標對災害數據進行了K-means聚類分析。最后,進行了誤差分析,以評估聚類的效果。
3.4.1 聚類結果分析
針對不同的評價指標,比較了泥石流災害數據在PCA和 降維方法下的表現,見表7。兩者在SS指標上的差異較小,但PCA的SS指標通常略高,表明PCA在這些災害數據中能夠形成更清晰、分離度更高的簇。對于DBI指標,
的得分較低,意味著 t- SNE在聚類時能形成更加緊湊的簇。在Inertia指標方面,t-SNE降維后的Inertia值較大,表明t-SNE在壓縮數據時的效果較強,導致樣本點之間的距離增大。相反,PCA在所有災害數據中表現出較低的Inertia值,說明PCA降維后簇內的數據分布更加集中。
PCA降維后,使用matplotlib將聚類結果可視化,并展示在二維空間中。此次聚類分析使用了來自泥石流災害數據集的7891個樣本,并將其劃分為5個不同的簇。在該降維過程中,PC1和PC2兩個主成分分別解釋了 49.00% 的方差,說明這兩個主成分在保持數據重要特征方面起到了關鍵作用。PCA降維成功保留了數據的核心信息,使得聚類結果在二維空間中具備了良好的可解釋性。泥石流災害數據的聚類效果較為理想,聚類內部樣本較為集中,同時簇間差異明顯。總體來看,聚類結果展現了較高的內聚性和良好的均勻性
3.4.2 聚類誤差分析
表8展示了泥石流災害類型在不同主成分方向上的聚類表現。組間平方和(SSB)衡量了每個簇的中心與所有數據點整體中心之間的偏差,反映了不同簇之間的分散程度。SSB值越大,表明簇與簇之間的差異越明顯。組內平方和(SSW)衡量了每個數據點與其簇中心之間的偏差,用來評估簇的緊湊度。SSW值越小,表明簇內數據點的集中度越高,聚類效果越好。 F 值是組間變異與組內變異的比值, F 值越大,表明簇之間的差異明顯大于簇內差異,聚類效果越好,且不同簇之間的樣本區分度越強。 p 值用于檢驗 F 值的顯著性,較小的 p 值表明簇間差異具有統計學顯著性,聚類結果可靠
泥石流數據的SSB值較小,表明聚類簇內部具有較高的一致性,這意味著聚類效果較為理想,數據點與各自簇中心之間的偏差較小。泥石流的 F 值較大(分別為2074.953和2871.925),表明聚類差異顯著。總體而言,對泥石流數據的聚類效果較為理想,具有統計學顯著性,尤其在pca_y方向上,聚類效果相對更優。
4結論
1)通過多種方法對泥石流數據進行分析,實現了最佳的災害數據抽取。經過參數調優后,模型對提取泥石流災害數據的效果顯著提升,平均置信度(概率值)提高,方差降低。優化后的模型具有更高的穩定性和一致性。同時,自訓練的UIE模型提高了測試集上的預測精度,所有評估指標 (P,R,F1) 均超過0.800,較傳統正則表達式、Bert和U-UIE模型表現更優,尤其在標注數據較少的情況下能夠迅速迭代,降低了優化成本并帶來了顯著收益
2)建立了數據抽取結果的質量評估體系。評估結果顯示,自訓練的UIE模型抽取的數據在一致性、完整性、準確性的均值分別為0.895、0.961、0.897,標準差僅分別為0.049、0.039、0.037,完整性優于一致性和準確性,表明抽取的數據在不同記錄之間保持了一致性,并且各維度的波動性較小,整體數據表現較為均衡。進一步比較了不同抽取模型在抽取的數據的一致性、完整性、準確性方面評估結果,發現S-UIE模型在所有3個維度上均表現最佳,確保了高質量的數據管理和災害數據整合。
3)進行了數據聚類及誤差分析,成功實現了災害類型和信息的有效整合。泥石流數據的PCA方法在評估指標上整體表現優于 ,因此選擇了PCA降維結果進行聚類分析。泥石流災害類型的聚類組內平均距離較小,表明聚類內部樣本較為緊湊,類內的聚集度較高;而類間距離差異顯著。從聚類誤差分析來看,聚類效果明顯,簇與簇之間的差異清晰,結果具有較強的統計意義,能夠有效區分不同的簇。
參考文獻:
[1]劉傳正,溫銘生,唐燦.中國地質災害氣象預警初步研究[J].地質通報,2004,23(4):303-309.
[2]范一大,吳瑋,王薇,等.中國災害遙感研究進展[J].遙感學
報,2021,20(5):1170-1184.
[3]CHEN N S,LU Y,ZHOU HB,et al.Combined Impacts of Ante-cedent Earthquakes and Droughts on Disastrous Debris Flows[J].Journal of Mountain Science,2014,11(6) :1507-1520.
[4]WU Y X,ZHAO Y F,ZHANG Q,et al.Risk Assessment andResponse for Personnel Loss Caused by DebrisFlowDisasters Considering Non-Engineering Disaster MitigationMeasures[J].Geomatics,Natural Hazards and Risk,2024,15(1) :2429179.
[5]LI Q M,ZHAO JJ,ZUO J,et al.Investigation of the Slope-Type Debris Flow Disaster Chain Triggered by a Landslide-Induced Road Blockage in Yingpan Township,Shuicheng,Guizhou,on July 27,2023[J].Landslides,2024,21(8):1899-1913.
[6]符季穎.面向災害事件的應急數據集成與發布方法研究[D].北京:北京建筑大學,2021:36-38.
[7]GUO Z X,WANG C Y,ZHOU JP,et al.GeoKnowledgeFu-sion:A Platform for Multimodal Data Compilation from Geo-science Literature[J].Remote Sensing,2024,16(9):1484.
[8]DE SOUZA L,FRANCISCO C N.Data Mining for Analysis ofthe Landslides Conditioning Factors in theRio de JaneiroMountainous Region[J].Revista Brasileira de Geomorfologia,2021,22(4) :809-823.
[9]劉嶠,李楊,段宏,等.知識圖譜構建技術綜述[J].計算機研究與發展,2016,53(3):582-600.
[10]李德仁,眭海剛,單杰.論地理國情監測的技術支撐[J].武漢大學學報(信息科學版),2012,37(5):505-512.
[11] 代睿,徐鵬越,李潔,等.基于語義一致性監督金字塔網絡的目標檢測方法[J].西北工業大學學報,2024,42(5) :959-968.
[12]朱侯,羅穎嘉,陳夢蕾,等.基于知識庫增強深度學習模型的隱私政策合規性研究:從完整性與語義沖突角度[J].數據分析與知識發現,2024,8(5):46-58.
[13]邵換崢,李翠翠,劉奇付,等.基于雙分支深度神經網絡的農田場景語義分割方法[J].中國農機化學報,2024,45(10) :199-205.
[14]朱振東.基于WM-CBOW 和Bert 模型的商品標題相似度研究[D].西安:長安大學,2023:21-23.
[15]徐帆,王裴巖,蔡東風.基于中心化相似度矩陣的詞向量方法[J].計算機應用研究,2019,36(2):411-414.
[16]李進軍.基于魯棒主成分分析的深度子空間學習模型研究[D].天津:天津理工大學,2024;51-54.
[17] 韓曉萃,胡業維,吳慶艷,等.基于 K-means 聚類算法的人事管理異常數據識別和自動處理系統[J].電子設計工程,2024,32(24):27-31.
[18]張國賓,姬紅兵,王佳萌,等.基于通用信息抽取大模型的特定領域文本實體關系抽取研究[J].中國信息界,2024(8) :159-161.