基于圖計算與知識匹配的事件分撥模型

2023-08-26 08:37:58陳健鵬

電腦知識與技術 2023年20期

陳健鵬

關鍵詞：事件分撥；圖計算；信息傳播；記憶網絡；知識匹配

中圖分類號：TP391 文獻標識碼：A

文章編號：1009-3044（2023）20-0013-04

0 引言

近幾年，數字政務領域快速發展，12345熱線作為數字政務建設的重要成果，因其靈活、便捷的特點，成為政府與公眾溝通的有效橋梁，在滿足群眾需求，解決群眾問題等方面起到了極為重要的作用。然而，由于熱線事件來源的廣泛性與市民訴求的差異性，熱線事件描述文本之間的理解難度往往也存在較大的差別，這就導致對接線員的要求較高，接線員往往難以在錯綜復雜的事件描述中迅速找出核心信息與關鍵要素，進而準確地決定事件的分撥部門。熱線事件的分撥效率往往也因此受到影響。基于此，設計一種更為有效的事件分撥模型顯得尤為重要。

傳統的事件分撥模型一般基于先驗知識[1]或統計學習[2]來進行，這類方法在一定的事件類型范圍內能取得有效的分撥效果，但是先驗知識的局限性使得對這類模型難以適應多樣化的表達方式，提升也較為困難。為了解決這個問題，深度學習技術被應用在這類任務中[3-5] ，這類方法能有效提升對多樣化表達方式的適應能力，但是缺乏對語義信息的準確挖掘。因此，基于海量語料庫的預訓練語言模型出現后，出現了一類基于預訓練語言模型的方法[6-7]，這類方法有效地增強了模型對文本中關鍵信息的識別能力。但是，由于部門職責具有一定的寬泛性，模型往往無法有效捕獲這類“歸屬不同職能但由同一部門處置”的事件中潛在的關聯關系，在部門較多的情況下，這類模型的分撥準確性往往較為有限。本文通過引入“三定”職能描述作為先驗知識，結合文本圖與鍵值對記憶網絡等方法，通過細化事件分撥任務，挖掘事件與部門之間更多可能的關聯性，進而提升對熱線事件的分撥準確度，提高熱線事件的處置效率。

1 方法

本文提出的事件分撥模型主要由事件編碼模塊、先驗知識匹配模塊與部門匹配模塊三個部分構成，模型整體結構如圖1所示。首先，將事件描述文本輸入事件編碼模塊，通過構建文本圖與消息廣播的方式將事件描述文本映射為包含多層次語義關聯信息的高維向量編碼。然后將得到的語義編碼輸入先驗知識匹配模塊，利用基于記憶網絡的知識選擇模型，通過多次迭代，生成事件描述文本與“三定”之間的匹配度分布。最后，將得到的匹配度分布送入部門匹配模塊，基于歷史事件和“三定”職責描述中的關鍵信息等維度，對生成的匹配度分布進行整合與篩選，以獲得最合適的事件處置部門。

1.1 事件編碼模塊

事件描述作為偏口語化表達的文本內容，其中一部分的語義信息往往與其上下文存在著緊密的關聯關系，同時，這種關聯關系涉及的跨度范圍可能長短不一。為了能更好地將這類關聯關系信息融入對事件描述文本的編碼向量中，在事件編碼模塊中，本文通過構建文本圖的方法，并結合信息廣播算法，使得編碼模塊在對事件文本的某部分進行編碼時，能關注到更廣泛范圍內的上下文信息。本文對事件的編碼包括三個主要步驟，分別是預處理、建立文本圖與信息傳播。整體流程如圖2所示。

1.1.1 預處理

考慮到政務事件所面向的實際場景，事件描述文本往往由多段較短的語句構成且表意較為直接，因此本文選擇將字作為事件編碼的基本處理單元，并通過編碼矩陣對事件文本描述進行編碼。

2 實驗

2.1 數據集

基于某市現有的政務熱線數據，構建了一個非公開的實驗數據集。這個數據集包括兩部分：“事件-部門”數據集與“事件-‘三定”數據集。其中“事件-部門”數據集基于政府熱線真實事件分撥結果構建，包含30個事件處置部門的30 000條歷史事件數據。“事件-‘三定”數據集則由專家根據“事件-部門”數據集中涉及的30 000條事件對應的處置結果進行標注得到，包含30 000條匹配正確的“事件-‘三定”文本對，以及60 000條匹配錯誤的“事件-‘三定”文本對。

2.2 實驗設置

在對兩個數據集中的文本長度進行統計分析后，90%的事件文本都在260個字以內，而90%的“三定”描述文本長度則在180個字以內。因此，在對數據集進行預處理時，本文固定事件描述文本最大長度為300字，“三定”文本最大長度為200個字，對二者中長度不足的部分使用[BLK]標識符加以填充，超過此長度的予以截斷，并在事件描述文本的開頭與結尾添加[CLS]標識符。模型訓練過程中，整體模型訓練的批大小設置為16，且使用學習率為10-5的Adam優化器作為模型的優化器。

為了驗證本文所提出的模型性能，將本文模型與bAaBsCedN[4N]與-b分as層edC[5]、NBNE[8]R等T多-B個iG基RU線-模bas型ed進[6]、行LD對A比-B，i從GR前U-5 結果準確度（P@5）、平均精度均值（MAP）、平均倒數排名（MRR）、精確率（Precision）、召回率（Recall）、F1得分（F1-score）六個指標對事件分撥模型性能做出評價。

2.3 對比實驗與分析

與基線模型的對比實驗結果如表1所示，由表2 中數據可以得知，相較于LDA-BiGRU這類直接基于事件描述文本信息進行分撥的方法，本文所描述的方法在Precision、Recall、F1-score等事件分撥評價指標上有4%～5%的提升，而在P@5、MAP、MRR等事件分類結果評價指標上有2%～3%的提升，對這一結果的一個解釋是：基于LDA-BiGRU、分層CNN等方法能從事件描述文本中提取關鍵信息，但是由于關鍵信息的距離問題，模型的整體預測效果會受到這類距離差異的影響。本文模型中通過文本圖的方式更有效地建立關鍵信息之間的關聯關系，能在對事件描述文本進行編碼時，更有效地利用這些關鍵信息，進而取得了較好的模型效果。

而對比ABCNN-based、BERT-BiGRU-based等包含有結果重排序方法的模型，本文模型在事件分撥指標上有大約3%的提升，而在事件分類結果評價指標上存在持平或有一定程度提升的情況。對這種結果的一個解釋是：通過預訓練語言模型與結果重排序等方法能對事件描述文本和額外的先驗知識中的關鍵信息做出一定程度的提取，但是僅提取關鍵信息的方法難以關注到“事件-‘三定-部門”之間的關聯關系，而通過鍵值對網絡的方式，可以對這類關聯關系做出更有效的捕捉，從而提升模型整體的分撥效果。

3 結論

本文設計了一種基于文本圖與鍵值對記憶網絡的事件分撥方法，通過聯合事件分類與事件分撥兩個任務，并引入“三定”這類先驗知識信息，通過信息傳播機制，對事件描述文本中的關鍵信息建立更有效的關聯關系，并基于此提高對文本描述信息中潛在的關鍵信息的利用效率。同時，使用基于鍵值對的記憶網絡結構，以“三定”職能描述為橋梁，提升事件分撥任務的顆粒度，進一步挖掘“三定”職能描述與事件描述之間的關聯關系，從而提升模型的整體效果。經過與多個基線模型的對比結果，也進一步證明了本文模型提升效果的有效性。

電腦知識與技術2023年20期

電腦知識與技術的其它文章: 基于改進ResNeXt的黑色素瘤識別算法; 基于預訓練模型的雙通道情感分類方法; 基于多模態融合的事件分類和分撥聯合模型; 基于泛癌數據的公共驅動通路識別算法; 一種優化后的混沌置亂圖像加密算法; 基于改進的DeepLabV3+肺實質分割網絡