999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于門控圖神經網絡的新聞要素信息抽取方法

2022-06-13 16:45:56黨雪云
電視技術 2022年5期
關鍵詞:文本信息方法

黨雪云,王 劍*

(1.昆明理工大學 信息工程與自動化學院,云南 昆明 650500;2.云南省人工智能重點實驗室,云南 昆明 650500)

0 引 言

隨著現代互聯網信息技術的飛快發展,網絡上涌現越來越多的新聞文本信息。這類信息通常以非結構化、錯綜復雜的文本形式出現,使得人們理解新聞文本信息的難度越來越大。新聞要素信息是指新聞文本中的人名、地名、新聞領域要素等內容。對這些要素信息的抽取,可以幫助人們更便捷地理解海量的新聞信息。本文以涉案新聞文本要素信息抽取為例,提出一種基于門控圖神經網絡模型的要素信息抽取方法,通過構建字粒度字詞關系組合圖的方式對新聞文本和領域詞匯進行建模,提高新聞文本要素信息抽取的性能。

涉案新聞要素信息抽取技術能夠幫助人們更便捷地分析新聞文本中出現的主體之間的關系,通過對涉案新聞文本進行分析,歸納出這些數據存在的一些特點。如圖1 所示,一是存在要素信息的簡稱識別不全問題;二是存在組合要素識別不全的問題;三是歧義詞干擾的問題,在這個示例中“人品”就是一個歧義詞。這些特點的存在導致了識別新聞文本要素信息時效果不佳。觀察到這些內容和涉案新聞案件領域詞相關性很大,因此本文提出一種融合案件相關詞典的方法,通過圖神經網絡將案件相關詞匯知識融入到涉案新聞文本內容中,通過挖掘其潛在的語義特征提高涉案新聞文本要素信息抽取方法的性能。

圖1 涉案新聞文本要素信息抽取問題分析

1 相關工作

新聞要素信息抽取任務可以看作面向特定領域的命名實體識別(Named Entity Recognition,NER)任務。當前,NER 方法主要分為基于規則的NER 方法、基于機器學習的NER 方法以及基于深度學習的NER 方法三大類。

基于規則的NER 方法主要是針對不同領域實體的特點,通過人工制定實體識別規則模板,比如基于特定領域的詞典、句法模式、詞法模式等實現命名實體識別。ZHANG 等人[1]設計了一個提取生物醫學文本中的命名實體的框架,該框架包括一個種子詞提取器、一個名詞詞組分塊器、一個IDF 過濾器以及一個基于分布語義的分類器,此方法可以應用于不同的設置和應用程序;QUIMBAYA 等人[2]提出了一種用于電子健康病歷領域的命名實體識別方法,該方法結合了模糊匹配原則和詞干匹配原則,在公開數據集上的實驗表明命名實體的召回率獲得明顯的提升;沈等人[3]通過分析中文組織機構名的全稱特征,設計并構建了中文組織機構詞庫、規則集,最后利用規則匹配與決策、相似機構名稱合并的方式識別出中文組織機構名的全稱,之后又通過類似的分析過程對中文組織機構名簡稱進行識別。雖然利用基于規則的方法可以取得不錯的性能,但針對涉案新聞文本,其文本雜亂無章、表達方式不規范,想要構建完備的實體識別規則庫較為困難。

基于機器學習的NER 方法主要是利用大規模標注語料庫自動學習文本的詞、詞性及上下文特征,自動構建特征模板,利用特征模板和支持向量機(Support Vector Machine,SVM)等統計機器模型,預測文本中每個字的實體標簽。JI 等人[4]提出一種聯合模型來對twitter 文本中的不規則的地點信息進行識別,并將識別到的地點和定義規范的地點文本進行鏈接,該聯合模型允許使用全局特征,緩解了傳統結構存在的錯誤傳播的問題。LIU 等人[5]提出了一種處理特定領域的遠程監督NER 的方法,該方法利用了基于標題擴展詞典的思想和動態規劃推理的方式,取得了優于之前相關算法的性能。AGERRI 等人[6]展示了如何在最少的人工干預情況下開發跨語言和數據集的命名實體識別系統,充分結合了單詞淺層的、局部的特征表示,通過實驗證明了如何更有效地根據可用原始數據組合各類型單詞的表示特征。

近年來,深度學習方法在自然語言處理方向的研究取得了較好的性能。神經網絡不僅具備強大的向量表達能力、捕獲上下文依賴信息的能力,而且可以通過端到端訓練自動學習文本中潛在的高維語義信息。ZHANG 等人[7]提出一個晶格結構的LSTM 模型,該模型編碼字符粒度的源文本和通過字典匹配來的潛在詞,得到詞與詞之間的序列信息表征,其中門控循環單元使得模型選擇出與文本最相關的字符、單詞,獲得了更好的NER 效果;LI 等人[8]提出了一個可以同時解決普通NER和嵌套NER 的框架,該框架將NER 任務轉換為機器閱讀理解問題,將每個實體的類型當作問題,然后利用問題去文中匹配識別對應的實體;王等人[9]利用雙向編碼器表征量(Bidirectional Encoder Representations from Transformers,BERT)模型作為特征表示層,提取文本中的全局特征、局部特征,最后利用Bi-LSTM 提取上下文特征,用常見的條件隨機場(Conditional Random Fields,CRF)模型進行解碼得到實體識別結果。雖然機器學習方法和深度學習方法都能取得不錯的效果,但它們都依賴于大規模的標注數據,而針對涉案輿情這一垂直領域要素識別數據集規模很小且標注不易,一時很難獲得大規模的標注數據。

2 融合詞典的涉案新聞要素信息抽取方法

合案件相關詞典的涉案新聞要素信息抽取方法,模型的整體架構如圖2 所示。模型共包括3 個部分:首先,融合案件相關詞典的字詞關系組合圖構建是模型的輸入部分,它顯式地建模了涉案新聞文本和案件相關詞典的交互信息;其次,使用門控圖神經網 絡(Gated Graph Neural Network,GGNN)[10]模型對組合圖的信息進行編碼得到特征空間;最后,使用常見的Bi-LSTM-CRF 模型進行解碼,預測出最終的要素實體標簽。接下來對以上內容進行詳細介紹。

圖2 融合法律領域詞典的圖神經網絡模型

本文以涉案領域的新聞文本為例,提出一種融

2.1 融合案件相關詞典的字詞關系組合圖構建方法

本文構建的組合圖的定義為G=(V,E),其中V代表結點集合,E代表邊的集合。結點集合V={xc,vs,ve},其中xc代表輸入新聞文本按字符切分的集合,vs和ve用于標記新聞文本在詞典中匹配到的要素信息的位置標記,vs代表匹配到的要素的起始位置,ve代表匹配到的要素的結束位置;邊集合E={ec,ev},其中ec是輸入的新聞文本字符vc之間的邊集合,ev指新聞文本匹配到詞典中的詞時產生的邊集合。

如圖2 所示,輸入層包括一個案件相關詞典和一段涉案新聞文本“近日,浙江省中院審結了一起放火盜竊罪案件,被告人品某良被依法判處有期徒刑兩年。”。此文本共包含39 個字符,文本和詞典共匹配到3 組要素信息,分別是機構名“浙江省中院”、罪名“防火盜竊罪”和人名“品某良”,所以圖中共包含45 個結點,其中x1,x2,…,x39是指輸入的新聞文本按字符粒度切分后共39 個結點,vs和ve分別是從詞典中匹配到要素時的起始位置標記、結束位置標記,共6 個結點。其次,共包含44 條有向邊,其中38 條是新聞文本字符xc之間的邊,也就是按照句子的自然語序依次在相鄰字符間添加從左向右的邊,它建模了輸入文本的語序信息;6 條是含有vs、ve的邊,它建模了輸入文本和詞典之間的交互信息。以上過程完成了融合案件相關詞典的組合圖的構建過程。該圖不僅編碼了新聞文本中字符間的順序信息,同時也編碼了文本和詞典的交互信息。

2.2 門控圖神經網絡建模方法

門控圖神經網絡(Gated Graph Sequence Neural Networks,GGNN)[10]是一種基于門控循環單元的模型,其優點在于其能夠選擇性記憶鄰居結點的隱藏信息,還可以記憶結點迭代過程中的隱藏信息。首先對結點v的初始狀態進行初始化,即hv(0)=[char_vec,bichar_vec],其中char_vec代表字向量,即one-hot向量,bichar_vec代表雙字符向量,即采用2-gram語言模型的向量。圖的結構化信息存儲于鄰接矩陣A中,其中A∈RD|V|×2D,|V|是圖中結點的個數。鄰接矩陣A決定了圖中結點之間傳遞信息的方式,矩陣的系數結構對應圖中的邊,每個子矩陣中的參數由圖中邊的方向確定。鄰接矩陣A還用于在每一個時間步檢索其鄰居結點的狀態信息,Av:∈RD|V|×2D表示結點v對應的入射邊和出射邊的集合。隱藏層的狀態信息通過GRU 進行更新,它的推導公式如下:式中:hv(t)是結點v在時間步t時的隱藏狀態,Av是結點v在鄰接矩陣中對應的行向量;W和U是需要學習的參數。式(1)創建了時間步(t-1)時的狀態矩陣H;式(4)表示要通過相鄰節點傳播信息的方法;剩余的步驟結合鄰居節點的信息和時間步(t-1)的隱藏狀態,計算出時間步t時的隱藏狀態hv

(t),最終經過T個時間步,得到結點的最終狀態

2.3 Bi-LSTM-CRF 解碼層

本模型的解碼層選擇最常用的Bi-LSTMCRF 模型[11],它主要是雙向長短時記憶網絡(Bidirectional Long-short Term,Bi-LSTM)模型和條件隨機場(Conditional Random Fields,CRF)模型兩者組合而成,其中Bi-LSTM 用于提取上下文語義特征,CRF 用于對上下文信息進行約束性的解碼,將上一步通過圖神經網絡得到的特征表示{hv|T||v∈T},按照輸入文本的自然語序將每個字符的特征表示輸入到標準的Bi-LSTM-CRF 模型,最終生成預測的要素標簽序列。

3 實 驗

3.1 數據集

本文使用的涉案新聞要素信息語料集一共有8 500 條包含要素信息的句子,即真實涉案新聞文本進行數據清洗后通過人工篩選并標注的帶有要素的句子。使用時訓練集、驗證集、測試集的比例是7 ∶2 ∶1。涉案新聞要素信息語料統計情況如表1 所示。

表1 涉案新聞要素信息語料統計表

3.2 案件相關詞典構建方法

本文構建了一個規模為1 200 詞的詞典,包括人名、法院名及罪名共3 種類型的詞,其中法院名和罪名分別包含其全稱和簡稱。主要方法是使用正則匹配的方法從法律文書這類專業數據中匹配得到人名、罪名、法院名,部分罪名詞來自于搜狗輸入法詞庫的法律罪名專用詞庫。

3.3 評價標準

為了更好地評估模型的效果,需要進行對比試驗。目前常用到準確率(Precision,P)、召回率(Recall,R)、和F1值(F1-Measure)作為評價指標。準確率P、召回率R和F1值的計算公式如下所示:

式中:TP表示把正例預測成正的概率,FP表示把負例預測成正的概率,FN表示把正例預測成負的概率。

3.4 實驗設置

實驗使用one-hot向量和2-gram雙字符向量拼接的方式對輸入數據進行初始化,得到其向量化表示,維度均為200 維。訓練時,Dropout設置為0.5,學習率lr設置為0.01,訓練輪次epoch 設置為100,batch_size設置為10,優化器使用SGD。

3.5 實驗結果與分析

本文選擇了6 個基準模型,分別在標注好的涉案新聞要素信息語料集上進行實驗。基準模型包 括Bi-LSTM-CRF,CAN,Lattice LSTM,LGN,LR-CNN,MG-GNN。 其 中,Bi-LSTM-CRF[11]包括Bi-LSTM 層和CRF 層,是常用的序列標注模型;CAN[12]融合本地注意力機制和卷積神經網絡,利用這種方式挖掘相鄰字符和上下文中的信息;Lattice LSTM[7]設計了一種晶格LSTM 模型,同時編碼輸入文本和字典匹配而得的潛在詞,充分挖掘文本中的語義特征;LGN[13]研究引入圖神經網絡的方式利用全局語義特征,該網絡使用詞匯知識連接字符來捕獲局部信息,且全局中繼節點可以捕獲全局句子語義和長期依賴關系,基于字符、潛在詞和全句語義之間的多種圖的交互作用可以有效地處理詞語歧義問題。LR-CNN[14]提出了一種基于卷積神經網絡的方法,利用反思的方式來整合詞匯信息。該方法可以并行建模與句子匹配的所有字符和潛在詞匯信息,反思機制還可以通過反饋高層次特征來解決詞匯沖突的問題,從而細化網絡。MG-GNN[15]提出了一種基于多向圖結構的圖神經網絡方法,自動學習如何將多個不同類型的詞典結合到NER 系統中,顯式地建模字符與詞典的相互作用,將來自不同詞典的信息加權組合,基于上下文信息解決了匹配沖突問題。

表2 不同模型對比

在采用F1值的評價方法中,本文模型與其他模型相比,F1值有2.12%~5.34%的提升。對比Bi-LSTM-CRF、CAN 和本文模型,說明了在圖神經網絡模型的基礎上融入詞典的優越性。對比Lattice LSTM、LGN、LR-CNN 和本文模型,同樣都是融入了詞匯信息,但是融入特定領域相關的詞匯知識產生了顯著的效果,說明融入領域詞典的方法在新聞文本要素信息識別任務上的優越性。對比MGGNN 和本文模型,同樣都是基于圖的方法,但是本文具有更顯著的效果,說明在圖的基礎上融入案件相關詞典信息是有作用的。

為了驗證詞典對實驗結果的影響,本文針對不同詞典規模進行了對比實驗,具體實驗結果如表3 所示,這里采用隨機采樣的方式分別構建規模為300 詞、500 詞及800 詞的詞典作為對比。分析表3 可知:不采用詞典(0 詞)與采用1 200 詞的詞典相比,在準確率上有3.48%的提升,在召回率上有1.98%的提升,在F1值上有2.44%的提升;采用300 詞的詞典與采用1 200 詞的詞典相比,在準確率上有1.96%的提升,在召回率上有0.27%的提升,在F1值上有1.89%的提升;采用500 詞的詞典與采用1 200 詞的詞典相比,在準確率上有0.65%的提升,在召回率上有0.23%的提升,在F1值上有0.76%的提升;采用800 詞的詞典與采用1 200 詞的詞典相比,在準確率上有0.14%的提升,在召回率上有0.08%的提升,在F1值上有0.06%的提升。從整體來看,詞典的規模越大,模型的效果越好,剛開始隨著詞典規模增大,效果提升顯著,隨著詞典規模越來越大,模型效果的提升逐漸趨于緩和。

表3 采用不同規模的詞典時本文模型的效果對比

4 結 語

本文針對新聞文本要素信息識別任務,以涉案新聞文本為例對要素信息抽取方法進行研究,提出了融合案件相關詞典的要素信息抽取方法,利用圖神經網絡挖掘新聞文本和詞典組合后的潛在語義特征。結果表明,要素信息抽取的性能得到了有效提升。

猜你喜歡
文本信息方法
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 成年午夜精品久久精品| 国产精品对白刺激| 国产在线拍偷自揄拍精品| 欧美另类视频一区二区三区| 亚洲av片在线免费观看| 亚洲国产一区在线观看| 亚洲视频四区| 国产午夜人做人免费视频中文| 中字无码av在线电影| 久久综合伊人 六十路| 久久综合九色综合97网| 无码人妻热线精品视频| 最新亚洲av女人的天堂| 亚洲一区黄色| 天堂成人在线| 欧美成人免费一区在线播放| 久久国产精品麻豆系列| 成人va亚洲va欧美天堂| 久久99国产视频| 99视频国产精品| 日本手机在线视频| 久久婷婷国产综合尤物精品| 日韩第一页在线| 久久久久久久蜜桃| 热思思久久免费视频| 污污网站在线观看| 永久免费无码成人网站| 91香蕉国产亚洲一二三区 | 毛片免费高清免费| 国产高清无码麻豆精品| 亚洲天堂视频网站| 国模沟沟一区二区三区| 免费一级毛片不卡在线播放| 亚洲综合亚洲国产尤物| 老汉色老汉首页a亚洲| 成人国产一区二区三区| 欧美日韩在线观看一区二区三区| 成人福利在线观看| 国产色婷婷| 国产第一页屁屁影院| 在线免费观看AV| 波多野结衣亚洲一区| 国产精品九九视频| 国产毛片不卡| 最新日韩AV网址在线观看| 亚洲一区二区三区在线视频| 精品福利一区二区免费视频| 亚洲第一精品福利| 色哟哟国产精品| 亚洲免费成人网| 国产女人18毛片水真多1| 精品伊人久久久久7777人| 中文字幕1区2区| 欧美视频二区| 精品国产免费观看一区| 91麻豆国产精品91久久久| 91外围女在线观看| 国产另类乱子伦精品免费女| 欧美福利在线| 日韩无码视频专区| 国产99热| 久久久久国产精品嫩草影院| 午夜毛片免费看| 亚洲人成色在线观看| 国产91视频免费观看| 毛片久久久| 亚洲黄色视频在线观看一区| 97超爽成人免费视频在线播放| 高清欧美性猛交XXXX黑人猛交 | 色综合国产| 国产正在播放| 亚洲精品国产精品乱码不卞 | 免费观看精品视频999| 亚洲欧洲日产国产无码AV| 午夜毛片免费观看视频 | 热re99久久精品国99热| 91精品国产一区| 欧洲成人在线观看| 日本人妻丰满熟妇区| 青青草a国产免费观看| 亚洲制服丝袜第一页| 色婷婷在线影院|