999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融入中心句的涉案新聞要素實體識別方法*

2021-05-08 06:10:12王佳雯線巖團余正濤
通信技術 2021年4期
關鍵詞:語義信息方法

王佳雯,王 劍,線巖團,余正濤

(昆明理工大學,云南 昆明 650500)

0 引言

涉案新聞要素實體識別對涉案新聞追蹤具有很好的輔助作用,是涉案新聞輿情分析的重要任務。

通用領域的命名實體識別任務是識別實體的類別,如“人名”“地名”“組織機構名”等[1]。而細粒度的要素實體識別不僅要正確識別句中所含實體,還要識別各實體所對應的屬性,如“人名”在涉案新聞句中可對應的具體屬性有“被害人”“犯罪嫌疑人”和“非要素實體”。因此,與通用領域命名實體識別任務相比,涉案新聞要素實體識別任務更依賴上下文語義信息。涉案新聞文本上下文語義聯系緊密,如新聞句中普遍存在使用代詞指代上一句提到的內容的情況,導致在單個句子的語義理解上會出現語義模糊的狀況。當一句話中同時出現多個“人名”“地名”“組織機構名”時,僅靠句子中的模糊語義不足以區分要素實體。因此,本文通過融入新聞中心句,對新聞正文句中的語義進行補充增強,以改善要素實體識別的性能。

1 相關工作

涉案新聞領域的要素實體識別可以看作是特定領域的細粒度命名實體識別任務。

最早期的命名實體識別方法是基于規則和詞典的方法[2-3]。這種方法不僅依賴于具體語言、領域和文本風格,而且有編制過程耗時、特別容易產生錯誤、系統可移植性不佳以及對不同的系統需要語言學專家重新編寫規則[4]等缺點。

相比基于規則和詞典的方法,基于統計機器學習的方法不需要專家知識編寫規則。常用的基于統計機器學習的命名實體識別方法有隱馬爾可夫方法[5]、最大熵[6]、支持向量機[7]以及條件隨機場[8]等。這類方法對特征選取的要求較高,需要從文本中選擇對該項任務有影響的各種特征,并將這些特征加入到特征向量中,且對語料庫的依賴較大[9]。

目前,深度學習由于不需要書寫規則和人工提取特征,成為命名實體識別領域的主流方法[10]。深度學習在命名實體識別任務中的運用多以循環神經網絡(Recurrent Neural Network,RNN)加CRF的序列標注方法[11]為基礎進行改進,并在不同領域的命名實體識別任務中取得了很好的效果。Huang等人[12]提出Bi-LSTM和CRF相結合的序列標注模型,捕捉上下文語義信息。Zhang等人[13]依據中文需要分詞的特性提出Lattice-LSTM方法,將詞信息融入到方法中以解決字符方法無法利用句子中的單詞信息的問題。成于思等人[14]考慮到中文人名具有多樣性和內部成詞的特性,提出融合人名詞典特征的Bi-LSTM加加權條件隨機場(Weighted Conditional Random Fields,WCRF)方法。唐國強等人[15]提出利用語言方法特征和多頭注意力捕獲病例文本自身的特征。上述方法依賴句子的上下文信息抽取實體,且融入外部特征大都是為了解決實體多樣性帶來的未登錄詞問題。而在涉案新聞領域,主要問題是部分句子成分指代引起語義模糊導致要素實體識別率低,因此只關注句子內的信息往往不夠。本文提出將涵蓋篇章語義信息的新聞中心句融入到新聞正文句中,對語義模糊的新聞中心句進行語義增強,從而有效提升要素實體識別率。

2 融入新聞中心句的要素實體識別方法

融入新聞中心句的要素實體識別方法由4個部分組成,如圖1所示。第1部分是詞嵌入層,使用Skip-gram[16]方法將新聞中心句和新聞正文句轉換成字符向量;第2部分是融入新聞中心句的加權多頭注意力(Weighted Multi-Head Attention,WMATT)層,利用多頭注意力將新聞中心句與新聞正文句相融合,并對融合了新聞中心句的多維度語義信息進行加權求和;第3部分是Bi-LSTM層,用Bi-LSTM獲取融入新聞中心句后的上下文信息;第4部分是CRF層,用CRF識別要素實體。下面將詳細介紹方法的各部分內容。

2.1 輸入層

本方法的輸入分為兩個部分:一是涉案新聞的正文句,二是與每一條正文句所對應的新聞中心句。使用Skip-gram方法[16]將中文字符轉換成字符向量。正文句表示為Z=z1,z2,…,zm,其中zj表示正文句中第j個字。新聞中心句表示為C=c1,c2,…,cn,其中ci表示中心句中第i個字。通過查找字向量表,將正文句和中心句中的每個字zj和cj轉化為字向量序列。

式中,ec表示字嵌入的查詢表。

2.2 融入新聞中心句的WM-ATT層

此層有兩個輸入,一個是新聞正文句L=(l1,…,lj,…,lm),L∈Rm×de,另一個是新聞中心句X=(x1,…,xi,…,xn),X∈Rm×de。其中,m和n分別是正文句長度和中心句長度,de是字向量維度。將新聞中心句融入到新聞正文句中的計算可以分為3個部分。

首先,將新聞正文句X作為key-value,將新聞中心句X作為query,分別通過如式(3)、式(4)和式(5)所示的線性變換進行切分,以映射到不同的維度。

圖1 融入新聞中心句的要素實體識別模型

其次,在第i個維度內進行放縮點積注意力,將新聞中心句融入新聞正文句中,如:

通過Qi和Ki點乘計算獲得新聞中心句到新聞正文句的關聯度得分,經softmax將得分壓縮到0-1之間,再將映射得分與新聞中心句相乘,得出在第i個表示子空間內融合了新聞中心句的新聞正文句特征ATTi。

最后,將h個不同維度得到的特征結果加權求和,得到融合篇章語義的多層次語義特征E:

式中,Wi給不同維度上融合了新聞中心句的語義信息分別分配權重,權重矩陣Wi∈Rdmodel×dk。

傳統的Multi-Head Attention是句子與自己本身做注意力,映射到不同維度的是同一個語義的不同著重部分;WM-ATT是對中心句與正文句兩個不同的句子做注意力,映射到不同維度的是不同的語義部分。因此,在將中心句和正文句做注意力時,不同維度得到的語義信息對輔助要素實體識別的重要性不同。給不同維度上得到的語義信息分配權重,可以減緩無效信息對要素實體識別的負影響,再進行求和,從而實現多維度的語義融合。

2.3 Bi-LSTM層

在融入了新聞中心句特征后,需要采用Bi-LSTM提取融入新聞中心句后的上下文語義特征。

式中,it、ft、ot、ct分別是輸入門、遺忘門、輸出門、細胞狀態;Wi、Wf、Wo、W~c是t-1時刻隱藏狀態的權重矩陣;Ui、Uf、Uo、U~c是融合了新聞中心句特征E的權重矩陣;bi、bf、bo、bc~是輸入門、遺忘門、輸出門、細胞狀態的偏置項。反向的LSTM與正向的LSTM的定義相同,但是按照逆序排列。將正反向的LSTM隱藏狀態級聯形成ct的上下文相關表示,其中分別是時刻t的正向輸出和反向輸出,⊕表示向量拼接。此時,ct的上下文相關表示中包含了多層次全局語義特征。

2.4 CRF層

本文使用CRF對融入新聞中心句的上下文信息進行約束性解碼。CRF對L=(l1,…,lj,…,lm)的輸入序列和其對應的標簽序列Y=y1,y2,…,ym的評估分數為:

式中,M為狀態轉移矩陣,Myi,yi+1表示從yi變化到yi+1的概率,pi,yi表示第i個字符對應的yi標簽的分數。

3 實驗設置與結果分析

3.1 數據集

要素實體類別分別是犯罪嫌疑人、被害人、案發地、查案警方、審理法院和其他非要素實體。通過爬取中國新聞網大案要案模塊獲取涉案新聞語料,整個語料包括97個案件共2 000條句子。按照7:3的比例劃分訓練集和測試集,語料中句子和各類要素實體的分布如表1所示。

表1 涉案新聞語料統計

3.2 實驗參數設置

本文實驗采用TensorFlow1.13.2框架,且中心句和正文句的句子長度設置一致,均為120個字。訓練過程中,本文使用Adam優化算法,學習率為0.004;批次為16,字嵌入維度為120,單向的LSTM的神經單元為128。

由圖2可知,當多頭數被設置為1~4時,融入新聞中心句的要素實體識別方法的識別效果隨著多頭數的增加而提高。當多頭數設置為4時,整體效果達到最優,而后逐漸變小趨于平穩。因此,本文將多頭數設置為4。

圖2 多頭數對模型性能的影響

本文采用準確率P、召回率R和F1值作為要素實體識別結果的評價指標,計算過程如下:

式中,TP為被正確劃分為正例的個數,FP為被錯誤劃分為正例的個數,FN為被錯誤劃分為負例的個數。

3.3 實驗結果分析

3.3.1 對比實驗結果分析

為了驗證融入新聞中心句的要素實體識別方法的性能,將其與下列方法進行對比。

(1)Bi-LSTM-CRF。本文通過Bi-LSTM網絡獲取新聞句的上下文信息,再采用CRF預測新聞正文句的標簽信息。

(2)Bi-LSTM-Self-Attention-CRF。Lin等人提出一種Self-Attention機制[17],本文用Bi-LSTM獲取新聞正文句的上下文語義后,再經Self-Attention獲取全局語義,最后用CRF解碼。

(3)Multi-Head Attention-Bi-LSTM-CRF。Vaswani等人提出Multi-Head Attention機制[18],本文采用4個多頭從新聞正文句獲得多角度語義信息,再采用Bi-LSTM獲取上下文語義信息,最后用CRF識別要素實體。

在對比實驗中,各方法實驗環境相同,實驗結果如表2所示。

表2 涉案新聞要素實體識別方法比較

從實驗結果可以看出,與效果最佳的Multi-Head Attention-Bi-LSTM-CRF方法相比,本文提出方法的3個指標值分別提高了0.66%、5.17%、3.4%。結果說明,本文提出的融入新聞中心句的要素實體識別方法能夠有效提升要素實體識別的性能。

3.3.2 消融實驗結果分析

為了進一步驗證提出方法的有效性,分別將各個部分刪除后進行比較,從而分析各個部分是否對要素實體識別有效。

從表3可以看出,融入新聞中心句后Multi-Head Attention-Bi-LSTM-CRF的F1值提升了2.87%;利用WM-ATT的融合方法和利用Multi-Head Attention的融合方法相比,準確率、召回率、F1值分別提高了0.41%、0.62%、0.53%。

表3 消融實驗結果

3.3.3 對比實驗各類別結果分析

本文使用的是涉案新聞語料,共有5個案件要素類別。各個類別在不同方法中的實驗結果如圖3所示。

由圖3可知,4個方法識別結果最好的類別是“犯罪嫌疑人”,結果最差的類別是“案發地”。本文提出的要素實體識別方法在“案發地”“查案警方”和“審理法院”這3個類別的識別效果上與其他方法相比有很大的提升。

3.3.4 樣例測試分析

本小節將使用原始語料中未出現的涉案新聞案例作為測試樣本,以測試本文提出方法在新數據上的識別效果,具體如下。

新聞中心句:寧波市公安局寧海分局(以下簡稱“寧海公安”)成功偵破城關鎮楊家村殺人命案,抓獲潛逃21年之久的命案犯罪嫌疑人王某金,將于23日,轉交寧波市中級人民法院開庭審理。

新聞正文句1:寧海公安接到報警稱:城關鎮(現為桃源街道)竹口楊家村楊某在自家小店內被人捅傷,送醫途中死亡。

新聞正文句2:當天19時許,專案組成功在余姚梨洲一暫住房內找到王某金。

新聞正文句3:1999年11月2日凌晨,王某金帶著刀和手電筒在小店周圍踩點。

新聞正文句4:他看到受害人楊某要關店門,便一把推開門進去,楊某發現王某金后,王某金用手抱住楊某。

新聞正文句5:一審將于23日,在寧波市中級人民法院開庭審理。

測試結果顯示,“犯罪嫌疑人”“被害人”“查案警方”“審理法院”這4類要素實體都能被有效識別,并且在由于成分指代導致語義模糊的新聞正文句4中,“犯罪嫌疑人-王某金”也被識別出。只有不曾在新聞中心句中出現的“案發地-小店”未被識別出。

圖3 各類別的實驗結果對比

4 結語

針對涉案新聞句中由于成分指代引起語義模糊導致要素實體識別率低的問題,本文提出利用WM-ATT將新聞中心句融入新聞正文句中,以此進行語義增強并減緩無效信息對要素實體識別造成的負面影響。盡管本文通過融入新聞中心句增強新聞正文句語義使得識別性能略有提升,但是方法的識別效果依賴于新聞中心句的詳盡程度。因此,在未來研究中將會更多關注聯合抽取新聞中心句和要素實體的方法,從而提升方法性能。

猜你喜歡
語義信息方法
語言與語義
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
認知范疇模糊與語義模糊
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 欧美国产日韩另类| 一区二区午夜| 国产成人永久免费视频| 久久精品一品道久久精品| 国产一区二区免费播放| 中文字幕伦视频| 91在线国内在线播放老师| 午夜爽爽视频| 538国产视频| 一本久道久综合久久鬼色| 欧美亚洲日韩不卡在线在线观看| 精品伊人久久久久7777人| 日本尹人综合香蕉在线观看| 欧美国产综合视频| 色网站在线视频| 五月婷婷丁香综合| 成人午夜免费观看| 毛片免费网址| 亚洲天堂日韩在线| 99久久精品无码专区免费| 国产精品尹人在线观看| 天堂岛国av无码免费无禁网站| 视频二区国产精品职场同事| 无码有码中文字幕| 五月激激激综合网色播免费| 五月婷婷伊人网| 欧美va亚洲va香蕉在线| 999精品免费视频| 色婷婷电影网| 亚洲欧美日韩高清综合678| 欧美日本不卡| 欧美日韩高清在线| 91精品人妻互换| 国产在线日本| 午夜色综合| 国产99精品久久| 中文字幕亚洲乱码熟女1区2区| 国产a网站| 亚洲精品男人天堂| 亚洲综合片| 日本精品影院| 国产美女无遮挡免费视频| 中文字幕 91| 热99re99首页精品亚洲五月天| 精品国产aⅴ一区二区三区| 9久久伊人精品综合| 日韩最新中文字幕| 四虎精品国产永久在线观看| 视频二区中文无码| 日韩专区第一页| 国产亚洲精品97在线观看| 亚洲国产精品美女| 一级毛片在线免费看| av无码一区二区三区在线| 精品国产91爱| 99re视频在线| 日韩午夜片| 亚洲开心婷婷中文字幕| 91毛片网| 综合天天色| 国产一区二区三区在线精品专区| 国产精品尹人在线观看| 亚洲天堂精品视频| 中文字幕人成人乱码亚洲电影| 亚洲中文精品久久久久久不卡| 2020最新国产精品视频| 免费看的一级毛片| 国产高清不卡视频| 亚洲人成网站色7777| 中文无码精品A∨在线观看不卡| 日本久久久久久免费网络| 五月天久久婷婷| av大片在线无码免费| 亚洲午夜福利精品无码| 欧美日韩精品一区二区在线线| 在线国产毛片| 一级片一区| 亚洲永久色| 国产成人高清亚洲一区久久| 国产精品部在线观看| 国产成人AV大片大片在线播放 | 欧美一级一级做性视频|