999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多粒度信息融合的氣象知識命名實體識別*

2023-05-12 02:26:22姚元杰龔毅光陳嫚麗
計算機與數字工程 2023年1期
關鍵詞:記憶實驗信息

姚元杰 龔毅光 劉 佳 陳嫚麗

(南京信息工程大學自動化學院 南京 210044)

1 引言

命名實體識別(Named Entity Recognition,NER)任務是信息抽取領域內的一個子任務,其任務目標是給定一段非結構文本后,從句子中尋找、識別和分類相關實體,例如人名、地名和機構名稱[1]。NER 任務是信息提取、問答系統、知識圖譜等應用領域的重要基礎工具,識別任務通常面向特定的行業和領域。

與英語相比,漢語具有詞匯邊界模糊、實體結構復雜、表現形式多樣、缺乏明確的詞邊界等特點,使得漢語命名實體識別更加困難[2]。

1991 年Rau[3]首次提出NER 任務,拉開了NER任務在自然語言處理中應用的序幕。起初,命名實體識別大多是基于規則、統計或是兩者結合的混合方法。SHEFFIELD 大學提出的一種基于規則的命名題識別系統[4],此方法魯棒性不高。Bikel 等[5]在1999 年提了基于統計法-隱馬爾可夫方法,該方法及其變種后來被廣泛應用。Adwait[6]提出用最大熵求解文本分類的問題。

近年來,由于深度學習能夠從自由文本等非結構化數據中提取相關特征,且相關模型取得不錯的效果,因此采用深度學習來識別命名實體的方法已然成為一種趨勢。Yoshua Bengio 等將DNN 模型[7]應用在命名實體識別和詞性標注中,取得了較好的效果。也有人將傳統機器學習方法與深度學習結合,取得了不錯的效果。于紅等[8]采用LSTM-CRF模型的方法來識別漁業領域命名實體,其識別結果的準確率P、召回率R 以及F1 值比采用單一LSTM或CRF 模型的識別結果提高了3%左右。顏柏楊等[9]利用卷積神經網絡(Convolutional Neural Net?works,CNN)結合和BiLSTM-CRF 的模型來從醫療文本中識別醫療相關特征實體,取得了較高的識別率。Huang C等[10]在BiLSTM-CRF模型中添加注意力機制,在識別疾病相關名稱時,一致率高達0.87。在和預訓練模型結合方面,陳彥妤等[11]則采用預訓練的字向量作為BiLSTM-CRF模型的輸入,在保險行業相關的數據集上得到了較好的準確率和召回率。張芳叢等[12]提出將RoBERTa-WWM 預訓練模型結合BiLSTM-CRF,其在電子病歷中的命名實體識別中取得較好的結果。除此之外,將記憶網絡應用于NER 任務,已被證明具有較好的效果。Yuyang 等[13]采用門控制將記憶網絡用于NER任務,在多個數據集中取得較好成績。李天寧等[14]將記憶網絡和RoBERTa 預訓練模型結合,并融入到BiLSTM 網絡中,在中文細粒度命名實體識別任務上,取得較好效果。

經典的BiLSTM-CRF 模型并不能提取詞級別的語義信息,在中文命名實體識別任務中存在很大缺陷。特別是在特定領域中,由于領域的特殊性,往往存在大量未登錄的專業性詞匯。比如“厄爾尼諾”、“暴風雪”等。若模型不能準確識別“厄爾尼諾”或者將“暴風雪”僅僅識別成“風雪”,便會產生歧義,對后續工作造成很大影響。Zhang 等[15]提出了一種基于Lattice-LSTM 網絡,其通過匹配詞典中的詞語來增強語義信息的提取,但Lattice結構復雜且一個字符往往對應多個詞匯,模型容易丟失低頻率的長詞詞匯信息,從而造成語義偏差問題。

氣象與人們的生活息息相關,掌握氣象知識對我們的生活有著重要的意義。目前,在氣象科普這一領域,隨著數字化與互聯網的深入,已經有大量氣象知識數據的積累,但針對氣象科普知識暫時無法獲得已經做好標注和完成分詞的語料,同時也無特定針對氣象科普知識的命名實體識別模型。研究基于氣象科普知識的命名實體識別,有助于組織和挖掘氣象科普知識的相關實體信息。

基于上述問題,本文構建了氣象科普知識數據集并提出了基于多粒度信息融合的氣象科普知識命名實體識別模型的MGTNER 算法。模型利用BERT 預訓練模型[16]來增強文本的特征表示能力,利用相對簡單高效的SoftLexicon 結構[17]進行字、詞信息的融合,該結構利用詞集可以結合訓練好的詞典有效針對含有專業詞匯的特定領域,也可以避免一些情況下,短詞頻率高于重要長詞頻率并導致詞邊界識別錯誤,信息提取出現偏差的情況。對于經典的BiLSTM網絡很難捕捉句子級別和整個數據源中語義特征信息的問題,本文利用鍵值記憶網絡來提取數據源級別的特征信息。最后,使用條件隨機場(Conditional Random Field,CRF)來捕獲相鄰標簽之間的依賴關系。

2 氣象科普知識數據集構建

本實驗數據集來源于氣象類相關網頁,其中最主要的來源為中國氣象科普網。該網站的內容包含了災害防御、二十四節氣、人工影響天氣、氣候與氣候變化以及氣象術語等。

圖1 顯示了以中國氣象科普網為數據來源的數據集構建流程。首先初始化URL 序列,獲得中國氣象科普網頁,通過遍歷網頁后臺數據和解析爬取到的網頁,以此確定網頁數目。通過XPath 定位網頁中災害以及災害防御的內容并進行文本爬取,進而獲得氣象災害以及防御措施的相關數據。數據爬取完成后,將數據以CVS 格式存儲起來,接著對數據進行清洗,剔除無效數據,篩選出所需要的數據。整理數據后,采用人工定義領域內詞典進行實體匹配和人工修正的方法進行BIO 標注。最后將數據按照8∶1∶1 的比例隨機切割成訓練集、測試集以及驗證集,并進行人工修正。最終獲得我們所需的氣象科普知識數據集。

圖1 本文數據集構建流程圖

本文在對數據集進行標注時將氣象科普實體分為時間類、地點類、災害類、措施類、天氣類和術語類六個類型,將實體分類后,本文采用目前流行的BIO 標注法對預處理后的文本語料進行標注,B表示一個實體的開始字符,I表示實體的內部字符,O 表示不是相關實體。三個數據集的數據分布如表1。

表1 實體類別數量分布

3 多粒度信息融合的命名實體識別模型(MGTNER)

MGTNER 模 型 通 過BERT 預 訓 練 模 型、Softi?con-BiLSTM 網絡、鍵值記憶網絡和CRF 實現字詞和數據集級別的語義特征信息的融合,其總體框架如圖2。

圖2 本文模型總體框架

模型總體分為三個部分:1)輸入表示層,輸入序列首先被映射為向量,結合詞典提取詞級別的特征信息并存儲在詞集中,接著將該字符匹配到的加權后詞集KJZM 信息和BERT 得到的字符向量拼接,作為BiLSTM網絡的輸入。2)信息融合層,將含字詞信息的BiLSTM網絡輸出的隱藏狀態和事先保存在記憶網絡的特征信息結合,以此實現三種粒度信息的融合。3)輸出層,最終通過CRF進行標簽解碼。

3.1 預訓練模型

預訓練語言模型的核心思想是在大規模無監督語料庫上預訓練一個語言模型,并在下游目標任務中利用該模型的編碼嵌入表示進行訓練。這類工作是預訓練詞嵌入工作的延續,主要解決了傳統詞嵌入模型無法通過結合上下文,處理一詞多義的問題。

本文選擇BERT 語言模型對句子中的字符進行編碼,將輸入的句子表示為字向量、句向量、位置向量三者之和。BERT采用生成式的掩碼語言模型(Masked Language Model,MLM),掩 碼 比 率 為15%。在句子的起始位置加入[CLS]標簽,用[SEP]標簽來分割兩個句子。

BERT 模型是一種雙向Transformer 結構,定義輸入句子為S={c1,c2,c3,…,cn},其中xi表示句中第i個字,經過預訓練模型BERT 處理后得到輸人句子S的初始向量表示為{x1,x2,…,xn}。

圖3 BERT預訓練語言模型

3.2 SoftLexicon-BiLSTM網絡

在長序列訓練過程中,循環神經網絡(Recur?rent Neural Network,RNN)存在梯度消失和爆炸的問題。為此,長短期記憶網絡引入記憶單元去記錄狀態信息并通過輸入門、遺忘門和輸出門進行控制。SoftLexicon 結構的BiLSTM 網絡是在基于字的LSTM模型的基礎上,加入潛在的詞語信息。

3.2.1 SoftLexicon結構

模型利用詞典,將每個字所匹配到的字詞分為四類“K”、“J”、“M”、“Z”。K 表示匹配到由這個字為開始的詞集,J為匹配到由這個字為結尾的詞集,M 表示匹配到這個字在中間的詞集,Z 表示匹配到整個字。對于輸入序列S={c1,c2,…,cn},四個詞集由式(1)構成:

其中,L 為事先構建的詞典;w 為匹配到的詞;j、k 為匹配到詞的下標。若該字無匹配到的詞,則添加特殊的詞“None”。例如,對于輸入句子“臺風與強熱帶風暴相比。”中,對于c4“強”來說,匹配到詞w4,8“強熱帶風暴”,放在詞集K 中。對于c7“風”,匹配到詞w7,8“風暴”,放在詞集K 中,匹配到詞w4,8放在詞集M 中。得到詞集“KJMZ”后,需將該漢字匹配到的詞集壓縮成一個固定維度的向量。為保持計算效率,網絡采用單詞的靜態頻率去計算相關權重,計算公式如式(2)和式(3)。

其中,K 為詞集,c(w)表示詞w 在數據中出現的頻率,ew(w)為對應詞的詞嵌入表示。在計算頻率時,若詞w 被另一個匹配到詞典的詞覆蓋則較短詞w的頻率不會增加,這樣就避免了一些情況下,短詞概率總比長詞概率大的問題。

圖4 SoftLexicon方法

單個詞集壓縮成固定向量后,再將該字對應的四個詞集KJMZ 合成一個固定向量并將它們和預訓練得到字向量拼接,這樣極大程度上保留了所匹配到詞的信息,最終形成字詞向量的結合表示。公式如式(4)、式(5),其中υs是經過權重計算過后的詞集的向量。

3.2.2 BiLSTM結構

融合字詞向量后,融合后的字符表示傳入采用雙向長短期記憶網絡的上下文編碼層,即使用前向和后向LSTM 對輸入序列進行正向特征提取和反向特征提取。LSTM 是RNN 的一個變種,主要為了解決傳統RNN 在訓練長序列過程中存在梯度消失和爆炸的問題,為此LSTM 引入記憶單元并通過輸入門、遺忘門和輸出門的結構來更新隱藏狀態和記憶單元。

LSTM模型計算公式包括式(6)~式(11):

圖5 BiLSTM網絡結構

3.3 鍵值記憶網絡

在許多NLP任務中,使用鍵值記憶網絡[18]及其變體來利用額外的特征增強模型已獲得較好的效果[19~20]。在BiLSTM 網絡中,輸入來源于當前的單詞嵌入和過去的狀態,很難捕捉句子級別和在整個數據源中的特征信息。為此,本文采用鍵值記憶網絡來提取更大范圍的特征,將記憶網絡和上文提到的BERT-SoftLexicon-BiLSTM 網絡結合,不僅能提取字詞粒度的語義信息,也能對數據源中上下文的語義特征進行融合,上下文的語義特征包括POS標簽和字詞之間的依賴關系,如圖6。

圖6 語義特征信息示例

用鍵值記憶網絡對輸入序列xi的上下字詞相對應的不同類型的語義特征信息進行編碼并將其映射在記憶網絡模塊的鍵{ki1,ki2,…,kin}和值{vi1,vi2,…,vin}上。模型在對輸入序列進行編碼時會從記憶網絡模塊中提取出對應的特征值并和BiLSTM網絡輸出的隱藏狀態融合,以此來實現增強輸入文本的表示,進而提高模型性能,如圖7。

圖7 鍵值記憶網絡流程示例

公式如式(13)~式(16):

其中,wi,j為經過softmax 后的值v 的權重,ri是加權過后的特征信息,si為不同特征向量聚合后的結果,n 為對于輸入xi特征信息的個數,hi為BiLSTM 網絡輸出的隱藏狀態。oi為CRF 標簽解碼層的輸入,λ為模型參數,其值在0和1之間。

3.4 CRF標簽解碼層

在命名實體識別中,有些標簽需要遵守一定的邏輯關系,但簡單的歸一化函數并不能結合局部標簽和上下文信息。為此,本文采用命名實體識別任務中常用的CRF作為標簽解碼層,CRF能夠利用標簽間的關系,從而得到最佳的標簽序列。

對于給定輸入序列x={x1,x2,…,xn},句子標簽序列y={y1,y2,…,yn}。對于語句的標簽序列得分如式(17):

Ayi,yi+1為標簽yi轉移到標簽yi+1的分數,Pi,yi為該字符被預測為第yi個標簽的分數。定義標簽序列Y的概率為式(18):

其中,y′表示真實的標簽序列,YX為可能標簽的集合。最后,利用維特比算法輸出得分最高的標簽序列out*,計算公式如式(19)。

4 實驗

4.1 語料獲取和處理

本文的氣象科普知識來源于百度文庫資料和氣象科普網站,通過python 獲取數據,進行數據清洗之后,將實體類別分為天氣類、災害類、術語類、應對措施類、時間類和地點6 類。本實驗中采用BIO 標注模式,對于氣象科普知識語料,本文采用jieba 分詞工具,再利用word2vec 模型訓練詞向量。實體類別示例如表2。

表2 實體類別示例

4.2 評價指標

為了評估模型對氣象科普知識數據集中實體識別的效果,本文采用命名實體識別任務中常見的召回率(recall)、精確率(precision)和F1 score 作為評估指標。

F1值表示答案之間的重合度,公式如式(20)。

其中,Pre為Precision精確率,公式如式(21),Rec為Recall召回率,公式如式(22)。

其中,TP為被模型預測為正類的正樣本;FP為被模型預測為正類的負樣本;FN 為被模型預測為負類的正樣本。

4.3 實驗環境與配置

本實驗使用RTX 2080ti的GPU進行加速,軟件版本為python3.7,pytorch1.4.0。超參數設置為:字詞向量維度都是50,LSTM 隱藏單元為300,dropout為0.5,epoch 為50,使用Adam 來優化參數,學習率為0.015,衰減率為0.05。

4.4 實驗分析

4.4.1 氣象科普知識數據集上的實驗結果與分析

本文模型MGTNER 在氣象科普知識數據集的實驗結果如表3。在所有六大實體類別中,時間和地點類實體的實驗結果最好,F1 值分別達到了92.59%和92.70%。其次是術語類、災害類和天氣類,F1 值為90.23%、90.66%和89.21%,雖然這三類包含了大量的專業詞匯,但因為實體數量較多并且模型結合領域詞典,所以具有較高的識別準確率。實體識別效果最差的是措施類,因為該類實體數量較少,模型還不能充分挖掘這類實體的特征信息。圖8是本文模型的三個指標精確率、召回率和F1值隨迭代次數變化的測試,可以看出模型在前十次迭代中收斂較快,之后模型性能提升逐漸放緩,在大約20 次迭代后,指標在一個小范圍內變化,在接近50次迭代時,模型性能處于穩定。

表3 不同實體類別的識別結果

圖8 本文模型的測試表現

4.4.2 消融實驗與結果分析

基于上文的氣象科普知識數據集和實驗參數設置,為了驗證MGTNER 模型對實驗結果的影響,本文利用消融實驗來驗證模型的優越性。

本文采用字符級別的BiLSTM-CRF 模型和Lattice-LSTM 模型作為本次實驗的基線模型,實驗結果如表4。從實驗結果來看,字符級別的BiL?STM-CRF 網絡效果較差,三相指標僅在80%左右,因為字符級別的BiLSTM-CRF 模型并不能結合領域詞典,而氣象科普知識數據集存在不少領域內詞匯,如“強熱帶風暴”等。Lattice-LSTM 和SoftLexi?con-BiLSTM 網絡三項指標相近,SoftLexicon-BiL?STM 網絡實體識別效果略微高一點,Lattice-LSTM網絡雖然也解決了中文詞級別信息的融入,但其模型相比LSTM 需要額外建模,訓練和推理效率相對較低。為了驗證BERT 的有效性,設置了BERTSoftLexicon-BiLSTM 模 型 與SoftLexicon-BiLSTM 相比,三項指標有了一定的提升。最后,為了驗證記憶網絡的對模型性能提升的有效性,本文將BERT-SoftLexicon-BiLSTM并結合記憶網絡的模型與BERT-SoftLexicon-BiLSTM 模型進行對比,在精確率、召回率和F1 三項指標上分別提升了1.07%、0.84%和0.95%,可以看出,通過融合記憶網絡對模型識別效果有一定的提升。從實驗結果可以得出,本文模型MGTNER 在氣象科普知識數據集上,相比于對比模型,有更好的實體識別效果。

表4 氣象科普知識領域各模型對比結果

4.4.3 Resume數據集上的實驗結果與分析

由于氣象科普知識數據集沒有公開標注好的數據集,本文采用公開數據集Resume 進一步驗證本文模型的性能。由于數據集不是特定領域,本實驗采取Lattice-LSTM 的詞典,由704400 個字詞組成,包含了5700 個漢字、291500 個雙字詞、278100個三字詞和129100個其他詞匯。

為了探究在Resume數據集上,LSTM 隱藏層狀態的維度對模型效果的影響。實驗在本文模型上選取不同維度的LSTM 隱藏層狀態進行實驗,實驗如圖9。從實驗結果來看,模型在LSTM 網絡隱藏層維度為300時,F1得到最優結果95.94%。

圖9 LSTM的隱藏層狀態的維度

在Resume 數據集的實驗對比中,采用以下五種模型,除了上文提到的Lattice-LSTM 模型、SoftLexcion-BiLSTM 模型和本文模型外,LR-CNN模型[21]是在CNN 網絡的基礎上加入反饋機制來合并詞匯信息,TENER 模型[22]則是針對NER 任務對Transformer 網絡進行改進。表5 為各模型在中文Resume 數據集上的表現,根據實驗結果,本文模型MGTNER相較于其他幾種模型取得了最好的結果,其準確率、召回率、F1 值分別為95.62%、96.26%、95.94%。可以得出在Resume 數據集上,本文基于多粒度的命名實體識別模型,相比于列表的幾種模型具有一定的優勢。

表5 在Resume數據集上各模型對比實驗結果

5 結語

本文針對氣象科普知識領域存在大量領域內專業詞匯,構建了氣象科普知識數據集并且提出了一種基于多粒度信息融合的氣象科普知識命名實體識別模型MGTNER。該模型在氣象科普知識數據集中,相比于幾種基線模型BiLSTM-CRF、Lat?tice-CRF等具有一定的優勢。為進一步驗證模型,本文在Resume 數據集中進行幾種模型的對比,結果表明本文模型取得更好的實體識別效果。在未來的研究中,我們將繼續探索氣象科普知識的命名實體識別在其他下游任務中的應用。

猜你喜歡
記憶實驗信息
記一次有趣的實驗
做個怪怪長實驗
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
記憶中的他們
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
兒時的記憶(四)
兒時的記憶(四)
記憶翻新
海外文摘(2016年4期)2016-04-15 22:28:55
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 免费观看男人免费桶女人视频| 91久草视频| 无码一区中文字幕| 成人在线观看不卡| 在线欧美一区| 欧美激情网址| 久久夜色精品国产嚕嚕亚洲av| 国产粉嫩粉嫩的18在线播放91| 免费可以看的无遮挡av无码| 国产乱人伦精品一区二区| 香蕉在线视频网站| h视频在线播放| 精品国产网| 亚洲第一精品福利| 天天综合网亚洲网站| 免费看a级毛片| 国产黄色片在线看| 国产精品妖精视频| 成人免费视频一区| 免费观看精品视频999| 中文字幕佐山爱一区二区免费| 午夜日b视频| 99热这里只有精品免费| 日本一本在线视频| 国产精品白浆在线播放| 久久亚洲美女精品国产精品| 亚洲国产综合精品一区| 亚洲综合婷婷激情| 精品一區二區久久久久久久網站| 国产精品无码久久久久AV| 亚洲自拍另类| 国产精品亚洲αv天堂无码| 91久久国产成人免费观看| www成人国产在线观看网站| 专干老肥熟女视频网站| 国产成人精品视频一区视频二区| 中文无码精品a∨在线观看| 国产十八禁在线观看免费| 1024国产在线| 久久久久国产一级毛片高清板| 国产成人8x视频一区二区| 国产欧美日韩免费| 国产成人精品男人的天堂| 伊人国产无码高清视频| a亚洲视频| 国产丝袜第一页| 亚洲无码精品在线播放| 国产成人亚洲无码淙合青草| 精品久久久久久中文字幕女| 国产另类视频| 114级毛片免费观看| 人妻夜夜爽天天爽| 伊人福利视频| 日韩精品毛片人妻AV不卡| 91精品啪在线观看国产91九色| v天堂中文在线| 自拍偷拍一区| 日韩国产一区二区三区无码| 最新国产精品鲁鲁免费视频| 欧美天堂久久| 国产精品所毛片视频| 国产精品无码AV片在线观看播放| 精品少妇人妻av无码久久| 免费看a毛片| 国产精品自在在线午夜区app| 国产污视频在线观看| 国产精品午夜福利麻豆| 999国产精品永久免费视频精品久久| 97视频在线精品国自产拍| 黄色在线不卡| 老司国产精品视频| 红杏AV在线无码| 久久人搡人人玩人妻精品一| 视频在线观看一区二区| 麻豆国产精品| 日本久久免费| 日本在线欧美在线| 2022国产91精品久久久久久| 手机成人午夜在线视频| 国产精品综合久久久| 人妻丰满熟妇AV无码区| 精品福利视频导航|