999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT-BiLSTM-CRF模型的地理實體命名實體識別

2023-04-06 10:22:36湯潔儀李大軍
北京測繪 2023年2期
關鍵詞:文本效果信息

湯潔儀 李大軍 劉 波

(東華理工大學 測繪工程學院, 江西 南昌 330032)

0 引言

構建新型基礎測繪體系的首要任務是建成以地理實體為核心的基本國家地理實體數據庫[1]。地理實體是在空間數據庫中表達一個現實的世界中實際存在地理對象其所有的信息。互聯網中存在著大量與地理實體相關的信息,但從互聯網上收集到的數據存在格式不統一、質量不整齊和文本信息不完整等特點[2],如何從非結構化的文本中抽取出結構化的地理信息一直是人們亟須解決的問題。

命名實體識別(named entity recognition,NER)是知識抽取的基本任務之一,主要是從文本中抽取出具有特定意義或者指代性強的實體,如人名、地名、組織機構名、日期時間、專有名詞等[3]。命名實體識別的方法主要可分為基于規則的方法、基于統計模型的方法和基于深度學習的方法[4]。Aitken等[5]運用歸納邏輯編程(inductive logic programming,ILP)技術在自然語言數據中獲得了信息提取規則,在有371個句子的數據集中,得到的F1值可達66%,但基于規則的信息抽取存在耗時較長、成本高且可移植性較差等問題;張雪英等[6-7]以可擴展標記語言(eXtensible markup language,XML)為標注元語言,基于規則的方法構建了地理實體標注體系利用軟件設計了基于深度信念網絡(deep belief networks)的地質實體識別模型,有助于解決地理實體相關標準和規模化標準數據匱乏的問題,但本方法對標注的標準依賴性較高且數據庫存在不均衡等問題;陳婧玟等[8]基于條件隨機場(conditional random field,CRF)模型對雙語料庫中的地質文本中的時間信息進行抽取,但相對于特定領域而言,抽取的效率及分詞的效果不如通用領域的好,無法準確識別并提取到專有名詞;王若佳等[9]人利用BiLSTM-CRF模型對中文電子病例中的五種實體進行識別,當數據集較小時識別的效果較好,但在大規模數據集和自建語料庫中表現尚待進一步研究;王子牛等[10]利用結合基于雙向Transformer大規模預訓練語言模型(bidirectional encoder representation from transformer,BERT)和BiLSTM-CRF模型對中文實體進行識別在人民日報數據集上得到很好的效果;BERT模型在許多公開數據集的自然語言處理任務中均取得了不錯的F1值,但在專業領域中的效果尚未體現。

因此,本研究在前人研究的基礎上,利用爬取的百度百科中與地理實體相關的信息構建語料庫,基于BERT-BiLSTM-CRF模型將其應用于地理實體領域的命名實體識別,并對比了BiLSTM模型與BiLSTM-CRF模型對人名、地名和機構名三種實體的抽取結果,為后續知識抽取和應用奠定基礎。

1 基于BERT-BiLSTM-CRF模型的地理實體命名實體識別

1.1 BERT模型

Devlin J等[11]提出了基于雙向Transformer模型的BERT模型,在多個NLP任務中取得了很好的結果,可以通過對所有層的上下文信息進行預訓練,從而為問題回答和語言推理等創建最先進的模型。BERT作為詞嵌入層,是一個預訓練的語言表征模型,也是基于Transformer模型的編碼(Encoder)。即將文本中的每個字符作為原始的詞向量通過查詢字向量表將文本中的每個字轉換為一維向量輸入到模型中,模型輸出則是輸入各字對應的融合全文語義信息后的向量表示。

Transformer模型[12]最早是在2017年由谷歌提出來的,用于NLP領域,采用Encoder-Decoder架構,每個Transformer都包含多頭注意力機層(multi-head attention)、全連接層(FeedForward)、殘差鏈接和歸一化層(Add & Normal)。相較于其他NLP模型,不同于循環神經網絡(recurrent neural network,RNN)相關模型只能從左向右依次計算或者從右向左依次計算,Transformer支持并行化的語言處理,在Encoder端可以支持并行處理整個序列,并且得到輸出,極大地節約了訓練時間。

1.2 BiLSTM模型

BiLSTM-CRF模型是由Lample G.等人[13]提出,以雙向長短時記憶(bidirectional long short-term memory,BiLSTM)模型的結果作為CRF的輸入,通過CRF引入標簽間的狀態轉移矩陣,在四種不同國家語言的開放語料中都取得了很好的結果。BiLSTM模型[14]是由前向LSTM和后向LSTM組合而成,長短時期記憶(long short-term memory,LSTM)模型是一種特殊的RNN,主要為了解決長序列過程中的梯度消失和梯度爆炸的問題,因而引入了儲存單元、輸入門、遺忘門和輸出門的控制機制[15]。單向的LSTM-CRF模型只能學習序列的單向信息,不能做到學習句子上下文的全部信息。BiLSTM結構由前向和后向的兩層LSTM神經網絡組成,它們的輸入相同,能夠通過前后兩個方向的LSTM進行信息的特征提取,實現對整個語句或文本的上下文信息關聯[16]。

1.3 CRF模型

CRF模型善于處理長距離的上下文信息,但無法處理標簽間的依賴信息。設兩組隨機變量X=(X1,X2,…,Xn),Y=(Y1,Y2,…,Yn),線性鏈條件隨機場的定義為P(Yi|X,Y1,…,Yi-1,Yi+1,…,Yn)=P(Yi|X,Yi-1,Yi+1),i=1,…,n,(其中當i取1或n時只考慮單邊),用于序列標注問題的線性鏈條件隨機場,是由輸入序列來預測輸出序列的判別式模型。CRF相比其他概率圖模型能夠利用更加豐富的標簽分布信息,能通過鄰近標簽的關系獲得一個最優的預測序列,例如:B-PER后面不可能接B-LOC,并彌補BiLSTM的缺點,能夠更好地利用上下文信息,確保最終預測結果的有效性和合理性,提高標注效果。

1.4 基于BERT BiLSTM-CRF的地理實體命名實體識別模型

BERT BiLSTM-CRF模型是將BERT模型與BiLSTM-CRF模型結合起來,首先利用BERT預訓練模型獲取地理實體描述特征,將語料庫中的每一個輸入字符詞嵌入(Embedding)為包含字符向量、句級向量和位置向量的初始向量輸入到BiLSTM模型中,充分學習句子序列的上下文信息得到包含所有字符的字典,最后輸入到CRF模型中根據句子邏輯和上下文信息得到每個字符標注的概率分布,得到各個序列中字符的最可能的標注。模型如圖1所示。

圖1 BERT-BiLSTM-CRF模型結構圖

2 實驗分析

2.1 實驗數據

百度百科中蘊含大量豐富的地理信息,且百度百科詞條數據結構十分固定,主要可分為標題、概述框、信息框、同名消歧、縮略圖、詞條統計、標簽七個部分。本研究利用網絡爬蟲技術中的Request和Beautiful Soup庫,研究區域為江西省南昌市新建區,從百度百科中獲取到基于百度地圖與研究區域興趣點(point of interest,POI)數據相關的概述框部分的非結構化文本(如圖4所示)構成數據集,其中含有文本概述6 307行,共計369 714個字符。

圖2 百度百科詞條示例

2.2 標注方法

在命名實體識別任務中,首先需要對初始的文本進行標記化(Tokenization),將輸入的文本分割成一個個字符(token),配合詞典映射成向量使計算機正確識別文本并且不會存在遺漏的問題。一般情況下,漢語中的特征類別有字和詞2種,基于字粒度的Tokenization表示將句子切分成單個的漢字,例如:我是中國人按照字粒度可切分為我/是/中/國/人。可以看出,基于字粒度的切分魯棒性較強且詞表大大減少,但一個單字在本質上不具有語義意義,減少詞表使得輸入長度大大增加,從而使得輸入計算更加耗時耗力。基于詞粒度的Tokenization可以將我是中國人切分為我/是/中國人,與人類閱讀時的習慣性切分一致。詞粒度的切分一方面能夠很好地保留完整的詞的含義,另一方面能夠很好地保存詞的邊界信息,可以避免由于標簽偏移和關鍵詞語義信息丟失等對后續的序列標注及NER任務結果的影響。綜上所述,本文選擇的字符特征為詞匯與標點符號,將原始文本經過預處理后進行序列標注。目前實體命名較為常用的序列標注方法有三種:BIO(B-begin,I-inside,O-outside)三位標注法、BMES四位序列標注法(B表示一個詞的詞首位值,M表示一個詞的中間位置,E表示一個詞的末尾位置,S表示一個單獨的字詞)、BIOES(B-begin,I-inside,O-outside,E-end,S-single)五元標注法。本文采取的為BIO標注法,即B表示該實體的起始位置,I表示該實體的非起始位置,O表示不屬于任何實體。

2.3 評價體系

實體抽取的效果是通過計算模型的精確率P(Precision)、召回率R(Recall)和F1值[12]得到的,P表示正確預測的實體占全部識別出的實體的比例,R表示正確識別的實體占應識別實體比例,F1是結合了P和R的綜合評價指標。計算公式如下。

(1)

(2)

(3)

其中,TP表示數據集中正確預測為正類的詞數目,FP表示數據集中錯誤預測為負類的詞數目,TN表示數據集中正確預測為負類的詞數目,FN表示數據集中錯誤預測為負類的詞數目。

3 實驗過程與結果

3.1 數據預處理

百度百科網頁的文本主要是由用戶對知識及信息進行歸納編輯,是對實體進行的概括性的描述,內容為非結構化,通常所含信息量較大且真實性強,但可能存在句子不規范、信息冗余、信息錯誤和缺失等問題。因此需要對數據集進行預處理,將數據集中不相關、視為噪聲的內容刪除,去除無用的符號(空格、特殊符號及數字角標等),文本只保留有用信息。

3.2 構建語料庫

在真正使用模型進行關系分類前,需要構造相應的標注語料庫。這些語料數據往往因為沒有相應的知識庫而難以構造,因此只能使用人工標注的方式來進行。本研究從文本中識別人名、地名和機構名三種實體類型,其中人名表示為PER,人名的首字標記為B-PER;地名表示為LOC,地名的首字標記為B-LOC;機構名表示為ORG,機構名的首字標記為B-ORG,數據集標注如表1所示,由此得到自構建的標注語料庫,語料劃分如表2所示。

表1 數據集實體標注實例

表2 語料數據劃分

3.3 模型訓練與結果

本實驗采用TensorFlow框架進行模型搭建,將上述實驗語料按照7∶2∶1的比例分成了訓練集、測試集和驗證集,實體識別結果如表3所示。

表3 不同模型的命名實體識別結果

從識別結果可以看出,BERT BiLSTM-CRF模型與其他模型相比在對三類實體識別中效果更好,對機構名類實體的識別效果在準確率、召回率及F1值三方面都有一定的提高。三種模型均對人名識別的準確率和F1值都達到了90%以上;從準確度和F1值來說,BERT BiLSTM-CRF模型對三類實體的識別效果均高于BiLSTM-CRF模型和BiLSTM模型;從召回率來看,BERT BiLSTM-CRF模型對地名類和機構名類實體的識別效果要優于其他兩種模型,相差最大,可達10.85%;由此可見,BERT BiLSTM-CRF模型從識別效果和穩定性兩方面都優于其他兩種模型。

4 結束語

本研究將深度學習領域的BERT BiLSTM-CRF模型應用于地理實體的命名實體識別任務中,為了證明BERT模型的有效性,本實驗基于自建的標注語料庫在BERT BiLSTM-CRF模型、BiLSTM-CRF模型和BiLSTM模型的實驗結果進行對比。在BiLSTM-CRF模型和BiLSTM模型中沒有BERT Embedding層,而是使用了傳統的Word Embedding層,將每個字符通過One-hot獨熱編碼為低維稠密的字向量,將文本訓練轉化為字向量輸入到模型中。BERT模型通過Embedding將語料庫中的可利用的語義信息遷移過來,并對后續任務進行調整,提高了模型的輸出效果和邏輯性。實驗結果表明,BERT BiLSTM-CRF模型對三種實體的識別效果均優于其他兩種模型,可以適用于命名地理實體的識別場景中。

猜你喜歡
文本效果信息
按摩效果確有理論依據
在808DA上文本顯示的改善
迅速制造慢門虛化效果
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住“瞬間性”效果
中華詩詞(2018年11期)2018-03-26 06:41:34
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
模擬百種唇妝效果
Coco薇(2016年8期)2016-10-09 02:11:50
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 国产极品美女在线| 幺女国产一级毛片| 亚洲日韩精品伊甸| 亚洲一级毛片在线观播放| 激情成人综合网| 亚洲美女一级毛片| 免费一级毛片在线观看| 欧美中文字幕在线视频| 欧美亚洲国产精品第一页| 欧美视频二区| 国产成人午夜福利免费无码r| av手机版在线播放| 91日本在线观看亚洲精品| 一级全黄毛片| 国产精品手机视频| 久久综合九色综合97网| 日本在线亚洲| 中文字幕不卡免费高清视频| 国产96在线 | 日日拍夜夜嗷嗷叫国产| 欧美视频在线不卡| 国产综合精品日本亚洲777| 丁香五月亚洲综合在线| 免费毛片网站在线观看| 国产国产人成免费视频77777| 日韩AV手机在线观看蜜芽| a级毛片网| 四虎综合网| 欧美第九页| 97久久免费视频| 国产免费a级片| 日韩欧美高清视频| 国产精品欧美日本韩免费一区二区三区不卡| 亚洲第一极品精品无码| 国产成人久久综合777777麻豆| 四虎成人免费毛片| 美女国内精品自产拍在线播放 | 亚洲色欲色欲www在线观看| 国产精品女同一区三区五区| 日韩国产一区二区三区无码| 国产素人在线| a级毛片免费播放| 国产无码性爱一区二区三区| 国产精品专区第1页| 亚洲欧美不卡中文字幕| 久久综合伊人 六十路| 精品91视频| 色135综合网| 在线国产三级| 美女内射视频WWW网站午夜| 国产91精品久久| 国产屁屁影院| 国产农村精品一级毛片视频| 免费A级毛片无码免费视频| 天堂av综合网| 99热最新在线| 美女免费精品高清毛片在线视| 日本不卡在线播放| 久久精品无码中文字幕| 日韩精品亚洲人旧成在线| 欧美日韩在线亚洲国产人| 亚洲综合日韩精品| 亚洲欧美日韩久久精品| 亚洲女同一区二区| 国产一级精品毛片基地| 一级毛片高清| 永久免费无码成人网站| 日本一区二区三区精品国产| 天天综合色天天综合网| 亚洲有码在线播放| 国产精品三级av及在线观看| 中文字幕久久波多野结衣| 欧美一级大片在线观看| www欧美在线观看| 日韩欧美在线观看| 99热这里都是国产精品| 四虎亚洲精品| 国产18在线| 亚洲一区波多野结衣二区三区| 欧美精品亚洲二区| 欧美三级视频网站| 欧美在线精品怡红院|