999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT+BiLSTM+CRF的中文景點命名實體識別①

2020-06-20 07:32:08孫連英
計算機系統應用 2020年6期
關鍵詞:特征文本旅游

趙 平,孫連英,萬 瑩,葛 娜

1(北京聯合大學 智慧城市學院,北京 100101)

2(北京聯合大學 城市軌道交通與物流學院,北京 100101)

1 引言

隨著社會媒體的發展,越來越多的旅游者喜歡通過游記分享旅游體驗.游記文本中景點的提取對旅游領域問答系統、個性化推薦等研究具有重要的意義.

1996年,命名實體識別(Named Entity Recognition,NER)一詞在MUC-6[1]上提出來的,為自然語言處理的一項基礎任務.早期基于規則和詞典[2]主要依賴語言學家根據上下文語義結構歸納的模板.該方法對于難以歸納的總結無法解決,識別效果不明顯,且歸納總結過程代價比較大,所以學者們使用機器學習方法[3-5]來解決這一問題,機器學習的方法主要采用數學統計進行建模,對NER 問題分類3 類小問題:特征選擇、機器學習策略、序列標注等.在處理NER 問題時,使用大規模的標注語料讓機器來訓練模型,通過訓練好的模型對測試語料進行序列解碼等,得到命名實體.但機器學習方法對文本特征提取要求較高.目前,基于深度學習的NER 方法[6,7]比前兩種方法得到了更廣泛的應用,目前流行的方法為BiLSTM 方法.由于BiLSTM 是對序列中各個位置的分數值進行獨立分類,不能考慮相鄰標簽之間的信息.而CRF 能較好解決這個問題,模型最后一層使用條件隨機場模型作為句子級的序列標注,如Li 等[8]提出基于LSTM-CRF 的命名實體識別方法.

在對于旅游領域內的景點識別研究,現有的主要是基于機器學習的方法,薛征山等[9]提出的基于隱馬爾可夫模型的旅游景點識別方法,該方法雖然在景點實體識別上有一定的效率,但是其未能考慮到上下文之間的語義信息,且在對文本提取特征的過程中未能解決文本特征表示的一詞多義問題,旅游領域景點詞語一般會存在不同語境下不同含義,比如“黃山”在不同語境下可以指安徽省黃山市,屬于地名,也可以指旅游景區“黃山”等,繼而景點實體識別效率一般.針對這個問題本文提出將深度學習方法應用到旅游領域景點識別中,在現有研究基礎上,提出將BiLSTM+CRF 方法應用旅游領域景點實體識別中.郭劍毅等[10]提出的基于層疊條件隨機場方法,該方法過于依賴人工構建特征模板,對于旅游領域,景點實體數量過多,無法一一列舉,且在人工構建特征模板的時候耗時耗力,未能考慮到上下文語境和語義的信息.針對該問題,本文將BERT 語言模型[11](Bidirectional Encoder Representation from Transformers,BERT)融合到BiLSTM-CRF 命名實體識別模型中.BERT 語言模型對自然語言處理任務效率有很大的提升,利用該模型可以解決文本特征表示時的一詞多義問題.BiLSTM 能夠充分利用先驗知識,獲取有效的上下文信息,CRF 可以考慮句子級相鄰標簽之間的信息,并且獲得全局最優序列.在實際旅游領域內景點識別的測試中比以往學者的研究方法效率有顯著提升.P值,R值,F值分別為8.33%,1.71%,6.81%.

2 BERT+BiLSTM+CRF 模型

2.1 模型框架

BERT+BiLSTM+CRF 模型由BERT 模塊、BiLSTM和CRF 3 個模塊組成.整體模型如圖1所示.首先使用BERT 模型獲取字向量,提取文本重要特征;然后通過BiILSTM 深度學習上下文特征信息,進行命名實體識別;最后CRF 層對BiLSTM 的輸出序列處理,結合CRF 中的狀態轉移矩陣,根據相鄰之間標簽得到一個全局最優序列.

圖1 BERT+BiLSTM+CRF 模型圖

模型第一層是利用預訓練的BERT 語言模型初始化獲取輸入文本信息中的字向量記為序列X=(x1,x2,x3,···,xn),所獲取的字向量能夠利用詞與詞之間的相互關系有效提取文本中的特征.

模型第二層為雙向LSTM 層,第一層獲取的n維字向量作為雙向長短時記憶神經網各個時間步的輸入,得到雙向LSTM 層的隱狀態序列(表示前向)和(表示后向),待前向與后向全部處理完,對各個隱狀態序列進行按照位置拼接得到完整的隱狀態序列記為ht=(h1,h2,···,hn)∈Rn×m,接著線性輸出層將完整的隱狀態序列映射到s維(s維為標注集的標簽類別數目),記提取的句子特征為全部映射之后的序列為矩陣L=(l1,l2,···,ln)∈Rn×s,li∈Rs的每一維li,j分別對應其字xi對 應每個類別標簽yi的分數值.如果此時直接對每個位置的分數值進行獨立分類,選取每個分值最高的直接得到輸出結果,則不能考慮相鄰句子之間的信息,不能得到全局最優,分類結果不理想.所以引入模型最后一層.

2.1.1 BERT 模型

BERT[11]是一種自然語言處理預訓練語言表征模型.BERT 能夠計算詞語之間的相互關系,并利用所計算的關系調節權重提取文本中的重要特征,利用自注意力機制的結構來進行預訓練,基于所有層融合左右兩側語境來預訓練深度雙向表征,比起以往的預訓練模型,它捕捉到的是真正意義上的上下文信息,并能夠學習到連續文本片段之間的關系.模型預訓練結構圖如圖2所示.

圖2 BERT 模型預訓練結構圖

圖2中,Trm表示[11]自注意力機制(Transformer)編碼轉換器,E1,E2,···,EN表示模型的輸入,為詞向量,而T1,T2,···,TN表示模型的輸出.由于一般的語言模型不能很好理解句子之間的關系,而在命名實體識別中句子之間的語義關系是非常重要的,所以BERT 模型拼接句子L和M,并預測M是否位于原始文本中L之后.語言模型的預訓練在文本特征提取時,能解決一詞多義問題繼而能夠改進命名實體識別的任務,所以本文將BERT 語言模型結合到命名實體識別的任務中,取得了顯著的效果.

2.1.2 BiLSTM

長短時記憶神經網[12]是1997年提出來的,是目前最流行的遞歸神經網絡,其不僅對短期的輸入比較敏感,更能保存長期的狀態.LSTM 的主要由3 個開關來控制單元的輸入輸出.

(1)遺忘門:單元狀態ct-1保留到當前時刻ct的決策,計算公式如式(1):

式中,Wfh對應輸入項ht-1;Wfx對應輸入項Xt;Wfh和Wfx組成遺忘門的權重矩陣Wf,bf為偏置頂,σ為激活函數.

(2)輸入門:當前輸入Xt保存到ct的決定,計算公式如式(2):

式中,Wi為 權重矩陣,bi是偏置頂.

當前時刻單元狀態ct,如式(4):

式中,ct-1表 示前一個的單元狀態,ft為遺忘門.符號.表示按元素乘.

(3)輸出門:計算如式(5):

輸入門和單元狀態確定了長短時記憶神經網絡的輸出,如式(6):

神經網絡可以根據文本中詞的分布式表示自動提取特征,字向量的BiLSTM-CRF 模型,在BiLSTM 輸出預測曾后,由CRF 層利用上下文已經預測的標簽,找到全局最優的標注序列,實驗對比分析見文第四部分.

2.1.3 CRF

CRF[13]用來分割和標記序列數據,根據輸入的觀察序列來預測對應的狀態序列,同時考慮輸入的當前狀態特征和各個標簽類別轉移特征,被廣泛應用于NER 的問題中.CRF 應用到NER 的問題中主要是根據BiLSTM 模型的預測輸出序列求出使得目標函數最優化的序列.

兩個隨機變量X和Y,在給定X的條件下,如果每個YV滿足未來狀態的條件概率與過去狀態條件獨立[13],如式(7):

則(X,Y)為一個CRF.常用的一階鏈式結構CRF[13]如圖3所示.

圖3 條件隨機場一階鏈式結構

CRF 應用到NER 中是在給定需要預測的文本序列X={x1,x2,···,xn},根據BERT-BiLSTM 模型的輸出預測序列Y={y1,y2,···,yn},通過條件概率P(y|x)進行建模,則有式(8):

其中,i表示當前節點在x中的索引,m,n表示在當前節點i上的特征函數總個數.tn表示節點特征函數,只和當前位置有關.μm表示局部特征函數,只與當前位置和前一個節點位置有關.βnλm分別表示特征函數tn和 μm對應的權重系數,用于衡量特征函數的信任度.z(x)歸一化因子,如式(9):

2.2 算法描述

算法1.景點實體提取算法輸入:旅游游記文章輸出:景點實體集1.get_train_example(data_dir),get_test_example(data_dir),get_labels()/*獲取訓練數據examples、測試數據predict_examples、標簽集labels;2.convert_single_example()/* 分析樣本,將字、標簽全部轉化為id,次數對文本進行按照序列截斷,在句子開頭結尾加上標識符,結構化存儲到InputFeature 對象中,存為一個類*/3.TFRecordWriter(output_file)/*將步驟2 中的數據轉化為TF_Record格式*/4.for (ex_index,example)in enumerate (examples)/*遍歷所有訓練樣本重復步驟2 和步驟3*/5.create_model(),model_fn()/*構建模型,初始化參數,使用BERT加載獲取每個字對應的embedding,訓練基于BERT-BiLSTMCRF 的實體識別模型*/6.filed_based_convert_examples_to_features()/*使用步驟2 中的predict_examples 作為模型的輸入,得到實體識別結果result*/7.end for 8.return result

3 數據集

3.1 構建數據庫

本文從馬蜂窩等互聯網旅游網站上通過爬蟲技術獲取1 萬余篇旅游游記文章,將數據解析成TXT 文件,進行數據清洗,通過正則表達式去除無用的網址、特殊的標點符號以及一些符號化的字等信息,按照優先級處理特殊符號,但是保留逗號,句號等重要的標點符號.數據預處理流程如圖4所示.

圖4 數據清洗預處理

詞邊界特征能很好地表示邊界字符的位置信息,有助于確定實體邊界,所以本文按照BIO 標注格式(B 表示景點開始標志,I 表示詞的中間部分,O 表示其他非景點的詞)進行自動化標注,并建立自己的旅游游記數據庫(TDB).標注實例如表1所示,數據分布情況如表2所示.

表1 標注實例

表2 數據分布情況

4 實驗過程

4.1 評價指標

本文采用MUC 評測會議上所提出的命名實體識別的評價指標,MUC-2 上[1]提出的NER 的最初評價指標:精確率(Precision,P),召回率[1](Recall,R).本文中主要采用P、R和F值(F值為召回率和精確率的加權調和平均值)作為評價指標計算式(10)~式(12).如表3所示.

表3 評價指標相關解釋

當 α =1時,式(12)為最常見的F1 值,計算公式如式(12),當F1 值較高說明實驗方法比較有效.

4.2 模型分層測試實驗結果

為了驗證本文所提出模型的有效性,從TDB 數據庫隨機抽取19 965 條句子作為訓練集和19 690 條句子作為測試集進行實驗.本文設置了4 組對比試驗,分別與CRF 模型,BiLSTM 模型,BiLSTM+CRF 模型進行分層測試對比,來驗證每個模塊的重要性.以下實驗訓練數據和測試數據均為同一數據集.實驗對比分析如表4所示.

表4 模型驗證實驗分析(%)

由表4可知,本文所提出的方法P值,R值,F值在相對于其他3 組對比實驗中效果最好的,P值,R值,F1 值上分別提升了0.86%,5.31%,3.09%.

(1)單層BiLSTM 模型

觀察實驗測試數據可知,由于CRF 能夠充分考慮標注序列的順序性,得到全局最優標注序列,所以缺少CRF 層會將一個完整實體拆分(如“故宮博物院”)拆分成“故宮”“博物院”兩個實體,而BiLSTM雖說能夠考慮上下文信息,但是其輸出序列只根據當前詞輸出得分最大值,容易將完整實體細分.所以對于BiLSTM、BiLSTM+CRF 兩種方法而言,后者識別效果較好.

(2)單層CRF 模型

由于CRF 只是傳統的機器學習方法,過于依賴人工構建的特征模板,缺乏深度學習方法中上下文信息的特征,而景點實體的識別對上下文語義理解依賴較大,所以BiLSTM+CRF 方法相比較而言,在P值上比CRF 提高了8.3%,R值提高了9.57%.

(3)雙層BiLSTM+CRF 層

去除BERT 模型時,由于在文本特征提取的時候不能解決同一個單詞不同語境下的特征表示問題,針對一詞多義問題不能得到很好的解決,比如“北京海洋館”中的“海洋”在不同語境下可以指人名也可以指景點名,對于此類問題不能得到解決,導致準確率,召回率等下降.

(4)BERT+BiLSTM+CRF 模型

結合三層的模型,可以通過BiLSTM 獲取上下文有效信息特征,可以解決特征表示的一詞多義問題,結合BiLSTM+CRF 的優勢,識別效率相對較高.

4.3 相關工作對比分析

經調研發現,目前對旅游領域內景點識別的方法最好的方法為薛征山[9]和郭劍毅[10]兩人所提出的,為驗證本文所提出方法的應用性,從所構建的TDB 數據庫中隨機抽取19 965 個句子作為訓練集,和19 690 個句子作為測試集進行實驗設計了3 組實驗對比分析,對旅游領域內的游記文章進行景點實體識別,并與以往研究者薛征山[9]提出的基于HMM 的中文旅游景點識別方法與郭劍毅[10]所提出的基于層疊條件隨機場方法進行對比分析;使用3.3 節中的評價指標得到實驗結果如表5.

表5 景點識別驗證結果(%)

觀察實驗結果可知,本文所提出的基于深度學習方法比機器學習方法在識別效率上有大幅度的提升,主要原因為深度學習能夠學習文本上下文語義信息,而本文在此基礎上解決了文本特征表示時的一詞多義問題,所以該模型在旅游領域內景點識別相對以往研究者效率有一定提升,其中P值和F值相對于薛征山[9]分別提高了8.33%和6.81%,R值相對于郭劍毅[10]提高了1.71%.

5 結論

本文研究設計了一種融合新的語言模型BERT 的BiLSTM+CRF 景點實體識別方法.利用BERT 語言模型能夠解決在文本特征表示的一詞多義問題,結合BiLSTM 深度學習方法充分學習上下文信息的特點以及CRF 機器學習方法提取全局最優標注序列,得到景點實體.在實驗中進行了驗證,P值,R值和F值均高達95%以上,且P,R,F值相比以往研究者所提出的方法分別提高了8.33%,1.71%,6.81%.解決了旅游景點實體識別效率一般的問題,將為解決從旅游游記文本中自動提取旅游線路的問題提供了技術支撐.

猜你喜歡
特征文本旅游
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
旅游
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
旅游的最后一天
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 久久综合丝袜日本网| 国产亚洲第一页| 亚洲视频二| 中文字幕人成乱码熟女免费| 六月婷婷激情综合| 国产视频你懂得| 欧美精品啪啪| 国产亚洲视频免费播放| a亚洲天堂| 国产成人精彩在线视频50| 在线观看av永久| 国产视频欧美| 天天操天天噜| 99青青青精品视频在线| 色偷偷一区二区三区| 亚洲欧美不卡| 国产内射一区亚洲| 毛片大全免费观看| 亚洲国产亚洲综合在线尤物| 国产美女精品一区二区| 亚洲色图欧美一区| 亚洲精品视频网| 蜜桃视频一区二区三区| 99久久精品免费看国产免费软件 | 国产在线自乱拍播放| 国产又色又爽又黄| 思思热精品在线8| 91在线无码精品秘九色APP| 亚洲欧美日本国产综合在线| 亚洲国产精品日韩欧美一区| 亚洲一区二区黄色| 婷婷午夜天| 欧美成一级| 国产成人无码久久久久毛片| 亚洲免费毛片| 国产精品综合色区在线观看| 国产色爱av资源综合区| 最新国语自产精品视频在| 国产精品久久久久久久久久98| 成人午夜天| 国产精品免费久久久久影院无码| 亚洲成a人在线播放www| 国产亚洲欧美在线人成aaaa| 性色生活片在线观看| 欧美日韩高清| 久久婷婷综合色一区二区| 国产精品亚洲一区二区三区z| 国产精品99久久久| 国产极品嫩模在线观看91| 日韩麻豆小视频| 中文成人无码国产亚洲| 免费a级毛片视频| 91视频99| 久热99这里只有精品视频6| 亚洲码在线中文在线观看| 日本在线国产| 国产丝袜啪啪| 国产裸舞福利在线视频合集| 毛片三级在线观看| 2021天堂在线亚洲精品专区| 欧美人人干| 国产尤物在线播放| 免费又黄又爽又猛大片午夜| 久久中文电影| 毛片免费在线视频| 伊人久热这里只有精品视频99| 免费国产不卡午夜福在线观看| 美女内射视频WWW网站午夜 | 国产免费网址| 爆乳熟妇一区二区三区| 欧美日韩高清在线| 91免费国产高清观看| 国产欧美日韩在线在线不卡视频| 久久伊人操| 亚洲中久无码永久在线观看软件| AV不卡无码免费一区二区三区| 91丝袜美腿高跟国产极品老师| 亚洲人成网站观看在线观看| 国产毛片一区| 免费jizz在线播放| 亚洲制服中文字幕一区二区| 这里只有精品免费视频|