999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的旅游領域知識抽取

2024-06-26 07:52:14王澤輝徐萬通鄭藝葦林嘉儀周伏倪李世中
電腦知識與技術 2024年13期

王澤輝 徐萬通 鄭藝葦 林嘉儀 周伏倪 李世中

摘要:旅游業是許多國家和地區的重要支柱產業之一,對促進經濟增長和就業起到關鍵作用。其次,旅游是人們之間交流和相互了解的重要途徑,有助于促進不同地域、民族和文化之間的交流與融合。因此,文章采用BERT-BiGRU-CRF命名實體識別模型和BERT-TextCNN文本分類模型,對旅游領域文本數據進行了知識抽取。其中,BERT-BiGRU-CRF在旅游實體數據集上的F1值達到了90.69%,BERT-TextCNN在旅游分類數據集上的F1值達到了92.51%,實驗效果良好。文章提出的知識抽取方案為旅游領域的知識抽取提供了新方向,同時為基于該領域知識圖譜的知識問答、知識檢索等應用提供了幫助。

關鍵詞:旅游領域;知識抽取;命名實體識別;文本分類

中圖分類號:TP81 文獻標識碼:A

文章編號:1009-3044(2024)13-0042-03 開放科學(資源服務)標識碼(OSID) :

0 引言

旅游業是國家和地區的產業,能夠創造就業機會、促進貨物和服務的流通、推動地方經濟的發展[1]。還能夠促進文化傳承和保護,許多旅游目的地擁有豐富的歷史文化遺產,通過旅游活動,可以促進這些文化資源的傳承和保護,提高人們對文化遺產的認識和重視。

知識圖譜是一種用于表示知識的圖形化結構[2],它以實體和實體之間的關系為基礎,將現實世界中的信息進行抽象和組織,形成一種圖形化的知識表達方式。知識圖譜的核心思想是將知識以圖的形式進行建模,從而幫助計算機系統理解和處理復雜的語義關系。一個知識圖譜通常由節點和邊組成。節點代表現實世界中的實體,邊則表示節點之間的關系。知識圖譜的構建通常依賴于多種信息源,包括結構化數據、非結構化文本等[3]。構建知識圖譜的過程包括數據抽取、實體識別、關系抽取、知識表示等多個步驟。

構建旅游旅游知識圖譜,可以將豐富多彩的旅游資源進行整合和展示,包括景點名稱、地理位置、特色景觀、歷史文化等,其次有助于傳承和宣傳歷史文化和民族風情,促進地方經濟發展、文化傳承和社會進步。

1 相關理論與技術

1.1 BERT-BiGRU-CRF 模型

構建知識圖譜需要對非結構化文本數據進行實體抽取,本文選擇了BERT-BiGRU-CRF模型,如圖1 所示:

首先,BERT作為底層模型,負責學習句子中每個詞的上下文語義表示。然后,BiGRU模型用于進一步處理詞語序列,通過雙向循環神經網絡的結構,能夠有效地捕捉序列數據的上下文信息。BiGRU模型從兩個方向(左到右和右到左)掃描輸入序列,然后將兩個方向的隱藏狀態進行拼接,提供更全面的信息。最后,CRF模型用于對BiGRU輸出的特征序列進行標簽預測,利用標簽之間的轉移概率建模序列標注任務中的約束關系,從而得到最終的命名實體識別結果。

1) BERT模型。BERT[4]是由Google于2018年提出的一種基于Transformer架構的預訓練語言模型。相較于之前的語言模型,BERT的主要創新在于引入了雙向性,即同時考慮了上下文左右兩側的信息。BERT模型的預訓練過程包括兩個任務[5]:Masked Language Model(MLM) 和Next Sentence Prediction(NSP) 。在MLM任務中,輸入序列中的一部分詞會被隨機地mask掉,模型需要預測這些被mask的詞。而在NSP任務中,模型需要判斷兩個句子是否相鄰。這樣的預訓練任務設計使得BERT能夠學習到更豐富的句子表示,從而在各種自然語言處理任務中取得了非常好的效果。

2) BiGRU模型。GRU是一種循環神經網絡的變體[6],具有門控機制,有助于克服傳統RNN中的梯度消失問題。GRU包含更新門和重置門,它們決定了當前時間步的輸入是否被更新到隱藏狀態中,從而控制了信息的流動。相比于傳統的RNN結構,GRU更容易訓練,參數數量也更少。更新門和重置門的計算公式如下:

zt=σ(Wz?[ht?1,xt]+bz )

rt=σ(Wr?[ht?1,xt]+br )

更新后的候選隱藏狀態的計算公式如下:

H=tanh(W?[rt×ht?1,xt]+b)

BiGRU是一種雙向門控循環神經網絡結構,由兩個方向的GRU組成,分別從左到右和從右到左地掃描輸入序列,然后將兩個方向的隱藏狀態進行拼接或合并,以捕獲序列數據中的上下文信息。BiGRU結構通過同時考慮序列數據的前后信息,能夠更好地捕獲序列數據中的依賴關系和語義信息。它不僅能夠利用當前時間步之前的信息,還能夠利用當前時間步之后的信息,從而提供更全面的上下文信息。

3) CRF。CRF[7]是一種概率圖模型,常用于序列標注任務,如命名實體識別、詞性標注等。在CRF中,假設給定輸入序列和輸出序列,CRF通過定義一組特征函數來建模輸入序列和標簽序列之間的關系。這些特征函數衡量了輸入序列和標簽序列之間的對應關系以及相鄰標簽之間的轉移概率。CRF模型的核心是學習條件概率分布,即給定輸入序列,預測輸出序列的概率分布。模型參數通過最大化對數似然函數進行學習,通常采用隨機梯度下降等優化算法進行參數估計。CRF模型能夠有效地捕捉序列數據中的依賴關系,提高模型在序列標注任務中的性能。CRF模型的條件概率分布可以通過以下公式表示:

1.2 BERT-TextCNN 模型

對文本數據識別出實體信息后,還需確定兩個實體之間的關系,才能轉換為三元組數據進行存儲。本文選擇了BERT-TextCNN模型來實現實體間的關系分類,如圖2所示。

首先,BERT用于學習文本中每個詞的上下文語義表示。接下來,TextCNN 用于進一步處理文本特征,通過卷積和池化操作對文本進行特征提取和壓縮。TextCNN利用卷積神經網絡的局部感知能力,能夠有效地捕捉文本中的局部特征。最后,將輸出向量傳入全連接層進行分類預測。

1) TextCNN。TextCNN[8]是一種用于文本分類任務的深度學習模型。與傳統的循環神經網絡或者長短期記憶網絡相比[9],TextCNN能夠更好地捕捉文本中的局部特征,從而在文本分類任務中取得了良好的性能。TextCNN的核心思想是將文本表示為固定長度的向量,并通過卷積和池化操作對文本進行特征提取和壓縮。卷積層通過多個卷積核對詞向量序列進行卷積操作,以捕捉不同長度的局部特征。每個卷積核對輸入進行一維卷積操作,產生一個特征圖。池化層對每個特征圖進行池化操作,通常采用最大池化操作來壓縮特征圖的維度,保留最顯著的特征。

2) 全連接層。全連接層[10],也稱為密集連接層或者仿射層,是深度學習神經網絡中常見的一種層類型。在全連接層中,每個神經元都與上一層的所有神經元相連,每個連接都有一個權重參數。因此,全連接層中的每個神經元都接收上一層所有神經元的輸入,并輸出給下一層所有神經元。全連接層通常用于網絡的最后幾層,用于將前面層提取的特征進行組合和整合,從而得到最終的輸出。在分類任務中,全連接層的最后一層通常使用softmax激活函數,將模型的輸出轉換為類別的概率分布。全連接層的輸出計算可以用以下數學公式表示:

z=Wx+b

式中,x 為輸入向量,W 為權重矩陣,b 為偏置向量,z 為全連接層的輸出。

3) Softmax層。Softmax函數是一種常用的激活函數,主要用于多分類問題中的輸出層。它將輸入的原始分數轉換成每個類別的概率值。Softmax函數對每個原始分數進行指數化,并將結果歸一化,使得輸出的概率之和等于1。這樣的輸出可以被解釋為每個類別的置信度或概率。Softmax計算公式如下:

2 實驗設置

2.1 實驗參數設置

本文的實驗基于TensorFlow平臺搭建,實驗環境配置如表1所示:

BERT-BiGRU-CRF命名實體識別模型參數設置如下:batch_size 設置為32,gru_units 設置為128,drop_rate設置為0.5,learn_rate設置為0.0001,共訓練20個epoch。

Bert-TextCNN文本分類模型參數設置如下:優化器選擇Adam,卷積核設置為(3,4,5) ,drop_rate設置為0.5,共訓練20個epoch。

2.2 實驗結果分析

為了比較各模型在旅游領域命名實體識別和文本分類上的表現,本文使用準確率、召回率和F1值衡量不同模型的性能,實驗結果如表2和表3所示:

從表2可以看出,BERT-BiGRU-CRF模型相較于傳統的BiGRU-CRF和BERT-CRF模型,在F1值上取得了3.61% 和2.11% 的提升,說明結合了BERT預訓練的語義表示和BiGRU-CRF模型的序列標注能力,在命名實體識別任務中取得了顯著的性能提升。BERT 模型能夠學習到豐富的語義信息,通過預訓練的方式在大規模文本語料上學習詞語之間的語義關系,能夠更好地捕捉詞語的上下文信息。而BiGRU-CRF模型則能夠有效地捕捉序列數據中的依賴關系,并通過條件隨機場模型進行序列標注,具有良好的序列標注能力。結合BERT的語義表示和BiGRU-CRF模型的序列標注能力,BERT-BiGRU-CRF 模型能夠更全面地利用文本中的語義和序列信息,從而取得了較大的性能提升。

從表3可以看出,BERT-TextCNN模型相較于傳統的TextCNN和BERT模型,在F1值上取得了4.71%和3.12% 的提升,說明結合了BERT 的語義表示和TextCNN模型的特征提取能力,能夠在文本分類任務中取得顯著的性能提升。BERT模型能夠學習到豐富的文本語義信息,而TextCNN模型則通過卷積和池化操作對文本進行特征提取和壓縮,能夠有效地捕捉文本的局部特征。結合BERT的語義表示和TextCNN模型的特征提取能力,BERT-TextCNN模型能夠更全面地利用文本中的語義和局部特征信息,在文本分類任務中更準確地判斷文本的類別。

3 結束語

在基于深度學習的旅游領域知識抽取研究中,通過本文所提出的BERT-BiGRU-CRF命名實體識別模型、BERT-TextCNN文本分類模型,我們成功地實現了對旅游領域相關知識的自動化抽取。通過深度學習技術,我們能夠更準確、更高效地從海量的旅游文本數據中提取出有用的信息,為旅游業的發展和決策提供了有力支持。未來會進一步改進模型的性能和泛化能力,提高知識抽取的準確度和效率,同時結合領域知識和人類專家經驗,進一步優化模型的設計和訓練過程,探索多模態數據融合的方法,提升知識抽取的綜合能力和應用效果。

參考文獻:

[1]林婷,孫妍,易敏,等.“互聯網+”時代智慧旅游發展及盈利模式探索[J]. 商展經濟,2024(5):31-34.

[2] 趙卓,田侃,張殊,等. 面向智慧文博的知識圖譜構建綜述[J].軟件導刊,2022,21(5):1-8.

[3] 張吉祥,張祥森,武長旭,等. 知識圖譜構建技術綜述[J]. 計算機工程,2022,48(3):23-37.

[4] DEVLIN J,CHANG M W,LEE K,et al. BERT:pre-training of deep bidirectional transformers for language understanding[EB/OL]. arXiv preprint arXiv:1810. 04805, 2018.

[5] 宋璐璐. 基于知識圖譜的水稻病蟲害問答系統的設計與實現[D]. 雅安:四川農業大學,2023.

[6] 翟文鵬,宋一嶠,張兆寧. 基于Transformer-GRU網絡的4D航跡預測[J/OL]. 重慶交通大學學報(自然科學版),1-7[2024-03-27].

[7] LAFFERTY J D,MCCALLUM A,PEREIRA F C N. Conditional random fields:probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the Eighteenth International Conference on Machine Learning. ACM,2001:282–289.

[8] 鄒旺,張吳波. 基于BERT-TextCNN 的汽車評論情感分析[J]. 天津理工大學學報,2024,40(1):101-108.

[9] SUNDERMEYER M,SCHL?TER R,NEY H. LSTM neural net?works for language modeling[C]//Interspeech 2012. ISCA:ISCA,2012:194-197.

[10] 張靜,高子信,丁偉杰.基于BERT-DPCNN的警情文本分類研究[J/OL].數據分析與知識發現,1-15[2024-03-27].

【通聯編輯:唐一東】

基金項目:大學生創新創業訓練計劃項目:高原地區車內智能化檢測供氧換氣裝置 (S202310694017) ;大學生創新創業訓練計劃項目“: 主動式”道路智能交互系統的研發(2024XCX015)

主站蜘蛛池模板: 欧美激情二区三区| 伊人精品成人久久综合| 欧美激情首页| 青青青国产在线播放| 亚洲一区精品视频在线| 亚洲欧美天堂网| 麻豆国产精品一二三在线观看| 久久久久国产一区二区| 日韩资源站| 国产伦精品一区二区三区视频优播| 亚洲性影院| 亚洲色图在线观看| 亚洲人在线| 黄色成年视频| 综合社区亚洲熟妇p| 亚洲日韩高清在线亚洲专区| 中字无码av在线电影| 美女无遮挡被啪啪到高潮免费| www.av男人.com| 日韩av高清无码一区二区三区| 久久久黄色片| 综合色亚洲| 天天色天天操综合网| 91久久国产综合精品女同我| 2020国产免费久久精品99| 激情六月丁香婷婷四房播| 亚洲精品第五页| 日本不卡在线播放| 久久精品无码一区二区日韩免费| 91亚洲精选| 欧美日韩亚洲国产主播第一区| 国产主播喷水| 欧美天天干| 欧美在线视频不卡第一页| 亚洲看片网| 人妻免费无码不卡视频| 全裸无码专区| 免费国产好深啊好涨好硬视频| 99中文字幕亚洲一区二区| 欧美一区精品| 日韩AV无码一区| 国产黄网永久免费| 国产女人综合久久精品视| 好吊日免费视频| 国产乱子伦一区二区=| 华人在线亚洲欧美精品| 亚洲欧美日韩动漫| 国产性生交xxxxx免费| 在线日本国产成人免费的| 伊人成人在线视频| 无码日韩视频| 色哟哟国产精品| 欧美日韩中文字幕在线| 99视频在线观看免费| 国产青榴视频| 亚洲精品动漫| 亚洲天堂精品在线| 亚洲国产理论片在线播放| 精品国产免费观看一区| 国产欧美日韩另类精彩视频| 在线五月婷婷| 亚洲成a人片77777在线播放| 911亚洲精品| 自偷自拍三级全三级视频| 国产成人精品免费av| 久久国产高潮流白浆免费观看| 一级毛片免费的| 国产v精品成人免费视频71pao| 在线国产资源| av在线手机播放| 欧美va亚洲va香蕉在线| 在线国产资源| 欧美日本视频在线观看| 国内精品自在自线视频香蕉| 国产精品永久久久久| 国产毛片高清一级国语| 亚洲九九视频| 九九免费观看全部免费视频| 亚洲欧美在线综合图区| 欧美不卡视频一区发布| 国产一在线| 美女国内精品自产拍在线播放|