融合ＮＥＲ和Ａｐｒｉｏｒｉ算法的游記文本關聯知識挖掘及推薦服務研究

2023-11-15 05:56:21郭順利蘇新寧房旭輝

現代情報 2023年11期

郭順利蘇新寧房旭輝

摘要：［目的／意義］為挖掘旅游平臺游記文本蘊含知識，協助旅游者高效獲取符合需求的信息和知識，為制定旅游計劃提供科學決策的信息支持。［方法／過程］首先面向用戶需求提出基于布爾矩陣和集合邏輯改進Ａｐｒｉｏｒｉ算法的思路；然后融合命名實體識別實現了游記文本關聯知識挖掘及聚合，構建了基于關聯知識挖掘的個性化推薦服務模式，并以攜程網中杭州相關的游記文本進行了實證研究。［結果／結論］研究發現，融合命名實體識別和改進的Ａｐｒｉｏｒｉ算法，能夠有效挖掘游記文本蘊含知識，實驗結果驗證了在算法性能及結果上要優于傳統Ａｐｒｉｏｒｉ算法，并能夠根據挖掘結果向用戶提供個性化推薦服務，協助旅行者科學、高效地制定旅游計劃。研究結論豐富了游記文本挖掘的方法論，為旅游平臺服務推薦優化提供了新的思路。

關鍵詞：知識挖掘；關聯規則；Ａｐｒｉｏｒｉ算法；游記文本；推薦服務

ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１００８－０８２１．２０２３．１１．０１０

〔中圖分類號〕Ｇ２０３〔文獻標識碼〕Ａ〔文章編號〕１００８－０８２１（２０２３）１１－０１２３－１２

隨著移動互聯網的普及，越來越多的游客喜歡在旅游平臺上分享自己的旅游經歷。這些記錄旅游經歷的游記文本中蘊含著大量有價值的信息，包括游客的旅行目的地、旅游攻略、景點評價和旅行體驗等。有效地組織和挖掘游記文本資源，以直觀、生動的可視化方式展示旅游事件知識單元之間的關聯與結構，能夠為旅游平臺用戶提供精準化知識服務，為旅游計劃和決策制定提供幫助［１］。然而，隨著旅游平臺用戶數量的激增，游記文本的數量也呈現指數性增長。由于游記文本主要由用戶生成，旅游平臺缺乏有效的監督和管理機制，導致文本質量良莠不齊，存在冗余過載、組織無序以及用戶獲取成本高等問題。面對游記文本的爆炸性增長，如何利用有效的工具和方法來組織和挖掘其中所蘊含的未知的、有價值的信息和知識，為用戶提供精準化知識服務，成為當前旅游平臺亟需解決的問題之一。

游記文本的組織與挖掘研究主要涉及旅游文化元素的識別［２］、旅游目的地形象感知［３］、游客感知［４］、游客行為［５］等方面。同時，一些學者通過游記文本內容挖掘為用戶提供推薦服務，包括旅游路線推薦［６］、旅游景點推薦［７］和相關游記推薦［８］等。

從游記文本挖掘技術和方法的角度來看，學者們大多采用了文本挖掘的相關技術方法，部分學者還結合了知識圖譜、深度學習等前沿技術。例如，呂琳露等［９］利用文本挖掘技術和相關方法，實現了對游記文本的知識發現與聚合，為用戶的旅游決策提供依據；孫文平等［１０］則基于構建的知識圖譜，采用頻繁序列挖掘算法為用戶推薦旅游路線；高原等［１１］結合ＴＦ－ＩＤＦ和Ｗｏｒｄ２Ｖｅｃ方法進行景點識別，并基于馬爾可夫性、先驗知識和空間特征模型實現了游客游覽行程的重構。學者們應用文本挖掘技術進行游記文本知識挖掘技術方法中，關聯規則挖掘是較為常用的方法。部分已有研究實現了從游記文本中挖掘關聯知識并為旅行者提供路線推薦、景點推薦、關聯知識發現等服務。其中，Ａｐｒｉｏｒｉ算法［１２］作為最常用的關聯規則算法之一，已被廣泛應用于政策文本［１３］、學術論文［１４］、用戶生成內容［１５］等多個領域。然而，由于傳統的Ａｐｒｉｏｒｉ算法運行效率較低，部分學者采用多種方法融合對其進行改進關聯知識挖掘效率和性能［１６－１７］，以提高算法的效率。例如，章成志等［１８］在抽取學術論文的細粒度知識實體后，結合Ａｐｒｉｏｒｉ算法和復雜網絡分析軟件構建了知識實體關聯網絡。涂晨等［１９］基于ＬＤＡ主題模型與Ａｐｒｉｏｒｉ算法的旅游數據挖掘，從文本中抽取相關旅游要素。

梳理已有文獻發現，學者們多應用經典關聯規則挖掘算法進行游記文本知識挖掘，但是在知識特征抽取上存在較大問題。而命名實體識別技術能為解決這一問題提供有效方法。命名實體識別（ＮａｍｅｄＥｎｔｉｔｙＲｅｃｏｇｎｉｔｉｏｎ，ＮＥＲ），又稱實體抽取，是指從非結構化的自然語言文本中識別出符合定義的實體。

該技術基于深度學習的方法更有利于自動發現文本中隱藏的知識特征。此外，借助大規模預訓練嵌入的發展，基于深度學習的命名實體識別模型不斷提升性能，在醫學［２０］、數字人文［２１］、社交媒體［２２］、科技文獻［２３］等多個領域廣泛應用，取得了顯著的效果。游記文本數據中涵蓋了豐富的實體信息，基于深度學習的命名實體識別方法能夠為游記文本中知識實體信息的提取和分析提供了有效手段。游記文本大多是用戶生成的非結構化文本。如果對游記文本進行關聯知識挖掘，需要先將非結構化的游記文本轉換為結構化的形式。通過應用命名實體識別方法，可以從游記文本中抽取出旅游實體，將由用戶生成的非結構化游記文本轉換為由旅游實體構成的結構化文本。此外，已有游記文本關聯知識挖掘多基于整體的數據挖掘結果進行推薦服務，而缺乏對細粒度屬性的挖掘。基于深度學習的命名實體識別方法能夠從游記文本中提取細粒度知識實體信息，為后續細粒度關聯規則挖掘提供基礎。

鑒于此，本研究結合旅游平臺游記文本的特點，提出了一種融合命名實體識別和改進Ａｐｒｉｏｒｉ算法的游記文本關聯知識挖掘方法。首先，通過游記文本分類實現對細粒度關聯知識的挖掘；然后，應用命名實體識別技術，從游記文本中提取出旅游實體，將非結構化的游記文本轉換為可用于關聯規則挖掘的結構化數據；最后，利用改進的Ａｐｒｉｏｒｉ算法挖掘游記文本中潛在的、未知的、有價值的關聯知識，實現對知識的有效組織和利用。最終，基于挖掘出的關聯知識，提供面向用戶需求的個性化推薦服務，以協助用戶高效獲取符合需求的旅游信息和知識，為用戶的旅游計劃制定和決策提供幫助。

１研究基礎

１.１Ａｐｒｉｏｒｉ算法

Ａｐｒｉｏｒｉ算法是關聯規則挖掘領域中的經典算法，由ＡｇｒａｗａｌＲ等［１２］在１９９３年提出。該算法的核心思想是在給定大數據集中尋找頻繁項集，并進一步生成強關聯規則［２４］。Ａｐｒｉｏｒｉ算法可分為以下３個步驟：首先，基于用戶指定的最小支持度，通過對事務集的迭代遍歷，生成滿足最小支持度的頻繁項集；其次，根據頻繁項集及其支持度，計算各個關聯規則的置信度，從而挖掘出事務集中滿足用戶指定最小置信度的強關聯規則；最后，通過提升度優化生成的關聯規則。

然而，傳統的Ａｐｒｉｏｒｉ算法存在以下３個缺點：首先，在計算候選項集的支持度時需要多次掃描數據庫，增加了算法的時間復雜度和計算開銷；其次，通過頻繁ｋ－項集連接生成候選ｋ＋１－項集時，會產生大量的候選項集，增加了算法的空間復雜度和內存開銷；最后，傳統的Ａｐｒｉｏｒｉ算法無法將用戶需求融入到關聯規則的生成過程中，生成的關聯規則可能并不符合用戶的真實需求，導致生成的關聯規則缺乏實際價值和意義。

１.２ＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦ模型

ＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦ模型是一種廣泛應用且效果良好的深度學習命名實體識別模型，該模型由編碼層的ＢｉＬＳＴＭ和解碼層的ＣＲＦ組成。在嵌入層方面，采用了ＢＥＲＴ預訓練語言模型作為通用的詞元嵌入。ＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦ模型的結構如圖１所示。

ＢＥＲＴ是由ＧｏｏｇｌｅＡＩ團隊提出的一種面向自然語言處理任務的無監督預訓練語言模型［２５］。該模型采用Ｔｒａｎｓｆｏｒｍｅｒ雙向編碼器表示，被視為預訓練語言模型的巔峰之作。相較于之前的預訓練模型，ＢＥＲＴ具備強大的特征提取能力和語義理解能力，因此本文選用ＢＥＲＴ作為游記文本實體抽取模型的嵌入層。ＢｉＬＳＴＭ是雙向長短期記憶網絡，相較于單向傳遞的ＬＳＴＭ模型，它引入了雙向信息傳遞。通過前向ＬＳＴＭ和后向ＬＳＴＭ從正序和倒序的角度學習文本特征［２６］。ＣＲＦ模型結合了最大熵模型和隱馬爾可夫模型的特點，是一種無向概率圖模型。ＬＳＴＭ模型只能考慮句子的上下文信息，無法考慮標簽之間的依賴關系，而ＣＲＦ可以通過學習標簽之間的相鄰關系來保證標簽的有效性［２７］。因此，本文選擇ＢｉＬＳＴＭ模型作為編碼層，用于理解文本的語義和結構，并學習出表示文本的向量。在ＢｉＬＳＴＭ之后，加入ＣＲＦ層作為解碼層，用于解碼詞元的標簽，從而實現命名實體識別任務。

２融合命名實體識別和Ａｐｒｉｏｒｉ算法的游記文本挖掘方法及關鍵技術

本文針對在線旅游平臺的游記文本特點，提出了一種綜合應用命名實體識別和改進Ａｐｒｉｏｒｉ算法的游記文本挖掘方法，并基于挖掘得到的關聯知識，為用戶提供個性化的推薦服務。研究思路和設計如圖２所示。該方法涉及以下關鍵技術功能模塊：基于標簽的游記文本分類、基于ＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦ模型的游記文本實體抽取、基于改進Ａｐｒｉｏｒｉ算法的游記文本關聯知識挖掘以及基于知識圖譜的關聯知識推薦。

２.１基于標簽的游記文本分類

為了實現細粒度的關聯知識挖掘，對游記文本進行分類。分類的依據是根據游記文本中所涉及的景點，并為其添加相應的縣／區級城市行政區域標簽。具體而言，對于每篇游記，如果其中提及了屬于某個行政區的旅游景點，就為該篇游記添加相應的行政區標簽。一篇游記可以擁有多個城市行政區域標簽。標簽添加的規則如表１所示。在完成城市行政區標簽的添加后，可以根據這些城市行政區域標簽對游記文本進行分類。這樣的分類可以為后續的關聯知識挖掘提供更準確和細致的基礎。

２.２基于ＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦ模型的游記文本實體抽取

游記文本實體抽取的目的是提取游記文本中的旅游實體。由于目前缺乏適用于游記文本的命名實體識別數據集，因此需要首先對游記文本進行命名實體標注。游記文本實體抽取的具體流程如下：

Ｓｔｅｐ１：文本分句。對預處理后的游記文本數據進行句子級別的劃分，這樣可以更好地訓練命名實體識別模型。

Ｓｔｅｐ２：實體標注。隨機選取句子進行實體標注，采用ＢＩＯ方法對劃分后的句子進行實體標注。旅游實體的標簽類型包括景點、酒店和餐飲。完成實體標注后，剔除不包含旅游實體的句子，將剩余的句子作為命名實體識別模型所需的訓練數據集。

Ｓｔｅｐ３：數據集劃分。按照６ ∶２ ∶２的比例隨機抽取數據集中的句子，將數據集劃分為訓練集、驗證集和測試集。

Ｓｔｅｐ４：模型構建。采用Ｐｙｔｈｏｎ語言基于Ｔｅｎ?ｓｏｒＦｌｏｗ框架構建ＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦ模型。

Ｓｔｅｐ５：模型訓練與測試。讀取數據集，分別導入訓練集、驗證集和測試集，并設置超參數進行模型訓練。根據測試集數據，評估模型的抽取效果，包括準確率、召回率和Ｆ１值等指標。

Ｓｔｅｐ６：模型調試。根據模型測試結果，不斷調整超參數進行訓練，直到模型達到最佳的測試結果。

Ｓｔｅｐ７：模型保存與預測。將表現最佳的模型保存后，根據按城市行政區域標簽分類的游記文本，分別導入訓練好的命名實體識別模型進行預測，根據模型預測的標簽提取實體信息。

Ｓｔｅｐ８：實體去重。抽取的結果中，每一行代表一篇游記中出現的旅游實體。由于實體在一篇游記中的重復出現次數不會影響Ａｐｒｉｏｒｉ算法的結果，因此需要對每行實體數據進行去重處理。

Ｓｔｅｐ９：實體消歧。實體消歧采用人工與程序相結合的方法。具體步驟包括編寫程序對抽取出的所有文檔中的實體進行去重和排序，然后通過人工篩選的方式，為同一實體確定唯一的實體名稱。最后，將存在歧義的實體名稱替換為唯一的實體名稱，實現實體的融合。

２.３基于改進Ａｐｒｉｏｒｉ算法的游記文本關聯知識挖掘

２.３.１Ａｐｒｉｏｒｉ算法的改進思路

針對傳統Ａｐｒｉｏｒｉ算法的缺點，并考慮到旅游平臺中游記文本的特點和關聯知識挖掘的目的，提出了以下改進思路和方法：

１）解決多次掃描數據庫的問題。將事務數據庫映射為布爾矩陣，不再依賴于事務數據庫，并對矩陣的列向量進行求和運算。假設求和結果為ｍ，如果ｍ小于或等于用戶給定的最小支持度，則刪除該列。在生成頻繁ｋ－項集之前，對矩陣的行向量進行求和運算，假設結果為ｎ，如果ｎ的值小于ｋ，則刪除該行。通過這種方式，只需要對文本集進行一次掃描，就能夠降低算法的時間復雜度和計算開銷。

２）解決產生大量候選項集的問題。基于集合原理，提出了一種正向迭代方法，用于由頻繁ｋ－項集生成候選ｋ＋１－項集。假設頻繁ｋ－項集中包含ｗ個ｋ－項集，每次從這ｗ個ｋ－項集中選擇ｋ＋１個ｋ－項集進行合并，如果合并后的集合是包含ｋ＋１個元素的ｋ＋１－項集，則將其保留作為候選ｋ＋１－項集。這樣生成的候選ｋ＋１－項集的所有子集都是頻繁ｋ－項集中的項集。通過利用子集組合，能夠極大地減少候選項集的數量，使得候選項集近似于頻繁項集，從而降低了算法的空間復雜度和內存開銷。

３）解決可能生成無效關聯規則或用戶不感興趣關聯規則的問題。提出了一種改進方法，將用戶需求融入到關聯規則中。在用戶輸入需求后，利用詞向量模型標記出與用戶需求緊密相關的項在事務數據庫中的位置。在創建布爾矩陣的過程中，對這些項進行加權操作，以生成融合用戶需求的個性化關聯規則。這樣可以有效地提高關聯規則的相關性和針對性，避免生成無效或不感興趣的規則。

２.３.２基于改進Ａｐｒｉｏｒｉ算法的游記文本關聯知識挖掘流程

將事務數據庫命名為“游記實體文本集”，其中每一條事務對應一篇游記，而項則對應游記文本中的實體。基于改進的Ａｐｒｉｏｒｉ算法的游記文本關聯知識挖掘流程如下：

Ｓｔｅｐ１：融合用戶需求。根據用戶需求，利用詞向量模型計算與用戶需求相近的項，并對相關項進行標記。

Ｓｔｅｐ２：構建布爾矩陣Ｍ。將游記實體文本集映射成為布爾矩陣Ｍ（ｍ?ｎ），其中行對應游記文本，列表示在游記中出現的實體。矩陣的行數ｍ表示游記的數量，矩陣的列數ｎ表示文本中實體的數量。對于矩陣Ｍ，當Ｍ［ｉ，ｊ］＝１時表示第ｉ篇游記文本中出現第ｊ個實體，而Ｍ［ｉ，ｊ］＝０則表示該實體未出現。同時，對標記的項進行加權，加權值與事務總數的比值要大于用戶給定的最小支持度。

Ｓｔｅｐ３：生成頻繁１－項集Ｌ１。對布爾矩陣Ｍ按列求和，當某一列的和大于或等于用戶給定的最小支持度時，將對應的項加入頻繁１－項集，并在Ｍ中刪除非頻繁的項（即刪除對應的列）。然后，對布爾矩陣按行求和，當總數小于或等于１時，刪除該行，并形成新的布爾矩陣Ｍ１。

Ｓｔｅｐ４：生成頻繁ｋ－項集Ｌｋ。利用前述迭代方法，基于頻繁項集Ｌｋ－１生成候選ｋ－項集Ｃｋ。在布爾矩陣Ｍｋ－１中，對Ｃｋ中的每個ｋ－項集進行列求和運算，若某個ｋ－項集對應的列求和值大于或等于用戶給定的最小支持度，則該ｋ－項集為頻繁ｋ－項集。對于布爾矩陣Ｍｋ－１的每一行，進行行求和運算，若總數小于ｋ，則刪除該行，形成新的布爾矩陣Ｍｋ。重復迭代過程，直到Ｃ（ｋ＋１）＝ ? 時結束。

Ｓｔｅｐ５：生成關聯規則。根據頻繁項集生成關聯規則。在頻繁項集中，按照逐個增加元素的方式進行分堆排列，生成前件和后件的組合規則。然后，計算每個規則的置信度和提升度。

Ｓｔｅｐ６：生成符合用戶需求且有價值的關聯規則。根據關聯規則的置信度，篩選出大于或等于用戶給定的最小置信度的強關聯規則。基于強關聯規則的提升度和用戶需求，獲得符合用戶需求且具有價值的關聯規則。

２.４基于知識圖譜的關聯知識推薦服務

該技術功能模塊主要是對關聯知識挖掘生成的頻繁項集和關聯規則進行分析，旨在尋找每個行政區的熱門旅游實體及它們之間的關聯，并將分析結果導入Ｎｅｏ４ｊ圖數據庫以構建知識圖譜。以知識圖譜可視化形式向用戶展現，實現面向用戶需求的關聯知識推薦服務。具體步驟如下：

Ｓｔｅｐ１：頻繁項集數據分析。基于頻繁項集數據，識別每個行政區的熱門景點、酒店和餐飲。針對景點和餐飲進行細分，篩選出景區、演出、游玩項目、餐廳和美食等相關實體。

Ｓｔｅｐ２：實體層級關系構建。建立上述實體之間的層級關系，其中最高層級為景區，其次為景點、餐廳、酒店、演出和游玩項目，最底層級為美食。

Ｓｔｅｐ３：關聯規則數據分析。按照關聯規則提升度排序，依照實體層級從高到低的順序，逐個檢索高層級實體作為前項的關聯規則。對找到的關聯規則進行分析，如果規則的后項包含低于該實體層級的實體，則為高層級實體分別建立指向底層級實體的關系。為保持知識圖譜的清晰、直觀，同一層級的實體不再構建關系。

Ｓｔｅｐ４：構建三元組。完善關聯規則數據分析后的實體關系，根據實體類型建立關聯關系，如推薦景點、推薦住宿、推薦餐廳等。完成實體關系構建后，形成“實體，關系，實體” 的三元組，并通過在線旅游平臺的相關信息完善三元組的內容。

Ｓｔｅｐ５：導入Ｎｅｏ４ｊ圖數據庫。利用Ｐｙｔｈｏｎ編程語言編寫程序，將三元組數據導入Ｎｅｏ４ｊ圖數據庫，構建基于關聯知識挖掘結果的旅游推薦知識圖譜。通過該圖譜，能夠幫助用戶制定旅游計劃并輔助用戶做出旅行決策。

３實證研究

本文選擇攜程網中與杭州市相關的游記數據作為實驗數據，以驗證本文提出的融合命名實體識別和改進Ａｐｒｉｏｒｉ算法的游記關聯知識挖掘方法的有效性和科學性。相較于其他在線旅游平臺，攜程網的游記數據數量更多，內容更為豐富且質量更高。同時，杭州作為熱門旅游城市，擁有眾多景點和豐富的文化歷史，吸引了大量游客前往，因此關于杭州旅游的游記數量也相當豐富。基于以上考慮，本文選擇了攜程網上與杭州市相關的游記作為研究對象。

３.１游記文本數據采集和預處理

使用Ｐｙｔｈｏｎ語言編寫的爬蟲程序，用于從攜程網上獲取與杭州市相關的游記文本。爬取內容包括城市行政區域標簽和游記正文內容，共獲取了３２９３篇游記。首先，根據城市行政區域標簽，篩除與杭州無關的游記文本，并刪除游記內容為空或重復的數據，最終得到２６３４篇游記。對剩余游記正文內容中的繁體字進行轉換，統一轉為簡體字。接下來，根據表１中的城市行政區域標簽添加規則，為每篇游記添加縣／區級城市行政區域標簽。在添加城市行政區域標簽的過程中，遇到同一景區屬于兩個行政區的情況，根據游記中出現的屬于該景區的景點來判斷城市行政區域標簽的歸屬。例如，當某篇游記提到西溪時，如果游記中出現的景點都屬于東區，那么就給這篇游記添加西湖區的標簽；如果出現的景點是洪園或其他屬于西區的景點，那么就添加余杭區的標簽。添加完城市行政區域標簽后，根據標簽對游記文本進行分類，分類結果如表２所示。

３.２游記文本實體抽取

３.２.１游記文本實體標注

將經過預處理的２６３４篇游記正文數據進行分句處理，得到１１４８５３個句子。從中隨機抽取５０％的句子進行實體標注。采用ＢＩＯ標記方法對旅游實體進行標注，標注的實體類型包括景點、酒店和餐飲。為了方便標注和提高實體抽取效果，將景區、景區演出和景區的游玩項目等統一標記為景點。實體標注示例如圖３所示，其中Ｓ表示景點，Ｈ表示酒店，Ｃ表示餐飲。完成標注后，共有３３６４５個句子含有實體標注。

３.２.２ＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦ模型訓練

從包含實體標注的３３６４５個句子中，隨機選擇２０％作為測試集，再從剩余的數據中同樣隨機選擇２０％作為驗證集，剩下的數據用作訓練集。針對ＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦ模型的配置方面，ＢＥＲＴ模型使用了Ｇｏｏｇｌｅ訓練好的模型，并在此基礎上進行了微調。具體的模型參數設置如下：ＬＳＴＭ隱藏層神經元數量為２５６，批量大小（Ｂａｔｃｈ＿ｓｉｚｅ）為１２８，序列長度（Ｓｅｑｕｅｎｃｅ＿ｌｅｎｇｔｈ）為５１２，學習率（Ｌｅａｒｎ?ｉｎｇＲａｔｅ）為０００１，訓練輪數（Ｅｐｏｃｈｓ）為４０。將經過劃分的數據集輸入模型進行訓練，并經過多次調試得到了最終的模型結果，如表３所示。

為了獲得最佳的游記文本實體抽取模型，本文對比了ＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦ命名實體識別模型與其他模型在游記文本實體抽取任務上的性能，具體的比較結果如表４所示。

從表３可以看出，盡管在餐飲實體識別方面，該模型的準確率相對較低，然而在游記文本中，景點實體是數量最多的實體類型，該模型對于景點的識別準確率高達９２２％。根據表４中不同實體抽取模型的效果對比，雖然ＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦ方法在準確率上不如ＢＥＲＴ－ＢｉＬＳＴＭ，召回率上不如Ｗｏｒｄ２ｖｅｃ－ＢｉＬＳＴＭ－ＣＲＦ，但是性能相差不是很大。ＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦ的命名實體識別模型在Ｆ１－ｓｃｏｒｅ值上偏大，整體上取得了顯著的效果。因此，可以將該模型應用于游記文本中的實體抽取任務。

３.２.３游記文本實體抽取結果及對比分析

將分類好的游記文本輸入訓練完畢的ＢＥＲＴＢｉＬＳＴＭ－ＣＲＦ模型進行實體預測，并保存預測結果。在實體抽取后，對所有文檔中的實體進行實體消歧，最終發現了３７７個存在歧義的實體，并對所有文檔中存在歧義的實體進行了替換。經過實體融合后，模型最終識別出了２１４２個實體，其中包括１０１８個景點實體、４１８個酒店實體和７０６個餐飲實體。游記文本實體抽取的示例數據如圖４所示。

為了驗證融合命名實體識別方法進行關聯規則挖掘的有效性和科學性，本研究從隨機選取的部分游記文本數據作為實驗數據，并與其他方法進行對比。對比實驗結果如表５所示。根據表５所示的對比試驗結果可以發現，基于深度學習模型的命名實體識別方法在抽取旅游實體進行關聯知識挖掘方面表現出更強的有效性和科學性。

３.３游記文本關聯知識挖掘

將１３個行政區生成的實體抽取數據分別導入改進的Ａｐｒｉｏｒｉ算法進行關聯分析，考慮到不同行政區的游記數量差異較大，根據每個行政區的實際情況來調整最小支持度和最小置信度的閾值。為了確保生成關聯規則的效果，設置提升度閾值為１.２。經過多次調試，基于“行政區” 標簽分類的游記文本共挖掘出１９３２個頻繁項集，４１６８條關聯規則，各行政區游記文本關聯知識挖掘的閾值設置和結果統計如表６所示。

對于每個行政區的實體抽取數據，采用改進后的Ａｐｒｉｏｒｉ算法進行關聯分析，得到對應每個行政區的頻繁項集和關聯規則文檔。在頻繁項集結果文檔中，按照支持度的大小進行排序，而在關聯規則結果文檔中，按照提升度的大小進行排序。這樣的排序方式能夠使得結果更加清晰、有序。

３.４面向用戶需求的關聯知識推薦服務

根據第２.４節所描述的旅游推薦知識圖譜構建步驟，構建了涵蓋杭州市各個行政區劃的旅游推薦知識圖譜。在１３個行政區共挖掘出熱門景區７９個、酒店２８家、餐廳２７家、美食３１種和７場演出以及１個游玩項目，其中７９個景區中包含１２５個熱門景點。通過分析確定了６種實體類型、６種關系和７種實體關系組合方式。為了完善圖譜中相關旅游實體的信息，利用了攜程網提供的數據，并將行政區和旅游城市作為圖譜中的節點，同時為它們建立相應的關系。最終，不同實體類型之間關系的三元組表示如表７所示。

將經過完善的三元組數據導入Ｎｅｏ４ｊ圖數據庫，構建基于關聯知識挖掘結果的旅游推薦知識圖譜。由于篇幅限制，選取淳安縣的旅游推薦知識圖譜進行可視化展示，如圖５所示。

通過旅游推薦知識圖譜，用戶可以獲得基于行政區劃的精細推薦。用戶可以選擇一個或多個行政區作為旅游目的地，然后查看相應行政區的推薦景區，并瀏覽與目標景區相關的景點、住宿、餐飲等信息。以淳安縣為例，用戶可以先查看淳安縣推薦的景區，如圖６所示。

根據圖６可以看到，淳安縣推薦了５個景區。假設用戶計劃前往千島湖國家森林公園游玩，并想了解該景區的景點、住宿和餐廳推薦，用戶可以在游記文本關聯知識圖譜中查詢相關信息，如圖７所示。在圖７中，藍色節點代表景點，黃色節點代表酒店，綠色節點代表餐廳，橙色節點代表演出。通過圖７，用戶可以獲取該景區的熱門景點、酒店和餐廳等信息，為用戶的旅游規劃和決策提供參考。

用戶還可以繼續查詢美食推薦。例如，假設用戶決定在“好東家” 餐廳就餐，可以查看該餐廳的美食推薦，如圖８所示。在圖８中， “好東家”餐廳共推薦了５種美食。用戶可以根據自身喜好選擇相應的美食來品嘗。

通過旅游推薦知識圖譜，能夠幫助用戶獲得準確、個性化的旅游推薦信息，協助用戶高效、便捷地制定旅游規劃，為其旅行帶來更好的體驗。

４結語

本文旨在挖掘旅游平臺游記文本所蘊含的信息和知識，以協助用戶高效獲取符合需求的知識，并為旅行者在制定旅游計劃時提供科學、可供決策的信息。為了提供更好的個性化服務，本文提出了面向用戶需求的融合命名實體識別和改進Ａｐｒｉｏｒｉ算法的游記文本關聯知識挖掘方法，并以此設計了基于知識圖譜的知識推薦服務應用模式。研究采用攜程網旅游平臺中與杭州市相關的游記文本作為數據來源進行了應用研究。實驗結果表明，融合用戶需求改進的Ａｐｒｉｏｒｉ算法能夠有效挖掘游記文本蘊含的知識，在算法性能和挖掘結果方面優于傳統Ａｐｒｉ?ｏｒｉ算法。這些挖掘結果和關聯知識規則具有一定的實踐價值和意義，能夠向用戶提供個性化細粒度的推薦服務，協助旅行者科學高效地制定旅游計劃。本文的研究結論對旅游者、在線旅游平臺和目的地具有以下的創新服務應用啟示：

１）面向旅游者方面。旅游者通過查看旅游目的地的關聯知識推薦結果，能夠快速獲取旅游目的地的景點、住宿、飲食等推薦信息，從而更加迅速、直觀地制定旅游計劃。例如，當旅游者的目的地是千島湖時，只需查看淳安縣的關聯知識推薦，就能獲取千島湖的熱門旅游景點推薦，如“好東家” “淳圓外”，以及必須品嘗的千島湖魚頭等美食推薦。此外，關聯規則的置信度或提升度閾值也能輔助旅游者做出更明智的旅游決策。例如，在選擇千島湖魚頭餐廳時，旅游者可以比較“好東家” 和“淳圓外” 兩家熱門餐廳之間的關聯規則“千島湖魚頭?好東家” 和“千島湖魚頭?淳圓外” 的置信度或提升度值，從而做出更明智的旅游決策。因此，本研究的結果為旅游者提供了有價值的服務應用。旅游者能夠通過關聯知識推薦系統高效獲取個性化的旅游信息，并借助關聯規則的支持作出理性決策。

２）面向在線旅游平臺。針對當前在線旅游平臺游記文本數量呈現指數性增長，因游記文本缺乏有效的監督管理，質量良莠不齊，從而產生了冗余過載、組織無序、用戶獲取成本高等問題。本文提出的關聯知識挖掘方法能夠挖掘出游記數據中的關聯知識，提升旅游平臺知識組織與挖掘技術能力，優化平臺產品，提升平臺服務，進而提高用戶滿意度，推動平臺持續向前發展。

首先，通過應用關聯規則挖掘游記文本，旅游平臺可以實現知識組織與挖掘的目的。關聯知識挖掘技術可以揭示游記數據中的關聯知識，從而為用戶提供一體化的關聯知識推薦服務。通過分析生成的頻繁項集和關聯規則，平臺可以了解旅游景點、酒店、餐廳、美食等之間的關聯關系，提供用戶關聯知識推薦服務。同時，通過利用游記文本分類進行關聯知識挖掘，還能夠實現更細粒度的熱門關聯知識推薦，為用戶提供更精準的知識推薦服務。此外，本研究提出的游記文本關聯知識挖掘方法還可以反向應用于游記文本的組織。平臺可以根據挖掘出的頻繁項集匹配相關游記，并利用文本相似度計算來判斷游記文本的相似性。通過處理相似度過高的游記，平臺可以減少冗余數據，降低運營成本。對于內容相似但不完全相同的游記，平臺還可以推薦相似游記，為用戶提供更多選擇。以西湖區的游記數據為例，在實驗數據中，共有１１１５篇游記，其中一個頻繁６－項集的支持度為００４５２，因此在西湖區的游記中就有５０篇游記的數據包含６個同樣的旅游實體，進而平臺可以計算這５０篇游記的相似度，去除冗余游記或生成相似游記推薦。

其次，旅游平臺可以利用游記文本關聯知識挖掘的頻繁項集和關聯規則，優化和開發旅游產品。基于關聯規則的原理，關聯知識挖掘結果中的景點、酒店、餐廳和飲食等具有一定的熱度。因此，基于這些關聯知識挖掘結果開發的旅游產品能夠滿足大多數用戶的需求。平臺可以通過分析關聯知識挖掘結果，找出現有旅游產品的不足之處，并改進提升其競爭力。此外，平臺還可以利用關聯知識挖掘結果開發新的旅游產品。例如：在蕭山區旅游產品開發中，平臺可以基于關聯規則｛湘湖國家旅游度假區｝?｛云曼溫泉，第一世界大酒店，爛蘋果樂園，泰香閣，杭州樂園｝，構建包含湘湖、杭州樂園、第一世界大酒店等熱門景點推薦的旅游產品。考慮到不同類型的用戶有不同的旅游需求，平臺還可以采用其他的游記分類方法，滿足用戶多樣化的需求。例如，基于出行伴侶的游記文本分類，平臺可以為親子、情侶、父母等不同類型的旅行伴侶打造旅游產品。

第三，基于游記文本關聯知識挖掘結果，旅游平臺可以提升服務質量和水平，主要體現在關聯知識智能問答、關鍵詞檢索推薦和關聯知識主動推送等方面。首先，平臺可以在城市旅游主頁上展示游記文本挖掘出的一體化關聯知識。相較于簡單羅列的展示方式，基于知識圖譜的可視化展示能夠更加清晰、明了地呈現關聯知識。因此，旅游平臺可以在各個旅游城市主頁增加一個關聯知識模塊，并利用知識圖譜進行關聯知識的可視化呈現，以便用戶瀏覽和獲取旅游知識。其次，在關鍵詞檢索推薦方面，旅游平臺可以根據用戶輸入的檢索詞，推薦與該檢索詞相關聯的旅游實體作為關鍵詞。例如，當用戶輸入“千島湖” 作為檢索詞時，可以將“啤酒小鎮” “千島湖魚頭” “好東家” “開元度假村”等與千島湖相關聯的旅游實體作為檢索推薦，從而提升用戶的檢索體驗。最后，在關聯知識主動推送方面，平臺可以根據用戶最近一段時間內的行為，預測用戶的旅行目的地，并將該目的地的關聯知識主動推送給用戶。例如，如果用戶最近一段時間內瀏覽了大量與桐廬旅游相關的信息，平臺可以推測用戶可能有去桐廬旅游的意向，隨后主動將基于桐廬游記挖掘出的關聯知識推薦給用戶，以提升用戶對平臺的滿意度。

３）面向旅游目的地方面。關聯知識挖掘應用能夠提升目的地旅游服務水平，促進目的地形象管理與維護，并推動目的地旅游業的持續健康發展。具體可以通過以下幾種方式實現：首先，應用關聯知識挖掘目的地城市的相關游記，可以挖掘出目的地的熱門景點、酒店、餐廳以及美食等信息，發現目的地旅游的關聯知識。通過對這些關聯知識的分析，旅游目的地城市可以制定城市熱門旅游路線，為游客提供城市熱門旅游規劃，并完善熱門旅游景點之間的公共交通等方式來提升自身的服務水平和能力。其次，熱門景點、酒店、餐廳等場所通常是外來游客到訪最頻繁的地方，它們的設備設施、工作人員態度以及提供的服務或產品質量都對城市形象產生重要影響。因此，目的地城市有必要加強對這些熱門場所設備設施的建設與維護，加強對工作人員的培訓，并加強對酒店和餐廳等場所的監督與管理。目的地城市應積極主動地發現并解決這些熱門場所中潛在的問題，以避免負面輿論事件的發生，從而促進目的地形象的管理與維護。最后，旅游目的地城市可以基于關聯知識挖掘推動旅游業的持續健康發展。例如，可以通過多媒體渠道積極宣傳目的地的熱門景點，提升城市的知名度；挖掘熱門景點之間共同的旅游特色，發展自身的旅游特色，打造城市的旅游名片；同時，分析熱門景點、酒店、餐廳等之間關聯關系產生的原因，尋求有利于促進城市旅游業建設發展的經驗與規律，為非熱門景區的建設提供參考等。

然而，本研究還存在著一定的不足。在實證研究中，本文僅選取了攜程網作為單一旅游平臺，并僅針對一個城市的數據進行了分析，因此數據規模相對較小。下一步，筆者將擴大數據規模，進行多城市、跨平臺的多模態數據融合的關聯知識挖掘，以期為用戶提供更廣泛和智能化的知識服務。

參考文獻

［１］鄧君，彭珺，孫紹丹，等．基于事理圖譜的游記文本知識發現———

以康養旅游為例［Ｊ］．現代情報，２０２２，４２（７）：１０５－１１３．

［２］柯健，華哲銘，許鑫．基于網絡游記挖掘的城市旅游文化元素識

別———以上海為例［Ｊ］．資源科學，２０２２，４４（１）：１２７－１４２．

［３］ＬｉＲＬ，ＷａｎｇＨＪ，ＺｈａｎｇＨ．ＣｈｉｎｅｓｅＴｏｕｒｉｓｔｓＰｅｒｃｅｐｔｉｏｎｏｆｔｈｅ

ＴｏｕｒｉｓｍＩｍａｇｅｏｆＮｏｒｔｈＫｏｒｅａＢａｓｅｄｏｎＴｅｘｔＤａｔａｆｒｏｍＴｏｕｒｉｓｍ

Ｗｅｂｓｉｔｅｓ［Ｊ］．Ｓｕｓｔａｉｎａｂｉｌｉｔｙ，２０２１，１３（２１）：１２２０５．

［４］吳林芝，周春林，黃子璇，等．網絡語境下官方目的地宣傳形

象與游客感知形象的差異———以南京市為例［Ｊ］．地域研究

與開發，２０１８，３７（３）：９０－９４，１００．

［５］吳恒，陳燕翎．基于ＵＧＣ文本挖掘的游客目的地選擇信息研

究———以攜程蜜月游記為例［Ｊ］．情報科學，２０１７，３５（１）：

１０１－１０５．

［６］ＤｕＳＹ，ＺｈａｎｇＨ，ＸｕＨＬ，ｅｔａｌ．ＴｏＭａｋｅｔｈｅＴｒａｖｅｌＨｅａｌｔｈｉｅｒ：

ａＮｅｗＴｏｕｒｉｓｍＰｅｒｓｏｎａｌｉｚｅｄＲｏｕｔｅＲｅｃｏｍｍｅｎｄａｔｉｏｎＡｌｇｏｒｉｔｈｍ［Ｊ］．

ＪｏｕｒｎａｌｏｆＡｍｂｉｅｎｔＩｎｔｅｌｌｉｇｅｎｃｅａｎｄＨｕｍａｎｉｚｅｄＣｏｍｐｕｔｉｎｇ，２０１９，

１０（９）：３５５１－３５６２．

［７］呂琳露，李亞婷．基于游記主題挖掘與表達的旅游信息推薦研

究［Ｊ］．現代情報，２０１７，３７（６）：６１－６７．

［８］高佳美．基于文本挖掘的旅游文記個性化推薦技術的研究與實

現［Ｄ］．沈陽：遼寧大學，２０１７．

［９］呂琳露，李亞婷．游記文本中的知識發現與聚合———以螞蜂窩

旅行網杭州游記為例［Ｊ］．情報雜志，２０１７，３６（７）：１７６－

１８１，１１０．

［１０］孫文平，常亮，賓辰忠，等．基于知識圖譜和頻繁序列挖掘

的旅游路線推薦［Ｊ］．計算機科學，２０１９，４６（２）：５６－６１．

［１１］高原，施元磊，張蕾，等．基于游記文本的游客游覽行程重

構［Ｊ］．數據分析與知識發現，２０２０，４（Ｚ１）：１６５－１７２．

［１２］ＡｇｒａｗａｌＲ，ＩｍｉｅｌｉńｓｋｉＴ，ＳｗａｍｉＡ．ＭｉｎｉｎｇＡｓｓｏｃｉａｔｉｏｎＲｕｌｅｓ

ＢｅｔｗｅｅｎＳｅｔｓｏｆＩｔｅｍｓｉｎＬａｒｇｅＤａｔａｂａｓｅｓ［Ｃ］／／ＡｃｍＳｉｇｍｏｄＲｅ?

ｃｏｒｄ．ＡＣＭ，１９９３，２２（２）：２０７－２１６．

［１３］馬海群，劉興麗，韓娜．基于關聯規則的開放政府數據主題多

政策協同性研究［Ｊ］．情報科學，２０２２，４０（４）：３－８，１７．

［１４］溫芳芳，鄭詩嘉．基于關聯規則挖掘的多學科知識融合研究———

以新冠肺炎研究領域為例［Ｊ］．現代情報，２０２３，４３（３）：１４８－

１５６．

［１５］吳鵬，詩童，凌晨．基于微博平臺的新冠疫苗主題發現研究

［Ｊ］．情報科學，２０２２，４０（７）：１２－１８，２６．

［１６］李昌兵，龐崇鵬，凌永亮，等．基于改進特征提取及聚類的

網絡評論挖掘研究［Ｊ］．現代情報，２０１８，３８（２）：６８－７４．

［１７］王倬，李丹．基于大數據的關聯規則Ａｐｒｉｏｒｉ算法的研究與改

進［Ｊ］．圖書情報工作，２０１６，６０（Ｓ２）：１２７－１３０，１４２．

［１８］章成志，謝雨欣，宋云天．學術文本中細粒度知識實體的關

聯分析［Ｊ］．圖書館論壇，２０２１，４１（３）：１２－２０．

［１９］涂晨，李鑫，葉程軼．基于ＬＤＡ主題模型與Ａｐｒｉｏｒｉ算法的旅

游數據挖掘［Ｊ］．物聯網技術，２０２３，１３（３）：１０８－１１２．

［２０］琚沅紅，牟冬梅，王書童，等．少樣本高質量醫學知識的命名

實體識別研究———以肺癌診療規范為例［Ｊ］．現代情報，２０２３，

４３（２）：９－１９．

［２１］林立濤，王東波，劉江峰，等．數字人文視域下典籍動物命

名實體識別研究———以ＳｉｋｕＢＥＲＴ預訓練模型為例［Ｊ］．圖書

館論壇，２０２２，４２（１０）：４２－５０．

［２２］李東升，鮑玉來，劉建華，等．基于ＢＥＲＴ的高校圖書館微信

信息服務的命名實體識別方法［Ｊ］．現代情報，２０２３，４３（４）：

６４－７６．

［２３］董美，常志軍．一種面向中醫領域科技文獻的實體關系抽取

方法［Ｊ］．圖書情報工作，２０２２，６６（１８）：１０５－１１３．

［２４］岳俊舉，馮立杰，馮奕程，等．基于多維技術創新地圖與關

聯規則挖掘的技術機會識別方法研究［Ｊ］．情報學報，２０１７，

３６（８）：７９８－８０８．

［２５］ＤｅｖｌｉｎＪ，ＣｈａｎｇＭＷ，ＬｅｅＫ，ｅｔａｌ．Ｂｅｒｔ：Ｐｒｅ－ｔｒａｉｎｉｎｇｏｆ

ＤｅｅｐＢｉｄｉｒｅｃｔｉｏｎａｌＴｒａｎｓｆｏｒｍｅｒｓｆｏｒＬａｎｇｕａｇｅＵｎｄｅｒｓｔａｎｄｉｎｇ［Ｊ］．

ａｒＸｉｖＰｒｅｐｒｉｎｔａｒＸｉｖ：１８１００４８０５，２０１８．

［２６］葉佳鑫，熊回香，孟璇．基于細粒度評論挖掘的在線圖書相

似度計算研究［Ｊ］．情報科學，２０２３，４１（１）：１６６－１７３．

［２７］翟羽佳，田靜文，趙玥．基于ＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦ模型的算

法術語抽取與創新演化路徑構建研究［Ｊ］．情報科學，２０２２，

４０（４）：７１－７８．

（責任編輯：郭沫含）

現代情報2023年11期

現代情報的其它文章: 專題導語：汲古慧今
——在數字化中守護傳承; 基于混合深度學習的藏醫古籍命名實體識別研究; 基于人文計算的藏醫古籍服務平臺知識服務功能設計研究; 數字人文視角下藏醫學古籍知識發現研究
——以《四部醫典》為例; 古籍數字化國內外研究現狀分析與路徑構建研究; 信息生態視角下有聲讀物平臺用戶滿意度影響因素研究

融合ＮＥＲ 和Ａｐｒｉｏｒｉ 算法的游記文本關聯知識挖掘及推薦服務研究

融合ＮＥＲ和Ａｐｒｉｏｒｉ算法的游記文本關聯知識挖掘及推薦服務研究