




摘要:地方旅游大數據建設日趨完善和人工智能技術的不斷發展為構建地方智慧旅游輔助決策平臺提供了必要條件。文章提出基于地方旅游大數據的智慧旅游輔助決策服務平臺的設計方案。一方面,對潛在游客的旅游出行規劃提供智能參考,可增強游客的個性化體驗。另一方面,為景區、涉旅企業及旅游管理部門提供輔助決策支持。該智慧旅游決策平臺的設計方案和技術實現方案可用于指導智慧旅游平臺建設,促進地方旅游智能化轉型升級,推動地方全域旅游高質量發展。
關鍵詞:智慧旅游;地方旅游;大數據;輔助決策;人工智能
中圖分類號:F59;TP311" 文獻標志碼:A
0 引言
大數據技術作為不斷發展的新興技術[1],廣泛應用于人們的生產生活。隨著云計算、大數據和人工智能技術的快速發展和廣泛應用,旅游的關聯行業也已經積累了海量數據,這為建設基于大數據的智慧旅游輔助決策平臺提供了數據條件和技術條件。智慧旅游時代更強調旅游的個性化和智能化,需要挖掘數據中的潛在價值,增強用戶體驗,為涉旅企業和部門提供決策支持,提升旅游服務品質。因此,構建符合地方特色的智能旅游決策平臺是必要且可行的。
近年來大數據在智慧旅游方面的應用研究不斷增多。如梁昌勇等[2]提出通過數據挖掘能夠為旅游管理、營銷和服務提供決策支持。文君[3]對32家高端民宿的空間位置數據、消費者使用數據、評論數據等旅游大數據進行分析挖掘, 探究高端民宿消費者的行為特征及規律,為民宿經營者和政府部門提供建設性發展建議。顏子涵等[4]設計了基于大數據存儲和智能推薦的貴州特色小鎮在線旅游平臺,實現了景區景點信息的智能推薦,提升了小鎮的潛在吸引力。目前,貴陽建設的智慧旅游大數據服務平臺、山東省旅發委建設的旅游大數據采集平臺均對旅游基礎數據的采集、整合和智能應用起到積極作用。
目前,我國對大數據和人工智能技術在智慧旅游中的應用研究逐漸增多,但多數都是集中在智能推薦、情感分析等某一種技術的應用研究,智慧旅游決策服務平臺整體設計與應用的研究較少。部分研究雖然提供了智能旅游平臺的宏觀設計思路,但并未配套詳細的設計方案和技術實現方案。另外,當前構建地方主題數據倉庫、針對地方特色的智慧旅游決策平臺研究較少。因此,本研究將基于地方旅游數據,全面匯聚地方旅游行業的從業者及消費者所產生的數據,形成符合地方旅游特色、面向不同應用的旅游主題數據倉庫。然后,基于數據倉庫運用人工智能技術實現情感傾向分析、個性化推薦、輔助決策規則生成等智能模塊,最終形成可復制、可實施的地方智慧旅游決策平臺設計方案和關鍵功能的技術實現方案。本項目所形成的智慧旅游決策平臺的設計方案和技術實現方案可以指導智慧旅游平臺建設,促進地方旅游智能化轉型升級,推動地方全域旅游高質量發展。
1 平臺總體設計
基于地方旅游大數據的智慧旅游輔助決策服務平臺功能需要考慮滿足游客、涉旅部門、涉旅企業三大核心群體的基本需求,重視地方涉旅部門、景區與企業的智能決策輔助及游客的個性化體驗,形成一套可復制、可實施的智慧旅游決策平臺設計方案。地方旅游大數據輔助決策系統總體架構設計如圖1所示。
系統總體分為3層:數據采集層、數據倉庫層和數據應用層。
1.1 數據采集模塊
對地方與旅游相關的信息化系統中的數據進行統一采集,包括:景區票務系統數據、景區和酒店數據、互聯網游客評論數據等,形成數據信息采集功能模塊的詳細設計方案和核心采集程序。本課題采集地方旅游相關數據,以煙臺市為例,數據來源一共有3種。(1)利用網絡爬蟲技術從互聯網旅游平臺爬取了煙臺市游旅游酒店基本數據,包括旅游酒店地理位置、星級、游客滿意度、類型等。(2)從互聯網旅游平臺采集游客評論數據,包括酒店名稱、游客評論、評價打分等,為游客評論情感分析提供數據支撐。(3)從智慧文旅大數據平臺獲取公開旅游數據,形成一個數據源,描述景區級別和游客流量下降值、最大承載量等特征。
該模塊采集的數據主要來源于地方城市的文旅大數據平臺、互聯網旅游平臺或App平臺,主要包括地方城市景區旅游統計數據、互聯網平臺旅游酒店數據、互聯網平臺游客評論數據、游客出行數據等。
本文以山東省地方城市為例,景區旅游數據可以直接采集自煙臺文旅大數據平臺,下載格式為CSV格式,后期需要做數據清洗和特征選取。旅游酒店數據和游客評論等數據均采用網絡爬蟲技術從互聯網平臺獲取,以下是關于數據采集模塊的詳細設計。
本文以游客評論和酒店基本數據采集為例,介紹數據采集的設計流程,如圖2所示。用戶評論數據和酒店基本數據、游客出行數據等均來自互聯網平臺,該部分采用爬蟲程序來實現。本文以旅游酒店用戶評論數據采集為例簡述設計過程,從攜程網采集旅游酒店基本數據和游客評論數據。
酒店用戶評論數據采集的數據格式為:游客評論主鍵(order_id),用于驗證評論的唯一性。酒店官網(url)、酒店名稱(hotel_name)、評論日期(post_time)、評論者姓名(user_name)、酒店評論的評論內容(content)、游客評分(user_score),形成的數據可用于后面的情感分析訓練集的制作。
首先,選擇一個城市,找到該城市對應的攜程酒店的初始地址。其次,基于地址爬取地方旅游酒店基本信息,包括酒店名稱、酒店url地址、酒店ID等。最后,循環遍歷酒店ID列表,爬取關于每個酒店的評論信息,并將評論內容保存到文件中。
1.2 數據倉庫管理模塊
基于采集的旅游數據,設計符合地方特色、面向不同應用需求的數據模型,形成包含不同主題的數據倉庫,實現數據的集中采集、存儲和處理,為上層的大數據分析和決策模塊提供支撐,也可以為地方景區、涉旅企業、涉旅部門之間信息共享和互聯互通提供統一的信息平臺。本課題基于數據采集提供的3個數據源分別設計了3個主題的數據倉庫,即數據集市,分別是地方旅游酒店基本數據主題數據倉庫、游客評論主題數據倉庫、景區旅游統計主題數據倉庫。
采集的旅游大數據體量較大,數據清洗和預處理需要的計算資源較大,所以該模塊所有數據應考慮方便上傳到大數據平臺進行存儲,并能夠高效率進行數據處理,從而形成最后的數據倉庫表。
本文以旅游酒店基本數據和評論數據主題數據倉庫表為例,其他主題數據倉庫表設計和實現流程基本相同。數據倉庫表構建流程如圖3所示。
首先,基于爬蟲爬取的某個地級市的酒店基本信息數據和用戶評論數據,采用Hadoop等大數據平臺來存儲數據,通過Python 的hdfs模塊實現數據上傳。其次,運用Spark等數據分析框架對數據集進行數據清洗,主要針對異常數據和不一致數據。再次,為酒店基本信息和評論數據分別設計數據倉庫表,本文使用Hive技術來創建。最后,根據要分析和應用的主題設計內部表,這些內部表可以為未來進行數據分析和可視化提供數據來源。
1.3 旅游數據分析和智能決策模塊
基于地方旅游大數據輔助決策平臺的關鍵是數據應用層面。基于數據倉庫進行數據挖掘分析,能夠提升游客的個性化體驗,并為涉旅企業提供輔助決策,也為涉旅政府部門提供直觀的數據統計和決策支持。該模塊具體系統業務功能包括:情感分析模塊、大數據分析和挖掘輔助決策模塊。
1.3.1 情感分析模塊設計
情感分析技術能夠從海量文本中提取用戶的主觀情感和滿意程度,對意見挖掘、網絡輿情監控等應用提供重要參考[5-6]。
根據用戶互聯網平臺評論數據形成的數據倉庫表,運用深度學習算法進行情感分析,研究更關注用戶是否存在負面情感,更好地利用在線評論,研究顧客意見挖掘,為酒店業提供建議。
由于酒店評論是中文文本較多,中文文本語義靈活性較高,分詞難度較大,且存在一詞多義的問題,項目中采用了谷歌的BERT模型與深度神經網絡相結合的情感分析模型。該模型采用BERT預訓練產生詞向量作為模型輸入,利用深度神經網絡提取情感特征,最后利用自注意力機制來區分句子中情感特征的重要度,從而提高情感分類的準確度。
1.3.2 旅游大數據分析和挖掘模塊設計
旅游大數據分析和挖掘模塊主要包括3部分設計,具體設計如下。
(1)基于地方旅游景區相關統計數據,依據關聯規則挖掘模型生成關聯規則,為景區和旅游主管部門提供決策支持。
(2)專門針對平臺積累的旅游酒店基本數據和酒店評論數據,基于Hadoop大數據平臺構建數據倉庫,并利用數據倉庫進行各種維度的數據統計和數據可視化呈現,為酒店和旅游管理部門提供直觀的數據參考。
(3)基于用戶旅游數據和酒店基本數據進行數據挖掘,生成關聯規則,為涉旅酒店運營和用戶出行提供決策支持。
該模塊主要基于地方旅游數據不同主題的數據倉庫,運用數據挖掘或機器學習算法為游客、景區或涉旅企業提供輔助決策。本文以基于旅游景區統計主題數據倉庫為例,介紹輔助決策挖掘模塊的詳細設計與實現思路,與其他主題數據倉庫的挖掘模塊思路基本一致。
基于景區旅游統計主題數據倉庫,挖掘景區級別和游客流量下降值、最大承載量等特征之間的關聯關系,尋找高置信度的決策參考建議。主要技術實現流程如圖4所示。
數據來自煙臺市智慧文旅大數據平臺各景區游客游覽信息,時間范圍:2018年至今;空間范圍:煙臺市;更新周期:每年10月;更新方式:庫表、增量。
部分經過預處理和特征選擇后的表格數據如表1所示。
首先,本文基于以上數據的連續值的列進行離散化處理,這樣的處理可以產生通用性和歸納性較強的規則。上面涉及的數據列為:'max_load', 'uid', 'day_lowers', 'flow_lowers', 'scenes_level'。本文對'max_load','day_lowers', 'flow_lowers'3列數據進行離散化,劃分為3個標簽類別,分別是低、中、高,對應類別名稱為:low、mid、high。
然后,對數據清洗后的數據運用關聯規則挖掘算法進行屬性之間的相關性分析。技術框架上采用Weka框架,該框架包含了較多經典的數據挖掘算法,其中包括對數據進行預處理、分類、回歸、聚類、關聯規則以及在新的交互式界面上的可視化。基本過程是:將預處理后的游客旅游樣本數據保存為arff格式,打開該軟件界面加載arff文件并設置基本的算法參數。
本文基于景區旅游統計數據樣本進行數據挖掘的具體應用,從中發現特征之間的關聯關系,步驟如下:
(1)采集和預處理數據樣本。首先對采集到的數據樣本進行數據清洗,包括去除異常數據和部分特征的離散化處理,最終將樣本保存為arff格式。
(2)加載數據,打開軟件并選擇arff數據文件,選擇感興趣的屬性,未來生成的關聯規則中會包含這些屬性。
(3)選擇關聯規則挖掘算法,本文選擇經典的Apriori算法。設置最小支持度和置信度,這里設置最小值支持度為0.5,最小置信度為0.9,參數可以在該界面調整。
(4)生成關聯規則。根據用戶設定的支持度和置信度參數值,產生強關聯規則,并將生成的規則按照置信度來排序。
以下是算法的運行結果:
Best rules found:
1. max_load=low flow_lowers=low 7679 ==gt; day_lowers=low 7678" lt;conf:(1)gt; lift:(1.02) lev:(0.01) [131] conv:(66.04)
2. max_load=low day_lowers=low 7679 ==gt; flow_lowers=low 7678" lt;conf:(1)gt; lift:(1.02) lev:(0.01) [118] conv:(59.51)
3. day_lowers=low scenes_level=4A 5265 ==gt; flow_lowers=low 5264" lt;conf:(1)gt; lift:(1.02) lev:(0.01) [80] conv:(40.8)
4. day_lowers=low 9828 ==gt; flow_lowers=low 9824" lt;conf:(1)gt; lift:(1.02) lev:(0.01) [148] conv:(30.47)
5. flow_lowers=low scenes_level=4A 5271 ==gt; day_lowers=low 5264" lt;conf:(1)gt; lift:(1.02) lev:(0.01) [83] conv:(11.33)
6. scenes_level=4A 5311 ==gt; flow_lowers=low 5271" lt;conf:(0.99)gt; lift:(1.01) lev:(0) [42] conv:(2.01)
從以上結果可以看出:很多可以用于輔助決策的規則,比如最大承載量較低且流量下降幅度較低的有很大的可能每日下降幅度程度低。再比如4A級景區有99%的概率流量下降程度低。流量下降程度低并且景區級別是4A級,則肯定每日下降量較低。最大承載量低的每日流量下降幅度低等。
2 結語
本文在各地旅游大數據日臻完善和智慧旅游時代背景下,通過研究設計基于地方旅游數據倉庫的智慧旅游輔助決策平臺,最終形成可指導開發的可實施的平臺設計方案和實現思路。整體平臺依據大數據分析的流程分為3個層次,分別是數據采集層、數據倉庫層和智能決策層,并針對每層結構給出詳細的設計流程和關鍵模塊的實現思路。形成的設計方案可以為地方構建旅游決策平臺提供思路和技術參考,有利于整合地方景區、酒店、游客等多維度旅游數據,并與人工智能技術相結合進行個性化推薦及決策建議推送,為游客出行和地方涉旅部門和企業提供決策支持。
參考文獻
[1]肖遠平,龔翔.“互聯網+”視域下貴州旅游產業智慧化發展研究[J].貴州社會科學,2016(5):127-132.
[2]梁昌勇,馬銀超,路彩紅.大數據挖掘:智慧旅游的核心[J].開發研究,2015(5):134-139.
[3]文君.基于大數據分析的高端民宿消費行為研究[D].鄭州:鄭州大學,2021.
[4]顏子涵,禹振,曹盼,等.基于大數據存儲和智能推薦的貴州特色小鎮在線旅游平臺的設計與實現[J].電腦知識與技術(學術版),2022(24):20-22.
[5]何炎祥,孫松濤,牛菲菲,等.用于微博情感分析的一種情感語義增強的深度學習模型[J].計算機學報,2017(4):773-790.
[6]姜杰.社交媒體文本情感分析[D].南京:南京理工大學,2017.
Design of intelligent tourism auxiliary decision-making service platform based on local tourism big data
Abstract: "The increasingly perfect construction of local tourism big data and the continuous development of artificial intelligence technology provide the necessary conditions for the construction of local intelligent tourism assisted decision-making platform. This paper proposes a design scheme for the intelligent tourism assisted decision-making service platform based on local tourism big data. On the one hand, it provides intelligent reference for potential tourists’ travel planning, which can enhance tourists’ personalized experience. On the other hand, it provides auxiliary decision support for scenic spots, travel-related enterprises and tourism management departments. The design scheme and technical realization scheme of the intelligent tourism decision-making platform formed by this project can be used to guide the construction of intelligent tourism platform, promote the intelligent transformation and upgrading of local tourism, and promote the high-quality development of local regional tourism.
Key words: smart tourism; local tourism; big data; assisted decision making; artificial intelligence