999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數(shù)據(jù)挖掘和互聯(lián)網(wǎng)評論探索貧困地區(qū)的景點特點

2020-05-23 15:32:06鄒冠如羅毓麟

鄒冠如 羅毓麟

【摘 要】為了促進(jìn)貧困地區(qū)旅游業(yè)的發(fā)展,本文通過網(wǎng)絡(luò)爬蟲獲取到景點評論數(shù)據(jù),通過文檔向量化方法Doc2Vec生成文本向量,應(yīng)用改進(jìn)后的基于歐幾里得距離的聚類算法K-mean將文本向量進(jìn)行三個類簇的聚類,最后從三個類簇中獲取到評論的大文本,采用TextRank算法,對大文本中若干個句子進(jìn)行打分排序,獲取到評分最高的句子,即評論大文本中最為核心的句子。

【關(guān)鍵詞】Doc2Vec;K-mean;TextRank算法

一、前言

隨著社會全面小康的時代的到來,作為人們休閑娛樂方式之一的旅游得到了飛速的發(fā)展,旅游越來越成為人們的一種時尚生活方式。而我國由于歷史和自然的原因,各地區(qū)之間和地區(qū)內(nèi)部的經(jīng)濟(jì)發(fā)展很不平衡,因此通過旅游產(chǎn)業(yè)帶動貧困地區(qū)的經(jīng)濟(jì)發(fā)展是一項利于地區(qū)脫貧的一大措施。但是網(wǎng)上各種旅游平臺的信息量太大,不利于游客迅速抓到景點的亮點,對于貧困地區(qū)的景點來說更是如此。也正是如此,阻礙了貧苦地區(qū)的游客數(shù)量的增長。而事實上,大部分的貧困地區(qū)均具有優(yōu)質(zhì)的環(huán)境資源和廉價實惠的農(nóng)產(chǎn)品。因此本文以河源五大為省級重點扶貧的特貧困縣之一的紫金縣的御臨門景區(qū)為案例,使用網(wǎng)絡(luò)爬蟲技術(shù)、數(shù)據(jù)挖掘技術(shù)和自然語言處理技術(shù)打造提煉景點特點模型,使得游客獲取到更多貧困地區(qū)的旅游景點信息,為自己打造更合適、性價比更高的旅游線路,并且?guī)迂毨У貐^(qū)經(jīng)濟(jì)的發(fā)展,助其更快脫貧。

二、相關(guān)技術(shù)

1.網(wǎng)絡(luò)爬蟲

爬蟲技術(shù)是一種按照一定規(guī)則,自動抓取信息的程序或腳本[1]。我們可以在遵守網(wǎng)頁協(xié)議的前提上爬取到攜程網(wǎng)、美團(tuán)網(wǎng)和大眾點評等的景點、酒店評論信息,為我們的綜合更全方面的評價提供了優(yōu)秀的數(shù)據(jù)基礎(chǔ)。

2.數(shù)據(jù)挖掘

數(shù)據(jù)挖掘是使用現(xiàn)在的算法技術(shù)從數(shù)據(jù)獲取到數(shù)據(jù)的深層信息的探索過程。近年來,數(shù)據(jù)挖掘引起了各大行業(yè)的極大關(guān)注,其主要原因是存在大量去敏數(shù)據(jù),可以廣泛使用,想要通過計算機(jī)和數(shù)學(xué)將這些數(shù)據(jù)轉(zhuǎn)換成有用的商業(yè)信息,產(chǎn)生數(shù)據(jù)的直接價值。

3.自然語言處理

自然語言處理是人工智能領(lǐng)域和計算機(jī)科學(xué)領(lǐng)域中的一個重要方向。它研究能實現(xiàn)計算機(jī)與人之間用自然語言進(jìn)行有效通信的各種理論和方法[2]。通過特別的方法,讓計算機(jī)也能聽懂人類語言,這一技術(shù)在本文是至關(guān)重要的,計算依賴與計算機(jī),而計算機(jī)則需要此項技術(shù)才能明白文本數(shù)據(jù)是在表達(dá)什么。

三、最具代表性的評論文本的自動提煉

1.基于Doc2Vec模型的句子向量化

Doc2Vec方法是一種無監(jiān)督算法,能從文本(例如:句子、段落或文檔)中學(xué)習(xí)得到固定長度的特征向量表示。在Doc2Vec中,每一句話和每一個詞語都是唯一的向量,假設(shè)有兩個矩陣,第一個矩陣X的列表示的是文本中每個句子的向量,第二個矩陣Y的列表示的是每個句子的詞的向量。每次從一句話中滑動采樣固定長度的詞,取其中一個詞作預(yù)測詞,其他的作為輸入詞。將本句話的向量和本次采樣的詞向量相加求平均或者累加構(gòu)成新的向量Z,Z便作為神經(jīng)網(wǎng)絡(luò)輸入層的輸入神經(jīng)元,進(jìn)而使用向量Z預(yù)測此次窗口的預(yù)測詞[3]。

2.機(jī)器學(xué)習(xí)——K-mean算法

K-mean聚類算法具體過程如下:隨機(jī)選擇K個點作為初始聚類中心,將剩余的每個點按照距離分配給上述K個點,形成K個類簇。然后計算每個類簇的質(zhì)心,并將其作為下一次迭代的聚類中心,直到滿足停止訓(xùn)練的條件[4](例如函數(shù)收斂或達(dá)到最大迭代次數(shù))。兩點之間的距離計算方式有歐幾里得距離、余弦距離、曼哈頓距離、切比雪夫距離、Jaccard相似系數(shù)等,本文采用歐幾里得距離計算方法計算文本與文本之間的相似度。

其中,和是表示文本,i和j表示文本的順序,n表示文本的向量維度。

傳統(tǒng)K-mean算法雖然具有簡單高效、可解釋性強(qiáng)的優(yōu)點,但是K-mean聚類的效果和初始聚類中心(又稱重心)的選取密切相關(guān),如果隨機(jī)選擇重心,容易使算法陷入局部最小值,無法收斂到全局最優(yōu)。針對此項,本文做出了改進(jìn):通過多次數(shù)避免隨機(jī)選擇的隨機(jī)性,即是選用多次隨機(jī)初始化,計算每一次的成本函數(shù),選取成本函數(shù)代價最小的初始點作為聚類結(jié)果。

3. TextRank算法概述

TextRank 算法是一種可以直接用來對文本進(jìn)行排序的基于圖的排序算法,其基本思想來源于谷歌的PageRank算法。而PageRank算法的核心思想是網(wǎng)頁被更多的網(wǎng)頁指向連接,則證明此網(wǎng)頁更重要。如下圖,可以看到被網(wǎng)頁指向最多的是網(wǎng)頁D,所以在PageRank中,網(wǎng)頁D是比其他三個網(wǎng)頁更加重要的。

TextRank 采用的是投票打分機(jī)制,首先對文本進(jìn)行預(yù)處理,按照詞項或者句子對基本單元進(jìn)行分割,然后對預(yù)處理后的文本以項詞或者句子為節(jié)點構(gòu)建圖模型,可以快速的實現(xiàn)對單個文本內(nèi)容中的關(guān)鍵信息進(jìn)行精確提取[5]。

TextRank 算法抽取摘要句的主要思想是通過對文本中句子進(jìn)行打分排序,摘要抽取具體過程如下:

(1)預(yù)處理:將要構(gòu)建的文本或文本集分割成句子=[,,...,],構(gòu)建如圖2-2所示的圖,其中為句子集,為邊集,同時對句子進(jìn)行分詞、去除停用詞等處理,得到=[,1,,2,...,,n],其中 是保留后的候選關(guān)鍵詞。

(2)句子相似度計算:構(gòu)建圖中的邊集,邊的構(gòu)建基于兩個節(jié)點的重疊信息,給定兩個句子和,根據(jù)以下公式進(jìn)行相似度計算:

通過公式(1)計算得到兩個句子相似度,如果相似度大于提前設(shè)定的閾值,那么j句子i和句子j就含有相同的語義信息并且一條邊將兩個節(jié)點連接起來,邊的長度為兩個節(jié)點的相似度,相似度越大邊越長;

(3)句子權(quán)重計算:根據(jù)公式(a),迭代計算各句子的得分;

(4)抽取摘要句:將(b)得到的句子按照得分多少進(jìn)行從高到低排序。

(5)形成摘要:按照一定的壓縮比(一定的長度或者字?jǐn)?shù))對排序后的句子抽取組成摘要[6]。

四、實驗過程

1.數(shù)據(jù)收集。本文爬取關(guān)于河源市景點的多個平臺的景點評論信息,如美團(tuán)網(wǎng)、攜程網(wǎng)等,最大限度的整合同一景點的互聯(lián)網(wǎng)上的所有評論。

2.數(shù)據(jù)預(yù)處理。對爬取下來的數(shù)據(jù)進(jìn)行格式上的清洗和整理。

3.向量化文本。使用Doc2Vec技術(shù)將每一個文本轉(zhuǎn)換為300維向量(參考谷歌網(wǎng)絡(luò)設(shè)置的維度)。

4.K-mean聚類。考慮到評價主要分為三個等級,分別是好、中和差,因此本文的目標(biāo)是將向量化后的文本聚類成三個類簇,并且分別提出三個類簇的評論文本,做成三個拼接后不同族的大文本,為下面TextRank算法做好數(shù)據(jù)準(zhǔn)備。

5.提取核心評價文本。利用第四步準(zhǔn)備好的數(shù)據(jù),使用TextRank排序技術(shù)對每一類簇的大文本進(jìn)行打分排序,輸出每一個大文本的分?jǐn)?shù)排名最高的評論作為三個該景點評論中最核心的三個評價。

五、實驗結(jié)果與分析

1.實驗結(jié)果

本文以貧困縣河源市紫金縣御臨門溫泉度假村為案例,爬取網(wǎng)上評論651條數(shù)據(jù),使用python語言實現(xiàn)實驗,可以得到在改進(jìn)后的K-mean聚類的三個類簇中,每個類簇最核心的評論分別為:

“我訂的是別墅、每個房間都有獨立的溫泉池,很方便,酒店環(huán)境很好,早餐我個人覺得很好,酒店位置有點偏,有大型停車場。”、“總的說來還是很好的,值得再去的溫泉,房間很衛(wèi)生,周圍的環(huán)境也很好,這次唯一不好的就是安排的房間隔壁就是酒店工人的房間,還是有點吵,特別早上早早就聽到服務(wù)員在外面的聲音,還有早餐的種類不算多,還有待改進(jìn)”、“酒店很不錯,溫泉的池子不少,房間設(shè)施也很好,前臺服務(wù)態(tài)度很熱情,早餐豐富,停車方便,就是往酒店的路比較爛”。

2.實驗結(jié)果分析

從上述三個核心評價來看,我們可以明顯的感受到紫金縣御臨門溫泉度假村整體還是不錯的,但是主要存在了兩個核心問題:第一是早餐的種類不夠多,不能滿足大部分人對這個價格的需求,第二是酒店對噪音的管制仍需繼續(xù)加強(qiáng)。

單從三個類簇中排名第一的評論觀察,對K-mean算法起到的重要性不夠明顯,所以我們分別從三個類簇中排名前三的評論再進(jìn)行分析。

第0類族排名前三的分別是:

“我訂的是別墅、每個房間都有獨立的溫泉池,很方便,酒店環(huán)境很好,早餐我個人覺得很好,酒店位置有點偏,有大型停車場。”、“那天去到酒店已經(jīng)晚上八點多了,很幸運的幫我們免費升級到別墅區(qū),房間很大,因為是夏天,住店的人不是很多,當(dāng)天晚上在房間里泡溫泉還不錯,第二天去公共溫泉區(qū)就實在太熱了,大太陽曬著水都太燙了,贊一下酒店的早餐送餐服務(wù),按約定時間準(zhǔn)時送到房間,而且都熱熱的,總體來說是很愉快的一次住店體驗。”、“酒店環(huán)境,服務(wù),設(shè)施還可以,露天溫泉很干凈,下次還會再來。”。

第1類族排名前三的分別是:

“總的說來還是很好的,值得再去的溫泉,房間很衛(wèi)生,周圍的環(huán)境也很好,這次唯一不好的就是安排的房間隔壁就是酒店工人的房間,還是有點吵,特別早上早早就聽到服務(wù)員在外面的聲音,還有早餐的種類不算多,還有待改進(jìn)。”、“酒店雖然舊了些,但環(huán)境還是不錯,房價有點貴,早餐品種太少,是真溫泉。”、“訂的花園套房,感覺有點久,自費補差價住進(jìn)了別墅房,環(huán)境很好,溫泉是真的溫泉,服務(wù)一般般,早餐品種不多,房間只有兩瓶水,叫送多一瓶礦泉水還要收費,2000一晚的房就顯得太小氣了,其他都還不錯。”。

第2類族排名前三的分別是:

“酒店很不錯,溫泉的池子不少,房間設(shè)施也很好,前臺服務(wù)態(tài)度很熱情,早餐豐富,停車方便,就是往酒店的路比較爛。”、“溫泉度假酒店算范圍大和位置好找地方,下了汕湛高速走十公里左右到了,環(huán)境舒適優(yōu)美東南亞設(shè)計,有天然的溫泉溫眼,水質(zhì)感好,房間設(shè)施齊全,早餐還算可以。”、“早餐沒有吃,睡床有點硬,前臺服務(wù)態(tài)度好,有問題都會幫忙解決,周邊餐廳很多,八刀湯棒棒,衛(wèi)生還行,就是房間燈太暗,晚上房頂也沒有燈,看電視根本太暗了點,溫泉個別池還可以,有一些水都不太熱。”。

從上述評論中,可以明顯感受到每一個類簇表達(dá)的情感不一樣。

六、結(jié)束語

本文采用Dov2Vec將評論向量化,應(yīng)用改進(jìn)的機(jī)器學(xué)習(xí)算法K-mean進(jìn)行三個類簇的聚類,最后使用TextRank算法對評論進(jìn)行排序打分,得到每一個類簇最核心的評價文本,便于幫助游客從琳瑯滿目的互聯(lián)網(wǎng)旅游資源獲取到關(guān)鍵信息。通過應(yīng)用數(shù)據(jù)挖掘和自然語言處理技術(shù)進(jìn)行整合,更加有助于旅客根據(jù)自身需求和出行要求選擇更合適的景點和線路。同時有助于對擁有優(yōu)質(zhì)旅游資源的貧困地區(qū)通過旅游行業(yè)帶動自身經(jīng)濟(jì)發(fā)展,走上脫貧大道,有助于商家根據(jù)核心評價,對自己的經(jīng)營模式、服務(wù)質(zhì)量和硬件措施等進(jìn)行改進(jìn)且一步提高,從而吸引更加多的游客前往游玩。

參考文獻(xiàn)

[1]孫建立,賈卓生. 基于Python網(wǎng)絡(luò)爬蟲的實現(xiàn)及內(nèi)容分析研究[C]// 中國計算機(jī)用戶協(xié)會網(wǎng)絡(luò)應(yīng)用分會2017年第二十一屆網(wǎng)絡(luò)新技術(shù)與應(yīng)用年會論文集. 2017.

[2]王澤宇. 自然語言處理概述及應(yīng)用[J]. 通訊世界,2019,26(04):309-310.

[3]徐馨韜,柴小麗,謝彬,等. 基于改進(jìn)TextRank算法的中文文本摘要提取[J]. 計算機(jī)工程,2019,045(003):273-277.

[4]譚佩知. 基于K-MEAN算法的知識資源聚類研究[J]. 信息技術(shù)與信息化,2015,000(010):191-192.

[5]曹洋. 基于TextRank算法的單文檔自動文摘研究[D]. 南京大學(xué),2016.

[6]張波飛. 基于LDA和TextRank相結(jié)合的中文多文檔自動摘要提取[D]. 內(nèi)蒙古師范大學(xué).

[7]于娟,劉強(qiáng). 主題網(wǎng)絡(luò)爬蟲研究綜述[J]. 計算機(jī)工程與科學(xué),2015,37(2):231-237

[8]JiaweiHan,MichelineKamber,JianPei,等. 數(shù)據(jù)挖掘概念與技術(shù)[M]. 機(jī)械工業(yè)出版社,2012.

[9]張奇,黃萱菁,吳立德. 一種新的句子相似度度量及其在文本自動摘要中的應(yīng)用[C]// 第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議. 2004.

作者簡介:

鄒冠如,2000年,男,本科在讀,專業(yè):數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)。

羅毓麟,2000年,男,本科在讀,專業(yè):數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)。

(作者單位:北京理工大學(xué)珠海學(xué)院)

主站蜘蛛池模板: 青青草原国产精品啪啪视频 | 成人在线观看一区| 国产在线专区| 华人在线亚洲欧美精品| 欧美色视频网站| 在线观看亚洲人成网站| 美臀人妻中出中文字幕在线| 国产91导航| 亚洲性影院| 亚洲欧美综合另类图片小说区| 欧美亚洲欧美区| 国产性生大片免费观看性欧美| 免费人成视网站在线不卡| 8090成人午夜精品| 伊人久久福利中文字幕| 亚洲精品视频网| 99热这里只有精品在线观看| 国产乱人激情H在线观看| 91网站国产| 日韩欧美综合在线制服| a在线观看免费| 国产无码在线调教| 国产精品自拍露脸视频| 五月天久久婷婷| 久久久久人妻精品一区三寸蜜桃| 国产精品区视频中文字幕| 在线免费不卡视频| 久久亚洲综合伊人| 99视频精品在线观看| 免费国产福利| 成人精品免费视频| 99在线观看精品视频| 亚洲男人的天堂在线| 成·人免费午夜无码视频在线观看 | 亚洲精品在线观看91| 国产精品99久久久久久董美香| 99视频在线免费观看| 青青操视频在线| 影音先锋丝袜制服| 欧美性久久久久| 国产精品hd在线播放| 亚洲中文在线看视频一区| 国产精品亚洲天堂| 毛片视频网址| 中文字幕人成人乱码亚洲电影| vvvv98国产成人综合青青| AV不卡国产在线观看| 九色在线视频导航91| 亚洲精品成人7777在线观看| 91精品视频网站| 欧美成一级| 98超碰在线观看| 成人国产精品视频频| 国产特一级毛片| 一区二区理伦视频| 亚洲人成网址| av在线无码浏览| 在线高清亚洲精品二区| 嫩草国产在线| 热久久这里是精品6免费观看| 青青青视频91在线 | 国产精品视频系列专区| 丁香婷婷综合激情| 国产无码性爱一区二区三区| 免费人成黄页在线观看国产| 九九热精品视频在线| 亚洲区欧美区| 在线观看的黄网| 中日无码在线观看| 国产综合精品日本亚洲777| 香蕉综合在线视频91| 无码aⅴ精品一区二区三区| 中日无码在线观看| 午夜限制老子影院888| 999国产精品永久免费视频精品久久 | 99re在线观看视频| 国产乱人乱偷精品视频a人人澡| 多人乱p欧美在线观看| 国产精品视频导航| 精品久久久久久久久久久| 中国黄色一级视频| 一区二区理伦视频|