999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

爬蟲在旅游滿意度網絡輿情調查中的應用研究

2018-01-22 10:43:03鄭聰
無線互聯科技 2017年24期

鄭聰

摘 要:隨著“互聯網+”的迅猛發展和移動互聯網的大范圍普及,大眾的旅游行為越來越依賴于網絡平臺,而隨之產生的海量輿情數據也成了評價各種旅游要素的重要指標。但因為其數據量大、信息復雜,在進行旅游滿意度統計時很難將其進行有效的統計分析,從而造成資源浪費。文章從爬蟲入手,分析現階段網絡輿情監控體系核心技術要求,根據其技術要點,提出一種旅游滿意度網絡輿情調查解決方案,進行系統構建及采集策略規劃,實現旅游滿意度網絡輿情數據的采集和分析,并對其可行性進行實驗驗證。

關鍵詞:爬蟲;旅游滿意度;網絡輿情

1 現狀

“互聯網+”的概念提出之后,許多行業都發生了翻天覆地的變革[1]。旅游行業也是如此,網絡因素在旅游要素中的占比越來越大,幾乎成為必備。而在移動互聯網發展迅猛、新媒體技術頻出的當下,旅游網絡輿情數據也變得越來越立體和生動,內容載體從單一的文本形式擴展到圖片、地理位置、短視頻、直播、彈幕等,平臺載體有攜程、去哪兒、飛豬、美團旅游、螞蜂窩等。對其產生的大量數據進行有效的搜集和分析,可以準確和全面地反映出旅游產業方方面面的問題,這一做法已經被旅游行業、學者和政府所認可[2-4]。但是就目前實際操作情況來看,主要存在兩個問題,一是數據的不公開阻礙數據獲取;二是傳統的旅游滿意度調查手段在如此巨大的數據面前顯得力不從心。針對這兩個問題,本文提出使用爬蟲技術輔助旅游滿意度網絡輿情調查,并根據理論研究實現對某一特定旅游平臺的輿情數據進行采集和分析的系統原型。

2 爬蟲核心技術

爬蟲(Crawler)或者網絡爬蟲(Web Crawler)又叫作網絡蜘蛛(Web Spider)、網絡螞蟻(Web Ant)、自動索引器(Automatic Indexer)、網絡疾走(Web Scutter)等[5],通過訪問特定的一組URL(統一資源定位符)來獲取里面的超文本標記語言(Hyper Text Markup Language,HTML)信息,HTML中包含的新URL將會重新進入待抓取程序,成為新的訪問對象,通過這種方式達到對特定站點、系統以至整個互聯網進行爬取,搜索引擎背后就是有強大的爬蟲系統支撐,才能獲取檢索整個互聯網的能力。一個常規爬蟲主要包含網頁地址訪問、列表頁分頁采集、HTML標簽解析、內容頁分頁采集、查重與查新等技術。

2.1 網頁地址訪問

網頁地址訪問是爬蟲通過模擬瀏覽器訪問行為,通過GET和POST等訪問方式向目標URL發起HTTP訪問,然后獲取服務器所返回的HTML文檔。被訪問的網頁可分為首頁面、列表頁、內容頁3種類型,這是爬蟲最基礎的技術要點,后續所有的操作都跟首頁面地址有關,因此,該起始地址的選擇很重要,一個好的首頁面可以為后續的爬取提供充裕的資源。

2.2 列表頁分頁采集

列表頁分頁采集指對于有分頁存在的頁面需要將其分頁地址進行解析和重組,以循環訪問的方式加入到爬蟲任務列表中,通過對分頁頁面的循環訪問達到爬取該分類信息下所有資源的目的。移動互聯的崛起也讓信息分頁顯示發生了重大變革,誕生了瀑布流的展現形式,但是背后的核心要點與分頁相似,也可以通過循環分頁地址形式爬取數據。

2.3 HTML標簽解析

HTML標簽解析是要對獲取的HTML文檔進行分析和有效信息抓取,HTML文檔為描述性結構,通過標簽、ID、Class等信息對內容進行限定,如“

段落1”這一行代碼描述的就是ID為001、采用c001樣式表、HTML標簽為p的一個段落,段落內容為“段落1”,其中“段落1”就是要抓取的有效數據,而其余的則為抓取條件,通過這些限制條件可以唯一定位到該有效數據。

2.4 內容頁分頁采集

內容頁分頁采集與列表頁分頁采集相類似,當內容頁內容過多會產生分頁,也有可能是瀑布流的形式,需要對其采用分頁采集技術爬取全部內容。

2.5 查重與查新

查重與查新是大型、持久性爬蟲必不可少的一個功能,通過記錄訪問過的URL地址可以在進行新的訪問時進行過濾操作,對已經爬取的地址進行時間戳標記,然后再將其與在庫的數據進行對比,如果有更新則入庫,如果沒有更新則丟棄,以此來減少冗余和噪聲數據。

3 關鍵系統構建

依據上文對爬蟲核心技術的分析研究,網絡爬蟲在旅游滿意度網絡輿情調查中的系統構建應用,首先應對平臺進行分類和對應策略研究,其次是針對平臺數據特點構建分頁策略和HTML標簽解析策略,最后是內容查重、查新、分析以及導出。

3.1 平臺分類及數據獲取策略構建

旅游類平臺產品經過多年的發展大致分為工具類和社交類,工具類平臺有攜程、去哪兒、飛豬、美團旅游等,主要以交通、住宿、景點門票等產品的銷售為主,輔助以產品評論功能;社交類平臺有螞蜂窩、蟬游記等,主要以游記、線路規劃、自由行記錄等為主,在此功能基礎上添加商品預定與購買功能。隨著移動互聯網的快速發展,兩種平臺逐漸有融合趨勢,但是其帶動點還是有很大區別。

對于工具類平臺,在選擇入口網址時應該首先確定調查對象,比如目前要對XXX景點進行網絡輿情滿意度調查,那么就將該景區的產品售賣頁面作為入口URL,通過分析全文鏈接,獲取有價值的二級頁面數據如產品銷售數據、產品評價數據等。值得注意的是工具類平臺的旅游產品都是以線路形式展現,因此,一個景點會包含在多條線路中,需要對全部包含此景點的線路進行數據抓取和分析,才能獲取較為全面的滿意度數據。

而社交類平臺相對單一,其數據組織方式以景點為中心,用戶的反饋數據會集中在特定頁面或者區域,對其進行抓取和分析就能獲得較為完整的數據。目前社交類平臺也涉足線路類產品,因此也會存在游客評價散落在線路產品評價里面,這方面數據也要引起重視。

3.2 分頁策略構建

分頁策略用于列表頁和內容頁,其技術特點相類似。主要有兩類分頁情況,一是數字翻頁形式,另外一種是瀑布流形式,二者都需要使用包含通配符的通用列表頁模板進行循環訪問。在設置循環閾值時需要與數據總量相適應,并略微大于真實分頁量,這么做是為了保證數據采集的完整性;如果可以通過接口數據獲取總數據量也可以通過計算獲得較為準確的分頁值。

特殊情況下如果目標站點使用了靜態地址轉換,如京東網上商城,為每個商品分配了ID標識符,則可以通過模擬生成產品ID號來自動組合生成訪問地址,從而省略分頁過程;有的平臺也會提供API接口返回JSON數據用于分頁顯示,如果JSON數據覆蓋面比較廣,可以通過JSON解析替代下文3.3所述的內容抓取策略。

3.3 HTML內容抓取策略構建

HTML是現代互聯網的重要組成部分,包含頭部信息和實體信息兩個要素,頭部信息用來定義網頁,實體信息記錄網頁要顯示的內容,需要采集的有效數據就保存在實體信息中[6]。各種信息使用標簽進行標識,并輔助以ID和Class等進行限定。

對HTML內容的抓取可以通過標簽解析、ID定位、Class定位、XPath定位以及字符串匹配等方式。其抓取策略和特點如表1所示,表中的模糊采集和精確采集是對采集策略的一種評價,判斷標準是其能否在HTML文檔中進行唯一定位,如果能則其是精確的,反之是模糊的。在進行數據采集操作時,往往需要多種策略相結合,尤其是HTML5環境下,資源框架體系進一步精細化,很多內容可以通過標簽解析來獲取,這是最快捷的方式;而一些比較特殊的數據則需要通過定位方式來采集。

3.4 內容分析及導出策略構建

內容分析是對抓取后的有效數據進行篩選和甄別,這個過程在游客滿意度問卷調查中對應打分環節,打分能通過游客精確地對景區或者產品進行評價;而在網絡輿情中,有兩部分數據可以使用,一是平臺的星級策略,通常為5星制,通過用戶的星級分數來反應產品價值,這一部分可以精確采集;另一部分是用戶的評價,這部分數據需要人工閱讀或者語義分析才能知道內容的觀點和價值。數據采集和判定結果通過數據庫和Excel表格兩種方式導出和長期存儲,數據庫中數據主要用來進行查重和查新;Excel按照任務分類進行按日期存儲,以便進行任務調度和數據展示。

4 關鍵系統實現

本文選取美團旅游的“桂林漓江風景名勝區”為例進行原型系統實現,入口地址為http://www.meituan.com/cate/1222649。該產品包含產品評分、產品圖片、人均消費、用戶評價、評價時間、評價圖片、商家回復等信息,分頁采用傳統分頁,具有典型性。

4.1 數據采集實現

對頁面上的典型數據如評分信息、帳戶名稱、用戶等級、產品名稱、評價內容、評價時間等進行采集,采集實現如表2所示。

4.2 分頁實現

通過點擊頁面上的翻頁按鈕發現地址欄沒有變化,推測其應該使用了Ajax異步獲取JSON數據進行分頁展示。通過對訪問過程的抓包分析,獲取到該產品的評價信息API地址http://www.meituan.com/ptapi/poi/getcomment?id=1222649&offset=0&pageSize=10&mode=0&starRange=&userId=&sortType=1,分析得知ID對應該產品的編號,在入口地址中有體現;pageSize為每頁顯示的評價數量,默認為10條。分頁時查看下方總評論數為780條(截至2017年11月21日),因此采用http://www.meituan.com/ptapi/poi/getcomment?id=1222649&offset=[0-780]&pageSize=1進行分頁獲取,中括號里面為取值范圍。

5 測試結果分析

測試結果共采集數據781條,依據字段結構完整性判定其中730條為有效數據,數據在參考文獻中公開[7]。經統計分析發現,406名用戶給出了5分評價,155名用戶給出了4分評價,74名用戶給出了3分評價,38名用戶給出了2分評價,57名用戶給出了1分評價,用戶等級從無等級跨度到6級。統計結果如圖1所示。

進一步對點贊數量大于10的15條評論分析發現,6條給出了5星評價,4條給出了4星評價,1條給出了3星評價,1條給出了2星評價,3條給出了1星評價。此數據說明景區整體形象較好,獲得了較多用戶贊同。但是問題也很突出,主要集中在景區存在隱形消費(游船升艙陷阱)、時間安排混亂、對網上購票用戶有歧視等問題,這些都獲得了大量用戶贊同。而對于景區的反應來看,只對評分靠前的3條正面評價記錄做了回應表示感謝,并沒有對負面評價做出道歉或者解釋,這將會對景區形象造成很大影響。

針對升艙問題進一步分析可以發現,最早反應此問題的時間是2015年6月20日,距最近一次該問題的反饋時間2017年10月16日已過去了兩年多時間,但該問題依然在景區存在,給游客造成了很負面的影響,因此,景區應加強自身管理,為游客提供一個完美的出行環境。

6 結語

本文嘗試使用爬蟲對網絡平臺上的旅游滿意度輿情數據進行采集和分析,為“互聯網+”和移動互聯網時代的旅游滿意度調查提供一種新的思路和方法。經過系統構建、實現和測試結果分析發現,該方案切實可行,能有針對性地對某個景區的網絡輿情數據進行采集和分析,生成可視化圖表結果,并可以針對某個問題進行深入挖掘,比傳統旅游滿意度調查在樣本空間、數據豐富程度、時間跨度、空間跨度、數據搜集、存儲、清洗上都有較大優勢。

[參考文獻]

[1]黃楚新,王丹.“互聯網+”意味著什么—對“互聯網+”的深層認識[J].新聞與寫作,2015(5):5-9.endprint

[2]丁璐.政府行為對旅游公共事件危機演化的影響研究—以網絡輿情為視角[J].旅游縱覽,2015(7):27-29.

[3]付業勤,鄭向敏.旅游網絡輿情研究體系建構研究[J].重慶工商大學學報(社會科學版),2015(2):74-82.

[4]付業勤.旅游危機事件網絡輿情研究:構成、機理與管控.[D].泉州:華僑大學,2014.

[5]Wikipedia.Web crawler[EB/OL].(2017-06-11)[2017-12-04].https://en.wikipedia.org/wiki/Web_crawler.

[6]百度百科.HTML[EB/OL].(2017-09-23)[2017-12-04].https://baike.baidu.com/item/HTML/97049?fr=aladdin.

[7]鄭聰.論文公開數據[EB/OL].(2017-11-21)[2017-12-04].http://www.pfyz.bid/blog/2017/11/21/5385.

Abstract:The behavior of travelers on public is increasingly dependent on the Web platform with the rapid development of “Internet +” and the widespread popularization of mobile Internet. The resulting mass public opinion data has also become an important indicator to evaluate various elements of tourism. However, because of the large amount of data and the complicated information, it is very difficult to carry out statistical analysis of tourism satisfaction statistics. As a result, resources are wasted. This paper starts with crawler and analysis the current network of public opinion monitoring system of the core technical requirements, according to the technical points, this paper proposes a solution to solve the network public opinion investigation of tourism satisfaction, and then conducts the system construction and collection strategy planning to realize the collection and analysis of travel public opinion network public opinion data, and verifies its feasibility.

Key words:crawler; tourism satisfaction; network public opinionendprint

主站蜘蛛池模板: 国产精品大白天新婚身材| 婷婷六月色| 国产香蕉国产精品偷在线观看| 久久www视频| 99热这里只有免费国产精品| 國產尤物AV尤物在線觀看| 国产福利在线观看精品| 精品偷拍一区二区| 国产黄网站在线观看| 亚洲高清在线天堂精品| 色九九视频| 亚洲美女高潮久久久久久久| 中文字幕久久亚洲一区| 五月天综合婷婷| 91在线精品麻豆欧美在线| 久久男人视频| 精品久久久久久久久久久| 久久亚洲高清国产| 一级香蕉人体视频| 91无码网站| 高清大学生毛片一级| 中文字幕天无码久久精品视频免费 | 亚洲va欧美ⅴa国产va影院| 99久久精品免费看国产免费软件 | 国产h视频免费观看| 成人小视频网| 国产全黄a一级毛片| 亚洲三级色| 欧美福利在线| 一本大道香蕉中文日本不卡高清二区| 成年人午夜免费视频| 国产成人精品无码一区二| 国产精品视频3p| 国产麻豆永久视频| 国产成人AV综合久久| 日韩在线播放中文字幕| 久久精品人妻中文系列| 草逼视频国产| 亚洲aaa视频| 午夜视频日本| 欧美激情第一区| 午夜国产理论| 亚洲黄网视频| 少妇露出福利视频| 91福利免费| 亚洲国产欧美国产综合久久 | 青青草a国产免费观看| 免费a级毛片18以上观看精品| 亚洲国产精品无码AV| 中文字幕中文字字幕码一二区| vvvv98国产成人综合青青| 人妖无码第一页| 国产欧美专区在线观看| 成人在线综合| 亚洲妓女综合网995久久| 国产成人久视频免费 | 欧美日韩精品一区二区在线线 | 欧美精品二区| 亚洲永久色| 成人午夜精品一级毛片| 亚洲国产精品不卡在线| 亚洲第一av网站| 免费无码又爽又黄又刺激网站| 永久免费精品视频| lhav亚洲精品| 99久久精品国产综合婷婷| 日韩福利在线观看| 日韩在线欧美在线| 爽爽影院十八禁在线观看| 97se亚洲综合在线韩国专区福利| 国产精品自拍合集| 天天操精品| 亚洲成a人片77777在线播放| 欧美亚洲国产一区| 国产成人亚洲无吗淙合青草| 91网站国产| 国产福利在线免费观看| 久久精品免费国产大片| 欧美一道本| 国产精品亚洲天堂| 国产靠逼视频| 国产成人精品视频一区视频二区|