999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于R語言的WEB半結構化數據抓取與統計分析

2016-10-14 01:34:04鄧遠飛甄曉云孟捷
價值工程 2016年5期
關鍵詞:數據分析數據挖掘

鄧遠飛 甄曉云 孟捷

摘要:大數據時代,數據成為決策最重要的參考之一,通過數據抓取能夠準確抓取我們需要的數據,然后挖掘出有用信息。本文以花卉網站為例,提出Web數據抓取與存儲框架,實現了抓取Web網站中的半結構化數據,轉換成結構化數據存儲進數據庫,并對數據進行預處理,然后運用數據分析和數據挖掘技術將結果展現出來,幫助花卉企業在花卉市場進行更準確的商業決策。

Abstract: In the era of big data, data become one of the most important references for decision-making. The data scraping can accurately capture the data we need, and then dig out the useful information. Based on flower website, this paper puts forward Web data scraping and storage framework. It realizes the semi-structured data in the Web sites, converts it into structured data and stores into the database, and carried put the preprocessing of the data. Then, it uses the data analysis and data mining technology to show the results and help the flowers enterprises take more accurate business decisions for flower market.

關鍵詞:XML;XPath;R;半結構化;Web數據抓??;數據分析;數據挖掘

Key words: XML;XPath;R;semi-structured;Web data scraping;data analysis;data mining

中圖分類號:TP311.1 文獻標識碼:A 文章編號:1006-4311(2016)05-0232-03

0 引言

隨著Web信息技術的迅速發展,人們可以越來越方便快捷地獲得各種信息,但是卻難以迅速地獲得更準確及適用的數據。雖然目前有多種查全率較高的搜索引擎,但它們的查準率普遍不高,很難進一步挖掘深度數據[1]。因此,研究如何對Web數據自動搜集及對搜集的數據的進行數據分析與挖掘具有重要現實意義。

本文將研究在花卉市場中Web數據挖掘[2]技術的應用,利用R軟件編寫數據抓取程序采集互聯網上的花卉網站上的大量數據,并對數據進行預處理,然后運用數據分析和數據挖掘技術將結果展現出來,幫助花卉企業在花卉市場進行更準確的商業決策。

本文程序的開發環境基于R,完成了數據抓取、數據預處理和數據分析,使用MySQL數據庫進行永久性數據存儲。在R中對網頁解析(XML、HTML文件,或包含 XML、HTML的字符串)有多種方法,比較成熟的方法是使用XML包。該程序包能夠將XML、HTML網頁樹(tree)解析成R結構數據。對標準XML文件的解析函數xmlParse,以及適應性更強的htmlTreeParse函數,這些函數都擁有大量的參數來適應解析需要。使用R程序包XML中的getNodeSet函數,獲取XML文檔中的信息。本文通過googlechrome瀏覽器可以快速獲取XPath路徑值。XPath是針對XML文檔的查詢語言[3],是一種頁面元素的路徑選擇方法,即為XML路徑語言,XPath提供在數據結構樹中找尋節點的能力。

1 數據抓取與存儲

一般的數據抓取從一個或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL鏈接放入隊列,直到滿足系統的一定停止條件。抓取網站的內容一般分為兩部分,非結構化文本[4]或結構化文本。本文主要抓取的是非結構化的文本內容。

網頁抓取到的數據存包含噪音、異常情況和不相關的數據信息。因此,需要按照數據分析和數據挖掘的具體需要,通過選擇特定屬性相關的數據進行抽取,并清理掉噪音數據。將數據收集部分抓取到的網頁資源作為Web數據分析的源頭,通過數據預處理模塊對這些網頁資源中的數據進行清理、轉換和合并等預處理[5]操作,終加載到本人搭建的小型MySQL數據庫中,為后續的數據分析和數據挖掘工作提供數據支持。

Web數據抓取與存儲框架圖如圖1所示,各模塊功能如下:①分類解析模塊,從Web主頁鏈接中解析出頁面分類鏈接。②URL解析模塊,從頁面分類鏈接中解析出子頁面的URL鏈接加入到URL隊列。③HTML解析模塊,從子頁面的URL隊列中解析出HTML文檔。④轉換整理模塊,R程序包downloader中的download函數實現訪問網絡中HTML文件下載到本地轉成XML文件,保證后續解析的穩定性與完整性。⑤解析讀取模塊,根據解析的XML文檔結構特點,讀取XML文件獲取需要的數據,合并成data.frame類型數據并通過R程序包RMySQL中的dbWriteTable函數存儲進MySQL數據庫。⑥數據預處理模塊,讀取MySQL數據庫中數據,經過數據預處理模塊處理,然后再覆蓋存入數據庫。其中,數據預處理模塊包含下面幾個子功能:1)數據合并,通過R程序包base中的merge函數操作,合并不同data.frame類型數據。2)數據清理,去除冗余數據,去除無效樣本,去除數據字段中多余字符串。3)轉換數據類型,把文本類型字段轉為相應的數據類型。4)缺失值處理,刪除或替換缺失值。5)中文分詞,如商品簡介和包裝簡介字段,用R程序包jiebaR中的worker函數自定義分詞引擎,進行分詞,提取需要的字段存儲進MySQL數據庫。

需要注意以下幾個問題:①在分類解析模塊、URL解析模塊和HTML解析模塊,由于抓取頁面內容不多,因為沒有把HTML文件轉換成XML文件處理;在轉換整理模塊,由于需要抓取頁面內容數據量大,因此需要把HTML文件轉換成XML文件處理,保證解析的穩定性和完整性。②遇到無法直接找到規律的URL鏈接,可模擬手動點擊“下一頁”來獲取URL鏈接。網頁URL鏈接一般隱藏在節點中,可調用R程序包XML中的xmlValue函數可以獲取HTML文檔或者XML文檔中的節點值。③XPath值雖然可以通過googlechrome瀏覽器快速得到,但是,由于網頁基本結構。④如果在數據抓取階段遇到中文亂碼的編碼問題,可調用R程序包base中的iconv(x,"utf-8","gbk")函數轉換編碼,解決中文亂碼問題。⑤如果R訪問MySQL數據庫出現中文亂碼,可調用R程序包RMySQL中的dbSendQuery(conn,'SET NAMES gbk')函數設置GBK字符集,解決讀取數據中文亂碼的編碼問題。

2 數據展示與分析

數據收集是取得統計數據的過程,數據預處理是將數據中的問題清理干凈,那么接下來的步驟就是統計分析了。

在所有的商品中,由表1可看出,商品數據按照花材分類,前六種花材(玫瑰、百合、康乃馨、仿真花、滿天星)占有總花材的近80%。市場主要是以玫瑰和百合為主。默認條件下,可計算出“五數”:最小值、25%的四分位數、中位數、75%的四分位數和最大值。以玫瑰花為例,用R函數fivenum()用來計算五數,如下:

> fivenum(sub_classFlowers$price)

[1] 125.0 260.0 364.0 591.5 10073.0

由計算結果可以看出,75%的玫瑰花都在600元以下,選取1000元以下的玫瑰花產品,畫出頻數密度圖,如圖2,可直觀看出,大多數產品都在300元左右。也就是說,300元左右的玫瑰花是產品種類最多的,也是大眾最能接受。

在所有的商品中,由表2可看出,商品數據按送花對象分類,接近70%商品是以贈送送給戀人為目的。以戀人對象為例,計算五數,如下:

> fivenum(sub_classObject$price)

[1] 73.0 241.5 336.0 537.0 29238.0

由計算結果可以看出,75%的產品都在350元以下,選取1000元以下的戀人對象產品,畫出頻數密度圖,如圖3,可直觀看出,大多數產品都在300元左右。也就是說,300元左右的產品是以贈送給戀人為目的的產品種類最多,也是大眾最能接受。

在所有的商品中,由表3可看出,商品數據按送花用途分類,接近80%的商品購買用于愛情和生日用途。以愛情用途為例,計算五數,如下:

> fivenum(sub_classUse$price)

[1] 73 242 326 493 995

由計算結果可以看出,75%的產品都是購買用于愛情,且價格在500元以下,選取1000元以下的以愛情用途產品,畫出頻數密度圖,如圖4,可直觀看出,大多數產品都在300元左右。也就是說,300元左右的產品是購買用于愛情為目的的產品種類最多,也是大眾最能接受。

根據送花對象和按送花用途頻數組成的列聯表如表4所示,我們可知道,在所有的商品中,送給戀人、用于戀人用途的產品種類是最多的。根據以上幾個表格,我們可以知道,大多數產品都是300元左右,以玫瑰花、百合花為主,用于贈送給戀人為主,以愛情為目的,因此我們推斷出,網店花卉產品主要設計為了追求愛情的年輕人,購買產品價格不能太高。

3 結束語

本文探討了Web數據挖掘技術在花卉市場中的應用,利用R軟件編寫數據抓取程序抓取其中一個花卉網站上的全部花卉數據,并對數據進行預處理,然后運用數據分析和數據挖掘技術將結果展現出來,幫助花卉企業在花卉市場進行更準確的商業決策。本文的研究雖然取得了初步的成功,但尚存在一些地方有待進一步的深入研究,這里擇其要者簡要討論如下:

①數據抓取部分抓取程序中的重復抓取過濾的問題尚存在一些缺陷,有待進一步的算法改進。②本文所抓取數據量不過兩千多,因此選擇用R軟件抓取數據,但是,抓取過程中,由于網速不穩定和R語言本身對并發處理的欠缺性,抓取過程也比較緩慢,整個抓取數據程序跑完大概需要4小時。③有些數據網站并沒有給出來,所以也無法爬取,比如購買人數、購買人購物信息、以及網店成交量等等。④數據分析部分是以直觀、易理解的方式展現給花卉企業決策者,幫助決策者在運營過程中正確把握買家需求,做出正確的運營決策。在后續的研究工作中,將進一步的挖掘更深層次信息。比如需要對商品簡介、材料包裝和花語文本字段進行文本挖掘,挖掘出隱藏信息。

本文通過抓取花卉市場的網站數據信息,并應用數據挖掘技術對這些數據進行分析、挖掘,達到幫助花卉企業決策、提高客戶滿意度、提升經濟效益的目。XML文檔極大程度的減少了結構轉換時間,數據的解析也更為快速,隨著網頁結構的復雜化,研究一種適用所有類型Web頁面的智能抓取信息方法成為網頁信息抓取今后發展的重要方向。

參考文獻:

[1]蔣宏潮,王大亮,班曉娟.基于XML的Web數據半自動采集[J].計算機工程,2009,35(21).

[2]王實,高文,李錦濤.Web數據挖掘[J].計算機科學,2000,27(4).

[3]陳琛.基于XML文檔中XPath查詢與結構研究[J].電子技術與軟件工程,2015,14.

[4]程洪濤.基于XML的非結構化文本數據轉換研究與實現[J].現代計算機,2013,9.

[5]汪偉,鄒璇,詹雪.論數據挖掘中的數據預處理技術[J].煤炭技術,2013,5.

猜你喜歡
數據分析數據挖掘
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
我校如何利用體育大課間活動解決男生引體向上這個薄弱環節
體育時空(2016年8期)2016-10-25 18:02:39
Excel電子表格在財務日常工作中的應用
淺析大數據時代背景下的市場營銷策略
新常態下集團公司內部審計工作研究
中國市場(2016年36期)2016-10-19 04:31:23
淺析大數據時代對企業營銷模式的影響
基于讀者到館行為數據分析的高校圖書館服務優化建議
科技視界(2016年22期)2016-10-18 14:37:36
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 怡红院美国分院一区二区| 国产精品三区四区| 色成人综合| 日韩专区欧美| 99热这里只有精品免费| 国产第八页| 国产综合精品日本亚洲777| 亚洲成人黄色网址| 国产精品三级专区| 欧美日韩中文国产va另类| 丝袜美女被出水视频一区| 久草热视频在线| 亚洲精品无码不卡在线播放| 亚洲色精品国产一区二区三区| 国产精品视频a| 99久久国产综合精品2023| 91精品国产91久久久久久三级| 日韩在线播放欧美字幕| 精品国产免费观看| 国产va欧美va在线观看| 国产成人91精品免费网址在线| 国产欧美日韩一区二区视频在线| 国产精品女人呻吟在线观看| 欧美成人综合在线| 欧美日韩动态图| 国产欧美在线观看视频| 99久久国产综合精品女同 | 亚洲国产精品不卡在线| 99热这里都是国产精品| 日韩精品无码免费专网站| 18禁黄无遮挡免费动漫网站| 欧美日韩国产成人高清视频| 国产成人一二三| 国产91在线免费视频| 欧美国产日韩在线观看| 国产精品亚欧美一区二区三区 | 99热6这里只有精品| 日韩视频福利| 亚洲精品无码高潮喷水A| 亚洲二三区| 欧美69视频在线| 91福利国产成人精品导航| 亚洲国产成人精品一二区| 99热这里只有精品5| 欧美亚洲网| 国产精品xxx| 日韩欧美中文在线| 另类综合视频| 久久香蕉国产线看观看亚洲片| 色婷婷电影网| 成人免费网站久久久| 欧美精品另类| 奇米精品一区二区三区在线观看| 国产福利免费视频| 欧美成人一级| 天堂av高清一区二区三区| 国产精品视频导航| 在线视频亚洲色图| 天堂网亚洲系列亚洲系列| 亚洲性色永久网址| 国产成人AV综合久久| 国内精品久久人妻无码大片高| 草逼视频国产| 亚洲中文字幕国产av| 久久夜色精品国产嚕嚕亚洲av| 免费jjzz在在线播放国产| 91人人妻人人做人人爽男同| 国产免费黄| 欧美色视频在线| 国产成人午夜福利免费无码r| 欧美亚洲激情| 国产尤物在线播放| aaa国产一级毛片| 日本少妇又色又爽又高潮| 国产精品一线天| 欧美国产在线一区| 国产欧美高清| 真人高潮娇喘嗯啊在线观看| 欧美福利在线观看| 黄色网址免费在线| AV色爱天堂网| 亚洲高清在线天堂精品|