999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Nutch爬蟲的電商交易價格統計研究

2017-02-09 02:10:22陽黎明蘇理云
關鍵詞:研究

陽黎明,蘇理云

(重慶理工大學 理學院,重慶 400054)

基于Nutch爬蟲的電商交易價格統計研究

陽黎明,蘇理云

(重慶理工大學 理學院,重慶 400054)

將電商交易數據納入價格指數架構是目前統計工作關注的焦點。應用大數據技術,將Nutch爬蟲搭建在分布式集群上,構建分布式網絡數據抓取系統,同時結合最新的AP聚類算法對數據進行預處理,然后對網上數據進行價格指數建模,進行價格指數試算。試算結果表明:基于分布式集群下的Nutch網絡爬蟲技術較好地完成了網絡交易數據抓取任務。因此,計算的網上交易數據價格指數可較好地反映市場價格變化趨勢。

電商交易數據;分布式集群;Nutch;價格指數

隨著電子商務發展的不斷深入,政府統計部門和行業統計者對電商行業發展的關注度隨之提高,大數據理論的快速發展對電子商務的影響日益顯著[1-3],電商交易大數據對政府統計工作的改革創新也產生了積極的作用[2]。 本文開展了基于大數據理論指導的電商價格指數研究,對了解大數據在網上交易的應用具有現實意義。

開展電商交易價格的統計研究,重點是研究將電商交易大數據納入計算價格指數的數據框架。電商數據的融入對價格指數構建將是重要補充,對增強價格指數的可靠性和探索開發以網絡交易數據為基礎的其他經濟指標提供了經驗支撐,對開展大數據的網絡應用提供了實踐依據。

1 電商價格指數理論

網絡交易作為時下熱門的消費方式,關乎企業和每個消費者。通過研究電商交易的價格指數對于掌握電商交易行業發展具有重要作用。相比于利用傳統數據計算價格指數而言,根據網上交易數據計算的網絡價格指數對了解行業發展更加真實可信。

1.1 網絡零售價格指數(iSPI)

2012年,阿里巴巴的網絡零售額突破1萬億。依托自身龐大的電商交易數據,在國家統計局的指導下,阿里巴巴推出了一個網絡零售價格指數(iSPI),其權重由淘寶網支付寶的交易金額的比重而定,分為11個大類,每年調整一次。由于我國網絡銷售中含有團購、批發銷售等業務,所以該指數并不是真正意義上的網絡零售物價指數,而是一個結合了生產、批發、零售和消費等多種市場行為的綜合類價格指數。通過此理論得出指數比官方CPI波動更大,同時存在抽樣不平衡、未綜合利用不同網絡交易價格等缺陷。

1.2 消費者信心指數(CCI)

百度與中科院合作也開發了一套基于網上搜索數據編制的消費者信心指數(CCI)、通貨膨脹指數。運行效果顯示,網民搜索所指示的消費者對物價的感受與國家統計局的官方數據之間有一定的先行指示作用。 但與實際情況仍然存在一定差距。

1.3 中農網指數

中農網公司發布的農產品批發價格指數以深圳市農產品股份有限公司控股的30家批發市場和農網承建信息系統的80家批發市場為信息采集源,以電子交易模式為對象,通過對交易數據的實時監控,利用數據挖掘手段獲取有效的電子交易數據,從而中農網農產品批發價格指數。該指數采用定基期,以全國農產品實際批發成交量為權重。對全國農產品批發市場具有風向標的作用,反映了農產品的市場流動。

1.4 網上價格指數(BPP)

美國麻省理工學院通過網絡爬蟲技術構建了網上價格指數,即 BPP 項目[4]。具體過程:定時抓取不同國家電商的商品價格信息,每次至少抓取50萬條商品交易信息,再依此電商交易數據計算出20多個國家的每日網上價格指數。該指數的應用已得到政府及其相關領域的認可。對此網絡數據的抓取,由于諸多原因其具體過程不詳細介紹。

通過對比我國傳統CPI指數和基于網上交易數據的價格指數的數據來源、權重分配,發現基于大數據技術的網上交易價格指數,對分析電商交易市場的價格變動和市場發展趨勢作用明顯,且具有較高的可行性和認可度。為此本文將重點考慮基于大數據技術的網上交易價格的統計研究。各類指數對比見表1。

表1 各類指數的對比Table 1 Comparison of various indices

2 分布式Nutch爬蟲技術原理與實踐分析

2.1 分布式集群下 Nutch爬蟲的技術原理

Nutch 是一個開源Java 實現的網絡搜索引擎框架,它涵蓋了我們知道的搜索引擎所需的全部工具,比如全文搜索和Web爬蟲[5-6]。Nutch爬蟲系統的工作流程及原理以及Nutch爬蟲的基本結構如圖1所示。

圖1 Nutch系統結構Fig.1 Nutch system structure

1) 生產列表:根據網頁數據庫生成一個待抓取網頁的鏈接(URL)列表。

2) 下載線程Fetcher類:在根據確定的待抓取URL列表進行網頁抓取時,需要注意的是如果有多個下載線程,就必須對應生成多個待抓取URL列表,也就是1個Fetcher類的線程對應1個待抓取列表。

3) 更新網頁數據庫:Nutch在前一次爬蟲結束以后會自動更新網頁數據庫,根據更新后的網頁數據庫生成新的待抓取URL列表。

4) 重復上述步驟進行下一輪抓取任務。

這個循環進行的過程可以描述為“產生—抓取—更新”循環。

上述過程是Nutch爬蟲框架的基本工作流程及其基本原理。在Nucth爬蟲實現數據抓取的基本系統中,主要就是完成對待抓取 URL 列表的抓取和更新。Nutch數據采集過程如圖2所示。

在完成網上交易數據的抓取過程中,雖然大數據框架下的分布式網絡爬蟲技術具有技術領先性,但仍存在一些問題:解析網頁鏈接較復雜;平臺布局頻繁更替導致分布式架構運行不易;電商數據的多樣性導致有效數據難以捕捉。

圖2 Nutch數據采集過程Fig.2 Nutch data acquisition process

2.2 電商數據的特征

立足分布式的網上交易數據抓取平臺,本文設定從早上9:00—下午6:00完成對淘寶網站下的手機類交易數據的抓取。通過對電商交易數據分析發現,電商數據具有區別于傳統數據的顯著特點,主要有以下兩方面:

1) 交易數據波動大。電商交易操作方便,交易時間短,交易平臺的工作人員可以根據市場需求和頻繁的打折促銷等營銷手段對商品交易價格做出實時調整。但打折促銷、團購降價等消費手段都會引起抓取數據的異常。

2) 商品種類豐富。電商數據具有明顯的大數據特征。實證應用中,網頁平臺上同種商品的數量、型號等都在變化,每天在電商交易平臺中手機種類平均接近4 800種,在特殊時間段手機種類還會有較大變動。

3) 數據時效性強。隨著網頁制作的不斷升級,網站擁有者可以輕松地根據需要在電腦界面上放入不同的信息,因此電商網頁交易的價格數據也在時刻變化。

4) 商品缺貨問題突出。電商交易平臺經常出現短期缺貨情況。例如在抓取的手機交易數據中, 在同一天 手機種類的數量就可能不同。電商交易中常常采取預售或訂購等營銷模式,商品還沒有真實上架,貨物已在銷售,最終導致抓取的價格數據不全或是錯誤的。

3 電商交易數據的預處理

數據的預處理是統計研究的基礎,針對不同的形式和不同需要的數據,處理的方法會存在不同程度的差異。常見的聚類算法無法對數量龐大、結構復雜、種類繁多、價值密度低的電商交易大數據進行有效的分類處理,而AP聚類算法恰好可以對電商交易數據進行有效的處理。

AP算法是在2007年被首次提出[7]。該算法不需要事先指定聚類數目,相反它將所有的數據點都作為潛在的聚類中心,稱之為exemplar。以S矩陣的對角線上的數值S(k,k)作為k點能否成為聚類中心的評判標準,這意味著該值越大,這個點成為聚類中心的可能性也就越大,這個值又稱作參考度p。同時為提高聚類的效率,采用R軟件實現相關編程操作。

根據最優的聚類數完成數據的聚類處理,然后得到新的數據集。在完成上述步驟之后,所得到的新數據就相對規則,不存在明顯異常的數據,計算價格指數時不會存在明顯的干擾。

4 價格指數模型的制定

4.1 規格品的選擇

目前我國CPI的編制把居民消費支出分為食品、衣著、醫療保健、個人用品、交通及通訊、娛樂教育文化用品及服務、居住、雜項商品與服務等8類[8-9]。但隨著網絡交易規模的不斷擴大。價格指數的構建已經無法將網絡交易數據排除在外,缺失網絡交易數據的價格指數將是不全面的。如果將網絡交易數據納入價格指數的構建中,對于傳統數據信息是一個重要的補充,可為探索和開發以網絡交易數據為基礎的其他經濟指標提供基礎與經驗支持。

對于網上交易數據,應該具備以下認識:首先網絡零售商品并不完全等同于居民消費品,網絡零售中存在部分過度產品;其次網絡零售商品的存在形式與線下零售區別很大。相較于傳統零售商品,網絡零售對電子產品的分類相當精細,需要由單獨分類來反映。由此,將居民消費支出分類設定為以下基本分類:食品、衣著、家庭設備用品及服務、醫療保健護理、交通和通訊、教育文化娛樂服務、居住、商用設備、數碼產品和服務、雜項商品和服務[9-10]。這樣劃分的主要特點:由于網絡銷售與傳統銷售渠道存在不同特點,電商貨物與構建物價指數而選取的代表品有所不同。例如,網絡零售的食品類主體是易儲存、包裝和運輸的加工食品,以零食居多,所以網絡銷售將 “煙酒及用品”類歸于食品類。醫療類主體是醫療器材、保健品與美容護膚等個人護理用品。而由于許可限制,大類下西藥非常少,醫療服務則幾乎沒有,交通和通訊類等服務類都非常少。

根據網絡零售商品的交易特征,其市場交易主要是以零售交易為主。本文考慮除去網上交易存在的團購、促銷、季節性影響等因數,設定網絡零售商品的日度價格指數,以零售商品為最細類選擇商品。 以基本分類商品的日度價格指數(電商網頁中的零售商品)為例,首先計算不同規格手機的日度價格指數。然后利用無加權的幾何平均計算同種商品的價格指數,最后匯總月度價格指數。這也是編制CPI指數的常用做法[11],具有較好的參照性。

4.2 電商交易價格指數

4.2.1 手機銷售的日度環比價格指數

首先計算同一品牌手機的在某天的平均價格,數據來源主要是利用爬出技術在某個網站實現實時的手機銷售價格抓取,此時的平均價為

(1)

(2)

由此,再對日度價格指數進行無加權幾何平均得到日度環比價格指數,再重點分析指數計算的模型,根據爬出技術平臺抓取的數據進行指數試算,得到日度環比價格指數:

(3)

4.2.2 定基價格指數

在厘清日度環比價格指數之后則可以進一步得到月平均定基價格指數。

定基價格指數Lt,0=Lt-1,0×Rt,t-1,為計算方便將前一天的價格指數設為100,當L0,0=100 時,Lt,0和Lt-1,0分別是第t和t-1天的定基價格指數,進而得出月度平均定基價格指數:

(4)

4.3 實證分析

本文利用分布式集群下的Nutch爬蟲平臺實現對手機數據的抓取,完成了手機數據的分析處理,排除了異常數據的影響。根據制定的價格指數計算模型進行指數試算。定基價格指數見表2,手機日度環比價格指數見表3。通過表2、表3可以反映出手交易價格在過去3個月的基本情況(假定前1天的指數為100)。

表2 2016年月度平均定基價格指數Table 2 Monthly average fixed base price index

表3 日度環比價格指數Table 3 Daily chain price index

注:上述日度環比價格指數是從2016年3月30到5月29日的價格指數。

電商交易數據價格指數試算結果表明:基于分布式爬蟲系統下的電商交易價格統計研究具有較好的實用性,它不僅豐富了CPI指數計算的數據來源,還增強了價格指數的可靠性和靈敏度,實現了對價格指數的重要補充,同時對于探索和開發以網絡交易數據為基礎的其他經濟指標提供了經驗支撐,對了解電商交易市場的發展具有深遠的現實意義。

5 結束語

本文分析了現有網絡價格指數及其網絡價格指數的數據來源特征,力爭從互聯網技術角度出發,研究大數據挖據技術在電商交易價格方面的應用。以基于分布式的Nutch爬蟲技術實現對電商交易數據的抓取,進而實現基于大數據的電商交易價格統計研究。

實證研究結果表明:該數據抓取平臺對實時數據的抓取效果良好,對了解網絡交易市場發展具有較好的指導作用。

對于在數據抓取過程中出現的異常數據,本文考慮用AP聚類算法進行處理,在一定程度上實現了對異常值等數據干擾的排除。但電商交易具有獨特的運營模式,決定了電商數據的獨特性,因此在指數計算中對于規格品的分類值得進一步研究。

隨著研究的深入,今后將著重考慮對異常數據的處理,例如能否把基于X-12-ARIMA模型的環比價格指數的季節調整運用到網絡數據中來。

[1] 李金昌.大數據與統計新思維[J].統計研究,2014(1):10-17.

LI Jinchang.Major Data and Statistical New Thinking[J].Statistical Research,2014(1):10-17.

[2] 劉光金.大數據處理對電子商務的影響分析[J].計算機光盤軟件與應用,2014(17):25-26.

LIU Guangjin.Effects of Large Data Processing on E-commerce[J].Journal of Computer Software and Applications,2014(17):25-26.

[3] 高波.電子數據證據的挑戰與機遇[J].重慶大學學報,2014(3):111-119.

GAO Bo.The Challenge and Opportunity of Electronic Data Evidence[J].Journal of Chongqing University,2014(3):111-119.

[4] 孫易冰,趙子東,劉洪波.一種基于網絡爬蟲技術的價格指數計算模型[J].統計研究,2014(10):74-80.

SUN Yibing,ZHAO Zidong,LIU Hongbo.Price price index calculation model based on Web crawler technology[J].Statistical Research,2014(10):74-80.

[5] 錢建學.一種基于Hadoop的分布式網絡爬蟲的研究與設計[D].北京:北京郵電大學,2014.

QIAN Jianxue.Research and Design of Distributed Web Crawler Based on Hadoop[D].Beijing:Beijing University of Posts and Telecommunications,2014.

[6] 詹恒飛,楊岳湘,方宏.Nutch分布式網絡爬蟲研究與優化[J].計算機科學與探索,2011(1):68-74.

ZHAN Hengfei,YANG Yuexiang.Researchand Optimization of Nutch Distributed Network Crawler[J].Computer Science and Tropical Media,2011(1):68-74.

[7] 楊善林,李永森,胡笑旋,等.K-means 算法中的k值優化問題研究[J].系統工程理論與實踐,2006(2):97-101.

YANG Shanlin,LI Yongsen,HU Xiaoxuan,et al.Research onk-value Optimization Problem in K-means Algorithm[J].Systems Engineering -Theory & Practice,2006 (2):97-101.

[8] 李紹泰,劉建平.基于掃描數據的CPI基本分類指數編制方法研究[J].統計研究,2015(3):3-11.

LI Shaotai,LIU jianping.Study on CPI Basic Classification Index Compilation Method Based on Scan Data[J].Statistical Research,2015(3):3-11.

[9] 劉偉江,李映橋.基于網絡關鍵詞搜索量的商品零售價格指數預測研究[J].制度經濟學研究,2014(4):153-169.

LIU Weijiang,LI Yingiao.Study on the Retail Price Indices of Commodities Based on the Search Volume of Network Keyword[J].Institutional Economics Research,2014(4):153-169.

[10]趙子東.關于人工采集網絡價格的可行性研究[J].調研世界,2014(9):3-6.

ZHAO Zidong.Research on the Feasibility of Artificial Collection Network Price[J].Research World,2014(9):3-6.

[11]沈利生.同比價格指數與環比價格指數辨析[J].統計研究,2008(1):21-24.

SHEN Lisheng.Analysis of Price Index and Annular Price Index of the Year-on-year[J].Statistical Research,2008(1):21-24.

(責任編輯 楊黎麗)

A Statistical Study of Electric Business Price Based on Nutch

YANG Li-ming, SU Li-yun

(College of Science, Chongqing University of Technology, Chongqing 400054, China)

The integration of electric business transaction data into the price index structure is the focus of statistical work. In this paper, we focus on large data technology, build Nutch reptile on distributed cluster to build distributed network data capture system, and combine the latest AP clustering algorithm to preprocess the data; then we will carry out price index construction of online data, and conduct the price index trial. The results show that the Nutch web crawler based on the distributed cluster can complete the task of network transaction data fetching, and the price index of the online transaction data calculated by the data can reflect the market price trend.

electric business transaction data; distributed cluster; Nutch; price index

2016-09-25

重慶市教委資助項目(15SKG136);重慶理工大學研究生創新基金資助項目(YCX2015228);全國統計科學研究資助項目(2014LY069); 重慶理工大學高等教育教學改革研究項目(2014ZD03)

陽黎明(1990—),男,重慶奉節人,碩士研究生,主要從事金融統計與數據挖掘研究;蘇理云(1977—),男,四川廣安人,副教授,主要從事大數據分析與經濟統計研究,E-mail:1093464745@qq.com。

陽黎明,蘇理云.基于Nutch爬蟲的電商交易價格統計研究[J].重慶理工大學學報(自然科學),2017(1):152-157.

format:YANG Li-ming, SU Li-yun.A Statistical Study of Electric Business Price Based on Nutch[J].Journal of Chongqing University of Technology(Natural Science),2017(1):152-157.

10.3969/j.issn.1674-8425(z).2017.01.023

TP39;O21

A

1674-8425(2017)01-0152-06

猜你喜歡
研究
FMS與YBT相關性的實證研究
2020年國內翻譯研究述評
遼代千人邑研究述論
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
關于遼朝“一國兩制”研究的回顧與思考
EMA伺服控制系統研究
基于聲、光、磁、觸摸多功能控制的研究
電子制作(2018年11期)2018-08-04 03:26:04
新版C-NCAP側面碰撞假人損傷研究
關于反傾銷會計研究的思考
焊接膜層脫落的攻關研究
電子制作(2017年23期)2017-02-02 07:17:19
主站蜘蛛池模板: 777午夜精品电影免费看| 亚洲国产成人自拍| 国产区在线观看视频| 亚洲日本在线免费观看| 在线精品欧美日韩| 久久免费视频播放| av一区二区人妻无码| 久久久精品国产SM调教网站| 亚洲—日韩aV在线| 国产一二三区在线| 成人综合网址| 熟妇丰满人妻| 91青青草视频在线观看的| 欧美特黄一免在线观看| 日韩天堂在线观看| 性激烈欧美三级在线播放| 欧洲一区二区三区无码| 色哟哟国产成人精品| 免费AV在线播放观看18禁强制| 欧美精品一区在线看| 国产一级裸网站| 亚洲va视频| 国产素人在线| 热99精品视频| 97se综合| 亚洲一区二区日韩欧美gif| 国产视频久久久久| 69免费在线视频| 99精品视频九九精品| 免费看美女自慰的网站| 欧美日韩国产综合视频在线观看 | 福利一区在线| 国产在线观看高清不卡| 久久久久国色AV免费观看性色| 国产99免费视频| 欧美一级黄色影院| 精品人妻一区无码视频| 欧美日韩精品一区二区视频| 91网红精品在线观看| 麻豆AV网站免费进入| 青青草一区| 亚洲日韩AV无码一区二区三区人| 四虎永久免费网站| 国产喷水视频| 亚洲一区二区在线无码| 国产一区亚洲一区| 福利片91| 国产精品女人呻吟在线观看| 99精品在线看| 亚洲男人天堂2020| 免费中文字幕一级毛片| 久久精品丝袜| 欧美日韩精品综合在线一区| 亚洲香蕉久久| 国产综合精品一区二区| 成人福利在线看| 精品国产欧美精品v| 欧美日韩国产精品va| 99久久精品无码专区免费| 国产精品污污在线观看网站| 国产精品白浆无码流出在线看| 日日拍夜夜嗷嗷叫国产| 中文字幕日韩欧美| 影音先锋丝袜制服| 国产精品亚洲欧美日韩久久| 日韩一区精品视频一区二区| 一级做a爰片久久免费| 久久人妻xunleige无码| 国产福利在线免费观看| 日韩av在线直播| 九九精品在线观看| 黄色网站不卡无码| 亚洲美女久久| 日韩乱码免费一区二区三区| 久久青草精品一区二区三区| 在线精品自拍| 免费国产好深啊好涨好硬视频| 国产成人乱码一区二区三区在线| 天堂va亚洲va欧美va国产| 99人妻碰碰碰久久久久禁片| 91原创视频在线| 91视频精品|