999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于爬蟲數據的糧油網絡零售價格指數構建

2022-04-01 07:08:14梁凱凱
企業科技與發展 2022年11期

雷 兵,梁凱凱

(河南工業大學 管理學院 商務智能與知識工程實驗室,河南 鄭州 450001)

0 引言

糧油價格指數是反映各個時期糧油商品價格走勢的變化方向和程度的經濟指標。代表性高的糧油價格指數可以將更多的數據融入其中便于糧油市場供需雙方及經濟學家更好的觀察和分析。近年來,隨著網絡零售市場的迅速發展,網絡購物成為除傳統購物市場外的另一種購物方案,與此同時隨著新冠肺炎疫情的大面積不間斷流行,居民購買糧油的習慣和渠道均發生了重大變化,網絡糧油零售市場成了居民的新消費領域。數據顯示,2022年上半年我國網絡零售市場交易額達6.3萬億元,糧油食品網絡零售額同比增長21.9%。糧油網絡交易的迅速發展,使得糧油網絡零售價格的變化成為當前消費者和商家關注的熱點。

糧油網絡零售價格指數是從消費者價格指數中提煉出來的一種更精細的價格指數,目前鮮有專注于研究糧油網絡零售價格指數的構建,而在網購份額逐步增高的環境下,若仍采用線下數據構建糧油價格指數可能會出現偏差,而基于爬蟲數據可以更及時地構建出糧油價格指數以給市場供需雙方提供參考,因此,基于電商平臺的爬蟲數據對糧油網絡零售價格指數的構建展開研究。

1 文獻回顧

網絡零售市場每天都產生價格、銷量等數據,這些數據為價格指數構建提供了新的數據源,因此隨著網絡零售額的增長,越來越需要將這些數據用于消費者價格指數的構建中,目前已有學者開始利用這些數據對網絡價格指數展開研究。

CAVALLO等指出數據收集技術有改善經濟學中統計和實證研究的潛力,以2008年MIT發布的十億元價格項目驗證了如何使用在線價格大數據構建多個國家的每日價格指數[1]。2011年我國阿里網購價格指數(aSPI)發布,其構建初期數據來自淘寶網的4 886個四級類目中的389個類目作為成分類目,并以拉氏方法構建,陳立雙指出其雖有優化基礎數據質量、提高籃子代表性等優點但還存在大數據技術運用和數據處理不規范等問題,提出要加強創新型特色價格指數構建的實踐探索[2]。米子川等對aSPI和CPI進行了對比研究,提出了aSPI優于CPI的一些基本特征,并指出大數據指數對傳統統計調查的佐證將成為一種新趨勢[3]。劉濤雄等人研究在數字經濟時代如何使用在線大數據構建實時高頻物價指數,從天貓、京東等B2C平臺抓取代表性大數據后基于拉氏指數以居民消費為權數構建了中國第一套基于互聯網大數據的居民消費價格指數(iCPI),并發現iCPI不但能反映CPI與現有主要宏觀經濟變量的關系還能捕捉一些CPI無法反映的信息[4]。URIARTE等基于網絡抓取數據的價格指數構建案例,發現與傳統數據收集方法相比,基于該數據構建的價格指數可與官方統計數據相媲美且成本更低,還可構建出服務于特定群體的價格指數[5]。JUSZCZAK使用網絡抓取數據編制了價格指數對鞋類的價格動態進行了研究[6]。BENEDETTI等基于時間交互-區域產品模型,使用網絡爬蟲數據構建了蘋果、面包等商品的高頻城市空間價格指數[7]。HILLEN指出可通過爬蟲技術實時收集網絡食品價格數據展開食品價格研究,克服目前食品價格數據來源的部分局限性[8]。JAWORSKI在COVID-19期間提出一個自動收集和分析波蘭在線食品價格的框架,來實時追蹤波蘭的食品價格通脹水平[9]。

現有學者基于網絡零售大數據的研究主要側重于構建綜合性指數即消費者價格指數,而關于服務于特定人群的價格指數研究較少,并且他們的研究主要集中于基于爬蟲技術抓取在線食品價格數據進而研究食品的價格通脹,卻鮮有關于糧油價格指數的研究,因此本研究的重點則是結合糧油網絡零售價格指數構建目標設計一種基于電商平臺爬蟲數據的數據處理流程,進而提出一種新的糧油網絡零售價格指數構建方案。

2 爬蟲數據來源及處理

2.1 爬蟲數據來源

糧油網絡零售價格指數構建的數據如何獲取非常重要,網絡零售大數據來源于網絡零售市場,目前國內網絡零售市場主要有淘寶、京東等平臺,這些平臺每天都在產生著大量的網絡零售數據,由于各個網絡零售市場的數據類別都相差無幾,所以以淘寶平臺為例對網絡零售數據進行介紹。淘寶網絡零售數據主要分為結構化和非結構化數據。結構化數據主要有價格、銷量、累計評價等;非結構化數據主要有商品介紹信息、店鋪信息、店鋪活動等。所使用的主要信息為結構化數據中的價格和銷量,其他的則為輔助信息。本研究的目標是構建糧油網絡零售價格指數,因此從2022年5月1日開始每周日基于八爪魚爬蟲工具抓取淘寶平臺糧油類目的商品零售信息,共抓取12次,將其定義為{1,2,3,4,5,6,7,8,9,10,11,12}期,具體抓取過程如下。

第一,分析目標網站,了解數據結構分布,確定所需數據的位置。通過分析淘寶平臺的網頁結構可知,在搜索某品類商品后,頁面僅顯示價格、銷量/評價及店鋪等信息,而商品ID、商品介紹信息等更詳細的信息,則需進入每個商品的詳情頁才可獲取。

第二,基于“糧油”關鍵詞初步抓取。在淘寶平臺的檢索框內輸入“糧油”關鍵詞進行首次檢索,可獲取的檢索頁面為100頁,每頁44條,在獲取檢索頁面后,將頁面按銷量降序排列,以商品頁面最大值為準逐頁進入每個商品的詳情頁抓取所需的商品銷售信息。

第三,細化糧油類目的抓取范圍,進行二次抓取。為保證對淘寶平臺糧油類目下所有在售商品的最大覆蓋,通過對糧油類目商品的初步抓取結果進行分析,發現糧油類目下有更精細的二級類目即食用油、大米、雜糧與面粉,因此在淘寶平臺的檢索框內分別輸入糧油類目下的小類目關鍵詞進行二次檢索,并對檢索頁面實施上一步的抓取過程。

第四,將抓取的每條商品數據存儲至事先設定的csv文件中,存儲的字段主要包括SKU鏈接、商品ID、標題、店鋪名稱、店鋪活動、價格、銷量、累計評價、商品介紹信息,淘寶平臺的各期糧油網絡零售爬蟲數據量分別為 15 359、13 058、12 743、13 676、14 456、14 284、12520、10 985、13 733、12618、13 975、15675。

2.2 爬蟲數據處理

2.2.1 數據清洗

糧油網絡零售數據爬取后,需對其進行數據清洗即無效值與異常值處理。在無效值方面,由于網絡零售商品數據在抓取時可能會遇到網絡等問題,導致部分商品存在重復抓取的情況,因此需以商品ID為基準刪除重復值;還需去除銷量為零的商品,其并不會影響價格指數構建精度。在異常值方面,由于商家在網絡零售市場中上下架商品時并不會有額外成本,同時為了引流和提高店鋪檔次,部分商家會上架一些價格極低與極高的商品,而這些商品中多數與主流商品的價格走勢并不相同,因此為了防止這些商品對糧油網絡零售價格指數的構建精度造成影響,將爬取的商品數據按價格升序排列后,剔除前后3%范圍內的商品。

2.2.2 商品類別識別

由于抓取到的商品中含有非糧油類目的商品,如檢索“小米”時可能搜到“小米手機”而不是糧油類的小米等,因此需進行商品類別識別以剔除無關商品;同時,為保證糧油網絡零售價格指數的構建精度,還需對依據“糧油”關鍵詞抓取的商品進行類別細分。對爬蟲數據進行商品類別識別的處理步驟如下:①無關商品剔除。建立干擾詞典列表,如“手機,大米收納盒,米箱,米缸,米桶等”,通過Python語言中的re函數編寫正則匹配規則對爬取的商品進行遍歷,剔除商品標題中含有干擾詞典中詞語的商品。②識別基于“糧油”關鍵詞抓取的商品類別。目前主要用機器學習方面的方法對文本進行分類,其中常用的方法有決策樹、樸素貝葉斯算法等,其中樸素貝葉斯算法是一種有較好分類效果的算法,因此采用樸素貝葉斯算法進行訓練,得到網絡糧油商品分類模型,然后基于其對未標志的網絡糧油商品進行分類,分類步驟如下:①文本預處理。首先,網絡糧油商品標題中含有與商品類別無關的詞語,如“5kg”“斤”“包郵”等,因此需基于Python語言中的re函數編寫匹配規則,將商品標題中的無關詞語剔除。其次,借助Python語言中的jieba分詞函數對商品標題進行分詞處理,但jieba分詞函數中所含的語料庫并不能包含所有與網絡糧油類別相關的詞語,因此在分詞處理前需先建立網絡糧油類別語料庫,其含有五常大米、蛋糕粉、橄欖油等詞語。最后,基于文本向量化方法對分詞結果進行向量化。常用的文本向量化方法有詞袋模型、TF-IDF和Word2vec等,考慮到依據商品標題進行商品分類是一種短文本分類,而且網絡商家對商品標題主要是以關鍵詞進行撰寫,上下文間的聯系較少,而文本向量化方法中的詞袋模型能較好地處理短文本中關鍵詞的詞頻問題,因此選用詞袋模型將分詞結果進行向量化,步驟為:先基于分詞結果選出前400個高頻詞語,然后依據每一條商品數據對照400個高頻詞語進行向量化。②基于樸素貝葉斯算法的網絡糧油商品分類模型訓練。將基于食用油、大米、雜糧與面粉為關鍵詞檢索的爬蟲數據作為模型的訓練集。設訓練集S={s1,s2…,sn},對應的商品特征屬性集 X={x1,x2…,xm},商品類別集 C={c1,c2…,c4}。

基于訓練集數據可得,各個商品類別的先驗概率P(cb)與每個商品特征在各個類別下的條件概率P(X|C=cb)如下:P(cb)=Ncb/N,其中Ncb為訓練集中商品類別為cb的商品數量,N為訓練集中的商品數量;;隨后基于P(cb)、P(X|C=cb)可得商品Xi屬于某一商品類別cb的后驗概率為,其中P(Xi)為事件Xi發生的概率。

后驗概率最大的商品類別即為預測類別,據基于樸素貝葉斯算法的網絡糧油商品分類模型預測商品屬于商品類別集中的某類,當且僅當滿足以下公式:

基于樸素貝葉斯算法的網絡糧油商品分類模型建立好后,還需引入機器學習中常用的分類效果評價標準即精確率p、召回率R和測度,將需預測的商品類別標簽當作正類,其他商品類別當為負類,構建混淆矩陣,則p、R和的計算式如下:

其中,TP為預測為正,實際為正,FP為預測為正,實際為負,FN為預測為負,實際為正。

依據Python語言實現基于樸素貝葉斯算法的網絡糧油商品分類模型。訓練集中食用油、大米、雜糧與面粉下的爬蟲數據量分別為4 630、4 247、5 243、2 851,將其按7∶3的比例劃分出30%的數據用于驗證模型的預測效果,據式(2)可得預測結果為p=0.974 2、R=0.976 6、F1=0.975 2,其證明基于樸素貝葉斯算法的網絡糧油商品分類模型的分類效果較好,可將該模型用于網絡糧油商品分類。

(3)基于樸素貝葉斯算法的網絡糧油商品分類模型實踐。根據訓練好的模型對基于“糧油”關鍵詞抓取的數據進行分類標記,并進一步驗證分類模型的分類效果,如某商品標題為“廠家直銷老娘舅香稻江南鮮大米優質粳米香軟糯”,預測商品類別為“大米”,而其真實商品類別也為“大米”,表明基于樸素貝葉斯算法構建的網絡糧油商品分類模型能夠較好地依據商品標題對商品進行精準分類,有助于商品識別,進而可快速且精確的構建出糧油網絡零售價格指數。

3 基于爬蟲數據的糧油網絡零售價格指數構建及分析

3.1 糧油網絡零售價格指數構建方法確定

以淘寶平臺中糧油類目為例主要構建的是類指數,類指數的構建需要從個體開始然后加權到類,而構建的目的是反映不同個體及類逐期的變動趨勢和程度,因此,主要構建環比價格指數,因為其對逐期變動趨勢和程度較敏感,能準確、迅速地反映短期價格變化情況,便于商家及時了解價格變動趨勢,并分析其原因。

從構建糧油網絡零售價格指數的實際意義來看,網絡零售市場雙方較關心的是在報告期成交量條件下商品零售價格的變動趨勢,并希望通過它從側面對經濟活動進行觀察和分析。結合價格指數的構建意義,選擇的價格指數構建方法為帕氏,公式為,而為了價格指數構建更加簡便,對帕氏公式進行變形[10]如:

其中,pti為第i個商品第t期的價格,qit為第i個商品第t期的成交量,pi0為第i個商品的基期價格,為第 i個商品第t期的價格變化,為第i個商品第t期的權重。這種公式變形不僅可反映居民網絡消費商品價格的變化狀況,也能反映因價格變化而引起的報告期居民網絡消費費用的實際變化情況。

3.2 糧油網絡零售價格指數構建與分析

將淘寶平臺中糧油類目的4個子類,分別記為D1,…,D4,依照aSPI以各子類的銷售額占比為各子類的權重,將其分別定義為W1,…,W4。以D1子類為例,假設其共有n個規格品G1,…,Gn,第t-1期的價格分別為,第t期的價格為,權重分別為。

糧油網絡零售價格指數構建思路:第一步,計算子類商品中規格品第t-1期與第t-1期的價格比。第二步,計算子類商品第t期與第t-1期的環比價格指數。第三步,計算糧油類的第t期與第t-1期的環比價格指數。具體構建過程如下:第一,計算規格品價格變化,D1子類下第t期規格品a的環比價格變化與權重分別為,,a=1,2,…,n;第二,“不同規格品→子類價格變化”采用帕氏指數,則第t期D1子類的環比價格變化為;第三,“不同子類→大類指數”采用加權平均法,則第t期中總指數的環比價格變化為。

根據糧油網絡零售價格指數構建思路與步驟可得,淘寶平臺的糧油網絡零售價格指數見表1。

表1 淘寶平臺的糧油網絡零售價格指數

由表1可知,糧油網絡零售價格指數和大米、雜糧、面粉及食用油網絡零售價格指數在每一期的價格走勢方向并不相同,因此在對淘寶平臺的糧油網絡零售價格指數進行研究時,不能僅看綜合性價格指數,還需對綜合性價格指數下的細分價格指數進行研究。為進一步探究大米、雜糧、面粉及食用油和糧油網絡零售價格指數之間的關系,引入Pearson相關系數,通過計算可得它們之間的Pearson相關系數分別為0.561、0.149、-0.042、0.476,由相關系數可知雜糧、面粉類目的商品與糧油整體價格走勢之間的差距最大,而大米、食用油類目商品次之,進一步證明若網絡零售商家想要更加精細地了解網絡糧油商品的價格走勢,則需要對網絡糧油類目下的二級類目商品獨立研究。

4 結論

采用淘寶平臺的糧油零售數據,從數據抓取與清洗、商品分類、價格指數構建方法確定等方面提出了糧油網絡零售價格指數構建方案,該方案可為糧油網絡零售市場的供需雙方及相關人員研究糧油網絡零售價格的走勢提供一種新途徑。通過數據抓取技術提供了一個爬蟲流程,用于收集淘寶平臺的糧油零售數據,并基于樸素貝葉斯算法構建了一個網絡糧油商品分類模型,提高了糧油網絡零售價格指數的構建精度和時效。最后通過對淘寶平臺的糧油網絡零售價格指數的構建結果分析可得,若電商平臺的供需雙方想要更加精細地了解網絡糧油商品的價格走勢,則需對網絡糧油類目下的二級類目商品獨立研究。

本研究的糧油網絡零售價格指數是基于淘寶平臺的零售數據構建的,提出的糧油網絡零售價格指數構建方案,可為其他電商平臺的不同類商品的零售數據抓取、價格指數構建和監控提供應用基礎,同時也可根據網絡零售數據的爬取頻次構建出實時的日頻、周頻等價格指數。

主站蜘蛛池模板: 最新无码专区超级碰碰碰| www.99精品视频在线播放| 亚洲成人高清无码| 婷婷综合亚洲| 日韩欧美视频第一区在线观看| a在线观看免费| 日本三区视频| 日韩高清在线观看不卡一区二区 | 亚洲精品大秀视频| 国产va欧美va在线观看| 日本亚洲最大的色成网站www| 国产精品第一区在线观看| 成人国产精品视频频| 亚洲精品午夜无码电影网| 成人午夜视频网站| 中文字幕在线看| 999在线免费视频| 亚洲有无码中文网| 国产精品一区不卡| 国产亚洲视频免费播放| 国产综合色在线视频播放线视| 狠狠综合久久| 91精品aⅴ无码中文字字幕蜜桃| 老司国产精品视频91| 91在线中文| 久久久久人妻一区精品色奶水| 日本人又色又爽的视频| 国产精品理论片| 91久久夜色精品国产网站| 午夜福利无码一区二区| h网址在线观看| 网友自拍视频精品区| 日韩AV手机在线观看蜜芽| 国内丰满少妇猛烈精品播| 国产欧美中文字幕| 亚洲av无码牛牛影视在线二区| 成人在线综合| 亚洲欧美日韩中文字幕一区二区三区 | 久久伊人操| 亚洲男人天堂网址| 久草视频福利在线观看| 亚洲综合第一区| yjizz视频最新网站在线| 亚洲精品国产首次亮相| 国产欧美日韩一区二区视频在线| 亚洲成人在线播放 | 国产91麻豆免费观看| 天天躁日日躁狠狠躁中文字幕| 国产女人水多毛片18| 在线人成精品免费视频| 欧洲极品无码一区二区三区| 99re66精品视频在线观看| 婷婷综合在线观看丁香| 高潮爽到爆的喷水女主播视频 | 免费人成黄页在线观看国产| 区国产精品搜索视频| 毛片免费高清免费| 亚洲精品日产AⅤ| 日韩精品一区二区三区视频免费看| 亚洲国产成人精品青青草原| 精品国产污污免费网站| 国产精品视频免费网站| 日韩福利在线视频| 亚洲精品色AV无码看| 免费中文字幕在在线不卡| 58av国产精品| 亚洲国产综合精品一区| 亚洲色图狠狠干| 国产视频一区二区在线观看| 真实国产精品vr专区| 国产又爽又黄无遮挡免费观看| 中文字幕永久在线看| 日韩成人免费网站| 高潮毛片免费观看| 广东一级毛片| 婷婷六月天激情| 91口爆吞精国产对白第三集| 欧美日本在线一区二区三区| 一级在线毛片| 国产色爱av资源综合区| 成人亚洲国产| 国产成人精品一区二区三在线观看|