999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向大規模電商平臺的商品信息采集技術研究

2022-11-28 05:32:20廖美紅
企業科技與發展 2022年6期
關鍵詞:頁面數據庫信息

廖美紅,陸 瑩

(廣西工商職業技術學院,廣西 南寧 530003)

0 引言

商品信息屬于電子數據的一種,對其進行采集也被稱為數據采集或數據獲取,是指在一個系統采集數據后將數據信息傳輸到另一個系統中,為后續系統數據分析做準備。在大規模電商平臺中,其所包含的數據信息以消費者或企業名義廣泛分布在各大電商平臺、智能終端、管理系統及第三方服務平臺上,除商品買賣信息外,還包括企業和消費者基本信息、空間環境信息等。各類數據信息在邏輯上存在某種關聯,數據傳遞也具有很強的目的性,因此對于數據采集來說,只有抓住整個動態流通過程的核心要素,才可準確找出自己所需的信息數據。在大數據環境下,電商平臺中的數據是公開、共享的,但數據間的各種信息傳輸和分析需要有一個采集整理的過程。本文研究的信息采集主要針對商品信息。

1 大規模電商平臺特征分析

1.1 電商平臺頁面結構共性分析

計算機技術的飛速發展,促進了不同領域技術的融合,其衍生出來的行業新概念,也在不斷擴大應用空間,并潛移默化地影響人們的生活習慣。電子商務的出現為人們購物提供了新的選擇,目前國內關注度較高的電商平臺有京東、淘寶、當當網、蘇寧易購等,這些應用平臺在功能和結構上均有著自身獨特的優勢,商品信息豐富,種類繁多。同時,它們具有諸多相似性,都包含以下幾種HTML結構。

1.1.1 商品搜索框

大規模電商平臺所容納的商品種類繁多,為確保消費者在最短時間找到自己心儀的商品,節省時間和精力,平臺會提供檢索服務,即在頁面檢索框中輸入想要查找的商品信息(名稱、品牌、流行詞匯等),便可快速查詢到該商品,以及相關商品信息。為方便消費者尋找和使用,“商品搜索框”通常會出現在平臺首頁上方中間處或顯眼處,外形設計也符合大眾審美標準。

1.1.2 分頁按鈕

分頁按鈕是一種比較有特色的HTML結構,在降低時間損耗和減輕性能壓力方面具有突出作用。眾所周知,應用平臺為最大限度地滿足消費者瀏覽和購買需求,往往會承載大量商品信息,若該商品符合大多數消費者消費標準和要求,當單次請求發出后,服務器會在資源完成搜集后提供數量龐大的商品信息,這會導致性能壓力瞬間增大,需要耗費大量時間。分頁功能的實現,在一定程度上解決了這一問題,單次請求行為發生后,系統或服務器會分批次加載商品信息[1]。結合實際應用效果來看,分頁功能可解決如下兩類問題。

第一,降低單次請求對服務器產生的性能壓力,減少等待時間。以圖片瀏覽請求為例,網絡消費中,消費者的圖片瀏覽需求更多,目的性也更強,往往在一次購買請求發生前,需要瀏覽幾十張甚至是上百張圖片,若這些圖片被一次性傳遞過來,在下載量激增現象發生之后,服務器需要承擔巨大的安全風險,相應的,數據加載時間也會更長。站在消費者角度,圖片瀏覽需要一定時間,同一時間接收上百張圖片,并不利于提高瀏覽質量。分頁處理后,服務器性能壓力會減輕,數據加載時間會得到很好控制,更為關鍵的是,一旦消費者尋找到自己心儀的商品圖片后,便不再需要未加載出的圖片。

第二,阻止低價值請求行為的發生。所謂“低價值請求”,即指無意義的、需求度低的請求。以商品搜索為例,假如某種商品信息數量為100,需要20張頁面分別展示,在沒有分頁功能支持下,一次請求發生后,系統便需要把全部100條信息加載出來,但它們未必都是“必須信息”,可能消費者最需要的信息處于前10條信息之中,在這種情況下,后面90條信息都可被視為低價值信息,而這90條信息的加載行為,自然就被認為是無意義的。分頁功能實現后,消費者只需要瀏覽前10條信息即可,后面的加載行為將不會發生。

1.1.3 商品詳情頁

商品詳情頁是展示商品詳細信息的頁面,基于結構需求和商品內容組成,按照一定的邏輯關聯性進行嵌套組裝。消費者可以根據實際需求點擊相應的按鈕查詢商品信息,包括商品參數、購買記錄與評價、促銷活動等。

1.2 頁面交互流程

大型電商平臺的基本交互流程:第一,輸入需要查詢的商品名稱或信息關鍵詞后,點擊搜索框下方的“搜索”按鈕,系統會根據請求跳轉至相應頁面。第二,點擊翻頁操作,頁面跳轉后會展示出新的商品信息。第三,點擊目標商品,進入商品詳情頁。

1.3 商品內容加載方式

1.3.1 靜態加載

靜態加載是相對于動態加載的一種信息加載方式。服務器接收到信息請求后,按照內容需求,將相應的數據信息發送至請求端,數據內容展示給消費者之前,需要經過瀏覽器渲染。靜態加載方式下的信息加載,主要針對變化頻率較低的商品信息,包括商品介紹、售后服務等[2]。

1.3.2 動態加載

在商品信息加載方式上,靜態加載與動態加載間的關系,有點類似于計算機網絡中的靜態IP地址和動態IP地址間的關系。“靜”和“動”最明顯的區別在于后者變化頻率更高,具有更好的安全性。但從這個角度講,當某電商不希望自己的重要商品信息或關鍵性數據輕易被別人所知時,便會采用動態加載方式將信息數據呈現出來。動態加載的內容一般都是變化頻率較高,實時交互性強,以及比較重要的數據。

1.4 商品重復加載

正常情況下,電商平臺在展示商品信息和促銷活動時,會按照一定的規則或順序進行排列,如按照價格高低進行排列,按照交易量大小進行排列,等等。用戶根據按鈕內容提示操作,便可獲得相應信息結果。但隨著交易量不斷上升,商品款式的增加,商品價格的變化,以及受市場行情等因素影響,排列結果會不斷發生變化,且存在一定重疊性。因此,重復加載問題便不可避免地發生。例如,用戶在當前的商品檢索結果頁面中瀏覽商品時,位于頁面底端的幾個排序結果靠后的商品,在下一個檢索結果頁中有可能會出現在頁面頂端的排序結果靠前的位置,從而造成重復加載。

2 常見的大數據信息采集技術

電商平臺中的產品信息量是非常龐大的,因此對其商品信息進行采集,也屬于大數據信息采集,以下是常見的大數據信息采集技術及其優劣勢分析[3]。

2.1 軟件接口方式

通過各軟件廠商開放數據接口,實現不同軟件數據的互聯互通,是當前階段最為常見的一種數據對接方式。相比其他方式,軟件接口方式具有以下優勢。

第一,在該方式下,數據傳遞可靠性會更高,應用性更強,發展空間更廣,數據重復現象出現概率較低。第二,最大限度地滿足實時數據應用需求。但它也存在一些缺陷:①接口開發成本過高,需要大量資金支持。②接口開發所涉及的工作內容較多且工作量大,一般需要多個軟件廠商同時支持。③可擴展性非常有限,若要增加新任務模塊,必須改動原有數據接口編碼,費時費力。

2.2 軟件機器人采集

軟件機器人是現階段比較前沿的軟件數據對接技術,既能實現客戶端軟件數據的采集,也能實現對網站中的軟件數據展開采集。常見的如博為小幫軟件機器人,產品設計原則為“所見即所得”,即不需要軟件廠商配合的情況下,采集軟件界面上的數據,輸出的結果是結構化的數據庫或者Excel表。

如果只需要界面上的業務數據,或者遇到軟件廠商不配合/倒閉、數據庫分析困難的情況下,利用軟件機器人采集數據更可取,尤其是詳情頁數據的采集功能比較有特色,其技術特點如下:無須原軟件廠商配合;兼容性強,可采集匯聚Windows平臺各種軟件系統數據;輸出結構化數據;即配即用,實施周期短、簡單高效;配置簡單,不用編程,每個人都可以親自制作一個軟件機器人;價格相對人工采集和信息接口方式降低不少。但是,軟件數據的實時性存在一定的限制。

2.3 網絡爬蟲

網絡爬蟲是模擬客戶端發生網絡請求,接收請求響應,按照一定的規則,自動地抓取萬維網信息的程序或者腳本。現階段宣傳較廣的有Python等[4],但是使用爬蟲采集數據時存在輸出數據多為非結構化數據;只能采集網站數據,容易受網站反爬機制影響;使用人群狹窄等缺點。想要使用網絡爬蟲技術進行數據采集,需要有專業的編程知識才能玩轉。

2.4 開放數據庫方式

開放數據庫是采集融合數據最直接的一種方式。與其他信息數據采集一樣,它也有自己的優點和不足。

開放數據庫方式的優點:能夠實現對目標數據的直接獲取,即便在信息承載量龐大的數據庫中,也可以很容易查詢到所需要數據,且準確性很高。

開放數據庫方式的不足:基于任何目的和目標的數據獲取行為,都必須有協調各廠商數據庫作為支持,也就是說,若其中某一家或某幾家廠商出于安全角度不同意數據庫協調,該方式便無法發揮作用。

3 商品信息采集技術的實現

本次實驗使用Python3.0作為編程語言,使用Splash模擬瀏覽器操作,并對商品頁面中的Java cript代碼進行預渲染,爬蟲部分使用了Scrapy爬蟲框架對數據進行抓取和解析,數據的持久化儲存選擇了MongDB[5]。

3.1 主要組件介紹

Splash的本質是一個輕量級Web2瀏覽器,作為一種Java cript渲染引擎,Splash的功能包括以下幾個方面:第一,相同時間段及同一時刻可處理兩個或兩個以上的Web頁面。第二,為用戶返回經過渲染的頁面。第三,以最合理的方式阻止圖片加載,充分提升頁面渲染速度。第四,在 pagecon text中自動執行已被定義的(用戶)Java cript腳本。

值得注意的是,Splash在返回document樹結構時是以HTML的形式來完成的,因此可以選擇自己所擅長的HTML解析器進行頁面解析。Splash在執行腳本任務時,若腳本內容是由用戶以自定義方式進行編寫的,那么它將具有相應的瀏覽器自動化功能,可被作為瀏覽器自動化工具進行使用。

作為一種已經非常成熟的爬蟲框架,Scrapy在Python支持下,能夠為使用者提供很多實用性功能,這會使數據爬取行為更加可靠、有效。selector是Scrapy自帶的選擇器,借助選擇器所提供的功能,用戶可以按照自己的想法對數據信息進行提取。比如,通過xpath表達式,在HTML/xml結構中提取出自己感興趣的數據信息,或者利用css選擇器提取自己需要的數據信息,并隨著數據提取行為和提取經驗,以及提取需求的不斷增加,對css選擇器功能做進一步擴展。

帶有交互式特征的shell控制臺,對于完成高質量爬蟲程序編寫有很大幫助,也支持對程序的調試。其可擴展性表現為支持用戶以自定義方式插入中間件,從而達到擴展框架的目的。

在數據庫方面,作為當下最流行的數據庫系統,MongoDB開源數據庫系統應用基礎是C++和分布式文件存儲,支持Python、Java、PHP等多個主流編程語言;在采集、處理、存儲、傳遞大數據方面,它具有明顯優勢,核心特征表現為支持高并發,靈活程度高,可靠性強。

3.2 技術實現

實驗環境搭建需要從以下幾個方面出發:第一,安裝Docker。Splash需要在Docker環境下運行,Docker環境創建完成后,需要配置國內鏡像源,以解決從DockerHub中拉取Splash鏡像慢和拉取失敗的問題。第二,安裝Scrapy-Splash,提升配置內容使用價值。第三,安裝爬蟲框架。一般采用pip install scrapy方式進行安裝,但經常會遇到超時被拋出問題,導致無法成功下載。對此,選擇國內鏡像進行下載會提高成功概率。

Scrapy框架結構,以及其內部組件間數據處理方式與具體流向,官方文檔已給出詳細說明,礙于篇幅有限,這里不做介紹。下面將主要介紹如何在組件工具支持下快速實現多平臺數據信息采集。

商品數據采集方式有兩種,一是通過Splash對頁面中的內容進行動態渲染(模擬瀏覽器操作的本質也是動態執行自定義js腳本),例如商品檢索頁面、商品詳情頁面。采集時,需要將默認的Scrapy Request對象,經過Scrapy-Splash轉換為Splash可以接受的Splash Request對象,再由Splash訪問對應的頁面,返回經過渲染后的內容。二是不經過Splash預渲染,直接對目標數據信息進行訪問,并獲取所需要信息。例如,在展示商品圖片和相關內容的評價信息時,Splash返回商品詳情頁后,可根據實際需求,以解析的方式獲取圖片地址。

4 總結

本文對大規模電商的商品信息與大規模電商平臺的特征做出了闡釋,并就常見的信息采集技術進行分析,最后就面向大規模電商平臺的商品信息采集技術進行概述。結果表明,商品信息采集技術能有效采集不同平臺的商品數據,具有一定的應用價值和推廣性。

猜你喜歡
頁面數據庫信息
大狗熊在睡覺
刷新生活的頁面
保健醫苑(2022年1期)2022-08-30 08:39:14
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
同一Word文檔 縱橫頁面并存
淺析ASP.NET頁面導航技術
主站蜘蛛池模板: 精品偷拍一区二区| 免费在线观看av| 亚洲日本精品一区二区| 国产精品视频a| 欧美天天干| 亚洲永久视频| 狠狠色狠狠色综合久久第一次| 欧美不卡视频一区发布| 一级成人a做片免费| 成人福利在线免费观看| 亚洲资源站av无码网址| 99re热精品视频中文字幕不卡| 国产一区在线观看无码| 在线欧美一区| 中文字幕天无码久久精品视频免费| 欧美色视频网站| 在线亚洲精品福利网址导航| 国产XXXX做受性欧美88| 伊人色综合久久天天| 国产欧美日韩综合一区在线播放| 久久美女精品| 99re免费视频| 污网站免费在线观看| 青青青国产免费线在| 国产中文在线亚洲精品官网| 国产一级特黄aa级特黄裸毛片| 国产精品专区第1页| 国产精品人成在线播放| 亚洲成人一区二区三区| 亚洲狠狠婷婷综合久久久久| 69av在线| 91最新精品视频发布页| 久久无码av三级| 91破解版在线亚洲| 国产无码精品在线播放| 午夜福利视频一区| 国产主播喷水| a级毛片一区二区免费视频| 亚洲区一区| 日韩欧美91| 九色综合视频网| 亚洲资源站av无码网址| 日韩不卡高清视频| 亚洲中文字幕在线一区播放| 美女一区二区在线观看| 国产国拍精品视频免费看 | 欧美第二区| 国产欧美另类| 久久99国产精品成人欧美| 激情爆乳一区二区| 伊人色综合久久天天| 色男人的天堂久久综合| 国产欧美视频在线观看| 日韩无码视频播放| 亚洲综合色区在线播放2019| 九色视频最新网址| 色老头综合网| 国产激情第一页| 欧美综合区自拍亚洲综合绿色| 91免费观看视频| 午夜日b视频| 国产精品视频公开费视频| 国产爽歪歪免费视频在线观看| 国产精品美乳| 91亚洲国产视频| 伊人久热这里只有精品视频99| 手机在线免费不卡一区二| 国产福利在线免费观看| 91丝袜乱伦| 亚洲IV视频免费在线光看| 5388国产亚洲欧美在线观看| 亚洲国内精品自在自线官| 亚洲成年人网| 国产一区二区三区在线观看免费| 国产精品蜜臀| 久久久久亚洲AV成人网站软件| 国产精品林美惠子在线播放| 91久草视频| 亚洲综合极品香蕉久久网| 一级一级一片免费| 国产精品视频导航| 亚洲三级a|