999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種針對(duì)天貓購物平臺(tái)的網(wǎng)頁URL去重策略研究

2018-06-22 08:21:46舒遠(yuǎn)仲

◆舒遠(yuǎn)仲 梁 濤 王 娟

一種針對(duì)天貓購物平臺(tái)的網(wǎng)頁URL去重策略研究

◆舒遠(yuǎn)仲 梁 濤 王 娟

(南昌航空大學(xué)信息工程學(xué)院 江西 330063)

本文在分析了Bloom Filter缺點(diǎn)的基礎(chǔ)上,結(jié)合天貓購物平臺(tái)網(wǎng)頁URL的特征,對(duì)網(wǎng)頁URL去重策略進(jìn)行了改進(jìn),以此來提高網(wǎng)頁URL去重效果及減小Bloom Filter誤判率。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的去重策略在針對(duì)天貓購物平臺(tái)網(wǎng)頁URL去重時(shí),準(zhǔn)確度上要優(yōu)于傳統(tǒng)的Bloom Filter。

布隆過濾器;網(wǎng)頁URL去重;哈希處理;誤判率;天貓

0 引言

隨著互聯(lián)網(wǎng)的快速發(fā)展以及網(wǎng)絡(luò)購物平臺(tái)的興起,越來越多的人加入到“網(wǎng)購大軍”中。以2016年“雙十一”為例,據(jù)第三方數(shù)據(jù)公司星圖數(shù)據(jù)11月12日發(fā)布的《星圖數(shù)據(jù)1112:雙十一網(wǎng)購大數(shù)據(jù)分析報(bào)告》[1]顯示,2016年雙十一全網(wǎng)總銷售額為1770.4億元,其中化妝品類銷售總額為212.4億元,占全網(wǎng)銷售總額的12.0%。由此也帶來了一些的問題:部分商家銷售假冒偽劣產(chǎn)品,使得消費(fèi)者權(quán)益受到侵害。因此,相關(guān)部門需要采取相應(yīng)措施對(duì)網(wǎng)售商品進(jìn)行監(jiān)督管理。

網(wǎng)購平臺(tái)的商品具有海量 、增長迅速、更新頻繁的特點(diǎn),在給消費(fèi)者提供更多選擇的同時(shí),也給監(jiān)管部門帶來了巨大的挑戰(zhàn)。監(jiān)管部門需要獲取網(wǎng)售商品的信息,用于與基礎(chǔ)庫上的信息進(jìn)行比對(duì),從而達(dá)到監(jiān)管的目的。為了獲取商品信息,需要使用網(wǎng)絡(luò)爬蟲自動(dòng)抓取網(wǎng)頁并提取網(wǎng)頁內(nèi)容。通常在給定的一個(gè)或多個(gè)統(tǒng)一資源定位符URL(Uniform ResourceLocator)種子集情況下,從種子網(wǎng)頁開始采集,在抓取網(wǎng)頁的過程中,不斷將新的URL放進(jìn)待爬行的URL隊(duì)列中,直到滿足一定條件(如待爬行隊(duì)列為空、達(dá)到指定爬行數(shù)量)停止爬行[2]。如何選擇符合主題的URL,如何過濾已抓取過的信息對(duì)系統(tǒng)來說至關(guān)重要。

本文提出了針對(duì)上述問題的解決方案。以天貓網(wǎng)購平臺(tái)為例,針對(duì)其網(wǎng)頁URL的特點(diǎn),通過對(duì)URL去重方式的改進(jìn),使得網(wǎng)絡(luò)爬蟲能夠更準(zhǔn)確、更快速地抓取所需要的網(wǎng)頁。

1 天貓網(wǎng)購平臺(tái)網(wǎng)頁URL分析

天貓采用是動(dòng)態(tài)URL,即同一商品對(duì)應(yīng)的網(wǎng)頁可能存在多個(gè)URL。通過對(duì)這些URL的分析,找出它們之間的聯(lián)系,從而可以簡化URL去重。如表1,選取多個(gè)URL實(shí)例來分析其特點(diǎn)。

表1 天貓網(wǎng)購平臺(tái)網(wǎng)頁URL實(shí)例

從表1中可以得出,同一店鋪同一產(chǎn)品可能對(duì)應(yīng)多個(gè)URL;不同店鋪同一產(chǎn)品對(duì)應(yīng)URL不同;同一店鋪不同產(chǎn)品對(duì)應(yīng)的URL也不一樣。但對(duì)各個(gè)URL具體分析后,可以發(fā)現(xiàn):每個(gè)URL中都含有參數(shù)id,對(duì)于同一店鋪同一產(chǎn)品,盡管對(duì)應(yīng)多個(gè)URL,但參數(shù)id的值是一致的;不同店鋪同一產(chǎn)品URL中的參數(shù)id的值不一樣;同一店鋪不同產(chǎn)品URL中的參數(shù)id的值不一樣。

2 布隆過濾器

布隆過濾器(Bloom Filter)是1970年由布隆提出來的。它實(shí)際上是一個(gè)很長的二進(jìn)制向量和一系列隨機(jī)映射函數(shù)。布隆過濾器可以用于判斷一個(gè)元素是否存在于一個(gè)集合中。它的優(yōu)點(diǎn)是空間效率和查詢時(shí)間都遠(yuǎn)遠(yuǎn)超過一般的算法,缺點(diǎn)是有一定的誤識(shí)別率和刪除困難。布隆過濾器是一種空間利用率高的算法,特別適合于海量數(shù)據(jù)集的表示和查找,盡管存在一定的誤判率,但在海量信息搜集的系統(tǒng)中,不失為一種可行的解決方案[3-5]。

2.1布隆過濾器原理及判斷方法

如圖1所示,布隆過濾器原理如下:

圖1 布隆過濾器(Bloom Filter)原理

(1) 設(shè)數(shù)據(jù)集合S={S1,S2,S3,……,Sn},含有n個(gè)元素,為待操作的集合;

(2) Bloom Filter用一個(gè)長度為m的位向量V來表示集合中元素,位向量初始化全為0;

(3) 選取k個(gè)相互獨(dú)立的哈希函數(shù)h1,h2,h3,……,hk;

(4) 用Bloom Filter表示集合S的所有元素。首先,對(duì)集合里的元素Si通過k個(gè)哈希函數(shù)產(chǎn)生k個(gè)哈希值h’1,h’2,h’3,……,h’k,將位向量V的h’1,h’2,h’3,……,h’k位上的值置為1。由于通過個(gè)哈希函數(shù)將位向量V相應(yīng)位置為1,多個(gè)集合元素進(jìn)行增加操作時(shí),可能會(huì)出現(xiàn)向量相應(yīng)位置已經(jīng)為1,此時(shí)不對(duì)相應(yīng)位的值進(jìn)行操作。

在判斷一個(gè)元素X是否屬于該集合時(shí),我們只需要對(duì)X使用相同的k個(gè)哈希函數(shù)得到k個(gè)哈希值,如果位向量V上對(duì)應(yīng)位置上的k個(gè)值全為1,那么我們就認(rèn)為該元素存在于該集合中;反之,我們就認(rèn)為該元素不存在于該集合。如圖2所示,元素X1是該集合的元素,X2不是該集合的元素。

圖2 判斷元素是否屬于該集合

顯然,這個(gè)判斷并不能保證結(jié)果100%的正確。當(dāng)我們判斷一個(gè)元素元素不屬于該集合時(shí),這個(gè)判斷是100%正確的,但當(dāng)我們判斷一個(gè)元素屬于該集合時(shí),這個(gè)判斷可能是個(gè)誤判[6-8]。

2.2布隆過濾器的缺點(diǎn)及誤判率

雖然布隆算法的空間效率及查詢時(shí)間都遠(yuǎn)遠(yuǎn)超過其他算法,但是布隆過濾器還是存在缺點(diǎn)。

(1)Bloom Filter存在一定的誤判率。對(duì)于已經(jīng)映射在集合中的元素,通過集合查找運(yùn)算一定可以判定該元素在集合中,但對(duì)于尚未映射到集合中的元素,可能存在誤判,即不在集合中的元素誤判為在集合中。

假設(shè)集合S中含有n個(gè)元素,需要使用k個(gè)哈希函數(shù)進(jìn)行處理,Bloom Filter長度為m,則某一位被置為1的概率為1/m,為0的概率為(1-1/m)。所以在集合S中的元素全部用Bloom Filter表示后,某位仍為0的概率為:

則誤判的概率為

(2)Bloom Filter無法從Bloom Filter集合中刪除一個(gè)元素。因?yàn)橐粋€(gè)元素對(duì)應(yīng)的位可能與另一個(gè)元素對(duì)應(yīng)的位存在共同位。如圖3所示。

圖3 存在共同位的元素

元素X1、X2是同一集合的元素,當(dāng)刪除元素X1,即把元素X1對(duì)應(yīng)位置為0時(shí),X2對(duì)應(yīng)位則變?yōu)?11,此時(shí)元素X2被判斷為不在集合中。所以,一個(gè)簡單的改進(jìn)方法就是使用計(jì)數(shù)型布隆過濾器(Counter Bloom Filter),在Bloom Filter 進(jìn)行集合元素添加操作時(shí),對(duì)相應(yīng)的向量位進(jìn)行加1操作。如圖4所示。

圖4 Counter Bloom Filter

3 網(wǎng)頁URL去重

針對(duì)天貓網(wǎng)頁URL的特點(diǎn)及Bloom Filter存在誤判率的缺點(diǎn),本文提出一種基于Bloom Filter的改進(jìn)的URL去重的策略。如圖5所示。

(1)抓取一個(gè)URL,分析判斷URL中是否含有參數(shù)id。對(duì)于不存在參數(shù)id的URL直接舍棄;

(2)提取參數(shù)id并對(duì)其進(jìn)行多個(gè)哈希處理;

(3)判斷處理后的id是否存在于布隆過濾器中,如果不存在,則直接將此URL放入待抓取URL隊(duì)列中,并將處理后的id添加到布隆過濾中,同時(shí)將id存儲(chǔ)到id數(shù)組中;

(4)如果處理后的id存在于布隆過濾器中,為了避免布隆過濾器的誤判,則判斷id是否存在于id數(shù)組中,如果不存在,則將此URL放入待抓取URL隊(duì)列中,同時(shí)將id存儲(chǔ)到id數(shù)組中;如果存在,則說明此商品URL已存在于待抓取URL隊(duì)列中,則舍棄該URL;

(5)初始化的id數(shù)組為空,插入數(shù)據(jù)時(shí)應(yīng)有序插入。這樣,對(duì)于查找判斷一個(gè)id是否存在于該數(shù)組時(shí)可使用二分法進(jìn)行,從而可以節(jié)省查找時(shí)間。

圖5 改進(jìn)后的URL去重策略

4 實(shí)驗(yàn)分析

由于進(jìn)行的是仿真實(shí)驗(yàn),通過采集天貓網(wǎng)頁URL,將URL緩存于內(nèi)存空間,分別使用傳統(tǒng)Bloom Filter與改進(jìn)后的Bloom Filter對(duì)URL進(jìn)行去重,比較兩者對(duì)于比較時(shí)間、準(zhǔn)確度上的區(qū)別。結(jié)果如圖6、圖7所示。

圖6 傳統(tǒng)與改進(jìn)后Bloom Filter去重的時(shí)間對(duì)比

圖7 傳統(tǒng)與改進(jìn)后Bloom Filter去重的準(zhǔn)確度對(duì)比

通過實(shí)驗(yàn)結(jié)果可以看出,在準(zhǔn)確度上,改進(jìn)后的Bloom Filter要優(yōu)于傳統(tǒng)Bloom Filter,在時(shí)間上,略慢于傳統(tǒng)Bloom Filter。

5 結(jié)束語

本文研究了Bloom Filter的基本工作原理,并對(duì)其在網(wǎng)頁URL去重中的應(yīng)用進(jìn)行改進(jìn),結(jié)果表明改進(jìn)后的策略去重準(zhǔn)確率提高。同時(shí),改進(jìn)后的策略在去重速度上仍有改進(jìn)的空間。

[1]星圖數(shù)據(jù).星圖數(shù)據(jù)1112:雙十一網(wǎng)購大數(shù)據(jù)分析報(bào)告EB/OL].http//www.syntun.com.cn/xing-tu-shu-ju1112- shuang-shi-yi-wang-gou-da-shu-ju-fen-xi-bao-gao.html,2016.

[2]黃正德.主題爬蟲關(guān)鍵技術(shù)研究[D].黑龍江:哈爾濱工程大學(xué),2013.

[3]蘇國榮,楊岳湘,鄧勁生.一種去除重復(fù)URL的算法[J].廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2010.

[4]黃誠.一種高速URL過濾算法的研究與應(yīng)用[J].現(xiàn)代計(jì)算機(jī)(專業(yè)版),2016.

[5]劉佐達(dá),張久嶺,陳茂科,李星.一種面向BBS信息檢索的主題網(wǎng)絡(luò)爬蟲算法[J].鄭州大學(xué)學(xué)報(bào)(理學(xué)版),2010.

[6]張宗華,屈英,葉志佳等.基于多特征匹配和Bloom filter的重復(fù)數(shù)據(jù)刪除算法[J].深圳大學(xué)學(xué)報(bào)(理工版),2016.

[7]ZHANG Guo,ZHANG Jianhui,WANG Binqiang,ZHANG Zhen.On-line Popularity Monitoring Method Based on Bloom Filters and Hash tables for Differentiated Traffic[J].中國通信,2016.

[8]趙艷紅,李洪奇,朱麗萍等.基于Bloom Filter的去重方法研究[J].計(jì)算技術(shù)與自動(dòng)化,2016.

主站蜘蛛池模板: 不卡视频国产| 亚洲妓女综合网995久久| 亚洲精品成人7777在线观看| 欧美人与动牲交a欧美精品| 日韩精品免费在线视频| 人妻丰满熟妇αv无码| 中日韩欧亚无码视频| 青草免费在线观看| 国产黄色片在线看| 亚洲婷婷在线视频| 美女黄网十八禁免费看| 人人看人人鲁狠狠高清| 国产免费久久精品99re丫丫一| 日本少妇又色又爽又高潮| 国产香蕉国产精品偷在线观看| 欧美亚洲日韩中文| 日韩精品专区免费无码aⅴ| 亚洲成人一区在线| www.youjizz.com久久| 99伊人精品| 亚洲精品第五页| 亚洲系列中文字幕一区二区| 欧美中文字幕无线码视频| 日韩中文无码av超清| 国产91精品久久| 久久性妇女精品免费| 日本久久久久久免费网络| 91www在线观看| 91娇喘视频| 久久久波多野结衣av一区二区| 国产一区二区福利| 伊人久久影视| 啊嗯不日本网站| 熟女视频91| 国产人免费人成免费视频| a毛片免费观看| 国产SUV精品一区二区| 色哟哟色院91精品网站| 亚洲精品午夜无码电影网| 91偷拍一区| 精品国产网站| 亚洲成人网在线观看| 毛片手机在线看| 亚洲免费成人网| 国产在线精品人成导航| 沈阳少妇高潮在线| 毛片大全免费观看| 91成人在线观看视频| 四虎国产在线观看| 亚洲精品在线91| 亚洲国产精品成人久久综合影院| 亚洲精品日产AⅤ| 丁香婷婷久久| 亚洲高清国产拍精品26u| 亚洲成A人V欧美综合| 色综合中文| 青青操视频在线| Jizz国产色系免费| 国产高颜值露脸在线观看| 色成人综合| 天天综合色网| 国产又爽又黄无遮挡免费观看| 午夜福利网址| 久草热视频在线| 99视频在线精品免费观看6| 无遮挡国产高潮视频免费观看| 女人18毛片一级毛片在线 | 国产精品第| 精品国产福利在线| 51国产偷自视频区视频手机观看| 亚洲欧美日韩动漫| 欧美一区二区自偷自拍视频| 99久久国产精品无码| 国产在线专区| 亚洲天堂成人| 男人的天堂久久精品激情| 中文字幕调教一区二区视频| 久久特级毛片| 国产在线精品网址你懂的| 日韩东京热无码人妻| 一本二本三本不卡无码| 91免费在线看|