999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進(jìn)SVM算法的聚焦爬蟲設(shè)計(jì)與實(shí)現(xiàn)?

2019-10-08 07:12:12喬平安田晶晶
關(guān)鍵詞:特征提取分類特征

喬平安 田晶晶 任 靜

(西安郵電大學(xué) 西安 710061)

1 引言

作為Internet搜索引擎的核心部分,網(wǎng)絡(luò)爬蟲[1]是如今研究重點(diǎn)之一[2],它面向整個互聯(lián)網(wǎng)并從大量的網(wǎng)頁中爬取資源,是搜索引擎的數(shù)據(jù)來源。隨著互聯(lián)網(wǎng)信息量的驟增,傳統(tǒng)的搜索引擎已無法滿足不同環(huán)境、不同背景下用戶對主題或領(lǐng)域相關(guān)信息的查詢需求,并存在網(wǎng)頁采集周期長、信息更新不及時以及查準(zhǔn)率不高等諸多問題。

針對這種情況,主題搜索引擎以更專注于某一主題、速度更快、信息更新及時等諸多優(yōu)點(diǎn)成為研究的熱門技術(shù)。本文針對網(wǎng)頁特征提取算法,將UM值計(jì)算方法與SVM分類算法中權(quán)重的計(jì)算方法結(jié)合,設(shè)計(jì)實(shí)現(xiàn)了一種基于改進(jìn)SVM算法的聚焦爬蟲,提高了聚焦爬蟲算法的性能,在保證不降低分類準(zhǔn)確性的情況下減少訓(xùn)練時間,提高分類的效率。

2 相關(guān)工作

聚焦網(wǎng)絡(luò)爬蟲是為了爬取與某主題相關(guān)的信息而產(chǎn)生的網(wǎng)頁信息爬取工具。因此,聚焦網(wǎng)絡(luò)爬蟲的首要問題是使用何種方法去判斷主題與所要爬取的網(wǎng)頁信息內(nèi)容是否相關(guān),以及依據(jù)主題相關(guān)度對統(tǒng)一資源定位符(Uniform Resoure Locator,URL)進(jìn)行優(yōu)先級排序來提高爬取結(jié)果的精確度和搜索效率。而網(wǎng)頁文本特征的提取是確定網(wǎng)頁主題的關(guān)鍵之處,文本特征提取結(jié)果的好壞和特征的數(shù)量直接影響網(wǎng)頁爬取的效果和主題相關(guān)度的計(jì)算速率。目前常用的文本特征提取方法主要有以下兩種類型:1)依據(jù)詞頻信息提取文本特征或者把所有的詞都作為文本特征,但此方法忽略了語法結(jié)構(gòu)的特點(diǎn)以及詞匯之間的關(guān)系,同時特征數(shù)量也會很多;2)利用串匹配算法選擇一些字符串作為文本特征,但該方法會提取到大量的“無價值”的字符串序列,從而使提取的文本特征不能代表網(wǎng)頁文本的特征,且文本特征數(shù)量較多。針對文本特征的提取問題國內(nèi)外學(xué)者針對該研究提出了不同的算法思路:Schleimer等提出的Winnowing算法,是把滑動窗口內(nèi)最小哈希值選取為指紋特征[3],該算法的問題是數(shù)字指紋密度較大[4];針對該問題,韋永壯等提出了CCDet算法,根據(jù)句號特征串匹配規(guī)則進(jìn)行文本特征提取,抽取句號前的若干詞語作為句號的特征,進(jìn)行相似度比較[5],但計(jì)算量很大;徐琴提出合并整體詞的概念,將具有整體性的詞語進(jìn)行合并將其作為文本特征,通過二次特征提取算法來減少數(shù)字指紋數(shù)量[6],但是該算法存在計(jì)算復(fù)雜度高的問題;Sidorov等提出了一種基于語法結(jié)構(gòu)的的n-grams特征提取算法,將語法信息引入特征提取過程中[7];Vani等提出利用文檔的概念在不同的結(jié)構(gòu)層次上對文檔和段落級別進(jìn)行檢測[8]。

本文針對特征提取存在的計(jì)算復(fù)雜度高、特征數(shù)量多的問題,提出結(jié)合SVM算法中詞權(quán)重的計(jì)算和UM計(jì)算的詞權(quán)重綜合作為特征詞的權(quán)重,提高特征提取的精確性和降低特征向量的維數(shù),從而提高爬取的效率、查全率和查準(zhǔn)率,且計(jì)算復(fù)雜度降低。

3 特征提取方法改進(jìn)

3.1 網(wǎng)頁特征提取

在利用SVM分類算法對網(wǎng)頁進(jìn)行分類前,需將網(wǎng)頁的每一個文檔表示成為一個特征向量,以此表示網(wǎng)頁的信息,而特征詞是特征向量的一個分量。SVM算法中采用向量空間模型(VSM)表示網(wǎng)頁文本特征。

VSM[9~10]將文檔的內(nèi)容用多維特征向量表示出來,將文檔 d 用特征向量{<w1,t1>…<w6,t6>…<wi,ti>}進(jìn)行表示,其中 wi為文檔中的詞組,ti為該詞組在文檔中所占的權(quán)重,詞組的權(quán)重用TF-IDF(term-frequency-inverse document frequency)算法獲得。

詞頻TF(d,t)可通過式(1)計(jì)算:

其中n(d,t)是詞 t在文檔d中出現(xiàn)的次數(shù),分母是文檔中詞t的總量。詞t的逆文檔頻率IDF(t)可用式(2)得到:

其中D為所爬取的文檔總數(shù),Dt是含詞t的文檔數(shù)量。詞t在文檔中的權(quán)重TF-IDF可以通過式(3)得到:

通過VSM可以將文檔表示成較為標(biāo)準(zhǔn)的特征向量,即每個特征向量都是一個n維的空間向量,便于對文檔進(jìn)行分析處理。但利用TF-IDF算法得到的有些特征對文本分類作用不大,并使向量空間的維數(shù)增大,甚至?xí)档蚐VM分類的準(zhǔn)確性。

3.2 聚焦爬蟲特征提取優(yōu)化

3.2.1 特征詞權(quán)重優(yōu)化

通常在對文本進(jìn)行分類時,需要利用文本的特征詞來進(jìn)行預(yù)測,而特征詞則由最確信的詞確定。針對以往常用特征提取方法中這樣類似的問題,本文把UM值的特征提取方法[11]運(yùn)用到聚焦爬蟲算法中。通常,UM描述的是一個特征項(xiàng)屬于一個類的概率,用式(4)、式(5)計(jì)算特征項(xiàng)的概率值。當(dāng)UM的值越近似1時,這個特征項(xiàng)屬于這個類別的概率就越大,相反,當(dāng)UM的值越近似0時,這個特征項(xiàng)屬于這個類別的概率就越小。

tf(t,c)是特征項(xiàng)t在c類中出現(xiàn)的頻率,tf(t)是特征項(xiàng)t在整個類集合中出現(xiàn)的概率。閾值th的范圍在[0,1),若特征項(xiàng)的UM<th,則被丟棄;若特征項(xiàng)的UM≥th,則保存。因?yàn)樵赟VM算法中每個特征項(xiàng)都有一個權(quán)重,所以同時也將UM值作為這個特征項(xiàng)的權(quán)重。因此,若特征項(xiàng)的UM值高,則它的權(quán)重就大。以此剔除特征詞在文檔中的權(quán)重TF-IDF值比UM值小的權(quán)重值,從而減少向量空間的維數(shù)和降低算法的復(fù)雜度提高分類的準(zhǔn)確率。

3.2.2 閾值設(shè)定的方法

目前針對高頻詞閾值的設(shè)定方法主要是頻次選取法、前N位選取法、中心度選取法、高低頻詞界定公式選取法和普賴斯公式選取法。文獻(xiàn)[11]對五種方法進(jìn)行了對比介紹,結(jié)合本文權(quán)重優(yōu)化計(jì)算方法,本文的閾值的設(shè)定選擇普賴斯公式選取法進(jìn)行計(jì)算。

普賴斯公式最早是用于確定高頻被引用的文獻(xiàn),從而確定某研究領(lǐng)域內(nèi)的核心作者。因普賴斯公式相較于用高低頻詞界定公式更簡單,比自定義選取法更科學(xué),逐漸被學(xué)者們接受并應(yīng)用于不同領(lǐng)域的研究中。其高頻詞閾值根據(jù)普賴斯公式確定,計(jì)算公式:,其中M為高頻詞閾值,Nmax表示區(qū)間學(xué)術(shù)論文被引頻次最高值[11]。普賴斯公式可以用于確定領(lǐng)域核心文獻(xiàn),因此也可利用此公式確定領(lǐng)域核心關(guān)鍵詞。將自變量Nmax表示為關(guān)鍵詞的頻次最高值即可,因此本文用普賴斯公式計(jì)算本文閾值th,其值設(shè)置為0.3。

4 聚焦爬蟲的實(shí)現(xiàn)

4.1 支持向量機(jī)分類

本文利用SVM算法進(jìn)行網(wǎng)頁分類[12~13],其流程如圖1所示。

圖1 Web文本分類流程

利用SVM分類算法進(jìn)行分類的具體執(zhí)行過程如下:

1)運(yùn)用VSM把網(wǎng)頁文本數(shù)據(jù)轉(zhuǎn)化為SVM分類算法可以處理的格式。

2)選擇合適核函數(shù)。通過多次試驗(yàn)眾多核函數(shù)(線性核函數(shù)、sigmoid核函數(shù)、高斯(RBF)核函數(shù)),實(shí)驗(yàn)結(jié)果表明,選擇RBF作為核函數(shù)所得結(jié)果最好。

3)計(jì)算最優(yōu)的參數(shù)。通過試驗(yàn)對比遺傳算法和粒子群優(yōu)化算法(PSO)對SVM參數(shù)的優(yōu)化,試驗(yàn)結(jié)果表明,采用PSO最優(yōu)化算法計(jì)算SVM分類器的最優(yōu)參數(shù)。

4)對文本樣本數(shù)據(jù)進(jìn)行訓(xùn)練并用測試集進(jìn)行分類預(yù)測時,利用3)所得到的最優(yōu)參數(shù)運(yùn)用到SVM算法分類器中來進(jìn)行實(shí)現(xiàn)。

對網(wǎng)頁進(jìn)行分類后,再進(jìn)行聚焦爬蟲可以提高爬取的效率,減少運(yùn)算量和時間。

4.2 主題相關(guān)度分析

為了爬取的網(wǎng)頁與主題有關(guān),需要對網(wǎng)頁進(jìn)行篩選。在聚焦爬蟲中若一個頁面的主題相關(guān)度很低,則表明某些關(guān)鍵詞只是偶爾出現(xiàn)在該網(wǎng)頁中,且指定主題和頁面的主題之間關(guān)系較小,處理其中的鏈接沒有意義。因此,將主題相關(guān)度值小于設(shè)定閾值的網(wǎng)頁舍棄,不需要處理該頁面中的鏈接。

目前相似度的計(jì)算方法主要有向量內(nèi)積、歐式距離、余弦距離等幾種。本文聚焦爬蟲的主題相關(guān)度[14]計(jì)算則采用余弦度量法,余弦距離越大表示文檔的相似度越高。該方法是統(tǒng)計(jì)網(wǎng)頁中關(guān)鍵詞出現(xiàn)的頻率,然后與初始的關(guān)鍵詞按式(6)求余弦值,即可得到該網(wǎng)頁的相關(guān)度。

對網(wǎng)頁進(jìn)行分析時,需要設(shè)定一個閾值r,若cos<α,β>≥r,則判定該頁面和主題是有關(guān)聯(lián)的。根據(jù)經(jīng)驗(yàn)和實(shí)際要求確定r(取值范圍是[0,1))的取值,如果r值設(shè)置的小則獲得較多的頁面,若r值設(shè)置的大則獲得較少的頁面。在本文的程序中,將閾值r設(shè)置為0.95。其中閾值r以相似與不相似文本的界限值來設(shè)置的,對于三組文本,相似度分別是0.85、0.74與0.95,數(shù)值上雖都接近1,但第一組是不相似的文本,第二組是相似度較高的文本,第三組是最相似的文本。而對于不相似的兩組文本,相似度都集中0.85附近,因此以0.95作為閾值則可區(qū)分相似度高和不相似文本。

4.3 網(wǎng)頁排序

網(wǎng)頁排序[15]主要依據(jù)主題相關(guān)度值使網(wǎng)頁主題相關(guān)度高的網(wǎng)頁排在前面,以便用戶更加快速地訪問到所需要的信息。本文采用余弦距離除以該網(wǎng)頁包含的鏈接個數(shù),獲得了更加精確的優(yōu)先級順序。

分析鏈接排序采用PageRank算法[16~18]排序,其排序結(jié)果相對更好。算法中網(wǎng)頁的重要程度值可以表示為:P=w1·cos<α,β>+w2·R(u),其中cos<α,β>是通過上述的主題相關(guān)度分析計(jì)算出的主題相關(guān)度值,用于頁面排序的網(wǎng)頁P(yáng)ageRank值,其中d為界于(0,1)區(qū)間的阻尼系數(shù),取值為0.85;w1為主題相關(guān)度的權(quán)重,w2為R(u)的權(quán)重,根據(jù)實(shí)驗(yàn)需求來設(shè)置二者的取值,但必須保證w1+w2=1,通過試驗(yàn)本算法設(shè)定w1取0.6,w2取0.4;u是一個網(wǎng)頁,F(xiàn)(u)是u指向的網(wǎng)頁集合,B(u)是指向u的網(wǎng)頁集合,N(u)是u指向外的鏈接數(shù)。利用網(wǎng)頁的重要程度值P對網(wǎng)頁進(jìn)行排序,得到網(wǎng)頁的優(yōu)先級序列。

4.4 評價指標(biāo)

通常每個類的評價指標(biāo)[15,19]是以查準(zhǔn)率(Precision)和查全率(Recall)作為標(biāo)準(zhǔn),而對于不同的分類器的性能進(jìn)行評估時選用F1值(綜合考慮準(zhǔn)確率和查全率,得到的新評估指標(biāo)F1測試值,也稱為綜合分類率)作為標(biāo)準(zhǔn)測度。計(jì)算公式如式(7)所示:式(7)中 Pi為類i的查準(zhǔn)率,Ri為i的查全率,Ai為正確分到i類的測試文檔數(shù),Bi為錯誤分到i類的測試文檔數(shù),Ci為屬于但未被分到i類的測試文檔數(shù)。

4.5 聚焦爬蟲實(shí)現(xiàn)

本文實(shí)驗(yàn)采用Java程序語言實(shí)現(xiàn)聚焦爬蟲,在Eclipse開發(fā)環(huán)境下運(yùn)行,具有良好的擴(kuò)展性和可移植性。程序流程如圖2所示。

圖2 程序運(yùn)行流程

Step 1:對種子和關(guān)鍵詞進(jìn)行初始化;

Step 2:從初始種子開始爬取網(wǎng)頁得到其全部鏈接,并將爬取的鏈接添加到待抓取隊(duì)列之中;

Step 3:對所爬取的網(wǎng)頁利用SVM方法進(jìn)行分類;

Step 4:從優(yōu)先隊(duì)列中獲得鏈接,抓取網(wǎng)頁;

Step 5:判斷網(wǎng)頁的相關(guān)度以決定是否舍棄該網(wǎng)頁:利用VSM和余弦距離計(jì)算主題相關(guān)度,如果網(wǎng)頁相關(guān)度大于閾值,則再將其添加到優(yōu)先隊(duì)列中等待爬取,否則舍棄;將有用鏈接放入等待抓取的URL隊(duì)列;

Step 6:以最佳的搜索策略(OPS)[20~21]從隊(duì)列中選取接下來要抓取的網(wǎng)頁URL,并循環(huán)此過程,一直到滿足爬取結(jié)束的某一要求時終止此次爬??;

Step 7:將所有被爬蟲抓取的網(wǎng)頁保存起來,對其進(jìn)行一定的分析、過濾,并建立索引,方便以后用戶的查閱和檢索。就聚焦爬蟲而言,這一過程所得到的分析結(jié)果可對以后的抓取過程給出反饋和指導(dǎo)。

5 實(shí)驗(yàn)結(jié)果及分析

本文主要是對傳統(tǒng)的聚焦爬蟲算法和基于改進(jìn)的SVM算法的聚焦爬蟲算法進(jìn)行實(shí)驗(yàn)對比驗(yàn)證。本文算法分詞工具采用ICTCLAS版本,選擇云計(jì)算為主題,種子鏈接選取URL=http://cloud.csdn.net/進(jìn)行爬取,利用SVM算法進(jìn)行分類并存儲。然后在各個分類塊中進(jìn)行聚焦爬蟲,獲取與主題相關(guān)的網(wǎng)頁并計(jì)算F1值和主題相關(guān)度。

實(shí)驗(yàn)一:兩種算法在爬取速度方面的對比。對傳統(tǒng)的聚焦爬蟲算法、基于改進(jìn)SVM的聚焦爬蟲算法與基于自適應(yīng)遺傳算法(AGA)的聚焦爬蟲和基于遺傳算法(GA)的聚焦爬蟲進(jìn)行爬取速率的對比。獲取達(dá)到表1要求的網(wǎng)頁,爬蟲訪問所需時間與網(wǎng)頁數(shù)量變化的關(guān)系,如圖3所示。

表1 算法與主相關(guān)度的對比

圖3 算法訪問時間與網(wǎng)頁數(shù)量的變化

從圖3中可以看出,在爬取網(wǎng)頁的開始階段,優(yōu)化后的聚焦爬蟲算法在爬取達(dá)到表1要求的相關(guān)網(wǎng)頁時的速度不及傳統(tǒng)的聚焦爬蟲算法、AGA和GA,但隨著算法的推進(jìn),優(yōu)化后的聚焦爬蟲算法抓取到的相關(guān)網(wǎng)頁速度明顯略高于傳統(tǒng)的聚焦爬蟲算法、AGA和GA。說明優(yōu)化后的聚焦爬蟲算法通過對特征詞權(quán)重的調(diào)整和對網(wǎng)頁進(jìn)行分類調(diào)整后,在聚集爬蟲爬取網(wǎng)頁的過程中具有更大的覆蓋率,能夠抓取到更多的相關(guān)網(wǎng)頁,速率較高。

實(shí)驗(yàn)二:兩種算法在爬蟲查全率和查準(zhǔn)率(即F1值)方面的對比。在實(shí)驗(yàn)中增加可供測試的網(wǎng)頁文檔的數(shù)量。隨著文檔數(shù)量的增加,驗(yàn)證傳統(tǒng)的聚焦爬蟲算法、基于改進(jìn)SVM算法的聚焦爬蟲和基于AGA的聚焦爬蟲的F1值隨著網(wǎng)頁數(shù)量的增多的變化關(guān)系,以及與廣度優(yōu)先搜索策略(BFS)進(jìn)行比較,實(shí)驗(yàn)結(jié)果如圖4所示。

圖4 F1與網(wǎng)頁數(shù)量的關(guān)系對比

從圖4可明顯看出,爬取到的網(wǎng)頁在查全率和查準(zhǔn)率(即F1)方面,對爬取到的網(wǎng)頁利用優(yōu)化后的特征提取方法和用分類器分類后,優(yōu)化后的聚焦爬蟲算法隨著更深入的爬取F1明顯比AGA提高的快和高;采用BFS抓取到的網(wǎng)頁F1隨著爬取的深入開始降低,AGA在持續(xù)一段時間后開始降低,而優(yōu)化后的聚焦爬蟲算法整體有較小的波動后區(qū)域穩(wěn)定,說明優(yōu)化后的聚焦爬蟲算法能夠爬取到更多的主題相關(guān)度高的網(wǎng)頁,且隨著網(wǎng)頁數(shù)量的增多效果反而更好更穩(wěn)定。

6 結(jié)語

通過研究,本論文實(shí)現(xiàn)了一個基于改進(jìn)的SVM算法的聚焦網(wǎng)絡(luò)爬蟲,其中UM值的計(jì)算是通過詞頻進(jìn)行特征詞權(quán)重計(jì)算,之后用其對SVM算法中計(jì)算權(quán)值組成的n×n特征向量進(jìn)行降維處理,剔除了“無意義”的特征詞,從而降低主題詞與網(wǎng)頁特征向量匹配的計(jì)算復(fù)雜度。同時,利用主題相關(guān)度對URL進(jìn)行排序,提高訪問的速率。通過實(shí)驗(yàn)證明,算法提高了爬取與主題相關(guān)的URL時間、主題相關(guān)度以及查全率和查準(zhǔn)率。提出的此算法在爬取網(wǎng)頁URL時可進(jìn)行控制,隨時暫停爬取并訪問爬取的網(wǎng)頁,以驗(yàn)證是否為所需的網(wǎng)頁;還可自行設(shè)置爬取的網(wǎng)頁數(shù)量。在網(wǎng)絡(luò)環(huán)境良好的情況下爬取網(wǎng)頁的質(zhì)量和效率都取得了不錯的效果。

猜你喜歡
特征提取分類特征
分類算一算
如何表達(dá)“特征”
基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于MED和循環(huán)域解調(diào)的多故障特征提取
主站蜘蛛池模板: 亚洲AV无码久久精品色欲 | 9丨情侣偷在线精品国产| 国产亚洲欧美在线专区| 57pao国产成视频免费播放| 国产成人一区二区| www.av男人.com| 久久亚洲国产视频| 久久国产高潮流白浆免费观看| 亚洲欧洲日韩综合色天使| 十八禁美女裸体网站| AV色爱天堂网| 亚洲日韩国产精品无码专区| 国产午夜不卡| 国产欧美精品专区一区二区| 亚洲午夜综合网| 欧美日韩北条麻妃一区二区| 亚洲国产精品久久久久秋霞影院| 国产亚洲精| 婷婷色狠狠干| 一级一级一片免费| 97色婷婷成人综合在线观看| 丰满人妻久久中文字幕| 亚洲福利一区二区三区| 亚洲色图另类| 青青国产在线| 成人在线亚洲| 无码综合天天久久综合网| 天堂av高清一区二区三区| 久久青草视频| 伊人久久精品无码麻豆精品| 欧美亚洲国产精品第一页| 四虎在线高清无码| 国产呦精品一区二区三区下载| 久久特级毛片| 国产拍在线| 欲色天天综合网| 99久久国产自偷自偷免费一区| 国产自在线拍| 国产视频一二三区| 亚洲中文字幕97久久精品少妇| 欧美日韩国产精品综合| 中文字幕乱妇无码AV在线| 亚洲第一视频网| 美女内射视频WWW网站午夜| 亚洲国产成人久久精品软件| 国产精品美女自慰喷水| 老司机aⅴ在线精品导航| 黄色网址免费在线| 大香网伊人久久综合网2020| 日日噜噜夜夜狠狠视频| 99久久99这里只有免费的精品| 黄色福利在线| аⅴ资源中文在线天堂| 国产91成人| 国产国拍精品视频免费看| 久久久久夜色精品波多野结衣| 91美女视频在线| 日韩a在线观看免费观看| 无码久看视频| 国产aaaaa一级毛片| 亚洲国产精品久久久久秋霞影院 | 亚洲综合极品香蕉久久网| 精品人妻AV区| 全免费a级毛片免费看不卡| 67194亚洲无码| 99在线观看精品视频| 国产欧美性爱网| 国产毛片基地| 亚洲天堂.com| 国产福利一区在线| 91偷拍一区| 在线欧美国产| 亚洲综合欧美在线一区在线播放| 亚洲h视频在线| 黄色三级网站免费| 热久久这里是精品6免费观看| 91综合色区亚洲熟妇p| 亚洲精品动漫| 欧美黑人欧美精品刺激| 国产精品夜夜嗨视频免费视频| 亚洲日本中文字幕天堂网| 国产一级在线播放|