999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于爬蟲技術(shù)和語義分析的網(wǎng)絡(luò)輿情采集系統(tǒng)設(shè)計(jì)

2021-07-30 07:57:46趙瑞丹朱旭
電子設(shè)計(jì)工程 2021年14期
關(guān)鍵詞:語義分析信息

趙瑞丹,朱旭

(西安航空職業(yè)技術(shù)學(xué)院,陜西西安 710089)

如今,互聯(lián)網(wǎng)已成為人們生活中不可或缺的一部分,特別是對于年輕一代的高校學(xué)生,其為人際交往以及資源獲取提供了重要渠道。但由于網(wǎng)絡(luò)的開放性與包容性,使得其中積極和負(fù)面的輿論信息均能夠在互聯(lián)網(wǎng)中迅速傳播,容易在辨別能力差的青年學(xué)生中造成較大影響[1-3]。網(wǎng)絡(luò)輿情具有發(fā)酵時間短、傳播速度快、影響范圍大等特點(diǎn)[4]。輿情尤其是負(fù)面輿情發(fā)生后,通常由于學(xué)校管理部門未能及時發(fā)現(xiàn)與處理,造成輿情持續(xù)發(fā)酵和擴(kuò)散,引起廣大學(xué)生的質(zhì)疑及不滿,從而產(chǎn)生危機(jī)。為此,亟需建立一套能夠?qū)W(wǎng)絡(luò)輿情進(jìn)行實(shí)時監(jiān)控與采集分析的智能化系統(tǒng)。

針對上述提到的問題以及傳統(tǒng)輿情采集系統(tǒng)在采集效率與質(zhì)量上存在的不足,文中建立了基于爬蟲技術(shù)和語義分析的網(wǎng)絡(luò)輿情采集系統(tǒng)。該系統(tǒng)選用了效率更高的主題網(wǎng)絡(luò)爬蟲和更符合設(shè)計(jì)需求的廣度優(yōu)先搜索策略,同時通過引入語義分析技術(shù)更優(yōu)地保證采集到的輿情信息質(zhì)量。系統(tǒng)性能測試結(jié)果表明,該系統(tǒng)能夠較好地進(jìn)行互聯(lián)網(wǎng)中輿情信息的采集和數(shù)據(jù)存儲,為進(jìn)一步進(jìn)行輿情信息的分析處理提供了重要基礎(chǔ)。

1 網(wǎng)絡(luò)爬蟲技術(shù)

網(wǎng)絡(luò)爬蟲(Web crawler)是根據(jù)某種規(guī)則對互聯(lián)網(wǎng)上統(tǒng)一資源定位符(Uniform Resource Locator,URL)進(jìn)行抓取的程序或腳本[5]。作為有效獲取網(wǎng)頁信息的工具,網(wǎng)絡(luò)爬蟲能夠?yàn)榫W(wǎng)絡(luò)輿情采集系統(tǒng)的設(shè)計(jì)提供關(guān)鍵的基礎(chǔ)數(shù)據(jù)及數(shù)據(jù)處理操作平臺。

網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)方式的不同,通常可分為兩種[6]:傳統(tǒng)網(wǎng)絡(luò)爬蟲和主題網(wǎng)絡(luò)爬蟲。

1.1 傳統(tǒng)網(wǎng)絡(luò)爬蟲

該類爬蟲在進(jìn)行網(wǎng)頁抓取的過程中主要考慮廣泛的抓取范圍,而不考慮抓取結(jié)果與感興趣內(nèi)容的相似度[7]。傳統(tǒng)網(wǎng)絡(luò)爬蟲從給定的一個或多個種子URL開始獲取網(wǎng)頁,并從當(dāng)前處理的頁面中解析出新的URL 放入待抓取隊(duì)列中。具體的工作流程如圖1所示[8-10]。

圖1 傳統(tǒng)網(wǎng)絡(luò)爬蟲工作流程

首先,根據(jù)設(shè)計(jì)需求獲取特定網(wǎng)站的URL 作為最初的爬取目標(biāo)(種子URL);然后,將獲取到的種子URL 放入網(wǎng)絡(luò)爬蟲待抓取隊(duì)列中[11];隨后,通過域名解析的方式得到隊(duì)列中URL 的服務(wù)器網(wǎng)絡(luò)地址,并將該地址對應(yīng)的網(wǎng)頁數(shù)據(jù)存儲到數(shù)據(jù)庫中;最終,通過數(shù)據(jù)庫中的網(wǎng)頁數(shù)據(jù)得到新的URL 放入待抓取隊(duì)列中,循環(huán)上述過程,直到滿足系統(tǒng)設(shè)定的終止條件為止。

隨著系統(tǒng)需要抓取網(wǎng)頁數(shù)量的不斷增加,傳統(tǒng)網(wǎng)絡(luò)爬蟲已較難滿足實(shí)際的系統(tǒng)開發(fā)需求。其弊端不僅是網(wǎng)頁信息抓取效率的低下,且抓取結(jié)果的質(zhì)量通常也較差[12]。上述問題,使得該類爬蟲無法滿足網(wǎng)絡(luò)輿情采集系統(tǒng)的需求。

1.2 主題網(wǎng)絡(luò)爬蟲

此類爬蟲也稱“聚焦網(wǎng)絡(luò)爬蟲”,是對傳統(tǒng)網(wǎng)絡(luò)爬蟲的一種改進(jìn),在其基礎(chǔ)上增加了URL 評價以及與感興趣內(nèi)容相似度(主題)的判斷[13]。其最主要的特點(diǎn)是抓取與主題相關(guān)性大的數(shù)據(jù)信息,具有明確目標(biāo)與方向。主題網(wǎng)絡(luò)爬蟲對網(wǎng)絡(luò)資源進(jìn)行抓取的流程如圖2 所示。

圖2 主題網(wǎng)絡(luò)爬蟲工作流程

主題網(wǎng)絡(luò)爬蟲與傳統(tǒng)網(wǎng)絡(luò)爬蟲工作流程最大的不同是增加了“策略過濾URL”部分,該部分使得主題爬蟲能夠準(zhǔn)確地抓取所需要的網(wǎng)絡(luò)資源[14]。主題爬蟲需要預(yù)先設(shè)定好URL 過濾規(guī)則,根據(jù)這一規(guī)則過濾與主題相關(guān)性較弱的URL 鏈接,從而最大程度上保證進(jìn)入待爬取隊(duì)列的URL 為符合系統(tǒng)需要的鏈接。此外,通常還采用語義分析的方法對爬取網(wǎng)頁進(jìn)行進(jìn)一步過濾,保證抓取結(jié)果的質(zhì)量。

與傳統(tǒng)網(wǎng)絡(luò)爬蟲更加注重網(wǎng)頁爬取的廣泛性相比,主題網(wǎng)絡(luò)爬蟲則更注重抓取結(jié)果與主題的相關(guān)性[15]。該類爬蟲為面向?qū)ο蟮馁Y源搜索提供了重要數(shù)據(jù),同時在效率和質(zhì)量上也表現(xiàn)更優(yōu),符合文中網(wǎng)絡(luò)輿情采集系統(tǒng)的設(shè)計(jì)需要。因此,文中也將采用該主題爬蟲技術(shù)進(jìn)行后續(xù)的系統(tǒng)設(shè)計(jì)與開發(fā)。

2 系統(tǒng)設(shè)計(jì)

網(wǎng)絡(luò)爬蟲技術(shù)是輿情采集系統(tǒng)的關(guān)鍵部分,其最重要的作用就是通過不斷地抓取網(wǎng)頁,進(jìn)而為后續(xù)的輿情監(jiān)控與分析提供大量的原始數(shù)據(jù)。該節(jié)主要介紹分析輿情采集系統(tǒng)的需求,以及基于需求所設(shè)計(jì)的采集系統(tǒng)總體框架和系統(tǒng)利用的關(guān)鍵技術(shù)。

2.1 系統(tǒng)需求分析

網(wǎng)絡(luò)輿情采集系統(tǒng)的主要功能為:按照實(shí)際需求從網(wǎng)絡(luò)上采集所需的輿情信息,為進(jìn)一步地分析預(yù)處理提供重要的原始數(shù)據(jù)。因此,該系統(tǒng)的主要需求如下:

1)用戶可以注冊登錄,同時根據(jù)登錄用戶的權(quán)限,提供不同的數(shù)據(jù)管理功能;

2)具有網(wǎng)絡(luò)爬蟲的設(shè)置接口,能夠?qū)ΨN子URL、搜索策略等進(jìn)行設(shè)置;

3)網(wǎng)絡(luò)爬蟲采集到的網(wǎng)頁輿情數(shù)據(jù)及新的URL可以被存儲到數(shù)據(jù)庫中;

4)擁有數(shù)據(jù)更新、過濾等機(jī)制。系統(tǒng)應(yīng)將數(shù)據(jù)采集與更新、過濾分開,建立專門的數(shù)據(jù)更新與過濾服務(wù)器,從而提高網(wǎng)絡(luò)爬蟲的信息抓取效率以及數(shù)據(jù)更新與過濾的時效性,為后續(xù)輿情信息的處理提供更多有價值的數(shù)據(jù)。

2.2 系統(tǒng)總體框架設(shè)計(jì)

1)系統(tǒng)總體結(jié)構(gòu)

基于上述提到的系統(tǒng)開發(fā)需求,文中設(shè)計(jì)的基于爬蟲技術(shù)和語義分析的網(wǎng)絡(luò)輿情采集系統(tǒng),如圖3所示。

圖3 系統(tǒng)總體框架

該系統(tǒng)從功能上可分為4 個模塊:Web 數(shù)據(jù)庫、URL 數(shù)據(jù)庫、服務(wù)器端及客戶端。其中,Web 數(shù)據(jù)庫用來存儲網(wǎng)絡(luò)爬蟲抓取的網(wǎng)頁數(shù)據(jù);URL 數(shù)據(jù)庫則用來存儲從網(wǎng)頁數(shù)據(jù)中所得到新的URL 鏈接,這些URL 會按照一定的順序放入網(wǎng)絡(luò)爬蟲的待抓取隊(duì)列中;服務(wù)器端是整個系統(tǒng)的核心部分,主要是進(jìn)行數(shù)據(jù)的采集與處理,包括多個子模塊,如URL 調(diào)度、網(wǎng)頁數(shù)據(jù)采集、網(wǎng)頁解析、網(wǎng)頁去重及用戶管理等;客戶端主要是提供多種環(huán)境下的人機(jī)交互界面,包括網(wǎng)絡(luò)站點(diǎn)的管理、數(shù)據(jù)交互與網(wǎng)絡(luò)通信等。

2)系統(tǒng)工作流程

根據(jù)上述對輿情采集系統(tǒng)的分析以及結(jié)合主題網(wǎng)絡(luò)爬蟲的工作流程,文中設(shè)計(jì)開發(fā)的網(wǎng)絡(luò)輿情采集系統(tǒng)的具體工作流程,如圖4 所示。

圖4 系統(tǒng)工作流程

2.3 關(guān)鍵技術(shù)研究

文中所設(shè)計(jì)的系統(tǒng)以主題網(wǎng)絡(luò)爬蟲作為驅(qū)動,同時也結(jié)合了語義分析、頁面相似度分析等技術(shù),該節(jié)主要對系統(tǒng)中用到的關(guān)鍵技術(shù)進(jìn)行分析。

1)搜索策略

通常主題網(wǎng)絡(luò)爬蟲的搜索策略有廣度、深度及最佳3 種優(yōu)先搜索策略[16-18]。文中在充分考慮系統(tǒng)需求的情況下,選擇了廣度優(yōu)先搜索作為系統(tǒng)爬蟲進(jìn)行網(wǎng)頁抓取的工作策略。廣度優(yōu)先搜索也稱為橫向優(yōu)先搜索或?qū)哟伪闅v,其基本思想是從初始節(jié)點(diǎn)出發(fā),以輻射狀的形式逐步遍歷周圍節(jié)點(diǎn)。以數(shù)據(jù)結(jié)構(gòu)中的“樹”為例,廣度優(yōu)先搜索的具體搜索過程可描述為:從樹的根節(jié)點(diǎn)出發(fā),沿著樹的寬度方向依次遍歷樹的各個節(jié)點(diǎn),直到遍歷完所有節(jié)點(diǎn)或滿足終止條件為止。以圖5 為例,采用廣度優(yōu)先搜索策略的網(wǎng)絡(luò)爬蟲對網(wǎng)頁的抓取順序?yàn)锳-B-CD-E-F-G-H。

圖5 基于廣度優(yōu)先的搜索流程

2)語義分析技術(shù)

語義分析是自然語言處理(Natural Language Processing,NLP)中的核心部分,是指運(yùn)用各種算法學(xué)習(xí)與理解一段文本所表示的語義內(nèi)容,包括詞法分析、句法分析、語用分析及語境分析等[19-20]。語義分析與主題網(wǎng)絡(luò)爬蟲技術(shù)相結(jié)合用于網(wǎng)頁文本數(shù)據(jù)的分析,能夠有效過濾網(wǎng)頁中與感興趣內(nèi)容無關(guān)的信息。該系統(tǒng)中利用語義分析中的向量空間模型(VSM)算法對采集到的網(wǎng)頁數(shù)據(jù)進(jìn)行進(jìn)一步過濾,以保證爬蟲網(wǎng)頁抓取結(jié)果的質(zhì)量。

VSM 算法的核心思想是將獲取到的網(wǎng)頁文本信息映射到向量空間中,從而將復(fù)雜的文本語義分析轉(zhuǎn)化為向量運(yùn)算,將語義相似性轉(zhuǎn)換為向量相似性。在對網(wǎng)頁信息的處理中,最常用的相似性度量方法即計(jì)算兩者之間的余弦距離。

VSM 算法進(jìn)行文本信息數(shù)據(jù)處理的流程如下:

1)信息預(yù)處理,對主題網(wǎng)絡(luò)爬蟲爬取到的網(wǎng)頁數(shù)據(jù)進(jìn)行中英文分詞,過濾掉其中包含的錯誤短語及停用詞。

2)對第一步得到分詞結(jié)果中的關(guān)鍵詞進(jìn)行選擇與加權(quán),同時統(tǒng)計(jì)該網(wǎng)頁各關(guān)鍵詞出現(xiàn)的次數(shù),計(jì)算相應(yīng)的頻率。

3)將網(wǎng)頁信息處理為一個具有n個分量的網(wǎng)頁向量,同時向量中的每個分量為各關(guān)鍵詞在網(wǎng)頁中所占有的權(quán)重,權(quán)重的計(jì)算依賴于關(guān)鍵詞在整個網(wǎng)頁中出現(xiàn)的頻率情況。最終,計(jì)算向量相似度所用到的余弦距離數(shù)學(xué)表達(dá)式為:

其中,Sim(D1,D2) 代表兩個網(wǎng)頁的相似度,其值處于0~1 之間,W1k則代表網(wǎng)頁第k個關(guān)鍵詞的權(quán)重。

4)兩網(wǎng)頁信息數(shù)據(jù)越相似,其余弦距離的計(jì)算結(jié)果就越趨近于1。因此,可以通過設(shè)定合理的閾值實(shí)現(xiàn)對網(wǎng)頁的進(jìn)一步過濾。

3 系統(tǒng)測試

為了驗(yàn)證文中設(shè)計(jì)系統(tǒng)的有效性與可靠性,在完成對系統(tǒng)的搭建后,進(jìn)行以下兩項(xiàng)試驗(yàn):系統(tǒng)功能試驗(yàn)及系統(tǒng)性能試驗(yàn)。其中,系統(tǒng)功能試驗(yàn)主要是對文中系統(tǒng)所能實(shí)現(xiàn)的基礎(chǔ)功能進(jìn)行測試,以此確定系統(tǒng)的各個功能能夠按設(shè)計(jì)需求正常使用;系統(tǒng)性能試驗(yàn)則是對系統(tǒng)及數(shù)據(jù)的抓取性能進(jìn)行測試,如抓取效率和質(zhì)量等。

1)系統(tǒng)功能試驗(yàn)

該項(xiàng)試驗(yàn)分兩部分進(jìn)行:基本功能試驗(yàn)及網(wǎng)絡(luò)輿情信息采集試驗(yàn)。基本功能試驗(yàn)包括用戶注冊、用戶登錄、用戶退出和用戶注銷,對應(yīng)的試驗(yàn)結(jié)果如表1 所示。

表1 系統(tǒng)基本功能試驗(yàn)結(jié)果

由表1 可以看出,該系統(tǒng)能夠較好地完成用戶注冊、登錄等功能,同時可以在新用戶登錄時提醒注冊,密碼錯誤時提醒用戶重新輸入或進(jìn)入密碼找回流程。

網(wǎng)絡(luò)輿情采集試驗(yàn)主要通過黑盒測試的方法對預(yù)期功能進(jìn)行試驗(yàn),包括輿情信息采集、數(shù)據(jù)庫管理等功能單元,試驗(yàn)結(jié)果如表2 所示。該結(jié)果說明系統(tǒng)能夠按照需求進(jìn)行網(wǎng)絡(luò)輿情信息的采集與管理,系統(tǒng)各項(xiàng)功能運(yùn)行正常。

表2 網(wǎng)絡(luò)輿情采集試驗(yàn)結(jié)果

2)系統(tǒng)性能試驗(yàn)

系統(tǒng)性能試驗(yàn)包括VSM 算法網(wǎng)頁數(shù)據(jù)處理試驗(yàn)、爬蟲網(wǎng)頁抓取效率和質(zhì)量試驗(yàn)。其中,VSM 算法試驗(yàn)主要驗(yàn)證該算法對網(wǎng)絡(luò)爬蟲采集的輿情信息進(jìn)行處理的可行性。在系統(tǒng)試驗(yàn)的一周內(nèi),VSM 試驗(yàn)結(jié)果如圖6 所示。其中曲線下方的面積代表經(jīng)VSM算法處理的輿情信息總數(shù),同時曲線也說明了主題網(wǎng)絡(luò)爬蟲所采集的網(wǎng)頁與主題的相關(guān)性均較高,基本均能達(dá)到0.5 以上。經(jīng)過VSM 處理后(設(shè)定合理閾值),能夠?qū)ο嗨菩缘偷木W(wǎng)頁進(jìn)行進(jìn)一步過濾,保證結(jié)果的質(zhì)量。

圖6 VSM余弦值與采集網(wǎng)頁數(shù)的關(guān)系

隨后進(jìn)行爬蟲網(wǎng)頁輿情信息抓取效率試驗(yàn),測試了爬蟲抓取1 000、2 000、3 000 條輿情信息所用的時間及系統(tǒng)采集到的輿情信息與主題的平均相似度。試驗(yàn)結(jié)果如表3 所示。由結(jié)果可以看出,系統(tǒng)的輿情信息采集速度平均在每條12 ms 左右,說明系統(tǒng)具有較高的采集效率。

表3 爬蟲網(wǎng)頁抓取效率試驗(yàn)結(jié)果

最終是對采集到的輿情信息質(zhì)量進(jìn)行試驗(yàn),測試其與主題的平均相似度。其中VSM 的閾值設(shè)置為0.75,計(jì)算得出的平均相似度為0.833,說明該系統(tǒng)具有較高的輿情信息采集質(zhì)量。

4 結(jié)束語

文中設(shè)計(jì)開發(fā)了一套基于網(wǎng)絡(luò)爬蟲技術(shù)與語義分析的網(wǎng)絡(luò)輿情采集系統(tǒng),以滿足現(xiàn)代高校學(xué)生的輿情監(jiān)控分析需要。該系統(tǒng)在兩種爬蟲中選擇了在效率與質(zhì)量上表現(xiàn)更優(yōu)的主題網(wǎng)絡(luò)爬蟲,同時搜索策略選用應(yīng)用范圍廣泛的廣度優(yōu)先搜索算法。所設(shè)計(jì)的輿情采集系統(tǒng)主要包括Web 數(shù)據(jù)庫、URL 數(shù)據(jù)庫、服務(wù)器端及客戶端4 個模塊。系統(tǒng)功能試驗(yàn)及系統(tǒng)性能試驗(yàn)結(jié)果說明,該系統(tǒng)能夠在保證性能的情況下,完成系統(tǒng)的各項(xiàng)功能,驗(yàn)證了系統(tǒng)的可行性與可靠性。

猜你喜歡
語義分析信息
隱蔽失效適航要求符合性驗(yàn)證分析
語言與語義
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
電力系統(tǒng)及其自動化發(fā)展趨勢分析
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語義模糊
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
語義分析與漢俄副名組合
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 国产成人免费视频精品一区二区| 国产成人乱码一区二区三区在线| 免费毛片视频| 欧洲欧美人成免费全部视频| 2020国产精品视频| 欧美一级99在线观看国产| 五月婷婷综合在线视频| 国产噜噜噜视频在线观看| 久久特级毛片| 国产色婷婷视频在线观看| 亚洲精品777| 亚洲天堂首页| 国产精品免费福利久久播放| 中文字幕在线视频免费| 中文字幕亚洲综久久2021| 国内精品视频| jijzzizz老师出水喷水喷出| 亚洲AV一二三区无码AV蜜桃| 国产SUV精品一区二区6| 日韩欧美综合在线制服| 免费久久一级欧美特大黄| 婷婷久久综合九色综合88| 片在线无码观看| 91福利在线观看视频| 精品少妇人妻无码久久| 国产尤物视频在线| 欧美日本在线一区二区三区| 一级毛片网| 99国产精品免费观看视频| 四虎永久在线视频| 九九视频免费在线观看| 欧美成人手机在线观看网址| 亚洲日韩AV无码精品| 亚洲欧洲日本在线| 无码综合天天久久综合网| 色综合久久久久8天国| 爱色欧美亚洲综合图区| 伊人久久大香线蕉aⅴ色| 青青青伊人色综合久久| 国产永久在线观看| 2019国产在线| 久久夜色精品国产嚕嚕亚洲av| 福利视频99| 国产精品污视频| 扒开粉嫩的小缝隙喷白浆视频| 欧美翘臀一区二区三区| 97国内精品久久久久不卡| 99热这里只有精品久久免费| 精品欧美一区二区三区久久久| 成人欧美日韩| 亚洲无码37.| 国产chinese男男gay视频网| 亚洲A∨无码精品午夜在线观看| 亚洲国产精品成人久久综合影院 | 色婷婷综合在线| 久久免费成人| 欧美曰批视频免费播放免费| 亚洲国产AV无码综合原创| 国产精品无码久久久久AV| 国产高清在线丝袜精品一区| 蜜桃视频一区二区| 十八禁美女裸体网站| 亚洲欧美日韩天堂| 不卡国产视频第一页| 日本黄色a视频| AV片亚洲国产男人的天堂| 激情無極限的亚洲一区免费| 九月婷婷亚洲综合在线| 亚洲国产天堂久久综合226114 | 黄色免费在线网址| 亚洲精品无码AV电影在线播放| 欧美亚洲综合免费精品高清在线观看 | 中文字幕精品一区二区三区视频 | 亚洲中文字幕久久精品无码一区 | 中文字幕永久在线看| 欧美日韩亚洲国产主播第一区| 欧美自拍另类欧美综合图区| 99视频在线免费| 被公侵犯人妻少妇一区二区三区| 天天综合天天综合| 国产95在线 | 在线免费观看AV|