999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于關鍵詞分級檢索的Web信息訪問監控算法

2021-12-10 09:06:08梁中閣陳孝如
計算機仿真 2021年11期
關鍵詞:詞匯信息

梁中閣,陳孝如

(廣州大學華軟軟件學院,廣東廣州 510990)

1 引言

網絡技術高速發展,互聯網已成為大眾化信息交流的重要場所,網絡中的信息增長速度飛快,如何處理海量網絡信息引起眾多研究學者關注[1]。信息檢索是信息處理領域的重要課題,目前通常通過查詢串的文件檢索以及目錄結構的信息檢索處理信息檢索問題,無法有效獲取用戶所需的關鍵信息[2]。用戶使用網絡時,可采用輸入關鍵詞獲取檢索結果,關鍵詞檢索是用戶從海量網絡中獲取關鍵信息的主要方式。

Web 2.0技術已日益成熟,提供互聯網內容已由網站運營方和開發方轉變為網絡用戶。網絡監管機制較為落后,互聯網具有較強的開發性[3],網絡上內容差異巨大,容易出現錯誤的輿論引導,影響事實真相以及正確觀念及時發布,威脅社會和諧。檢測以及預警出現于Web服務器中的網絡話題以及網絡事件[4],可正確引導網絡輿論。

近年來針對網絡搜索以及訪問安全性的研究較多,周文等人研究一種SVM學習框架下的Web3D輕量級模型檢索算法[5],利用支持向量機實現Web3D輕量級模型檢索,檢索實時性較高,但檢索精度較低;魏德賓等人研究基于自相似流量水平分級預測的網絡隊列調度算法[6],利用自相似流量水平分級預測實現網絡隊列調度,提升網絡運行安全性。研究基于關鍵詞分級檢索的Web信息訪問監控算法,將關鍵詞分級檢索結果作為Web信息訪問監控依據,保障網絡安全。關鍵詞分級檢索可有效提升關鍵詞檢索速度以及查準率,通過較優的查詢速度以及排序誤差率提升Web信息訪問監控性能。

2 關鍵詞分級檢索的Web信息訪問監控算法

2.1 構建詞匯鏈

通過構建詞匯鏈提升關鍵詞抽取精度,計算所搜尋詞語與初始詞匯鏈的相似度,依據相似度結果加入相應詞匯鏈中,具體過程如下:

1)對待檢索文本集實施詞性標注、分詞以及未登陸詞識別,用DF與TF分別表示文檔頻率以及特征頻率,統計各詞在文檔集中的DF與TF;

2)部分相對重要的領域詞匯并未收錄于文本集內。設置指定閾值δ,設置該閾值為3,當詞匯的TF大于δ時,利用未登錄詞生成詞匯鏈L0;

3)將TF大于閾值δ的動詞A1,A2,…,An以及全部名詞設置為候選詞匯集,利用其中的A1建立初始詞匯鏈L1;

4)從候選詞匯集內依次選取詞語Ai,i∈[2,n],可得獲取該詞語與詞匯鏈L0外的各詞匯鏈詞義相似度值S(Ai,Lj)公式如下:

(1)

式(1)中,i=1,2,…,n,j=1,2,…,m,N與Ak分別表示詞匯鏈Lj內包含詞匯數量以及包含詞匯,1≤k≤N。

通過式(1)可知,不同詞匯鏈的詞義相似度值即與該詞匯鏈內全部單詞詞義相似度之和的平均值[7];

5)當預設的相似度閾值ζ小于最大詞義相似度S(Ai,Lk)時,將該詞插入詞匯鏈Lk內;

6)當預設的相似度閾值ζ大于最大詞義相似度S(Ai,Lk)時,生成新的詞匯鏈,并將詞語A插入新詞匯鏈內;

7)重復步驟(3)-步驟(6),直至完成全部候選詞匯計算。

分析以上過程可知,構建詞匯鏈時,相似度閾值ζ越大,所生成的詞匯鏈數量越多。

確定詞匯鏈權值時,需要充分考慮詞匯鏈長度、詞匯鏈中詞匯分布密度、詞匯鏈覆蓋本文范圍、組成詞匯鏈的不同詞語的初始權值以及詞匯鏈的拓撲結構。

完成文本詞匯鏈生成后,需評價所構建各個詞匯鏈,并將相應權值賦予各個詞匯鏈中。用T={T1,T2,…,Tn}表示各個文本,Ti為不同詞匯鏈權值。文本主題表達水平在詞匯鏈權值越大時越強,文本主題表達水平在詞匯鏈權值越小時越差[8]。利用預設權值從文本集內選取較強的詞匯鏈呈現文本,從所獲取的詞匯鏈中所包含詞匯中抽取關鍵詞。

2.2 關鍵詞分級檢索

所獲取詞匯鏈Li(0≤i≤n)中包含眾多語義相近詞匯集合,通過考慮詞匯的以下屬性確定選取哪些詞匯作為關鍵詞。

1)首次出現位置

全部詞匯數據量中詞匯在其所在文檔中首次出現位置前詞語數量比例表示詞語的首次出現位置,通常情況下首次出現位置取值為0-1之間;

2)所處文檔區域

確定所處文檔區域時需制定假設如下:

文檔摘要、文檔標題以及章節標題內詞匯為文檔關鍵詞的可能性高于其它詞語為關鍵詞的可能性。

3)所處詞匯鏈強度

詞匯所處詞匯鏈的權值決定了詞匯所處詞匯鏈的強度[9],詞匯鏈表達文檔主體的能力在權值越大時越強。

4)詞匯的信息熵

詞匯的信息熵可以體現出詞匯所包含的文檔具體信息內容,詞匯信息熵計算公式如下

(2)

式(2)中,Ei與M分別表示詞匯Ai的信息熵以及多文檔集內文檔總數或單文檔內句子總數;fij與dfi分別表示句子j以及文檔j內出現dfi的次數以及出現dfi的文檔數或句子數。

全部文檔中均出現該詞匯時,則該詞匯的信息熵較小[10];當僅個別文檔中存在該詞匯時,則該詞匯的信息熵較大。

綜合考慮文檔中首次出現詞匯的位置、詞匯所處詞匯鏈強度、詞匯所處文檔區域以及詞匯的信息熵4個重要屬性,獲取文檔中詞匯權值計算公式如下

Weighti=α×b(fi+1.0)×(1+Ei)+β×Ti

(3)

式(3)中,Weighti與fi分別表示詞匯Ai的權值以及出現次數;Ti與Lengthi分別表示詞匯Ai所在詞匯鏈權值以及詞匯Ai首次出現在文檔中之前的詞匯數量;Length與Areai分別表示文檔中全部詞匯數量以及詞匯Ai所處文檔區域的權值。當文檔標題以及文檔摘要中出現詞匯Ai時,Areai值分別為5以及4;當章節標題中出現詞匯Ai時,Areai值為2;其余情況下Areai值為0.5;α、β、γ與η均表示調節詞匯權值計算中各屬性的調節因子,本文取1。

計算詞匯鏈內所存在的全部詞匯的權值后,用Ti={ti1,ti2,…,tim}表示全部詞匯權值,tij為建立詞匯鏈中詞匯Li的權值。降序排列全部詞匯鏈內全部詞匯權值,依據所需關鍵詞數量依次選取權值較大的詞匯作為關鍵詞,依據所確定關鍵詞實現關鍵詞分級檢索。

2.3 PageRank算法的Web信息訪問監控

依據所獲取關鍵詞分級檢索Web信息,利用PageRank算法實現Web信息訪問頁面的實時監控,實現網絡資源優化,保障Web網絡運行安全性能。

PageRank算法是衡量網頁重要程度的重要算法,將PageRank算法應用于Web信息訪問監控中的主要思想是集中資源與精力關注存在關鍵詞數量較多的較為重要的網頁。PageRank算法是網頁排名技術,即網頁級別算法,該算法是評價網頁重要性的重要方法[11],Web利用該算法可調整搜索結果,令網頁出現在靠前位置,重點監控重要性較高的網頁,提升Web信息訪問安全性。

PageRank算法利用網絡自身的超鏈接結構確定網頁重要性的等級數量,利用網頁重要性的等級數排序網頁,等級數即PageRank值,即通過連接結構獲取網頁重要性,Web網頁的重要性與其余Web網頁的重要性存在關聯以及依賴性。

PageRank值計算公式如下

(4)

式(4)中,PR(a)與L1,…,Ln分別表示Web網頁的PageRank值以及鏈接至網頁a的網頁;G(Ln)與G分別表示其從網頁Ln轉送至其它網頁的超鏈接數量以及規范化因子,利用規范化因子令全部網頁的PageRank值之和為常量。

為簡化計算,將式(4)轉化為

PR(a)=(1-d)+G(Ln)

(5)

式(5)中,d表示阻尼系數,本文設置為0.15。

首先需獲取待排序網頁數量總和,設置各網頁的PageRank值為1/Sum,依據式(4)以及式(5)統計網頁的超鏈接數,獲取最終的G(Ln)。

采用本文算法實現基于關鍵詞分級檢索的Web信息訪問監控過程如下:首先構建詞匯鏈,從詞匯鏈中提取關鍵詞實現關鍵詞分級檢索,利用關鍵詞分級檢索結果獲取Web頁面的重要程度,依據所獲取的重要程度指標排序Web網頁的超鏈接[12],排序較為靠前的超鏈接具有較高的重要程度,設置較短的監控周期,依據排名順序擴大監控周期。本文算法依據Web網頁重要程度確定Web信息訪問監控策略,具有較高的時效性與有效性。

3 仿真分析

從網絡中選取100篇Web信息作為本文算法有效性的測試對象,Web信息中包含文學、財經、軍事、教育、體育五種類型內容。

選取準確率(P)、召回率(R)作為評價采用本文算法監控Web信息訪問中關鍵詞分級檢索性能。選取SVM算法(參考文獻[5])以及自相似算法(參考文獻[6])作為對比算法,三種算法分級檢索關鍵詞的檢索準確率對比結果如圖1所示。

圖1 檢索準確率對比

圖1實驗結果可以看出,采用本文算法分級檢索關鍵詞的檢索準確率均高于99%;采用另兩種算法分級檢索關鍵詞的檢索準確率均低于99%。對比結果有效驗證本文算法具有較高的分級檢索關鍵詞準確率。

選取SVM算法以及自相似算法作為對比算法,三種算法分級檢索關鍵詞的檢索召回率對比結果如圖2所示。

圖2 檢索召回率對比

圖2實驗結果可以看出,采用本文算法分級檢索關鍵詞的檢索召回率均高于99%;采用另兩種算法分級檢索關鍵詞的檢索召回率均低于99%。采用本文算法分類檢索不同類別Web信息關鍵詞的檢索準確率、召回率均為最高,說明本文算法具有較高的關鍵詞分類檢索有效性。

統計采用本文算法分級檢索不同類別Web信息關鍵詞在不同信息量大小情況下的漏搜率以及多搜率,對比結果如表1所示。

表1 不同算法漏搜率與多搜率

表1實驗結果可以看出,采用本文算法分級檢索不同大小信息量Web信息關鍵詞具有較低的漏搜率以及多搜率,采用本文算法分級檢索Web信息關鍵詞的漏搜率以及多搜率均低于0.7%;采用另兩種算法分級檢索Web信息關鍵詞的漏搜率以及多搜率均高于1%。采用本文算法分級檢索不同大小信息量Web信息關鍵詞的漏搜率以及多搜率均明顯低于另兩種算法,實驗結果有效驗證本文算法具有較高的關鍵詞分級檢索性能,可為Web信息訪問監控提供良好基礎。

通過圖1、圖2以及表1實驗結果可知,本文算法分類檢索Web信息關鍵詞的整體評價結果較為理想,可獲取較優的關鍵詞分類檢索效果,主要原因是本文算法的關鍵詞抽取算法充分考慮了Web信息中關鍵詞位置與因素,獲取較高的Web信息關鍵詞檢索效果,提升Web信息訪問監控有效性。

采用本文算法獲取不同類別Web網頁的PageRank值排行結果如表2所示。

表2 PageRank值排行結果

表2實驗結果可以看出,采用本文算法可利用PageRank值獲取Web網頁的重要程度,利用所獲取Web網頁的重要程度重點監視較為重要Web網頁中的Web信息,實現Web信息訪問的有效監控。

統計采用本文算法監控Web信息訪問100min內的Web信息訪問監控有效率以及誤報率,統計結果如表3所示。

表3 監控性能對比

表3實驗結果表明,采用本文算法監控Web信息訪問的有效率均高于99.2%;采用本文算法監控Web信息訪問的誤報率均低于0.7%。采用本文算法監控Web信息訪問的有效率遠高于另兩種算法,本文算法監控Web信息訪問的誤報率遠低于另兩種算法。采用本文算法監控Web信息訪問具有較高的有效率以及較低的誤報率,有效驗證本文算法監控Web信息訪問有效性。

4 結論

利用信息抽取技術建立詞匯鏈實現關鍵詞分級檢索,并利用關鍵詞分級檢索結果實現Web信息訪問監控,利用所研究算法應用于網絡中Web信息訪問監控中,可降低時間開銷以及空間開銷,并且可避免出現漏搜以及多搜情況。所研究算法具有較高的關鍵詞檢索準確率以及召回率,通過縮小檢索范圍提升檢索速度,利用抽取文檔關鍵詞組,明確查詢匹配結果,提升Web信息訪問監控效果。將其應用于Web信息訪問監控中,依據所設定關鍵詞可實現Web信息訪問有效監控,具有較高的Web信息訪問監控性能。

猜你喜歡
詞匯信息
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2017年35期)2017-10-10 02:45:28
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
本刊可直接用縮寫的常用詞匯
本刊一些常用詞匯可直接用縮寫
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 中文字幕av无码不卡免费| 视频一区亚洲| 亚洲有码在线播放| 国产超薄肉色丝袜网站| 国产高清无码麻豆精品| 国产91熟女高潮一区二区| 亚洲av无码片一区二区三区| 亚洲午夜福利在线| 青青青视频91在线 | 国产成人高精品免费视频| 亚洲一区网站| 精品国产免费观看一区| 国产精品入口麻豆| 国产欧美日韩视频怡春院| 亚洲欧美一区二区三区蜜芽| 九九热免费在线视频| 欧美国产日韩在线观看| 911亚洲精品| 在线欧美a| 亚洲一级无毛片无码在线免费视频 | 大学生久久香蕉国产线观看| 日韩免费视频播播| 成人小视频网| 国产色婷婷| 国产一在线| 国产人碰人摸人爱免费视频| 免费在线色| 亚洲中文字幕无码mv| 日韩国产 在线| 国产福利免费视频| 国产乱论视频| 亚洲美女高潮久久久久久久| 日韩在线播放中文字幕| 亚洲毛片在线看| 欧美一级在线看| 国产一级毛片yw| 亚洲二区视频| 欧美成人日韩| 久热精品免费| 欧美怡红院视频一区二区三区| 四虎精品国产AV二区| 最新国产成人剧情在线播放| 色天天综合久久久久综合片| 拍国产真实乱人偷精品| 国产swag在线观看| 久久6免费视频| 日韩成人在线一区二区| 免费无码网站| 美女无遮挡拍拍拍免费视频| 99成人在线观看| 欧美人人干| 久草青青在线视频| 亚洲网综合| 色婷婷综合激情视频免费看| 亚洲成A人V欧美综合| 欧美日韩中文国产va另类| 亚洲综合九九| 久久国产精品麻豆系列| 青青草国产一区二区三区| 一区二区无码在线视频| 亚洲最新地址| 欧美一级高清片欧美国产欧美| 久久久久中文字幕精品视频| 久久青草精品一区二区三区| AV网站中文| 午夜国产精品视频| 99国产精品免费观看视频| 国产一区亚洲一区| 色综合天天视频在线观看| 日韩大片免费观看视频播放| 一级香蕉人体视频| 伊人蕉久影院| 亚洲无码久久久久| 国产喷水视频| 国产人人射| 国产精品冒白浆免费视频| 51国产偷自视频区视频手机观看 | 国产免费黄| 亚洲精品欧美重口| 白丝美女办公室高潮喷水视频| 一区二区三区四区精品视频 | 亚洲成人黄色在线|