999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Python網絡爬蟲的學校Web站群不良信息外鏈檢測方法研究

2021-09-05 13:55:27曹清清劉艷馬萌劉芳
科技資訊 2021年13期
關鍵詞:學校

曹清清 劉艷 馬萌 劉芳

摘? 要:網絡科技的發展,使得網絡已經深入到生活的方方面面,它在給人們帶來便利的同時,也帶來了很多隱患。為了營造清澈良好的學校網絡環境,避免學生在瀏覽學校網站時訪問不良外鏈,接觸到黃毒、暴力等影響學生身心健康的不良信息,該研究通過Python語言的網絡爬蟲技術和關鍵詞提取技術,對學校Web站群中的外鏈進行檢測,從中找出不良外鏈并及時清理。

關鍵詞:不良信息外鏈? Python? 網絡爬蟲? 關鍵詞提取

中圖分類號:G64? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A文章編號:1672-3791(2021)05(a)-0041-03

Abstract: With the development of network technology, the network has penetrated into all aspects of life. It brings convenience to people, but also brings many hidden dangers. In order to create a good school network environment, to avoid students visiting the bad external chain when browsing the school web site group, contact with pornographic, violence and other bad information that affect students' physical and mental health. In this study, through the Python language web crawler technology and keyword extraction technology, the school web site group in the chain detection, to find out the bad chain.

Key Words: Bad information out-link; Python; Web crawler; Keyword extraction

任何一個網站都很難做到面面俱到,學校Web站群亦是如此。因此,需要鏈接到別的網站,將其他網站的信息吸收過來充實自身網站內容,這種現象稱為外鏈。外鏈是互聯網的血液,它可以將互聯網上孤立的信息關聯起來。但是如果因為外鏈過期、被黑、管理不善等原因,外鏈就會變成黑鏈、毒鏈、黃鏈,外鏈其原本的作用將不存在,并會對學校、教師和學生造成不良影響。而學校Web站群其特殊的性質和職責,更應該履行網絡安全保護義務,避免學校Web站群中出現不良外鏈。因此,該研究對學校Web站群中的鏈接進行分析,從中檢測出不良外鏈并及時處理,避免因不良外鏈對學校聲譽以及學生的身心發展造成影響。

1? 研究思路與方法

1.1 思路

(1)分析學校Web站群網頁架構以及瀏覽器的加載過程,確定Python語言實現的網絡爬蟲中網頁請求的方法并獲取網頁內容。

(2)根據網頁的結構并結合不同網頁內容解析的技術特點,確定合適的網頁內容解析的方法。

(3)從網頁內容中解析出鏈接信息,根據外鏈和內鏈域名的特點,區分外鏈與內鏈。內鏈則不再進行關鍵詞的提取。

(4)通過向外鏈發送請求并獲得其服務器返回的響應,進而獲取外鏈對應網頁源代碼的內容。

(5)將獲取的外鏈的網頁源代碼以文本格式進行存儲,以便于后續的不良外鏈的判定。

(6)使用算法對存儲的網頁內容進行分詞,并從中過濾出關鍵詞,并將提取的關鍵詞與不良外鏈網站關鍵詞集進行對比。

(7)通過大量的實驗,設定合理的閾值,制定不良外鏈的判定規則。

1.2 方法

該文中網頁數據的獲取采用的是Python語言實現的網絡爬蟲,其中網頁請求發送可以采用requests庫或urllib庫,網頁數據解析可以采用re、xpath、BeautifulSoup、json等。同時還要進行文件的存儲和讀取操作,需要用到的是open()、write()、readline()、readlines()。中文分詞采用的是jieba,關鍵詞提取使用的算法為TF-IDF算法。

2? 設計

2.1 流程圖

學校Web站群不良信息外鏈檢測流程如圖1所示,主要分為四大部分:學校Web站群鏈接提取、外鏈網頁信息提取、關鍵詞提取、不良網站關鍵詞詞集提取。

2.2 學校Web站群鏈接提取

學校Web站群鏈接提取即從學校的Web站群中找出所有的可疑外鏈。具體步驟為:將學校Web站群的所有鏈接都放入到URL隊列中,并對每個鏈接進行發送請求、獲取網頁內容、從網頁內容中解析獲得鏈接3步操作。學校Web站群內網頁之間的鏈接稱之為內鏈接,而已知的外部鏈接可以稱之為白名單鏈接。所有的鏈接都執行完成后,從解析出的鏈接中去除內鏈和白名單鏈接,對其余的外鏈做進一步的處理。

2.3 外鏈網頁信息提取

從學校Web站群中解析出的可疑外鏈,要進行進一步的分析才能確定是否為不良外鏈。首先要做的就是要獲取外鏈網頁信息,同樣需要發送請求、獲取網頁內容、從網頁內容中解析獲得網頁內容3步操作。獲取的可疑外鏈的網頁內容后,將網頁內容以文本格式進行存儲。

2.4 不良網站關鍵詞詞集收集

不良網站關鍵詞詞集收集是一個長期的工作,隨著時代的發展新的詞匯的出現要及時進行更新。收集的工作可以使用關鍵詞提取技術對一些不良網站的信息進行關鍵詞提取,也可以通過人工的形式進行補充。總之,不良網站關鍵詞詞集收集的越多越準確,對不良外鏈的認定就越準確。

2.5 關鍵詞提取

該文使用jieba中文分詞實現了分詞、詞性標注、關鍵字提取。關鍵字提取也就是從文本信息中,找到能代表文本主要信息的詞并把這些詞提取出來。但是并不是說一個詞在文本中出現的頻率越高越能表現文章的主旨,關鍵詞的提取要結合一定的算法,該文中jieba關鍵詞提取使用的為TF-IDF算法。TF-IDF算法的主要思想為:一個詞在一個文檔中出現的次數越高,即TF高;并且在所有文檔中出現的次數越少,即DF低(IDF高),越能代表文章的主旨意思。

從外鏈的網頁內容文本中進行關鍵詞提取,提取出來的關鍵字與提前收集好的不良網站關鍵詞詞集進行對比,并計算網頁中關鍵詞在詞集中的百分比,若百分比大于閾值則認為是不良外鏈,若百分比小于閾值則認為是正常外鏈。而閾值的設定要經過大量的實驗,進而確定一個比較合理的值。

3? 關鍵問題解決方法

3.1 外鏈網絡的反爬蟲機制

網站的所有者從所有的網站來訪者中識別出爬蟲并對其做出相應的處理,稱之為反爬蟲。對于網絡所有者而言,爬蟲并不是一個受歡迎的客人。外鏈網站中有的網站也存在反爬蟲,而且不同的外鏈網站采用的反爬機制不同。如果外鏈網站存在反爬機制,可能導致獲取網頁內容失敗的情況,因此要根據不同的反爬機制進行爬取策略的制定。爬蟲的行為和普通用戶訪問網站的行為要盡量類似,常用的反爬策略有:發送模擬user_agent、調整訪問頻率、使用代理ip、識別驗證碼并校驗、模擬登錄等。

3.2 閾值的設定

不良外鏈判斷的關鍵之一是設定合理的閾值。并不是從可疑外鏈中提取出的關鍵字包含了不良網站關鍵詞詞集的內容就認定為不良外鏈,而是要看提取出的關鍵字中有多少比例的關鍵字屬于不良網站關鍵詞詞集。因此,需要通過大量的實驗,確定與詞集匹配的關鍵詞權重的閾值,并進一步確定不良外鏈的判定規則。

4? 不良外鏈的預防方法

學習網站中不良外鏈多出現于發布的新聞中引用的外鏈,為了防止外鏈因過期、被黑、管理不善等原因變成黑鏈、毒鏈、黃鏈對學校造成不良影響,在信息發布時可以從以下幾點進行預防。

(1)定期對學校Web站群中的外鏈進行清理,不需要的外鏈應及時刪除。

(2)在學校Web站群中進行信息發布時盡量避免指向學校以外的網絡的鏈接,如果因工作需要發布的外鏈可以只發布文件地址而不加超級鏈接,或者在工作完成后即使刪除超級鏈接。

(3)從互聯網上復制的文字可能包含大量的超級鏈接,不應該直接復制發布,應先復制到記事本中去掉格式化再發布。

(4)在學校Web站群中設置的校外友情鏈接,應做好記錄并定期檢查。

5? 結語

外鏈對網站至關重要,在肯定其重要性的同時,分析其可能帶來的網絡風險。使用Python語言的網絡爬蟲技術與關鍵詞提取技術對學校Web站群中的外鏈進行分析,從而獲得不良外鏈,替代了傳統人工判斷的方式,提高了判斷的效率,為學生和老師提供了寧靜清澈的網絡環境。

參考文獻

[1] 張濤,廖力.基于鏈接的網站搜索引擎優化策略[J].湖北工業大學學報,2010(5):61-63.

[2] 黑馬程序員.解析Python網絡爬蟲[M].北京:中國鐵道出版社有限公司,2019:24-123.

[3] 牛永潔.基于Python的改進關鍵詞提取算法的實現[J].電子設計工程,2019,27(13):11-15.

[4] 王潔,王麗清.多特征關鍵詞提取算法研[J].計算機系統應用,2018,27(7):162-166.

[5] 曾小芹.基于Python的中文結巴分詞技術實現[J].信息與電腦,2019(18):38-42.

[6] 潘亞星.基于Python的詞云生成研究[J].電腦知識與技術,2019,15(24):8-10.

[7] 蘇航.基于語義的文獻關鍵字提取技術的研究[D].吉林大學,2020.

[8] 邵玉涵.基于知識和圖結構的詞義消歧算法研究[D].合肥工業大學,2019.

猜你喜歡
學校
我為什么要上這所學校
再回學校
School 學校
只有我一個人在學校是這樣嗎
意林(2021年11期)2021-09-10 07:22:44
學校熔化了
小讀者(2020年2期)2020-03-12 10:34:12
我的學校
快樂語文(2018年36期)2018-03-12 00:55:56
學校100天慶祝日
學校推介
留學生(2016年6期)2016-07-25 17:55:29
上學校
奇妙學校
主站蜘蛛池模板: 国产精品va免费视频| 国产高清在线观看91精品| 亚洲人成网址| 亚洲免费三区| 波多野结衣视频网站| 亚洲高清中文字幕在线看不卡| 久久精品人人做人人| 亚洲国产看片基地久久1024| 日本人真淫视频一区二区三区| 茄子视频毛片免费观看| 日韩毛片视频| 亚洲免费黄色网| 在线观看91精品国产剧情免费| 欧美va亚洲va香蕉在线| 91精品国产福利| 亚洲精品无码日韩国产不卡| 99精品免费在线| 国产地址二永久伊甸园| 国产免费网址| 亚洲bt欧美bt精品| 人妻无码中文字幕第一区| 九色最新网址| 青青青国产精品国产精品美女| 久草美女视频| 国产内射一区亚洲| 91九色国产porny| 69国产精品视频免费| 青青草原偷拍视频| 欧美国产在线看| 国产一级在线播放| 91精品国产综合久久香蕉922| 国产欧美在线观看视频| 中文字幕首页系列人妻| 国产精品冒白浆免费视频| 久久久久免费精品国产| 亚洲伊人电影| 日本精品中文字幕在线不卡| 2021天堂在线亚洲精品专区| 久久久精品无码一二三区| 欧美成人精品高清在线下载| 97在线碰| 最新国产高清在线| 伊人久久久久久久| 精品无码一区二区三区在线视频| 国产精品白浆在线播放| 伊在人亞洲香蕉精品區| 亚洲不卡网| 精品无码国产自产野外拍在线| 久久久久国产精品嫩草影院| 丰满人妻被猛烈进入无码| 毛片一区二区在线看| 99热亚洲精品6码| 亚洲国产清纯| 全裸无码专区| 久久久久88色偷偷| 国产色偷丝袜婷婷无码麻豆制服| 一级一毛片a级毛片| 2024av在线无码中文最新| 少妇高潮惨叫久久久久久| 成人另类稀缺在线观看| 精品一区二区无码av| 亚洲天堂色色人体| 国产av无码日韩av无码网站| 久久99国产综合精品1| 色综合久久久久8天国| 欧美日韩专区| 国产一区二区精品高清在线观看| www.国产福利| 亚洲久悠悠色悠在线播放| 国产亚洲精品97在线观看| 久久国产香蕉| 97视频在线观看免费视频| 久久激情影院| 亚洲无码91视频| 午夜福利在线观看入口| 99精品免费在线| 毛片在线播放网址| 欧美笫一页| 国产午夜不卡| yy6080理论大片一级久久| 日本在线视频免费| 国产精品福利在线观看无码卡|