999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Python網絡爬蟲的學校Web站群不良信息外鏈檢測方法研究

2021-09-05 13:55:27曹清清劉艷馬萌劉芳
科技資訊 2021年13期
關鍵詞:學校

曹清清 劉艷 馬萌 劉芳

摘? 要:網絡科技的發展,使得網絡已經深入到生活的方方面面,它在給人們帶來便利的同時,也帶來了很多隱患。為了營造清澈良好的學校網絡環境,避免學生在瀏覽學校網站時訪問不良外鏈,接觸到黃毒、暴力等影響學生身心健康的不良信息,該研究通過Python語言的網絡爬蟲技術和關鍵詞提取技術,對學校Web站群中的外鏈進行檢測,從中找出不良外鏈并及時清理。

關鍵詞:不良信息外鏈? Python? 網絡爬蟲? 關鍵詞提取

中圖分類號:G64? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A文章編號:1672-3791(2021)05(a)-0041-03

Abstract: With the development of network technology, the network has penetrated into all aspects of life. It brings convenience to people, but also brings many hidden dangers. In order to create a good school network environment, to avoid students visiting the bad external chain when browsing the school web site group, contact with pornographic, violence and other bad information that affect students' physical and mental health. In this study, through the Python language web crawler technology and keyword extraction technology, the school web site group in the chain detection, to find out the bad chain.

Key Words: Bad information out-link; Python; Web crawler; Keyword extraction

任何一個網站都很難做到面面俱到,學校Web站群亦是如此。因此,需要鏈接到別的網站,將其他網站的信息吸收過來充實自身網站內容,這種現象稱為外鏈。外鏈是互聯網的血液,它可以將互聯網上孤立的信息關聯起來。但是如果因為外鏈過期、被黑、管理不善等原因,外鏈就會變成黑鏈、毒鏈、黃鏈,外鏈其原本的作用將不存在,并會對學校、教師和學生造成不良影響。而學校Web站群其特殊的性質和職責,更應該履行網絡安全保護義務,避免學校Web站群中出現不良外鏈。因此,該研究對學校Web站群中的鏈接進行分析,從中檢測出不良外鏈并及時處理,避免因不良外鏈對學校聲譽以及學生的身心發展造成影響。

1? 研究思路與方法

1.1 思路

(1)分析學校Web站群網頁架構以及瀏覽器的加載過程,確定Python語言實現的網絡爬蟲中網頁請求的方法并獲取網頁內容。

(2)根據網頁的結構并結合不同網頁內容解析的技術特點,確定合適的網頁內容解析的方法。

(3)從網頁內容中解析出鏈接信息,根據外鏈和內鏈域名的特點,區分外鏈與內鏈。內鏈則不再進行關鍵詞的提取。

(4)通過向外鏈發送請求并獲得其服務器返回的響應,進而獲取外鏈對應網頁源代碼的內容。

(5)將獲取的外鏈的網頁源代碼以文本格式進行存儲,以便于后續的不良外鏈的判定。

(6)使用算法對存儲的網頁內容進行分詞,并從中過濾出關鍵詞,并將提取的關鍵詞與不良外鏈網站關鍵詞集進行對比。

(7)通過大量的實驗,設定合理的閾值,制定不良外鏈的判定規則。

1.2 方法

該文中網頁數據的獲取采用的是Python語言實現的網絡爬蟲,其中網頁請求發送可以采用requests庫或urllib庫,網頁數據解析可以采用re、xpath、BeautifulSoup、json等。同時還要進行文件的存儲和讀取操作,需要用到的是open()、write()、readline()、readlines()。中文分詞采用的是jieba,關鍵詞提取使用的算法為TF-IDF算法。

2? 設計

2.1 流程圖

學校Web站群不良信息外鏈檢測流程如圖1所示,主要分為四大部分:學校Web站群鏈接提取、外鏈網頁信息提取、關鍵詞提取、不良網站關鍵詞詞集提取。

2.2 學校Web站群鏈接提取

學校Web站群鏈接提取即從學校的Web站群中找出所有的可疑外鏈。具體步驟為:將學校Web站群的所有鏈接都放入到URL隊列中,并對每個鏈接進行發送請求、獲取網頁內容、從網頁內容中解析獲得鏈接3步操作。學校Web站群內網頁之間的鏈接稱之為內鏈接,而已知的外部鏈接可以稱之為白名單鏈接。所有的鏈接都執行完成后,從解析出的鏈接中去除內鏈和白名單鏈接,對其余的外鏈做進一步的處理。

2.3 外鏈網頁信息提取

從學校Web站群中解析出的可疑外鏈,要進行進一步的分析才能確定是否為不良外鏈。首先要做的就是要獲取外鏈網頁信息,同樣需要發送請求、獲取網頁內容、從網頁內容中解析獲得網頁內容3步操作。獲取的可疑外鏈的網頁內容后,將網頁內容以文本格式進行存儲。

2.4 不良網站關鍵詞詞集收集

不良網站關鍵詞詞集收集是一個長期的工作,隨著時代的發展新的詞匯的出現要及時進行更新。收集的工作可以使用關鍵詞提取技術對一些不良網站的信息進行關鍵詞提取,也可以通過人工的形式進行補充。總之,不良網站關鍵詞詞集收集的越多越準確,對不良外鏈的認定就越準確。

2.5 關鍵詞提取

該文使用jieba中文分詞實現了分詞、詞性標注、關鍵字提取。關鍵字提取也就是從文本信息中,找到能代表文本主要信息的詞并把這些詞提取出來。但是并不是說一個詞在文本中出現的頻率越高越能表現文章的主旨,關鍵詞的提取要結合一定的算法,該文中jieba關鍵詞提取使用的為TF-IDF算法。TF-IDF算法的主要思想為:一個詞在一個文檔中出現的次數越高,即TF高;并且在所有文檔中出現的次數越少,即DF低(IDF高),越能代表文章的主旨意思。

從外鏈的網頁內容文本中進行關鍵詞提取,提取出來的關鍵字與提前收集好的不良網站關鍵詞詞集進行對比,并計算網頁中關鍵詞在詞集中的百分比,若百分比大于閾值則認為是不良外鏈,若百分比小于閾值則認為是正常外鏈。而閾值的設定要經過大量的實驗,進而確定一個比較合理的值。

3? 關鍵問題解決方法

3.1 外鏈網絡的反爬蟲機制

網站的所有者從所有的網站來訪者中識別出爬蟲并對其做出相應的處理,稱之為反爬蟲。對于網絡所有者而言,爬蟲并不是一個受歡迎的客人。外鏈網站中有的網站也存在反爬蟲,而且不同的外鏈網站采用的反爬機制不同。如果外鏈網站存在反爬機制,可能導致獲取網頁內容失敗的情況,因此要根據不同的反爬機制進行爬取策略的制定。爬蟲的行為和普通用戶訪問網站的行為要盡量類似,常用的反爬策略有:發送模擬user_agent、調整訪問頻率、使用代理ip、識別驗證碼并校驗、模擬登錄等。

3.2 閾值的設定

不良外鏈判斷的關鍵之一是設定合理的閾值。并不是從可疑外鏈中提取出的關鍵字包含了不良網站關鍵詞詞集的內容就認定為不良外鏈,而是要看提取出的關鍵字中有多少比例的關鍵字屬于不良網站關鍵詞詞集。因此,需要通過大量的實驗,確定與詞集匹配的關鍵詞權重的閾值,并進一步確定不良外鏈的判定規則。

4? 不良外鏈的預防方法

學習網站中不良外鏈多出現于發布的新聞中引用的外鏈,為了防止外鏈因過期、被黑、管理不善等原因變成黑鏈、毒鏈、黃鏈對學校造成不良影響,在信息發布時可以從以下幾點進行預防。

(1)定期對學校Web站群中的外鏈進行清理,不需要的外鏈應及時刪除。

(2)在學校Web站群中進行信息發布時盡量避免指向學校以外的網絡的鏈接,如果因工作需要發布的外鏈可以只發布文件地址而不加超級鏈接,或者在工作完成后即使刪除超級鏈接。

(3)從互聯網上復制的文字可能包含大量的超級鏈接,不應該直接復制發布,應先復制到記事本中去掉格式化再發布。

(4)在學校Web站群中設置的校外友情鏈接,應做好記錄并定期檢查。

5? 結語

外鏈對網站至關重要,在肯定其重要性的同時,分析其可能帶來的網絡風險。使用Python語言的網絡爬蟲技術與關鍵詞提取技術對學校Web站群中的外鏈進行分析,從而獲得不良外鏈,替代了傳統人工判斷的方式,提高了判斷的效率,為學生和老師提供了寧靜清澈的網絡環境。

參考文獻

[1] 張濤,廖力.基于鏈接的網站搜索引擎優化策略[J].湖北工業大學學報,2010(5):61-63.

[2] 黑馬程序員.解析Python網絡爬蟲[M].北京:中國鐵道出版社有限公司,2019:24-123.

[3] 牛永潔.基于Python的改進關鍵詞提取算法的實現[J].電子設計工程,2019,27(13):11-15.

[4] 王潔,王麗清.多特征關鍵詞提取算法研[J].計算機系統應用,2018,27(7):162-166.

[5] 曾小芹.基于Python的中文結巴分詞技術實現[J].信息與電腦,2019(18):38-42.

[6] 潘亞星.基于Python的詞云生成研究[J].電腦知識與技術,2019,15(24):8-10.

[7] 蘇航.基于語義的文獻關鍵字提取技術的研究[D].吉林大學,2020.

[8] 邵玉涵.基于知識和圖結構的詞義消歧算法研究[D].合肥工業大學,2019.

猜你喜歡
學校
我為什么要上這所學校
再回學校
School 學校
只有我一個人在學校是這樣嗎
意林(2021年11期)2021-09-10 07:22:44
學校熔化了
小讀者(2020年2期)2020-03-12 10:34:12
我的學校
快樂語文(2018年36期)2018-03-12 00:55:56
學校100天慶祝日
學校推介
留學生(2016年6期)2016-07-25 17:55:29
上學校
奇妙學校
主站蜘蛛池模板: 四虎永久免费地址在线网站| 高清乱码精品福利在线视频| 免费国产高清精品一区在线| 中日韩一区二区三区中文免费视频 | 欧美国产日韩另类| 丰满的少妇人妻无码区| 欧美成人午夜影院| 精品综合久久久久久97超人该| 欧美怡红院视频一区二区三区| 99偷拍视频精品一区二区| 午夜精品福利影院| 91精品专区国产盗摄| 亚洲午夜福利精品无码不卡 | 欧美色图第一页| 国产91在线|日本| 欧美国产在线看| 免费视频在线2021入口| 色丁丁毛片在线观看| 99久久精品久久久久久婷婷| 亚洲愉拍一区二区精品| 国产无码精品在线播放| 国产91精品久久| 国产亚洲精品自在久久不卡| 一本大道视频精品人妻 | 国产福利一区视频| 久久频这里精品99香蕉久网址| 久久国产乱子伦视频无卡顿| 97久久免费视频| 天天综合天天综合| 国产精欧美一区二区三区| 少妇人妻无码首页| 一区二区日韩国产精久久| 免费女人18毛片a级毛片视频| 中国国产高清免费AV片| 97视频精品全国免费观看| 99久久国产综合精品女同| 国产乱子伦手机在线| www.精品视频| 国产欧美日韩精品综合在线| 中文字幕亚洲第一| 中文字幕首页系列人妻| 午夜高清国产拍精品| 欧美一区二区人人喊爽| 无码中文字幕精品推荐| 国产成人精品一区二区秒拍1o| 亚洲人成影视在线观看| 极品性荡少妇一区二区色欲| 污视频日本| 99久久精品国产综合婷婷| 久久美女精品| 9cao视频精品| 亚洲av无码人妻| 美女被操黄色视频网站| 国产人人乐人人爱| 国产视频一区二区在线观看| 欧美va亚洲va香蕉在线| 日韩欧美中文字幕在线韩免费| 国产xx在线观看| 永久在线精品免费视频观看| 999精品视频在线| 996免费视频国产在线播放| 欧洲高清无码在线| AV熟女乱| 亚洲日韩每日更新| 高清色本在线www| 日本妇乱子伦视频| 亚洲成在线观看 | 国产亚洲精品无码专| 一本综合久久| 不卡视频国产| 亚洲黄色网站视频| 伊人久久精品无码麻豆精品| 国产av无码日韩av无码网站| 伊人91在线| 在线国产你懂的| 福利片91| 亚洲最大福利网站| 看av免费毛片手机播放| 亚洲高清中文字幕在线看不卡| 久久无码免费束人妻| 另类专区亚洲| 久久伊人久久亚洲综合|