999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Python技術(shù)的校園網(wǎng)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)

2019-11-05 07:45:15熊輝
科技視界 2019年28期
關(guān)鍵詞:信息化設(shè)計(jì)

熊輝

【摘 要】面對(duì)高速發(fā)展的經(jīng)濟(jì)以及科技新突破給我國(guó)帶來(lái)的翻天覆地變化,互聯(lián)網(wǎng)已經(jīng)普及國(guó)內(nèi)外,人們的生活也因科技的作用而便利了很多,但科技是一把“雙刃劍”,互聯(lián)網(wǎng)的高速發(fā)展與各種信息的傳播也讓給我們帶來(lái)了“信息污染”,一時(shí)間很難辨別信息的正確性。對(duì)于校園數(shù)字化建設(shè)來(lái)說(shuō),也同樣不可避免的會(huì)受到“信息污染”的干擾,各種無(wú)效信息使我們對(duì)正確信息的查找與定位變得艱難,而調(diào)查發(fā)現(xiàn)對(duì)于很多學(xué)校來(lái)說(shuō),大多是運(yùn)用很普通的搜索引擎檢索信息,而普通的搜索引擎難以搜集到有效、正確的信息。針對(duì)上述問(wèn)題,為了還學(xué)校一個(gè)高效、清凈的信息環(huán)境,筆者將結(jié)合Python技術(shù)對(duì)校園網(wǎng)的搜索引擎進(jìn)行相關(guān)介紹和設(shè)計(jì),設(shè)計(jì)方案僅供參考。

【關(guān)鍵詞】Python技術(shù);校園網(wǎng)搜索引擎;設(shè)計(jì);信息化;信息污染

中圖分類(lèi)號(hào): TP391.3;TP393.18文獻(xiàn)標(biāo)識(shí)碼: A文章編號(hào): 2095-2457(2019)28-0173-002

DOI:10.19694/j.cnki.issn2095-2457.2019.28.079

【Abstract】In the face of the rapid development of the economy and new breakthroughs in science and technology to bring about great changes in our country, the Internet has been popularized at home and abroad, people's lives are also because of the role of science and technology and facilitate a lot, but science and technology is a "double-edged sword", the rapid development of the Internet and the dissemination of various information has also brought us "information pollution", It's hard to tell the correctness of information for a while. For the campus digital construction, is also inevitable by the "information pollution" interference, all kinds of invalid information makes us to find and locate the correct information become difficult, and the survey found that for many schools, most lying through a very common search engine to retrieve information, and ordinary search engines difficult to collect effective, The right information. In view of the above-mentioned problems, in order to return the school an efficient and clean information environment, the author will combine Python technology on the campus network search engine related introduction and design, design design for reference only.

【Key words】Python technology; Campus web search engine; Design; Information; Information pollution

21世紀(jì)是一個(gè)經(jīng)濟(jì)高速發(fā)展,高度信息化的社會(huì),互聯(lián)網(wǎng)在我國(guó)境內(nèi)幾乎已經(jīng)全覆蓋,通過(guò)它人們不出門(mén)就能夠獲取各種各樣的信息,但如今隨著它的高速發(fā)展,各種各樣的網(wǎng)絡(luò)信息也隨處都是,人們有時(shí)候很難在第一時(shí)間找到自己想要的信息,因此要想讓自己的信息搜索效率提高就需要改進(jìn)搜索引擎,好的搜索引擎能夠極大的幫助人們獲取自己想要的信息。本文將主要針對(duì)校園網(wǎng)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)進(jìn)行探討,而要將校園網(wǎng)搜索引擎設(shè)計(jì)好則需要運(yùn)用Python技術(shù),筆者下文將對(duì)此展開(kāi)分析,第一,從建立校園網(wǎng)搜索引擎的相關(guān)流程展開(kāi):首先構(gòu)建設(shè)計(jì)框架,然后再利用反向引擎進(jìn)行索引。第二,對(duì)scrapy爬蟲(chóng)框架運(yùn)用于校園網(wǎng)搜索引擎的設(shè)計(jì)進(jìn)行詳細(xì)介紹:首先解釋Scrapy爬蟲(chóng)框架的含義以及其運(yùn)行步驟,然后在Scrapy爬蟲(chóng)對(duì)URL進(jìn)行查重種推薦更有效的算法進(jìn)行查重,最后對(duì)寫(xiě)完爬蟲(chóng)后要進(jìn)行相關(guān)的設(shè)置進(jìn)行簡(jiǎn)單介紹。

1 建立搜索引擎的相關(guān)流程

1.1 首先建立框架

要想將校園搜索引擎建立好首先就要將設(shè)計(jì)的流程先分析好,然后再對(duì)Python語(yǔ)言中的Scrapy開(kāi)源網(wǎng)絡(luò)爬蟲(chóng)結(jié)構(gòu)進(jìn)行分析然后做設(shè)計(jì),這之后要進(jìn)行分析以Python語(yǔ)言為基礎(chǔ)的Whoosh索引檢索庫(kù),最后還要測(cè)試自己建構(gòu)的系統(tǒng)的實(shí)際效用。

1.2 什么是網(wǎng)絡(luò)爬蟲(chóng)

網(wǎng)絡(luò)爬蟲(chóng)的前身是“網(wǎng)絡(luò)漫游者”,1993年時(shí)已經(jīng)誕生。“網(wǎng)絡(luò)漫游者”被稱(chēng)作網(wǎng)絡(luò)機(jī)器人,是全世界中第一個(gè)出現(xiàn)的網(wǎng)絡(luò)爬蟲(chóng)程序。之所以將其網(wǎng)絡(luò)爬蟲(chóng)是因?yàn)樗軌蚶脠D論程序中的遍歷算法將互聯(lián)網(wǎng)中充斥的信息下載下來(lái),而若要建立搜索引擎,利用圖論程序中的遍歷算法先下載互聯(lián)網(wǎng)的信息這個(gè)步驟是必不可少的。此方法目的是要利用互聯(lián)網(wǎng)中的每個(gè)網(wǎng)頁(yè)中的超鏈接將每個(gè)網(wǎng)頁(yè)相互連接,即將互聯(lián)網(wǎng)比作一張巨大的網(wǎng)絡(luò),里面的每個(gè)網(wǎng)頁(yè)比作一個(gè)點(diǎn),然后利用網(wǎng)頁(yè)的超鏈接將每個(gè)網(wǎng)頁(yè)鏈接,這樣才能為搜索引擎的有效使用打好堅(jiān)實(shí)的基礎(chǔ)。

1.3 利用搜索引擎進(jìn)行索引

要進(jìn)行有效的索引必須進(jìn)行布爾集合運(yùn)算,這是所有搜索引擎的基礎(chǔ),無(wú)論其設(shè)計(jì)的引擎有多么高端智能,都要運(yùn)用該運(yùn)算,總之布爾運(yùn)算是索引的核心。布爾運(yùn)算的三個(gè)運(yùn)算邏輯是and、or和not,O與I是該運(yùn)算主要使用的值。

索引包括正向索引和反向索引。其中正索引是先把每篇文章中的關(guān)鍵詞圈出并建立集合,然后再將關(guān)鍵詞提取出來(lái),索引程序會(huì)將每一個(gè)關(guān)鍵詞出現(xiàn)的位置以及次數(shù)記下,進(jìn)行正索引時(shí)就能夠有效的對(duì)文檔中的關(guān)鍵詞進(jìn)行有效的查詢(xún)、索引、分析,注意正向索引以遍歷掃描為基礎(chǔ),要掃描所有文檔關(guān)鍵詞得出結(jié)論,。而且這個(gè)過(guò)程會(huì)受到系列因素的限制,比如內(nèi)存、處理器和時(shí)間等,這就導(dǎo)致工作效率不高。因此我們實(shí)際工作中主要是對(duì)反向索引進(jìn)行設(shè)計(jì)和運(yùn)用,反向索引以“單詞——文檔矩陣”為結(jié)構(gòu),可以通過(guò)關(guān)鍵詞快速的搜索自己想要查詢(xún)信息,因此對(duì)于校園網(wǎng)搜索引擎的設(shè)計(jì),筆者是運(yùn)用反向索引程序進(jìn)行索引。

2 將scrapy爬蟲(chóng)框架運(yùn)用于校園網(wǎng)搜索引擎中

2.1 Scrapy爬蟲(chóng)框架的介紹以及運(yùn)行步驟

Scrapy是一種爬蟲(chóng)框架,它的效用發(fā)揮需要以Python語(yǔ)言技術(shù)為基礎(chǔ),這種爬蟲(chóng)結(jié)構(gòu)進(jìn)入到網(wǎng)站數(shù)據(jù)中就能夠提取想要的數(shù)據(jù)信息。不僅如此,而且它對(duì)數(shù)據(jù)的挖掘、歷史數(shù)據(jù)的存儲(chǔ)、自動(dòng)測(cè)試和檢測(cè)以及信息的處理方面都起來(lái)重要的作用,應(yīng)用廣泛。

Scrapy的運(yùn)行步驟主要包括四步。第一,為了能夠?qū)ξ磥?lái)信息進(jìn)行有效抓取,需要在基于Scrapy爬蟲(chóng)框架的校園網(wǎng)搜索引擎的調(diào)度器中提取URL(連接)。第二,利用該引擎將連接(URL)變成一個(gè)請(qǐng)求通過(guò)下載器傳送并且通過(guò)下載器將其下載下來(lái),之后嘴周會(huì)將其包裝變成相應(yīng)的回答。第三,scrapy爬蟲(chóng)接受應(yīng)答。第四,爬蟲(chóng)接收后若解讀出實(shí)體則將其交給管道進(jìn)行在處理,而如果解析出的是URL(連接)則將其床給調(diào)度器,最后信息就會(huì)被抓取。

2.2 利用Scrapy爬蟲(chóng)框架對(duì)URL進(jìn)行查重

利用Scrapy爬蟲(chóng)框架對(duì)URL進(jìn)行查重,主要是利用RFP Dupe Filter類(lèi)進(jìn)行實(shí)現(xiàn)的,這個(gè)過(guò)程的實(shí)現(xiàn)需要輸入一系列代碼,這之后就能夠?qū)π畔⑦M(jìn)行有效的查重。這個(gè)過(guò)程中Scrapy有自帶的算法對(duì)URL查重,但是因?yàn)榫W(wǎng)頁(yè)數(shù)量的巨大,而且查重過(guò)程還會(huì)占用很大的內(nèi)存,因此該算法存在一定的缺陷,不太能適用。所以利用Scrapy爬蟲(chóng)框架對(duì)URL進(jìn)行查重時(shí)推薦用Bloom Filter算法,筆者運(yùn)用此算法可以利用布隆過(guò)濾器節(jié)省大量的內(nèi)存。

2.3 寫(xiě)完爬蟲(chóng)后要進(jìn)行相關(guān)的設(shè)置

一般寫(xiě)完爬蟲(chóng)之后不做另外的設(shè)置的話(huà),那么對(duì)網(wǎng)站訪(fǎng)問(wèn)時(shí)就會(huì)被立刻禁止,所以寫(xiě)完爬蟲(chóng)不能直接默認(rèn),要進(jìn)行相關(guān)設(shè)置,有兩種方法可供選擇。第一中方法可以在settings-py的文件中對(duì)download-delay程序進(jìn)行相關(guān)的設(shè)置,為了能夠有效降低爬蟲(chóng)爬取頻率要對(duì)其賦值1s以上,不過(guò)這種方法的缺點(diǎn)是會(huì)使抓取目標(biāo)的時(shí)間延長(zhǎng)。第二種方法可以運(yùn)用user agent池,筆者運(yùn)用這種設(shè)置方法后可以更加高效的縮短抓取目標(biāo)的時(shí)間,因此推薦在此過(guò)程中運(yùn)用第二種方法對(duì)爬蟲(chóng)進(jìn)行相關(guān)設(shè)置,以免Scrapy爬蟲(chóng)被禁止。

3 結(jié)語(yǔ)

綜合上述分析可知,要運(yùn)用python技術(shù)建立高效的校園網(wǎng)搜索引擎是一個(gè)科技含量高且難度大的工程,但為了校園網(wǎng)絡(luò)的清凈,筆者認(rèn)為學(xué)校還是很有必要跟上科技的潮流,對(duì)學(xué)校的相關(guān)搜索引擎進(jìn)行改善。本文針對(duì)如今“信息污染”嚴(yán)重化的問(wèn)題對(duì)基于python技術(shù)的校園網(wǎng)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)進(jìn)行了相應(yīng)的分析,主要是為同行提供了筆者認(rèn)為在索引中更加有效的方法,而且在實(shí)際的測(cè)試中通過(guò)相應(yīng)的技術(shù)改進(jìn)和正確的方法可以有效的控制索引更新的速度從而提高其更新的頻率,使校園網(wǎng)收取信息更及時(shí),并且筆者利用Python技術(shù)使搜索程序簡(jiǎn)單化、高效化。希望上述方法能給相關(guān)從業(yè)者提供有價(jià)值的參考,讓搜索引擎更加高效,還學(xué)校、社會(huì)一個(gè)更加清凈的“信息社會(huì)”。

【參考文獻(xiàn)】

[1]陳道存[1],劉斌[2],張?chǎng)蝃3].高校FTP搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J].蚌埠學(xué)院學(xué)報(bào),2015(3):1-5.

[2]楊國(guó)志,江業(yè)峰.基于python的聚焦網(wǎng)絡(luò)爬蟲(chóng)數(shù)據(jù)采集系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].科學(xué)技術(shù)創(chuàng)新,2018(2):73-74.

[3]陳蒙,王鋒,鄧輝,etal.基于Python的天文軟件命令行界面設(shè)計(jì)與實(shí)現(xiàn)[J].天文研究與技術(shù),2015,12(2):196-203.

[4]王天奇,管新潮.語(yǔ)料庫(kù)語(yǔ)言學(xué)研究的技術(shù)拓展——《Python文本分析:用可實(shí)現(xiàn)的方法挖掘數(shù)據(jù)價(jià)值》評(píng)介[J].外語(yǔ)電化教學(xué),2017(05):94-97.

猜你喜歡
信息化設(shè)計(jì)
月“睹”教育信息化
月“睹”教育信息化
幼兒教育信息化策略初探
甘肅教育(2020年18期)2020-10-28 09:06:02
何為設(shè)計(jì)的守護(hù)之道?
《豐收的喜悅展示設(shè)計(jì)》
流行色(2020年1期)2020-04-28 11:16:38
“云會(huì)計(jì)”在中小企業(yè)會(huì)計(jì)信息化中的應(yīng)用分析
活力(2019年21期)2019-04-01 12:16:40
瞞天過(guò)海——仿生設(shè)計(jì)萌到家
設(shè)計(jì)秀
海峽姐妹(2017年7期)2017-07-31 19:08:17
有種設(shè)計(jì)叫而專(zhuān)
Coco薇(2017年5期)2017-06-05 08:53:16
信息化是醫(yī)改的重要支撐
主站蜘蛛池模板: 国产欧美日韩91| 国产精品香蕉在线观看不卡| 亚洲无码熟妇人妻AV在线| 91精品福利自产拍在线观看| 日韩欧美中文字幕在线精品| 国产另类乱子伦精品免费女| 久久先锋资源| 欧美视频在线播放观看免费福利资源 | 97视频在线精品国自产拍| yy6080理论大片一级久久| 久久久久国色AV免费观看性色| 国产一级视频在线观看网站| 欧美精品伊人久久| 国产青榴视频在线观看网站| 在线无码私拍| 欧美成人午夜视频| 中文字幕 日韩 欧美| 亚洲综合片| 欧美精品综合视频一区二区| 亚洲福利片无码最新在线播放| 久久99这里精品8国产| 五月婷婷导航| 波多野一区| 91毛片网| 久久免费精品琪琪| 亚洲国产精品无码AV| 久草网视频在线| 日韩欧美一区在线观看| 亚洲色图欧美视频| 国产精品极品美女自在线网站| 成人亚洲天堂| 国产真实二区一区在线亚洲| 欧美国产菊爆免费观看| 尤物国产在线| 免费观看欧美性一级| 大陆精大陆国产国语精品1024| 国产精品视频3p| 免费在线色| 午夜影院a级片| 久久动漫精品| 性色一区| 日韩高清欧美| 久久永久视频| 亚洲综合狠狠| 夜精品a一区二区三区| 欧美精品影院| 波多野结衣一级毛片| 午夜人性色福利无码视频在线观看| 亚洲综合天堂网| 中文字幕在线视频免费| 久久香蕉国产线看观看精品蕉| 欧美伊人色综合久久天天| 久久久久久久久亚洲精品| 亚洲国产综合自在线另类| 日韩福利视频导航| 亚洲AⅤ永久无码精品毛片| 亚洲国产精品VA在线看黑人| swag国产精品| 美女扒开下面流白浆在线试听| 久久福利网| 91视频国产高清| 久草网视频在线| 国产99精品视频| 亚洲欧美自拍中文| 日本久久久久久免费网络| 久久精品无码一区二区国产区| 亚洲人成色在线观看| 伊人网址在线| 欧美一区精品| 在线精品视频成人网| 欧美亚洲一二三区| 久操线在视频在线观看| 91在线日韩在线播放| 91福利片| 国产精品yjizz视频网一二区| 久久青草视频| 久久77777| 欧美一区二区自偷自拍视频| 婷婷六月综合网| 亚洲av日韩综合一区尤物| 男人的天堂久久精品激情| 亚洲色婷婷一区二区|