999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于物聯網技術的搜索引擎技術研究

2018-07-28 07:20:04劉丹英于光偉
科技創新與應用 2018年20期
關鍵詞:搜索引擎物聯網技術

劉丹英 于光偉

摘 要:近年來,隨著物聯網在各個領域的不斷應用,使搜索引擎技術具備了極為廣闊的發展前景,針對搜索引擎在我國的應用現狀,現將物聯網技術應用到搜索引擎軟件當中,以此提高搜索引擎軟件的速度,使搜索引擎能夠為人們提供更好的信息搜索服務。

關鍵詞:物聯網;搜索引擎;軟件模塊;技術;設計

中圖分類號:TP391.3 文獻標志碼:A 文章編號:2095-2945(2018)20-0143-02

Abstract: In recent years, with the continuous application of the Internet of things (IoT) in various fields, search engine technology has a very broad development prospects. In view of the current situation of search engine application in China, the Internet of things technology is now applied to search engine software to improve the speed of search engine software, so that search engines can provide people with better information search services.

Keywords: Internet of things (IoT); search engine; software module; technology; design

引言

隨著物聯網技術的不斷發展,將信息技術和物聯網技術進行融合,將使其在各個領域中發揮更大的作用。其主要包括檢索器、搜索器、用戶接口及索引器四個組成部分。搜索引擎在物聯網中發揮著極為重要的作用,人們能夠通過搜索引擎在物聯網中搜索到自己所需的信息,同時還能利用搜索引擎進行漫游,可以說,搜索引擎極大程度地滿足了人們對信息的需求。將物聯網技術應用到搜索引擎技術當中去,能夠在很大程度上提高搜索引擎的性能,使搜索引擎在物聯網中進行更加優質的信息搜索服務。因此,本文便對基于物聯網技術的搜索引擎技術進行深入的研究,以此開發出更加智能化的搜索引擎。

1 基于物聯網技術的搜索引擎軟件模塊的設計

在基于物聯網技術的搜索引擎軟件中,其共包括四個組成模塊,這些模塊分別是網頁抓取模塊、內容索引模塊、內容提取模塊以及內容顯示模塊,以下便對這四個組成模塊進行深入的研究。

1.1 網頁抓取模塊的設計

網頁抓取模塊的功能在于其能夠對用戶所指定的站點實施網頁抓取,然后將所抓取的網頁存儲到用戶計算機的數據庫當中。而在本文中所提到的基于物聯網技術的搜索引擎軟件模塊能夠從騰訊、搜狐、鳳凰及網易等大型網站中對相關網頁進行抓取,其只需要將這些大型網站中的頁面URL當作種子URL,并對這些大網站中的網頁URL所具備的格式進行分析,然后對網絡爬蟲在網頁分析及抓取時所產生的行為進行相應的控制,并對能夠進行爬取的網頁URL格式和對能夠進入到等待爬取的URL隊列所具備的URL格式進行限定。而要想使網絡爬蟲的爬取速度得到相應提高,就必須要對URL分配策略進行相應的改善,以確保網絡爬蟲所具備的并發線程數量能夠增多,同時,還可以對Robot文件訪問進行限制,以達到提高網絡爬蟲爬取網頁效率的目的。

1.2 內容提取模塊的設計

網頁內容的提取模塊功能在于其能夠從用戶計算機存儲的網頁中根據特定的提取規則來對用戶的所需信息進行提取,然后將這些提取的信息按照相應的格式存儲至數據庫當中。其在分析目標網頁過程中,會對相應的信息抽取規則進行制定,以定位網頁中的相關內容,同時對網頁中所包含的文本內容進行抽取。在網頁信息詞庫的構建中,利用分詞器來對用戶所需的提取信息進行解析,然后將這些提取到的信息寫入到相應的詞庫文件當中,從而使這些提取出的網頁信息能夠轉化為結構化信息,最后再由數據庫對這些結構化信息進行存儲。

1.3 內容索引模塊的設計

在基于物聯網技術的搜索引擎軟件中,對于內容索引模塊的設計,主要是通過Luence索引工具來根據數據庫中所存儲的結構化信息來對索引文件進行建立的,在成功建立索引文件后,再將這些索引文件分別存儲至磁盤當中。這樣,當用戶需要對相應的內容進行索引查詢時,其只需要在搜索引擎中輸入相應的查詢條件,即可對磁盤中的任意索引文件實施查詢,而且搜索引擎軟件還會根據用戶輸入的查詢條件的滿足程度,按照相應的順序分別反饋給用戶,從而使用戶能夠對所有符合查詢條件的索引文件進行一目了然地篩選。

1.4 內容顯示模塊的設計

在基于物聯網技術的搜索引擎軟件中,內容顯示模塊的設計也是一大設計要點,該模塊以Jsp技術為核心,在向用戶展示界面時,是以Web形式實現的。用戶在對某些信息進行搜索時,需要在搜索引擎軟件的搜索欄界面輸入相應的關鍵詞,此時,搜索引擎軟件便會根據用戶搜索的詞,從本地數據庫中對能夠與關鍵詞相匹配的網頁進行查詢,在查詢到所有與關鍵詞相匹配的網頁后,搜索引擎軟件會根據這些網頁的匹配程度,并按照相應的排序規則將這些網頁顯示到界面當中,用戶只需要點擊這些網頁信息,便可迅速切換到該網頁的詳細內容,進而幫助用戶快速找出網頁內容。

2 基于物聯網技術的搜索引擎技術的具體設計

2.1 網頁抓取

在基于物聯網技術的搜索引擎軟件設計中,網頁抓取技術實質上便是一個能夠對網頁進行自動提取的網絡爬蟲程序,其能夠從物聯網中對網頁進行下載,可以說,該程序也是搜索引擎軟件的核心所在。在以往的網絡爬蟲中,其是從單獨或多個初始網頁的URL做為起始點,以得到這些初始網頁中的URL格式,其在對網頁進行抓取時,需要在當前界面中對新的URL進行不斷地抽取,然后將其放入到隊列當中,當滿足停止條件時才會停止。對于聚焦爬蟲的工作流程來說,其是比較復雜的,其依據網頁分析算法來對網頁中和主題沒有關系的鏈接進行過濾,并對有用鏈接進行保留,同時將其置于待抓取URL隊列當中。此時,其便會按照特定的搜索策略在URL隊列中對需要進一步抓取的網頁URL進行抓取,然后對上述過程進行不斷的重復,直至滿足系統的停止條件時才停取抓取。網頁抓取模塊利用網絡爬蟲從各個網頁中對用戶的所需頁面URL進行爬取。網絡爬蟲在被激活時,我們需要在URL請求隊列中加入URL種子,種子應為具備代表性的頁面URL,如鳳凰、搜狐、騰訊等,并通過分析這些具備代表性的頁面URL格式,以獲得與上述頁面相符的URL格式,然后將這些URL格式放入到請求隊列當中。

2.2 網頁信息抽取

在搜索引擎軟件中的網頁信息抽取模塊中,其主要是根據相應的抽取規則來對本地計算機中存儲的網頁進行相關信息的抽取,然后將這些抽取到的用戶所需信息按照相應的格式存儲至數據庫當中。其在對網頁信息進行抽取時,需要對存儲網頁的本地文件夾進行遍歷搜索,遍歷的方法可以采用深度優先遍歷或廣度優先遍歷等。當遍歷到該文件中包含有需要抓取的網頁時,則會通過Jsoup的使用來對網頁中的作者、標題、正文及時間進行定向抓取,然后將這些抓取到的內容按照.txt格式存儲至用戶所指定的文件夾當中。對于這些抓取到的內容,如網頁中的標題、發布時間、作者、鏈接地址等還會存儲到數據庫中的new表相應列當中。

2.3 內容索引

在內容索引時,搜索引擎會根據數據庫中所存儲的結構化信息,通過Luence索引工具來對相應的索引文件進行構建,在索引文件構建好以后會將其存儲至磁盤當中,然后依據用戶的查詢條件來對相應的索引文件進行排序,然后將排序結果反饋給用戶。

綜上所述,本文根據物聯網技術中所生成的海量數據,提出一種基于物聯網技術的搜索引擎,該搜索引擎在實際應用過程中具備以下功能:其一,通過擴展網絡爬蟲來提高網頁抓取速度;其二,利用Jsoup網頁解析工具來對目標網頁中的具體內容進行提取,然后將這些提取到的內容存儲到數據庫當中;其三,利用Luence檢索工具實現用戶對本地數據庫中相關信息的索引,并采用Jsp來對信息進行過濾及展示;其四,通過MYSQL數據庫在搜索引擎中的應用,以使搜索成本降低,并且MYSQL數據庫還能有效減輕結果集的負荷,使數據的傳輸速度加快;其五,搜索引擎軟件的界面美觀簡便。通過對該搜索引擎軟件進行測試,測試結果證明,基于物聯網技術的搜索引擎在信息搜索過程中具備穩定、高效的優勢,同時具備良好的UI交互設計功能。

參考文獻:

[1]李彥辰,艾慶忠,王少非.基于Redis的分布式搜索引擎研究[J].軟件導刊,2018,17(03):201-204.

[2]郭文俊,喬世東.基于多Agent的搜索引擎技術的研究[J].山西大同大學學報(自然科學版),2017,33(03):4-6.

[3]楊宇,杜文斌,周亞軍.計算機搜索引擎智能化技術研究[J].電腦迷,2017(07):20.

[4]蔣繼婭,劉彤,劉宇.基于搜索引擎優化技術與模板引擎技術的網站優化策略[J].情報理論與實踐,2010(05):99-102.

[5]許瑞.搜索引擎技術的發展現狀與前景[J].中國新技術新產品,2017(02):20-21.

[6]楊子墨.智能技術在搜索引擎中的應用[J].科技創新與應用,2016(35):98.

[7]周先軍,曹基軍,周瑾,等.基于關鍵詞提煉的搜索引擎優化方案[J].科技創新與應用,2016(12):78-79.

猜你喜歡
搜索引擎物聯網技術
基于物聯網的煤礦智能倉儲與物流運輸管理系統設計與應用
淺談鋼筋混凝土結構建筑應用外包粘鋼加固技術
基于高職院校物聯網技術應用人才培養的思考分析
探討電力系統中配網自動化技術
科技視界(2016年21期)2016-10-17 20:00:58
移動應用系統開發
科技視界(2016年21期)2016-10-17 19:38:30
北京市中小企業優化升級
商(2016年27期)2016-10-17 04:13:28
中國或成“物聯網”領軍者
環球時報(2016-08-01)2016-08-01 07:04:45
網絡搜索引擎亟待規范
中國衛生(2015年12期)2015-11-10 05:13:38
基于Nutch的醫療搜索引擎的研究與開發
廣告主與搜索引擎的雙向博弈分析
主站蜘蛛池模板: 不卡网亚洲无码| 欧美 亚洲 日韩 国产| 日本影院一区| 亚洲精品国产精品乱码不卞| 欧美区一区| 亚洲h视频在线| 天天做天天爱天天爽综合区| 2021无码专区人妻系列日韩| 亚洲一级毛片| 青青热久麻豆精品视频在线观看| 97青草最新免费精品视频| 91在线播放国产| 亚洲区视频在线观看| 国产精品亚洲综合久久小说| 日韩不卡高清视频| 在线国产毛片手机小视频| av大片在线无码免费| 青青青视频蜜桃一区二区| 伊人色婷婷| 99无码中文字幕视频| 免费看黄片一区二区三区| 中文字幕有乳无码| 久久动漫精品| 99人妻碰碰碰久久久久禁片| 欧美yw精品日本国产精品| 最新日韩AV网址在线观看| 国产一区二区人大臿蕉香蕉| 中文字幕2区| 国产成人av一区二区三区| 国产在线97| 日本午夜影院| 亚洲三级电影在线播放| 久久天天躁狠狠躁夜夜2020一| 亚洲国产日韩一区| 亚洲人成高清| 久久性视频| 亚洲中文无码h在线观看| 久久久久人妻精品一区三寸蜜桃| 一本无码在线观看| 亚洲中文字幕在线一区播放| 欧美97色| 四虎影视库国产精品一区| 伊人91在线| 成人在线亚洲| 综合亚洲网| 欧美日韩动态图| 精品久久久久久中文字幕女| 中文字幕首页系列人妻| 无码国内精品人妻少妇蜜桃视频| 日韩天堂视频| 丝袜亚洲综合| 国产av色站网站| 亚洲AV电影不卡在线观看| 欧美日韩第三页| a级毛片在线免费| 99成人在线观看| 影音先锋丝袜制服| 亚洲黄色成人| 久久黄色一级视频| 欧美自慰一级看片免费| 91色爱欧美精品www| 亚洲91在线精品| 一区二区无码在线视频| 伊人久久大香线蕉综合影视| 国产99热| 找国产毛片看| 久久精品无码国产一区二区三区| 精品国产自| 国产精品9| 成人福利视频网| 成人国产精品2021| 在线视频一区二区三区不卡| AV无码国产在线看岛国岛| 天堂av高清一区二区三区| 亚洲欧美成人在线视频| 欧美日韩中文字幕在线| 日本91在线| 久久国产免费观看| 五月天久久综合| 自拍偷拍一区| 成人午夜在线播放| 丁香婷婷综合激情|