999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

搜索引擎技術的發展現狀與前景

2017-03-04 09:04:39許瑞
中國新技術新產品 2017年4期
關鍵詞:搜索引擎

許瑞

摘 要:作為大眾連接互聯網的主要入口,搜索引擎根據搜索引擎使用者提交的請求有針對性地為其提供準確、高效以及可靠的檢索結果。然而由于互聯網資源的巨大性以及搜索引擎技術的復雜性,目前搜索引擎的檢索結果面臨準確性、可靠性和時效性等挑戰。本文將對當前的搜索引擎以及搜索引擎技術進行討論,并對他們的發展趨勢進行分析,同時對搜索引擎所面臨的問題進行剖析并給出相應的解決方法。

關鍵詞:搜索引擎;網絡爬蟲;檢索

中圖分類號:TP311.52 文獻標識碼:A

1.搜索引擎介紹

搜索引擎是指根據一定的策略、運用特定的計算機程序從互聯網上采集信息,在對信息進行組織和處理后,為用戶提供檢索服務,將檢索的相關信息展示給用戶的系統。搜索引擎是工作于互聯網上的一門檢索技術,它旨在提高人們獲取搜集信息的速度,為人們提供更好的網絡使用環境。從功能和原理上搜索引擎大致被分為全文搜索引擎、元搜索引擎、垂直搜索引擎和目錄搜索引擎等四大類。

全文搜索引擎是當前應用最為普遍的主流搜索引擎,國內外知名的有baidu,Google,Bing等。全文搜索引擎的工作原理是分詞程序將爬蟲程序從互聯網上抓取的文章中的內容預處理后進行分詞,然后計算機索引程序掃描分好的詞,對每一個詞建立倒排索引,并將該詞在文章中出現的位置以及次數記錄在數據庫中,當用戶檢索程序在用戶提交檢索請求時根據數據庫中事先建立的索引進行檢索,并將檢索結果反饋給用戶。全文搜索引擎數據庫的容量極大,檢索的范圍很廣,易用性較強,然而由于知識來源較為廣泛,導致重復的內容過多且繁雜,更新不夠迅速。

元搜索引擎就是通過一個統一的用戶界面幫助用戶在多個搜索引擎中選擇和利用合適的搜索引擎來實現檢索操作,是對分布于網絡中的多種檢索工具的全局控制機制。目前國內外有諸如360綜合搜索、InfoSpace等。元搜索引擎可以充分集中各搜索引擎的優勢有效地擴大了搜索引擎的檢索廣度和提高了檢索結果的準確率。元搜索引擎是基于多個搜索引擎上的二次整合,它沒有數據庫,因此相同的檢索請求會導致重復檢索。

垂直搜索引擎是針對某一個行業進行搜索的專業搜索引擎,是搜索引擎的細分和延伸,是對網頁庫中的某類專門的信息進行一次整合,定向分字段抽取出需要的數據進行處理后再返回給用戶。垂直搜索引擎是在特定的搜索領域來滿足特定的搜索需求如火車票搜索、視頻搜索等,其檢索范圍小而且是基于結構化數據和元數據的搜索,檢索結果準確度高,檢索時間短,所需耗費的成本低。

目錄搜索引擎是以人工方式或半自動方式搜集信息,由編輯員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框架中。信息大多面向網站,提供目錄瀏覽服務和直接檢索服務。它有別于其他的各類搜索引擎。

2.搜索引擎所用主要技術

搜索引擎工作流程主要有數據采集、數據預處理、數據處理、結果展示等階段。在各工作階段分別使用了網絡爬蟲、中文分詞、大數據處理、數據挖掘等技術。

網絡爬蟲也被稱為蜘蛛或者網絡機器人,它是搜索引擎抓取系統的重要組成部分。網絡爬蟲根據相應的規則,以某些站點作為起始站點通過各頁面上的超鏈接遍歷整個互聯網,利用URL引用根據廣度優先遍歷策略從一個html文檔爬行到另一個html文檔來抓取信息。

中文分詞是中文搜索引擎中一個相當關鍵的技術,在創建索引之前需要將中文內容合理的進行分詞。中文分詞是文本挖掘的基礎,對于輸入的一段中文,成功的進行中文分詞,可以達到電腦自動識別語句含義的效果。

大數據處理技術是通過運用大數據處理計算框架,對數據進行分布式計算。由于互聯網數據量相當龐大,需要利用大數據處理技術來提高數據處理的效率。在搜索引擎中,大數據處理技術主要用來執行對網頁重要度進行打分等數據計算。

數據挖掘就是從海量的數據中采用自動或半自動的建模算法,尋找隱藏在數據中的信息,是從數據庫中發現知識的過程。數據挖掘一般和計算機科學相關,并通過機器學習、模式識別、統計學等方法來實現知識挖掘。在搜索引擎中主要是進行文本挖掘,搜索文本信息需要理解人類的自然語言,文本挖掘指從大量文本數據中抽取隱含的、未知的、可能有用的信息。

3.搜索引擎以及搜索引擎技術發展趨勢

3.1 搜索引擎的發展趨勢

隨著移動業務、科技的發展和人們生活方式的改變,在未來搜索引擎將會發生明顯的變化。

3.1.1 知識圖譜搜索

知識圖譜是顯示知識發展進程與結構關系的一系列各種不同的圖形,用可視化技術描述知識資源及其載體,挖掘、分析、構建、繪制和顯示知識及它們之間的相互聯系。當用戶發起一個搜索請求后,除了顯示用戶搜索的結果,其他與之相關的重要信息也將以發散圖表的形式呈現出來。這一功能將在滿足用戶信息檢索的同時,可以更好的理解用戶所需要的內容。

3.1.2 個性化搜索

搜索引擎技術的通用性決定了它的普適性,從而忽略了搜索用戶個體之間的差異。個性化的搜索技術可以根據不同背景、不同目的和不同時期的查詢請求為不同用戶提供有針對性的個性化的搜索服務。個性化搜索通過采集以及分析不同的用戶數據信息來學習不同用戶的行為和愛好,從而實現對不同用戶進行差異化信息檢索的目的。

3.1.3 多媒體搜索

當前搜索引擎主要是基于文字進行搜索的,而圖片、音頻和視頻等多媒體搜索比純文本搜索要復雜得多,目前主流技術是通過對他們的描述文字進行解析來搜索,所以本質上來說還是基于文字的搜索,然而多媒體的描述文字經常與多媒體資料不匹配的問題導致多媒體搜索結果具有高度的不確定性,搜索結果極易受描述文字的干擾。未來的多媒體搜索技術將會通過對多媒體資料內容進行深度解析來彌補這一缺點。

3.1.4 跨語言搜索

語言已經成為限制不同語言的人們在互聯網上進行文化交流和科技交流最大的障礙,因此跨語言搜索必將成為未來搜索引擎必備的一個功能。目前跨語言搜索共有機器翻譯、雙語詞典查詢和雙語預料挖掘等三種方法。通過跨語言搜索能讓更多的人能夠共享異域文化與先進的科學技術。

3.2 搜索引擎技術的發展趨勢

3.2.1 信息抓取的數量和速度

互聯網是一個實時變化的拓撲信息網絡,每時每刻都會有大量的網頁被創建、更新。搜索引擎為了向用戶展現最新的互聯網信息,需要頻繁的去抓取互聯網上最近更新的網頁內容。在搜索引擎的抓取策略中,搜索引擎會頻繁的優先抓取高權重的網絡站點,而對于低權重的網絡站點,通常以一個相對較低的頻率去抓取,這將導致不能及時的抓取低權重站點的數據信息,從而影響檢索結果的準確性,搜索引擎需要兼顧低權重站點。

3.2.2 海量數據存儲

互聯網每天都會新產生大量的數據,如何存儲從互聯網上挖掘出來的海量數據將會給搜索引擎的服務端帶來極大的挑戰。現有的分布式存儲技術在一定程度上解決了當前的數據存儲問題,然而在未來數據量的增長速度將遠超現在,而且未來數據的類型也將越來越多樣化,如何有效的組織和存儲海量的、多樣化的數據將會是未來搜索引擎的一個發展熱點。

3.2.3 判斷用戶意圖及智能化發展

在搜索過程中,用戶所提交的搜索關鍵詞也許并不一定能準確表達他想要搜索的內容,搜索引擎通過利用人工智能技術合理的分析判斷用戶的真正意圖可以實現更加專業、更加準確有效的信息檢索,從而使用戶使用搜索引擎更加方便,進而可以極大地提高用戶的滿意度。

4.搜索引擎技術當前問題及解決方法

4.1 搜索引擎技術當前面臨的問題

網頁時效性:互聯網上的用戶眾多,數據信息來源極廣,互聯網上的網頁是呈實時動態變化的,網頁的更新、刪除等變動極為頻繁,有時候會出現新更新的網頁在爬蟲程序還來不及抓取的時候卻已經被刪除的情況,這將大大影響搜索結果的準確性。

大數據存儲問題:爬蟲抓取的數據在經過預處理后數據量依然相當龐大,這給大數據存儲技術帶來相當大的挑戰。當前大部分搜索引擎都是利用結構化的數據庫來存儲數據,結構化的數據庫存儲的數據具有高共享、低冗余等特點,然而由于結構化的數據庫難以并發查詢所以存在查詢效率受限的問題。

檢索結果可靠性:目前由于數據挖掘技術以及計算機硬件的限制使得數據處理準確度未能達到理想程度,而且由于一些個人或公司利用搜索引擎現有的漏洞通過作弊手段來干擾檢索結果導致檢索結果的可靠性可能會有損失。

4.2 解決方法

對于網頁時效性問題可以將權重高的網絡站點和權重低的網絡站點分開處理,對高權重和低權重的站點內容分別以合適的高頻率進行抓取,并將抓取的結果置于緩存中,索引程序對緩存中的數據進行處理,這樣可以使得高權重與低權重站點抓取并行處理,數據抓取與索引建立并行執行。通過優化數據的存儲結構,采用數據塊的模式借助于散列表連接的存儲模式可在一定程度上解決大數據存儲問題。通過加強反作弊技術,將先進的數據挖掘技術與神經網絡加速器硬件相結合可大幅度提高檢索結果的可靠性。

參考文獻

[1] Mohammed A. Alam and Doug Downey. Analyzing the content emphasis of web search engines.Proceedings of the 37th international ACM SIGIR conference on Research & development in information retrieval.SIGIR '14, Pages 1083-1086, 2014, ACM.

[2] Chavdar Botev, Sihem Amer-Yahia, Jayavel Shanmugasundaram. A TeXQuery-based XML full-text search engine. Proceedings of the 2004 ACM SIGMOD international conference on Management of data. SIGMOD '04, June 2004, ACM.

[3] A. Gulli, A. Signorini.Building an open source meta-search engine. Special interest tracks and posters of the 14th international conference on World Wide Web. WWW '05, May 2005, ACM.

[4]吳小蘭,汪琪.元搜索引擎研究綜述[J].圖書情報工作,2009(9):46-49.

[5]王文鈞,李巍.垂直搜索引擎的現狀與發展探究[J].情報科學,2010(3):477-480.

[6]秦長江,侯漢清.知識圖譜——信息管理與知識管理的新領域[J]. 大學圖書館學報,2009(1):30-37+96.

[7]文振威,秦曉.個性化搜索引擎的研究與設計[J].計算機工程與設計,2009(2):342-344+394.

猜你喜歡
搜索引擎
Chrome 99 Canary恢復可移除預置搜索引擎選項
網絡搜索引擎亟待規范
中國衛生(2015年12期)2015-11-10 05:13:38
Nutch搜索引擎在網絡輿情管控中的應用
警察技術(2015年3期)2015-02-27 15:37:09
基于Nutch的醫療搜索引擎的研究與開發
廣告主與搜索引擎的雙向博弈分析
基于Lucene搜索引擎的研究
知識漫畫
百科知識(2012年11期)2012-04-29 08:30:15
一種自反饋式元搜索系統的設計
搜索引擎,不止有百度與谷歌
搜索,也要“深搜熟濾”
主站蜘蛛池模板: 久久鸭综合久久国产| 真人高潮娇喘嗯啊在线观看| 呦视频在线一区二区三区| 欧美日韩国产综合视频在线观看| 午夜一区二区三区| 欧美a在线视频| 狠狠色狠狠综合久久| 亚洲成人播放| 天天综合天天综合| 欧美日韩在线观看一区二区三区| 国产亚洲精| 免费啪啪网址| 久久99蜜桃精品久久久久小说| 亚洲黄网在线| 国产毛片不卡| 五月天综合婷婷| 在线中文字幕网| 四虎永久免费地址在线网站 | 成人在线观看一区| 亚洲水蜜桃久久综合网站| 成人久久精品一区二区三区| 国产成人免费手机在线观看视频| 久久精品这里只有国产中文精品 | 亚洲精品无码久久毛片波多野吉| 亚洲aaa视频| 91色国产在线| 激情亚洲天堂| 国产凹凸一区在线观看视频| 亚洲AⅤ永久无码精品毛片| 91午夜福利在线观看精品| 国产精品伦视频观看免费| 日韩午夜伦| 亚洲天堂首页| 国产av一码二码三码无码| 亚亚洲乱码一二三四区| 亚洲自偷自拍另类小说| 天天色天天操综合网| 欧美爱爱网| www.精品国产| 在线一级毛片| 国产女人在线观看| 国外欧美一区另类中文字幕| 重口调教一区二区视频| 国内毛片视频| 色婷婷电影网| 亚洲午夜福利精品无码| 亚洲黄色视频在线观看一区| 亚洲第一成年免费网站| 欧美成人A视频| 中国特黄美女一级视频| 人妻无码中文字幕第一区| 干中文字幕| 五月婷婷欧美| 青青国产视频| 亚洲成aⅴ人在线观看| 国产夜色视频| 国产va在线观看| 亚洲色偷偷偷鲁综合| 国产玖玖玖精品视频| 国产白浆在线| 久久视精品| 国产v欧美v日韩v综合精品| 国产精品网址在线观看你懂的| 91精品久久久久久无码人妻| 啪啪免费视频一区二区| 四虎精品免费久久| P尤物久久99国产综合精品| 亚洲精品另类| 黄色福利在线| 国产91精品久久| 亚洲中文字幕无码mv| 国产精品亚洲专区一区| 91po国产在线精品免费观看| 亚洲精品大秀视频| 欧美色综合网站| 欧美一级色视频| 国产黑丝视频在线观看| 亚洲无码在线午夜电影| AV片亚洲国产男人的天堂| 国产成人综合亚洲欧美在| 欧洲在线免费视频| 欧美区一区|