摘 要 伴隨著云端數據日益膨脹,想要從大量的數據當中快速尋找想要的數據是非常困難的,這也成為了當前亟待解決的重要課題。目前,數據檢索技術已經阻礙了云計算進一步的發展。本文系統闡述了云計算的概念以及大數據存儲特征,介紹了Web信息收集與檢索,并從檢索請求分析以及匹配檢索請求兩個方面研究了檢索的過程。
【關鍵詞】云計算 大數據 檢索技術
在當前信息技術快速發展的時期,云計算已經成為了政界、學術界、互聯網企業等關注的焦點。云計算主要是利用互聯網平臺,通過大量的計算與存儲資源將互聯網有機連接在一起,從而形成虛擬IT資源池,根據用戶需求提供相應的服務。在IT產業界當中,云計算被看做是網絡時代又出現的一個新的產業增長點,具備較高的市場發展前景。云計算理念與當前低碳經濟以及綠色計算趨勢相吻合,并且具有發展為未來網絡神經系統的潛力。云計算已經在信息領域引領了空前的工業革命,帶動了傳統電信行業、互聯網行業乃至社會產業的重要變革。
1 云計算下大數據信息檢索技術概述
1.1 云計算定義
云計算有著很多種不同的定義,其中被普遍接受的一種是由NIST在2011年提出的,它認為云計算是一類利用網絡,利用便捷方式從包括服務器、網絡、應用、存儲以及服務在內的共享計算機資源池中獲得服務的業務形式,云計算業務資源在簡潔的交互以及管理過程中得以快速的釋放與部署。
1.2 大數據存儲特征
云計算的產生催生了大數據。大數據主要是指大量的結構化以及半結構化數據。其具備面積大、多樣化、價值密度低、快速處理能力等四方面特征。這些特征表明了針對大數據所采取的檢索方式不能等同于傳統方式。
假如使用傳統關系數據庫實現數據的保存,那么不僅耗費時間同時也耗費金錢,實現起來比較困難。超過一半以上的大數據屬于非結構化數據,他們是通過文件的方式進行儲存的。現在,大數據主要存儲在集群文件系統當中。該系統的核心在于:一個大數據文件被分成了很多部分。塊數據主要儲存在塊服務器當中,每一個塊都會存在相應的元數據,而元數據則保存在主服務器當中。元數據的保存類型包括了文件與塊命名空間、每個塊數據備份位置、塊的映射文件。其中,命名空間的元數據主要被用作維護文件系統命名空間,在命名空間當中就能夠查到相應的文件以及目錄路徑,該路徑會對應想要查詢的內容。此外,還有一種元數據主要記錄文件位置,通過查詢相應的信息,就能夠獲取數據位置偏移量。因為某些文本信息因為是非直接描述的,所以經常出現誤用的情況,這也是很多企業比如谷歌非常重視元數據準確描述的原因所在。
2 Web信息收集和檢索
信息價值密度與總量呈現出反比的關系,在數以億計的信息當中,可以滿足用戶需要的通常只有區區幾頁。云計算本身的計算能力較強,能夠充分使用云數據獲取最終的處理結果。如何保證云計算能夠從大量的數據當中獲得客戶想要的信息是現在急切需要解決的重要問題。從信息檢索層面看,百度以及谷歌等公司依然處在領先地位。
信息檢索過程中會對各個服務器進行分析,并排序數據信息,相似度相對較高的服務器通常會在前列,與此同時,對于服務器當中所存儲的數據展開全面的分布式檢索,最終檢索結果會保存在Index Repository當中,而網頁通常保存在搜索引擎當中,用戶一旦提出了搜索請求,通常都會在Index Repository當中完成信息檢索工作的,并按照PageRank方法對倒序索引展開計算工作,這些內容最終都被放在了索引存儲器中。與此同時,頁面標題以及所涉及的數據信息會被放在相對應的索引內容下,方便使用廣度優先的方法對其展開搜索,相應的,網頁的內容則會被置于另一個索引當中,方便使用深度優先的方法展開搜索工作。
盡管用戶所查的相關信息都會在搜索引擎緩存區當中存放,但是用戶在查詢相關信息的時候依然會出現延遲的情況,為了提升搜索的效率,需要構建一個存放關鍵詞的詞庫,便于使用者展開搜索工作。
3 檢索過程
數據的檢索首先由用戶提出查詢請求,并且把關鍵詞提交給檢索代理,檢索代理將檢索的關鍵詞傳送到索引存儲器當中,將檢索的結果按照相關度重新進行排序,然后傳送到用戶的檢索界面,并呈現到用戶的面前,從而顯著提升檢索速度以及能力。
3.1 檢索請求分析
檢索用戶在搜索引擎上輸入關鍵字,并且提交檢索請求,慢慢的發現與之相匹配的網頁內容,搜索引擎會詳細分析這次搜索請求,并且對搜索請求展開細致的分析,并作出分詞處理。中文分詞通常采用基于字符串匹配、理解分詞方法以及統計分詞方法。
3.2 匹配檢索請求
當用戶提出請求以后,搜索引擎會展開系統分析,匹配出與之符合的URL,其數量較大,只有采用搜索引擎遵循YRL匹配程度對其排序,才可以有序呈現出最終的結果。系統對文檔內容全面分析以后所獲得的信息、網頁當中的PageRank值,最終都會和鏈接文件當中與網頁內容相關的信息聯系在一起,此時其檢索結果也會相應的確定,從而可以客觀的在網頁當中顯示出來,能夠最大限度確保所有結果與用戶希望查詢的結果一致。
4 檢索技術發展趨勢
利用云計算實現大數據檢索技術,不僅能夠保護用戶的隱私,同時還因為技術具有計算量小、快捷方便,所以其本身有著極高的應用前景。與此同時,這項技術巧妙的使用了信息認證碼,所以即便是存在不同文件重疊的情況,只要選擇出了合適的關鍵句組合以及關鍵詞,那么計算出來的MAC值也會存在差異性,這就更加表明該技術具有較高的精確度。可是這項技術也存在一些缺陷,假如在重復率相對較高的文件當中選擇的關鍵詞以及關鍵字相同,那么就無法保證最終檢測出的數據信息是用戶想要的。所以在確保技術高效、簡潔的同時,還需要努力提升檢索技術的精確度,這是未來亟待解決的重要課題。
參考文獻
[1]劉月.探究云計算下大數據的信息檢索技術應用[J].數字技術與應用,2015(07):95-95.
[2]黃曉清.基于云計算分析大數據信息檢索技術[J].科學中國人,2016(11).
[3]吳謀碩.基于云計算的Web信息收集與檢索過程分析[J].信息與電腦(理論版),2016(15):34-35.
作者簡介
萬冬娥(1971-),女,山東省棗莊市人。現為棗莊職業學院副教授。研究方向為計算機、云計算。
作者單位
棗莊職業學院 山東省棗莊市 277800