鐘建坤 陳紀欽


關鍵詞:云計算;大數據;信息檢索技術
云計算下的大數據網絡信息檢索技術,是在利用云計算技術對信息實現自動分析、挖掘后,通過優化云計算資源來實現自動化分析和挖掘,實現個性化的服務、決策的過程。以大數據為基礎的網絡信息檢索技術,以云計算為手段,能夠將網絡信息檢索技術與現代科學技術有機結合起來,形成一種全新的、新型服務模式。網絡信息檢索技術通過云計算等技術實現網絡信息的檢索、分析、挖掘,以為用戶提供更加高效、便捷的信息服務。
一、云計算與大數據的相關概述
大數據,是伴隨互聯網發展起來的新興事物,也是我國IT 產業發展的一個重要方向。大數據主要包括三大部分,即存儲與處理系統,包括云計算平臺、數據庫系統、網絡系統及相關的服務系統等。云計算是通過云計算平臺提供計算、存儲、網絡服務的一種新型計算模式,旨在為用戶節省資源、降低成本,并提高用戶體驗。此外,隨著網絡技術、計算機技術等信息技術發展進程的不斷加速,云計算也更加廣泛地應用于經濟社會之中。從傳統應用系統向云計算平臺轉型是互聯網發展過程中必然會出現的一個發展趨勢。一方面它給我們帶來了前所未有的技術;另一方面也給傳統行業帶來了前所未有的挑戰。因此,云計算對應用軟件開發人員、數據科學家、軟件開發人員來說具有十分重要的價值。
二、大數據網絡信息檢索技術
大數據網絡信息檢索技術是針對網絡信息特點和海量用戶需求發展起來的大數據網絡技術與應用技術。且大數據網絡信息檢索技術是通過數據收集、數據建模等方面的研究成果來實現大數據計算、挖掘、應用等方面的技術方法。因此,大數據網絡信息檢索技術,對大數據有著十分重要的作用。
(一)大數據網絡信息儲存
大數據網絡信息儲存數據庫的構成包括兩個部分:一是存儲,即數據的對象存儲;二是數據處理,即數據的內容處理。存儲主要是將數據存儲到內存中去進行存儲,計算主要是將數據計算到字節級的存儲。其大數據的網絡信息儲存內容具體如表1 所示。
1. 分布式存儲技術
分布式存儲技術主要是通過一系列復雜的技術實現數據的統一管理,將多個用戶數據集中起來,然后通過分布式存儲技術將各個用戶的數據集中起來,再利用分布式存儲技術對各個用戶的數據存儲。因此,分布式存儲的主要優點是數據保存的安全性與效率比較高,另外還可以將大數據作為數據的存儲對象進行利用。但是在數據存儲方面存在著成本較高且性能不穩定的不足之處[1]。因此要想實現大規模的存儲,就需要將數據集中起來儲存好,在數據儲存方面也需要采用存儲技術,來進行大數據存儲的研究開發,才能夠獲得良好的經濟效益。
2. 系統內存存儲技術
系統內存存儲技術是大數據系統的核心,它是一種動態內存存儲技術,可以有效地提高系統對大數據資源的利用率,實現數據庫的快速擴容,并且支持了在復雜環境下保持系統性能的優化。該技術是目前最先進的內存存儲技術,也是大數據系統的核心技術。目前,大數據系統內存存儲技術主要分為兩種類型:第一種是異構內存技術,主要有分布式內存技術及異構的數據庫技術;第二種是融合內存技術,主要有MongoDB 及HBase 兩種技術。其中異構內存技術具有很高的擴展性,可以廣泛應用于多核處理器中。因此,異構內存技術已經成為大數據時代信息存儲技術的核心。
(二)元數據的具體應用
元數據是存儲在數據庫中的數據集合,一般是由一組數據文件組成,在建立數據庫的過程中,需要對這些數據文件進行排序、抽取、轉換、提取,以獲取相應的記錄。目前元數據主要用于對數據庫相關知識的解讀,以及對新應用、新問題的發現或預測,以及對數據庫知識圖譜、高級分析工具等軟件程序上使用。而在傳統存儲結構中,往往只存儲簡單類型的源代碼。但是傳統結構化數據在數據庫中具有不可替代性,在使用時需要對傳統結構化信息進行分析后,再形成可執行文件保存在數據庫中[2]。因此,其在數據庫系統架構中起著至關重要的“連接”作用。
(三)WEB 信息收集與檢索
從當前的信息社會發展來看,信息的種類越來越豐富,并且是一個非常具有包容性的信息資源,人們不僅可以在網上直接訪問到所需要的信息,而且還可以通過網站的鏈接來實現在線交易等。對于WEB 系統,在獲取信息的過程中,主要有兩種方法:一種是直接在網站上輸入需要的內容,這種方式存在信息質量差的不足之處;另一種是通過查詢網站的信息來獲取內容與信息,這種方式也存在著一定的問題。因此,針對這兩種方法,在WEB 的信息收集與檢索過程中,就必須采用良好且準確的信息獲取流程與相應的方式,來對信息的質量問題加以保障。
三、網絡信息的收集與檢索
(一)網頁收錄
大數據是指在信息技術快速發展的背景下新出現的以數據量增長為特征的信息結構。它的特征是數據規模龐大、分布廣泛,并且數據的可收集性極強。數據的形式多種多樣,它可以是自然數,可以是互聯網的URL數據,也可以是通過各類的數據源來獲取數據,可以是文本、圖片、視頻等信息,也可以是其他類型的數據。在傳統的網頁的分類中。它分為多種分類類型,如以中文為例:HTML 類網站分類,就是按照其所處環境分類來劃分的。在每個分類下再細分出若干個子分類,如游戲、購物、新聞資訊以及信息等。
(二)數據檢索
數據檢索是大數據分析的核心內容,是為了實現數據的最優化和效率最大化而采用的技術,是云計算下大數據應用最為關鍵的一個部分。很多企業都需要通過數據檢索,來獲取業務系統中需要的數據信息,為企業經營決策提供依據。在企業中也存在著大量的數據資源需要存儲、查詢,存儲也就是在使用的過程中不斷地進行學習、優化和改進。這就要求企業要將大量應用系統的數據進行檢索,并對其進行整理分類、關聯、提取、清洗,等處理之后再進行分析,以提高其使用效率并減少因重復而造成的經濟損失與浪費[3]。
(三)檢索過程
大數據檢索,即為用戶將需要處理的數據集中起來處理。通過分析海量數據,并采用不同的檢索模型,來達到提升用戶服務效率和準確性的目的。根據傳統的Hadoop 等數據庫檢索模型,大數據檢索主要包括三個階段:第一階段是基于對海量用戶數據集的檢索;第二階段是基于業務用戶數據集,如:搜索、社交網絡等檢索;第三階段才是基于核心業務用戶數據集的檢索。此外,在對數據庫進行研究分析時,主要的研究內容包括:如何將分散的、可訪問的、結構化和非結構化數據組合起來,建立一個數據庫。從內容來看,數據庫分為分布式數據庫、非結構化數據庫和表數據庫。從結構來看,分布式數據庫和非結構化數據庫分別通過將不同的屬性放在不同對象上,從而構建出了不同類型的查詢系統、查詢引擎、擴展功能。
四、云計算在大數據網絡信息檢索技術中的應用
(一)云計算中私有云的具體應用
隨著互聯網的快速發展,信息和數據的價值不斷提高,各大企業都開始將IT 部門轉移到互聯網上,利用互聯網技術來提供信息服務。云計算中的私有云主要用于IT 部門,企業IT 部門將自己的計算資源和存儲資源等向私有云平臺遷移。從使用效果上看,私有云能夠很好地滿足IT 部門的業務需求。其主要應用如表2 所示。
1. 解決企業信息安全問題
通過應用大數據,私有云可以很好地保護企業的重要信息,使企業可以有效地應對網絡攻擊,保障企業信息安全。在使用私有云模式時,企業可以將自己的服務器搬到私有云平臺上運行,實現安全托管功能。采用云計算技術在保證數據存儲信息安全的同時,能夠有效地解決企業存儲的數據存在著數據丟失和泄露等問題[4]。此外,在企業內部還可以使用私有云模式做數據共享;在數據共享過程中,也無需擔心存儲在企業內任何服務器與其他服務器之間存在著數據丟失和泄露等問題,從而更好地實現了企業內部員工對私有云平臺數據的共享訪問,提升了企業內部資源利用率,以及大幅度地降低企業辦公成本。
2. 支持企業業務不斷創新
為了保證業務處理過程中的數據安全,企業一般采用防火墻、入侵檢測、密鑰管理等安全技術,來保障業務核心數據安全。但同時企業自身缺乏相應的IT 人才,如果采用普通安全技術,這些專業人員的需求和精力有限。如果企業業務發展需要大量人力,又缺少技術人員來保障服務能力,這時候私有云就是一個很好的選擇。與傳統IT 技術相比,私有云平臺可提供更多的支持,在支持業務創新方面具有獨特優勢。此外,基于云平臺能夠提供實時備份及安全監控等服務以滿足客戶需求;且能夠更好地對業務擴展與個性化服務進行優化。
3. 減少IT 人員工作強度
云計算環境下,IT 人員可將自己的資源向私有云遷移,并通過提供相應服務或技術來實現資源的有效利用,大大降低了IT 人員的工作強度,并提高了IT 人員的工作效率,同時避免了IT 人員出現重復勞動的現象。目前,在國內已經有一些大型的IT 企業開始使用云計算環境的私有云平臺進行數據遷移。用戶可通過云平臺提供相關的服務,這樣用戶既可以輕松管理自己的虛擬資源,又可以靈活操作其軟件資源或其他資源。
(二)網絡環境中云計算技術應用
云計算作為一種商業模式,在全球范圍內得到了廣泛推廣,也正在各個行業中得到了廣泛運用。伴隨著互聯網技術的發展,網絡環境正變得越來越復雜多變,所以傳統企業需要尋找一個安全可靠、可擴展且適合自身需求的環境來開展業務,才能不斷提升自身競爭力。例如,存儲和計算系統會變得非常昂貴和難以維護,并且需要一個專門用以管理云計算的服務器來提供高效率;許多企業沒有足夠先進的網絡設施確保數據能夠安全地傳輸;或者IT 服務需要快速升級、更換和擴展等等;云計算在一定程度上都可以對這些問題進行解決。
(三)實現信息檢索中的計算資源
如今計算技術的日益優化,網絡信息檢索技術所使用的計算資源已經從最開始的“CPU+ 內存部分”逐漸擴展到“硬盤+ 內存部分”“CPU+ 內存”以及內存的擴展等多種方式。其中硬盤存儲數據通常以磁盤和光盤組合的方式進行。由于磁盤存儲數據占用內存較小,因此可以將其當作磁盤存儲計算資源;而光盤存儲數據相對較為復雜,需要一定的計算資源支持才能使用。因此,針對網絡信息檢索技術來說,若想要利用大數據進行挖掘分析并不是一件十分簡單的事情,還需要更加深入的研究來加以解決。
(四)提高計算機的資源處理能力
隨著計算機技術的發展,能夠充分發揮出計算機硬件資源優勢的云計算就是一種新興的計算資源應用模式。云計算在網絡信息檢索技術中應用的關鍵技術在于,提高數據庫信息系統資源處理能力,使其更快地在互聯網中得到應用。通過云計算技術可使大數據在企業內部的應用更高效更便捷,使其更加適應信息化社會的發展需要[5]。當前,我國企業網絡信息檢索技術還不夠成熟,用戶對于網絡信息檢索技術要求不高,也不具備強大的網絡信息檢索能力。因此,我們應該大力發展云計算技術以提高計算機資源處理能力,從而能夠實現更加高效的網絡信息檢索技術應用。
(五)拓展網絡信息檢索應用范圍
以云計算為基礎,可以在一定程度上拓展網絡信息檢索技術的應用范圍。例如,可以利用云計算技術為用戶提供信息查詢服務,這是一種基于云計算的信息查詢服務模式。用戶通過使用云計算來完成網絡信息的檢索目標,那么就可以利用這種模式對網絡信息進行分析和挖掘,并在其分析結果的基礎上確定查詢的目標或范圍,從而將網絡信息轉化成為有價值高效率的信息內容或信息形式。借助云計算這種網絡信息查詢的模式服務用戶,將會極大地提高用戶在網絡信息檢索中的便利性和準確性。
五、結束語
綜上所述,在信息檢索領域中,基于云計算的大數據檢索技術與網絡信息檢索技術的融合是一個非常好的發展方向,其不僅能夠為信息檢索提供更加高效的解決方案,還可以實現資源協同辦公,為用戶提供更多便利。此外,云計算大數據技術已經在互聯網領域發揮了巨大應用,但由于技術的不成熟,目前仍存在一定程度上的安全隱患。因此,要積極推動該技術在互聯網領域的應用和普及,建立安全可信的網絡環境,以確保為用戶提供更好的服務,進而促進我國大數據行業的良好發展。