張仁美
摘要
伴隨著現代化信息技術的發展,特別是互聯網的應用與普及,人們越來越多的采用互聯網技術進行工作、學習與生活活動,由此產生了大量的數據。如果能夠對這些數據進行整理和分析,就能夠得到許多有用的信息,這些信息將極大的促進社會生產的發展,因此,如何對互聯網中海量數據進行處理,并提取出有效信息,成為人們關注的重點。本文從Hadoop技術的使用必要性出發,對Hadoop技術的應用進行研究。
【關鍵詞】數據處理 Hadoop平臺 應用
Hadoop技術時一種當前非常流行的數據處理技術,Hadoop技術可以對Web日志中的海量數據進行統計并處理,從而得到有效的數據處理信息。Web日志中包含著計算機使用用戶的大量數據信息,例如用戶的瀏覽喜好、訪問地點、訪問時間等,這些數據數量龐大,十分復雜,傳統的計算機數據處理技術對Web日志數據的處理能力較差,難以滿足現代社會對于數據處理的需求,Hadoop數據處理技術就是在這樣的背景下被發明出來并逐步普及。
1現代數據處理使用Hadoop數據處理技術的重要性分析
現代人對于互聯網的依賴越來越重,人們可以通過互聯網工作、學習、社交、娛樂、購物活動,這些活動都是建立在互聯網云計算技術的基礎上進行的,這些活動通過對Web進行訪問來實現,而數據就是在對Web訪問的過程中產生的。舉一個生動的例子,以新浪微博網頁為例,公眾人物的“微博”訪問量過億,轉發和評論量過千萬已經是非常常見的現象,由此產生的數據的數量之巨大可想而知。人們在訪問Web時留下的數據沒有規律可言,這些數據都是訪問用戶的個人生活數字化軌跡,與他人的重合率很小。Web訪問數據的數量過多,規律性較差的特點決定了對Web訪問數據處理的難度極高,但Web訪問數據中包含著大量的信息,如果可以對這些信息進行提取,從小的方面來說可以掌握Web訪問者的個人偏好和需求,從大的方面來說可以預估世界經濟與政治動向。因此,如果能對這些數據進行有效處理,將會獲得巨大的信息價值。Hadoop技術就是在對數據處理要求越來越高的背景下誕生并投入使用的,Hadoop技術利用分布式方法對海量數據進行處理,從而實現對海量數據的快速分析。例如,從一個500M的數據庫中尋找到一個特定的內容,我們可以利用Linux命令grep,也可以對文件編程,通過正則匹配來得到我們想要的結果,但如果數據庫容量為100T,再利用以上兩種方法就行不通了,這時就需要用到Hadoop技術。Hadoop技術通過將Linux的鏈接pe組成分布式結點,然后再通過mapreduce規則定義接口方法,Hadoop就會自動的把信息分布到結點上,從而得到我們想要的結果。因此,Hadoop技術對于現代海量數據處理具有極高的重要性。
2Hadoop數據服務平臺中心的關鍵技術和應用
2.1技術要點
(1)當前數據服務平臺還需要不斷加強分布式層次化體系結構向外擴展的能力,一般大數據服務平臺系統都具有不同類別的分布形式并且可以不斷擴大整個體系結構所包含的范圍,這是大數據服務平臺在面對不同的儲存環境時有效的儲存管理辦法,以此來提高整個數據服務平臺的穩定性并且有效的擴大平臺數據的容量。建設數據服務中心過程中一定要具有統一、適用性強的數據模型,確保數據模型能夠將各種類型結構的數據的基本特征明確的表達出來。需要簡化操作步驟,以便被大范圍的投入使用。由于目前大數據被廣泛的應用到不同的科學技術領域,需要對數據的儲存模式進行不同類別的配置。
(2)增加數據平臺的語言查詢能力,加大整個關系數據庫的集成速度。當前應用于數據服務平臺的查詢語言應主要通過系統的組織能力對非結構化語言進行統一的組織和管理。查詢過程中系統自動提取和整合整個平臺的非結構化數據,確保整個查詢過程的高效性。大數據服務中心內部應配置相應的并行數據分析挖掘算法,在服務平臺內部設置相應數量的管理工具,對每個數據的真實含義進行充分的分析和挖掘,為廣大用戶提供準確性高的數據信息。將服務平臺的應用領域進行不斷的拓展,讓非結構數據具有開發式的結構框架,以適用于廣大用戶不同類型的數據檢索方法,改變數據平時的集成和融合方式,增加檢索數據整體的匹配性,努力打造一個開放統一的數據服務平臺,不斷拓展非結構化數據管理系統的應用范圍。數據服務平臺需要提供不同類別的系統接口,以便于用戶可以在不同的系統上使用數據服務平臺。
2.2主要應用
目前數據服務平臺多被應用到制作泛化表模型,可以將各種復雜的數據清晰的表示出來,并且能夠支持多種模式同時使用。能夠同時對大量的數據進行分析和計算,極大程度上提高了計算機處理大數據的綜合能力。Hadoop平臺的數據服務中心可根據系統儲存的需要進行擴大或縮小的自我調節。這也直接決定了數據的存放模式,可以將不同的數據進行分類存放,并且存放數據的位置并不是一成不變的,會不斷隨著系統負載的變化而不斷改變存放位置。利用Hadoop數據服務平臺所形成的泛化表結構是一個可進行調整的分層儲存結構,建立時以無模式對集合為主要基礎,讓不同結構層次的儲存空間相互聯系。一般上層儲存結構主要用于限定數據的基本邏輯結構,而下層的儲存結構主要規定了數據在物理上的組織方式,并且該儲存模式可以根據上層儲存數據的不同種類來配置與之相對應的下層結構。可以使用主從模式下的分布索引功能,以提高整個數據服務平臺的檢索效率,具有強大的語言查詢處理功能,支持大多數的語言查詢處理方式。
3總結
Hadoop技術可以對海量數據進行快速分析,從而高效的篩選出使用者想要獲取的數據信息,因此在現代大數據分析工作中被廣泛的應用;如果沒有Hadoop技術,網絡電商就無法為用戶推送個性化定制的商品推薦,社交網站也無法為用戶推送他們所感興趣的內容:因此,Hadoop技術對于海量數據處理的意義極高,我國的計算機專業研究人員應當進一步的對Hadoop技術進行提升與補充,從而進一步提升我國數據處理工作的效率與質量。
參考文獻
[1]張永芳,基于Hadoop平臺的并行數據挖掘算法研究[D].安徽理工大學,2016.
[2]羅樹蘭.基于Hadoop數據處理研究及應用[D].云南大學,2016.
[3]姜鋒,基于Hadoop平臺的海量數據處理研究及應用[D].北京郵電大學,2013.