999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop分布式架構的數據挖掘與服務系統設計

2019-05-14 08:25:10賈麗杜浩趙一鳴梁孝彬吳思
數字技術與應用 2019年2期
關鍵詞:數據挖掘

賈麗 杜浩 趙一鳴 梁孝彬 吳思

摘要:隨著信息化技術和終端智能的迅猛發展,需要處理的數據呈現數據量大、非結構化等特點,使數據的存儲、挖掘成為當前亟待解決的問題。本文基于Hadoop分布式架構設計了一套數據挖掘與服務系統,有效實現數據的分布存儲、處理及深度挖掘,發揮數據的內在價值。

關鍵詞:Hadoop;數據挖掘;分布式

中圖分類號:TP311.13 文獻標識碼:A 文章編號:1007-9416(2019)02-0176-03

0 引言

未來數據存儲規模及處理技術的發展趨勢為,數據規模上,呈現指數級增長,PB級的數據存儲需求在大型單位中日益增多;在數據類型上,大量非結構化數據需要被進一步處理;處理速度上,需要滿足萬次/秒的查詢需求,并在實現以上功能的基礎上保持高可靠性及高分析效率。一直以來,大規模的數據被毫無邏輯的堆砌在存儲系統中,數據本身價值往往沒有被深入挖掘。隨著大數據技術的興起和發展,數據的價值正在逐步體現。

1 數據挖掘現狀及不足

1.1 內部數據利用價值低

大部分大中型單位在企業自身信息化建設過程中,通過ERP、CRM、SCM、BI等信息系統實現了業務數據和產品數據的收集存儲,積累了大量的數據。而在通過數據挖掘提升產品性能或業務能力方面進展相對滯后,往往更借助于通過互聯網或第三方數據來了解外部技術及業務發展,未能實現舉一反三。相比互聯網或者第三方數據,企業內部的數據與單位的屬性、需求、任務、應用直接相關,其深層的價值更高。據統計,亞馬遜近30%的收入來自于基于大數據相似度分析來推薦產品。

1.2 非結構化數據難以有效應用

按照產生主體分,企業數據較少一部分產生于企業應用(關系型數據庫中的數據、數據倉庫中的數據),更多的是人產生的數據(設計文檔、圖紙文件)及機器產生的數據(傳感器數據、多媒體數據、RFID數據)。非結構化的信息占據了企業數據的一大部分,其中包含如三維模型、多媒體資料、表格數據、電子郵件、富文本文檔(RTF)、Web網頁數據、即時消息等,這些數據大多為裝備(或產品)設計過程產生數據、使用過程中數據、測試數據、產品的使用說明、產品使用者在使用過程中反饋的報告等,涉及到不同數據源、不同格式及不同業務。分析非結構化數據的前提是能夠采集、存儲、解析,其處理方式與基于關系型數據庫的結構化數據處理方式有顯著的差異[1]。

1.3 數據可視化管理要求越來越高

通過所見即所得,可以更快的發現、定位、解決問題,提高運行效率;管理科學化,變被動為主動,實現精細化管理,進一步豐富管理手段;集中化減少現場值守人員、可遠程管理維護,降低了人力投入;直觀顯示能耗狀況及能源消耗分布,可降本增效,增強了控制能源消耗。一旦實現可視化,所呈現出的數據,是以前站在現實機房都是無法看到也無法感受的。越來越多的管理者提出了數據可視化的需求,因為這些采用不同的顏色、圖像逐一展現的表達,將為提高工作效率、降低成本、加強管理提供幫助。

2 未來數據挖掘技術的發展趨勢

2.1 數據存儲規模增大

數據存儲面臨的問題是當前硬盤采用的垂直磁記錄技術推出多年,已經“老態龍鐘”。盡管該技術可以將大量信息壓縮進很小的磁盤空間,不過還是沒有辦法再提升數據存儲密度。目前的大數據主要存儲于由標準軟硬件組成的傳統磁盤存儲陣列,同步性能差,效率低下。隨著數據量的攀升以及隨之而來的對于信息處理的需求增加,大中型單位將不得不戰略性地思考如何長遠地管理數據[2]。

2.2 數據處理計算技術涌現

大數據處理有以下三個基本的解決途徑:

(1)降低計算復雜度。當數據規模增長到PB級時,現有的線性或多項式復雜度的機器學習和數據挖掘算法將花費難以接受的時間開銷。利用傳統的SQL語言實現一次PB級大數據的復雜查詢有可能需要幾個小時甚至引起系統崩潰。因此,需要尋找新的復雜度更低的算法。

(2)降低數據量級。在保證精度的前提下,利用樣本數據抽樣來完成數據的處理。

(3)并行處理。在一個大規模平臺上完成數據的分布式存儲和并行計算,既解決了數據的存儲問題,也具有較高的計算效率。

2.3 數據挖掘計算模式突出

隨著大數據處理應用需求急劇增長,更加優化的計算模式和工具平臺被不斷推出。目前主要有基于Hadoop的性能提升及混合式大數據計算模式。一方面,Hadoop已發展成為目前最主流的大數據處理平臺,Hadoop結合虛擬化技術、云計算技術的應用促進了其性能的提升,增加了其對不同問題的適用性。另一方面,采用混合計算模式,如MapReduce與GPU-CUDA的混合,或MapReduce 集群與OpenMP/MPI的混合等[3-4],解決了對不同類型、不同特性的數據計算應用需求。

3 數據挖掘與服務系統總體架構設計

結合業務數據特點,數據挖掘系統采用基于Hadoop分布式的分層結構,整個架構分為五層和兩個體系,即基礎設施層、服務層、應用層及用戶層,信息安全體系和運營管理體系,如圖1所示。

(1)基礎設施層。基礎設施層包括系統的基礎硬件、Hadoop存儲、虛擬化及資源池化、自動化資源調度和管理等模塊。其中,系統基礎硬件包含網絡、服務器、存儲等以及系統配套硬件;Hadoop存儲包含元數據服務和數據存儲服務;虛擬化與資源池化層包含對服務器、存儲及網絡的虛擬化處理,通過云平臺,對外提供運行環境;資源調度和管理自動化實現物力資源和虛擬資源的監控,提供自動化部署、彈性擴展、負載均衡、動態遷移、按需供給等功能,是實現云計算的核心。

(2)服務層。服務層提供基于Hadoop平臺的軟件支撐服務,包括數據的查詢、瀏覽、統計、分析、決策等。提供云狀態服務,可以根據用戶需求進行功能的定制、裁剪及擴展。以圖形、表格和虛擬化相結合的方式,直觀、準確、動態地展示業務部門各個方面的信息,實現數據資源狀況“一覽無余”。

(3)應用層。應用層是基于Hadoop平臺對外提供的終端服務,即數據挖掘服務,可以劃分為基礎應用和專業服務。基礎應用即統一的門戶登錄、統一接口等功能,專業服務主要指的是通過關聯分析、分類分析、聚類分析、序列分析、偏差檢測分析、實時預測分析、模式相似性分析等挖掘算法來實現業務數據的最大價值化。

(4)用戶層。用戶層即本系統的各類使用者,主要包括部門領導用戶、各項業務用戶及系統管理用戶。

(5)信息安全體系。信息安全體系在物理環境、數據信息,網絡安全、應用安全等方面制定了嚴格的安全策略,確保數據不會被篡改、攻擊、丟失。

(6)運營管理體系。運營管理體系為系統的正常運行提供管理流程接口及業務數據支撐。

4 軟件功能設計

本系統基于Hadoop的分布式架構來實現數據的挖掘與服務,系統整體分為Hadoop模塊、數據存儲管理模塊、數據預處理模塊、數據網絡挖掘模塊及可視化綜合管理模塊,如圖2所示。

Hadoop主要核心由兩部分組成,即HDFS分布式文件系統和MapReduce并行計算框架。通過HDFS來實現對分布式存儲的底層支持,并通過MapReduce運行框架來實現并行運算。因此針對部門裝備生命周期相關的數據,應先進行特定的規則篩選,并將篩選整理后的結果以Hadoop的文件格式存儲至分布式文件系統中[5]。

數據存儲管理模塊,是針對各部門現有數據,采用hadoop分布式架構構建的部門數據管理系統,此系統對裝備生命周期數據賦予時間信息,使部門或集團數據形成高效的自動關聯機制,從而實現海量業務數據快速有效的組織與管理。

數據預處理模塊執行設備數據清理、數據集成等操作,將噪聲數據處理掉,為數據挖掘過程準備結構良好、格式標準的數據。

數據挖掘模塊結合數據挖掘應用服務需求,利用聚類分析算法中的K-means算法,SPRINT并行算法等,建立面向應用數據的多維度深度關聯模式,利用數據多維關聯模型的目標關聯、網格編碼關聯、時間關聯、事件關聯等,實現數據之間的多維度、多層級深度關聯,為面向應用的數據高效服務保障奠定基礎。

可視化綜合管理模塊在一定程度上把分立系統的不同功能有效地組織起來,結合服務化設計思想和信息安全等先進技術實現數據及應用層面的集成,為用戶提供一個統一的應用服務功能入口。實現系統用戶權限管理、日志及監控管理、數據資源管理及可視化調度、網絡管理等功能。

5 系統設計優勢

5.1 高性能

采用Hadoop架構平臺,可以實現類型復雜、數量龐雜的數據不同深度不同層次的數據挖掘,處理維度更加廣泛,而且數據挖掘結果可以通用接口提供給其他應用。Hadoop集群具有高可擴展性,隨著集群規模的增長,其計算能力也隨之成倍增長。

5.2 高可擴展性

Hadoop架構是在計算機集簇間動態分配數據并完成并行計算任務的,這些集簇可以擴展到上萬臺節點來完成海量數據的存儲,并且各個節點之間可以動態地遷移數據確保平衡,處理速度快,擴展性強。

5.3 成本效益

傳統的數據存儲與分析中心在數據量增大時,往往是通過硬件的擴容、服務節點的增加來實現,往往成本較高且規模龐大。而Hadoop可以通過擴展其存儲空間來完成數據存儲,以很低的成本來完成高可靠的存儲及高容錯性的數據計算,降低用戶的經濟成本。

5.4 多維度、多深度關聯性

Hadoop體系中的HBase非常適合于非結構化數據存儲,HBase中沒有表與表之間關聯查詢,可快速將現有業務數據進行有效關聯,并構建動態索引大表,使海量數據實現深度關聯。

6 結語

本文基于Hadoop分布式架構設計了一套數據挖掘與服務系統,可實現海量結構與非結構數據的采集、存儲、處理及深層次挖掘,為數據的高效組織、管理及利用提供了有效的技術途徑。

參考文獻

[1] 柏秋云.大數據的價值與挑戰[J].科技信息,2013(17):479.

[2] 孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013,50(1):146-169.

[3] 李建中,劉顯敏.大數據的一個重要方面:數據可用性[J].計算機研究與發展,2013,50(6):1147-1162.

[4] 曹小陽.基于云計算的大數據挖掘內涵及解決方案研究[J].數字技術與應用,2017(11):108-112.

[5] 袁春園.基于Hadoop云計算平臺的數據挖掘分析[J].信息與電腦(理論版),2015(15):58-59.

Design of Data Mining and Service System Based on Hadoop Distributed Architecture

JIA Li,DU Hao,ZHAO Yi-Ming,LIANG Xiao-bin,WU Si

(China Academy Of Launch Vehicle Technology,Beijing 100076)

Abstract:With the rapid development of information and intelligent terminal technology, the data needed to be processed has grown enormously. How to store and mine the massive data become more essential at present. This article solves the problem of massive data storing, sharing and mining by building cluster system on the basis of Hadoop,and can bring the intrinsic value of data into play.

Key words:Hadoop; data mining; distributed architecture

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 亚洲自偷自拍另类小说| 精品欧美视频| 久久性视频| 日本在线视频免费| 日韩123欧美字幕| 亚洲中文字幕23页在线| 欧美激情福利| 国产在线一区视频| 青青青国产视频手机| 91青青草视频在线观看的| 中文纯内无码H| 国产欧美性爱网| 国产第一页第二页| 91丝袜美腿高跟国产极品老师| 在线无码av一区二区三区| 久久精品人人做人人爽| 午夜三级在线| 91偷拍一区| 亚洲精品中文字幕无乱码| 久久久噜噜噜久久中文字幕色伊伊| 欧美精品啪啪一区二区三区| 亚洲欧美综合在线观看| 毛片免费高清免费| 国产精品免费露脸视频| 久久久久久久久18禁秘| 久久人人97超碰人人澡爱香蕉| 亚洲美女一区二区三区| 2021国产精品自拍| 亚洲国产精品VA在线看黑人| 美女免费黄网站| 国产精品色婷婷在线观看| 亚洲无码视频图片| 国产成人一区免费观看| 亚洲黄色成人| 天天色综网| 欧美日韩国产综合视频在线观看 | 97国产在线播放| 1级黄色毛片| 激情影院内射美女| 青青操国产| 免费在线成人网| 国产亚洲精品91| 亚洲精品成人片在线观看 | 噜噜噜久久| 国产小视频a在线观看| 亚洲国产日韩视频观看| 欧美性猛交一区二区三区| AV在线天堂进入| 久一在线视频| 亚洲精品黄| 97视频免费在线观看| 国产午夜无码专区喷水| 久久国产热| 亚洲人精品亚洲人成在线| av午夜福利一片免费看| 欧美在线精品怡红院| 久久精品人人做人人爽电影蜜月| 成人av专区精品无码国产| 免费无码网站| 88国产经典欧美一区二区三区| 色婷婷视频在线| 免费又黄又爽又猛大片午夜| 尤物成AV人片在线观看| 91精品久久久久久无码人妻| 日韩无码精品人妻| 欧美黄网站免费观看| 日韩色图区| 香蕉视频在线观看www| 国产天天色| 真实国产乱子伦视频| 婷婷六月综合| 天堂成人av| 国产精品久线在线观看| 亚洲欧美日韩另类在线一| 福利一区在线| 亚洲美女AV免费一区| 国产精品美女在线| 国产网站免费观看| 亚洲欧美成aⅴ人在线观看| 亚洲视频二| 欧美一区精品| 国语少妇高潮|