999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

如何提高基于hadoop數(shù)據(jù)挖掘算法的計算精準(zhǔn)度

2018-03-02 00:28:29林明方
軟件 2017年9期
關(guān)鍵詞:數(shù)據(jù)挖掘用戶

林明方

摘要:數(shù)據(jù)挖掘是從模糊、隨機(jī)的龐大數(shù)據(jù)庫提取出含有潛在有用信息和知識的非平凡過程,隨著計算機(jī)技術(shù)的不斷提高以及云存儲的開發(fā),從物理、生物、政治、經(jīng)濟(jì)甚至是人們息息相關(guān)的日常生活,對數(shù)據(jù)的存儲能力和使用能力的要求都開始顯著提高。基于大數(shù)據(jù)下的網(wǎng)絡(luò)信息挖掘開始受到各個領(lǐng)域的普遍關(guān)注和使用。高精準(zhǔn)度的數(shù)據(jù)挖掘技術(shù)已經(jīng)在現(xiàn)代社會的諸多領(lǐng)域中被廣泛使用,數(shù)據(jù)挖掘算法的計算精準(zhǔn)度保證就成為了促進(jìn)數(shù)據(jù)挖掘效果優(yōu)化的重要組成。因此本文將基于hadoop的數(shù)據(jù)挖掘算法探討如何提高數(shù)據(jù)挖掘的精準(zhǔn)度。

關(guān)鍵詞:hadoop數(shù)據(jù)挖掘算法;精準(zhǔn)度;數(shù)據(jù)

O 引言

隨著計算機(jī)技術(shù)的發(fā)展,互聯(lián)網(wǎng)科技開始進(jìn)入大數(shù)據(jù)時代,在全球范圍內(nèi)每分鐘產(chǎn)生的數(shù)據(jù)量呈現(xiàn)爆炸性增長趨勢,一方面對數(shù)據(jù)的存儲提出了新要求,另一方面,如何在龐大的數(shù)據(jù)庫中挖掘出有用的相關(guān)信息也是對數(shù)據(jù)挖掘技術(shù)的關(guān)鍵問題。云計算的出現(xiàn),為數(shù)據(jù)挖掘技術(shù)的革新創(chuàng)造了良好的條件,數(shù)據(jù)挖掘計算的成本在云計算強(qiáng)大的計算能力、龐大的存儲能力以及專業(yè)的管理能力的幫助下,得到了極大程度的節(jié)約,同時挖掘準(zhǔn)確程度更加精準(zhǔn),處理速度得到了顯著提升,數(shù)據(jù)挖掘的效率也能得到進(jìn)步,能夠有效解決數(shù)據(jù)挖掘技術(shù)的許多難題。

1 hadoop算法特點

1.1 hadoop數(shù)據(jù)挖掘算法的概念

數(shù)據(jù)挖掘是一種數(shù)據(jù)資料探勘的過程,一般而言,數(shù)據(jù)挖掘即是一種數(shù)據(jù)庫知識發(fā)現(xiàn)的過程,從大量的、繁瑣的、無用的數(shù)據(jù)中通過算法搜索隱藏信息,并最終用于統(tǒng)計分析、分析處理以及學(xué)習(xí)等過程中。Hadoop就是一種典型的大數(shù)據(jù)計算工具,也是一種重要的數(shù)據(jù)挖掘工具,云計算平臺的Apache開源項目用它來構(gòu)建,并在Apache開源項目的基礎(chǔ)上實現(xiàn)分布式計算平臺。由于此項目的分布式計算平臺在hadoop數(shù)據(jù)挖掘算法中已經(jīng)非常穩(wěn)定,且在很多領(lǐng)域中都有所應(yīng)用。在hadoop平臺上,分布式計算和文件存儲分別由MapReduce編程模型和HDFS分布式文件系統(tǒng)來實現(xiàn)。在hadoop平臺中繼續(xù)采用傳統(tǒng)的數(shù)據(jù)挖掘算法,進(jìn)而實現(xiàn)大規(guī)模數(shù)據(jù)的挖掘任務(wù)。作為Apache -個即將開源的項目:Mahout,它在提供使用MapReduce編程模型完成的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法的同時,能有效提升創(chuàng)建智能應(yīng)用程序的效率,為開發(fā)人員減少負(fù)擔(dān)。。

1.2 hadoop數(shù)據(jù)挖掘算法的優(yōu)勢

在設(shè)計上,Hadoop致力于可拓展性、可靠性、有效性和容錯性的高度建設(shè),這些設(shè)計上的優(yōu)點將決定Hadoop的地位,注定Hadoop將是受歡迎的,實際也被眾多公司所采用,而且在研究界也是大放異彩。重要的是,hadoop具有高可靠性,hadoop通過維護(hù)多個工作數(shù)據(jù)副本保證數(shù)據(jù)分析過程中假設(shè)計算元素和儲存的失敗節(jié)點進(jìn)行重新分布和處理。同時,hadoop分配數(shù)據(jù)和完成計算任務(wù)是在可用的計算機(jī)集簇間完成的,hadoop的高擴(kuò)展性使這些集簇如同一滴墨水,可以輕松擴(kuò)展到龐大數(shù)目的節(jié)點汪洋中。

1.3 hadoop的核心結(jié)構(gòu)

hadoop由許多元素構(gòu)成。如果將hadoop比作一頓大廈,用來存儲hadoop集群中所有存儲節(jié)點上的文件的hadoop Distributed File System( HDFS)為基層部分。中上部分由MapReduce引擎擔(dān)任,MapReduce引擎由JobTrackers和TaskTrackers組成。hadoop分布式平臺的所有技術(shù)核心主要包括兩個部分:一是對最核心的分布式文件系統(tǒng)HDFS、MapReduce處理過程;二是基本介紹,包括對數(shù)據(jù)倉庫T具Hive以及分布式數(shù)據(jù)庫Hbase兩個部分的介紹。

2 如何提高h(yuǎn)adoop數(shù)據(jù)挖掘算法的計算精準(zhǔn)度

傳統(tǒng)的數(shù)據(jù)挖掘很難滿足現(xiàn)階段大數(shù)據(jù)處理效率的要求,以hadoop平臺為代表的云計算技術(shù)應(yīng)用解決了大數(shù)據(jù)挖掘的瓶頸。但是基于hadoop平臺的數(shù)據(jù)挖掘算法并行化研究仍然存在一些亟待解決的問題。如何提高h(yuǎn)adoop的數(shù)據(jù)挖掘精準(zhǔn)度,是hadoop開發(fā)過程中的重要問題,在對典型的數(shù)據(jù)挖掘系統(tǒng)的分析和研究中,hadoop平臺集群巨大的存儲和計算能力具有強(qiáng)大的優(yōu)勢,我們可以利用這一優(yōu)勢來組建基于hadoop平臺的數(shù)據(jù)挖掘系統(tǒng)。

2.1 設(shè)計思想簡述

在傳統(tǒng)的數(shù)據(jù)挖掘系統(tǒng)中,模塊的計算量差異很大,有的需求很大,有的需求很小。在hadoop的應(yīng)用中,可以充分利用hadoop的集群特征,利用集群強(qiáng)大的并行計算和存儲能力,在進(jìn)行數(shù)據(jù)挖掘工作時將其中需要巨大計算能力的各個模塊的計算和存儲要求擴(kuò)展到hadoop集群中的各個節(jié)點上以便提高算法的精準(zhǔn)度。設(shè)計思想采用逐層漸進(jìn)的設(shè)計方式。龐大的數(shù)據(jù)量使用hadoop來存儲、分析和處理,處理過的數(shù)據(jù)作為底層,在它的上層數(shù)據(jù)的處理直接調(diào)用底層的處理數(shù)據(jù)。其流程如下:

(1)存儲

我們采用HDFS來存儲整個系統(tǒng)中的文件和數(shù)據(jù)。HDFS的優(yōu)點在于具有很高的數(shù)據(jù)吞吐量,并且也具有很好的容錯機(jī)制。HDFS具有API以及各種訪問命令的多種訪問接口。使用HDFS可以使輸入輸出都在HDFS中進(jìn)行,輸入數(shù)據(jù)如數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘過程的輸入。同時,使用HDFS可以為我們提供大量的存儲空間,方便對原始大數(shù)據(jù)以及臨時文件的處理。

(2)計算

在系統(tǒng)中,我們可以使用MapReduce進(jìn)行并行計算:將系統(tǒng)中大計算量數(shù)據(jù)的各個子模塊任務(wù)分配到集群的各個節(jié)中實現(xiàn)并行計算。利用MapReduce良好的伸縮性和擴(kuò)展性,通過它提供的編程接口以及屏蔽多余數(shù)據(jù)的有點可以實現(xiàn)各種算法的并行模式。實現(xiàn)的過程中HDFS必不可少。

2.2 系統(tǒng)結(jié)構(gòu)模型介紹

在逐層漸進(jìn)的思想指引下,白上帶下,每層都透明的調(diào)用下層接口,最上層是用于用戶與系統(tǒng)交互的交互層,最下層是用來實現(xiàn)文件分布式存儲和并行計算功能的分布式計算層,靠hadoop來得以實現(xiàn)。勇敢使用逐層漸進(jìn)的方式,各層之間互不影響,有利于系統(tǒng)的拓展與運行。以下是對基于hadoopd的挖掘系統(tǒng)做個詳細(xì)的介紹:endprint

(1)交互層

這層主要負(fù)責(zé)系統(tǒng)與用戶的交互。通過詳細(xì)、表現(xiàn)形式優(yōu)良的界面窗口,讓用戶可以輕松的查看定制各種業(yè)務(wù),并能詳細(xì)了解或者保存各種輸出結(jié)果。

(2)業(yè)務(wù)應(yīng)用層

在業(yè)務(wù)應(yīng)用層中主要提供的是各種業(yè)務(wù)邏輯,以及對各種業(yè)務(wù)流程的控制和調(diào)度。這一層主要用來處理用戶提交的邏輯數(shù)據(jù)。例如用戶在交互層提交的對特定數(shù)據(jù)完成分類挖掘的業(yè)務(wù),就在這一層被處理。業(yè)務(wù)應(yīng)用層通過調(diào)用數(shù)據(jù)挖掘算法層的多個模塊來完成交互層提交的業(yè)務(wù),并返回結(jié)果到交互層。業(yè)務(wù)應(yīng)用層還控制和調(diào)度著數(shù)據(jù)挖掘平臺中各個模塊的執(zhí)行。

(3)數(shù)據(jù)挖掘平臺層

數(shù)據(jù)挖掘階段的業(yè)務(wù)流需要多個模塊組成,對于粒度的要求也較高,而數(shù)據(jù)挖掘平臺層對數(shù)據(jù)的挖掘與預(yù)處理過程、對模式的評估以及對結(jié)果的展示等操作可以達(dá)到這些高要求,因此可以稱作是整個系統(tǒng)的核心。數(shù)據(jù)挖掘平臺層的主要任務(wù)在于實現(xiàn)各種任務(wù)過程中算法的并行化,將任務(wù)提交到hadoop分布計算層進(jìn)行運算,最后將結(jié)果返回給業(yè)務(wù)應(yīng)用層[10]。

(4)分布式計算平臺層

在分布式計算平臺層中,hadoop框架具備著集群存儲、計算等方面的強(qiáng)大功能。它不僅提供了分布式文件系統(tǒng)和并行的運行模式,而且實現(xiàn)了對分布式系統(tǒng)的管理。只有在這種基礎(chǔ)功能的條件下,我們在執(zhí)行任務(wù)的過程中才能夠完成提交的server。

2.3 具體功能模塊功能

為了使系統(tǒng)中各層接受到的任務(wù)能夠得到有序執(zhí)行,每一層都有自己獨特的功能模塊,以下是對各層模塊及其功能的介紹:

(1冱層:這一層具有的模塊包括用戶管理模塊、業(yè)務(wù)模塊與展示模塊。用戶管理模塊可以識別用戶身份并進(jìn)行登錄、注銷等相應(yīng)權(quán)限的設(shè)置與管理;業(yè)務(wù)模塊可以滿足用戶需求的細(xì)粒度,完成用戶提交的業(yè)務(wù)操作;展示模塊可以查看用戶的業(yè)務(wù)結(jié)果,并能夠進(jìn)行分析操作與保存操作,將最終分析結(jié)果再次傳達(dá)給用戶。

(2)務(wù)應(yīng)用層:這一層具有的模塊包括業(yè)務(wù)響應(yīng)模塊以及工作流模塊。業(yè)務(wù)響應(yīng)模塊主要用來響應(yīng)上層的業(yè)務(wù)模塊、調(diào)用與管理子業(yè)務(wù)模塊與下層模塊;工作流模塊的運行目的是把具體的信息參數(shù)返還給上述的業(yè)務(wù)響應(yīng)模塊,主要是對業(yè)務(wù)進(jìn)程進(jìn)行監(jiān)控與管理操作。

(3)據(jù)挖掘平臺:這一層中包括的模塊較多,具體有數(shù)據(jù)加載模塊、結(jié)果存儲模塊、模式評估模塊以及并行ETL模塊。數(shù)據(jù)加載模塊先把所需的數(shù)據(jù)進(jìn)行注冊,然后存儲于HDFS文件系統(tǒng);結(jié)果存儲模塊存儲信息量較大,又稱作知識庫,主要是用來存放從過去到現(xiàn)在的挖掘模式;模式評估模塊主要用來評估模式,其評估結(jié)果以備調(diào)用;并行ETL模塊主要是對數(shù)據(jù)進(jìn)行預(yù)處理操作,工作數(shù)據(jù)可以從HDFS文件中調(diào)用,處理完的結(jié)果將再次儲存于HDFS文件,為挖掘過程進(jìn)行數(shù)據(jù)清理,提取,轉(zhuǎn)換和加載等操作。

(4)分布式計算層:hadoop框架自身具有強(qiáng)大的功能,包括HDFS,MapReduce運行模式、運算環(huán)境以及自動管理等模塊。

3 總結(jié)

信息時代在快速發(fā)展,web2.0、大數(shù)據(jù)、云計算等新興概念在不斷涌現(xiàn),并隨著科技發(fā)展不斷進(jìn)行自我突破。通過結(jié)合數(shù)據(jù)挖掘與云計算各自的長處,能夠在計算平臺中提供強(qiáng)大的處理能力,其在現(xiàn)階段強(qiáng)大的優(yōu)勢和在未來的潛能已成為行業(yè)的發(fā)展趨勢。由于hadhoop高速的加速比和運行效率,大數(shù)據(jù)挖掘系統(tǒng)的關(guān)鍵部分正逐步被以hadoop為代表的分布式系統(tǒng)所取代,未來的發(fā)展?jié)摿υ谟嬎隳芰Φ臄U(kuò)展性能中也得到了充分的體現(xiàn)。endprint

猜你喜歡
數(shù)據(jù)挖掘用戶
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
Camera360:拍出5億用戶
100萬用戶
如何獲取一億海外用戶
主站蜘蛛池模板: 亚洲欧美人成电影在线观看| 日韩欧美国产另类| 亚洲成网777777国产精品| AV不卡无码免费一区二区三区| 国产成人高清亚洲一区久久| 无码专区在线观看| 亚洲欧洲日本在线| 国产一区二区丝袜高跟鞋| 国产高清国内精品福利| 2019国产在线| 欧美日韩在线成人| a免费毛片在线播放| 一区二区自拍| 黄色网页在线观看| 国产精品毛片在线直播完整版| 国产呦视频免费视频在线观看| 国产亚洲美日韩AV中文字幕无码成人 | 真实国产精品vr专区| 99精品视频九九精品| 国产视频 第一页| 黄色片中文字幕| 国产精品亚洲αv天堂无码| 国产一级妓女av网站| 大学生久久香蕉国产线观看 | 97亚洲色综久久精品| 亚洲三级成人| 欧美第九页| 亚洲中文字幕av无码区| 欧美激情首页| 国产女人爽到高潮的免费视频| 高清乱码精品福利在线视频| 99这里精品| 亚洲欧美在线综合一区二区三区 | 色男人的天堂久久综合| 国产成人综合久久| 欧美性色综合网| 日韩国产一区二区三区无码| 国产麻豆另类AV| 久久久久久高潮白浆| 欧美午夜理伦三级在线观看| 夜夜高潮夜夜爽国产伦精品| 色婷婷色丁香| 国产乱视频网站| 黄色在线不卡| igao国产精品| 国产精品亚洲五月天高清| 视频在线观看一区二区| 亚洲天堂在线免费| 蜜芽国产尤物av尤物在线看| 在线看片中文字幕| 91在线精品麻豆欧美在线| 国产剧情无码视频在线观看| 欧美精品啪啪| 91成人在线免费视频| 伊人久久大香线蕉aⅴ色| 一区二区偷拍美女撒尿视频| 亚洲最猛黑人xxxx黑人猛交| 久青草网站| 91偷拍一区| a毛片在线播放| 毛片一级在线| 国产凹凸一区在线观看视频| 亚洲无码四虎黄色网站| 3p叠罗汉国产精品久久| 欧美亚洲综合免费精品高清在线观看 | 91视频国产高清| 亚洲成人网在线播放| 四虎AV麻豆| 99成人在线观看| 国产精品亚洲综合久久小说| 国产精品成人AⅤ在线一二三四| 日本久久网站| 亚洲男女在线| 国产女人在线观看| 强奷白丝美女在线观看| 91小视频在线观看免费版高清| 国产高清毛片| 日韩精品无码一级毛片免费| 欧美在线视频不卡第一页| 综合人妻久久一区二区精品| 日韩精品无码不卡无码| 亚洲黄色高清|