999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺談云計算的Web數據挖掘方法

2012-04-12 00:00:00關婧超
消費電子 2012年7期

摘要:現代互聯網技術和計算機技術的高速發展,使得信息數據處理成為其主要的發展方向和利用方式,隨之而來的是對數據信息處理挖掘技術的研發與推廣。信息在當今世界具有舉足輕重的地位,在現代國際競爭、市場競爭乃至軍事競爭中,只有占據信息上的制高點,才能占據競爭的有利地位。而信息的合成離不開數據的挖掘,如何更好地利用互聯網和計算機的數據處理技術合成實際所需的信息,是當前計算機技術領域的重要研究方向。隨著人工智能技術的發展,計算機數據處理技術越來越先進,利用計算機挖掘、收集、選擇和存儲數據信息,并且在數據分析中發現它們之間所隱藏的關系,能夠最大限度的提取信息,對于信息利用部門預測實踐發展趨勢、趨利避害以及做出正確決策具有指導意義。

關鍵詞:云計算;數據處理方法;數據挖掘方法;算法結果

中圖分類號:TP311.13 文獻標識碼:A 文章編號:1674-7712 (2012) 06-0108-01

一、云計算簡介

云計算是當今信息產業中極其重要的一個環節,其巨大作用主要體現在虛擬化數據信息處理計算方面,同時更是一種新型的商業模式。其主功能體現在以下三個方面:互聯網領域的數據處理;各行業信息資源的處理;提供社會化的信息服務。現在全國許多地方都在建設或計劃建設大規模的“云計算”或數據中心產業園區,面對云計算這一新興領域,我們既需要科學的態度,又需 開放的心態,不斷改進技術,加強功能實踐,才能使云計算融入社會信息化的大潮。

二、數據的處理方法

(一)數據計算與存儲的整合。利用云計算技術技術時,要考慮數據處理后的整合。互聯網的帶寬數據是相對稀缺的資源,當Map/Reduce的Map進行操作時,這種數據處理技術一般情況下是不需要有傳輸路徑的,只需Reduce向Master傳送計算結果。這種處理密集型數據的計算方法,能夠節省數據傳輸時間。并且當前,計算機的計算機的計算速度遠遠大于網絡數據的傳輸速度,有人由此提出了以計算來換通信的編程策略,即將輸入數據分開保存在工作組的本地磁盤上,這樣可以大大減少網絡傳輸的壓力。比如,將數據文件分成若干容量相等的塊,分開保存保存塊的拷貝,再由Master記住這些塊的存儲位置并執行Map的任務。這種方法并不占用網絡帶寬,能夠減少網絡寬帶的開銷壓力。(二)數據文件的遷移。利用云計算技術時,還要考慮數據計算和存儲的遷移。大部分云計算系統能夠分開執行計算和存儲這兩項任務,但是卻不能同時執行這兩個命令。因為計算遷移要求數據塊必須采用副本策略。

三、云計算的數據挖掘系統架構

在云計算的Web數據挖掘系統中,主要有三類相關的節點:一是調度與協調節點間工作進程的單一主控節點Master;二是負責存儲數據算法的算法存儲節點;三是負責存儲分塊文件并執行Master任務的服務節點ServiceNode。與此相對應,Web數據挖掘系統則可分為三層:數據存儲層、挖掘算法層和業務處理層。數據挖掘子系統的核心設計理念是統一由Master負責調度任務,執行時其主要的流程是:若該Service Node工作正常,它會以一定的時間間隔方法向Master發送信號,然后Master將該ServiceNode設置為空閑節點。Master節點先接收用戶各數據塊,確定需調用的挖掘算法,然后向算法節點申請所需挖掘算法,算法節點則將算法發送至ServiceNode節點上。計算機啟動計算工作,向Master傳送計算結果,由Master匯總后生成最終的結果返回給用戶。這一過程中數據的計算和存儲都在一個節點上面,既節省了數據傳輸的時間,又節約了寬帶流量。

四、基于云計算的Web數據挖掘算法

云計算的數據挖掘算法多種多樣,其中主要有關聯、聚類、分類等方法,這些方法中,尤其以關聯方法應用最廣泛,其在日志數據分析、個性化信息推薦等方面有十分重要的技術支撐,在普Web數據挖掘領域的應用較為普遍。這種方法主要有兩個步驟:首先是找出所給信息或數據中頻繁出現的項集;再就是在所找出的頻繁項集中分析其與其他相機所產生的相關關聯。在尋找頻繁出現的項集時,大部分計算機采用數據處理的迭代方法,也就是說,計算機數據處理中心首先找出一個頻繁出現的項集1,命名為L1,接著找出另一個頻繁出現的項集2,命名為L2,一直到某個頻繁出現的項集k,命名為Lk,當且僅當LK等于0時,這種迭代法才能結束。在求LK的值時,采用的方法是:將LK-1命名為CK,然后檢查Ck的每一個元素,如果CK其中的某一個元素能滿足用戶自定義時所選的最小支持度閾值的元素,那么這個元素就是Lk的元素。很明顯,這種在廣域的數據源上的驗證算法是當前數據挖掘技術的一個難點,這種方法操作數據,將會給計算帶來很多不必要的工作,甚至會重復多次無意義的工作,既浪費資源,又浪費時間。基于以上原因,本文將要介紹一種新的算法,即基于云計算平臺的Apriori算法。這種算法將尋找頻繁項集和分析其關聯的任務,分別分配給“云”中多個計算節點ServiceNode同時進行,要求各個節點求出各自局域范圍內的頻繁項集,并分析其相關關聯,任務結束后由Master統計出各頻繁項集的合計數,這種新的計算方法即是Apriori算法,這種方法可以大大提高數據的挖掘效率,節省數據處理和信息提取時間。

五、算法結果

在利用云計算提取數據信息時,對其計算結果的存儲也十分重要。一般而言,在處理大規模數據信息時,將數據放在Master節點上,然后采用新的計算方法---Aprior算法,計算出所需的頻繁項集后,要將所得數據頻繁項集的數據分開保存在獨立的節點上。通常采用的存儲方式是保存在5個單獨的服務節點上。存儲完后,在1、3、5這3個服務節點上同時執行Aprior算法,計算出時間。最后將Aprior算法分別拷貝到5個服務節點上,將數據文件傳輸到1、3、5個服務節點上執行,計算出時間。通過這3個實驗所用時間的對比,我們可以命令的執行效率同數據量成正比,同向節點傳輸數據的時間成反比。實驗證明,這種新的計算方法,不僅數據信息提取的效率提高了,而且精確度也有了保證,是一種比較高明的計算方法。

我們得知,傳統的數據挖掘系統主要是在小型機的平臺上運行的,這種挖掘方式不僅效率低,而且數據容量小,計算方法簡單,難以適應現代互聯網數據信息的大規模聚合和處理要求。而基于云計算的Web數據挖掘系統則不僅使數據信息資源得到了充分利用,而且提高了數據挖掘的效率和精確度。同時,這種數據挖掘工作意義重大, 能夠面向各方面信息的應用,尤其在國防、商業方面,具有更高的利用價值和信息價值。

參考文獻:

[1]周晏,桑書娟.淺談基于云計算的數據挖掘技術[J].電腦知識與技術,2010,(34)

主站蜘蛛池模板: 99视频精品全国免费品| 欧美不卡在线视频| 精品久久久久久成人AV| 欧美日韩一区二区在线免费观看| 久久久久亚洲AV成人网站软件| 成人va亚洲va欧美天堂| 亚洲免费毛片| 天天综合网色| 国产尤物jk自慰制服喷水| 免费xxxxx在线观看网站| 最近最新中文字幕在线第一页 | 亚洲 欧美 偷自乱 图片| 91精品啪在线观看国产91| 久久综合五月婷婷| 免费a级毛片视频| 五月婷婷导航| 国产成人精品免费av| 日韩人妻无码制服丝袜视频| 日本a级免费| 综合色区亚洲熟妇在线| 少妇被粗大的猛烈进出免费视频| 青青久久91| 国产大片喷水在线在线视频| 久久国语对白| 国产精品无码影视久久久久久久| 欧美激情视频二区三区| 欧美精品黑人粗大| 欧美日韩中文国产| 国产女人在线观看| 日韩国产高清无码| 青青操国产| 久久精品国产一区二区小说| 超薄丝袜足j国产在线视频| 中国特黄美女一级视频| 日本欧美一二三区色视频| 在线无码九区| 国产精品性| 高清国产va日韩亚洲免费午夜电影| 国产二级毛片| 亚洲色大成网站www国产| 国产精品成人免费视频99| 欧美国产精品不卡在线观看| 亚洲第一页在线观看| 国产后式a一视频| 亚洲AV无码精品无码久久蜜桃| a毛片在线免费观看| 精品无码国产一区二区三区AV| 国产精品久久久久久久久久久久| 国产又爽又黄无遮挡免费观看| 青青青亚洲精品国产| 国产日本欧美在线观看| 国产精品冒白浆免费视频| 国产亚洲欧美在线中文bt天堂 | 亚洲综合色区在线播放2019| 一个色综合久久| 欧美a在线看| 18禁黄无遮挡免费动漫网站| 久久国产精品电影| 色噜噜久久| 欧洲亚洲一区| 亚洲日韩久久综合中文字幕| 五月婷婷亚洲综合| 亚洲日韩久久综合中文字幕| 久久久精品国产亚洲AV日韩| 国产精品xxx| 久久男人视频| 亚洲午夜天堂| 亚洲欧美另类色图| 国产国产人在线成免费视频狼人色| 精品视频第一页| 午夜a视频| 中文字幕第1页在线播| 免费a级毛片视频| 国模极品一区二区三区| 亚洲精品中文字幕无乱码| 国产va免费精品| 国产亚洲欧美在线专区| 亚洲一区无码在线| 亚洲va视频| 国产精品夜夜嗨视频免费视频| 波多野结衣久久精品| 亚洲一区无码在线|