999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

分布式系統大數據分層調度算法

2017-07-19 12:07:46瑋,田兵,劉蔭,蘇琦,周
山東電力技術 2017年6期
關鍵詞:數據挖掘信息

王 瑋,田 兵,劉 蔭,蘇 琦,周 偉

(國網山東省電力公司信息通信公司,山東 濟南 250001)

分布式系統大數據分層調度算法

王 瑋,田 兵,劉 蔭,蘇 琦,周 偉

(國網山東省電力公司信息通信公司,山東 濟南 250001)

互聯網時代數據量激增,數據的抓取調度已成為有效采集關鍵信息的重點問題。提出一種分布式系統的大數據分層調度算法,該算法依據數據集的維度特征屬性,利用凝聚層次聚類對數據集進行分層處理,結合小型Hadoop分布式系統實現數據集分層調度。該算法為互聯網時代下大數據的快速采集調度問題提出了一種新的解決思路。

分布式系統;凝聚層次聚類;分層調度

0 引言

隨著全球進入互聯網時代,數據的抓取調度成為關鍵信息有效采集的重點問題[1-3]。與此同時,計算機受物理器件性能的限制,僅依靠CPU主頻的提升并不能降低數據庫的調度處理壓力,使用快速有效的算法成為目前大數據挖掘的主流[4-5]。本文主要研究大數據挖掘分層調度處理算法,在抓取數據集的維度特征信息后,通過凝聚層次聚類對數據集進行分層處理,結合小型Hadoop分布式系統實現數據集分層調度,實現一種自配置的Hadoop分布式數據調度算法。

1 算法基本思想

1.1 Hadoop分布式系統

選用基于Hadoop的篩選過濾系統來實現大數據的分布式并行計算處理。Hadoop采用主從式架構,由一臺Master主控節點、多個Slave節點和計算節點組成,由控制節點對數據庫進行數據特征歸列后分發到各個計算節點進行處理。Master節點同時還負責對Slave服務器的各種服務載荷進行調度管理和評估,以使得Slave服務器能夠合理高效的分配與利用計算節點的資源[6]。其基本結構如圖1所示。

圖1 Hadoop主從式基本結構

1.2 凝聚層次聚類算法

層次聚類算法用于實現大數據集合的多層次歸類。具體又可分為凝聚和分裂兩種方案[7]。凝聚層次聚類由下而上進行操作,它先選取集合內的元素作為子簇,再將其合并,最終累積為更大的簇,這個過程持續到所有的元素都包括在一個簇內,或者運行到其他的終結條件再結束。分裂層次聚類則采用由下而上進行操作的方式,與凝聚的層次聚類相反,該算法先在集合內規劃好所有的元素,再將其定義為一個一個小簇,逐步細化,這樣的過程持續到集合內的子簇自成一簇,或者運行到其他的終結條件再結束[8]。選取最小距離的凝聚型層次聚類算法,算法流程如圖2所示。

圖2 最小距離的凝聚層次聚類算法流程

2 數據的分層調度

2.1 基于小型Hadoop集群的數據分層提取

利用層次聚類的方法進行數據分層主要用于同一數據庫出現頻率較高、而在其他數據庫中很少出現的數據,這些數據具有很好的類別區分能力且適合用來分類[9],可有效應用于數據信息挖掘。基于小型Hadoop集群的數據分層提取,主要工作是根據數據集的多維度特征結構對數據進行分類[10],并從中提取出關鍵信息完成數據的篩選。由于數據信息的提取是實現數據分類調度工作的基礎,因此在提取數據集的維度信息要求盡量做到不重不漏。與此同時,隨著數據的不斷存入,數據的分層會隨著時間改變,離現在越久的聚類分層,變化的可能性越大,很久以前的分層對于構建層次聚類模型來說意義不大,因此需要考慮數據量分層相對時間的衰減。選用MySQL數據庫存儲發生時間戳與上一周期存儲的秒數差與一個周期的總秒數的比值,作為一個線性衰減要素加入到算法中。

數據集調度功能的偽代碼實現如下。

2.2 數據的分層調度處理

基于Hadoop的數據分層調度處理分為兩個過程[11]:Map過程和Reduce過程。在Map過程之前,可將凝聚層次聚類規則作為預處理操作:即根據初始MySQL數據庫提取數據集分層信息,以鍵值的形式保存。Map函數根據list_data加載相應的數據集維度列表,利用事先定義好的特征規則,提取其中的分層數據,并完成MySQL數據庫信息的遍歷,提取出來的信息以的格式輸出[12]。Reduce函數主要工作是接受Map函數的輸入,對輸出格式進行調整并依據凝聚層次聚類匹配規則完成數據的處理與歸類,最終得到結果輸出文件[13],相同鍵值的輸入會由同一個Reduce函數處理。

數據的分層調度處理過程如下:

Step.1:加載模板文件,初始化凝聚層次聚類模板類,獲取初始數據信息分層;

Step.2:根據層次聚類分配準則,對加載的初始數據信息分層進行子集提取操作,提取出的子集依次加入數據集的維度隊列中,同時寫入列表文件;

Step.3:從數據信息列表中取出數據子集,加載數據集內容;

Step.4:根據凝聚層次聚類匹配規則完成抽取調度,并寫入輸出文件;

Step.5:判斷列表是否加載完成維度隊列中的全部特征。如全部加載完畢,則該類分層下的數據集分層工作完成,否則繼續加載下一個維度特征,重復進行第4步操作;

Step.6:若列表為空則數據的調度工作完成,否則重復進行第3步操作。

3 應用分析

選取一套MVC模式的應用系統,用于對本文提出的算法效果進行測試驗證,分別在單機和分布式的環境下進行了3 h的數據調度測試。其中分布式環境選用了兩臺PC服務器分別作為Master節點和Slave節點組建Hadoop集群,服務器配置如表1所示,測試比較結果如表2所示。

通過對表2測試結果的分析可以看出,分布式集群中單個節點的效率同單機節點相比略低,這是由于分布式環境中存在網絡帶寬等瓶頸因素,同時分布式系統還需承擔作業調度、系統IO等額外開銷導致的。但是兩個節點的總體運行效率比單機提高了約59.58%,隨計算節點的增加運行效率還可進一步提高,這也是分布式計算的優勢。

表1 Hadoop集群服務器硬件配置

表2 Hadoop分布式與單機的調度數據集數量比較

4 結語

設計并實現了一種分布式系統的大數據分層調度算法,算法依據數據集的維度特征屬性,利用凝聚層次聚類對數據集進行分層處理,結合小型Hadoop分布式系統實現數據集分層調度。通過在MVC模式系統中對算法的實際測試驗證,雙節點集群的總體運行效率比單機提高了約59.58%,且隨計算節點的增加運行效率還可進一步提高。

[1]賀瑤,王文慶,薛飛.基于云計算的海量數據挖掘研究[J].計算機技術與發展,2013,23(2):69-72.

[2]胡文瑜,孫志揮,吳英杰.數據挖掘取樣方法研究[J].計算機研究與發展,2011,48(1):45-54.

[3]王元卓,靳小龍,程學旗.網絡大數據:現狀與展望[J].計算機學報,2013,36(6):1 125-1 138.

[4]申彥,朱玉全.CMP上基于數據集劃分的K-means多核優化算法[J].智能系統學報,2015,10(4):607-614.

[5]張繼福,李永紅,秦嘯,等.基于MapReduce與相關子空間的局部離群數據挖掘算法[J].軟件學報,2015,26(5):1 079-1 095.

[6]傅巍瑋,李仁發,劉鈺峰,等.基于Solr的分布式實時搜索模型研究與實現[J].電信科學,2011,27(11):51-56.

[7]李春忠,徐宗本,喬琛.帶信息反饋的凝聚層次聚類算法[J].中國科學:信息科學,2012,42(6):730-742.

[8]張愛琦,左萬利,王英,等.基于多個領域本體的文本層次被定義聚類方法[J].計算機科學,2010,37(3):199-204.

[9]余長俊,張燃.云環境下基于Canopy聚類的FCM算法研究[J].計算機科學,2014,41(z2):316-319.

[10]李昌,陳金花.基于最大熵功率譜估計的Hadoop高速數據訪問[J].科技通報,2014,30(8):59-61.

[11]唐珊珊,朱躍龍,朱凱.基于Map/Reduce的外殼片段立方體并行計算方法[J].計算機工程與應用.2015,51(22):124-129.

[12]李瑞霞,劉仁金,周先存.基于哈希表的MapReduce算法優化[J].山東大學學報(理學版),2015,50(7):66-70.

[13]陳吉榮,樂嘉錦.基于MapReduce的Hadoop大表導入編程模型[J].計算機應用,2013,33(9):2 486-2 489.

Hierarchical Scheduling A lgorithm of Large Data for Distributed System s

WANGWei,TIAN Bing,LIU Yin,SU Qi,ZHOUWei
(Information&Communication Company,State Grid Shandong Electric Power Company,Jinan 250001,China)

Capturing and scheduling of the key data from the vast information has become the focus of the information acquisition under the background of information explosion in the internet era.This paper proposes a hierarchical scheduling algorithm of big data for distributed system.Based on the dimension feature of the data sets,this algorithm realizes the processing of data sets by hierarchical clustering and the hierarchical scheduling through Hadoop distributed system.This algorithm presents a new solution to the problem of rapid acquisition and scheduling of big data in the Internetera.

Distributed Systems;agglomerative hierarchical clustering;hierarchical scheduling

TP311.1

A

1007-9904(2017)06-0045-04

2017-03-16

王 瑋(1970),女,高級工程師,從事電力信息系統建設和運維工作;田 兵(1965),男,高級工程師,從事電力信息系統規劃和設計工作;劉 蔭(1985),男,工程師,從事電力信息系統運維工作;蘇 琦(1981),男,經濟師,從事電力信息系統建設工作;周 偉(1984),男,工程師,從事電力信息系統建設工作。

猜你喜歡
數據挖掘信息
探討人工智能與數據挖掘發展趨勢
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 在线观看91精品国产剧情免费| 日韩欧美中文字幕在线韩免费| 亚洲AV一二三区无码AV蜜桃| 91无码国产视频| 国产精品尹人在线观看| 人妻无码中文字幕一区二区三区| 欧美成在线视频| 国模私拍一区二区| 色欲色欲久久综合网| 亚洲国产成人在线| 国产全黄a一级毛片| 亚洲国内精品自在自线官| 伊人网址在线| 欧美色伊人| 19国产精品麻豆免费观看| 人妻丰满熟妇AV无码区| 青青草原国产av福利网站| 欧美中出一区二区| 超碰色了色| 精品久久香蕉国产线看观看gif| 国产av无码日韩av无码网站| 51国产偷自视频区视频手机观看| 欧美成人二区| 国产欧美性爱网| 国产精品亚洲а∨天堂免下载| 无码在线激情片| 欧美精品在线免费| 91在线激情在线观看| 日韩麻豆小视频| 毛片免费高清免费| 国内精品视频区在线2021| 亚洲全网成人资源在线观看| 国产人成午夜免费看| 毛片大全免费观看| 日韩毛片免费视频| 呦系列视频一区二区三区| 无码日韩精品91超碰| 人妻少妇久久久久久97人妻| 亚亚洲乱码一二三四区| 国产香蕉97碰碰视频VA碰碰看| 免费看av在线网站网址| 亚洲视频一区在线| 国产一区二区三区夜色| 国产成人盗摄精品| 香蕉伊思人视频| 国产AV无码专区亚洲A∨毛片| 毛片一区二区在线看| 欧美一区二区福利视频| 蜜桃视频一区二区| 色一情一乱一伦一区二区三区小说| 四虎精品黑人视频| a级毛片毛片免费观看久潮| 在线看片中文字幕| 久久国产毛片| 久久一色本道亚洲| 成人精品午夜福利在线播放| 国产成人高清在线精品| 国产黑丝视频在线观看| 亚洲日韩AV无码一区二区三区人| 国产第三区| 免费在线看黄网址| 国产一区二区三区免费| 国产在线专区| 亚洲天堂成人| 国产麻豆精品在线观看| 成年女人a毛片免费视频| 日韩麻豆小视频| 福利小视频在线播放| 久久久久无码国产精品不卡| 国产男女免费完整版视频| 国产成人综合日韩精品无码首页| 亚洲天堂免费观看| 欧美黑人欧美精品刺激| 国产素人在线| 亚洲色图欧美在线| 午夜毛片免费观看视频 | 一级毛片免费观看久| 日本午夜视频在线观看| 大陆国产精品视频| 在线五月婷婷| 亚洲第一页在线观看| 911亚洲精品|