999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

機器學習分布式大數據分析模型構建方法

2018-12-31 00:00:00陸紅
現代信息科技 2018年9期

摘 要:大數據分析方法很多,通過機器學習構建大數據分析模型進行大數據分析是目前比較有效的方法,大數據特點是數據規模龐大,計算周期長,為了加快計算速度、縮短計算周期,分布式計算方法是解決上述問題行之有效的方法之一。本文介紹了分布式大數據分析模型的構建方法,著重介紹了機器學習算法、分布式計算框架、分布式計算數據處理過程、分布式計算程序設計方法,期望能夠為從事大數據分布式計算、大數據分析的研究人員提供一些可借鑒的方法。

關鍵詞:大數據分析;分布式計算;機器學習

中圖分類號:TP181 文獻標識碼:A 文章編號:2096-4706(2018)09-0085-03

Abstract:There are many methods of large data analysis. It is a more effective method to build big data analysis model and analyze big data by machine learning. The large data is characterized by a large scale of data and long computing cycle. In order to speed up the calculation and shorten the calculation period,the distributed computing method is one of the effective methods to solve the above problems. This paper introduces the construction method of distributed large data analysis model,and emphatically introduces machine learning algorithm,distributed computing framework,distributed computing data processing process and distributed computing program design method. It is expected to provide some reference method for researchers who are engaged in large data distributed computing and large data analysis.

Keywords:big data analysis;distributed computation;machine learning

0 引 言

要實現大數據分析分布式計算,首先需要搭建分布式計算平臺,然后要建立一個分布式計算框架,在此框架下設計分布式計算模型,編寫分布式計算程序。本文通過介紹分布式房價大數據分析模型建立方法,詳細介紹了如何實現大數據分布式計算。

1 技術架構

分布式房價大數據分析模型構建的技術架構和技術路線如圖1所示,通過爬蟲技術在互聯網上抓取房地產大數據。大數據存儲在分布式存儲系統中,分布式存儲便于存儲設備擴充,通過機器學習構建房價大數據分析模型,通過MapReduce實現分布式計算。

2 分布式計算平臺配置

本項目搭建的是Hadoop大數據處理平臺,搭建過程中需要配置以下文件:

配置機器網絡環境,配置集群列表、環境變量,生成登錄秘鑰,賦予master節點所屬組權利,賦予Node1節點所屬組權利,創建Hadoop部署目錄、Hadoop數據目錄,配置Hadoop環境文件Hadoop-env.sh、JAVA_HOME、Hadoop核心文件core-site.xml、分布式文件系統hdfs-sit.xml、MapReduce文件mapred-sit.xml。[1]

首先配置分布式文件系統,設置分布式文件文件名、分布式文件系統訪問端口。設置namesecondary路徑,namesecondary作為namenode的備份節點,當namenode失效時namesecondary可以替代namenode。

設置分布式文件系統檢查點周期,對datanode和分布式文件進行定期檢查,此項目檢查周期設為1800秒。設置的間隔時間太短,檢查太頻繁也會影響分布式文件系統讀寫速度,間隔時間設置太長,可能不能及時發現分布式文件系統的錯誤。

設置分布式文件系統檢查點大小,對datanode的分布式文件進行定期檢查,此項目檢查點大小設為33554432字節。*/

設置輸入、輸出壓縮碼。

設置垃圾清理間隔時間,本項目設置1440秒。設的間隔時間太短或太長,都會影響分布式文件系統讀寫速度。

3 房價大數據分布式模型實現

4 真值與估值對比

運用機器學習訓練出的模型進行房價預測,對比下面的房價真實值與房價估值的散點圖,可以看出分布式房價大數據分析模型預測的結果與真實值非常接近。如圖2、圖3所示。

5 結 論

分布式計算是提高大數據計算速度非常有效的方法,大數據分析首先需要建立模型,機器學習是建立大數據模型非常方便的方法,機器學習與大數據非常契合,機器學習需要訓練數據,大數據為機器學習提供了豐富的訓練數據,機器學習解決了大數據由于屬性不確定、非結構化造成分析困難的難題。本文將人工智能與大數據分析有機結合,探索一種用人工智能+分布式計算進行大數據分析的解決方案。

參考文獻:

[1] Srynath Perera,Thilina Gunarathne. Hadoop MapReduce實戰手冊 [M].北京:人民郵電出版社,2015.

[2] Donald Miner,Adam Sbook. MapReduce設計模式 [M].北京:人民郵電出版社,2014.

[3] Willi Richert,Luis Pecho Coelho.機器學習系統設計 [M].北京:人民郵電出版社,2014.

作者簡介:陸紅(1963-),男,北京人,所長,副教授,碩士。研究方向:大數據、人工智能。

主站蜘蛛池模板: 亚洲欧美在线精品一区二区| a亚洲视频| 日韩欧美国产综合| 日本午夜影院| 久久久亚洲色| 亚洲第一成人在线| 一区二区欧美日韩高清免费| 精品99在线观看| 国产二级毛片| 国产一级毛片网站| 亚洲AV无码乱码在线观看代蜜桃 | 国产91全国探花系列在线播放| 91视频区| 亚洲最大综合网| 爱做久久久久久| 97视频免费看| 看国产毛片| 国产91高清视频| 欧美亚洲国产日韩电影在线| 91丝袜美腿高跟国产极品老师| 中文字幕在线观| 成人在线观看一区| 中文字幕在线观| 中文字幕久久波多野结衣| 日韩无码黄色网站| 极品尤物av美乳在线观看| 国产精品入口麻豆| 国产精品永久在线| 亚洲国产综合精品中文第一| 国产成人a在线观看视频| 四虎影视8848永久精品| 亚洲激情99| 日韩国产综合精选| 午夜福利视频一区| 日韩欧美91| 日本www色视频| 亚洲一区二区成人| 久久国产V一级毛多内射| 99热亚洲精品6码| 人妻精品久久无码区| 欧美丝袜高跟鞋一区二区| 国产午夜福利亚洲第一| 欧美丝袜高跟鞋一区二区| 99热最新网址| 最新亚洲人成网站在线观看| 成人午夜视频网站| 40岁成熟女人牲交片免费| 久久免费看片| 91亚瑟视频| 波多野结衣无码中文字幕在线观看一区二区 | 久草青青在线视频| 免费视频在线2021入口| 一级毛片在线播放免费| 免费A级毛片无码免费视频| 在线欧美a| 日韩免费视频播播| 91亚洲精选| 精品自拍视频在线观看| 在线另类稀缺国产呦| 午夜精品一区二区蜜桃| 天堂网亚洲系列亚洲系列| 国产粉嫩粉嫩的18在线播放91 | 欧美成人午夜在线全部免费| 午夜在线不卡| 亚洲无线视频| 一本一本大道香蕉久在线播放| 欧美成人免费午夜全| 欧美一级特黄aaaaaa在线看片| 久久中文电影| 在线欧美a| 又黄又湿又爽的视频| 亚洲黄色成人| 人妻无码中文字幕一区二区三区| 欧美激情视频一区二区三区免费| 亚洲成在线观看| 久久99国产视频| 成人福利一区二区视频在线| 看国产毛片| 亚洲欧美不卡视频| 国产成人精品一区二区免费看京| 亚洲美女高潮久久久久久久| 亚洲天堂网2014|