機器學習分布式大數據分析模型構建方法

2018-12-31 00:00:00陸紅

現代信息科技 2018年9期

摘要：大數據分析方法很多，通過機器學習構建大數據分析模型進行大數據分析是目前比較有效的方法，大數據特點是數據規模龐大，計算周期長，為了加快計算速度、縮短計算周期，分布式計算方法是解決上述問題行之有效的方法之一。本文介紹了分布式大數據分析模型的構建方法，著重介紹了機器學習算法、分布式計算框架、分布式計算數據處理過程、分布式計算程序設計方法，期望能夠為從事大數據分布式計算、大數據分析的研究人員提供一些可借鑒的方法。

關鍵詞：大數據分析；分布式計算；機器學習

中圖分類號：TP181 文獻標識碼：A 文章編號：2096-4706（2018）09-0085-03

Abstract：There are many methods of large data analysis. It is a more effective method to build big data analysis model and analyze big data by machine learning. The large data is characterized by a large scale of data and long computing cycle. In order to speed up the calculation and shorten the calculation period，the distributed computing method is one of the effective methods to solve the above problems. This paper introduces the construction method of distributed large data analysis model，and emphatically introduces machine learning algorithm，distributed computing framework，distributed computing data processing process and distributed computing program design method. It is expected to provide some reference method for researchers who are engaged in large data distributed computing and large data analysis.

Keywords：big data analysis；distributed computation；machine learning

0 引言

要實現大數據分析分布式計算，首先需要搭建分布式計算平臺，然后要建立一個分布式計算框架，在此框架下設計分布式計算模型，編寫分布式計算程序。本文通過介紹分布式房價大數據分析模型建立方法，詳細介紹了如何實現大數據分布式計算。

1 技術架構

分布式房價大數據分析模型構建的技術架構和技術路線如圖1所示，通過爬蟲技術在互聯網上抓取房地產大數據。大數據存儲在分布式存儲系統中，分布式存儲便于存儲設備擴充，通過機器學習構建房價大數據分析模型，通過MapReduce實現分布式計算。

2 分布式計算平臺配置

本項目搭建的是Hadoop大數據處理平臺，搭建過程中需要配置以下文件：

配置機器網絡環境，配置集群列表、環境變量，生成登錄秘鑰，賦予master節點所屬組權利，賦予Node1節點所屬組權利，創建Hadoop部署目錄、Hadoop數據目錄，配置Hadoop環境文件Hadoop-env.sh、JAVA_HOME、Hadoop核心文件core-site.xml、分布式文件系統hdfs-sit.xml、MapReduce文件mapred-sit.xml。[1]

首先配置分布式文件系統，設置分布式文件文件名、分布式文件系統訪問端口。設置namesecondary路徑，namesecondary作為namenode的備份節點，當namenode失效時namesecondary可以替代namenode。

設置分布式文件系統檢查點周期，對datanode和分布式文件進行定期檢查，此項目檢查周期設為1800秒。設置的間隔時間太短，檢查太頻繁也會影響分布式文件系統讀寫速度，間隔時間設置太長，可能不能及時發現分布式文件系統的錯誤。

設置分布式文件系統檢查點大小，對datanode的分布式文件進行定期檢查，此項目檢查點大小設為33554432字節。*/

設置輸入、輸出壓縮碼。

設置垃圾清理間隔時間，本項目設置1440秒。設的間隔時間太短或太長，都會影響分布式文件系統讀寫速度。

3 房價大數據分布式模型實現

4 真值與估值對比

運用機器學習訓練出的模型進行房價預測，對比下面的房價真實值與房價估值的散點圖，可以看出分布式房價大數據分析模型預測的結果與真實值非常接近。如圖2、圖3所示。

5 結論

分布式計算是提高大數據計算速度非常有效的方法，大數據分析首先需要建立模型，機器學習是建立大數據模型非常方便的方法，機器學習與大數據非常契合，機器學習需要訓練數據，大數據為機器學習提供了豐富的訓練數據，機器學習解決了大數據由于屬性不確定、非結構化造成分析困難的難題。本文將人工智能與大數據分析有機結合，探索一種用人工智能+分布式計算進行大數據分析的解決方案。

參考文獻：

[1] Srynath Perera，Thilina Gunarathne. Hadoop MapReduce實戰手冊 [M].北京：人民郵電出版社，2015.

[2] Donald Miner，Adam Sbook. MapReduce設計模式 [M].北京：人民郵電出版社，2014.

[3] Willi Richert，Luis Pecho Coelho.機器學習系統設計 [M].北京：人民郵電出版社，2014.

作者簡介：陸紅（1963-），男，北京人，所長，副教授，碩士。研究方向：大數據、人工智能。

現代信息科技2018年9期

現代信息科技的其它文章: RFID在港口自動化系統中應用與設計; 基于5G網絡的物聯網通信技術及挑戰; 大數據挖掘在智慧旅游應用中的探討; 基于物聯網和大數據分析的預測型售后服務; 基于LoRa的物聯網溫室監控系統的設計與實現; 基于穴盤苗移栽機器人項目的教學研究與實踐