999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據Hadoop的股票利潤分析平臺設計與實現

2019-03-15 01:30:00張魯奧
電子制作 2019年4期
關鍵詞:利潤信息

張魯奧

(山東省章丘市第四中學,山東章丘,250200)

1 研究背景

隨著大數據技術的蓬勃發展,越來越多的數據等著我們去識別,讀取,歸類,計算。針對于股票市場,如何利用大數據技術去發掘股票中隱含的眾多有價值的信息,幫助股民合理購買股票,獲得最大利潤是我們急需解決的難題,目前在股票領域的大數據研究尚不完善。因此,我們提出利用hadoop分布式框架來對每只股票的利潤進行分析的方案,用到的主要技術是分布式并行計算(mapreduce)和分布式文件存儲系統(HDFS)。對于每只股票的數據會冗雜在一起,形成龐大的數據量的情況,目前比較主流的海量數據存儲系統主要采用HDFS文件系統。在本文中我們把每只股票的相關信息存儲在HDFS文件中,然后讀取出來,通過MapReduce對股票數據進行分析。

目前,在股票行業中,每支股票每天產生的數據量難以預估,隱含的有價值的信息難以提取,如,開盤時間,閉盤時間,開盤價格,閉盤價格,多個特征中如何提取有用信息,如何有效準確的計算股票數據,在該領域的研究還有待完善。對于股票數據的分析處理問題,我們提出了合理可行的方案,基于Hadoop的并行式計算框架運用了HDFS存儲機制和Mapreduce的并行式運算,可以有效合理的解決上述問題。基于hadoop大數據的分布式并行計算框架設計方案,依賴快速高效的mapreduce,實現實時大數據的復雜計算,提供每一支股票的年利潤、總利潤、平均利潤等特征,并對明年股票進行分析和預測。

2 系統的設計與功能設計

2.1 數據源

數據源模塊的主要功能是利用API服務獲取股票的數據,以龐大的股票數據做支撐,是整個框架的數據的唯一來源,上層數據的處理與整合都來源于數據源模塊。

2.2 數據接入層

圖1

數據接入層的主要功能是存儲來源于數據源層的股票數據,利用分布式消息訂閱系統kafka框架實現。它是一個針對流式數據處理的分布式消息訂閱系統。主要包括如下幾個模塊:

(1)Broker:Kafka集群是由1個或者多個服務器組成,這種服務器即為broker

(2)Producer:消息數據的生產者。

(3)Topic:是指發送到集群中的消息分類,每一個類別都是一個Topic。

(4)Consumer:消費消息的一方,負責broker的Topic讀取股票消息數據。

2.3 數據提取層

數據提取模塊的主要功能是對數據做ETL(Extract-Transform-Load)處理,清洗數據,構建數據倉庫,對數據進行分層處理。用到的主要工具的數據抽取框架Gobblin。

Gobblin是一種數據提取整合框架,可以接收以Kafka, fl ume等數據源的數據,并將這些數據采用定時的方式寫入HDFS文件中中。這樣便于集群拉取數據進行清洗、處理、分析等操作。主要包含如下組件:

(1)Source:主要起到適配器的作用。

(2)Converter:主要用來對股票數據進行清洗過濾操作,將數據轉為需要的類型。

(3)Quality Checker:主要用于數據質量檢測,以此保證數據質量,可通過手動或者可選策略的方式,將check的數據輸出到指定的外部文件中。

(4)Writer:依據程序指定的配置文件,按照指定的數據格式,將股票數據輸出到最終的存儲路徑下。

(5)Publiser:將數據輸出到配置文件指定的路徑下。

2.4 數據存儲

數據存儲模塊的功能主要針對股票數據的存儲,用到的主要存儲工具是分布式文件系統(HDFS)。具有如下幾個特點:

(1)故障分析

針對HDFS一些無效的部件或者無效的文件片進行合理的分析、處理。

(2)數據訪問

hadoop的hdfs讀取和寫入數據采用的是流式讀取和寫入的方式,這一般程序讀取數據的方式。HDFS比較適合離線的、批量的數據存儲,針對的是高吞吐量,體現在數據吞吐量上。

(3)大數據集

HDFS分布式文件系統主要是針對高吞吐量的作業,需要依賴海量數據集,如果數據量較小,無法體現HDFS分布式文件系統的特性和優勢,通常一個分布式集群可以支持成百上千個數據節點和成千上萬的文件量。

(4)簡單一致性模型

HDFS文件操作具有簡單一致性的特點,對文件的操作都是采用一次寫入多次讀取的方式。HDFS文件只要經過創

2.5 數據計算層

計算海量數據的能力,是目前處理高吞吐量數據比較可靠的方法。

2.6 數據展示

通過數據讀取,計算,最后會得到反饋,我們會得到每只股票的年利潤,平均利潤,通過利潤計算來預測這只股票下一年的走勢。

3 海量數據的存儲與計算

3.1 海量數據的存儲

對于海量的股票數據存儲主要是采用分布式文件系統HDFS。HDFS文件系統主要針對離線、高吞吐量的數據存儲系統,采用流式數據讀取和寫入的方式處理大文件數據。

Block:block是HDFS文件存儲的基本單位。數據的讀取和寫入都是以block為單位的,默認大小為64M,在本文中,股票數據被分成64M大小的block塊進行存儲。

NameNode:名稱節點,主要的功能是保存文件系統的元數據,主要維護兩個數據結構:fsimage和editlog。editlog記錄對HDFS文件的增刪改查操作。

DataNode:datanode是客戶端讀取或者寫入數據的節點,數據節點會定期采用心跳機制和namenode節點交互,以此獲取整個集群的資源信息。

HDFS讀取股票數據的過程:

(1)客戶端通過API采用遠程調用的方式和namenode進行通信(此過程的通信協議依然是Tcp/Ip協議),得到股票數據塊信息。

(2)Namenode節點返回保存每一個block數據塊的地址信息,并按距離遠近進行排序。

(3)給客戶端獲得存儲block數據的地址信息后,調用API,讀取存儲股票數據的block塊。

(4)客戶端調用API的開始讀取數據。當block數據塊數據讀取結束時,關閉相應數據節點的連接,然后連接和下一個需要讀入文件距離最近的節點,繼續讀入股票數據。

圖2

(5)當客戶端(client)讀取股票數據結束的時候,通過調用API的close方法,關閉股票輸入流即可。

3.2 海量數據的計算

股票的數據計算采用的是分布式計算框架MapReduce。MapReduce采用分布式計算的方式,采用主從架構的模式,執行的過程主要可分為map和reduce兩個過程。

mapreduce的對股票數據的計算過程如下。

(1)客戶端要編寫好腳本程序,打成可運行的jar包,準備需要讀入計算的數據源,也就是我們的股票數據。

(2)提交任務,提交股票數據是提交到Resource Manager上的,ResourceManager就會構建這個股票任務的信息,給這個需要運行的任務一個id,即為JobId,同時檢查作業的輸出目錄是否已經存在,若不存在,正常運行;如已經存在,要進行資源的重新分配。

(3)作業初始化操作,將股票數據放到一個內部隊列中,通過調度器進行初始化工作,創建一個正在運行的股票數據對象。

(4)初始化過程結束后,作業調度器(schema)讀入輸入分片信息如果分片較小,會先聚合成大文件讀入,減少I/O帶來的時間延誤。接下來就是任務分配的過程了,先遍歷每一個分片的數據,并根據分片數據的遠近進行排序。

(5)執行任務。將運行任務的jar包從HDFS拷貝到本地并進行解壓.并創建一個JVM,將Application程序加載到JVM中來執行具體的任務。

·輸入分片(inputsplit):HDFS文件理想的split大小是一個HDFS塊,本次實驗采用默認的64M為一個block塊。

·map階段:①讀取HDFS中的文件。每一行按指定分隔符進行分割,將分割后的結果解析成一個<key,value>鍵值對。②對分割后輸出的<key,value>鍵值對進行分區操作;③對不同分區(partition)的股票數據按照key值進行排序操作。④對分組排序后的數據進行歸約,減少傳輸到reduce過程的數據量

·reduce階段:①對于map的輸出結果,按照分區(partition)的不同,通過http協議,遠程拷貝到不同的reduce節點上:②將reduce處理后的<key,value>結果輸出到HDFS文件系統。

4 總結

本文提出了基于hadoop的股票利潤分析設計方案,對股票數據進行了提取,存儲,計算,得到股票的利潤信息。通過對股票利潤進行分析,對股票的發展趨勢進行了合理的預測。在大數據時代,采用分布式并行計算框架和存儲框架解決實際問題已經成為一種必然趨勢。最近幾年,股票市場研究一直在不斷加大,對股票信息進行分析,預測已經成為一個熱門研究方向。股票的分析預測可以幫助股民提取股票中的關鍵信息,精準把握股票市場的動態,以此獲得更高的利潤,避免股票陷阱。

影響股票價格走勢和利潤多少的因素多種多樣,我們無法把所有因素全都考慮到平臺中,因此想要實現股票價格的精確預測十分困難,難以實現。縱使我們能夠把每一支股票的利潤都分析出來,依然存在誤差,但對股票的整體的走勢分析依舊有很大的幫助。

猜你喜歡
利潤信息
The top 5 highest paid footballers in the world
利潤1萬多元/畝,養到就是賺到,今年你成功養蝦了嗎?
當代水產(2019年7期)2019-09-03 01:02:08
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
觀念新 利潤豐
湖南農業(2016年3期)2016-06-05 09:37:36
利潤下降央企工資總額不得增長
現代企業(2015年2期)2015-02-28 18:45:07
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
China SOEs'profits up 65.8%on year in Jan.-May
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
健康信息(九則)
祝您健康(1987年2期)1987-12-30 09:52:28
主站蜘蛛池模板: 99视频全部免费| 2024av在线无码中文最新| 国产国拍精品视频免费看 | 成人在线观看一区| 国产成人夜色91| 国产精品私拍99pans大尺度| 亚洲v日韩v欧美在线观看| 日韩天堂视频| 亚洲人成网站18禁动漫无码| 国产成人午夜福利免费无码r| 亚洲色大成网站www国产| 波多野结衣一区二区三区四区视频| 国产精品无码AV片在线观看播放| 亚洲免费人成影院| 国产精品永久在线| 91麻豆国产精品91久久久| 国产精品人成在线播放| 久久99热这里只有精品免费看| 亚洲不卡网| 一本视频精品中文字幕| 免费在线a视频| 亚洲日本精品一区二区| 欧美一区中文字幕| 精品成人一区二区三区电影| 国产综合另类小说色区色噜噜| 91网红精品在线观看| 日日拍夜夜操| 91视频日本| 在线看片国产| 亚洲精品男人天堂| 成年A级毛片| 欧美中文字幕在线视频| 亚洲有无码中文网| 天天摸天天操免费播放小视频| 一级毛片在线播放免费观看| 免费国产黄线在线观看| 亚洲精品久综合蜜| 污网站免费在线观看| 国产在线视频自拍| 天堂亚洲网| 亚洲,国产,日韩,综合一区| 欧美视频在线播放观看免费福利资源| 在线观看国产精美视频| 国产精品jizz在线观看软件| 国产手机在线ΑⅤ片无码观看| 国产自在线播放| 天天躁夜夜躁狠狠躁躁88| 无码专区在线观看| 国产毛片网站| 日韩精品毛片人妻AV不卡| 内射人妻无码色AV天堂| 69视频国产| 亚洲全网成人资源在线观看| 国产一国产一有一级毛片视频| 亚洲V日韩V无码一区二区 | 三上悠亚精品二区在线观看| 国产美女一级毛片| 国产在线自乱拍播放| 99精品伊人久久久大香线蕉| 婷婷久久综合九色综合88| 特级欧美视频aaaaaa| 国产乱人激情H在线观看| 国产天天色| 国产福利在线免费观看| 黄色在线不卡| 国产精品综合色区在线观看| 性视频一区| 999国内精品久久免费视频| 国产男女XX00免费观看| 不卡视频国产| 成人一级免费视频| 不卡午夜视频| 91热爆在线| 亚洲v日韩v欧美在线观看| 欧美日韩一区二区三区四区在线观看| 无码在线激情片| 午夜国产理论| 天堂网亚洲系列亚洲系列| 一本久道久综合久久鬼色| 2021精品国产自在现线看| 日韩毛片免费视频| 欧美成人精品一级在线观看|