999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據精準挖據處理架構及預測模型研究

2016-10-14 06:44:27楊斐艾曉燕張永恒張峰
電子設計工程 2016年12期
關鍵詞:模型

楊斐,艾曉燕,張永恒,張峰

(榆林學院信息工程學院,陜西榆林719000)

大數據精準挖據處理架構及預測模型研究

楊斐,艾曉燕,張永恒,張峰

(榆林學院信息工程學院,陜西榆林719000)

為了提高大數據的精準挖據與預測能力,解決傳統數據挖據技術無法適應大數據處理環境的問題,利用云計算和大數據處理技術,提出了大數據精準挖據處理架構及基于BP神經網絡的預測模型。重點研究了大數據處理平臺架構、大數據分析與表達技術、基于BP神經網絡的大數據挖據及預測模型。應用結果表明,該方案結合云計算平臺和大數據挖掘技術,能夠高效的處理海量數據的處理和表達,對于銷售數據具有一定的預測能力。

大數據;數據挖據;預測模型;BP神經網絡;銷售數據

隨著各種數據持續爆炸式地增長,出現了多源、異構及海量的數據,如果能夠應用當前大數據處理技術來對這些數據進行挖據,會產生具大的價值[1-2]。

大數據的挖據和分析當前企業對信息化的重要組成部分,在2011年第一季度,由Gartner公司的Merv Adrian在Teradata Magazine提出大數據的定義和應用范圍,指出大數據是超出當前硬件處理和軟件系統處理能力。大數據的處理涉及數據的收集、存儲、處理及挖據和分析技術。但是大數據的多源、異構和海量的特征,使得當前的數據分析與挖據方法很難適應這種非結構化的數據存儲模式[3-4]。

文中在分析大數據挖據需求的基礎上,提出大數據挖據的平臺架構及利用BP神經網絡方法進行對大數據進行精準挖據與預測。

1 大數據挖據技術框架研究

1.1大數據的特征

大數據分析相比于傳統的數據倉庫應用,具有數據量大、查詢分析復雜等特點。大數據科學關注大數據網絡發展和運營過程中發現和驗證大數據的規律及其與自然和社會活動之間的關系[5]。大數據的特點有4個層面:第一,數據體量巨大。從TB級別躍升到PB級別。第二,流動速度快。第三,價值密度低,商業價值高。以視頻為例,連續監控過程中,有用的數據僅僅有一兩秒。第四,數據種類繁多,如網絡日志、視頻、圖片、地理位置信息等。業界將其歸納為4個“V”--volume、velocity、value、variety[6]。物聯網、云計算、移動互聯網、車聯網、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數據來源或者承載的方式。

1.2大數據挖據處理架構

為了發掘并利用大數據背后隱含的巨大價值,必須對大數據進行有效地組合和管理。從結構特征來講,大數據可以分為結構化數據和非結構化數據。對于結構化數據,如網絡上人工建立的知識庫,利用數據生成時的層次化對應關系就能夠進行有效地查詢和管理,因而人們總是希望在數據生成時就按照特有的結構和模式對數據進行整理。大數據計算的技術內涵包含3個方面:處理海量數據的技術、處理多樣化類型的技術、提升數據生成與處理速度的技術。為了更好的精準挖據海量的數據,本文結合當前流行的大數據處理技術,設計了如圖1所示的大數據挖據技術框架。

圖1 大數據挖據處理架構

在圖1所示的大數據挖據平臺架構中,底層處理平臺應用目前成熟的云計算平臺架構,而在大數據處理技術方面,本文結合Hadoop處理平臺,對大數據進行清洗和管理。傳統的文件存儲系統已不能滿足大數據存儲的需求,大數據計算需要有特定的文件系統以滿足海量文件的存儲管理、海量大文件的分塊存儲等功能。

Hadoop分布式文件系統(Hadoop Distributed File System,HDFS)是Google GFS的一個高度容錯的分布式文件系統,它能夠提供高吞吐量的數據訪問,適合存儲海量(PB級)的大文件。整個HDFS系統將由數百或數千個存儲著文件數據片斷的服務器組成。運行在HDFS之上的應用程序必須流式地訪問它們的數據集,它不是典型的運行在常規的文件系統之上的常規程序。運行在HDFS之上的程序有很大量的數據集。這意味著典型的HDFS文件是GB到TB的大小,所以,HDFS是很好地支持大文件。HDFS體系架構如圖2所示。

圖2 HDFS體系架構

另一個大數據存儲技術就是GFS存儲技術,GFS是一個大型的、對大量數據進行訪問的、可擴展的分布式文件系統。GFS具有實時監測、容錯、自動恢復等特點。GFS能夠支持超大文件,每個文件通常包含很多應用對象。當經常要處理快速增長的、包含數以萬計的對象、長度達TB的數據集時,當處理這些超大超長文件集合時,GFS重新設計了文件塊的大小,使其能夠有效管理成千上萬KB規模的文件塊。GFS體系架構如圖3所示。

圖3 GFS體系架構

在本文提出如圖1所示的大數據挖據平臺架構中,除了大數據的存儲技術外,為了進一步分析大數據內容,還需要實現大數據的表達技術。大數據的表達技術是指在大數據存儲基礎之上,對特定的不同類型結構化數據進行表示。在大數據時代,NoSQL數據庫被大量采用。NoSQL指的是非關系型數據庫,是包含大量不同類型結構化數據和非結構化數據的數據存儲。由于數據多樣性,這些數據存儲并不是通過標準SQL進行訪問的[7]。NoSQL數據存儲方法的主要優點是數據的可擴展性和可用性,以及數據存儲的靈活性。典型的NoSQL數據庫有Bigtable、HBase等。

BigTable是Google設計的用來處理海量數據的一種非關系型的數據庫。BigTable采用一個稀疏的、分布式的、持久化存儲的多維度排序圖來存儲數據。BigTable雖然不是關系型數據庫,但是卻沿用了很多關系型數據庫的術語,像表(Table)、行(Row)、列(Column)等。BigTable的鍵有三維,分別是行鍵(Row Key)、列鍵(Column Key)和時間戳(Timestamp)[8]。

HBase是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統,利用HBase技術可在廉價PC Server上搭建起大規模結構化存儲集群。HBase是Google Bigtable的開源實現,類似Google Bigtable利用GFS作為其文件存儲系統,HBase利用Hadoop HDFS作為其文件存儲系統。

HBase的數據模型如表1所示。

表1 HBase的數據模型

在大數據并行處理技術方面,目前使用MapReduce模型來實現。MapReduce任務的執行流程對用戶是透明的。當用戶程序調用MapReduce函數,就會引起如下操作,Map Reduce執行流程如圖4所示。

從MapReduce的任務執行流程可以看出系統框架將大規模的計算任務進行劃分然后將多個子任務指派到多臺工作機器上并行執行,從而實現了計算任務的并行化,進而可以進行大規模數據的處理。

圖4 MapReduce執行流程圖

2 基于人工神經網絡的大數據挖據與預測模型

2.1人工神經網絡方法分析

人工神經網絡對人類神經系統的一種模擬,是指由簡單計算單元組成的廣泛并行互聯的網絡,能模擬生物神經系統的結構和功能。組成神經網絡的單個神經元的結構簡單、功能有限,但是,由大量神經元構成的網絡系統可實現強大的功能。盡管人類神經系統規模宏大、結構復雜、功能神奇。但其最基本的處理單元卻只有神經元。人類神經系統的功能實際上是通過大量生物神經元的廣泛互聯,以規模宏大的并行運算來實現的。構成人工神經網絡的基本單元是人工神經元。并且,人工神經元的不同結構和模型會對人工神經網絡產生一定的影響。人工神經元是對生物神經元的抽象和模擬。所謂抽象是從數學角度而言的,所謂模擬是從其結構和功能角度而言的[9]。1934年心理學家麥卡洛克和數理邏輯學家皮茨根據生物神經元的功能和結構,提出了一個將神經元看成二進制閾值元件的簡單模型,即MP模型,如圖5所示。

圖5 MP神經元模型

在圖5中,x1,x2,…,xn表示某一神經元的n個輸入;ωi表示表示第i個輸入的聯結強度,也稱為聯結權值;θ為神經元的閾值;y為為神經元的輸出??梢钥闯?,人工神經元是一個具有多輸入,單輸出的非線性器件。它的輸入為

式中,f稱為神經元功能函數,也稱作用函數或激勵函數;θ稱為激活值。

在BP神經網絡中,輸入向量為設為X=(x1,x2,…,xn),輸出向量設為Y=(y1,y2,…,ym),輸入層各個輸入到相應神經元的聯結權值設為ωij(i=1,2,…,n;j=1,2,…,m)。若假設各神經元的閾值分別是θj(j=1,2,…,m),則各神經元的輸出yi(j= 1,2,…,m)分別為

式中,由所有聯結權值ωij構成的聯結權值矩陣W為

在實際應用中,該矩陣是通過大量的訓練示例學習而形成的。

2.2基于BP神經網絡的庫存銷售預測

本文實驗使用某電子商務網站庫存銷售數據為預測值,資料取10年共10萬多組數據。實驗數據在經過大數據處理后,形成結構化數據,部分仿真實驗在MATLAB2012a中實驗。對應的資料數據項主要包括倉庫名稱、營業額、員工人數、利潤和規模等.對所有的數據使用前需要歸一化處理。數據歸一化到[-1,1]區間的公式為:

式中,xn和x表示歸一化前后的序列值;xmax和xmin分別表示原序列x的最大值和最小值。反歸一化公式為

本文使用如下幾個統計量評價預測模型的預測精度:

1)平均絕對誤差

2)平均相對誤差

把前5年51 000組歷史數據作為訓練樣本,每組數據包括20個預測因子和一個原始銷售序列值。把后5年共49000組數據作為測試樣本,每組數據包括20個輸入因子,對每天的銷售的數據值進行預測。

通過多次試驗,最終確定的BP神經網絡的參數選擇為:系數0.65,訓練目標0.002,隱層最大神經元數600,最后測試數據的真實值和預測值對比圖如圖6所示。

圖6 神經網絡模型真實值與預測值對比圖

經過計算,BP神經網絡的預測精度指標分別為:MAE= 0.021 2,MPAE=22.32%。從曲線圖和統計指標來看,BP神經網絡模型對于銷售序列預測具有一定的預測能力,但是預測的泛化能力還有待提高。

3 結論

文中以大數據處理與挖據平臺架構為出發點,研究大數據精準挖據與預測的技術與模型。分析了某電子商務網站庫存銷售數據,資料取10年共10萬多組數據并利用Hadoop技術平臺,應用MapReduce對數據進行處理分析,然后應用BP神經網絡對數據進行了挖據和預測處理。

[1]戴禮燦.大數據檢索及其在圖像標注與重構中的應用[D].合肥:中國科學技術大學,2013:20-50.

[2]Katiuscia Sacco,Valetina Galletto,Enrico Blanzieri.How has the 9/11 terrorist attack influenced decision making[J]. Applied Cognitive Psychology,2002(9):1113-1127.

[3]Sarafidis Y.What have you done for me lately Release of information and strategic manipulation of memories[J].The Economic Journal,2007,117(3):307-326.

[4]Heyn T,Mazhar H,Seidl A,et al.Enabling computational dynamics in distributed computing environments using a heterogeneous computing template[C].ASME 2011 International Design Engineering Technical Conferences and Computers and Information in Engineering Conference,2012(8): 227-236.

[5]陳芳.云計算架構下云政府模式研究[D].武漢:武漢大學,2012.

[6]Howe D,Costanzo M,Fey P,et al.Big data:the future of biocuration[J].2008(9):47-50.

[7]Zhang Feng,Xue Hui-Feng.Big data cleaning algorithms in cloud computing[J].International Journal of Online Engineering,2013,9(3):77-81.

[8]LI Zhong-tao,Weis T.Using zone code to manage a contentaddressable network for distributed simula-tions[C]//Proceedings of 2012 IEEE 14th International Conference on Communication Technology:[s.n.],2012:1350-1358.

[9]Wang Feng,Qiu Jie,Yang Jie,et al.Hadoop high availability through metadata replication[C]//Proceeding of the First International Workshop on Cloud Data Management:[s.n.],2009:37-44.

New mining architecture and prediction model for big data

YANG Fei,AI Xiao-yan,ZHANG Yong-heng,ZHANG Feng
(School of Information Engineering,Yulin University,Yulin 719000,China)

In order to improve the accuracy of big data mining and forecasting ability,to solve the traditional data mining technology cannot adapt to big data processing environment problem,using of cloud services and big data processing technology,a new mining architecture and forecast model for big data model based on BP neural network is proposed.The structure of big data processing platform,big data analysis and expression technology and big data mining and prediction model based on BP neural network is designed.Application results show that the scheme combining cloud service platform and big data mining technology can effectively dealing with massive data processing and expression has a certain predictive ability for the sales data.

big data;data mining;prediction model;BP neural network;sales data

TN391

A

1674-6236(2016)12-0029-04

2015-07-08稿件編號:201507072

榆林學院科研項目(14YK38),榆林市科技計劃項目(2014cxy-09)

楊斐(1982—),男,陜西榆林人,講師。研究方向:復雜系統理論與建模,管理系統工程。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产一区二区福利| 国产农村妇女精品一二区| 国产精品lululu在线观看| 久久国产精品影院| 日韩精品成人在线| 搞黄网站免费观看| 亚洲精品黄| 亚洲国产日韩在线观看| 五月婷婷综合网| 99人妻碰碰碰久久久久禁片| 亚洲欧洲日韩综合| 亚洲综合天堂网| 久久一级电影| 国模在线视频一区二区三区| 日韩最新中文字幕| 成年女人18毛片毛片免费| 在线观看网站国产| 偷拍久久网| 久久6免费视频| 欧美日韩国产高清一区二区三区| 亚洲AⅤ综合在线欧美一区| 久久国产精品国产自线拍| 五月婷婷综合色| 波多野结衣久久精品| 毛片三级在线观看| 亚洲国产日韩一区| 欧美视频免费一区二区三区 | 日本人妻丰满熟妇区| 亚洲IV视频免费在线光看| 免费国产在线精品一区| 日韩精品无码免费一区二区三区 | 国产精品亚洲片在线va| 精品国产美女福到在线直播| 久久久久夜色精品波多野结衣| 免费大黄网站在线观看| 久久免费视频6| 欧美在线视频不卡第一页| 国产精品深爱在线| 综合久久五月天| 亚洲男人天堂网址| 中文无码精品a∨在线观看| 91丝袜美腿高跟国产极品老师| 草逼视频国产| 99热最新网址| 天天躁日日躁狠狠躁中文字幕| 2048国产精品原创综合在线| 狠狠色婷婷丁香综合久久韩国| 天天干伊人| 国产精品无码一二三视频| 亚洲黄网视频| 国产一区免费在线观看| 91人人妻人人做人人爽男同| 久久综合激情网| 性色在线视频精品| 自拍偷拍一区| 欧美综合区自拍亚洲综合绿色| 亚洲欧州色色免费AV| 国产综合精品一区二区| 久久香蕉国产线看观看精品蕉| 国产视频只有无码精品| 国产欧美日韩资源在线观看| 黄色一级视频欧美| 国产麻豆福利av在线播放 | 一区二区三区成人| 国产91丝袜在线播放动漫 | 日本欧美精品| AV天堂资源福利在线观看| 日韩性网站| 亚洲人成在线精品| 亚洲国产精品人久久电影| 久久久久88色偷偷| a级毛片免费看| 999国内精品视频免费| 伊人AV天堂| 久久综合色88| 精品国产亚洲人成在线| 国产毛片高清一级国语 | 国产乱子伦一区二区=| 国产激爽爽爽大片在线观看| 午夜精品久久久久久久无码软件 | 色婷婷成人网| 很黄的网站在线观看|