999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數(shù)據(jù)分析與計(jì)算系統(tǒng)設(shè)計(jì)

2020-01-16 10:50:00張啟濤張洪瀚李俊玲
關(guān)鍵詞:模型系統(tǒng)

◎張啟濤 張洪瀚 李俊玲

一、系統(tǒng)概述

大數(shù)據(jù)分析系統(tǒng),通過數(shù)據(jù)收集采集功能,將生產(chǎn)業(yè)務(wù)數(shù)據(jù)進(jìn)行收集和清洗。按照資源前置庫以及交易數(shù)據(jù)資源庫進(jìn)行數(shù)據(jù)收集和清洗。數(shù)據(jù)通過數(shù)據(jù)交換平臺實(shí)現(xiàn)從各平臺到中心前置庫。

交易信息資源庫主要包括交易平臺運(yùn)行過程中涉及到的各類數(shù)據(jù)信息,如交易信息庫、主體信息庫、專家信息庫、信用信息庫、監(jiān)管信息庫等。

數(shù)據(jù)采集、數(shù)據(jù)分類后實(shí)現(xiàn)統(tǒng)計(jì)分析、交易動(dòng)態(tài)分析、專題分析和智能分析。

各業(yè)務(wù)應(yīng)用系統(tǒng)提供基礎(chǔ)的數(shù)據(jù)源,通過ETL過程實(shí)現(xiàn)數(shù)據(jù)源的抽取、轉(zhuǎn)換、加載等進(jìn)入ODS數(shù)據(jù)庫中,基于ODS數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)一步的進(jìn)行ETL,數(shù)據(jù)進(jìn)行數(shù)據(jù)倉庫中進(jìn)行數(shù)據(jù)的加工,實(shí)現(xiàn)數(shù)據(jù)集市、主題模型的建立等處理,最后以應(yīng)用的形式進(jìn)行對外的展示,如圖1所示。

圖1 系統(tǒng)設(shè)計(jì)圖

二、結(jié)構(gòu)設(shè)計(jì)

大數(shù)據(jù)分析子系統(tǒng)將數(shù)字化招采平臺、其他業(yè)務(wù)系統(tǒng)、外部系統(tǒng)等進(jìn)行統(tǒng)一的數(shù)據(jù)采集,建立共享資源目錄,并提供統(tǒng)一的數(shù)據(jù)共享能力,使數(shù)據(jù)得到有效利用。再針對不同類型數(shù)據(jù)采用靈活的存儲技術(shù),搭建端到端數(shù)據(jù)治理體系,實(shí)現(xiàn)數(shù)據(jù)的全流程管控,按交易信息庫、主體信息庫、專家信息庫、信用信息庫、監(jiān)管信息庫等不同的主題整合數(shù)據(jù)采購數(shù)據(jù)倉庫,支撐上層應(yīng)用。結(jié)合業(yè)務(wù)需求,利用大數(shù)據(jù)技術(shù)對業(yè)務(wù)數(shù)據(jù)監(jiān)控預(yù)警、建模和專題分析,為采購決策提供精準(zhǔn)且有效的支撐,如圖2所示。

圖2 總體結(jié)構(gòu)設(shè)計(jì)圖

三、數(shù)據(jù)資源處理

1.數(shù)據(jù)處理。數(shù)據(jù)處理過程主要負(fù)責(zé)將數(shù)據(jù)采集后的數(shù)據(jù)抽取到數(shù)據(jù)源,然后對數(shù)據(jù)源進(jìn)行清洗轉(zhuǎn)換,同時(shí)對歷史數(shù)據(jù)進(jìn)行沉淀,形成基礎(chǔ)數(shù)據(jù)層,再對基礎(chǔ)數(shù)據(jù)層的數(shù)據(jù)進(jìn)行匯總計(jì)算得到數(shù)據(jù)模型層和數(shù)據(jù)指標(biāo)層的數(shù)據(jù),總體流程通過統(tǒng)一流程調(diào)度模塊進(jìn)行調(diào)度和銜接,如圖3所示。

圖3 數(shù)據(jù)處理示意圖

2.清洗轉(zhuǎn)換。數(shù)據(jù)清洗轉(zhuǎn)換是對不符合標(biāo)準(zhǔn)規(guī)則的數(shù)據(jù)進(jìn)行格式、取值、類型等方面的過濾或轉(zhuǎn)換。例如對企業(yè)數(shù)據(jù)中的各個(gè)行業(yè)的單位進(jìn)行統(tǒng)一轉(zhuǎn)換,對從不同口徑接入的企業(yè)數(shù)據(jù)中的名稱進(jìn)行清洗和統(tǒng)一,對爬蟲數(shù)據(jù)進(jìn)行過濾和去除重復(fù)。

數(shù)據(jù)清洗轉(zhuǎn)換包括三部分:上下文信息處理、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)清洗。

上下文信息處理:在數(shù)據(jù)源中存在大量的上下文信息,生產(chǎn)系統(tǒng)只有這類信息的原始信息,將原始信息內(nèi)含的豐富的分析信息內(nèi)容通過信息衍生處理和標(biāo)準(zhǔn)化處理,形成形成基礎(chǔ)數(shù)據(jù)層的數(shù)據(jù)。

數(shù)據(jù)轉(zhuǎn)換:通過對數(shù)據(jù)進(jìn)行字段命名規(guī)范化、時(shí)間字段的統(tǒng)一和特殊字段的格式或取值轉(zhuǎn)換等操作,形成基礎(chǔ)數(shù)據(jù)層的數(shù)據(jù)。在通過對源數(shù)據(jù)信息的梳理,異常數(shù)據(jù)情況的識別,建立從源數(shù)據(jù)到目標(biāo)數(shù)據(jù)的映射規(guī)則,做一定的計(jì)算、合并和拆分等轉(zhuǎn)換操作。

數(shù)據(jù)清洗:通過對數(shù)據(jù)進(jìn)行排重,異常字段處理和無效數(shù)據(jù)過濾等操作,形成基礎(chǔ)數(shù)據(jù)層的數(shù)據(jù),使基礎(chǔ)數(shù)據(jù)層的數(shù)據(jù)更精確更有意義的過程。數(shù)據(jù)清洗是數(shù)據(jù)整合中的一個(gè)重要環(huán)節(jié),數(shù)據(jù)清洗直接影響了數(shù)據(jù)裝載到數(shù)據(jù)庫中的清潔度與準(zhǔn)確度,關(guān)系到前端數(shù)據(jù)統(tǒng)計(jì)分析的可靠性及可信賴程度,如圖4所示。

圖4 數(shù)據(jù)清洗示意圖

去重復(fù)數(shù)據(jù)、去臟數(shù)據(jù):去掉原始數(shù)據(jù)集里的重復(fù)數(shù)據(jù)以及臟數(shù)據(jù)。例如某條記錄里,如果年齡字段的值小于零,則該條記錄就是臟數(shù)據(jù),需要予以剔除。

統(tǒng)一取值格式:統(tǒng)一字段的取值格式。例如當(dāng)字段為時(shí)間類型時(shí),那么統(tǒng)一格式為YYYY-MM-DDhi24:mi:ss;如果字段是數(shù)值型,如收入數(shù)據(jù),則統(tǒng)一保留六位小數(shù)。

表命名統(tǒng)一、字段命名統(tǒng)一:統(tǒng)一表的命名方式,表字段的命名方式。比如收入字段,原始數(shù)據(jù)集里可能命名為income、fee、charge等等,可統(tǒng)一為其中一種命名方法。

實(shí)體合并、拆分:實(shí)體合并,是將不同系統(tǒng)里相同的實(shí)體進(jìn)行合并,形成統(tǒng)一的數(shù)據(jù)實(shí)體;實(shí)體拆分,是將同一個(gè)實(shí)體里,代表不同的業(yè)務(wù)或者范圍的內(nèi)容拆分成多個(gè)實(shí)體,比如,將操作流水表的內(nèi)容進(jìn)行拆分。

衍生字段加工:將用途范圍廣、使用頻繁、基礎(chǔ)性強(qiáng)的指標(biāo),加工到基礎(chǔ)數(shù)據(jù)集里,從而提高數(shù)據(jù)的使用效率以及同一數(shù)據(jù)口徑。

數(shù)據(jù)清洗轉(zhuǎn)換通過配置進(jìn)行管理,生成對應(yīng)清洗、轉(zhuǎn)換規(guī)則關(guān)系映射表,系統(tǒng)通過調(diào)用、匹配該關(guān)系映射表,實(shí)現(xiàn)對原數(shù)據(jù)的自動(dòng)清洗和自動(dòng)轉(zhuǎn)換,生成標(biāo)準(zhǔn)數(shù)據(jù)集,從而完成數(shù)據(jù)清洗轉(zhuǎn)換整體流程操作。

3.數(shù)據(jù)抽取。統(tǒng)一流程調(diào)度模塊依據(jù)觸發(fā)規(guī)則觸發(fā)數(shù)據(jù)從數(shù)據(jù)裝載層進(jìn)行抽取。數(shù)據(jù)抽取過程是針對數(shù)據(jù)裝載層中不同的數(shù)據(jù)源進(jìn)行全量或增量的抽取的過程。全量抽取是針對歷史數(shù)據(jù),維表數(shù)據(jù)等需要一次性獲取全量的數(shù)據(jù)的抽取方法;增量抽取是針對源系統(tǒng)每天產(chǎn)生的增量數(shù)據(jù)進(jìn)行抽取,增量抽取以源系統(tǒng)記錄的發(fā)生時(shí)間做為增量的標(biāo)志,每次抽取之前首先判斷記錄最大的時(shí)間,然后根據(jù)這個(gè)時(shí)間取大于這個(gè)時(shí)間所有的記錄。例如對采購信息相關(guān)數(shù)據(jù)等按照實(shí)時(shí)更新或按照月度更新的數(shù)據(jù)需要采用定時(shí)增量抽取的方式進(jìn)行抽取。

四、數(shù)據(jù)計(jì)算

數(shù)據(jù)計(jì)算就是依據(jù)不同的數(shù)據(jù)模型,根據(jù)數(shù)據(jù)實(shí)效性要求和不同的計(jì)算復(fù)雜度采用不同的計(jì)算工具和方法對數(shù)據(jù)進(jìn)行計(jì)算,最終得到主題模型所需的數(shù)據(jù)。根據(jù)主題模型可分為離線計(jì)算、實(shí)時(shí)計(jì)算、模型計(jì)算,如圖5所示。

圖5 數(shù)據(jù)計(jì)算示意圖

1.離線計(jì)算。離線計(jì)算:主要是針對數(shù)據(jù)量較大,但實(shí)時(shí)性要求不高的數(shù)據(jù),智慧采購系統(tǒng)中月度、季度、年度等數(shù)據(jù)需大量數(shù)據(jù)匯聚運(yùn)算及信用評價(jià)等模型需要迭代式運(yùn)算,可通過封裝HQL/SparkSql語句,基于MapReduce/Spark分布式計(jì)算框架進(jìn)行數(shù)據(jù)模型計(jì)算,通過azkaban任務(wù)調(diào)度工具對計(jì)算任務(wù)進(jìn)行編排和統(tǒng)一調(diào)度管理,實(shí)現(xiàn)多種類型和數(shù)據(jù)體量較大的數(shù)據(jù)的批量運(yùn)算。

2.實(shí)時(shí)計(jì)算。對于準(zhǔn)實(shí)時(shí)應(yīng)用,可采用開源Storm流式技術(shù)框架來實(shí)現(xiàn)。Strom可以方便的在一個(gè)計(jì)算機(jī)集群中編寫與擴(kuò)展復(fù)雜的實(shí)時(shí)計(jì)算,每秒可以處理數(shù)以萬記的消息。基于其本身的技術(shù)特點(diǎn)和業(yè)務(wù)場景實(shí)效性要求,可以用來處理互聯(lián)網(wǎng)爬蟲數(shù)據(jù),實(shí)時(shí)的計(jì)算處理爬蟲獲取的即時(shí)數(shù)據(jù),不會(huì)出現(xiàn)大量數(shù)據(jù)積攢的延遲,保證整個(gè)系統(tǒng)向提供用戶極好的應(yīng)用體驗(yàn)。

3.模型計(jì)算。針對數(shù)據(jù)模型計(jì)算,可利用基于Tensorflow和SparkMlib等成熟的計(jì)算框架進(jìn)行實(shí)現(xiàn)。其中SparkMlib已實(shí)現(xiàn)部分?jǐn)?shù)據(jù)挖掘算法,已解決分布式計(jì)算問題。

總結(jié):在實(shí)際應(yīng)用場景中針對趨勢預(yù)測,分類等需求,首先用歷史數(shù)據(jù)進(jìn)行模型訓(xùn)練和校準(zhǔn),訓(xùn)練好的模型存入模型庫,在新的批次數(shù)據(jù)到來時(shí),統(tǒng)一流程調(diào)度模塊逐一調(diào)用模型庫中的模型,對新的數(shù)據(jù)進(jìn)行計(jì)算。從數(shù)據(jù)建模系統(tǒng)中提取對應(yīng)的模型代碼,應(yīng)用于模型計(jì)算。

猜你喜歡
模型系統(tǒng)
一半模型
Smartflower POP 一體式光伏系統(tǒng)
WJ-700無人機(jī)系統(tǒng)
ZC系列無人機(jī)遙感系統(tǒng)
北京測繪(2020年12期)2020-12-29 01:33:58
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
基于PowerPC+FPGA顯示系統(tǒng)
半沸制皂系統(tǒng)(下)
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
3D打印中的模型分割與打包
主站蜘蛛池模板: 久久久久亚洲AV成人人电影软件| 久久精品午夜视频| 97se亚洲| 久久综合伊人 六十路| 亚洲浓毛av| 国产欧美日本在线观看| 国产成人a在线观看视频| 日韩欧美中文字幕在线韩免费| 精品少妇人妻av无码久久| 毛片卡一卡二| a级毛片一区二区免费视频| 亚洲婷婷丁香| AV熟女乱| 亚洲中文字幕av无码区| 国产剧情无码视频在线观看| 国产精品自拍露脸视频| 97视频精品全国免费观看| 中文字幕无码中文字幕有码在线| 最新国产你懂的在线网址| 狼友视频国产精品首页| 国产啪在线91| AV无码国产在线看岛国岛| 99在线观看精品视频| 欧美成a人片在线观看| 国产精品制服| 91人妻日韩人妻无码专区精品| 国产成人亚洲综合a∨婷婷| 人妻中文字幕无码久久一区| 欧美第一页在线| 91无码人妻精品一区| 日本午夜精品一本在线观看| a级毛片在线免费观看| 天天色天天综合网| 国产视频一二三区| 女人av社区男人的天堂| 色呦呦手机在线精品| 欧美日一级片| 无码视频国产精品一区二区| 黄片一区二区三区| 精品人妻无码中字系列| 第一页亚洲| 综合色88| 欧美人与牲动交a欧美精品 | 欧美激情福利| 亚洲欧美在线综合一区二区三区| 欧美亚洲一二三区| a级毛片网| 一级一级一片免费| 91蜜芽尤物福利在线观看| 亚洲综合在线网| 国产精鲁鲁网在线视频| 波多野结衣视频网站| 色综合狠狠操| 婷婷伊人五月| 亚洲三级a| 在线看片免费人成视久网下载| 国产丰满大乳无码免费播放| 波多野结衣在线se| 91久久天天躁狠狠躁夜夜| 日本不卡在线视频| 91成人在线免费观看| 国产欧美视频综合二区| 欧洲日本亚洲中文字幕| 国产精品丝袜视频| www亚洲天堂| 欧美日本在线播放| 亚洲日韩精品无码专区| 亚洲国产综合第一精品小说| 欧美成人在线免费| 国产精品久久久久鬼色| 夜夜高潮夜夜爽国产伦精品| 欧美精品不卡| 无遮挡国产高潮视频免费观看| 日本亚洲欧美在线| 午夜一区二区三区| 在线国产毛片手机小视频| 在线观看欧美国产| 四虎永久免费地址在线网站| 亚洲高清资源| 99久久国产综合精品2023| 日韩第九页| 国产精品成人一区二区不卡|