999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

支持模型復(fù)用的通用大數(shù)據(jù)分析平臺

2020-09-14 08:31:14崔曉龍邊勝琴張德政
實(shí)驗(yàn)室研究與探索 2020年7期
關(guān)鍵詞:數(shù)據(jù)處理用戶模型

崔曉龍, 郭 茜,b, 邊勝琴, 張德政,b

(北京科技大學(xué)a.計(jì)算機(jī)與通信工程學(xué)院;b.材料領(lǐng)域知識工程北京市重點(diǎn)實(shí)驗(yàn)室,北京100083)

0 引 言

大數(shù)據(jù)時代,數(shù)據(jù)已經(jīng)成為各企業(yè)的重要資產(chǎn),利用大數(shù)據(jù)進(jìn)行主題分析挖掘,不僅可以對數(shù)據(jù)進(jìn)行宏觀監(jiān)控,還可以幫助企業(yè)降低成本、提高效率、開發(fā)新產(chǎn)品,做出更加科學(xué)、準(zhǔn)確的業(yè)務(wù)決策。隨著數(shù)據(jù)量的增多,企業(yè)面對多方面的主題分析時往往將其視為獨(dú)立的項(xiàng)目,即每次進(jìn)行主題分析時均需重新獲取數(shù)據(jù)、重新進(jìn)行數(shù)據(jù)預(yù)處理、重新構(gòu)建模型。在進(jìn)行多主題分析時,這種方式往往導(dǎo)致主題間數(shù)據(jù)源及算法模型重用性差等問題。同時在可預(yù)見的未來,互聯(lián)網(wǎng)的發(fā)展必然帶來數(shù)據(jù)量爆炸式的增長,數(shù)據(jù)分析人員對數(shù)據(jù)的預(yù)處理能力落后與數(shù)據(jù)快速增長之間的矛盾將會更加突出,同時也伴隨著數(shù)據(jù)分析性能遇到瓶頸,缺少數(shù)據(jù)分析挖掘的高級方法,數(shù)據(jù)分析人員無法直觀查看數(shù)據(jù)分布并進(jìn)行預(yù)處理等問題的發(fā)生,這些問題制約著大數(shù)據(jù)分析的發(fā)展[1-3]。本文建立一個集多主題構(gòu)建于一體的通用大數(shù)據(jù)分析平臺,實(shí)現(xiàn)多個主題構(gòu)建,各類型大數(shù)據(jù)存儲與抽取,主題間的數(shù)據(jù)共享,主題間算法模型共享,大數(shù)據(jù)自動分析并給出相應(yīng)處理建議是解決以上問題的一個可行方案[4]。

1 相關(guān)技術(shù)

1.1 數(shù)據(jù)分析

數(shù)據(jù)分析流程主要包括:確定分析主題、獲取數(shù)據(jù)、數(shù)據(jù)描述、數(shù)據(jù)預(yù)處理、構(gòu)建算法模型5個步驟。確定分析主題需結(jié)合業(yè)務(wù)背景來分析需求,確定分析及研究方向;通過爬蟲技術(shù)、ETL技術(shù)、日志采集工具可分別獲得網(wǎng)絡(luò)數(shù)據(jù)、系統(tǒng)數(shù)據(jù)、日志數(shù)據(jù);通過查看數(shù)據(jù)基本描述屬性可查看數(shù)據(jù)分布,如中心趨勢度量(均值、中位數(shù)、眾數(shù))、數(shù)據(jù)分布度量(極差、四分位數(shù)、方差和標(biāo)準(zhǔn)差)、統(tǒng)計(jì)描述可視化(分位數(shù)圖、直方圖)對數(shù)據(jù)進(jìn)行描述;通過數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約、數(shù)據(jù)變換等方法對數(shù)據(jù)進(jìn)行預(yù)處理[5];結(jié)合數(shù)據(jù)特點(diǎn)構(gòu)建相應(yīng)的算法模型,如分類算法、聚類算法、關(guān)聯(lián)規(guī)則算法等。

1.2 大數(shù)據(jù)

針對海量的數(shù)據(jù),一味提高硬盤容量和內(nèi)存只會導(dǎo)致成本提高以及數(shù)據(jù)處理效率遇到瓶頸等問題發(fā)生。為解決海量數(shù)據(jù)分布式存儲及計(jì)算問題,Google在2006年前公布了GFS、MapReduce,這也直接支持了Apache Hadoop 項(xiàng)目的誕生[6]。

Hadoop的分布式文件系統(tǒng)為HDFS(Hadoop Distributed File System)[7-9],它是一個高度容錯性的系統(tǒng),解決了分布式計(jì)算中數(shù)據(jù)存儲管理問題,適合部署在廉價的機(jī)器上。隨著數(shù)據(jù)種類的增多,非關(guān)系型數(shù)據(jù)庫受到更多關(guān)注。如MongoDB是基于分布式文件存儲的數(shù)據(jù)庫,旨在為WEB應(yīng)用提供可擴(kuò)展的高性能數(shù)據(jù)存儲解決方案;HBase是一種構(gòu)建在HDFS之上的分布式、面向列的存儲系統(tǒng),利用Hadoop MapReduce來處理HBase中的海量數(shù)據(jù)。

大數(shù)據(jù)算法庫需具備大數(shù)據(jù)的批量計(jì)算、流式計(jì)算能力,其中批量計(jì)算主要針對靜態(tài)數(shù)據(jù)的離線計(jì)算,吞吐量好,但是不能保證實(shí)時性;流計(jì)算主要針對動態(tài)數(shù)據(jù)的在線實(shí)時計(jì)算,時效性好,但是難以獲取數(shù)據(jù)全貌[10]。針對不同的數(shù)據(jù)類型,平臺需具備可結(jié)合各類業(yè)務(wù)邏輯的算法、海量數(shù)據(jù)的離線分析與處理能力。目前存在的多種大數(shù)據(jù)算法庫中以Mahout、Spark下的Spark MLlib較為流行。

Mahout是一個基于Hadoop的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的分布式計(jì)算框架,在MapReduce模式下封裝實(shí)現(xiàn)了大量數(shù)據(jù)挖掘經(jīng)典算法,為Hadoop開發(fā)人員提供了數(shù)據(jù)建模的標(biāo)準(zhǔn),從而大大降低了大數(shù)據(jù)應(yīng)用中并行挖掘產(chǎn)品的開發(fā)難度[11]。

Spark是UC Berkeley AMP Lab開發(fā)的開源集群計(jì)算平臺,是以內(nèi)存計(jì)算為基礎(chǔ)的集群計(jì)算框架[12]。Spark MLlib是Spark中可擴(kuò)展的機(jī)器學(xué)習(xí)庫,它由一系列機(jī)器學(xué)習(xí)算法和實(shí)用程序組成,包括分類、回歸、聚類、協(xié)同過濾、降維,還包括一些底層的優(yōu)化方法[13]。

2 平臺總體設(shè)計(jì)

2.1 平臺架構(gòu)

基于目前各企業(yè)分析主題時的難點(diǎn)和痛點(diǎn),對大數(shù)據(jù)分析平臺的總體設(shè)計(jì)如圖1所示。硬件層采用商業(yè)PC服務(wù)器,可靠性和性能均能滿足通用大數(shù)據(jù)平臺要求;經(jīng)濟(jì)方面采用商業(yè)PC服務(wù)器也是可行的;系統(tǒng)硬件是可擴(kuò)展的,可以通過增加服務(wù)器的數(shù)量提升對大量數(shù)據(jù)的處理能力。

圖1 平臺總體架構(gòu)圖

存儲/計(jì)算引擎層采用流行的Hadoop/Spark大數(shù)據(jù)處理引擎,同時采用NoSQL數(shù)據(jù)庫(MongoDB、HBase)負(fù)責(zé)非結(jié)構(gòu)化數(shù)據(jù)的存儲;結(jié)構(gòu)化數(shù)據(jù)采用MySQL進(jìn)行存儲;批處理數(shù)據(jù)采用HDFS進(jìn)行存儲。該層以硬件層為基礎(chǔ)負(fù)責(zé)為應(yīng)用層為提供數(shù)據(jù)存儲和計(jì)算服務(wù)[14-15]。

應(yīng)用層包含主題管理模塊、數(shù)據(jù)探索模塊、數(shù)據(jù)預(yù)處理模塊、大數(shù)據(jù)算法模塊。主要負(fù)責(zé)調(diào)動存儲/計(jì)算引擎的存儲資源和計(jì)算資源,同時也為展示層進(jìn)行互動并提供計(jì)算結(jié)果。

展示層主要負(fù)責(zé)數(shù)據(jù)分析人員與系統(tǒng)的交互,如數(shù)據(jù)分析人員可通過Web頁面或命令行請求數(shù)據(jù),應(yīng)用層可基于展示層的請求調(diào)動資源對數(shù)據(jù)進(jìn)行處理并呈現(xiàn)給展示層。

2.2 數(shù)據(jù)架構(gòu)

大數(shù)據(jù)分析平臺各層之間均需要接口進(jìn)行銜接,數(shù)據(jù)架構(gòu)關(guān)系著整個平臺是否能夠按照預(yù)期需求運(yùn)行,其數(shù)據(jù)架構(gòu)整體設(shè)計(jì)如圖2所示。外部系統(tǒng)對數(shù)據(jù)存放路徑或IP地址進(jìn)行配置生成配置文件,數(shù)據(jù)采集接口通過讀取配置文件來訪問數(shù)據(jù),通過數(shù)據(jù)采集對數(shù)據(jù)進(jìn)行轉(zhuǎn)換并加載,為數(shù)據(jù)處理提供服務(wù)。數(shù)據(jù)可分為少量數(shù)據(jù)、大量數(shù)據(jù)、實(shí)時數(shù)據(jù)3種,不同種類的數(shù)據(jù)處理策略不同,針對少量數(shù)據(jù),可將其存儲到單機(jī)節(jié)點(diǎn),利用本地內(nèi)存進(jìn)行計(jì)算;離線批量數(shù)據(jù),則需進(jìn)行分布式存儲,可利用集群進(jìn)行并行計(jì)算;在線實(shí)時數(shù)據(jù),可利用集群進(jìn)行流式計(jì)算。數(shù)據(jù)處理過程需記錄到歷史版本庫,同時加載模型庫及已處理好的文件進(jìn)行模型構(gòu)建,最終將結(jié)果文件傳遞給外部系統(tǒng)如Web頁面、客戶端或交互終端如API請求等。

圖2 數(shù)據(jù)架構(gòu)設(shè)計(jì)概圖

3 功能模塊設(shè)計(jì)

大數(shù)據(jù)分析平臺分為主題管理模塊、數(shù)據(jù)探索模塊、數(shù)據(jù)預(yù)處理模塊、算法模型模塊,如圖3所示。

圖3 平臺功能架構(gòu)圖

3.1 主題管理模塊

主題管理主要為解決數(shù)據(jù)安全性而設(shè)計(jì)的,數(shù)據(jù)分析人員基于業(yè)務(wù)對主題進(jìn)行描述,選擇相應(yīng)數(shù)據(jù)源,最終確定主題,每個主題對應(yīng)一套針對自己業(yè)務(wù)的數(shù)據(jù)集以及數(shù)據(jù)處理流程。由于同一數(shù)據(jù)分析人員業(yè)務(wù)背景相同,其分析不同的主題可能用到相同的數(shù)據(jù),而不同的數(shù)據(jù)分析人員可能用到相同的算法模型,主題管理模塊便于對數(shù)據(jù)分析人員復(fù)用權(quán)限的管理,復(fù)用權(quán)限表如表1所示。

同一用戶可構(gòu)建不同主題,主題之間可共享數(shù)據(jù)源、數(shù)據(jù)半自動處理流程、數(shù)據(jù)半自動化處理結(jié)果以及該用戶所有模型;不同用戶之間可共享公開的數(shù)據(jù)模型。這就避免了重復(fù)上傳數(shù)據(jù)和重復(fù)構(gòu)建數(shù)據(jù)預(yù)處理過程,同時也便于用戶管理自己的模型。

表1 復(fù)用權(quán)限表

3.2 數(shù)據(jù)探索模塊

主題分析中,數(shù)據(jù)分析人員需根據(jù)數(shù)據(jù)特征的分布來判定如何對數(shù)據(jù)進(jìn)行預(yù)處理、選擇什么樣的特征以及如何構(gòu)建合適模型,當(dāng)加載數(shù)據(jù)源后,針對不同數(shù)據(jù)類型,數(shù)據(jù)分析人員往往看重的分析的指標(biāo)又不盡相同。此時,該模塊可根據(jù)數(shù)據(jù)列類型給出基本的數(shù)據(jù)描述字段,數(shù)據(jù)列類型主要包括離散型和數(shù)值型,對不同類型可展示數(shù)據(jù)分析人員關(guān)心的指標(biāo)。離散型主要展示頻次、數(shù)據(jù)條數(shù)、空值個數(shù)等統(tǒng)計(jì)描述,同時以柱狀圖、餅圖、表格等可視化手段進(jìn)行輔助展示;數(shù)值型主要展示標(biāo)準(zhǔn)差、均值、最大值、最小值、四分位點(diǎn)、中位數(shù)、總條數(shù)、空值個數(shù)等統(tǒng)計(jì)描述,以盒圖、折線圖等圖表進(jìn)行輔助展示。該模塊可使數(shù)據(jù)分析人員更清楚地認(rèn)識數(shù)據(jù),為數(shù)據(jù)預(yù)處理和模型構(gòu)建做準(zhǔn)備。

3.3 數(shù)據(jù)預(yù)處理模塊

數(shù)據(jù)預(yù)處理模塊可對待分析數(shù)據(jù)進(jìn)行半自動化預(yù)處理,之所以稱為半自動化預(yù)處理,主要是由于數(shù)據(jù)處理與業(yè)務(wù)緊密結(jié)合,而該平臺又可構(gòu)建不同業(yè)務(wù)的主題,由于無法學(xué)習(xí)各個主題對應(yīng)的業(yè)務(wù)背景,系統(tǒng)只能通過數(shù)據(jù)分布提出相應(yīng)的數(shù)據(jù)處理建議,處理建議最終執(zhí)行權(quán)交給數(shù)據(jù)分析人員來判定。如平臺對某一列給出填充的建議,但具體填充0、最大值還是最小值,則需要數(shù)據(jù)分析人員結(jié)合業(yè)務(wù)來確認(rèn)。

該模塊主要包含數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約、數(shù)據(jù)變換4個功能,功能結(jié)構(gòu)圖如圖4所示。

圖4 數(shù)據(jù)預(yù)處理模塊

數(shù)據(jù)清洗主要包括對缺失值的處理,可按照行、列來區(qū)分,通過后臺程序制定的策略算法,根據(jù)缺失值的缺失程度給出相應(yīng)處理操作建議;數(shù)據(jù)集成主要包括冗余特征發(fā)現(xiàn)與多表合并,冗余特征發(fā)現(xiàn)主要找出冗余的特征并建議刪除,如果是離散型則使用卡方檢驗(yàn)算法求相似度,如果是數(shù)值型則使用皮爾遜相關(guān)系數(shù)求相似度;數(shù)據(jù)規(guī)約包括維度規(guī)約和數(shù)據(jù)離散化,維度歸約主要通過特征選擇或特征提取來減少數(shù)據(jù)集中的維數(shù)(變量)數(shù)量,而不會顯著損失信息,而數(shù)據(jù)離散化主要是將連續(xù)屬性的特征切分為若干“段”來減少給定連續(xù)屬性值的個數(shù);數(shù)據(jù)變換主要實(shí)現(xiàn)屬性構(gòu)造,可以選擇多個屬性并構(gòu)建新屬性的公式,并通過后臺程序識別公式進(jìn)行新屬性的構(gòu)造。

為避免對同一數(shù)據(jù)源進(jìn)行重復(fù)的數(shù)據(jù)預(yù)處理操作,平臺可記錄數(shù)據(jù)預(yù)處理過程,并將新的數(shù)據(jù)預(yù)處理結(jié)果記錄到版本庫中供數(shù)據(jù)分析人員直接使用。如圖5所示。對于同一數(shù)據(jù)集,平臺可記錄不同的數(shù)據(jù)預(yù)處理過程并將最終的預(yù)處理結(jié)果存儲為相應(yīng)版本。數(shù)據(jù)分析人員可重用數(shù)據(jù)處理操作并可基于現(xiàn)有版本庫對數(shù)據(jù)繼續(xù)進(jìn)行預(yù)處理。

圖5 歷史版本庫操作

3.4 算法模型模塊

數(shù)據(jù)分析人員可以通過該模塊進(jìn)行算法模型的定義并上傳已實(shí)現(xiàn)的算法模型文件,其余數(shù)據(jù)分析人員可輸入指定的參數(shù)來調(diào)用模型,最終平臺按照輸出類型將結(jié)果輸出。

數(shù)據(jù)分析人員可上傳自定義模型,其中模型名稱以及相應(yīng)的參數(shù)字段約定如表2所示。

表2 算法模型上傳字段約定

當(dāng)調(diào)用模型時需要利用算法引擎進(jìn)行處理,其中算法引擎設(shè)計(jì)如圖6所示。數(shù)據(jù)分析人員通過API或交互平臺來構(gòu)建輸入?yún)?shù),主要包括選用的模型、模型類型、模型的相應(yīng)參數(shù)以及選擇的數(shù)據(jù)。算法引擎通過輸入?yún)?shù)來加載算法模型和數(shù)據(jù),首先通過依賴包調(diào)用引擎判斷是否已加載所有的包,如果沒有,則加載相應(yīng)的包;根據(jù)數(shù)據(jù)存儲位置(本地存儲或集群存儲)來加載數(shù)據(jù)。當(dāng)兩者均準(zhǔn)備就緒后,根據(jù)模型類型選擇SparkMLlib或單機(jī)算法調(diào)用引擎來進(jìn)行模型運(yùn)算;將執(zhí)行結(jié)果返回到模型輸出引擎,該引擎通過判斷模型輸出類型(字典、數(shù)組或json字符串)將結(jié)果輸出到平臺。

圖6 算法引擎設(shè)計(jì)圖

4 平臺實(shí)現(xiàn)與應(yīng)用

4.1 平臺實(shí)現(xiàn)

大數(shù)據(jù)分析平臺涉及大量的數(shù)據(jù)處理,而目前數(shù)據(jù)分析挖掘中較常使用Python語言,同時有大量的數(shù)據(jù)操作基礎(chǔ)庫是基于Python開發(fā)的,因此選用Python作為大數(shù)據(jù)分析平臺的主要開發(fā)語言。

平臺選擇基于Python的Web框架,這有利于與底層語言的結(jié)合。考慮到Django具有文檔最完善、強(qiáng)大的URL路由配置、容易數(shù)據(jù)遷移等特點(diǎn),最終選擇Django框架作為平臺的Web框架。

前臺展示以Bootstrap作為前端框架、Echarts作為圖表展示、Jquery Ajax異步請求與后臺action進(jìn)行交互。底層以MySQL數(shù)據(jù)庫作為大數(shù)據(jù)分析平臺的信息存儲數(shù)據(jù)庫、以Hadoop HDFS集群作為大數(shù)據(jù)存儲、以Spark MLlib算法庫作為大數(shù)據(jù)分析平臺的算法庫。

整體技術(shù)架構(gòu)可將系統(tǒng)分為不同的邏輯塊,通過相應(yīng)的組件相互訪問,如圖7所示。其中展示層只接受Json格式數(shù)據(jù),可作為API供第三方或Web直接解析;ORM可將關(guān)系型數(shù)據(jù)庫和業(yè)務(wù)實(shí)體進(jìn)行映射供控制層直接使用;由于涉及到大數(shù)據(jù)的分布式存儲,本平臺需利用python進(jìn)行HDFS的訪問,可利用pyhdfs對HDFS內(nèi)容進(jìn)行操作;同理,對于大數(shù)據(jù)算法模型的計(jì)算,可利用pyspark與Spark對接進(jìn)行操作。這種方式將數(shù)據(jù)訪問和邏輯操作進(jìn)行分離,增強(qiáng)了系統(tǒng)的復(fù)用性及系統(tǒng)的擴(kuò)展性,同時也大大降低了應(yīng)用系統(tǒng)開發(fā)和維護(hù)的成本。

圖7 各層間訪問接口

4.2 平臺的部署

平臺部署環(huán)境如表3所示,Web服務(wù)器僅負(fù)責(zé)維護(hù)平臺系統(tǒng),配置相對較低。平臺使用Hadoop2.7.0以及Spark1.6.1構(gòu)建的16個節(jié)點(diǎn)集群對數(shù)據(jù)進(jìn)行存儲和計(jì)算,配置相對較高,可根據(jù)業(yè)務(wù)需求對硬件進(jìn)行調(diào)整。該平臺部署在linux系統(tǒng)中,需安裝表3所示的Python包用于數(shù)據(jù)處理及集群的操作。

4.3 應(yīng)用案例

以2016年電網(wǎng)大數(shù)據(jù)助力2016CCF大數(shù)據(jù)競賽的兩個分析主題為例,一個為客戶畫像;另一個為客戶用電異常行為分析。

表3 平臺所需軟硬件環(huán)境

客戶畫像以電力用戶的95598工單數(shù)據(jù)、電量電費(fèi)營銷數(shù)據(jù)等為基礎(chǔ),綜合分析電費(fèi)敏感客戶特征,建立客戶電費(fèi)敏感度模型,對電費(fèi)敏感用戶的敏感程度進(jìn)行量化評判,幫助供電企業(yè)快速、準(zhǔn)確的識別電費(fèi)敏感客戶,從而對應(yīng)地提供有針對性的電費(fèi)、電量提醒等精細(xì)化用電服務(wù)。客戶用電異常行為分析基于國家電網(wǎng)公司提供的關(guān)于用戶用電量、電能表停走、電流失流、計(jì)量門打開燈計(jì)量異常情況、竊電行為等相關(guān)數(shù)據(jù),以及經(jīng)過現(xiàn)場電工人員現(xiàn)場確認(rèn)的竊電用戶清單,希望參賽者利用大數(shù)據(jù)分析算法與技術(shù),發(fā)現(xiàn)竊電用戶的行為特征,形成竊電用戶行為畫像,準(zhǔn)確識別竊電用戶,以幫助系統(tǒng)更快速、準(zhǔn)確地識別竊電用戶,提高竊電監(jiān)測效率,降低竊電損失。其中應(yīng)收電費(fèi)信息部分信息如表4所示,各列代表含義分別為應(yīng)收年月、用戶編號、供電單位編號、用戶類別、用電類別、電費(fèi)金額、總電量,其余信息數(shù)據(jù)格式與之類似,在此不展開詳述。

盡管兩者屬于同一行業(yè)不同主題分析,但分析步驟相同。

客戶畫像的一種分析步驟如下:將現(xiàn)有數(shù)據(jù)按照用戶編號進(jìn)行合并,根據(jù)業(yè)務(wù)對數(shù)據(jù)進(jìn)行預(yù)處理,構(gòu)建相關(guān)特征,利用Kmeans算法或其余聚類算法對用戶進(jìn)行群分,利用決策樹算法或其余分類算法構(gòu)建評價模型對客戶構(gòu)建評價標(biāo)簽,利用該標(biāo)構(gòu)建用戶畫像。

客戶用電異常行為的一種分析步驟如下:將現(xiàn)有數(shù)據(jù)按照用戶編號進(jìn)行合并,根據(jù)業(yè)務(wù)對數(shù)據(jù)進(jìn)行預(yù)處理,構(gòu)建相關(guān)特征,利用決策樹算法或其余分類算法構(gòu)建用電行為識別模型,利用該模型識別異常客戶。

表4 應(yīng)收電費(fèi)信息表數(shù)據(jù)展示

由于兩個主題會用到相同的數(shù)據(jù),如用電客戶信息、電能表相關(guān)信息、電量相關(guān)信息;同時兩者會用到相同的算法模型,如決策樹算法,因此可以利用該系統(tǒng)進(jìn)行數(shù)據(jù)數(shù)據(jù)處理的重用及模型的重用。

4.3.1 客戶畫像

(1)基于平臺創(chuàng)建客戶畫像主題,上傳相應(yīng)數(shù)據(jù)并進(jìn)行數(shù)據(jù)展示與描述,如圖8所示,其中字符型可看到頻次最高列、頻次、數(shù)據(jù)總條數(shù)、空值個數(shù)、非空個數(shù);數(shù)值型可看到類型、標(biāo)準(zhǔn)差、均值、最小值等數(shù)據(jù)分布。

圖8 數(shù)據(jù)描述

(2)數(shù)據(jù)預(yù)處理。根據(jù)平臺給出的對行和列的處理建議,數(shù)據(jù)分析人員可進(jìn)行數(shù)據(jù)預(yù)處理操作,平臺默認(rèn)將數(shù)據(jù)處理記錄到版本庫中,這樣就能保證當(dāng)該數(shù)據(jù)源再次被用到時,其數(shù)據(jù)處理過程可被復(fù)用。如圖9所示,系統(tǒng)根據(jù)各列數(shù)據(jù)的分布,給出刪除和填充的建議,并給出理由,當(dāng)缺失率高達(dá)80%時,建議刪除,存在部分缺失值時建議填充,同時給出數(shù)據(jù)的分布,便于數(shù)據(jù)分析人員結(jié)合業(yè)務(wù)選擇填充的具體值。

圖9 針對于列的預(yù)處理

(3)算法模塊的構(gòu)建。該主題需要構(gòu)建決策樹算法模型,如圖10所示,數(shù)據(jù)分析人員輸入算法模塊名稱,算法描述,選擇模塊類型為單機(jī)-分類算法,選擇公開可被其余用戶調(diào)用,上傳算法文件并配置輸入輸出參數(shù)。

圖10 構(gòu)建決策樹模型

4.3.2 客戶用電異常行為分析

(1)基于平臺創(chuàng)建客戶用電異常行為主題,選擇已存在的數(shù)據(jù)源,避免重復(fù)上傳數(shù)據(jù),該主題復(fù)用了客戶畫像主題中的用戶基本信息,電量信息等數(shù)據(jù)源。

(2)選擇數(shù)據(jù)源時可選擇相應(yīng)的版本以及相應(yīng)的數(shù)據(jù)處理操作進(jìn)行數(shù)據(jù)處理的重用。如圖11所示,用戶基本信息目前有4個版本,每個版本記錄詳細(xì)的數(shù)據(jù)處理過程,可直接使用v2版本的數(shù)據(jù)集,同時也可以應(yīng)用該版本下的某個操作。

圖11 重用數(shù)據(jù)預(yù)處理模型

(3)該主題直接復(fù)用客戶畫像主題構(gòu)建的決策樹算法,避免了算法模型的重寫,利用已構(gòu)建好的特征及客戶異常預(yù)測目標(biāo)進(jìn)行決策樹模型訓(xùn)練,選擇相應(yīng)的訓(xùn)練集和測試集,最終返回一個json字符串顯示預(yù)測結(jié)果,其中1代表竊電用戶,0代表正常用戶,預(yù)測準(zhǔn)確度約為0.802。決策樹算法模型復(fù)用和預(yù)測結(jié)果分別如圖12和圖13所示。

圖12 決策樹模型調(diào)用

圖13 決策樹預(yù)測結(jié)果

客戶用電異常行為分析主題重用了客戶畫像主題的用戶基本信息數(shù)據(jù)、預(yù)處理結(jié)果及處理過程,減少了數(shù)據(jù)分析人員重復(fù)上傳相同數(shù)據(jù)并進(jìn)行數(shù)據(jù)預(yù)處理的操作。同時,客戶用電異常行為分析主題重用了客戶畫像的決策樹算法模型,避免了數(shù)據(jù)分析人員對同一種算法的重復(fù)構(gòu)建,實(shí)現(xiàn)了算法模型的重用。基于該平臺實(shí)現(xiàn)的兩個主題有力地證明了數(shù)據(jù)重用、預(yù)處理過程重用及算法模型重用的可行性。

5 結(jié) 語

通過構(gòu)建通用大數(shù)據(jù)分析平臺初步解決了數(shù)據(jù)以及模型的復(fù)用,對大數(shù)據(jù)分析流程、大數(shù)據(jù)存儲技術(shù)、大數(shù)據(jù)算法庫等技術(shù)展開研究,對主題模塊、數(shù)據(jù)探索模塊、數(shù)據(jù)預(yù)處理模塊、大數(shù)據(jù)分析算法模塊進(jìn)行了詳細(xì)設(shè)計(jì),提出了相應(yīng)的數(shù)據(jù)清洗策略、數(shù)據(jù)集成策略、數(shù)據(jù)規(guī)約策略、數(shù)據(jù)變換策略,制定了算法自定義規(guī)范并設(shè)計(jì)了算法引擎。借助平臺對真實(shí)數(shù)據(jù)集數(shù)據(jù)進(jìn)行了分析和展示,對該數(shù)據(jù)的處理和分析過程及結(jié)果證明了數(shù)據(jù)重用、預(yù)處理過程重用及模型重用的可行性,減少了數(shù)據(jù)分析人員在主題分析中的重復(fù)操作,有利于企業(yè)在較短的時間內(nèi)構(gòu)建多個主題分析,幫助企業(yè)提高主題分析效率,以便其更加快速、科學(xué)地做出業(yè)務(wù)決策。

·名人名言·

任何人都承認(rèn)實(shí)驗(yàn)是科學(xué)之母,這是確定不移的真理,誰也不會否認(rèn)。

——米丘林

猜你喜歡
數(shù)據(jù)處理用戶模型
一半模型
認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計(jì)法*
ILWT-EEMD數(shù)據(jù)處理的ELM滾動軸承故障診斷
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
基于希爾伯特- 黃變換的去噪法在外測數(shù)據(jù)處理中的應(yīng)用
主站蜘蛛池模板: 青青草原偷拍视频| 亚洲高清无码精品| www精品久久| 日韩色图区| 五月激情婷婷综合| 日韩黄色大片免费看| 国产精品永久久久久| 伊人久久大香线蕉综合影视| 亚洲自偷自拍另类小说| 成人福利一区二区视频在线| 国产无遮挡猛进猛出免费软件| 亚洲婷婷丁香| 久久免费视频6| 曰韩免费无码AV一区二区| 色香蕉影院| 囯产av无码片毛片一级| 久久久亚洲国产美女国产盗摄| AV在线天堂进入| 亚洲欧美激情另类| 91麻豆国产视频| 精品自窥自偷在线看| 91在线免费公开视频| 亚洲一区波多野结衣二区三区| 日韩福利在线观看| 91精品aⅴ无码中文字字幕蜜桃| 热99精品视频| 成年片色大黄全免费网站久久| 亚洲av无码专区久久蜜芽| 色AV色 综合网站| 99久久精品国产自免费| 福利视频久久| 成人在线综合| 伦精品一区二区三区视频| a级毛片网| 亚洲无码高清免费视频亚洲 | 久久人搡人人玩人妻精品| 欧美一区日韩一区中文字幕页| 999国产精品| 国内精自线i品一区202| 国产sm重味一区二区三区| 精品无码人妻一区二区| 久久99久久无码毛片一区二区| 日韩在线成年视频人网站观看| 日韩福利在线观看| 久久99国产乱子伦精品免| 日本道综合一本久久久88| 亚洲无码91视频| 九九久久99精品| 国产高潮流白浆视频| 青青热久免费精品视频6| 午夜欧美理论2019理论| 综合天天色| 色悠久久久| 国产精品亚洲va在线观看| 国产无码精品在线播放| 97国产精品视频自在拍| 久久一本日韩精品中文字幕屁孩| 91视频区| 国产成人做受免费视频| 久久综合丝袜日本网| 极品私人尤物在线精品首页| 日韩经典精品无码一区二区| 久久综合色88| 青青操视频免费观看| 99久久亚洲精品影院| 国产精品私拍在线爆乳| 免费在线看黄网址| 波多野结衣无码中文字幕在线观看一区二区 | 国产一在线| 污网站在线观看视频| 国产成人永久免费视频| 欧美成人日韩| av色爱 天堂网| 免费国产一级 片内射老| 婷婷色丁香综合激情| 少妇露出福利视频| 国产裸舞福利在线视频合集| 国产中文一区a级毛片视频| 免费视频在线2021入口| 毛片免费网址| 在线观看免费国产| 国产精彩视频在线观看|