999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

福彩銷售大數據平臺設計與應用

2023-03-27 06:34:36樊東霞
科技創新與應用 2023年8期
關鍵詞:數據庫分析

樊東霞

(中國福利彩票發行管理中心數據管理部,北京 100101)

目前福彩系統的信息化建設,多以各省具體的信息化需求為出發點開展工作,即開票、電腦票銷售系統均由各省福彩中心自行建設,導致原始數據缺乏統一的技術標準與數據標準規范,中國福利彩票發行管理中心(以下簡稱“中福彩中心”)對原始數據的實時收集與處理存在困難,無法對業務開展的事中風險進行排查與管控,在營銷宣傳、渠道管理、數據管理與應用管理等方面存在一定制約,對系統整體的架構規劃、架構管控方面存在不足,因此亟需站在系統全局視角,整合中福彩中心層面和各省市中心層面的信息化需求,加強數據統籌管理。

福彩銷售大數據平臺基于大數據技術設計與開發,為整合各省銷售數據資源,打造集數據接入、數據處理、數據存儲、監測管理、BI 報表和可視化平臺于一體的大數據平臺,著力提升信息化管理與服務能力,實現數據要素價值的充分發揮。

1 大數據技術

隨著計算機技術全面融入社會生活,移動互聯、電子商務平臺、社交媒體和物聯網技術正在不斷改變人們的生活方式,其數據量與對傳輸速率的要求超過了傳統數據庫的處理能力,數據的爆發式增長與社會屬性是大數據概念及相關技術應運而生的本質原因,維克托·邁爾-舍恩伯格[1]將大數據定義為不用隨機分析法這樣的捷徑,而采用所有數據的方法。大數據也可用5V 特征概括,主要包括Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)和Veracity(真實性)。

1)Volume:數據量的超大規模與數據的高速增長。

2)Velocity:對海量數據的快速處理。

3)Variety:數據格式多樣化,既包括結構化數據,也包括語音、圖片和視頻等非結構化數據。

4)Value:數據的低密度價值,數據存在大量不相關信息,需要通過技術手段挖掘其中的有用信息。

5)Veracity:數據的準確性,即數據質量。

大數據技術主要包括數據收集、數據存儲、數據計算和大數據分析與應用,如圖1 所示。

圖1 大數據技術結構圖

1.1 數據收集

數據收集是大數據的基礎,數據只有經過了數據收集才能歸并,以供后續進一步處理。數據源根據不同的類型和應用場景,可分為關系及非關系型數據庫、應用的日志信息、消息型數據和多媒體文檔等,不同類型的數據需要采用不同的數據收集技術框架。常見的數據收集技術框架包括Kafka、Flume、Logstash、FileBeat和Sqoop 等。

1.2 數據存儲

目前傳統的關系型數據庫已不能適應結構化、半結構化和非結構化海量數據的存儲及計算要求,選用何種數據庫一般會根據數據的類型及使用場景選擇一種或多種的大數據存儲方式。如分布式文件/對象數據庫可采用HDFS,分布式關系數據庫可采用TiDB、DRDS 等,文檔數據庫可采用MongoDb、CouchDB 等,圖數據庫可采用Neo4J、OrientDB 等。大數據存儲有時也配搭傳統關系數據庫作為輔助,如存儲索引、統計結果等。

1.3 數據計算

大數據計算常用框架主要包含批處理框架、流處理框架。批處理是先存儲后處理,而流處理是直接處理[2]。Hadoop 是應用較為廣泛的批處理框架,其包含分布式文件存儲數據庫HDFS 和計算框架MapReduce,HDFS 為海量數據提供了存儲,MapReduce 對海量的數據進行計算。流處理框架以Storm 為代表,無須存儲,只要數據源處于活動狀態,數據就會持續生成,并以流的形式在各工作節點的內存中進行計算[3],此外還有Spark、Flink 等混合計算框架。

1.4 大數據分析與應用

大數據技術的應用場景很廣泛,常見的如各種統計分析報表、BI 報表、客戶畫像、信息推送和定制化服務等,目前在金融行業、醫療行業、零售行業、互聯網和電信行業等各領域均有涉及。

2 平臺系統架構

2.1 系統總體架構

銷售大數據平臺整體分為3 層,即數據資源層、數據平臺層和數據應用層。數據流向如圖2 所示,數據資源層數據通過數據接收平臺流向數據平臺層,數據平臺層接收并存儲數據資源層數據,并通過數據清洗、數據轉換和挖掘分析,為數據應用層提供數據服務,數據應用層提供數據引擎進行并展示各種統計數據,同時對業務進行實時監控與風險控制。

圖2 數據平臺總體架構

2.1.1 數據資源層

數據資源層主要包括各省中心上傳的即開票銷售數據、即開票倉儲物流數據、電腦票銷售數據、棄獎數據、兌獎數據和渠道數據等,也包括各省中心應用服務數據、容災備份等其他數據。

2.1.2 數據平臺層

數據平臺層包含數據接收平臺、ETL 服務、數據存儲平臺和管理控制單元等,將數據資源進行接收、存儲與加工整合。

數據平臺層提供數據接收服務,對各省市報送的數據進行接收,并將接收到的數據存儲到數據存儲平臺。

數據平臺層提供數據轉換、數據清洗服務,對接收到的數據進行數據清洗,根據數據流水號檢測數據報送過程中遺漏的數據,將結果反饋給省中心進行數據補報。

數據平臺層提供數據挖掘功能,對清洗后的數據進行挖掘分析,將分析結果存儲到關系型數據庫Greenplum 中。

2.1.3 數據應用層

數據應用層提供數據查詢引擎、銷量分析引擎、游戲分析引擎、渠道分析引擎、資金分析引擎和風險分析引擎,通過上述引擎提供實時監控、銷量查詢分析、數據建模分析、異常監控和業務報表查詢及生成等功能。

2.2 數據接收平臺

數據接收平臺(圖3)為各省中心提供統一的數據報送接口,各省按照協議中規定的格式通過數據接收平臺報送各類數據。接收平臺提供數據轉換服務對報送的數據格式進行實時格式校驗,保證報送數據能夠進行正常轉換,轉換正確的數據被寫入到數據存儲平臺的消息隊列Kafka 中,Kafka 是一個分布式、支持分區的、多副本的和基于Zookeeper 協調的分布式高速消息傳遞系統[4],Kafka 集群作為消息中間件,對大量寫入的交易數據進行緩存。接收平臺通過Spark Streaming消費Kafka 集群中指定的Topic 來獲取業務數據并進行實時計算,包括對數據進行一致性校驗,對校驗后的數據進行指標計算、數據建模等,將計算后的結果存儲到數據庫中。接收平臺同時將格式錯誤的數據流水號保存至數據庫中,省中心可以通過查詢異常流水號,對錯誤的數據進行補傳,保證數據的一致性。

圖3 數據接收平臺

Spark Streaming 是構建在Spark 上的實時計算框架,擴展了Spark 處理大規模流式數據的能力,Spark Streaming 可結合批處理和交互查詢,足以勝任除高頻實時交易以外的其他流式準實時計算場景。Spark Streaming 構建在Spark 之上,一方面是因為Spark 的低延遲執行引擎(100 ms 左右)可以用于實時計算,另一方面,彈性分布式數據集(RDD)更容易做高效的容錯處理。此外,Spark Streaming 采用的小批量處理方式使得其可以同時兼容批量和實時數據處理的邏輯和算法,因此,適用于需要歷史數據和實時數據聯合分析的特定應用場合。

數據接收平臺整體接口設計為RESTful,遵循統一接口原則,使用XML 格式進行定義,系統對接簡單高效,能夠支持全國各省銷售系統對接。接收平臺數據轉化服務能夠從配置管理中心實時獲取最新的數據格式配置文件,在數據規范發生變更時能夠及時進行變更,數據格式校驗具備熱更新的能力。

數據接收平臺使用LVS 技術進行負載均衡,LVS是一個虛擬的Linux 服務器集群系統,主要用于多個Linux 服務器的負載平衡,在Linux 內核層級實現了基于IP 的數據請求負載均衡調度方案,平臺中采用該技術實現高并發數據的負載均衡處理,保證了平臺在高并發情況下的運算能力,同時數據接收平臺支持動態擴展,允許系統快速彈性擴容,在高并發壓力下,實現秒級系統彈性伸縮,提升數據接收平臺整體的可擴展性。

2.3 數據存儲平臺

大數據存儲平臺提供分布式數據存儲文件系統、分布式數據庫、分布式計算框架及大數據挖掘程序,對海量數據進行存儲并挖掘價值數據。

1)數據存儲平臺使用HBase 作為實時數據接收數據庫,將Spark Streaming 計算后的結果數據存儲到數據庫,實現實時入庫。

2)數據存儲平臺使用VMware 虛擬機集群,搭建Hadoop 大數據集群,大數據集群中使用HDFS 作為底層分布式文件存儲系統。

3)數據存儲平臺使用Hive 作為離線數據挖掘分析處理框架,在Hive 數據的基礎上,對銷售數據進行挖掘分析。

4)數據存儲平臺使用Greenplum 數據庫作為前后端交互的分布式關系型數據庫,在Greenplum 數據庫中保存數據挖掘分析的結果數據。

5)數據存儲平臺使用Redis 作為高性能的實時數據統計數據庫和緩存數據庫。

2.4 數據分析平臺

大數據分析是大數據研究領域的核心內容之一[5],數據分析平臺使用數據可視化框架,利用大數據技術對大數據平臺的數據進行價值挖掘后進行可視化展示,方便業務人員通過可視化圖表對業務中存在的問題、風險進行深入分析,幫助業務人員和運行維護人員快速定位問題,數據分析平臺功能架構圖如圖4 所示。

圖4 數據分析平臺功能架構

銷量分析是針對彩票總體銷量的統計分析,包括銷量排名、同比增幅、同比增量、環比增幅、環比增量,以及彩票發展指數、人均購彩金額和人均可支配收入購彩率等。

游戲分析是指對游戲全生命周期的分析,分為電腦票游戲分析和即開票游戲分析。電腦票游戲分析針對電腦票發行、銷售、開獎、兌獎、棄獎、期管理和停銷等業務的分析,包括當期銷售熱點時間、受歡迎的投注方式等指標;即開票游戲分析針對即開票發行、生產、倉儲物流、銷售、兌獎、棄獎和停銷等業務的分析,包括面值分布、上市時間分布等指標。

渠道分析主要用于展示全國各省投注站數量情況、投注站逐年銷量與數量的變化趨勢、當前站點經營信息及站點人員信息,此外統計了銷量排名靠前及靠后的投注站特點,便于業務人員對特殊站點進行重點管理。

資金分析主要包括公益金查詢、發行費管理、兌獎周轉金管理、一般調節基金管理和發行銷售風險金管理等業務。

風險分析主要用于監管業務合規性,包括大額售彩、高頻交易、交易時間異常、銷量異常波動、出票票數異常、注銷異常、兌獎異常、站點營業時間異常、站點開設位置合規性和站點交易時間分布規律異常等業務風險監管。

自助分析是指把歸集的數據根據業務需求進行數據的聚合,再從各個維度進行數據分析,針對數據維度提供不同顆粒度的選擇查詢、定制、導出和展示等功能,自助生成可視化報表。

3 結束語

隨著近年來福彩銷量增加,各省中心積累了大量原始數據,如何實時準確歸集福彩銷售相關數據并挖掘其中的潛在價值,成為中福彩中心持續研究的一個重要方向。福彩銷售大數據平臺的建設為福利彩票的發行銷售和業務監管提供了重要的數據支撐與決策依據。平臺綜合運用大數據挖掘與分析技術,輔助產品研發、渠道布局、精準營銷和精細化管理,實現福利福彩銷售的多元化,增強福彩監管力度,有助于提高福彩公信力,提升“陽光福彩”公益品牌形象,符合責任彩票體系建設要求,推動福彩數字化轉型,響應國家數據政府、數字經濟和數字生活建設的政策導向。

猜你喜歡
數據庫分析
隱蔽失效適航要求符合性驗證分析
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
數據庫
財經(2017年15期)2017-07-03 22:40:49
數據庫
財經(2017年2期)2017-03-10 14:35:35
電力系統及其自動化發展趨勢分析
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
中西醫結合治療抑郁癥100例分析
在線教育與MOOC的比較分析
主站蜘蛛池模板: 国产精品欧美在线观看| 欧美国产日韩另类| 91偷拍一区| 免费女人18毛片a级毛片视频| 华人在线亚洲欧美精品| 午夜人性色福利无码视频在线观看| 天堂久久久久久中文字幕| 精品久久人人爽人人玩人人妻| 九九久久精品免费观看| 日韩无码视频播放| 伊人成人在线视频| 国产精品永久不卡免费视频| 小说 亚洲 无码 精品| 国产一国产一有一级毛片视频| 亚洲全网成人资源在线观看| 伊在人亚洲香蕉精品播放| 99热线精品大全在线观看| 国产成人综合日韩精品无码首页 | 国产在线小视频| 国产精品人成在线播放| 91久久国产综合精品女同我| 免费又黄又爽又猛大片午夜| 亚洲AV色香蕉一区二区| 精品在线免费播放| 18黑白丝水手服自慰喷水网站| 国产原创演绎剧情有字幕的| 香蕉综合在线视频91| 色婷婷丁香| 91精品视频播放| 欧美亚洲第一页| 亚国产欧美在线人成| 欧美一区中文字幕| 精品国产免费观看| 天堂va亚洲va欧美va国产| 波多野结衣无码AV在线| 亚洲AV成人一区二区三区AV| 2020国产精品视频| 亚洲第一色网站| 91福利片| 欧洲欧美人成免费全部视频| 国产一级二级三级毛片| 在线网站18禁| 欧美福利在线播放| 国产夜色视频| 99久久国产精品无码| 国产一级无码不卡视频| 中文字幕人妻av一区二区| 日韩中文字幕免费在线观看 | 亚洲无码电影| 最新精品久久精品| 免费A∨中文乱码专区| 老司机aⅴ在线精品导航| 97青草最新免费精品视频| 狠狠亚洲婷婷综合色香| 99精品伊人久久久大香线蕉| 91亚洲精选| 免费国产在线精品一区| 久久这里只有精品免费| 亚洲精品制服丝袜二区| 久久99国产视频| 毛片在线播放a| a毛片免费在线观看| 成人av手机在线观看| 国产成人a毛片在线| 成人毛片免费在线观看| 亚洲美女操| 国产资源免费观看| 亚洲精品在线影院| 91久久偷偷做嫩草影院| 2019国产在线| 老司机午夜精品视频你懂的| 亚洲成人免费在线| 国产日本视频91| 亚洲精品视频免费看| 日韩欧美中文字幕在线精品| 亚洲一区无码在线| 亚洲成a人片77777在线播放| 欧美日韩导航| 亚洲青涩在线| 日韩在线第三页| 99热国产这里只有精品9九| 欧美国产视频|