999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Spark的煙草大數(shù)據(jù)分析系統(tǒng)的設(shè)計與實現(xiàn)

2022-03-26 07:37:16許偉胡婷
電子元器件與信息技術(shù) 2022年1期
關(guān)鍵詞:煙草數(shù)據(jù)庫用戶

許偉,胡婷

(宿遷市煙草專賣局(公司),江蘇 宿遷 223800)

0 引言

企業(yè)數(shù)據(jù)倉庫的數(shù)據(jù)量急劇增加,非結(jié)構(gòu)化數(shù)據(jù)類型不斷增多,給企業(yè)帶來了嚴(yán)重的后果,導(dǎo)致煙草數(shù)據(jù)管理起來較難。傳統(tǒng)數(shù)據(jù)倉庫系統(tǒng)面臨數(shù)據(jù)存儲、數(shù)據(jù)處理、分析與展示等方面的挑戰(zhàn)。如系統(tǒng)算力的干擾難以攻破、網(wǎng)絡(luò)延遲帶來的計算結(jié)果不準(zhǔn)確,甚至?xí)绊懙秸麄€分析系統(tǒng),因此可以通過增加軟硬件資源來解決,高端服務(wù)器和存儲設(shè)備價格高又增加了系統(tǒng)運行成本。針對以上問題,設(shè)計了一個基于Spark技術(shù)的煙草大數(shù)據(jù)分析系統(tǒng),期望解決當(dāng)前存在的問題。

1 煙草商業(yè)大數(shù)據(jù)需求分析

經(jīng)過調(diào)查,煙草行業(yè)中的商業(yè)數(shù)據(jù)特點為:

第一,關(guān)心煙草企業(yè)的業(yè)務(wù)環(huán)節(jié),如供應(yīng)鏈數(shù)據(jù)、倉儲數(shù)據(jù)、零售戶庫存數(shù)據(jù)等,通過這些數(shù)據(jù)的管理能夠為優(yōu)化業(yè)務(wù)流程提供幫助[1];

第二,提供方便的搜索查詢功能,使用戶可以資源共享,查詢到所需要的數(shù)據(jù)內(nèi)容,并且能夠?qū)λ阉髌脚_不設(shè)置限制功能;

第三,提高數(shù)據(jù)響應(yīng)速度,實時反饋煙草數(shù)據(jù),改變以往獲得前一天數(shù)據(jù)的情況,提高煙草企業(yè)數(shù)據(jù)的實時性。

2 系統(tǒng)架構(gòu)

2.1 基礎(chǔ)資源層

基礎(chǔ)資源層主要包含資源存儲與資源計算兩個部分,在資源存儲上,主要關(guān)注容量、成本、性能、可擴展性與安全性。由于煙草商業(yè)中數(shù)據(jù)較多,為此采用分布式的數(shù)據(jù)保存方法來進行下載,并且擴大儲存盤的容量,使數(shù)據(jù)能夠順利進入數(shù)據(jù)庫,避免出現(xiàn)丟失的現(xiàn)象,保證性價比處于一個平衡的狀態(tài)。在數(shù)據(jù)安全方面,采用最小權(quán)限原則對管理員權(quán)限方式對數(shù)據(jù)管理,防止管理員非法獲得用戶的數(shù)據(jù)。

對于資源供給來說,要為系統(tǒng)提供一個有秩序的、智能化的[2]的計算資源,虛擬化是非常重要的一步,為此需要創(chuàng)建一個完整的計算資源平臺,利用PC服務(wù)器的續(xù)航功能來完善平臺,從而形成一個科學(xué)合理的數(shù)據(jù)資源動態(tài)調(diào)換。

2.2 數(shù)據(jù)管理層

(1)結(jié)構(gòu)化數(shù)據(jù)管理:該種數(shù)據(jù)管理主要是對關(guān)系型數(shù)據(jù)查詢和應(yīng)用,在管理上,通過系統(tǒng)的分類功能將數(shù)據(jù)進行分類,然后輸入數(shù)據(jù)倉庫中,利用分布式排列方法來將數(shù)據(jù)與物理節(jié)點一一對應(yīng),利于用戶的快速查詢與共享操作,進一步增加系統(tǒng)的整體性。

(2)非結(jié)構(gòu)化數(shù)據(jù):與結(jié)構(gòu)化數(shù)據(jù)不同的是,它不受系統(tǒng)的控制,上述數(shù)據(jù)倉庫不能將其保存,因此通常使用NoSQL數(shù)據(jù)庫來對煙草數(shù)據(jù)進行分類識別,并利用大批量數(shù)據(jù)共同處理的方式來計算。NoSQL可以直接獲取數(shù)據(jù)的結(jié)構(gòu)與性能,不受任何條件約束,基于其良好的延展性,應(yīng)用起來性能較好。

(3)數(shù)據(jù)流管理:煙草商業(yè)生產(chǎn)過程中一些數(shù)據(jù)的價值隨著時間流逝價值逐漸降低,為此需要對這些數(shù)據(jù)要快速處理。

數(shù)據(jù)庫管理模塊是大數(shù)據(jù)系統(tǒng)的核心處理器,不但貫穿于整個處理系統(tǒng),還管控著數(shù)據(jù)信息搜索模塊與終端分析模塊。而數(shù)據(jù)庫管理主要是存儲和生成煙絲生產(chǎn)數(shù)據(jù)的蜂窩表、刪除無效數(shù)據(jù)源等,數(shù)據(jù)源管理模塊可滿足用戶在本系統(tǒng)HDFS文件系統(tǒng)中存儲的數(shù)據(jù)源對應(yīng)蜂窩表格列表顯示,方便用戶了解和操作現(xiàn)有的煙絲生產(chǎn)批次數(shù)據(jù)源。該模塊的功能設(shè)計包括:增加數(shù)據(jù)源、創(chuàng)建數(shù)據(jù)源配置表以及刪除數(shù)據(jù)源[3]。在系統(tǒng)數(shù)據(jù)源中創(chuàng)建配置單元表,其目的是為數(shù)據(jù)查詢分析和數(shù)據(jù)分析提供表數(shù)據(jù),方便用戶進行查詢分析。

2.3 分析支撐層

2.3.1 商業(yè)智能

對于結(jié)構(gòu)化數(shù)據(jù),雖然數(shù)據(jù)的內(nèi)容以及格式都不相同,但為了便于管理,都要參照一個統(tǒng)一的度量標(biāo)準(zhǔn),有計劃地對企業(yè)業(yè)績與未來發(fā)展的前景進行預(yù)測。在分析上采用Cognos技術(shù)對數(shù)據(jù)中心處理,對日常銷售、煙草供貨、財務(wù)等多種主體分析應(yīng)用,為經(jīng)營決策提供參考。

2.3.2 數(shù)據(jù)科學(xué)

在分析系統(tǒng)中,科學(xué)的數(shù)據(jù)結(jié)構(gòu)至關(guān)重要,數(shù)據(jù)科學(xué)需要由專業(yè)的數(shù)據(jù)分析與數(shù)據(jù)處理人才構(gòu)建理想的分析模型,此次研究中主要采用Alpine技術(shù)。

2.3.3 建立專有企業(yè)平臺

建立統(tǒng)一的專有企業(yè)平臺,聚集所有相關(guān)的大數(shù)據(jù),并進行統(tǒng)一管理,可為用戶提供便利的查詢與搜索功能,還可以將用戶的反饋信息與建議收納到應(yīng)用后臺,使員工能夠在企業(yè)內(nèi)對其訪問。

2.3.4 虛擬化桌面

當(dāng)企業(yè)員工不能直接運用計算機進行統(tǒng)計,并且網(wǎng)絡(luò)不能夠順暢使用,這就會出現(xiàn)漏洞,為此,可以建立一個虛擬化的平臺,創(chuàng)建網(wǎng)址僅供內(nèi)部員工使用,以免發(fā)生重要信息泄露的情況。在虛擬化桌面中,出現(xiàn)的只是后臺的操作頁面,并不顯示主要的數(shù)據(jù)信息,進一步提高了數(shù)據(jù)的安全。

2.3.5 數(shù)據(jù)查詢分析

查詢分析模塊主要對現(xiàn)有煙絲生產(chǎn)歷史數(shù)據(jù)對應(yīng)的蜂巢表格進行查詢分析,以餅圖、直方圖、折線圖等報表及圖形形式顯示查詢分析結(jié)果。有助于用戶從大量煙絲生產(chǎn)歷史數(shù)據(jù)及數(shù)據(jù)統(tǒng)計分析結(jié)果中獲得所需數(shù)據(jù)。

本模塊主要提供了HQL(Hive SQL)查詢和SparkSQL查詢兩種查詢分析方法。該系統(tǒng)的底層設(shè)計是基于Spark計算框架的,所以在Spark上也實現(xiàn)了HQL查詢和SparkSQL查詢等功能。HQL查詢的默認(rèn)實現(xiàn)基于Hadoop的Map-Reduce計算模型。但是,Map-Reduce計算模型的計算效率遠遠低于Spark,因為它在作業(yè)執(zhí)行期間被多次寫入磁盤,而Spark支持Hive[4]。這樣,通過在Spark計算框架上實現(xiàn)HQL查詢,可以滿足HQL查詢在Spark上實現(xiàn)的要求,充分利用Spark的快速計算能力,縮短HQL查詢的響應(yīng)時間,不僅改善了Hive查詢的性能,而且為用戶提供了更靈活的查詢分析方法。其中,配置單元查詢分析負(fù)責(zé)配置單元數(shù)據(jù)倉庫中的數(shù)據(jù)表的查詢與分析,主要包括配置單元的實時查詢和定時查詢兩個功能。實時查詢能夠滿足用戶有選擇地設(shè)置主要數(shù)據(jù)庫、統(tǒng)計表、歷史記錄瀏覽網(wǎng)址,然后根據(jù)三者的相關(guān)性對SQL查詢語句進行編輯。這種方式可以減少用戶的學(xué)習(xí)成本,另一方面,在編寫查詢語句之前,幫助用戶澄清目標(biāo)數(shù)據(jù)表的結(jié)構(gòu)信息。這樣不但節(jié)約了企業(yè)的資金,還為用戶提供了福利,并且在編寫查詢語句之前,協(xié)助用戶再一次確認(rèn)數(shù)據(jù)的基本內(nèi)容。例如,假如將即將要搜索的語句固定時間查詢,設(shè)置為每日北京時間19:00,并可以重用常規(guī)查詢的結(jié)果,如創(chuàng)建一個新的配置單元表和導(dǎo)出最新的查詢結(jié)果。

2.3.6 數(shù)據(jù)分析功能模塊

資料分析功能模塊主要是根據(jù)系統(tǒng)現(xiàn)有的制絲批量數(shù)據(jù),簡單描述出與數(shù)據(jù)庫中類似的數(shù)據(jù),然后分析出煙草工藝的制絲質(zhì)量與近似值。該模塊具體的五個步驟:收集大量的數(shù)據(jù)信息、輸入系統(tǒng)源頭、提取其中主要目標(biāo)、分析主要特征、數(shù)據(jù)計算以及分析結(jié)果可視化。流程可以具體概括為以下幾個方面。

(1)收集大量的數(shù)據(jù)信息:采集信息的范圍是Hive數(shù)據(jù)倉庫。用戶首先要確定一種煙草的品牌,在此基礎(chǔ)上查詢該香煙的具體數(shù)據(jù),然后輸入代對應(yīng)的入口,對香煙的品牌與數(shù)據(jù)信息進行捆綁。

(2)提取其中主要目標(biāo):其中最常到的是含水率和檢測值兩個分析目標(biāo)。使用者按照自身需要來挑選相應(yīng)的分析目標(biāo),并對目標(biāo)與系統(tǒng)之間設(shè)置鏈接。

(3)分析主要特征:在正在分析的數(shù)據(jù)庫中,按照使用者喜好的數(shù)據(jù)特征要篩選分析目標(biāo),優(yōu)勝劣汰,然后對目標(biāo)進行指導(dǎo)與處理。

(4)數(shù)據(jù)計算:分析了煙草的結(jié)構(gòu)與工藝技術(shù)后,就可以提取其中的關(guān)鍵信息,利用線性回歸的方法計算,然后直接將結(jié)果使用在場景分析中,計算出與分析目標(biāo)相關(guān)的工藝指標(biāo)權(quán)重,為用戶提供高相關(guān)性的工藝指標(biāo),優(yōu)化關(guān)鍵指標(biāo)控制參數(shù),確保卷煙產(chǎn)品質(zhì)量。

(5)分析結(jié)果可視化:經(jīng)過算法計算,分析結(jié)果直觀地顯示,便于工藝人員快速了解與分析目標(biāo)相關(guān)的工藝指標(biāo)信息,為進一步?jīng)Q策分析提供依據(jù)。

2.4 集群監(jiān)控功能模塊構(gòu)建

監(jiān)控模塊顧名思義就是為了實時監(jiān)測后臺程序的運行情況與工作狀態(tài),可以直觀地看到集群資源的不正常情況與故障預(yù)警,利于工作人員對系統(tǒng)的維護與檢修,提前做故障出現(xiàn)決策,在系統(tǒng)發(fā)生異常時,能夠做報警提醒,減少安全事故的發(fā)生。

在SparkStreatming實時計算框架上實現(xiàn)了該模塊,F(xiàn)lume收集了與集群運行相關(guān)的系統(tǒng)中的日志數(shù)據(jù),然后傳送給Kafka。在交互式的基礎(chǔ)上,實時統(tǒng)計計算日志數(shù)據(jù)。在Redis數(shù)據(jù)庫中存儲計算結(jié)果,前端集群監(jiān)控接口調(diào)用數(shù)據(jù)接口來顯示當(dāng)前系統(tǒng)的集群操作。

2.5 系統(tǒng)數(shù)據(jù)倉庫設(shè)計

在設(shè)計和使用數(shù)據(jù)庫和數(shù)據(jù)倉庫系統(tǒng)方面有很大的不同。第一,數(shù)據(jù)庫主要處理的是一些軟件或者應(yīng)用的突發(fā)事件,并不具備太大的儲存空間,而且處理迅速,只應(yīng)用于較少的數(shù)據(jù)軟件,但一般用戶數(shù)多。而數(shù)據(jù)倉庫主要是類似分析模塊的數(shù)據(jù)處理中心,是集導(dǎo)入、分析、處理域一體的一個終端系統(tǒng),該系統(tǒng)的核心是使用者,并且大量的數(shù)據(jù)可以同時搜索,但需要花費更多的時間。

該系統(tǒng)旨在滿足sparksql和HQL查詢分析的需求,Spark對Hive的支持也很好。構(gòu)造一個基于HDFS文件系統(tǒng)的Hive數(shù)據(jù)倉庫,查找出相鄰組件之間的關(guān)系,就可以直接進行映射,不受數(shù)據(jù)庫大小的約束。數(shù)據(jù)查詢分析和數(shù)據(jù)分析是兩個不同的概念,具體可描述成兩個表的形式:數(shù)據(jù)導(dǎo)入表與SQL結(jié)果查詢表,后續(xù)的服務(wù)功能與分析模塊可以相互轉(zhuǎn)換,利用Sqoop工具使煙草的生產(chǎn)數(shù)據(jù)徘徊在在關(guān)系數(shù)據(jù)庫和HDFS之間,為新存儲的數(shù)據(jù)源創(chuàng)建相應(yīng)的配置單元表,以及管理My SQL中配置單元表所包含的源頭數(shù)據(jù)表[5]。Hive自身不具有儲存功能,也不能為用戶提供搜索引擎。當(dāng)創(chuàng)建一個配置單元表時,可以簡單地指定列分隔符和行分隔符,不限制表達內(nèi)容與格式,可以自由搭配。然而,Hive并不能很好地將數(shù)據(jù)進行保存,數(shù)據(jù)會通過傳輸儲存在HDFS中,Hive只負(fù)責(zé)將數(shù)據(jù)移動到系統(tǒng)外表,并且公開在資源平臺上。在這種情況下,內(nèi)部表通常是配置單元中創(chuàng)建的具有數(shù)據(jù)所有權(quán)的普通表。當(dāng)刪除內(nèi)部表時,還刪除了相應(yīng)的數(shù)據(jù)。然而,外部表不一樣,它們只使用數(shù)據(jù)的權(quán)限,用戶可以直接訪問數(shù)據(jù),只要數(shù)據(jù)格式和數(shù)據(jù)位置是相關(guān)的。當(dāng)外部表出現(xiàn)失誤產(chǎn)生誤差,配置模塊會根據(jù)表的重要程度,選擇性地刪除查詢率較低的一個,并不會對重要內(nèi)容做更改,因此為了避免該情況發(fā)生,系統(tǒng)中可以呈現(xiàn)的表的格式都為外部表。本文以煙草生產(chǎn)的工藝數(shù)據(jù)為數(shù)據(jù)來源,通過qoop工具導(dǎo)入HDFS。

3 應(yīng)用效果分析

為驗證基于Spark的煙草大數(shù)據(jù)分析系統(tǒng)的有效性,以零售戶訂單數(shù)據(jù)為例,考察該系統(tǒng)的查詢效率,并將其與傳統(tǒng)系統(tǒng)對比,對比結(jié)果如圖1所示。

基于圖1可知,在數(shù)據(jù)量較小時,所研究系統(tǒng)與傳統(tǒng)系統(tǒng)的查詢時間均較少,但是隨著數(shù)據(jù)的增加,傳統(tǒng)系統(tǒng)的查詢時間消耗越來越多,查詢效率較低。而所研究系統(tǒng)查詢時間收到數(shù)據(jù)多少影響不大,均能夠在短時間內(nèi)完成數(shù)據(jù)的查詢。

圖1 查詢效率對比

4 結(jié)語

本文基于Spark的煙草大數(shù)據(jù)分析系統(tǒng)進行了設(shè)計,并對系統(tǒng)的每一個模塊的功能進行了檢測,而主要用到的管理模塊與分析模塊也在系統(tǒng)中占據(jù)著主導(dǎo)作用,不但可以簡單地分析出煙草生產(chǎn)鏈的每一個步驟,還提高了系統(tǒng)的應(yīng)用效果。

猜你喜歡
煙草數(shù)據(jù)庫用戶
煙草具有輻射性?
數(shù)據(jù)庫
財經(jīng)(2017年2期)2017-03-10 14:35:35
煙草依賴的診斷標(biāo)準(zhǔn)
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
數(shù)據(jù)庫
財經(jīng)(2016年15期)2016-06-03 07:38:02
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
煙草中茄酮的富集和應(yīng)用
數(shù)據(jù)庫
財經(jīng)(2016年3期)2016-03-07 07:44:46
數(shù)據(jù)庫
財經(jīng)(2016年6期)2016-02-24 07:41:51
主站蜘蛛池模板: 欧洲亚洲欧美国产日本高清| 欧美笫一页| 99热这里只有精品在线播放| 国产午夜福利亚洲第一| 国产精品网曝门免费视频| 日本精品视频| 国产精品9| 全部免费毛片免费播放| 2021国产v亚洲v天堂无码| 欧美无专区| 中文字幕色在线| 色综合狠狠操| 亚洲日本韩在线观看| 久草视频精品| 精品国产www| 国产欧美视频在线观看| 国产无码制服丝袜| 亚洲免费福利视频| 国产精品久久久久久久伊一| 怡春院欧美一区二区三区免费| 久久福利片| 影音先锋丝袜制服| 成人免费视频一区二区三区| 97狠狠操| 国产成人喷潮在线观看| 国产欧美成人不卡视频| 欧美精品导航| 国产91蝌蚪窝| 亚洲国产中文在线二区三区免| 日韩精品久久无码中文字幕色欲| 亚洲天堂网在线视频| 久久中文无码精品| 在线精品亚洲国产| 日韩第一页在线| 国模私拍一区二区三区| 欧美在线三级| 亚洲成综合人影院在院播放| 亚洲午夜天堂| 五月天丁香婷婷综合久久| 亚洲无码高清一区二区| 四虎影院国产| 午夜精品久久久久久久2023| 狠狠做深爱婷婷综合一区| 久热中文字幕在线| 久久久久亚洲av成人网人人软件| 久热精品免费| 国产精品视频猛进猛出| 色老头综合网| 国产二级毛片| 亚洲国产精品美女| 国产三级国产精品国产普男人 | 免费A∨中文乱码专区| 草草影院国产第一页| 色悠久久久久久久综合网伊人| 亚洲IV视频免费在线光看| 在线观看无码av免费不卡网站| YW尤物AV无码国产在线观看| 91小视频在线观看| 在线免费观看a视频| 午夜福利亚洲精品| 久久精品66| 亚洲 成人国产| 欧美精品另类| 亚洲成人动漫在线观看| 国产精品网曝门免费视频| 999福利激情视频| 中国黄色一级视频| 亚洲欧美日韩动漫| 欧美区国产区| 久久免费看片| 69综合网| 日韩天堂视频| 天堂网亚洲系列亚洲系列| 国产精品99久久久| 99精品在线看| 欧美日韩理论| 久久伊人色| 99这里只有精品6| 成人在线欧美| 毛片网站观看| 国产尤物在线播放| 暴力调教一区二区三区|