999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于云計算的海量大數據智能清洗系統設計

2020-08-04 12:27:53黃正鵬王力張明富
現代電子技術 2020年3期
關鍵詞:云計算

黃正鵬 王力 張明富

摘? 要: 大數據資源是企業擁有的最重要的戰略資源之一,也是管理層制定遠景規劃,提高市場競爭力的主要方式和途徑,但大數據中會存在錯誤、冗余和不完整的數據,降低了大數據的總體質量。為此設計一種基于云計算的海量大數據智能清洗系統,改善現有大數據清洗系統在臟數據處理性能上的不足。分析了基于云計算的大數據智能清洗系統的總體框架和硬件構成,數據清洗系統的硬件部分由數據預處理模塊、數據云聚類模塊、數據識別模塊和實體劃分模塊等部分組成;給出了智能大數據清洗系統的總體軟件工作流程,并重點分析大數據空間聚類、相似度計算等關鍵的數據處理技術。驗證結果表明,提出的基于云計算的海量大數據智能清洗系統設計的總體功能性較為完善,在系統性能測試方面也能夠保持95%以上的數據查準率和召回率。

關鍵詞: 云計算; 海量大數據; 智能清洗系統; 云聚類; 查準率; 召回率

中圖分類號: TN02?34? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼: A? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)03?0116?05

Design of intelligent cleaning system for massive data based on cloud computing

HUANG Zhengpeng, WANG Li, ZHANG Mingfu

(School of Information Engineering, Guizhou University of Engineering Science, Bijie 551700, China)

Abstract: Big data resource is one of the most important strategic resources owned by the enterprise. It is also the main way and approach for the management to make long?term plans and improve market competitiveness of the enterprise. However, there are errors, redundancies and incomplete data in big data, which reduces the overall quality of big data. For this reason, an intelligent cleaning system for massive data based on cloud computing is designed to improve the shortcomings of the dirty data processing performance in the existing big data cleaning system. The overall framework and hardware structure of the intelligent cleaning system for big data based on cloud computing are analyzed. The hardware of the system consists of data preprocessing module, data cloud clustering module, data identification module and entity partition module. The overall software workflow of the intelligent cleaning system for big data is provided, and the key data processing technologies like big data clustering and similarity calculation are emphatically analyzed. The verification results show that the proposed intelligent cleaning system for massive data based on cloud computing has perfect overall functions and the precision and recall rate of data can be kept above 95% in the system performance testing.

Keywords: cloud computing; massive data; intelligent cleaning system; cloud clustering; precision; recall rate

0? 引? 言

當前大數據已經成為企業重要的戰略資源和決勝未來的關鍵因素,大數據具有海量性的特征,但只有真實、完整的大數據才有價值[1?2]。大數據體系內包含大量冗余、錯誤的干擾性臟數據,降低了數據整體質量的同時還會干擾管理者的決策。由此可見,數據質量將會對企業現有數據的分析、整合及應用產生十分重要的影響,在大數據的使用之前必須對全部數據進行系統清洗和處理,以提高大數據的總體質量。隨著數據挖掘技術的發展[3?5],人們對于大數據的質量要求越來越高,但數據庫中不完整的數據和臟數據會誤導決策,從使用成本和效率的角度來考慮,如果系統數據庫中存在大量的臟數據,會拖慢系統的響應時間,增加數據處理的成本費用[6?7]。影響數據質量的原因主要包括兩點:在數據錄入系統時即存在缺陷或完整程度不高;隨著數據庫系統軟硬件的升級,原有的過期數據也會轉變成為干擾數據,需要及時地清除掉釋放系統的內存空間,以保證系統的整體功能性不被破壞。目前主要的臟數據清洗系統設計包括單機式清洗方案[8?9]和集中式處理方案[10?11]兩種。其中,單機式大數據清洗系統是一種孤立式的數據清理方案,即直接在單機上運行相關的大數據清理程序,對現有的數據庫的冗余、錯誤進行處理,清理完成后形成數據庫的狀態報告。這種數據清理系統運行較為靈活,但數據處理能力有限。集中式大數據清理方案是以局域網為單位,整合局域網范圍內的數據處理資源,與單機式系統相比,集中數據清洗方案的數據處理能力能夠得到本質上的提升,但面對海量大數據處理任務時仍舊無能為力。針對現有數據清洗系統存在的數據處理能力弱,清洗效率低下的不足,本文設計一種基于云計算的海量數據清洗系統,利用云計算強大的云端空間并行計算能力[12?13],提高大數據清洗系統的數據處理能力、效率和準確性,同時也能夠避免在大數據清洗過程中過濾掉部分關鍵有用數據。

1? 大數據智能清洗系統總體框架設計

隨著信息產業和網絡技術的發展,企業的經營決策越來越依賴于大數據,規模較大的企業擁有企業級數據庫,并有專業人員進行數據管理,而規模較小的企業可以將本企業的數據存儲于云端,由云端專業的數據存儲企業或部門進行數據維護和綜合管理。目前,對企業運營大數據的分析,已經成為企業經營決策的主要依據,大數據的質量從某種程度上說將決定企業的經營業績。在數據庫的建立和維護中,各種異構的數據源將被不斷地加載到本地數據庫中,因此數據庫的規模將會不斷增大。在數據的存儲和維護中,數據的錯誤錄入、關鍵數據遺失、個別數據過期及惡意數據攻擊等問題都會頻繁發生。因此,在數據導入和使用前必須對全部數據進行清洗和維護,去除干擾的冗余錯誤數據,提高海量大數據的價值。

大數據的清洗過程具體包括海量冗余數據的識別與剔除、錯誤數據的糾正、不完整數據的補充、不規范數據的格式轉換等。處理海量大數據最有效的方式是云計算,因為云是一種多配置、擴展性極強的虛擬化資源處理系統,能夠提供硬件構建、軟件開發等云端服務,并且具有強大的并行數據計算和處理能力。云計算以互聯網為中心,將虛擬資源進行了深度整合,并按照用戶的需求提供多樣化的服務。云計算的大數據處理方式是一種廣義上的并行計算方式,能夠同時處理多用戶的海量數據資源。云計算平臺基于云資源而建立,云平臺的網絡兼容性十分強大,針對用戶的不同需求提供多樣化的定制服務。鑒于海量大數據智能化清洗處理的需要,本文設計一種基于云計算平臺的數據清洗系統,用戶通過云端向云平臺的開發者提出大數據處理要求,云端針對用戶的數據清洗要求整合虛擬的硬件、軟件資源,為用戶提供個性化的服務,基于云計算平臺的海量大數據清理系統總體框架設計如圖1所示。

云平臺的基礎服務層是總體框架的核心部分,能夠將云端虛擬化的硬件和軟件資源整合,為用戶提供全方位、便捷的數據清洗服務。本文分別從硬件結構設計和軟件流程設計兩個方面,系統闡述了基于云計算的海量大數據智能清洗系統。

2? 基于云計算的大數據智能清洗系統硬件設計

大數據清洗的主要目的是清除冗余、錯誤的干擾數據,提高大數據的總體質量,以便更好地為數據的使用者服務。數據清洗系統硬件模塊的設計圍繞著大數據的云端聚類、特征提取、分體識別等要求執行,而數據清洗過程中最重要的環節是數據重復記錄或相似記錄檢測與消除。冗余的錯誤數據指數據庫中表達方式雷同或拼寫錯誤的數據,這些數據存在于數據庫系統中會干擾正常數據的分類和識別。為消除海量大數據中的冗余錯誤數據,本文在硬件模塊設計中增加了大數據預處理模塊,對進入云端的海量大數據采用字符區位定碼策略,降低字符或符號的錯誤率,降低數據的匹配難度并提高對臟數據的檢測率。基于云計算的海量大數據清洗系統的硬件模塊構成,如圖2所示。

未經過處理的海量大數據進入清洗系統后,首先到達數據預處理模塊,數據預處理模塊的最主要功能是去除冗余干擾,并對整個數據進行降維處理,降低后續數據聚類分析的難度。造成數據庫中出現冗余的主要原因是不同輸入源頭的同一數據的格式存在差異,而且在數據的傳遞、存儲和交互中也容易發生錯誤。預處理模塊將輸入清洗系統的每一條數據都進行了模式的匹配與變換,大數據的格式變換后有助于后續模塊的聚類分析及特種識別,也能夠減少后續數據處理的代價。云計算數據處理中常用多條屬性值來表示一個實體,基于這種特性云端聚類模塊采用索引列表的方式,將具有同一字段特征的數據進行初步歸類,依靠同屬性索引歸類的方式將相同字段的冗余數據匯聚到同一個索引下,進而刪除字段雷同但不完整或不合理的干擾數據,以達到大數據智能清洗的目的。

在實體屬性識別中,不同實體描述的重要性程度不同,貢獻率也不同。為此,基于云計算的海量大數據清洗系統臟數據識別模塊為每一類輸入系統的數據都匹配了不同的權值。權值的比重由相關大數據專家按照領域知識而設定,本文模塊還可以按照索引的類別進行模塊類別的劃分,得到實體模塊的相似度,再通過數據分類閾值大小判斷冗余刪除結果是否輸出。采用大數據實體模塊劃分的方法進行錯誤數據和冗余數據的刪除降低了數據處理的成本,也有效地縮小了函數閾值的邊界,適用于海量大數據的清洗處理要求。

3? 系統總體實現流程設計與關鍵技術研究

根據海量大數據智能清洗系統硬件結構規劃的總體性要求,設計了基于云計算技術的系統總體軟件工作流程,如圖3所示。

當智能清洗系統開始運行后,將原始的大數據信息輸入預處理模塊,數據的原始信息要經過系統的初步審核,審核成功后將大數據導入系統。數據導入后系統要基于云計算平臺對原始大數據進行聚類分析,識別出異常的風險數據。風險數據的識別與處理要依據大數據聚類的相似度計算,通常將風險數據或異常數據視為缺失數據處理。設大數據類[A]和[B]分別為兩個不同的數據實體,那么[A]和[B]之間的實體相似度函數[GA,B]可以表示為:

大數據導入智能清洗系統后,按照數據實體之間的相似度先判斷實體之間的相似程度,進行初步的數據聚類。之后再分析實體內部冗余數據的關鍵字段特征,對于缺失的數據而言可以直接進行數據同步,而對于不完整的大數據而言要按照一定標準將不完整的部分補充完整,經初步聚類后的MAP輸出屬性索引與索引值見表1。

大數據的云端聚類分析按照數據實體之間的相似度與索引值,對進入智能清洗系統的大數據進行類別劃分。對于數據聚類分析模塊而言,每輸入一組數據將要確定一個數據相似性的分類標準。數據聚類分析需要經過多次反復分組和聚類才能實現,大數據聚類分析方法是基于一種數據收斂變化的思想,利用多次大數據聚類實現在全局范圍內尋優,對于每次不符合數據聚類的冗余數據、殘缺數據和錯誤數據予以清洗和消除。基于云計算的數據清洗系統在數據聚類和實體模塊劃分中,將每一個輸入系統的數據集都作為一個初始的類別,然后按照數據集的閾值范圍與特性,對數據集進行多次拆分與合并,最后將特性相近的數據集歸于一類,在按照聚類索引值分類的過程中,逐步清洗掉不完整和冗余的數據,以達到縮小大數據規模的目的。云計算能夠利用其強大的空間并行計算能力,在整個輸入大數據范圍內尋優,數據聚類與實體模塊劃分的主要步驟如下:

Step1:確定大數據聚類分析的準則,并按照實體間的相似度初步分組。

Step2:確定數據類別的重心與索引值,并確定其他分組數據與重心的距離。

Step3:清洗掉離重心距離過遠的干擾數據和冗余數據并重新分組計算。

Step4:重復上述步驟,直到得到與實體重心數據特征一致的數據集合,即通過多次性能收斂在全局范圍內得到最優解。

對于非缺陷數據而言,直接將這些安全數據存儲于系統數據庫,并進行數據的更新與同步;而對于冗余、有缺陷和不完整的數據而言,與在數據導入時識別出的數據一并清洗處理,并將清洗的結果顯示出來。系統管理員可以對清洗結果的滿意程度做出判斷,如果對于清洗的結果不滿意,系統可以返回到缺失數據處理步驟重新處理。如果大數據清洗程序能夠達到滿意的效果,直接同步清洗結果并輸出打印報告,方便后續的查詢及使用操作。

4? 結果驗證

4.1? 系統功能測試

基于云計算的海量大數據系統功能實驗,主要考慮到對系統整體功能的驗證,系統各模塊接口功能列表和實驗環境設置如表2所示。

大數據清洗系統的功能測試能夠保證系統的可靠運行,模塊的功能測試環節與系統的軟件工作流程趨于一致,包括用戶登錄、信息輸入、數據導入、數據處理等環節,基于云計算的海量大數據清洗系統的功能測試結果,如表3所示。對數據清洗系統每個模塊的基礎性功能都進行驗證,全部測試項目都通過了驗證,表明系統的功能性較為穩定。

4.2? 系統性能測試

系統性能方面的測試主要檢測基于云計算的大數據智能清洗系統,在清洗臟數據方面的能力,取一個實驗用的樣本數據集包括數據29 812條,人為添加重復性干擾臟數據188條,每2 500條數據檢測一次檢測系統的查準率[ξ]和召回率[ζ]:

式中:[Nc]為準確識別并清洗的數據條目;[Na]為臟數據的總條目;[Ntal]為總數據數量。分別驗證傳統集中式大數據清洗系統與本文基于云計算的數據處理系統的數據清洗查準確和召回率,30 000條數據的性能測試結果如圖4,圖5所示。

從傳統大數據清洗系統與基于云計算的大數據清洗系統查準率對比結果可知,隨著查詢條件的增加,傳統集中式大數據清洗系統的查準率呈現出快速下降的趨勢,當查詢30 000條數據記錄時,查準率已經跌至90.36%;而文中基于云計算的大數據清洗系統的臟數據查準率始終保持在98%以上。在大數據清洗召回率的對比方面,當查詢30 000條數據記錄時,傳統數據清洗系統的召回率已經低于90%,且在整個大數據的查詢清洗過程中召回率出現了波動的情況;而文中提出基于云計算的大數據清洗系統的召回率,盡管也出現了下降的情況,但總體數據清洗處理召回率仍可以保持在95%以上,具有傳統清洗系統所不可比擬的優勢。

5? 結? 論

大數據在企業決策與管理層戰略制定中發揮著越來越重要的作用,但數據庫中冗余、錯誤和不完整的數據會對大數據的真實性和完整性造成不利的影響。云計算是處理大數據問題最有效的方法之一,本文基于云計算設計了一種海量大數據智能清洗系統,能夠改善數據清洗的效率和效果。大數據在未來的市場競爭中將會發揮越來越重要的作用,而保證大數據的真實、完整和有效,并不斷提高企業大數據的質量,是發揮出大數據資源優勢的必要條件之一。

參考文獻

[1] 陶盈春,張紅麗,徐健.異常值探測在大數據分析中的應用研究[J].情報科學,2018,36(3):75?80.

[2] 柴謙益,鄭文斌,潘捷凱,等.基于大數據分析的智能配電網狀態監測與故障處理方法研究[J].現代電子技術,2018,41(4):105?108.

[3] 顏磊,祁冰.基于Android平臺的移動學習系統大數據挖掘技術研究[J].現代電子技術,2017,40(19):142?144.

[4] 王磊,陳青,高洪雨,等.基于大數據挖掘技術的智能變電站故障追蹤架構[J].電力系統自動化,2018(3):84?91.

[5] 劉炳含,付忠廣,王永智,等.基于并行計算的大數據挖掘技術及其在電站鍋爐性能優化中的應用[J].動力工程學報,2018,38(6):431?439.

[6] 朱會娟,蔣同海,周喜,等.基于動態可配置規則的數據清洗方法[J].計算機應用,2017,37(4):1014?1020.

[7] 潘瑋,牟冬梅,李茵,等.關鍵詞共現方法識別領域研究熱點過程中的數據清洗方法[J].圖書情報工作,2017,61(7):111?117.

[8] 馬平全,宋凱,紀建偉.基于N?Gram算法的數據清洗技術[J].沈陽工業大學學報,2017,39(1):67?72.

[9] 王沖,鄒瀟.基于Spark框架的電力大數據清洗模型[J].電測與儀表,2017,54(14):33?38.

[10] 林峻,嚴英杰,盛戈皞,等.考慮時間序列關聯的變壓器在線監測數據清洗[J].電網技術,2017(11):3733?3740.

[11] 曲朝陽,張藝競,王永文,等.基于spark框架的能源互聯網電力能源大數據清洗模型[J].電測與儀表,2018,55(2):39?44.

[12] 周東清,彭世玉,程春田,等.梯級水電站群長期優化調度云計算隨機動態規劃算法[J].中國電機工程學報,2017,37(12):79?90.

[13] 閆明,王秀芬,李強,等.基于數據對稱打包的云計算并行核心失敗校驗緩解[J].微電子學與計算機,2017(5):73?78.

猜你喜歡
云計算
云計算虛擬化技術在電信領域的應用研究
基于云計算的醫院信息系統數據安全技術的應用探討
談云計算與信息資源共享管理
志愿服務與“互聯網+”結合模式探究
云計算與虛擬化
基于云計算的移動學習平臺的設計
基于云計算環境下的ERP教學改革分析
科技視界(2016年22期)2016-10-18 14:33:46
基于MapReduce的故障診斷方法
實驗云:理論教學與實驗教學深度融合的助推器
大學教育(2016年9期)2016-10-09 08:54:03
云計算中的存儲虛擬化技術應用
科技視界(2016年20期)2016-09-29 13:34:06
主站蜘蛛池模板: 日韩AV无码免费一二三区| 71pao成人国产永久免费视频| 久久黄色视频影| 成人国产精品网站在线看| 国产精品女在线观看| 免费a级毛片18以上观看精品| 日本妇乱子伦视频| 成年人午夜免费视频| 2021国产在线视频| 国产精品美女网站| 国产青榴视频在线观看网站| 久久久久无码精品| 成人一级免费视频| 久久久久亚洲av成人网人人软件| 免费A级毛片无码无遮挡| 亚洲人成网址| 亚洲中文在线视频| 毛片一级在线| 第一区免费在线观看| 欧美在线精品怡红院| 免费av一区二区三区在线| 无套av在线| 亚洲无码91视频| 午夜不卡视频| 99re视频在线| 日韩高清成人| 色婷婷在线影院| 激情无码字幕综合| 国产福利在线免费观看| 青青草原国产精品啪啪视频| 欧美va亚洲va香蕉在线| 666精品国产精品亚洲| 97在线视频免费观看| 激情午夜婷婷| 国产成人无码久久久久毛片| 国产在线一区视频| 成人精品午夜福利在线播放| 国产在线第二页| 久久永久视频| 日韩色图在线观看| 久久久噜噜噜久久中文字幕色伊伊| 国产亚洲精品97在线观看| 国产丝袜91| 青青青伊人色综合久久| 国产av色站网站| 精品一区二区三区视频免费观看| 日韩人妻无码制服丝袜视频| 欧美国产中文| 亚洲,国产,日韩,综合一区| 天天色综网| 超清人妻系列无码专区| 久久香蕉国产线看观| 成人综合在线观看| 黄色网址免费在线| 国产成人调教在线视频| 国产成人1024精品下载| 国产成人免费| 亚洲欧美综合精品久久成人网| 一本大道香蕉中文日本不卡高清二区| 一级成人a做片免费| 亚洲国产日韩视频观看| 亚洲男人的天堂在线观看| 漂亮人妻被中出中文字幕久久| 亚洲AV人人澡人人双人| 91在线日韩在线播放| 久久毛片免费基地| Aⅴ无码专区在线观看| 国产成人精品午夜视频'| 亚洲成人精品在线| 黄色成年视频| 91成人在线免费观看| 亚洲中文字幕在线精品一区| 国产jizz| 久久人与动人物A级毛片| 色成人亚洲| 26uuu国产精品视频| www.日韩三级| 日韩精品专区免费无码aⅴ| 日韩无码真实干出血视频| 成人在线天堂| 国产精品露脸视频| 国产情侣一区二区三区|