999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據湖的高校大數據管理體系和處理機制研究

2020-06-04 09:39:03谷洪彬楊希魏孔鵬
計算機時代 2020年5期
關鍵詞:機器學習

谷洪彬 楊希 魏孔鵬

摘? 要: 針對高校本身業務系統帶來的不同結構海量數據的存儲管理和高效利用問題,通過比較新興的數據湖技術和傳統的數據倉庫的區別,構建了基于數據湖的高校數據管理體系和數據處理機制,為高校的數據治理提供了數據層的存儲支持,為使用機器學習方法進行大數據分析提供了非結構化數據來源。

關鍵詞: 高校大數據; 數據湖; 數據管理體系; 數據處理機制; 機器學習

Abstract: Aiming at the problems of storage management and efficient utilization of massive data of different structures brought by the university's own business system, after comparing the emerging Data Lake technology with the traditional data warehouse, this paper constructs a Data Lake based university data management system and data processing mechanism. The data management system and data processing mechanism provide university's data governance with data layer storage support, and provide unstructured data sources for big data analysis using machine learning method.

Key words: university big data; Data Lake; data management system; data processing mechanism; machine learning

0 引言

物聯網、大數據、云計算、移動計算、人工智能正越來越多地進入人們的日常工作和生活中,這些技術潛移默化地影響著人們的生活和工作方式,也對高校的信息化建設提出了更高的要求。高校信息化建設過程中各種網絡設備和應用系統產生了大量的數據,“以數據為核心資產、以數據驅動業務革新”的發展方式已成為高校邁進更高層次的必然趨勢。對于傳統的來自事務系統、運營數據庫和業務應用的關系型數據,數據倉庫可以滿足高校數據治理和存儲的要求,但是隨著信息化建設的進展,來自物聯網設備、網站、移動應用程序、社交媒體和企業應用程序的非關系型數據越來越多,很難存儲在數據倉庫中,而且隨著人工智能在高校中的發展和應用,人工智能需要處理的多數是這些非關系型數據,對數據治理和存儲提出了更高的要求。近年出現的數據湖技術能同時滿足關系型數據和非關系型數據的存儲,同時在性價比、數據質量、適用用戶類型、數據分析領域、靈活性等方面也優于數據倉庫。本文探討了如何利用數據湖技術構建高校數據管理機制和數據處理機制。

1 數據湖的概念

數據湖是一個集中式存儲庫,允許用戶以任意規模存儲所有結構化和非結構化數據。用戶可以按原樣存儲數據(無需先對數據進行結構化處理),并運行不同類型的分析-從控制面板和可視化,到大數據處理、實時分析和機器學習,以輔助管理者做出更好的決策。

對于高校的應用,對傳統業務系統之外的數據,比如來自物聯網、移動設備、網絡日志、視頻監控等的數據——多數是半結構化或者非結構化的,而人工智能技術所擅長處理的正是這些類型的數據,機器學習和深度學習算法可以對這些數據進行建模、訓練和驗證,得出數據之間的關聯性或者因果推斷關系來建立模型進行分析和預測,為高校管理和決策提供數據支持。

2 數據湖與數據倉庫

數據倉庫和數據湖可以滿足不同組織的不同需求和使用案例。

數據倉庫是一個優化的數據庫,用于分析來自事務系統和業務應用程序的關系型數據。事先定義數據結構和Schema,以優化快速SQL查詢,其結果通常用于報告和分析。經過清理、豐富和轉換的數據可以充當用戶可信任的“單一信息源”。

數據湖有所不同,它存儲來自業務應用程序的關系型數據,以及來自移動應用程序、物聯網設備和社交媒體的非關系型數據。捕獲數據時,不事先定義數據結構或Schema。這意味著用戶可以存儲所有數據,而不需要精心設計也無需知道將來用戶可能的數據需求。數據湖中存儲的數據可以包括結構化數據(關系數據庫)、半結構化數據(CSV、XML、JSON的日志)、非結構化數據(電子郵件、文檔、PDF)、二進制數據(圖像、音頻、視頻)[2]。用戶可以對數據使用不同類型的操作(如 SQL 查詢、大數據分析、全文搜索、實時分析和機器學習)來獲得分析結果。

用數據湖替代數據倉庫作為高校數據存儲的技術手段,是因為當前高校所擁有的和希望分析的數據類型不再只局限于關系型數據。表1列出了數據湖和數據倉庫在數據來源、數據存儲結構等方面的區別[1,3,4]。

組織構建數據湖和分析平臺時,需要考慮以下的關鍵功能。

⑴ 數據移動

數據湖允許用戶導入任何數量的實時數據。用戶可以從多個來源收集數據,并以其原始形式將其移入到數據湖中。此過程允許用戶擴展到任何規模的數據,同時節省定義數據結構、Schema和轉換的時間。

⑵ 安全地存儲和編目數據

數據湖允許用戶存儲關系數據(例如,來自業務應用程序的運營數據庫和數據)和非關系數據(例如,來自移動應用程序、物聯網設備和社交媒體的運營數據庫和數據)。它們還使用戶能夠通過對數據進行爬網、編目和建立索引來了解湖中的數據。最后,必須保護數據以確保用戶的數據資產受到保護。

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 日韩二区三区| 在线观看亚洲国产| 国产亚洲精品91| 啦啦啦网站在线观看a毛片| 久久亚洲AⅤ无码精品午夜麻豆| 亚洲无码精品在线播放| 无码精品国产dvd在线观看9久| 久久人搡人人玩人妻精品 | 国产传媒一区二区三区四区五区| 91极品美女高潮叫床在线观看| 在线国产综合一区二区三区| 波多野结衣久久高清免费| 思思热在线视频精品| 欧美a在线| 国产jizz| 视频一本大道香蕉久在线播放 | 国产精品太粉嫩高中在线观看| 狼友视频一区二区三区| 99热这里只有精品在线观看| 国产乱人激情H在线观看| 手机在线国产精品| 国产幂在线无码精品| 91精品国产自产在线老师啪l| 色婷婷久久| 国产乱子伦精品视频| 日本在线视频免费| 国产区人妖精品人妖精品视频| 欧美在线天堂| 一区二区三区毛片无码| 国产微拍精品| 久久99久久无码毛片一区二区| 精品综合久久久久久97超人| 亚洲侵犯无码网址在线观看| 一本久道久综合久久鬼色| 亚洲欧美综合另类图片小说区| 精品国产三级在线观看| 美女无遮挡被啪啪到高潮免费| 91毛片网| 国产精品毛片在线直播完整版 | 少妇精品在线| 亚洲中文在线看视频一区| 国产精品永久久久久| 亚洲日韩国产精品无码专区| V一区无码内射国产| 最新加勒比隔壁人妻| 国产人妖视频一区在线观看| 国产精品无码久久久久久| 国产极品美女在线观看| 青青青国产视频手机| 日韩毛片免费| 久久久国产精品免费视频| 午夜丁香婷婷| 制服丝袜一区二区三区在线| 谁有在线观看日韩亚洲最新视频| 最近最新中文字幕免费的一页| 欧美成人第一页| 国产精品无码在线看| 在线播放精品一区二区啪视频| 精品久久国产综合精麻豆| 亚洲精品老司机| 热久久这里是精品6免费观看| 美女被操91视频| 精品视频一区二区观看| 国产精品青青| 在线观看视频99| 国产99久久亚洲综合精品西瓜tv| 欧美亚洲日韩中文| 国产亚洲精品97AA片在线播放| 亚洲成人福利网站| 91精品国产综合久久香蕉922 | 香蕉视频在线观看www| 青草午夜精品视频在线观看| 午夜免费小视频| 免费在线成人网| 国产精品综合色区在线观看| 日韩欧美色综合| 色窝窝免费一区二区三区| 国内精品小视频在线| 久久影院一区二区h| 亚洲人成网址| 日韩在线1| 农村乱人伦一区二区|