999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據分析及處理綜述

2021-06-06 16:12:08董學潤
中國新通信 2021年1期
關鍵詞:大數據

董學潤

【摘要】? ? 如今,數據越來越成為全球科技競爭的制高點,擁有了海量數據就擁有了重要的戰略資源。大數據技術在許多領域都發揮了重要作用,大數據技術一般是以大數據分析及處理為核心,掌握大數據分析及處理技術,能獲取豐富的數據資源,也能夠最大限度的開發數據價值。本文重點介紹大數據分析與處理技術。

【關鍵詞】? ? 大數據? ? 大數據分析處理? ? 大數據發展情況

引言

在當今的大數據時代背景之下,數據發展的腳步會越來越快,數據中包含的信息也會越來越豐富。而要獲取數據中的價值,掌握大數據分析與處理方法是關鍵,本文的目的就是讓人們了解大數據處理的關鍵技術以及大數據未來的發展趨勢。

一、大數據的含義

大數據是當前社會科技當中的一個熱點概念,各行各業中我們都會聽到大數據這個詞,但是大數據到底是什么,大部分人卻不是很了解。我們當前所說的大數據包含兩層含義。一是從表意上來看,人們的各種社會行為會產生相應數據,這些數據匯集在一起,成為表意上的“大”數據,我們也把這樣的數據稱為基礎數據。二是從技術層面來看,大數據是指大數據技術,也就是本文的大數據分析與處理技術。數據資源之所以寶貴,究其原因在于其可以價值化,大數據分析與處理技術正是將數據價值化的途徑。[1]從釋義上來說,大數據,它的英文名字是big data,是信息技術領域當中的一個行業術語,它是一種信息資產,具有量大、增長率高等特點。大數據的采集和處理沒有辦法使用普通的分析軟件和工具,而需要一個與時俱進的模式才能夠挖掘出它的最大價值。

通俗來說,大數據的解釋就是大量的數據,顧名思義,就是數量多、范圍廣的意思,而數據是信息等各方面的數據資料,結合起來就是量多、范圍廣的信息數據資料。

《大數據時代》中提出了大數據的四個特性:volume、velocity、variety、value,簡稱4V,中文意為海量的數據規模、快速的數據流動和動態的數據體系、多樣的數據類型和巨大的數據價值,這正是大數據區別于傳統數據的最大特點。[2]

二、大數據分析及處理過程

在現在這樣一種任何網絡行為都能被記錄,隨時隨地都能產生數據的時代之中,幾乎不存在無意義的數據。大數據分析與處理包括數據的采集、存儲、管理、分析挖掘以及數據可視化幾個階段,通過這幾個環節我們可以發現很多有用的信息以及一些有趣的結論,甚至可能通過數據挖掘出極大的商業價值。

2.1數據采集

大數據開啟了一個全新的時代,在這個新時代下,大規模生產、分享應用數據隨處可見,大數據給技術和商業帶來了一個巨大的變化。據麥肯錫的一份數據顯示,大數據可以使得勞動生產率每年升高0.5-1個百分點,大數據的價值不言而喻。然而,調查顯示,沒有被挖掘、利用的信息比例高達99.4%,這一窘境很大程度上是因為這些含有高價值的數據無法采集。如何對有價值的信息數據進行采集成為了大數據發展的關鍵一步。

1、含義

數據采集的另外一個名字叫做數據獲取,是指從傳感器和其他待測設備等模擬和數字被測單元中自動采集信息的過程。數據采集是進行大數據分析的先決條件,在整個分析與處理過程中占有十分重要的位置。大數據的采集主要有以下三種方式:系統日志采集法、網絡數據采集法以及其他數據采集法。

2、方法

(1)系統日志采集法。系統日志可以記錄下系統中的硬件、軟件等的信息,同時也可以監測系統里的行為。用戶可以通過這一過程來檢查錯誤出現的原因,或者時尋找受到侵入時攻擊者留下的痕跡。系統日志包括系統日志、應用程序日志和安全日志。(百度百科)大數據平臺或者說類似于開源Hadoop平臺會產生大量高價值系統日志信息,如何采集成為研究者研究熱點。目前基于Hadoop平臺開發的Chukwa、Cloudera的Flume以及Facebook的Scribe(李聯寧,2016)均可成為是系統日志采集法的典范。目前此類的采集技術大約可以每秒傳輸數百MB的日志數據信息,滿足了目前人們對信息速度的需求。一般而言與我們相關的并不是此類采集法,而是網絡數據采集法。

(2)網絡數據采集法。除了目前已經存在的公開數據集,用于日常的算法研究外,有時為了滿足項目的實際需求,需要對現實網頁中的數據進行采集,預處理和保存,這種方法就叫做網絡數據采集法,目前網絡數據采集主要是通過API和網絡爬蟲。

(3)其他數據采集法。其他采集法是指對于科研院所,企業政府等擁有機密信息,如何保證數據的安全傳遞?可以采用系統特定端口,進行數據傳輸任務,從而減少數據被泄露的風險。

2.2數據存儲

1、概念

大數據存儲技術是大數據領域的另一個關鍵數據,人們利用分布式存儲代替集中式存儲,用更廉價的機器代替之前昂貴的機器,讓海量存儲的成本大大降低。大數據存儲主要利用各式各樣的存儲引擎,以下就是幾個極具代表性的大數據存儲引擎。

2、存儲引擎

HDFS:大規模分布式數據存儲, 對小文件讀寫相對比較困難。HDFS的特點是比較適合對延時不敏感, 吞吐量比較大的業務, 另外小文件不能太多。

HBASE:HBASE適用于大規模分布式OLTP, 可以無感知平行擴展, 沒有固定的概要, 讓HBASE增刪列非常靈活。既可以通過主鍵查詢, 也可以通過關鍵字范圍掃描, 由于寫是順序寫, 非常適合寫多讀少的場景。類似于IM的數據場景,而且HBASE的數據會按照ID聚合放置,非常適合消息上拉和下拉的場景。

2.3數據清洗

1、概念

數據清洗是一種清除錯誤數據、去掉重復數據的技術。數據經過清洗之后,可以還保存到原來的數據庫中,也可以和數據集成聯系在一起,最終保存到集成后的數據庫里。

2、步驟

預處理:第一是從分析處理工具中導入所需數據。一般是用數據庫來進行處理,具有SQL環境為益。如果說數據量非常大,可以使用文本文件存儲+Python操作的方式;第二是查看數據。這一步又包含兩個部分:一個是查看對數據進行描述的信息,比如說字段的解釋以及數據來源等。二是抽取樣本數據,人為觀察,大致了解數據的表象,從中發現一些初步的問題,為以后的工作做準備。

缺失值清洗:數據中最常見的問題之一就是數據缺失,處理缺失值由四個步驟組成,一是確定數據缺失的位置和范圍,計算出每個字段當中數據缺失的比例,然后按照缺失比例和字段重要性,分別制定策略;二是去除不需要的字段,直接刪掉不需要字段即可;三是填充缺失內容,某些缺失值可以根據以往的經驗或者知識來進行推測、按照同一個指標來進行計算(中位數、均值等等)或按照不同的指標來進行計算著三種方式來填補;四是重新抓取數據,如果說一些數據對分析來說非常重要,但缺失現象嚴重,就有必要考慮重新制定科學的策略去進行數據的重取。

格式內容清洗:分析的數據如果說是經過系統日志得來的,一般情況下格式以及內容就會跟元數據所表現的一樣。但如果說數據是人工采集的,那么就可能需要進行格式內容清晰,因為此時數據的格式、內容極有可能出現很多的問題。? ? 邏輯錯誤清洗:這部分的工作是去掉一些使用簡單邏輯推理就可以直接發現問題的數據,防止分析結果走偏。主要包括去重、去除不合理值。

修正矛盾內容:字段相矛盾時,我們有必要考究其數據來源,人為的判斷哪個字段中的信息更有意義,刪除重復的、無意義的字段。

非需求數據清洗:刪除不需要的字段。

2.4數據分析與挖掘

數據分析與挖掘是大數據處理環節中的一個核心環節,要得到數據的巨大價值,必須要經過專業的數據分析與挖掘過程,這其中涉及到的知識面較廣,需要用到統計學、計算機、數學模型等知識,對分析人員的專業性要求較高。數據分析與挖掘的統計學方法:描述性分析是最基本的分析統計方法,在實際工作中也是應用最廣的分析方法。描述統計又分為兩大部分:數據描述和指標統計。[3]數據描述:所謂數據描述,是指能夠表現數據特點的一些指標,比如數據的時間范圍、數據的總量、數據來源等。倘若我們需要對數據進行建模,則所選數據的分布情況和離散程度等指標都得囊括在其中。指標統計:對指標進行統計,主要是為了寫分析報告,統計指標可以簡單的劃分為四個類型。第一類是變化,可以參考數學中的時間序列,指標隨時間的變動而變動,具體表現為增幅或降幅;第二類是分布,比如在空間上的分布:不同的國家,不同城市,由如不同群體的分布:不同的年齡、不同的職業、不同的性別等等;第三類是對比,比如說內部對比;第四類是預測,根據現有情況,估計下個分析時段的指標值。數據分析與挖掘的常用工具:R語言、SQL、Python等。

2.5數據可視化

數據可視化,就是將分析完的數據以直觀的方式呈現出來。數據之中盡管隱藏著再高的價值,若是不能以一個直觀易懂的方式呈現,也就失去了挖掘的意義。數據可視化將數據轉換成圖或表等,以一種更直觀的方式展現和呈現數據。通過“可視化”的方式,我們看不懂的數據通過圖形化的手段進行有效地表達,準確高效、簡潔全面地傳遞某種信息,甚至我們幫助發現某種規律和特征,挖掘數據背后的價值。

三、大數據分析及處理發展情況

我國目前的大數據應用環境和技術相對于美國而言,在整體技術水平、應用環境、國民意識、商業環境、技術廠商、技術平臺上面有一定差距,在大數據應用的國家戰略層面也較為落后。2014年,我國召開了兩會,會上提案中,不少人提出建議,將大數據業務作為國際級別的戰略來進行推進。一些知名企業的創始人紛紛響應,小米創始人雷軍對此大力支持,科大訊飛劉慶峰則創新性的提出了利用聲紋數據庫來進行反恐。在國家對大數據行業產業的重視和推動之下,如今,我國大數據產業行業發展態勢勇猛,向前的勢頭熱烈,以大數據為核心的多種新興行業異軍突起,技術創新的步伐不斷前進,在各級政府和部門的支持和推動之下,大數據相關行業的發展不僅極大促進了我國的經濟增長,還有力地帶動了就業,其支撐能力肉眼可見地逐漸增強。

參? 考? 文? 獻

[1] 蔡江輝,大數據分析與處理綜[J],太原科技大學學報.2020.05.30

[2]維克多.邁爾-舍恩伯格,肯尼思.庫克耶.大數據時代[M],浙江人民出版社.2019.01.01

[3]威廉.M.門登霍爾,統計學[M],機械工業出版社,2018.06.08

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 久久综合亚洲鲁鲁九月天| 久久a级片| 久久精品亚洲专区| 亚洲国产一区在线观看| av免费在线观看美女叉开腿| 国产精品久久久久婷婷五月| 免费人成黄页在线观看国产| 亚洲69视频| 欧美精品一区二区三区中文字幕| 97se亚洲综合在线天天| 男女男免费视频网站国产| 99ri精品视频在线观看播放| 久久精品国产亚洲麻豆| 女人18毛片一级毛片在线 | 高清久久精品亚洲日韩Av| 国产欧美网站| 亚洲视频在线网| 亚洲色图另类| 一级毛片高清| 欧美中文字幕在线视频| 国产一级在线观看www色| 美女被狂躁www在线观看| 在线观看亚洲成人| 国产丝袜第一页| 无码内射中文字幕岛国片| 亚洲av综合网| 丁香五月激情图片| 无码日韩人妻精品久久蜜桃| 天天躁狠狠躁| 日本午夜精品一本在线观看| 国产精品所毛片视频| 日本一本在线视频| 无码啪啪精品天堂浪潮av| 真实国产精品vr专区| 欧美69视频在线| 中文字幕无码av专区久久| 成人一区专区在线观看| 欧美色香蕉| 国产精品综合久久久| 亚洲高清资源| 精品久久久久久久久久久| 亚洲人成网站观看在线观看| 欧美不卡视频一区发布| 99re热精品视频中文字幕不卡| 女同国产精品一区二区| 欧美三級片黃色三級片黃色1| 国产18在线| a在线亚洲男人的天堂试看| 国产成人精品免费av| 无码免费的亚洲视频| 波多野结衣久久精品| 亚洲色图欧美激情| 99爱视频精品免视看| 成年人久久黄色网站| 久久黄色小视频| 成人噜噜噜视频在线观看| 国产精品流白浆在线观看| 国产人妖视频一区在线观看| 99福利视频导航| 亚洲综合中文字幕国产精品欧美 | 国产午夜精品一区二区三| 美女一区二区在线观看| a级毛片毛片免费观看久潮| 欧美日韩国产在线人| 99久久婷婷国产综合精| 在线va视频| 亚洲精品无码久久久久苍井空| 久久青草视频| 国产sm重味一区二区三区| 欧美日韩专区| 中国特黄美女一级视频| 亚洲综合欧美在线一区在线播放| av在线无码浏览| 一级毛片在线播放免费观看 | 尤物亚洲最大AV无码网站| 性欧美久久| 波多野结衣第一页| 久久亚洲国产视频| 国产精品妖精视频| 精品人妻一区二区三区蜜桃AⅤ| 久久五月视频| 久久综合成人|