999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據下的統計思維變化

2020-10-21 11:12:58丁潔
科學導報·學術 2020年33期
關鍵詞:分類

丁潔

互聯網科技的發展使得數據量的急劇增加,在數據科技的大力發展下,人們所能儲存、處理的數據已經達到前所未有有的量級,并且以超過摩爾定律的速度迅猛增加。數據的作用也在人們的生產生活中產生極大的影響,改變了生產生活的方式,成為了一種新的生產資料,根據馬克思主義哲學的時代觀,我們可以知道一個新的時代——大數據時代正沖著我們呼嘯而來,它正在悄悄地改變著人們的行為與思維。

一、大數據的概念

與傳統意義上的數據相比,大數據的“大”與“數據”都有了新的含義,絕不僅僅是體量的問題,更重要的是數據的內涵問題。大數據不是基于人工設計、借助傳統方法而獲得的有限、固定、不連續、不可擴充的結構型數據,而是基于現代信息技本與工具可以自動記錄、儲存和連續擴充的、大大超出傳統統計記錄與儲存能力的一切類型的數據。通俗地說,大數據就是一切可記錄信號的集合。

如果說,傳統統計研究的數據是有意收集的結構化的樣本數據,那么現在我們面對的數據則是一切可以記錄和存儲、源源不斷擴充、超大容量的各種類型的數據。樣本數據是按照特定研究目的、依據抽樣方案獲得的格式化的數據,不僅數據量有限,而且如果過程偏離方案,數據就不能滿足要求。基干樣本數據所進行的分析,其空間十分有限——通常無法滿足多層次、多角度的需要,若遇到抽樣方案事先未曾考慮到的問題,數據的不可擴充性缺點就暴露無疑。而大數據是一切可以通過現代信息技術記錄和量化的數據,不僅所蘊含的信息量巨大,而且不受各種框框的限制——任何種類的數據都來者不拒、也無法抵拒。不難發現,大數據相比于樣本數據的最大優點是,具有巨大的數據選擇空間,可以進行多維、多角度的數據分析。

二、統計思維的變化

統計學是關于數據的科學,即研究如何收集、整理和分析數據的科學。數據是依據,是根本,是一個分析結果的靈魂,是統計方法生命力的根源所在,大數據時代的統計首先要適應兩個重大的思維轉變。

(一)認識數據的思維要變化。

首先,從來源上看,傳統的數據收集因為具有很強的針對性,因此數據的提供者大多是確定的,身份特征是可識別的,有的還可以進行事后核對。但大數據通常來源于物聯網,不是為了特定的數據收集目的而產生,而是人們一切可記錄的信號凸然,并且身份識別十分困難。從某種意義上講,大數據來源的微觀基礎是很難追溯的。

其次,從類型上看,傳統數據基本上是結構型數據,即定量數據加上少量專門設計的定性數據,格式化、有標準,可以用常規的統計指標或統計圖表加以表現。但大數據很多的是非結構型數據、半結構型數據或異構數據,包括了一切可記錄、可存儲的信號,多樣化、無標準、難以用傳統的統計指標或統計圖表加以表現。同時,不同的網絡信息系統有不同的數據識別方式,相互之間也沒用統一的數據分類標準。再者,現在有的數據庫是非關系型的數據庫,不需要預先設定記錄結構即可自動包容大量各種各樣的數據。

(二)收集數據的思維要變化。

由于大數據來源與種類的多樣性,以及數據增加的快速性,我們在享受數據的豐富性的同時也不得不面臨這樣一些困境;這樣一來,電子存儲能力能否跟得上數據增加的速度就成為首要的問題。如果讓數據庫自動更新就有可能失去一些寶貴的數據信息,而到了一定級別以后擴充存儲容量或對數據進行拷貝,其代價是十分巨大的,因此我們了得了對數據進行分類、篩選,有針對地刪除那些垃圾數據、不重要或次重要的數據。

并不是任何數據都可以從現成的大數據中獲得,這里存在一個針對性、安全性和成本比較問題。因此,我們既要繼續采用傳統的方式方法去收集特定需要的數據,又要善于利用現代網絡信息技術和各種數據源去收集一切相關的數據,并善于從大數據中進行再過濾、再選擇。

三、應對大數據的措施

(一)需要改變總體、個體乃至樣本的定義方式。

傳統的統計分析,是先有總體,再有數據,即必須先確定總體范圍和個體單位,再收集個體數據,分析總體。但對大數據來說,情況完全不同了,是先有數據,再有總體。從某種意義上說,大數據的產生系統多數是非總體式的,即無事先定義的目標總體,只有與各個時點相對應的事后總體,原因就在于個體是不確定的,是變化著的,是無法事先編制名錄庫的,這與傳統的總體與個體有很大的不同。

(二)需要改變對不確定性的認識。

眾所周知,統計學是為了認識和研究事物的不確定性而產生的,因為無論是自然現象還是社會經濟現象,都時時處處充滿著因個體的差異性而引起的不確定性,因為在大多數情況下我們缺乏足夠的信息或缺乏足夠的知識去利用有效信息,而人們總是期望通過量化事物的不確定性去發現規律、揭示真相,認識不確定性背后的必然性。要研究不確定性就需要收集數據,在只能進行抽樣觀測的情況下,這種不確定性就表現為如何獲得樣本、如何推斷總體和如何構建模型等方面。

(三)需要建立新的數據梳理與分類方法。

大數據的多樣性與混雜性,以及先有數據、后有總體的特點,原有的數據梳理與分類方法將受到諸多的限制。傳統的數據梳理與分類是按照預先設定的方案進行的,標志與指標的關系、分類標識與分組規則等都是結構化的,既是對有針對性地收集的數據的加工,也是統計分析的組成部分。但對于大數據,由于新的網絡語言、新的信息內容、新的數據表現形式下斷出現,使得會產生哪些種類的信息、有哪些可以利用的分類標識、不同標識之間是什么關系、類與類之間的識別度有多大、信息與個體之間的對應關系如何等,都無發事先加以嚴格設定或控制,住往需要事后進行補充或完善。

(四)需要統計技術與云計算技術融合。

盡管用于收集和分析數據的統計技術已相對成熟、自成體系,但其所能處理的數據量是有限的,面對不可同日而語的大數據、特別是其中大量的非結構化數據恐怕是難以勝任的。首失遇到的問題就是計算能力問題,這就要求我們在不斷創新與發展統計技術的同時,還要緊緊依靠現代信息技術、特別是云計算技術。借助云計算技求可以將網絡計算、分布式計算、并行計算、效用計算、網絡存儲、虛擬化、負載均衡等傳統計算機技術與現代網絡技術融合起來,把多個計算實體整合成一個具有強大計算能力的系統。

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準備好了嗎
學生天地(2019年32期)2019-08-25 08:55:22
分類討論求坐標
數據分析中的分類討論
按需分類
教你一招:數的分類
主站蜘蛛池模板: 成人国产一区二区三区| 欧美日韩午夜| 日韩性网站| 久久久久亚洲av成人网人人软件| 成人精品区| 一区二区三区国产| 欧美在线国产| 婷婷综合色| 狼友av永久网站免费观看| a毛片基地免费大全| 亚洲国产亚洲综合在线尤物| 精品伊人久久大香线蕉网站| 538精品在线观看| 在线观看视频99| 伊人欧美在线| 久久亚洲黄色视频| 欧美日韩另类国产| 国产成人久视频免费| 97国产精品视频自在拍| 手机成人午夜在线视频| 热思思久久免费视频| 国产人免费人成免费视频| 亚洲乱强伦| 国产丝袜第一页| 国产精品精品视频| 欧美精品一二三区| 无码综合天天久久综合网| 国产精品19p| 国产色网站| 91无码人妻精品一区| 欲色天天综合网| 亚洲VA中文字幕| 国产成人超碰无码| www.av男人.com| 国产网站免费| 国产99久久亚洲综合精品西瓜tv| 国产人人乐人人爱| 久久久久人妻一区精品色奶水 | 国产亚洲精品无码专| 72种姿势欧美久久久大黄蕉| 9啪在线视频| 国内精品免费| 美女国内精品自产拍在线播放| 全裸无码专区| 国产成人久久综合777777麻豆| 成人一级免费视频| 亚洲天堂啪啪| 亚洲国产精品日韩av专区| 18禁不卡免费网站| 91欧美在线| 在线观看网站国产| 欧美精品亚洲二区| 亚洲色大成网站www国产| 高清精品美女在线播放| 日韩午夜福利在线观看| 日本一本正道综合久久dvd| 国产精品专区第一页在线观看| 久久中文电影| 国产成人久久777777| 美女啪啪无遮挡| 免费无码在线观看| 欧美伦理一区| 2020最新国产精品视频| 99久久人妻精品免费二区| 啦啦啦网站在线观看a毛片| 波多野结衣视频一区二区| 免费毛片在线| 久久这里只有精品国产99| 亚洲精品国偷自产在线91正片| 亚洲人视频在线观看| 亚洲成aⅴ人在线观看| 在线国产毛片| 伊人久久大香线蕉aⅴ色| 日韩成人高清无码| 91欧美在线| yjizz国产在线视频网| 欧美第一页在线| julia中文字幕久久亚洲| 伊人激情综合| 真实国产乱子伦高清| 欧美亚洲日韩不卡在线在线观看| 亚洲性影院|