999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據時代統計學專業教學改革的初步探索

2015-12-08 00:29:15周茂袁
教育教學論壇 2015年35期
關鍵詞:數據挖掘大數據

周茂袁

摘要:大數據涵蓋多學科領域的、海量的、各種復雜結構的數據。各學科之間數據互相融合和貫通,學科之間的邊界已經重疊和模糊。大數據涉及各種數據類型,包括文本和語言、視頻和圖像、時空數據、網絡和圖形等。對于傳統的統計學專業來說,大數據時代帶來的不僅是機遇還有挑戰。本文初步探索了以下幾個方面:《數據挖掘》中引入大數據分析方法;《非參數統計》中引入多元非參數方法、半參數回歸;《回歸分析》中引入隨機森林回歸等用來處理大數據的回歸方法、高維回歸變量選擇方法(其中以LASSO回歸為典型代表);《多元統計》中引入高維統計方法;以上引入的大數據分析方法均用R語言來實現。

關鍵詞:大數據;統計學;數據挖掘;非參數統計;回歸分析;多元統計

中圖分類號:G642.0 ? ? 文獻標志碼:A ? ? 文章編號:1674-9324(2015)35-0105-02

從狹義上來講,大數據的構成包括兩方面,一方面是大樣本,在統計學上要達到需要的精度就必須采取抽樣的辦法降低樣本數量;另一方面是高維度變量,對于這一問題則需要采取壓縮、分解以及降維等方法。

一、大數據及其意義

大部分傳統的統計方法只適合分析單個計算機存儲的數據。而目前大數據的環境包括以下要素。

1.流數據:數據快速地不斷涌來,現有存儲設備和計算能力難以應付這種數據流(比如歐洲高能粒子對撞機所產生的數據,每秒鐘可以達到500TB)。

2.磁盤存儲限制:數據已不能完全存儲在內存中,需要硬盤存儲。

3.分布存儲狀態:數據分布存儲在多個計算機中。

4.多線條狀態:數據存儲在一個計算機中,多個處理器共享內存。

大數據的發展就是對數據產生的機制進行探索,將所產生的數據轉變為人們所需要的知識,進而對相關政策的制定產生影響。這個過程是一個漫長的過程。一個小孩子隨著年齡的增長可能會掌握更多的單詞,但是根據一個孩子的年齡確定他掌握的單詞多少則并不科學。

進一步來說,大數據有記錄保存自然與社會現狀的功能。現在大家收集著海量數據,盡管他們還不清楚如何分析大量的數據,但是他們相信需要保存現今社會經濟高速發展的過程,期待著今后能夠分析和解釋這段歷史。還有些人將百歲老人的血液和其他各種生物的標本等存放在冰箱里,他們認為當今的技術還不足以測試和分析這些資源,期待今后更先進的測試技術能夠做到。大數據就如同自然和社會的血液那樣記錄著社會的現狀和發展過程。

17世紀望遠鏡以及顯微鏡的發明使人類看到了以前從來沒有看到過的宇宙空間和微生物,擴大了人類對自然的基本認識。大數據就像“望眼鏡”和“顯微鏡”那樣,使得人們能夠通過數據來觀察和分析自然、經濟、社會的現象。借助于互聯網數據,可以及時了解疾病的疫情、科學的動態、社會的動態。谷歌借助頻繁檢索的詞條能及時判斷流感從哪傳播,哪些人可能已經感染了流感。大數據將形成自然和人文社會的歷史長河,不但能用于探索當代的科學問題,將來也可以用于研究人們食用轉基因食品對子孫后代的影響等追蹤研究問題,為未來留下當前的歷史資料。

二、大數據帶來的變革

時代的進步有賴于大數據的發展,大數據的發展給時代變革增加了更多的不確定性。就當前研究來看,數據的搜集很大程度上依靠所研究問題的出現來推動其向前發展。不過在不久的將來,隨著大數據時代的到來,人們對于問題的研究將會由“數據”來驅動。例如,如果我們想去某地旅行或出差,會首先查詢目的地的交通情況、天氣情況以及住宿情況等信息,但是將來我們可以根據所查詢的數據信息來決定所要去的目的地。在古希臘時代,當時的哲學家無所不知,號稱百科全書,到了文藝復興時代,隨著學科的不斷細化,不同學科出現了各自的專家。隨著大數據時代的到來,大百科全書式的人物將有可能再次出現,而不同領域的專家的權威性將被逐步消弱,隨著大數據的不斷發展,很有可能會逐漸將學科專家消亡掉。例如,隨著計算機專家和統計學家對數據的搜集越來越多并且處理能力不斷增強,他們將逐步成為生命科學方面的專家。再比如,如果我們掌握了足夠數量的相關專業書籍和日文譯本,就算我們對日文一無所知,我們也可以采取有效的方法將所需要的中文翻譯成為日文,因為我們有很多非常可靠的翻譯軟件,如谷歌翻譯軟件等。大數據已經在各個領域和學科得到了應用,例如醫療領域,大數據可以指導人們健康飲食,適時進行身體檢查,并且確定檢查項目,幫助醫生對患者進行疾病診斷等。

三、大數據時代統計學專業教學現狀

隨著科技的不斷發展和進步,人們獲取信息和數據的途徑也發生了很大的變化,電子商務的發展和各種多媒體信息技術的飛速發展和應用,給傳統的統計學應用和教學帶來了機遇的同時也帶來了非常大的挑戰。一方面,由于各種信息和數據的不斷涌入,人們在被動搜集著各種數據。統計學的教學也需要不斷探索新的模式。另一方面,人們在被動接受數據的同時也在主動搜集數據信息,不同學科有不同的數據需要。例如經濟學領域的專家每天都在搜集各自的調查數據和觀察數據,而自然科學領域的專家學者則不僅搜集宏觀天文數據,還在搜集微觀基因數據。不同的人們搜集數據的方法也各不相同,有的在實驗室通過試驗進行數據搜集,有的人則通過網絡進行數據搜集和研究。

對于當前大數據給統計學帶來的挑戰,美國科學院“大數據分析委員會”給出了分析,他們認為這些挑戰在于對不同格式和結構的數據的處理方面、對于數據來源的追蹤方面、對于共享數據的安全性問題和完整性問題方面、對于樣本異質性和偏倚性處理方面、在對問題進行處理時的決策和分析方面以及對分布式和并行式在開發時的算法方面的問題等。國內相關部門也對這一問題進行了研討,最早一次是2012年5月在香山召開的“大數據科學與工程”會議,第二次是在2013年5月召開的對于大數據原理以及發展前景的探討會,并同時制定了相關的科研計劃。但關于大數據背景下統計學專業教學的探索還非常稀缺。

四、統計學專業課程改革

針對以上所述大數據時代的特點和變革意義以及目前統計學專業教學的現狀,本文進行了相應的初步探索。

(一)改革的總體思路

將現有的統計學頂級雜志或著名文獻中的成熟的大數據分析方法逐步凝練,形成教學內容;將使用R軟件中的函數包實現這些大數據分析方法。

(二)改革的具體內容

1.在《數據挖掘原理與方法》課程中引入大數據分析方法及其R語言的代碼實現。

2.在《非參數統計》課程中引入多元非參數統計方法(諸如多元符號、多元秩、多元符號秩等)、非參數回歸模型、半參數回歸模型及其R語言的代碼實現。

3.在《回歸分析》課程中引入回歸樹、boosting回歸、bagging回歸、隨機森林回歸等用來處理大數據的回歸方法、高維回歸變量選擇方法(比如LASSO回歸、動態LASSO回歸等)及其R語言的代碼實現。

4.在《多元統計分析》課程中引入高維統計分析方法及其R語言的代碼實現。

5.在工科《概率論與數理統計》課程中引入R語言的代碼實現。

(三)改革的主要創新點

在傳統的統計學專業課程教學中引入最新的大數據分析方法及其R語言實現。

其中R語言是區別SAS、SPSS等傻瓜軟件的結構化程序設計語言,可以靈活實現傻瓜軟件所不能實現的各種高級數據分析功能。其非常適應于大數據統計分析方法的教學。所以大部分國內外著名大學已經不再使用諸如SAS、SPSS等傻瓜統計軟件進行統計分析方法的教學。R語言已經逐步成為統計學系的標準的教學軟件。

參考文獻:

[1]Committee on the Analysis of Massive Data et al. (2013)Frontiers in Massive Data Analysis[J].National Academies Press,Washington. http:/ /www. nap. edu /catalog. php?record_id =18374.

[2]維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數據時代——生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013.

[3]NIH Big Data to Knowledge (2013).http://bd2k.nih.gov/index.html#sthash.Yu5HxjcM.dpbs.

[4]納特·西爾弗.信號與噪聲[M].胡曉姣,張新,朱辰辰,譯.北京:中信出版社,2013.

[5]Yin J,Zhou Y,Wang C,He P,Zheng C,Geng Z. Partial orientation and local structural learning of causal networks for prediction. Challenges in Causality Volume 1:Causation and prediction challenge. Ed. by I. Guyon,C. Aliferis,G. Cooper,A. Elisseeff,J. Pellet,P. Spirtes and A. Statnikov,2009:93-105.

[6]趙暉,邢攀科,秦樂樂,張會肖.基于“云計算”的人力資源檔案信息決策支持系統的研究[J].河北工業科技,2013,(02).

[7]郭海燕,魏遵鋒,石中英.研究生課程與教學現狀調查分析——以北京師范大學為例[J].中國大學教學,2012,(10).

猜你喜歡
數據挖掘大數據
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
主站蜘蛛池模板: 免费日韩在线视频| 亚洲人成在线精品| 免费国产好深啊好涨好硬视频| 激情视频综合网| 日韩欧美网址| 丁香婷婷激情网| 免费福利视频网站| 在线观看免费人成视频色快速| 色偷偷av男人的天堂不卡| 成人免费一区二区三区| 熟妇丰满人妻| 精品自窥自偷在线看| 亚洲品质国产精品无码| 波多野结衣一级毛片| 日韩黄色在线| 热99re99首页精品亚洲五月天| 欧美乱妇高清无乱码免费| av手机版在线播放| 91精品啪在线观看国产91| 日本午夜视频在线观看| 日本人又色又爽的视频| 国产精品偷伦在线观看| 亚洲精品爱草草视频在线| 岛国精品一区免费视频在线观看| 99热精品久久| 国产精品三区四区| 亚洲天堂视频在线免费观看| 日韩免费成人| 久久国产高潮流白浆免费观看| 天天躁夜夜躁狠狠躁图片| 亚洲综合香蕉| 国产屁屁影院| 国产成人免费| 欧美国产成人在线| 999精品视频在线| 激情综合婷婷丁香五月尤物| 亚洲资源站av无码网址| 久久99国产视频| 亚洲人成在线精品| 亚洲日韩欧美在线观看| 午夜老司机永久免费看片| 欧美一级高清片欧美国产欧美| 亚洲天堂网2014| 亚洲美女操| 精品国产福利在线| 中文字幕有乳无码| 国产永久无码观看在线| 久久久久久尹人网香蕉| 国产18页| 亚洲女同欧美在线| 亚洲欧洲日本在线| 国内精品伊人久久久久7777人| 99在线视频网站| 亚洲综合欧美在线一区在线播放| 亚洲婷婷在线视频| 永久免费av网站可以直接看的 | 国产福利观看| 精品国产自在现线看久久| 国产伦片中文免费观看| 亚洲一级毛片| 日韩一二三区视频精品| 亚洲无码91视频| 成人在线第一页| 欧美特黄一级大黄录像| 9999在线视频| 精品少妇人妻av无码久久| 波多野结衣AV无码久久一区| 国产视频一区二区在线观看| 国产污视频在线观看| 亚洲福利网址| 中文天堂在线视频| 美女毛片在线| 亚洲福利网址| 精品视频免费在线| 黄色国产在线| 国产电话自拍伊人| 国产AV无码专区亚洲A∨毛片| 四虎影视库国产精品一区| 亚洲高清资源| 中文字幕在线不卡视频| 四虎影视库国产精品一区| 亚洲视频无码|