999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

單因素方差分析在大學生上網數據中的應用

2017-02-21 20:10:10弋改珍
科技創新與應用 2016年35期
關鍵詞:大數據

弋改珍

摘 要:大數據的意義是由人類日益普及的網絡行為所伴生的,蘊含數據生產者真實意圖、喜好的,非傳統結構和意義的數據。以某普通高校大學生上網行為數據為數據源,研究了數據分析技術中單因素方差分析方法的原理和數據建模方法,借助SAS軟件中的數據庫和分析模塊,對數據源進行采集、整理、清洗,并建立評價指標,對預處理后的數據從用戶量方面進行分析。

關鍵詞:大數據;單因素方差分析;大學生上網行為數據

引言

隨著互聯網和信息技術的快速發展,物聯網、移動互聯、各種社交網絡從各個方面擴展了互聯網的應用領域。網絡對在校大學生的生活產生了深遠的影響,學生的行為方式、思維方式、價值觀念發生了巨大變化。如何及時了解學生的行為和思想動態,把握學生管理的時機,對教育管理部門提出了嚴峻的問題和考驗。

文章利用統計學中的單因素分析方法,在研究單因素分析方法的原理的基礎上,以某普通高校大學生上網行為數據為數據源,借助SAS軟件的數據庫和分析模塊,對數據源進行采集、整理、清洗,并逐步分析。根據分析結果,對大學生上網情況給出合理的建議,能夠使處于信息時代的大學生們正確、合理地運用網絡資源,充分把握信息的重要性。

1 單因素方差分析原理

單因素方差分析[1](one-wayANOVA)假設影響觀測值的多個因素中,只有一個因素在發生變化,其余因素不變時,變化的因素A有多個水平,在每個水平下進行ni次獨立觀測,得到試驗指標。

這里SE代表隨機誤差的影響,稱為誤差平方;SA是因素A的效應平方和,表示在Ai水平下樣本均值和總平均值之間的差異之和,反映了r個總體均值之間的差異,即μi之間的差異。

因此,總平方和ST可分解為由隨機誤差引起的誤差平方和SE和由因素各個水平的差異引起的因素平方和SA。

如果原假設H0成立,經過統計分析得到SE/(n-r)和SA/(r-1)是σ2的無偏估計,且SE和SA相互獨立,因此,有:

于是F可以作為H0的檢驗統計量,若F>Fα (r-1,n-r),則拒絕原假設。也可以使用P值決定是否接受原假設H0:p=P{F(r-1,n-r)>F}。若P<α,拒絕原假設H0;否則接受原假設H0。

2 數據預處理

數據來源于某普通高校的學生上網數據。原始數據是學生上網的日志文件,不符合SAS進行處理的數據格式。在進行數據分析之前,要對原始數據進行預處理和標準化,然后倒入SAS,利用SAS中的相關分析過程進行分析。

選取2016年4月11號-4月16號這一個星期的上網數據。數據的觀測是按時間進行排序的,其指標有日期,學號,網址等。

2.1 原始數據的處理

數據的合并及導入:原始數據是每小時的數據,要利用(copy *.log 合并文件.txt)進行每小時數據的合并,合并成為一天的數據。接下來在SAS中利用IMPORT過程[3]將一天的數據導入。

數據的整理:首先選取學生學號做指標,利用SQL過程查找有效學號信息過濾掉無效學號及缺省值,并留存篩選后的數據。然后以網址為指標進行篩選過濾掉無效網址及私有不可訪問網址。并基于保護用戶私密信息,經過數據清洗處理,保留下的數據集具有學號與網址兩個屬性值。

數據二次清洗:對于學號與網址數據中不完整的數據,錯誤的數據,重復的數據進行清洗。

2.2 基于學號網址的網址類別處理

通過從360網址大全,百度網址大全,2345網址導航等網站的源碼中提取網址關鍵字,并對網址關鍵字進行分類。

通過模糊匹配法對網址進行關鍵字的匹配,從工具、購物、軍事、科技、旅游、其它、社交、體育、新聞、學習、音樂、影像、游戲等13個方面對網址進行分類。

(1)排序按照類別排序,保證所有數據集的變量順序一致,以便分析。

(2)計算頻數對每個類別求訪問量及所占百分比。

(3)轉置,追加對所得表實現轉置并清洗其中無效信息以便追加數據集。對轉置后的表進行豎向追加。

(4)整理分析所用數據對一天的表求和并將七天的合并在一張表中。

2.3 指標的建立

根據單因素方差分析原理,選取一周中每天每一類網址作為樣本指標,分別用符號X0,X1,X2,X3,X4,X5,X6,X7來表示。其表示矩陣為Mij(i=1,2,…,n;j=1,2,…p)。如圖表1所示。

3 大學生上網行為數據的單因素方差分析

在ANOVA過程中,首先,假設時間對觀測值沒有顯著性影響,從圖1看出顯著性水平p=0.3210遠遠大于顯著性水平默認值α=0.05,所以不能拒絕原假設,表明均值之間的差異不顯著,時間對觀測值沒有顯著影響。其次,通過擬合統計量衡量假設模型的預期值和實現所得的實際值之間的差距。最后利用ANOVA模型判定我們的假設是可靠的。進一步由圖2可直觀簡單的看出在星期一的時候上網時間高于其它時間。

4 結束語

單因素方差分析方法中,雖然只有一個因素發生變化,但是這個因素具有多個水平,在實驗研究中按隨機化原則將受試對象隨機分配到因素的多個水平中,觀察各個組的試驗效應。通過使用單因素方差分析法對大學生上網行為數據的分析,時間對大學生上網沒有影響,學生每天上網量較大。在此我們提出建議,希望大學生能合理安排上網時間,正確對待網絡娛樂資源勞逸結合,寓教于樂是我們所提倡的健康的學習方式,適度娛樂能緩解學習,生活中的壓力也為后續的學習和工作提供能量。過度沉溺于如網絡娛樂,在線聊天等不僅浪費時間而且影響學習。我們必須合理的安排上網時間,做到有效的使用網絡資源并使其真正的為學習,生活帶來便利。

參考文獻

[1]何曉群.現代統計分析方法與應用[M].北京:中國人民大學出版社,2003.

[2]田兵.單因素方差分析的數學模型及其應用[J].陰山學刊,2013,27(2):24-27.

[3]謝龍漢,尚濤.SAS統計分析方法與數據挖掘[M].北京:電子工業出版社,2012.

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 国产 在线视频无码| 国产亚洲欧美日韩在线观看一区二区 | 亚洲日本中文字幕乱码中文| 国产91丝袜在线播放动漫| 91九色最新地址| 香蕉国产精品视频| 免费a在线观看播放| 亚洲日本中文综合在线| 91福利免费视频| 一本无码在线观看| 色窝窝免费一区二区三区| 亚州AV秘 一区二区三区| 亚洲欧美日韩成人高清在线一区| 日本欧美一二三区色视频| 91麻豆精品国产高清在线| 久久亚洲高清国产| 全部免费毛片免费播放| 国产激爽大片在线播放| 成人年鲁鲁在线观看视频| 97影院午夜在线观看视频| 色综合a怡红院怡红院首页| 国产成人永久免费视频| 欧美专区在线观看| 亚洲三级电影在线播放| 亚洲侵犯无码网址在线观看| 日本日韩欧美| 国内精品视频区在线2021| 欧美日韩导航| 久久久久人妻一区精品色奶水| 亚洲精品无码成人片在线观看| 国产精品美人久久久久久AV| 国产乱人免费视频| 日韩无码视频专区| 一区二区三区四区日韩| 欧美福利在线观看| 1级黄色毛片| 亚洲第一中文字幕| 国产精品一区二区久久精品无码| 国产一区在线视频观看| 国产精品亚洲片在线va| yy6080理论大片一级久久| 亚洲午夜福利精品无码| 少妇极品熟妇人妻专区视频| 欧美色综合网站| 欧美精品啪啪| 久久a毛片| 99人妻碰碰碰久久久久禁片| 亚洲成人黄色在线观看| 亚洲国产精品国自产拍A| 在线网站18禁| 久久综合婷婷| 韩日免费小视频| 国产丝袜91| 久久精品午夜视频| 亚洲人成人无码www| 五月婷婷激情四射| 国内老司机精品视频在线播出| 色屁屁一区二区三区视频国产| 国产一级特黄aa级特黄裸毛片| 91蝌蚪视频在线观看| 国内精品91| 国产精品护士| 91精品人妻一区二区| 久久久久青草线综合超碰| 久久亚洲国产一区二区| 亚洲综合二区| 亚洲国产综合精品一区| 婷婷午夜天| 久久婷婷色综合老司机| 毛片久久久| 一本综合久久| 色一情一乱一伦一区二区三区小说| 九九精品在线观看| 无码专区国产精品一区| 亚洲Av综合日韩精品久久久| 久久亚洲AⅤ无码精品午夜麻豆| 国产精品久久久免费视频| 国产第一页第二页| 国产三级成人| 日韩免费无码人妻系列| 亚洲一区二区三区麻豆| 中国黄色一级视频|