弋改珍,楊佳梅,段妮歌,徐勇
(咸陽師范學院計算機學院,咸陽 712000)
相關(guān)分析法在大學生上網(wǎng)行為分析中的應用
弋改珍,楊佳梅,段妮歌,徐勇
(咸陽師范學院計算機學院,咸陽 712000)
大數(shù)據(jù)的意義是由人類日益普及的網(wǎng)絡(luò)行為所伴生的,蘊含數(shù)據(jù)生產(chǎn)者真實意圖、喜好的,非傳統(tǒng)結(jié)構(gòu)和意義的數(shù)據(jù)。以咸陽師范學院大學生上網(wǎng)行為數(shù)據(jù)為數(shù)據(jù)源,研究數(shù)據(jù)分析技術(shù)中相關(guān)分析方法的原理和數(shù)據(jù)建模方法,借助SAS軟件中的數(shù)據(jù)庫和分析模塊,對數(shù)據(jù)源進行采集、整理、清洗,并建立評價建立指標,對預處理后的數(shù)據(jù)從用戶量和網(wǎng)址類別兩個方面進行分析。最終針對大學生上網(wǎng)情況提出合理的規(guī)劃與建議。
大數(shù)據(jù);相關(guān)分析;大學生上網(wǎng)行為數(shù)據(jù)
隨著互聯(lián)網(wǎng)和信息技術(shù)的快速發(fā)展,物聯(lián)網(wǎng)、移動互聯(lián)、各種社交網(wǎng)絡(luò)從各個方面擴展了互聯(lián)網(wǎng)的應用領(lǐng)域。網(wǎng)絡(luò)對在校大學生的生活產(chǎn)生了深遠的影響,學生的行為方式、思維方式、價值觀念發(fā)生了巨大變化。如何及時了解學生的行為和思想動態(tài),把握學生管理的時機,對教育管理部門提出了嚴峻的問題和考驗。
本文利用統(tǒng)計學中的相關(guān)分析[1]方法,通過研究相關(guān)分析方法的原理和數(shù)據(jù)建模方法,以咸陽師范學院大學生上網(wǎng)行為數(shù)據(jù)為數(shù)據(jù)源,借助SAS[2]軟件中的數(shù)據(jù)庫和分析模塊,對數(shù)據(jù)源進行采集、整理、清洗并逐步分析。并針對大學生上網(wǎng)情況提出合理的規(guī)劃與建議,使處于信息時代的大學生們能夠正確、合理地運用網(wǎng)絡(luò)資源,充分把握每一個信息的重要性。
相關(guān)分析是研究現(xiàn)象之間是否存在某種依存關(guān)系,并對具體有依存關(guān)系的現(xiàn)象探討其相關(guān)方向以及相關(guān)程度,是研究隨機變量之間的相關(guān)關(guān)系的一種統(tǒng)計方法。相關(guān)關(guān)系是一種非確定性的關(guān)系[3]。
線性相關(guān)分析指的是研究兩個變量間線性關(guān)系的程度,用相關(guān)系數(shù)r來描述。設(shè)兩個變量為x,y,根據(jù)樣本數(shù)據(jù)計算,利用積差法來計算相關(guān)系數(shù),計算公式:

其中,分子是兩變量的協(xié)方差,分母是兩變量的標準差,即:

以上公式簡化得:


將公式展開,即:從以上公式可以看出,r的符號只決定于分子Lxy的值的符號,即r的符號與Lxy的符號保持一致。相關(guān)系數(shù)r的符號反映相關(guān)關(guān)系的方向,其絕對值的大小則反映變量相關(guān)關(guān)系的密切程度。|r|的取值范圍為0到1之間。r=1表示變量完全正線性相關(guān);r>0表示變量正線性相關(guān);r=0表示變量不存在線性相關(guān);r<0表示變量負線性相關(guān)。本文運用的是正線性相關(guān)[3]進行分析,正相關(guān)系數(shù)判別:
|r|>0.95表示變量之間存在顯著性相關(guān);
|r|≥0.8表示變量之間高度相關(guān);
0.5≤|r|<0.8表示變量之間中度相關(guān);
0.3≤|r|<0.5表示變量之間低度相關(guān);
|r|<0.3表示變量之間關(guān)系極弱,認為不相關(guān)。
數(shù)據(jù)來源于咸陽師范學院的學生上網(wǎng)數(shù)據(jù)。原始數(shù)據(jù)是學生上網(wǎng)的日志文件,不符合SAS進行處理的數(shù)據(jù)格式。在進行數(shù)據(jù)分析之前,要對原始數(shù)據(jù)進行預處理和標準化,然后倒入SAS,利用SAS中的相關(guān)分析過程進行分析。
我們選取2016年4月11號-4月16號這一個星期的上網(wǎng)數(shù)據(jù)。數(shù)據(jù)的觀測是按時間進行排序的,其指標有日期、學號、網(wǎng)址等。
2.1 原始數(shù)據(jù)的處理
數(shù)據(jù)的合并及導入:原始數(shù)據(jù)是每小時的數(shù)據(jù),要利用(copy*.log合并文件.txt)進行每小時數(shù)據(jù)的合并,合并成為一天的數(shù)據(jù)。接下來在SAS中利用IMPORT過程將一天的數(shù)據(jù)導入。
數(shù)據(jù)的整理:首先選取學生學號做指標,利用SQL過程查找有效學號信息過濾掉無效學號及缺省值,并留存篩選后的數(shù)據(jù)。然后以網(wǎng)址為指標進行篩選過濾掉無效網(wǎng)址及私有不可訪問網(wǎng)址。并基于保護用戶私密信息,經(jīng)過數(shù)據(jù)清洗處理,保留下的數(shù)據(jù)集具有學號與網(wǎng)址兩個屬性值。
數(shù)據(jù)二次清洗:對于學號與網(wǎng)址數(shù)據(jù)中不完整的數(shù)據(jù),錯誤的數(shù)據(jù),重復的數(shù)據(jù)進行清洗。
2.2 基于學號網(wǎng)址的網(wǎng)址類別處理
通過從360網(wǎng)址大全,百度網(wǎng)址大全,2345網(wǎng)址導航等網(wǎng)站的源碼中提取網(wǎng)址關(guān)鍵字,并對網(wǎng)址關(guān)鍵字進行分類。
通過模糊匹配法對網(wǎng)址進行關(guān)鍵字的匹配,從工具、購物、軍事、科技、旅游、其他、社交、體育、新聞、學習、音樂、影像、游戲等13個方面對網(wǎng)址進行分類。
(1)排序:按照類別排序,保證所有數(shù)據(jù)集的變量順序一致,以便分析。
(2)計算頻數(shù):對每個類別求訪問量及所占百分比。
(3)轉(zhuǎn)置,追加:對所得表實現(xiàn)轉(zhuǎn)置并清洗其中無效信息以便追加數(shù)據(jù)集。對轉(zhuǎn)置后的表進行豎向追加。
(4)整理分析所用數(shù)據(jù):對一天的表求和并將七天的合并在一張表中。
2.3 指標的建立
選取每一類網(wǎng)址(n)的每天作為樣本指標(p),分別用符號X0,X1,X2,X3,X4,X5,X6,X7來表示。其表示矩陣為Mij(i=1,2,…,n;j=1,2,…,p)。通過相關(guān)分析的CORR過程分別統(tǒng)計一周內(nèi)各類網(wǎng)址的出現(xiàn)頻率,以及利用Pearson相關(guān)系數(shù)各類網(wǎng)址之間的關(guān)聯(lián)程度。
把一個周的網(wǎng)址按小時劃分,把原始數(shù)據(jù)整理、清洗、處理后,把網(wǎng)址數(shù)據(jù)分為工具,購物、軍事、旅游、社交、體育、新聞、學習、音樂、影像、游戲,其他13類,如圖1所示。由相關(guān)分析的corr過程,可以得出以下信息:N表示一共168個小時,也就是一周的網(wǎng)址信息量,從均值來看訪問社交、購物、學習、影像、游戲等網(wǎng)址的比例較大,其中訪問影像類網(wǎng)址的頻率最高。從標準差也可以看出學習與影像偏離均值較大,說明這類網(wǎng)址數(shù)據(jù)波動較大,反映出上學習與影像的網(wǎng)站具有時段性。縱觀全表,同學們比較熱衷于上網(wǎng)購物、社交、學習、看電影以及玩游戲,對于軍事、科技、新聞、體育、關(guān)注較少。通過Pearson相關(guān)系數(shù),可以分析各類網(wǎng)址的相關(guān)程度,在工具行中可以發(fā)現(xiàn)工具類與科技類,體育類之間關(guān)系極弱,認為不相關(guān);工具類與學習類中度相關(guān),與其他各類呈高度相關(guān)和顯著性相關(guān)。
圖2是對星期一這天的網(wǎng)址數(shù)據(jù)進行相關(guān)分析:從均值水平可以得出這天訪問影像類網(wǎng)站的最多,依次是影像、學習、社交、其他、工具等;標準差反應數(shù)據(jù)的波動性,可見工具,購物、社交、學習,影像,游戲類網(wǎng)站的波動較大,具有時段性,也較符合日程時刻表。從總和來看訪問工具、購物、社交、學習、影像、游戲類網(wǎng)址遠高于其他各類。工具、影像類網(wǎng)址的最大最小值顯著于其他各類,相比于科技,新聞和體育,同學們較少關(guān)注,也間接反映大學生們普遍的生活行為方式,忽視了健康與時事。

圖1 學生訪問的網(wǎng)址類別統(tǒng)計

圖2 網(wǎng)址數(shù)據(jù)的相關(guān)分析結(jié)果
圖3是星期一的晚高峰22時的數(shù)據(jù)。影像、學習、社交、購物超過總網(wǎng)址的50%,影像類網(wǎng)址數(shù)量最多,科技類網(wǎng)址僅占1/1000,體育類網(wǎng)址占0.2%,軍事、旅游,新聞,體育類網(wǎng)址總和不及十分之一,側(cè)面反映出叫大多數(shù)同學的大學生活較單一,并且不熱愛體育運動。

圖3 學生上網(wǎng)類別百分比
正如引言所述事物之間有著兩種關(guān)系,函數(shù)關(guān)系和相關(guān)關(guān)系。函數(shù)關(guān)系能給我們確定性結(jié)果,相關(guān)分析則是反映事物之間關(guān)聯(lián)程度。使用相關(guān)分析方法分析大學生生上網(wǎng)數(shù)據(jù),我們得到了許多客觀有效的結(jié)論,許多大學生的上網(wǎng)方式不科學,較少一部分同學沉溺于網(wǎng)絡(luò)游戲,在此我們提出建議,希望大學生能合理安排上網(wǎng)時間,正確對待網(wǎng)絡(luò)娛樂資源勞逸結(jié)合,寓教于樂是我們所提倡的健康的學習方式,適度娛樂能緩解學習,生活中的壓力也為后續(xù)的學習和工作提供能量。過度沉溺于如網(wǎng)絡(luò)娛樂,在線聊天等不僅浪費時間而且影響學習。我們必須合理的安排上網(wǎng)時間,做到有效的使用網(wǎng)絡(luò)資源并使其真正的為學習,生活帶來便利。
[1]何曉群.現(xiàn)代統(tǒng)計分析方法與應用[M].北京:中國人民大學出版社,2003.
[2]胡小平,王長發(fā).SAS基礎(chǔ)統(tǒng)計實例教程[M].西安:西安地圖出版社,2001.
[3]謝龍漢,尚濤.SAS統(tǒng)計分析方法與數(shù)據(jù)挖掘[M].北京:電子工業(yè)出版社,2012.
Application of the Correlation Analysis Method in Students'Online Behavior Data
YI Gai-zhen,YANG Jia-mei,DUAN Ni-ge,XU Yong
(School of Computer,Xianyang Normal University,Xianyang 712000)
The significance of the big data is accompanied by the increasing popularity of the network behavior,and it contains the data producer's true intentions,preferences,non-traditional structure and significance of the data.Uses the students'online behavior data for data source in Xianyang Normal University,studies the principle of correlation analysis method of data analysis techniques and data modeling method, uses database and analysis module in SAS software,collects the data source,and sorted,cleans and sets up the index,and pre-processed data from users and the Web site.Analyzes the pre-processed data from the two accepts:the numbers and the kinds of Web site.Finally, puts forward the reasonable planning and suggestions for college students to surf the Internet.
Big Data;Correlation Analysis;University Students'Online Behavior Data
咸陽師范學院(國家級/省級/校級)大學生創(chuàng)新創(chuàng)業(yè)訓練計劃資助項目(No.201610722028)
1007-1423(2016)36-0019-04
10.3969/j.issn.1007-1423.2016.36.005
弋改珍(1969-),女,陜西咸陽人,碩士研究生,副教授,研究方向為無線網(wǎng)絡(luò)和網(wǎng)絡(luò)安全、大數(shù)據(jù)分析
2016-11-08
2016-12-10