趙丹 趙文廣
近年來信息技術的高速發展引發了數據規模的爆炸式增長,國家對此高度重視,教育部在近年來的《教育信息化工作要點》中也屢屢提到大數據應用?;诖说难芯吭絹碓蕉?。為順應時代發展,本文嘗試采集校園網用戶上網行為大數據,對其進行分析,量化其行為規律。此類研究主要有:分析校園網用戶行為,用來合理分配帶寬。分析上網時長、上網內容與學習成績之間的關系。存在的問題主要有:數據量較小,整理篩選后的樣本用戶不足萬人,分析維度單一。本文亮點在于:數據量大,采集了十幾萬人的上網行為數據;采用多維度分類法進行了較為細致的分析,總結出了校園網用戶行為的某些規律。
筆者采集了基于校園網的用戶上網行為大數據,并對其進行清洗、篩選,多維度分類統計與分析,總結出了各類校園網用戶的行為規律。以便相關部門依托這些數據、規律整合流程,更好的形成創新性的服務體驗,同時也能通過數據化的管理實現個性化服務的精準推送。
系統包括:數據采集、數據存儲、數據分析。采集的數據包括:上下線時間、時長、流量、IP等。
(一)系統總體介紹
以某校為例,校園網包括有線網與無線網。其中有線網交換機近千臺,無線網AP幾千個,基本覆蓋所有教學、辦公、宿舍等區域。所有用戶必須登錄計費系統認證之后才能訪問外網。基于校園網的用戶上網行為數據分析系統拓撲結構如圖1所示。認證網關位于防火墻和核心交換機之間,用于采集上網行為數據。

系統結構框圖如圖2所示,包括數據采集、數據存儲、數據分析三大模塊。數據采集模塊負責采集用戶上網行為數據。通過數據定義規則對數據進行預處理后,將非結構化數據存入日志服務器,結構化數據存儲于數據庫。數據存儲模塊負責存儲數據,并對計費數據庫數據、用戶訪問日志進行進一步清理、篩選,將結果存入數據庫數據分析相關表中。數據分析模塊負責對數據進行各種分析。
(二)數據采集
1.數據采集原則
高校大數據的主要特點有:數據分散、數據類型多,數據量不算特別大,但是數據價值非常高。故在數據采集時要做到大而全、細而及時。
大:充分考慮數據規模的增長,做好大數據積累。
全:采取多種方法全量采集。
細:多維度、全面采集。
及時:及時采集數據,提高時效性。
2.數據采集方案
高校數據主要有兩類:結構化數據和非結構化數據。針對此,采取不同的數據采集方案。
日志服務器負責采集非結構化數據,例如:用戶IP、目標IP、MAC、下行流量、登錄時間、下線時間、使用設備、NASIP等。通過認證網關的內核來采集,并采用了雙認證網關和負載均衡技術。
數據庫負責采集存儲結構化數據,例如用戶ID、上網開始時間、結束時間、使用流量等。主要從原始數據中抽取出來。例如:日志服務器采集了用戶每一次認證的數據,數據庫抽取部分數據存儲。然后通過觸發器、腳本等將其進行篩選、整合,形成業務數據。
(三)數據存儲
日志服務器按照每天一個文件夾來存儲非結構化數據,每天增量約40G。結構化數據由Oracle大型數據庫存儲。以表1為例,是在用戶單次消費的基礎上算出的月消費情況。存儲數據有:用戶ID、時長、流量、費用等。一條記錄存儲一個用戶在某段時間(一個月)內使用的上網流量、時長、網費。數據分析時需與用戶表進行聯合查詢。此表每月約10萬條數據。

(四)數據分析
數據分析模塊用于實現對用戶的流量、時長、網費等行為數據進行多維度的分析。
采用按不同消費月份統計用戶的行為,例如流量、時長、網費等;從類別、性別等不同維度分類統計比較用戶的行為;分時段統計用戶在線人數。
通過對這些數據的分析,生成統計表和統計圖。
本系統依托于校園計費系統,注冊用戶數為十七萬余人,個人允許在線設備上限為3,系統最大同時在線終端數為24662。系統采集了歷年來的用戶上網數據,其中存儲于oracle數據庫的數據已超20G,存儲于日志服務器的數據以日均40G的速率增長。
(一)用戶樣本集選取
系統用戶分為本科生、研究生、其他學生、教職工、訪客、專線用戶。用戶離校后帳號保留,其活躍度有時效性。初步選定時間范圍為某學年,目標為該學年初即9月的活躍用戶(流量>0G),共32125人。

從圖3可看出占比最大的三類用戶為:本科生、研究生和教職工。訪客與其的顯著區別是每月無贈送流量,也納入樣本集。最終選取本科生、研究生、教職工和訪客四大類用戶共30732人這個樣本集在某學年度的上網數據進行分析。
(二)不同類別用戶每月人均使用情況分析
將樣本集用戶在某學年內每月的流量(單位:GB)、網費(單位:元)、時長(單位:小時)進行統計與分析,依次得出如圖4、圖5、圖6所示的比對圖。
從圖4可看出每月人均使用流量為:本科生>研究生>教職工>訪客。因本科生、研究生生活學習都在校內,在網時間長。教職工僅在校內工作,在網時間較短。訪客在網時間更短,故使用流量最少。
從圖5可看出每月人均網費消費為:本科生>研究生>訪客>教職工。其趨勢與每月人均使用流量大體相同,但不成比例。因每月贈送本科生、研究生10G流量,教職工15G,訪客無。且收費費率呈階梯式。

從圖4、圖5可看出本科生每月人均流量、網費消費最多。因本科生自由時間最多,研究生需上課、科研、外出實習等。訪客無贈送流量,網費也不容小覷。教職工每月人均網費消費最少。
從圖4、圖5、圖6可看出1、2、7、8月用戶人均使用流量、網費、時長明顯少于其他月份。因寒假一個月跨越了1、2月,暑假為7、8兩個月。進一步分析減少比例,減少比例=(正常月份平均值-假期平均值)/正常月份平均值。假設f(i) 表示第i個月用戶流量,則假期流量減少比例計算如式(1)所示:

以此類推,計算出不同類別用戶假期用量減少比例如表2所示。寒假用量減少很大,其中本科生網費減少了61.4%,非常貼合我國人民春節歸家的習性。而暑假教職工網費、訪客流量網費時長均有所增加,可看出暑假仍有不少教職工在校內堅守崗位。

統計各類用戶在學年度內平均使用流量與平均使用時長的比率(簡稱:流量時長比)如表3所示??煽闯霰究粕牧髁繒r長比最大。說明本科生更愛訪問消耗校外流量多的網址。其他用戶用網更理性。

(三)不同性別用戶每月人均使用情況分析
按照男、女不同性別統計樣本集中的本科生和研究生在某學年內每月的人均網費流量、時長,如圖7、圖8所示。從圖7可看出,男生每月網費約為女生的2倍,流量約為女生的1.3倍。從圖8可看出,男女生上網時長基本持平。說明男生訪問的網站更耗校外流量。而女生較節約,使用校外資源明顯少于男生。
(四)不同時段用戶在線人數
以9月為例,每天不同時段用戶在線人數分布如圖9所示。1時表示0-1點,2時表示1-2點,以此類推。不同線條表示不同的天,對應不同天不同時段的在線人數??煽闯鲈诰€人數峰值時段分別為:12-13時,17-18時。在線人數最少的兩個時段分別為:3-4時,5-6時。據此可避開上網高峰選擇在線人數較少的時段調整網絡、升級系統等。


(五)分析結果小結
用戶對網絡的使用量受其年級、性別、時間等多方面影響。具體表現為:
1.人均使用流量本科生最多,訪客最少;
2.人均網費消費本科生最多,教職工最少;
3.寒暑假用戶流量、網費、時長比平常少。其中本科生寒假網費減少最多,訪客暑假網費反而增加;
4.不同類別用戶流量時長比有所差異,本科生的流量時長比最大;
5.男生每月人均網費約為女生的2倍,流量約為女生的1.3倍,兩者上網時長基本持平;
6.12-13時,17-18時校園網在線人數最多,3-4時,5-6時在線人數最少。
基于校園網對用戶的上網行為數據進行分析,可總結出很多有意思的規律。管理部門可據此為師生提供便捷、高效、精準的個性化引導和服務,為學校開展精細化、智能化師生服務提供理論依據和解決方案,進而影響智慧校園決策。
本文是筆者所在高?;谛@網用戶上網行為數據分析及應用的初步嘗試,后續將引入專業大數據分析工具找出更深層次的規律。作者單位:中國人民大學信息技術中心