鄧甜甜,熊蔭喬,劉建娥
基于計費系統的校園網用戶行為分析*
鄧甜甜1,熊蔭喬1,劉建娥2
(1.長沙大學網絡信息中心,湖南長沙410022;2.長沙職業技術學院經濟貿易管理系,湖南長沙410217)
上網模式和上網質量對學習成績有一定的影響.通過計費系統的用戶訪問日志,對學優生和學困生的上網模式進行分析,試圖找出上網時長、上網內容與學習成績之間的關系.研究表明:大學生較為合理的上網時長約為6.4小時/天;上網時長平均達到8.6小時/天及以上,將影響正常學習;上網內容豐富,有助于提高學習成績;游戲時間占上網時間的60%及以上,將嚴重影響學習成績.
校園網;用戶行為;計費系統
網絡已成為在校大學生獲取資訊、展示自我和娛樂休閑的重要場所.據CNNIC《第31次中國互聯網絡發展狀況統計報告》統計,截至2012年12月底,我國大專以上學歷人群上網比例接近飽和.而上網質量對學習成績具有一定的影響.對比分析學優生與學困生的上網行為模式,能為定量研究上網質量與學習成績的關系提供數據支持,有助于高校開展教學活動和思想教育活動.
目前,研究人員主要采用問卷調查法,獲取高校學生的上網行為數據.該辦法需要用戶主動參與,覆蓋范圍有限.同時獲取的數據帶有個人主觀臆斷,并不能準確地反映用戶的上網情況.通過校園網計費系統獲取的用戶訪問日志,覆蓋面廣,更能準確的反映用戶上網行為.本文通過校園網計費系統獲取用戶訪問日志,對日志數據進行統計、過濾,并結合開放式分類目錄ODP[1],對用戶的上網內容進行分類.研究結論采用折線圖、直方圖等方式進行描述,簡單直觀,易于理解,對高校學生工作具有參考價值.
我校校園網始建于2002年10月,經過數年的升級擴建,截至2013年6月止,注冊用戶23000余人,最高在線用戶達8241人.校園網出口總帶寬為1310M.
校園網用戶需通過計費認證的方式訪問外網資源.學校校園網拓撲結構圖如圖1所示.學校采用北京城市熱點4.5. 1版本的寬帶計費系統,全校用戶近3個月的上網訪問信息均被記錄在計費系統的用戶訪問日志中.

圖1 長沙大學校園網拓撲結構圖
本文分析學優生與學困生的上網時長和http訪問內容,以此掌握該兩類校園網用戶的上網行為模式.涉及的數據包括該兩類學生的上網賬號以及對應的用戶訪問日志.
2.1學生上網賬號
我校學生的上網賬號為自己的學號.學校學生工作處網站公布了2012-2013年度國家助學金領取者名單和2012年下學期補考重修信息表.通過這兩份數據,可分別獲取學優生和學困生的學號信息.兩份原始數據對應的學生數目分別為:2339和4571.從中剔除大一、大四學生,以及重修科目3門及以下的學生,有效學生數目分別為:1327和511.每份文檔隨機抽取200個學號進行后續分析工作.
2.2用戶訪問日志
計費系統使用文本文檔記錄用戶訪問日志.文檔名稱為日志的最初寫入時間,用戶每發送一條HTTP請求,便形成一條日志記錄,滿20M便自動生成一個新的日志文件.本文截取了2012年12月1日至7日一周的用戶訪問日志,共計119個文檔,2280M數據量.日志格式如表1所示.

表1 用戶訪問日志格式
一條日志數據如下所示:
0 0 2012-12-01(6)01:00:31
wenda.qihoo.com/user/index?userid=21895645&ref=360safe&task=0
201002229 60D81997B0E1 172.22.34.69 80 1 110.75.13.21 58003 0 0.0.0.0 0
如上所示,賬號為201002229的用戶于2012年12月1日訪問了wenda.qihoo.com網站信息.其中,用戶MAC地址為:60D81997B0E1,用戶IP地址為:172.22.34.69,用戶端口號為80,目的IP地址為110.75.13.21,分配的目的端口號為58003.
由于數據量過大,因此采取的清理策略是:先清用戶再清訪問內容.分別以獲取的兩類學生上網賬號為查詢條件,從用戶訪問日志中查詢信息并保留查詢結果,在查詢結果中進一步清理訪問內容.
由于本文僅關注用戶上網時長和http訪問內容,所以在數據選擇上,清除了日志中用戶端口號為非80的記錄以及請求信息為圖片、CSS等網頁格式的記錄.用戶訪問日志的清理內容如表2所示.

表2 用戶訪問日志清理內容
3.1上網時長與學習成績關系分析
在計費系統中,分別統計每位學生在2012年12月1日至31日的上網時長,再按上網時長區間進行人數統計,形成兩類學生上網時長區間分布圖.如圖2所示.

圖2 兩類學生上網時長區間分布圖
由圖2可知,學優生與學困生的上網時長有較為明顯的區別.69%的學優生當月的上網時長位于5000~15000分鐘的區間內,59%的學困生當月的上網時長位于10000~20000分鐘的區間內.對上網時長區間設置權值[2],利用加權平均數算法,分別計算兩類學生的上網時長平均值:學優生平均上網時長為11600分鐘/月;學困生平均上網時長為15400分鐘/月.
對兩類學生的上網時長進行CDF統計[3].兩類學生上網時長累計分布圖如圖3所示.

圖3 兩類學生上網時長累計分布圖
基于圖3,設上網時長為T(單位:分鐘/月),學優生累計概率為Py,學困生累計概率為Pk,則有如下關系表達式[4]:

上網時長小于10000分鐘/月的概率,學優生為為0.43,學困生為0.2;上網時長小于15000分鐘的概率,學優生為0. 76,學困生為0.46;上網時長小于20000分鐘的概率,學優生為0.92,學困生為0.79.
綜上所述,上網時長與學習成績的關系闡述如下:(1)大學生較為合理的上網時長約為6.4小時/天.(2)上網時長平均達到8.6小時/天及以上,將影響正常學習.
(3)上網時長小于8小時/天的概率,學優生為0.76,學困生為0.44.
3.2訪問內容與學習成績關系分析
由于用戶訪問日志數據量大,故僅隨機選擇了兩類學生中各80位學生,進行訪問內容的數據分析,涉及的文本文檔數據量共計22M.同時,訪問日志中的url地址信息量大,且種類繁多,只能根據目的IP地址獲取訪問內容.
分析的過程是這樣的:首先,獲得每類學生訪問量最大的前20個目的IP地址;其次,依據目的IP地址獲得網站域名地址;最后,通過開放式分類目錄ODP等方式劃分網站所屬類型.
然而,通過日志記錄中的目的IP地址,不能直接獲取到網站域名地址.這是因為:
(1)為提高訪問速度,網站多采用內容分發網絡CDN和鏡像技術,使得:一個IP地址對應多個域名或一個域名對應多個IP地址.
(2)網站服務器可能映射了多個網絡運營商的IP地址.
為解決上述問題,筆者所采取的方法是,結合多種辦法相互驗證,得出最為合理的結果.采用的辦法包括:
(1)通過用戶調查,獲取我校校園網用戶經常訪問的網站域名.在不同的線路使用PING命令獲取對應的IP地址,與日志文件中的目的IP地址進行比對.
(2)通過站長工具、微軟bing等工具,獲取IP地址對應的域名地址.
(3)在日志文件中獲取對應的url地址,其地址最前面的信息即為網站域名地址.
通過上述方法,再結合開放式分類目錄ODP,可獲取到域名地址所對應的網站類型.表3為節選的部分訪問網站數據統計表.

表3 部分訪問網站數據統計表
從訪問網站數據統計表中截取數量和網站類型字段,分別生成兩類學生的上網內容統計圖,如圖4、圖5所示.

圖4 學優生訪問內容統計圖

圖5 學困生訪問內容統計圖
由圖4、圖5可知,學優生上網內容豐富且相對均衡;學困生上網內容相對單一,花費在游戲上的時間比重過大.
針對上網內容是否均衡,筆者對兩類學生的上網內容所占比重的差值進行分析.分析結果如圖6、圖7所示.

圖6 學優生上網內容比重差值圖
對比圖6和圖7,學優生各項上網內容比重的差值平均為2.5%,最高差值不超過8%;學困生各項上網內容比重的差值平均為10%,最高差值不超過46%.

圖7 學困生上網內容比重差值圖
綜上所述,可得出如下結論:
(1)學優生較為理性的對待網絡資源,獲取的資源內容豐富、形式多樣.
(2)學困生缺乏必要的上網規劃,沉迷游戲的時間占上網時間的64%.
(3)各項上網內容所占比例之差在10%之內,是較為健康的上網模式;比例之差超過40%,將對學習成績造成負面影響.
本文結合計費系統的用戶訪問日志,分別對學優生與學困生就上網時長、上網內容與學習成績之間的關系進行分析并并以此建立關系模型.得出的結論包括:大學生較為合理的上網時長約為6.4小時/天;上網時長平均達到8.6小時/天及以上,將影響正常學習;上網內容豐富,有助于提高學習成績,游戲時間占上網時間的60%及以上,將嚴重影響學習成績.
進一步分析學生的上網時間規律,找尋有效的辦法獲取訪問的網頁內容,是我們將進行的下一步工作.
[1]張世樂,魏芳,費仲超.基于代理的互聯網用戶行為分析研究[J].計算機應用與軟件,2011,(8):138-140.
[2]楊岳湘,蘇國榮,鄧勁生.基于用戶行為分析的校園網搜索引擎排序方法[J].計算機工程,2010,(24):275-277.
[3]楊家海,吳建平,安常青.互聯網絡測量理論與應用[M].北京:人民郵電出版社,2009.
[4]胡俊華,魏芳,平金玉.3G無線網絡條件下的用戶行為分析[J].計算機應用與軟件,2012,(3):144-148.
Analysis of the Behaviors of Campus Network Users Based on Billing System
DENG Tiantian1,XIONG Yinqiao1,LIU Jian’e2
(1.Network Information Center of Changsha University,Changsha Hunan 410022,China;2.Department of Economic and Trade Management,Changsha Vocational&Technical College,Changsha Hunan 410217,China)
Onlinemodel and quality have some influence on students’academic performance.By analyzing the onlinemodel between good students and those with learning difficulties on the basis of user access log of the billing system,the study attempts to explore the relation between academic performance and online time aswell as the information being searched.The study shows that reasonable online time for college students is about6.4 hours per day.Surfing the internet for over8.6 hours per day,students’regular study would be disturbed.When the information acquired through internet is abundant,it is helpful for students to improve their academic performance while if60%of time online was spent in computer games,their study will be badly affected.
campus network;user behavior;billing system
C912.6
A
1008-4681(2014)02-0116-04
(作者本人校對)
2013-10-31
鄧甜甜(1981-),女,湖南永州人,長沙大學網絡信息中心講師,碩士.研究方向:用戶行為分析、軟件工程.