徐江紅,趙婉芳
(北京電子科技職業學院,北京 100016)
隨著信息技術和網絡技術的飛速發展,各種各樣網絡學習平臺的出現,使用戶的學習越來越方便。借助于各種各樣的終端設備,用戶可以通過互聯網在校內和校外方便的連接到校園網絡上,提取自己所需的資源,實現隨時隨地學習。與此同時,隨著教學改革的不斷深入,許多院校都做了大量的課程開發工作,開發出像教師資源庫,專業資源庫、課程資源庫、素材庫等,這些資源作為各個專業課程建設的一部分,極大地豐富了校園網站上的教學資源,也成為用戶課下自主學習的重要資源。校園網站的設計能否吸引用戶對這些資源庫進行訪問,在很大程度上影響著用戶自學實踐的效果。如何讓網站的設計更人性化、個性化,吸引用戶對網站訪問,使得這些資源能夠被有效地利用起來,是每一個院校網站亟待解決的問題。結合北京電子科技職業學院校園網站,針對用戶對網站資源庫上信息訪問情況,使用DPI 技術挖掘出用戶行為特征,提出基于用戶行為的網站設計的改進策略。
在當今高速大容量的Internet 環境中,有許多人使用日志挖掘技術,對網站用戶行為進行過研究,通過協議識別對網絡進行流量控制、網絡計費、內容過濾、以及流量管理,以達到優化網絡管理,優化帶寬策略的目的。比如,清華大學岑榮偉老師的“基于日志挖掘的搜索引擎用戶行為分析”,四川理工學院李鶯老師的“新一代WLAN 網絡監控與用戶行為分析系統”等。他們研究的方向無一例外地都是以商業網站為背景,或研究分析移動用戶的行為,或研究分析因特網的用戶行為,用以商業網站更好地優化自身的網絡。
與此同時,借助校園網站中優秀資源庫完善課堂學習已經成為一種必然的發展趨勢。對于院校網站而言,用戶對網站的訪問量、瀏覽興趣和行為模式直接成為網站設計的導航工具。北京電子科技職業學院作為國家級高職示范性學院,其課程開發一直走在高職隊伍的前列。學院針對每個專業都開發了大量的精品課程和網絡課程教學資源,大量的專業培養方案、課程教案、PPT、教學案例、動畫演示、素材、實驗方案、教學視頻等已經掛到校園網絡上,供任課教師和學生學習之用。那么,如何合理設計優化校園網站,以最大限度地吸引師生對網站資源的訪問,是不容忽視的課題。本課題以北京電子科技職業學院校園網站為背景對用戶訪問網站的行為做研究,通過收集和分析用戶訪問網站信息,發現用戶的瀏覽興趣和行為意圖,為web 系統的管理者提供策略,優化Web 系統性能,改善web 站點結構,調整網頁的鏈接和內容,并能向用戶提供個性化服務。總體來看,本研究與前人研究的不同有以下三點:
(1)面向對象不同。前人研究的是商業網站用戶行為,而本研究是結合自己學院網站,研究用戶在校園網站上的用戶行為。
(2)采用的技術不同。前人研究是基于P2P 技術,采用日志挖掘技術進行研究;本研究基于DPI 技術,對交換機端口的鏡像信息進行抓包研究。DPI技術作為目前最新的協議識別技術,應用到校園網絡的用戶行為研究尚屬首次。
(3)研究的目的不同。前人研究網站用戶行為的目的是調控網絡流量和網絡計費;本研究的目的是優化校園網站,優化管理,優化資源,更好地為用戶服務。
DPI(Deep Packet Inspect)稱為深度包檢測。所謂深度是和普通的報文分析層次相比較而言的,普通報文檢測僅分析IP 包4 層以下的內容,包括源地址、目的地址、源端口、目的端口以及協議類型,而DPI 除了對前面的層次分析外,還增加了應用層分析,識別各種應用及其內容。當IP 數據包、TCP 或UDP 數據流經過基于DPI 技術的帶寬管理系統時,該系統通過深入讀取IP 包載荷的內容來對OSI7 層協議中的應用層信息進行重組,從而得到整個應用程序的內容,對流量中的具體應用類型和協議做到比較準確的識別,然后按照系統定義的管理策略對流量進行整形操作,從而有效管理網絡帶寬。DPI技術的關鍵能高效識別出網絡上的各種應用,與日志挖掘技術相比較,其優點包括:準確性高、健壯性好、具有分類功能。準確性高是由于該方法執行精確特征匹配,因此極少存在誤判問題。健壯性好是由于可以處理數據包丟失、重組等,因此能適應如今復雜的網絡應用。具有分類功能是由于深層數據包檢測技術可以依據不同應用的載荷特征來準確分類各網絡應用,因此可以為實施流量監管策略提供準確的信息。
本研究基于DPI 技術,通過利用交換機端口鏡像,對網站使用數據挖掘技術,收集并處理相關的數據信息,對用戶的行為和訪問意向進行研究,發現用戶對網站的訪問模式和訪問趨勢,并以此為依據,及時調整網站的設計風格和內容,改善網站結構,調整內容設置,更快捷地將信息提供給用戶,讓網站上的資源能夠更好地反映用戶需求,更好地服務于用戶。
DPI 系統在校園網中部署的位置和方式非常重要,不能因為DPI 系統的加入,影響整個校園網絡的性能。因為DPI 系統是對需要研究的數據流做實時或準實時的深度檢測,如果部署的位置和方式不合適,使DPI 系統成為全網性能和可靠性的瓶頸,給網絡帶來沉重的負擔,甚至會導致網絡的癱瘓。DPI系統的接入位置主要考慮盡可能只讓需要研究的數據包被采集,而不需要的數據不通過DPI 系統。部署的方式分串聯式和旁路式2種。其中,串聯式指DPI 系統被串聯在被監控的鏈路中,實現網絡業務識別和流量管理;旁路式指DPI 系統通過流量分離設備獲取被監控鏈路的流量復本,實現網絡業務識別,并通過被監控鏈路的預留接口實現流量管理的一種方式。在選擇部署方式上主要考慮是否影響設備的性能和網絡鏈路上的數據包流量。
校園網的各種資源庫信息存放在服務器中,而服務器作為校園網絡DMZ 區域,有獨立的IP 地址段,并通過接入層交換機連接到核心交換機上,因此,所有進出服務器的信息流量都必須經過核心交換機與服務器組所在的接入層交換機相連接的GE接口?;谛@網站的DPI 系統由數據采集系統和數據分析系統兩部分組成。數據采集系統提供對數據包的采集和識別功能,通過對核心交換機GE 接口做端口鏡像,采集進出服務器的數據包,通過DPI技術識別并解析IP 數據包成網絡呼叫詳細記錄,記作CDR(Called Detail Record)文件。數據分析功能提供對采集系統中CDR 文件信息的讀取、入庫處理、統計分析,最終完成策略呈現。考慮到校園網絡中訪問教學資源信息流量不是特別大,鏡像端口業務不會影響核心交換機轉發數據的性能,因此,在本設計中采用旁路接入的方式,如圖1 所示,DPI 系統和原網絡轉發數據的通路形成并聯方式,DPI 系統不會改變現有數據流的流向,不影響數據包正常的出入,成為相對獨立的功能系統。流經服務器的數據包一方面正常轉發,另一方面被DPI 系統采集處理,互不干涉。
DPI 技術的優勢主要體現在能夠對網絡數據包從數據鏈路層一直到應用層數據深度挖掘,能夠關聯網站結構和語義信息。通過對應用層數據的檢測、采集,獲得IP 包源地址、IP 包目的地址、協議類型、端口號、URL 地址、訪問路徑,對采集到的這些信息進行歸類,形成具體所需的數據庫字段,保存到數據庫文件,然后對數據庫中統計的信息進行分析,獲知用戶訪問的興趣習慣特征,依據用戶行為指定網站優化策略。本研究結合校園網站資源信息的特點,進行數據庫設計(如表1 所示)。其中數據來源有兩種,一種是直接采集數據包就可獲得的,包括IP 地址信息、端口號、URL、協議名稱、登錄登出時間、用戶訪問頻率;另一種通過對采集后的數據包處理可以得到,即由目的IP 關聯而成,包括停留時間、目標課程、目的文件名、資源類型等。這些信息都直接記錄了用戶訪問行為,反映了用戶行為習慣和興趣特征。

圖1 DPI 系統部署結構圖

表1 DPI 數據庫表
本DPI 系統設計前提是保證用戶對網絡的正常訪問,在此基礎上獲取用戶實時訪問行為流量,從中提取用戶行為特征,并對這些行為特征進行歸類、入庫、分析,得到用戶行為個性模式和共性模式,依據用戶的個性模式,推出用戶個性化服務策略;依據共性模式,調整校園網站內容設計,從而實現更科學地管理校園網。具體說來,基于用戶行為研究的校園網站改進策略,主要有兩個方面。
(1)根據用戶行為推出個性化路徑策略
本DPI 系統通過對網絡數據流的“特征”識別、應用層網關識別、行為模式識別,了解用戶的個人偏好和潛在需求。例如,該用戶訪問時段、通過FTP服務器訪問還是頁面導航進入、訪問資源所屬專業和課程名稱、對資源是在線瀏覽還是下載、從校內訪問還是校外訪問等,繼而形成訪問習慣記錄保留到數據庫中,生成用戶個性化路徑策略。這樣當用戶再次訪問網站時,有針對性地按照訪問習慣迅速為用戶優先定位到習慣訪問資源。通過DPI 系統對每個用戶訪問Web 頁面行為作深度挖掘和精細分析,獲知用戶的個性化習慣特征,依據用戶習慣特征生成的個性化路徑策略使網站服務更加主動、豐富準確,這樣可以大大節省用戶的訪問時間,提升用戶對校園網站的滿意度及忠誠度。
(2)依據用戶的共性特征,調整網站內容
網站上資源庫的內容眾多,資源形式各異,涉及到不同學院不同專業,通過對用戶行為的深度解析,可以統計分析哪些專業的網絡資源利用率高,哪些資源形式是用戶喜歡訪問的。例如經常訪問網站的用戶身份,哪些專業的資源利用率更高,是否為正在修或者教的課程,課程是否為網絡課程或者精品課程。在素材、PPT、視頻、動畫、課業等多種形式的資源訪問頻率有什么不同等。應該說,用戶對網站資源的共性需求一定程度上反映了對所訪問資源形式和內容的認可度。學院根據用戶對資源的興趣特征,出臺鼓勵政策,對課程開發方向、內容、形式等做調整,從而實現課程開發資源與用戶需求相匹配。例如如果統計出相對普通課程,網絡課程和精品課程資源訪問人數多,說明網絡課程和精品課程能很好地激發用戶對課程資源訪問的主動性,這樣就可以得出從課程設計上,需要更多地變非網絡課程非精品課程為網絡課程和精品課程,從而出臺政策鼓勵教師們開發網絡課程和精品課程。
如何更加有效地利用校園網站資源為用戶提供優質的服務,提升用戶對校園網站的滿意度,需要對校園網站用戶行為進行深入挖掘研究,從用戶的興趣、習慣和需求出發建設校園網站。結合DPI 技術,從DPI 系統部署、數據庫設計和網站優化策略設計三個方面進行了分析和設計。本研究最大的創新點是,把數據挖掘的目標定位在改進網站建設上,而不是控制網絡流量和帶寬。挖掘用戶行為是很復雜的過程,下一步將深入研究具體的挖掘算法,使DPI 系統的設計更具實效性和可行性。
[1]徐衛,陳麗亞,劉功申.基于用戶行為分析的網站廣告投放策略[J].計算機工程語應用,2006(28):225-226.
[2]朱霖.深度包檢測系統(DP1)在江蘇有線網絡中的應用[J].江蘇科技信息,2012(5):30-33.
[3]范智勇.基于用戶興趣度的校園網帶寬管理策略應用研究[J].計算機與現代化,2012(7):127-131.