陳 榮新疆阿勒泰廣播電視大學 (阿勒泰 836500)
?
應用Web日志挖據構建阿勒泰電大網絡個性化教育
陳 榮
新疆阿勒泰廣播電視大學 (阿勒泰 836500)
摘 要以阿勒泰電大網絡為研究對象,對網絡教育用戶在學習過程中形成的日志信息進行挖掘,探討 Web日志挖掘的概念及其形成過程, 就如何滿足不同類型學習用戶的需求,實現網絡教育的個性化。
關鍵詞阿勒泰電大;WEB日志挖掘;網絡教育;個性化
Web日志挖掘是在 Web環境下通過數據挖掘技術,從 Web日志文件中抽取非平凡模式與隱性數據,這些被挖掘的信息數據是未知且具有潛在應用價值的。Web日志挖掘也是一門綜合技術,它是Web技術、數據挖掘技術、信息科學等多領域交叉而成的。Web日志挖掘的意義在于:可分類頁面內容;2可得出有關用戶的訪問行為、方式信息;可根據挖掘出用戶信息為絡課程設計者和教師改進網絡課程提供意見,從而滿足學習需求。基本的 Web日志挖掘流程分源數據收集、數據預處理、模式發現、模式分析四個階段。
以阿勒泰電大網絡遠程教育網站為例,用戶訪問留下諸多數據信息,包括IP地址、服務器名、訪問時間、用戶名、出錯信息等,它們所形成的日志文件主要由以下類型:
(1)q Server log:
(2)Error log:
指存取請求失敗的數據,如連接丟失,授權失敗,超時等。
(3)Cookie
一種客戶端持有的 Web server產生的標記,表示用戶間會話,可自動標記和跟蹤站點訪問者。
通過圖 2阿勒泰電大遠程教育網結構圖和表 1的訪問序列可直觀闡述數據如何預處理。

圖2 阿勒泰電大遠程教育網結構圖
2.1 用戶識別
(1)可根據用戶瀏覽器或操作系統來識別
(2)可根據用戶請求的引用與站點的網頁拓撲關系來識別用戶
(3)可根據學用戶的登陸 ID號來識別。
2.2 會話識別
識別出同一用戶的全部訪問后,接下來需要劃分出不同會話。如時間跨度很大的記錄,可能是用戶多次訪問站點的結果。 如何將用戶的訪問記錄劃分成單個會話需要依靠會話識別。 時間窗方式是最簡單的方法,如果不同訪問間的時差超過某個值,可推出用戶開啟開其他會話。 仍以圖 2和表 1為例,日志中用戶 1的時間窗界定為使用時間30分鐘,在前兩個的 1小時之后最后兩個引用發生,因此可識別為兩個會話。4個會話分別是 A-B-F-O-G, A-D,A-B-C-G, L-R。
2.3 路徑修補
重要的訪問信息是否被遺漏是事務識別的另一問題,稱為路徑修補。如果某被請求頁面,無法連接到前一個,但前一個頁面卻被列在歷史請求中,可以認定用戶通過向后援引緩存頁面實現了要連接的頁面。 同樣以圖 2和表 1為例,頁面 G無法直接連接頁面 O,日志分析時,可假設通過 B,G被訪問,這說明用戶返回到 B, 再到 G。 所以用戶1的 會話中包含頁面F和B 。通過路徑修補可以得出, 用戶1的會話有A-B-F-O-F-B-G, A-D,A-B-A-C-J, L-R。
2.4 事務識別
用戶的事務文件被劃分成多個有意義的用戶訪問序列片斷就是事務識別。常見識別方法如下:
(1)引用時長(Reference Length)
用戶在頁面上的使用時間與該頁面的輔助頁面或內容頁面呈相關性。試驗得知,通常在輔助頁面上使用的時間越短,內容頁面耗費時間越長。使用大可能估計算法,輔助頁面在日志中所占的比例的估計值,可通過劃分輔助頁面和內容頁面的劃分時間來得出。劃分時間一旦確定,對照劃分時間,頁面可劃分為內容或輔助兩類,不同事務可被劃分而出。
(2)最大前向指引(Maximal Forward Reference)
一組頁面的訪問可定義為一個事務,可從用戶的初次引用到向后回溯為止。
前向指引是指一個頁面從未在事務集中出現,后向指引指是指一個頁面已在前面事務中出現。一個前向指引出現標志著一個新的事務開始(前提:頁面是最大前向指引頁面,輔助頁面是導向最大前向指引頁面的頁面)。
(3)時間窗(Time Window)
通過談定訪問間隔是否大于某特定參數來劃分事務的方法可稱為時間窗。
2.5 格式化
當獲得一組事務集后,將處理結果表示成適合挖掘需要的形式就是格式化。如對于關聯規則挖掘時間屬性是無用的,而把它格式化成適于關聯規則,元組中的時間屬性是不可忽略的。
繼續依據阿勒泰電大網絡信息,完成用戶會話識別和事務識別后,就可進行模式發現,常用技術包括有:
3.1 路徑分析
路徑分析可判定在阿勒泰電大網絡遠程教育站點中最頻繁訪問的路徑,其它路徑的信息也可判定得出。 例 如 : 70%的 用戶多是從/CBEcourse開始 , 經 過 /CBEcourse/SimpleDescription, / CBEcourse/chapter1,最后訪問/CBEcourse/chapter2;65%的用戶瀏覽 小于等于4個頁面內容后就離開了。通過以上信息,可改進站點的設計結構。
3.2 關聯規則
在 Web的訪問事務中使用關聯規則法,可以發現: 40% 的用戶 訪 問 頁 面/CBEcourse/chapter1 時 , 也 訪 問 了 /CBEcourse/chapter8; 30%的用戶在 訪 問 /CBEcourse/SimpleDescription時,也訪問了/CBEcourse/reference。通過上述相關性,站點的Web空間可以更好的組織,教學策略也會被有效執行。
3.3 序列模式
有序的事務集中,“一些項跟隨另一個項”的內部事務模式就屬于序列模式。例如:的用戶訪問/ CBEcourse/chapter1中,在過去的一個星期里80%的人曾在 yahoo中用查詢“計算機輔助教育”。 找到序列模式,可預測出用戶的訪問模式,對此可針對性的進行教學。
3.4 分類和聚類
分類用戶可用到分類規則,可對某個特殊群體的公共屬性給出識別性描述。如:學過/CBEcourse/ chapter2的用戶中40%是 20-30的年輕教師。聚類分析是辨別出具有相似特性的用戶的規則。在 Web事務日志中,聚類用戶信息有利于開發設計新的教學模式和用戶群。
在Web日志挖掘中,模式分析是最后一項步驟,也是非常重要的。選擇和觀察后,可將現有發現的規則、模式與統計值轉換為知識,在此基礎上進行模式分析,即可得出有價值的模式,如某種具有吸引力的規則、模式,最后利用可視化技術,向用戶提供圖形界面方式的內容。
在阿勒泰電大網絡中,Web日志挖掘將Internet、WWW 和數據挖掘結合起來,是前沿研究領域,也是一種新技術。 我們發現,它在個性化網絡教育中可廣泛應用,在用戶信息提取、教學內容設計、站點的分析和設計方面,其應用遷建也是很好的。
參考文獻
[1]邢東山,沈鈞毅,宋擒豹.從Web日志中挖掘用戶瀏覽偏愛路徑[J].計算機學報.2013(11)
[2]李燕,馮博琴,魯曉鋒.Web日志挖掘中的數據預處理技術[J].計算機工程.2009(11)
[3]李烈彪,張海鵬,周亞峰.Web日志挖掘中數據預處理方法的研究[J].計算機產技術與發展.2007(7).
(責任編輯:興安)
中圖分類號:G431
文獻標識碼:A
文章編號:1003-3319(2016)02-00022-02