摘要:高校在進行信息化系統(tǒng)建設時,關注點放在信息門戶建設和優(yōu)化兩個方面。運用Web數(shù)據(jù)挖掘技術,找到用戶真正關注、需要的內(nèi)容,就是系統(tǒng)設計人員所關心的信息門戶的優(yōu)化問題。該文通過引入本地計算思想,將迭代式的數(shù)據(jù)挖掘算法進行擴展。使用該數(shù)據(jù)挖掘算法,研究和設計了一種基于此算法的數(shù)據(jù)挖掘模型,并以某高校信息門戶中日志數(shù)據(jù)為數(shù)據(jù)源,進行數(shù)據(jù)準備,以本算法進行熱門路徑分析和頻繁項目集挖掘。根據(jù)挖掘結(jié)果,進行實際分析,提出完善信息門戶建設的建議。
關鍵詞:信息門戶;Web挖掘;迭代算法;并行算法;本地計算
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)28-0006-03
Abstract: In the information system construction in colleges and universities focus on information portal construction and optimization of two aspects. Use Web data mining technology, find out what users really concern, need, is the system designers care about information portal of optimization problems. In this paper, by introducing the local computation of ideas, to expand an iterative algorithm to data mining. Using the data mining algorithm, research and design a data mining model based on this algorithm, taking the university information portal log data as the data source, data preparation, this algorithm is a popular path analysis and frequent itemsets mining. According to the mining results, actual analysis, put forward the perfect Suggestions for the development of information portal.
Key words: Information portal; Web mining; iterative algorithm; parallel algorithmic; local computing
1 數(shù)字化校園與信息門戶建設的現(xiàn)狀
數(shù)字化校園的概念是利用計算機、通訊、網(wǎng)絡等技術,對學校中教學、科研、管理以及生活服務有關的所有信息資源進行全面的數(shù)字化,進而運用科學規(guī)范的管理對這些數(shù)字化資源進行整合和集成,實現(xiàn)功能應用、用戶信息管理、用戶權限和資源分配的統(tǒng)一[1]。進入21世紀,各個高校都開展了自己的數(shù)字化校園建設工程。
數(shù)字化校園建設一般可分為三個階段。第一階段,主要是校園網(wǎng)建設和一些局部范圍的網(wǎng)絡應用系統(tǒng)建設。第二階段,除了對校園網(wǎng)進行全面升級,在管理信息系統(tǒng)和信息服務系統(tǒng)建設方面做了大量工作,在這一階段各種功能的系統(tǒng)如雨后春筍般應運而生。通過第二階段的建設,雖然高校管理信息化水平明顯提高,但是各種各樣的應用系統(tǒng)、海量的信息以及眾多的服務,讓用戶面對時顯得頭暈腦脹。有的時候一項工作往往涉及多個系統(tǒng),于是用戶需要反復登錄到不同的應用系統(tǒng)中。同時,各個應用系統(tǒng)之間又都是異構的,無論是后臺操作系統(tǒng)、數(shù)據(jù)庫服務器,還是前臺的開發(fā)工具都存在很大差別。這樣的現(xiàn)狀對于提高管理水平、共享信息資源、實施科學管理都構成了障礙。第三階段,信息化建設的全面規(guī)劃與建設階段。其中最為常見的做法就是規(guī)劃建設各個高校自己的信息門戶網(wǎng)站[2]。信息門戶能夠提供服務、進行信息展示、實現(xiàn)外部訪問的接入。對各個信息應用系統(tǒng)而言,門戶是一個出口,通過它各個應用功能向用戶提供其所需的數(shù)據(jù)和服務;而對于用戶來說,門戶就像通往整個信息化校園的一扇門,單點登錄功能使得用戶登錄門戶后獲得與身份相匹配的各功能子系統(tǒng)所提供的交互式服務,同時還可完成與其他用戶的信息交流。個性化服務是門戶系統(tǒng)另一大優(yōu)勢,信息門戶應該向不同屬性的用戶組別智能化地提供不同的信息資源,使得用戶能夠在最短時間內(nèi)獲得有效的服務。
然而,隨著信息門戶的廣泛應用,如何進行有效的信息集成將會成為新的熱點。我們要不斷地根據(jù)不同用戶的需要進行信息的組織,以實現(xiàn)精準數(shù)據(jù)、用戶、權限、應用、流程、內(nèi)容等各個方面的高度整合。信息門戶這個看似簡單的Web頁面背后蘊含了數(shù)字化校園建設的核心內(nèi)容。因此,如何將Web數(shù)據(jù)挖掘的思想和方法應用到信息門戶中,幫助設計人員從海量的信息中發(fā)現(xiàn)抽取有價值的內(nèi)容,成為了高校信息門戶建設中的一個熱點方向。
2 Web數(shù)據(jù)挖掘技術在信息門戶建設中的應用分析
數(shù)據(jù)挖掘(Data mining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)(Knowledge-Discovery in Databases)中的一個步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程,其通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)和模式識別等諸多方法來實現(xiàn)上述目標。
Web數(shù)據(jù)挖掘(Web Data Mining)是建立在對大量的網(wǎng)絡數(shù)據(jù)進行分析的基礎上,進行數(shù)據(jù)的提取、篩選、轉(zhuǎn)換、關聯(lián)規(guī)則挖掘和模式分析,最后做出經(jīng)驗性的判斷[3]。Web數(shù)據(jù)挖掘是面向發(fā)現(xiàn)的數(shù)據(jù)分析技術,對文檔的內(nèi)容、可利用資源的使用以及資源之間的關系進行分析,用以預測客戶的個性化行為以及用戶習慣,從而幫助進行決策和管理,減少決策的風險。
Web數(shù)據(jù)挖掘技術的主要功能是實現(xiàn)網(wǎng)絡數(shù)據(jù)的智能化處理,從而能夠利用有效的數(shù)據(jù)挖掘技術,收集、獲取感興趣的信息,得到和抽象出大量信息的關系模型,挖掘出更深層次的信息[3]。高校在進行信息化建設時,關注點放在信息門戶的建設和優(yōu)化兩個方面。信息門戶網(wǎng)站是基于網(wǎng)絡技術的一種新的高校管理平臺構架,平臺中的信息可以說是海量的。如何能從門戶頁面背后精準地找到用戶真正關注、需要的內(nèi)容,就是系統(tǒng)設計人員所關心的信息門戶的優(yōu)化問題[4]。將數(shù)據(jù)挖掘的思想和方法應用到高校信息門戶中,可以獲得各類型用戶的信息反饋、不同類型用戶的共同特征、頁面的訪問頻度、訪問時間、訪問路徑等信息,幫助信息門戶建設的設計人員從海量的信息中得到真正有價值的知識,以指導他們的決策,為提高信息門戶服務性提供依據(jù)。Web數(shù)據(jù)挖掘技術,就旨在發(fā)現(xiàn)隱藏在Web數(shù)據(jù)中潛在的有價值的信息,通過對日志、內(nèi)容、結(jié)構進行數(shù)據(jù)挖掘,挖掘出有用的知識模式,從而為設計人員提供決策支持,進而完善信息門戶建設。
高校信息門戶是在不停發(fā)展的,大致分為四個階段:
① 單的門戶:只能集合單個的網(wǎng)絡地址
② 信息門戶:實現(xiàn)基于內(nèi)容過濾、定向搜索的信息平臺
③ 應用集成門戶時代:實現(xiàn)應用集成和單點登錄
④ 信息集成門戶時代:實現(xiàn)應用整合、內(nèi)容整合、信息整合、流程整合以及用戶協(xié)作。
由此可見,進入信息集成門戶時代,如何做好整合工作就成為信息門戶建設領域中新興的研究熱點。為構建一個好的信息門戶網(wǎng)站就要求設計者能夠根據(jù)不同類型使用者的需要來組織內(nèi)容,實現(xiàn)數(shù)據(jù)、用戶、權限、應用、流程、內(nèi)容等各個方面的整合達到較高程度。
信息門戶中,通常被用于Web數(shù)據(jù)挖掘的數(shù)據(jù)來源有:服務器日志數(shù)據(jù)、代理服務器端數(shù)據(jù)、Web頁面內(nèi)容以及Web頁面超鏈接關系信息以及用戶登記信息。
① 服務器日志數(shù)據(jù):用戶瀏覽Web服務器時,會產(chǎn)生Servicelogs、Errorlogs和Cookie logs三種類型的日志文件。
② 代理服務器端數(shù)據(jù):信息門戶的服務器日志記錄了用戶對信息門戶網(wǎng)站的訪問,而通過代理服務器日志,還可以了解用戶對其他網(wǎng)站的訪問情況。這有利于搜集用戶關心的信息,從而將這部分信息加入到門戶網(wǎng)站中,提高門戶網(wǎng)站的服務性和吸引力。
③ Web頁面內(nèi)容以及Web頁面超鏈接關系信息。
④ 用戶登記信息:高校信息門戶較一般的門戶網(wǎng)站,用戶分類較為明顯。包括學生用戶、教管用戶、教師用戶等,而這些都可以通過讓用戶直接填寫登記信息準確掌握。如果將用戶登記信息與訪問日志相結(jié)合,將能更大提高數(shù)據(jù)挖掘的準確度。
搜集到這些數(shù)據(jù)后還不能直接進行數(shù)據(jù)挖掘,需要對數(shù)據(jù)進行預處理。通過數(shù)據(jù)預處理得到簡潔的精準數(shù)據(jù)。數(shù)據(jù)預處理包括:
① 數(shù)據(jù)清理:消除無關項,縮小被挖掘?qū)ο蟮姆秶S脩粼谠L問過程中對圖片、視頻等資源的下載也會被記錄到日志中,在數(shù)據(jù)挖掘前對這些冗余的記錄進行清理,采用刪除特定后綴的日志記錄方法。對采集的日志中擴展名為.jPg,.CSS等日志記錄直接刪除。
② 用戶唯一性識別:用以識別使用同一主機或代理服務器的不同用戶。用戶口和日志中的Cookie logs雖然都可以用于分辨用戶,但在實際情況下以此不能準確確定每個用戶。通過制定規(guī)則,簡化用戶唯一性的識別,規(guī)定將不同m的訪問認為是不同用戶,相同m采用不同操作系統(tǒng)或瀏覽器視為不同用戶。由此,近似的實現(xiàn)用戶唯一性識別。
③ 用戶會話識別:用以將每個用戶的訪問信息劃分為對立的會話進程。用戶會話S(user session)是一個二元組
④ 完善訪問路徑:用以補充由于用戶通過本地緩存訪問網(wǎng)頁時造成的路徑信息不完整的情況。當用戶請求的頁面與上一次請求的頁面之間無超鏈接,通過歷史引用日志判斷當前請求來自的頁面。由此將沒有記錄的頁面請求補充到訪問序列中,完善訪問路徑。
⑤ 事務識別:用以根據(jù)挖掘任務的需求將事務作分割或合并處理。
3 基于改進型迭代算法的web數(shù)據(jù)挖掘思想
1) MapReduce模型
MapReduce是一種高效的編程模型,它依托于分布式計算系統(tǒng),能夠?qū)Υ笠?guī)模數(shù)據(jù)集的處理提供支持。為了實現(xiàn)合理的任務調(diào)度,該模型會對計算任務進行進一步的細化和分解,細化后的子任務能夠智能化地探測各節(jié)點的計算能力,選擇合適的節(jié)點來對分配的數(shù)據(jù)進行處理,以提高整個系統(tǒng)的效率。
2) 多服務器并行算法
由于智能移動通信設備的普及,如今的網(wǎng)絡應用數(shù)據(jù)量呈幾何級增長,使得Web挖掘面臨計算和傳輸?shù)碾p重壓力,在很多應用場合單一的遠程服務器已不堪重負,多服務器并行計算勢在必行。多服務器并行算法的基本思路是,將所有的計算過程細化分解再分配到分布式服務器上,通過互聯(lián)網(wǎng),所有計算進程以服務的方式對用戶需求進行支持[7]。眾所周知,網(wǎng)絡傳輸速度和進程計算速度不在同一個數(shù)量級,所以計算與存儲統(tǒng)一整合有利于網(wǎng)絡系統(tǒng)的數(shù)據(jù)處理,讓分布式集群本地保存輸入數(shù)據(jù),能夠大大降低數(shù)據(jù)傳輸開銷。
3) 改進型迭代算法
關聯(lián)規(guī)則的挖掘通常包括2個步驟,一是頻繁項集的查詢,二是分析頻繁項集得到關聯(lián)規(guī)則[7]。本算法關注的是頻繁項集的查詢,過程如下。
① 設置置信度最低閥值和支持度最低閥值。
② 查詢空閑節(jié)點:分析并明確挖掘任務需求,任務調(diào)度中心向節(jié)點域請求節(jié)點計算性能情況,得到服務節(jié)點的信息。將得到的服務節(jié)點信息發(fā)送給算法存儲單元。
③ 獲取局部項集:服務節(jié)點對各個本地的數(shù)據(jù)庫進行掃描,得到事物數(shù)目、項出現(xiàn)頻率,然后通過下面算法得到局部候選項集1:
a) frequent=new find_frequent_1-itemsets();
b) gen=new apriori_gen();
c) L1=Frequent (D);
d) for(k=2;Lk-1≠Φ ;k++) {
e) Ck=gen(Lk-1, sup_min);
f) for each node t ∈ D{
g) Ct=subset(Ck,t);
h) for each candidate c ∈ Ct
i) c.count++;}Lk ={c ∈ Ck|c.count≥sup_min} }
j) return L= ∪ k Lk;
k) 其中,以k-itmeset代表K維項目集;LK代表具有最小支持度的最大項目集;Ck代表候選最大項目集。
④ 局部項集算法進行迭代:上一步得到了局部候選項集1,將其發(fā)送至主控節(jié)點可以計算出全局項集1,再通過全局頻繁項集1,發(fā)送到服務節(jié)點得到精度更高的局部頻繁項集1,而局部項集2可以由局部項集1得到。再一次迭代執(zhí)行挖掘流程及局部項集算法,掃描本地數(shù)據(jù)庫,得到項的出現(xiàn)次數(shù),新局部候選項集2及結(jié)果發(fā)送至主控節(jié)點[7]。最終得到滿足所需的頻繁項集,根據(jù)置信度閾值得到關聯(lián)規(guī)則[7]。
4) 基于改進算法的Web 挖掘模型
本模型中所有計算服務進程通過主控節(jié)點進行調(diào)度和管理,數(shù)據(jù)存儲節(jié)點負責提供具體的挖掘方法。服務節(jié)點的職責是將其可實現(xiàn)的功能及本節(jié)點的性能資源情況進行統(tǒng)一模式化并存儲進XML文件,并進行智能化處理。主控節(jié)點掌控全局,根據(jù)服務節(jié)點的處理得到最終的結(jié)果。整個系統(tǒng)分為3層:信息層、算法層和執(zhí)行層。信息層對用戶挖掘需求進行獲取、分析和研判,生成挖掘算法特性需求;算法層實現(xiàn)相應的挖掘算法,并根據(jù)算法需求調(diào)取適用算法并傳遞給執(zhí)行層;執(zhí)行層進行數(shù)據(jù)挖掘得到結(jié)果并返回給信息層主控節(jié)點[7]。模型如圖1所示。
4 結(jié)論
信息門戶建設工作目前在廣大高校中正迅速鋪開,但大多還處于起步階段。對于基礎數(shù)據(jù)的收集和共享數(shù)據(jù)庫的完善仍需要一段時間才能完成,在這項工作中必須要面對的一個問題就是數(shù)據(jù)的選擇問題,這也是數(shù)據(jù)挖掘的另一用武之地。
本文基于傳統(tǒng)迭代方法原理,結(jié)合MapReduce和多服務器并行算法思維,提出了一種改進型迭代算法,并根據(jù)此算法提出了一種網(wǎng)絡挖掘系統(tǒng)架構模型,力求提高web數(shù)據(jù)挖掘效率,并運用此技術對門戶網(wǎng)站上的各種數(shù)據(jù)源進行挖掘,找到相關的一些知識模式,以指導網(wǎng)站管理員更好地運作站點和向用戶提供更好的服務。
參考文獻:
[1] 李軍懷, 周明全, 耿國華, 等. XML在異構數(shù)據(jù)集成中的應用研究[J].計算機應用, 2002, 22(9): 10-12.
[2] 程苗. 基于云計算的Web數(shù)據(jù)挖掘[J]. 計算機科學, 2011(增1): 146-149.
[3] 管憶軍, 王勇, 何德牛. 一種采用函數(shù)迭代運算的數(shù)據(jù)流挖掘方法[J].廣西民族大學學報, 2012, 18(1): 45-49.
[4] 彭宏玉, 柴旭光, 陳曉紀. 基于層次迭代思想的聚類算法的研究[J]. 唐山學院學報, 2011, 24(3): 86-87, 91.
[5] 趙洪英, 蔡樂才, 李先杰. 關聯(lián)規(guī)則挖掘的Apriori算法綜述[J]. 四川理工學院學報: 自然科學版, 2011, 24(1): 66-70.
[6] 趙虎. 云計算環(huán)境下的關聯(lián)數(shù)據(jù)挖掘算法實現(xiàn)[D]. 成都: 電子科技大學, 2011.
[7] 劉嘯,劉玉龍. 基于改進型迭代算法的web數(shù)據(jù)關聯(lián)規(guī)則挖掘.科技導報,2015,33(3):90-94.