劉張榕
(福建林業職業技術學院 信息工程系, 福建 南平 353000)
E-OEM模型是一種描述半結構化數據的自描述數據模型,模型中同時存在數據值和模式,在不同數據值和模式的配合下,可以靈活表示數據結構[1]。Web數據挖掘技術是以Web環境作為支撐,將網絡技術與網頁技術結合起來的一項技術[2]。
隨著計算機信息技術的快速發展,相關研究受到國內外很多學者的廣泛關注。在國外,首次提出Web挖掘技術是在上個世紀末,在各項技術的支持發展下,現今已經形成了一種Web會話聚類的一種新框架,Web數據挖掘的精度也有了一定的提升[3]。國外有學者引入分布式算法,設計JAM系統,通過JAM有效挖掘并提取數據信息到相互獨立的數據庫中。而在國內關于Web數據挖掘的相關研究起步較晚,有學者在考慮服務器的應用邏輯基礎上,將Web產生的頁面拓撲結構整合為一種挖掘算法[4]。也有學者基于Hadoop大數據開發系統平臺開發了PDMiner系統,改進傳統算法的開發組件,以提高數據挖掘精度。目前,相關研究已進入到快速發展的階段。
但是現有的Web數據挖掘方法受到圖片數據的后綴影響,所構建的數據結構較為冗雜,此外,在大數據的背景下,數據結構呈現出了多元化的發展,使得Web數據挖掘的精度較低,不能有效實現數據挖掘,為此在E-OEM模型的支持下,設計一種Web數據精準挖掘方法。通過E-OEM模型分類數據結構,降低數據結構的冗雜影響,從而實現精準挖掘。
Web數據主要由Web日志中的各項數據組成,所以在采集數據時,需將Web日志文件轉換為數據庫文件,并使用HITS算法處理轉化后的頁面[5],計算Web頁面間的權威權重數值為式(1)。
(1)
其中,q,p分別表示Web頁面;hq表示兩個頁面之間的HITS算法。選用權重數值大于0對應的數據作為Web數據,形成的Web數據預處理過程如圖1所示。

圖1 Web數據預處理過程
在圖1所示的數據預處理過程下,首先清洗文檔中的無用數據,以文件無用的后綴數據作為數據特征值[6-7],計算得到文檔中無用后綴數據出現的次數,計算式可表示為式(2)。
wi(d)=φ(tfi(d))
(2)
其中,t表示數據庫文件;φ表示文檔中的無用后綴數據;tfi(d)表示無用后綴數據出現的次數。根據文件庫中文件的數量,計算得到總的無用后綴數據總和,為了消除該部分數據的影響,歸一化處理上述次數權重數值,計算式可表示為式(3)。
(3)
其中各項系數含義不變,清洗無用數據后,識別Web日志上顯示的站點用戶,根據數據信息顯示出的信息增益[7],識別出用戶與Web站點間產生的會話,站點產生的信息增益可表示為式(4)。
(4)
其中,F表示產生的會話信息;P(W)表示信息站點;P(Ci)表示信息的特征值。在上述所得信息特征值的控制下,采用長度法構建一個有效的用戶會話過程,有效的用戶會話過程就可表示為式(5)。
(5)
其中,ipt表示用戶會話的用戶IP;uidt表示該項會話的用戶標識;Lt表示會話類型數量;Si表示用戶會話的集合。設定上述有效會話間的時間差后,以時間差規劃得到的路徑作為補充[8],不斷補充有效對話間的有效數據,整合有效數據后,采用E-OEM模型分類處理Web數據結構。
為了使數據挖掘更精準,需要對Web服務器的應用邏輯、頁面拓撲等方面多重考慮,在用戶瀏覽時產生的Web數據都是統一登記在日志表中,利用E-OEM模型分類數據結構,綜合考慮了Web頁面拓撲結構和用戶瀏覽路徑等多個數據源,通過結合數據屬性三元組方法解決對用戶訪問數據的標定問題,降低數據結構的冗雜影響。使用上述處理得到的Web數據,標記處理各個數據的類內標識后,根據數據對應的ID,使用E-OEM模型構建一個單獨系列的子樹,其表達為式(6)。
T={P1,P2,P3,…,Pn}
(6)
其中,Pn(n=1,2,3,…,n)為子樹序列。在上述子樹結構中,以L作為標簽數據所含的屬性,構建預處理后Web數據間的屬性關系,采用三元組表示數據間的屬性關系后[9],根據數據間的相似度劃分為不同的數據組,就可通過計算得到相似度S,如式(7)。
(7)
其中,wi表示數據屬性關系的三元組;p表示子樹序列一點;wli表示帶有標簽的數據屬性關系的三元組;k表示網絡數據的類型;n表示數據的分布參數。將相似度數值結果相近的數據劃分為一個類別,采用K-means聚類算法處理對應為一個類別的數據集[10],首先選取對應類別的數據中心,聚類數據中心計算過程就可表示為式(8)。
(8)
其中,uic表示分區矩陣;Xi表示數據集合。在上述處理過程下,聚類中心的形成過程如圖2所示。

圖2 聚類中心的形成過程
在圖2所示的聚類中心形成過程下,定義不同的聚類中心代表不同的Web數據結構,以數據聚類中心作為精準挖掘的點[11],在實現Web數據的精準挖掘時,設置聚類中心的序列模式。
在上述聚類中心的控制下,以聚類中心周圍的有效數據作為處理對象[12],處理上述有效數據為度量指標,處理過程可表示為式(9)。
(9)
其中,C表示聚類數量;S(Uk)表示聚類數據的類內相似度;S(Ul)表示聚類數據的類間相似度;d(Uk,Ul)表示相似度數值間的有效距離數值。處理有效Web數據為度量指標后,將度量指標整合為一條節點序列,確定序列中的頻繁項,計算式可表示為式(10)。
(10)
其中,tk表示不同序列長度;CD表示D頻繁項對應的序列長度;CS表示S頻繁項對應的序列長度。通過兩兩序列對比的方式,不斷確定頻繁項序列的長度大小,在不同的序列長度模式上附加一個數值ei,將ei作為數據序列的尾部標識,計算含尾部標識的序列支持度,計算式可表示為式(11)。
(11)
其中,mi表示尾部標識在序列中的權重數值。以式(11)得到的支持度,整合為不同的挖掘條件序列[13],以支持度數值3作為支持度處理對象,形成挖掘條件序列結果如圖3所示。

圖3 形成的序列挖掘條件
在圖3所示的序列挖掘條件下,當存在兩個聚類中心時,以Root作為精準挖掘的起點,結合不同序列的支持度數值[14-15],在a、b、h序列基的參與下,形成不同的精準挖掘路徑。綜合上述處理,最終完成對基于E-OEM模型的Web數據精準挖掘方法的研究。
準備計算機軟硬件參數如表1所示。

表1 軟硬件參數
使用上表所示參數的服務器6臺,搭建實驗環境如圖4所示。

圖4 搭建的實驗環境
在圖4所示的實驗環境下,使用版本為1.7的JDK環境,上傳JDK安裝包后,規劃安裝目錄,解壓安裝過程,如圖5所示。

圖5 JDK解壓安裝
采用Iris數據集作為精準挖掘的對象,分別使用傳統挖掘方法、文獻[1]中的挖掘方法以及文中設計的挖掘方法進行實驗,對比3種挖掘方法的性能。
基于上述實驗準備,調用上圖實驗環境內的6臺服務器同時運行Iris數據集,控制JDK中的變量后,實現Web數據的待采集狀態,將6個服務器作為6個挖掘對象,控制3種挖掘方法同時進行挖掘,對比3種挖掘方法的作用時間,得到時間結果,如圖6所示。

圖6 3種挖掘方法作用時間結果
由圖6所示的作用時間結果可知,在3種挖掘方法的控制下,針對同等實驗環境內的相同實驗數據集,傳統挖掘方法實際作用時產生的挖掘時間最長,當待挖掘數據集為6時,實際的挖掘時間在16 s左右,所消耗的挖掘時間較長。文獻[1]中挖掘方法在相同數量的數據集下,實際挖掘時間在12 s左右,所消耗的挖掘時間較短。而文中設計的挖掘方法在挖掘相同數量的數據集時,所需的時間僅在4 s左右,與上述兩種挖掘方法相比,文中設計的挖掘方法消耗的挖掘時間最短。
在上述實驗環境下,隨機抽取3個Iris數據集作為實驗對象,將數據集定義為3種類型,定義3種數據集中的聚類中心為精準挖掘中心,精準挖掘中心結果如圖7所示。

圖7 定義的挖掘中心
圖中用不同的圖案形狀表達對數據集中數據的分類,并通過聚類分析得到圖7所示的聚類中心X,即為數據精準挖掘的對象。使用3種挖掘方法對圖7中的Iris數據集進行分類,以聚類分析得出的3種數據集中的聚類中心位置作為標準參考,對比聚類中心X的位置變化,統計3種挖掘方法挖掘的結果。結果如圖8所示。

(a) 傳統挖掘方法挖掘中心結果

(b) 文獻[1]中的挖掘方法挖掘中心結果

(c) 文中設計的挖掘方法挖掘中心結果
圖中用藍色X表示設定的聚類中心位置,黑色X表示采用該數據挖掘方法后的聚類中心位置,用紅色虛線表示聚類中心偏移差。
由圖8所示的實驗結果可知,以Iris數據集的聚類中心作為精準挖掘中心,在3種挖掘方法的控制下,傳統挖掘方法得到的挖掘中心在橫縱坐標上偏離標準坐標1個單位距離,文獻[1]中的挖掘方法偏離標準挖掘中心0.4個單位距離,而文中設計的挖掘方法得到的挖掘中心與標準的挖掘中心相差不大,與前述兩種挖掘方法相比,該種挖掘方法得到的挖掘中心更加準確。
保持上述實驗環境不變,將準備的Iris數據集以10個數據作為一個實驗組,共劃分為15個實驗數據組,以該實驗組作為對象,統計并計算3種挖掘方法對數據分類的的準確性,準確率結果如表2所示。

表2 挖掘準確率結果
由表2可知,以相同數量不同內容的數據作為挖掘對象,在3種挖掘方法的控制下,傳統挖掘方法對數據分類的準確率數值在72%-80%之間,準確率數值較小。文獻[1]中的挖掘方法對數據分類的準確率結果在85%-89%之間,準確率數值也不高。而文中設計的挖掘方法對數據分類最終得到的準確率數值在92%-98%之間,實際得到的準確率數值最大。綜合上述實驗結果可知,文中設計的精準挖掘方法挖掘時間最短,確定得到的挖掘中心最標準且數據分類的準確率最高。
對數據的精準挖掘是當下Web數據技術的研究重點,在E-OEM模型技術的支持下,設計一種數據精準挖掘方法,能夠改善現有精準挖掘方法挖掘時間較長的不足,同時能夠有效地消除Web數據中的冗余數據,增強挖掘方法的準確性,為今后研究精準挖掘方法提供參考。