基于E-OEM模型的Web數據精準挖掘研究

2021-11-01 06:29:44劉張榕

微型電腦應用 2021年10期

劉張榕

(福建林業職業技術學院信息工程系，福建南平 353000)

0 引言

E-OEM模型是一種描述半結構化數據的自描述數據模型，模型中同時存在數據值和模式，在不同數據值和模式的配合下，可以靈活表示數據結構[1]。Web數據挖掘技術是以Web環境作為支撐，將網絡技術與網頁技術結合起來的一項技術[2]。

隨著計算機信息技術的快速發展，相關研究受到國內外很多學者的廣泛關注。在國外，首次提出Web挖掘技術是在上個世紀末，在各項技術的支持發展下，現今已經形成了一種Web會話聚類的一種新框架，Web數據挖掘的精度也有了一定的提升[3]。國外有學者引入分布式算法，設計JAM系統，通過JAM有效挖掘并提取數據信息到相互獨立的數據庫中。而在國內關于Web數據挖掘的相關研究起步較晚，有學者在考慮服務器的應用邏輯基礎上，將Web產生的頁面拓撲結構整合為一種挖掘算法[4]。也有學者基于Hadoop大數據開發系統平臺開發了PDMiner系統，改進傳統算法的開發組件，以提高數據挖掘精度。目前，相關研究已進入到快速發展的階段。

但是現有的Web數據挖掘方法受到圖片數據的后綴影響，所構建的數據結構較為冗雜，此外，在大數據的背景下，數據結構呈現出了多元化的發展，使得Web數據挖掘的精度較低，不能有效實現數據挖掘，為此在E-OEM模型的支持下，設計一種Web數據精準挖掘方法。通過E-OEM模型分類數據結構，降低數據結構的冗雜影響，從而實現精準挖掘。

1 基于E-OEM模型的Web數據精準挖掘研究

1.1 采集及預處理Web數據

Web數據主要由Web日志中的各項數據組成，所以在采集數據時，需將Web日志文件轉換為數據庫文件，并使用HITS算法處理轉化后的頁面[5]，計算Web頁面間的權威權重數值為式(1)。

(1)

其中，q，p分別表示Web頁面;hq表示兩個頁面之間的HITS算法。選用權重數值大于0對應的數據作為Web數據，形成的Web數據預處理過程如圖1所示。

圖1 Web數據預處理過程

在圖1所示的數據預處理過程下，首先清洗文檔中的無用數據，以文件無用的后綴數據作為數據特征值[6-7]，計算得到文檔中無用后綴數據出現的次數，計算式可表示為式(2)。

wi(d)=φ(tfi(d))

(2)

其中，t表示數據庫文件;φ表示文檔中的無用后綴數據;tfi(d)表示無用后綴數據出現的次數。根據文件庫中文件的數量，計算得到總的無用后綴數據總和，為了消除該部分數據的影響，歸一化處理上述次數權重數值，計算式可表示為式(3)。

(3)

其中各項系數含義不變，清洗無用數據后，識別Web日志上顯示的站點用戶，根據數據信息顯示出的信息增益[7]，識別出用戶與Web站點間產生的會話，站點產生的信息增益可表示為式(4)。

(4)

其中，F表示產生的會話信息;P(W)表示信息站點;P(Ci)表示信息的特征值。在上述所得信息特征值的控制下，采用長度法構建一個有效的用戶會話過程，有效的用戶會話過程就可表示為式(5)。

(5)

其中，ipt表示用戶會話的用戶IP;uidt表示該項會話的用戶標識;Lt表示會話類型數量;Si表示用戶會話的集合。設定上述有效會話間的時間差后，以時間差規劃得到的路徑作為補充[8]，不斷補充有效對話間的有效數據，整合有效數據后，采用E-OEM模型分類處理Web數據結構。

1.2 利用E-OEM模型分類Web數據結構

為了使數據挖掘更精準，需要對Web服務器的應用邏輯、頁面拓撲等方面多重考慮，在用戶瀏覽時產生的Web數據都是統一登記在日志表中，利用E-OEM模型分類數據結構，綜合考慮了Web頁面拓撲結構和用戶瀏覽路徑等多個數據源，通過結合數據屬性三元組方法解決對用戶訪問數據的標定問題，降低數據結構的冗雜影響。使用上述處理得到的Web數據，標記處理各個數據的類內標識后，根據數據對應的ID，使用E-OEM模型構建一個單獨系列的子樹，其表達為式(6)。

T={P1,P2,P3,…,Pn}

(6)

其中，Pn(n=1,2,3,…,n)為子樹序列。在上述子樹結構中，以L作為標簽數據所含的屬性，構建預處理后Web數據間的屬性關系，采用三元組表示數據間的屬性關系后[9]，根據數據間的相似度劃分為不同的數據組，就可通過計算得到相似度S,如式(7)。

(7)

其中，wi表示數據屬性關系的三元組;p表示子樹序列一點;wli表示帶有標簽的數據屬性關系的三元組;k表示網絡數據的類型;n表示數據的分布參數。將相似度數值結果相近的數據劃分為一個類別，采用K-means聚類算法處理對應為一個類別的數據集[10]，首先選取對應類別的數據中心，聚類數據中心計算過程就可表示為式(8)。

(8)

其中，uic表示分區矩陣;Xi表示數據集合。在上述處理過程下，聚類中心的形成過程如圖2所示。

圖2 聚類中心的形成過程

在圖2所示的聚類中心形成過程下，定義不同的聚類中心代表不同的Web數據結構，以數據聚類中心作為精準挖掘的點[11]，在實現Web數據的精準挖掘時，設置聚類中心的序列模式。

1.3 實現Web數據的精準挖掘

在上述聚類中心的控制下，以聚類中心周圍的有效數據作為處理對象[12]，處理上述有效數據為度量指標，處理過程可表示為式(9)。

(9)

其中，C表示聚類數量;S(Uk)表示聚類數據的類內相似度;S(Ul)表示聚類數據的類間相似度;d(Uk,Ul)表示相似度數值間的有效距離數值。處理有效Web數據為度量指標后，將度量指標整合為一條節點序列，確定序列中的頻繁項，計算式可表示為式(10)。

(10)

其中，tk表示不同序列長度;CD表示D頻繁項對應的序列長度;CS表示S頻繁項對應的序列長度。通過兩兩序列對比的方式，不斷確定頻繁項序列的長度大小，在不同的序列長度模式上附加一個數值ei，將ei作為數據序列的尾部標識，計算含尾部標識的序列支持度，計算式可表示為式(11)。

(11)

其中，mi表示尾部標識在序列中的權重數值。以式(11)得到的支持度，整合為不同的挖掘條件序列[13]，以支持度數值3作為支持度處理對象，形成挖掘條件序列結果如圖3所示。

圖3 形成的序列挖掘條件

在圖3所示的序列挖掘條件下，當存在兩個聚類中心時，以Root作為精準挖掘的起點，結合不同序列的支持度數值[14-15]，在a、b、h序列基的參與下，形成不同的精準挖掘路徑。綜合上述處理，最終完成對基于E-OEM模型的Web數據精準挖掘方法的研究。

2 仿真實驗

2.1 實驗準備

準備計算機軟硬件參數如表1所示。

表1 軟硬件參數

使用上表所示參數的服務器6臺，搭建實驗環境如圖4所示。

圖4 搭建的實驗環境

在圖4所示的實驗環境下，使用版本為1.7的JDK環境，上傳JDK安裝包后，規劃安裝目錄，解壓安裝過程,如圖5所示。

圖5 JDK解壓安裝

采用Iris數據集作為精準挖掘的對象，分別使用傳統挖掘方法、文獻[1]中的挖掘方法以及文中設計的挖掘方法進行實驗，對比3種挖掘方法的性能。

2.2 結果及分析

基于上述實驗準備，調用上圖實驗環境內的6臺服務器同時運行Iris數據集，控制JDK中的變量后，實現Web數據的待采集狀態，將6個服務器作為6個挖掘對象，控制3種挖掘方法同時進行挖掘，對比3種挖掘方法的作用時間，得到時間結果,如圖6所示。

圖6 3種挖掘方法作用時間結果

由圖6所示的作用時間結果可知，在3種挖掘方法的控制下，針對同等實驗環境內的相同實驗數據集，傳統挖掘方法實際作用時產生的挖掘時間最長，當待挖掘數據集為6時，實際的挖掘時間在16 s左右，所消耗的挖掘時間較長。文獻[1]中挖掘方法在相同數量的數據集下，實際挖掘時間在12 s左右，所消耗的挖掘時間較短。而文中設計的挖掘方法在挖掘相同數量的數據集時，所需的時間僅在4 s左右，與上述兩種挖掘方法相比，文中設計的挖掘方法消耗的挖掘時間最短。

在上述實驗環境下，隨機抽取3個Iris數據集作為實驗對象，將數據集定義為3種類型，定義3種數據集中的聚類中心為精準挖掘中心，精準挖掘中心結果如圖7所示。

圖7 定義的挖掘中心

圖中用不同的圖案形狀表達對數據集中數據的分類，并通過聚類分析得到圖7所示的聚類中心X，即為數據精準挖掘的對象。使用3種挖掘方法對圖7中的Iris數據集進行分類，以聚類分析得出的3種數據集中的聚類中心位置作為標準參考，對比聚類中心X的位置變化，統計3種挖掘方法挖掘的結果。結果如圖8所示。

(a) 傳統挖掘方法挖掘中心結果

(b) 文獻[1]中的挖掘方法挖掘中心結果

圖中用藍色X表示設定的聚類中心位置，黑色X表示采用該數據挖掘方法后的聚類中心位置，用紅色虛線表示聚類中心偏移差。

由圖8所示的實驗結果可知，以Iris數據集的聚類中心作為精準挖掘中心，在3種挖掘方法的控制下，傳統挖掘方法得到的挖掘中心在橫縱坐標上偏離標準坐標1個單位距離，文獻[1]中的挖掘方法偏離標準挖掘中心0.4個單位距離，而文中設計的挖掘方法得到的挖掘中心與標準的挖掘中心相差不大，與前述兩種挖掘方法相比，該種挖掘方法得到的挖掘中心更加準確。

保持上述實驗環境不變，將準備的Iris數據集以10個數據作為一個實驗組，共劃分為15個實驗數據組，以該實驗組作為對象，統計并計算3種挖掘方法對數據分類的的準確性，準確率結果如表2所示。

表2 挖掘準確率結果

由表2可知，以相同數量不同內容的數據作為挖掘對象，在3種挖掘方法的控制下，傳統挖掘方法對數據分類的準確率數值在72%-80%之間，準確率數值較小。文獻[1]中的挖掘方法對數據分類的準確率結果在85%-89%之間，準確率數值也不高。而文中設計的挖掘方法對數據分類最終得到的準確率數值在92%-98%之間，實際得到的準確率數值最大。綜合上述實驗結果可知，文中設計的精準挖掘方法挖掘時間最短,確定得到的挖掘中心最標準且數據分類的準確率最高。

3 總結

對數據的精準挖掘是當下Web數據技術的研究重點，在E-OEM模型技術的支持下，設計一種數據精準挖掘方法，能夠改善現有精準挖掘方法挖掘時間較長的不足，同時能夠有效地消除Web數據中的冗余數據，增強挖掘方法的準確性，為今后研究精準挖掘方法提供參考。