999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于E-OEM模型的Web數據精準挖掘研究

2021-11-01 06:29:44劉張榕
微型電腦應用 2021年10期
關鍵詞:數據挖掘實驗方法

劉張榕

(福建林業職業技術學院 信息工程系, 福建 南平 353000)

0 引言

E-OEM模型是一種描述半結構化數據的自描述數據模型,模型中同時存在數據值和模式,在不同數據值和模式的配合下,可以靈活表示數據結構[1]。Web數據挖掘技術是以Web環境作為支撐,將網絡技術與網頁技術結合起來的一項技術[2]。

隨著計算機信息技術的快速發展,相關研究受到國內外很多學者的廣泛關注。在國外,首次提出Web挖掘技術是在上個世紀末,在各項技術的支持發展下,現今已經形成了一種Web會話聚類的一種新框架,Web數據挖掘的精度也有了一定的提升[3]。國外有學者引入分布式算法,設計JAM系統,通過JAM有效挖掘并提取數據信息到相互獨立的數據庫中。而在國內關于Web數據挖掘的相關研究起步較晚,有學者在考慮服務器的應用邏輯基礎上,將Web產生的頁面拓撲結構整合為一種挖掘算法[4]。也有學者基于Hadoop大數據開發系統平臺開發了PDMiner系統,改進傳統算法的開發組件,以提高數據挖掘精度。目前,相關研究已進入到快速發展的階段。

但是現有的Web數據挖掘方法受到圖片數據的后綴影響,所構建的數據結構較為冗雜,此外,在大數據的背景下,數據結構呈現出了多元化的發展,使得Web數據挖掘的精度較低,不能有效實現數據挖掘,為此在E-OEM模型的支持下,設計一種Web數據精準挖掘方法。通過E-OEM模型分類數據結構,降低數據結構的冗雜影響,從而實現精準挖掘。

1 基于E-OEM模型的Web數據精準挖掘研究

1.1 采集及預處理Web數據

Web數據主要由Web日志中的各項數據組成,所以在采集數據時,需將Web日志文件轉換為數據庫文件,并使用HITS算法處理轉化后的頁面[5],計算Web頁面間的權威權重數值為式(1)。

(1)

其中,q,p分別表示Web頁面;hq表示兩個頁面之間的HITS算法。選用權重數值大于0對應的數據作為Web數據,形成的Web數據預處理過程如圖1所示。

圖1 Web數據預處理過程

在圖1所示的數據預處理過程下,首先清洗文檔中的無用數據,以文件無用的后綴數據作為數據特征值[6-7],計算得到文檔中無用后綴數據出現的次數,計算式可表示為式(2)。

wi(d)=φ(tfi(d))

(2)

其中,t表示數據庫文件;φ表示文檔中的無用后綴數據;tfi(d)表示無用后綴數據出現的次數。根據文件庫中文件的數量,計算得到總的無用后綴數據總和,為了消除該部分數據的影響,歸一化處理上述次數權重數值,計算式可表示為式(3)。

(3)

其中各項系數含義不變,清洗無用數據后,識別Web日志上顯示的站點用戶,根據數據信息顯示出的信息增益[7],識別出用戶與Web站點間產生的會話,站點產生的信息增益可表示為式(4)。

(4)

其中,F表示產生的會話信息;P(W)表示信息站點;P(Ci)表示信息的特征值。在上述所得信息特征值的控制下,采用長度法構建一個有效的用戶會話過程,有效的用戶會話過程就可表示為式(5)。

(5)

其中,ipt表示用戶會話的用戶IP;uidt表示該項會話的用戶標識;Lt表示會話類型數量;Si表示用戶會話的集合。設定上述有效會話間的時間差后,以時間差規劃得到的路徑作為補充[8],不斷補充有效對話間的有效數據,整合有效數據后,采用E-OEM模型分類處理Web數據結構。

1.2 利用E-OEM模型分類Web數據結構

為了使數據挖掘更精準,需要對Web服務器的應用邏輯、頁面拓撲等方面多重考慮,在用戶瀏覽時產生的Web數據都是統一登記在日志表中,利用E-OEM模型分類數據結構,綜合考慮了Web頁面拓撲結構和用戶瀏覽路徑等多個數據源,通過結合數據屬性三元組方法解決對用戶訪問數據的標定問題,降低數據結構的冗雜影響。使用上述處理得到的Web數據,標記處理各個數據的類內標識后,根據數據對應的ID,使用E-OEM模型構建一個單獨系列的子樹,其表達為式(6)。

T={P1,P2,P3,…,Pn}

(6)

其中,Pn(n=1,2,3,…,n)為子樹序列。在上述子樹結構中,以L作為標簽數據所含的屬性,構建預處理后Web數據間的屬性關系,采用三元組表示數據間的屬性關系后[9],根據數據間的相似度劃分為不同的數據組,就可通過計算得到相似度S,如式(7)。

(7)

其中,wi表示數據屬性關系的三元組;p表示子樹序列一點;wli表示帶有標簽的數據屬性關系的三元組;k表示網絡數據的類型;n表示數據的分布參數。將相似度數值結果相近的數據劃分為一個類別,采用K-means聚類算法處理對應為一個類別的數據集[10],首先選取對應類別的數據中心,聚類數據中心計算過程就可表示為式(8)。

(8)

其中,uic表示分區矩陣;Xi表示數據集合。在上述處理過程下,聚類中心的形成過程如圖2所示。

圖2 聚類中心的形成過程

在圖2所示的聚類中心形成過程下,定義不同的聚類中心代表不同的Web數據結構,以數據聚類中心作為精準挖掘的點[11],在實現Web數據的精準挖掘時,設置聚類中心的序列模式。

1.3 實現Web數據的精準挖掘

在上述聚類中心的控制下,以聚類中心周圍的有效數據作為處理對象[12],處理上述有效數據為度量指標,處理過程可表示為式(9)。

(9)

其中,C表示聚類數量;S(Uk)表示聚類數據的類內相似度;S(Ul)表示聚類數據的類間相似度;d(Uk,Ul)表示相似度數值間的有效距離數值。處理有效Web數據為度量指標后,將度量指標整合為一條節點序列,確定序列中的頻繁項,計算式可表示為式(10)。

(10)

其中,tk表示不同序列長度;CD表示D頻繁項對應的序列長度;CS表示S頻繁項對應的序列長度。通過兩兩序列對比的方式,不斷確定頻繁項序列的長度大小,在不同的序列長度模式上附加一個數值ei,將ei作為數據序列的尾部標識,計算含尾部標識的序列支持度,計算式可表示為式(11)。

(11)

其中,mi表示尾部標識在序列中的權重數值。以式(11)得到的支持度,整合為不同的挖掘條件序列[13],以支持度數值3作為支持度處理對象,形成挖掘條件序列結果如圖3所示。

圖3 形成的序列挖掘條件

在圖3所示的序列挖掘條件下,當存在兩個聚類中心時,以Root作為精準挖掘的起點,結合不同序列的支持度數值[14-15],在a、b、h序列基的參與下,形成不同的精準挖掘路徑。綜合上述處理,最終完成對基于E-OEM模型的Web數據精準挖掘方法的研究。

2 仿真實驗

2.1 實驗準備

準備計算機軟硬件參數如表1所示。

表1 軟硬件參數

使用上表所示參數的服務器6臺,搭建實驗環境如圖4所示。

圖4 搭建的實驗環境

在圖4所示的實驗環境下,使用版本為1.7的JDK環境,上傳JDK安裝包后,規劃安裝目錄,解壓安裝過程,如圖5所示。

圖5 JDK解壓安裝

采用Iris數據集作為精準挖掘的對象,分別使用傳統挖掘方法、文獻[1]中的挖掘方法以及文中設計的挖掘方法進行實驗,對比3種挖掘方法的性能。

2.2 結果及分析

基于上述實驗準備,調用上圖實驗環境內的6臺服務器同時運行Iris數據集,控制JDK中的變量后,實現Web數據的待采集狀態,將6個服務器作為6個挖掘對象,控制3種挖掘方法同時進行挖掘,對比3種挖掘方法的作用時間,得到時間結果,如圖6所示。

圖6 3種挖掘方法作用時間結果

由圖6所示的作用時間結果可知,在3種挖掘方法的控制下,針對同等實驗環境內的相同實驗數據集,傳統挖掘方法實際作用時產生的挖掘時間最長,當待挖掘數據集為6時,實際的挖掘時間在16 s左右,所消耗的挖掘時間較長。文獻[1]中挖掘方法在相同數量的數據集下,實際挖掘時間在12 s左右,所消耗的挖掘時間較短。而文中設計的挖掘方法在挖掘相同數量的數據集時,所需的時間僅在4 s左右,與上述兩種挖掘方法相比,文中設計的挖掘方法消耗的挖掘時間最短。

在上述實驗環境下,隨機抽取3個Iris數據集作為實驗對象,將數據集定義為3種類型,定義3種數據集中的聚類中心為精準挖掘中心,精準挖掘中心結果如圖7所示。

圖7 定義的挖掘中心

圖中用不同的圖案形狀表達對數據集中數據的分類,并通過聚類分析得到圖7所示的聚類中心X,即為數據精準挖掘的對象。使用3種挖掘方法對圖7中的Iris數據集進行分類,以聚類分析得出的3種數據集中的聚類中心位置作為標準參考,對比聚類中心X的位置變化,統計3種挖掘方法挖掘的結果。結果如圖8所示。

(a) 傳統挖掘方法挖掘中心結果

(b) 文獻[1]中的挖掘方法挖掘中心結果

(c) 文中設計的挖掘方法挖掘中心結果

圖中用藍色X表示設定的聚類中心位置,黑色X表示采用該數據挖掘方法后的聚類中心位置,用紅色虛線表示聚類中心偏移差。

由圖8所示的實驗結果可知,以Iris數據集的聚類中心作為精準挖掘中心,在3種挖掘方法的控制下,傳統挖掘方法得到的挖掘中心在橫縱坐標上偏離標準坐標1個單位距離,文獻[1]中的挖掘方法偏離標準挖掘中心0.4個單位距離,而文中設計的挖掘方法得到的挖掘中心與標準的挖掘中心相差不大,與前述兩種挖掘方法相比,該種挖掘方法得到的挖掘中心更加準確。

保持上述實驗環境不變,將準備的Iris數據集以10個數據作為一個實驗組,共劃分為15個實驗數據組,以該實驗組作為對象,統計并計算3種挖掘方法對數據分類的的準確性,準確率結果如表2所示。

表2 挖掘準確率結果

由表2可知,以相同數量不同內容的數據作為挖掘對象,在3種挖掘方法的控制下,傳統挖掘方法對數據分類的準確率數值在72%-80%之間,準確率數值較小。文獻[1]中的挖掘方法對數據分類的準確率結果在85%-89%之間,準確率數值也不高。而文中設計的挖掘方法對數據分類最終得到的準確率數值在92%-98%之間,實際得到的準確率數值最大。綜合上述實驗結果可知,文中設計的精準挖掘方法挖掘時間最短,確定得到的挖掘中心最標準且數據分類的準確率最高。

3 總結

對數據的精準挖掘是當下Web數據技術的研究重點,在E-OEM模型技術的支持下,設計一種數據精準挖掘方法,能夠改善現有精準挖掘方法挖掘時間較長的不足,同時能夠有效地消除Web數據中的冗余數據,增強挖掘方法的準確性,為今后研究精準挖掘方法提供參考。

猜你喜歡
數據挖掘實驗方法
記一次有趣的實驗
探討人工智能與數據挖掘發展趨勢
做個怪怪長實驗
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
一種基于Hadoop的大數據挖掘云服務及應用
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 激情乱人伦| 亚洲成人精品| 欧美A级V片在线观看| 国产精品亚欧美一区二区| 69综合网| 亚洲国产看片基地久久1024| 伊人久久大线影院首页| 日韩久草视频| 国产噜噜噜视频在线观看| 国产精品久久久久久影院| 欧美视频二区| 丁香婷婷综合激情| 最新无码专区超级碰碰碰| 少妇露出福利视频| 亚洲成A人V欧美综合| 久久国产亚洲偷自| 99视频只有精品| 亚洲日韩Av中文字幕无码| 国产网友愉拍精品| 五月婷婷丁香综合| 秘书高跟黑色丝袜国产91在线| 色婷婷色丁香| 又污又黄又无遮挡网站| 中文字幕在线永久在线视频2020| 波多野结衣一区二区三视频| 大陆精大陆国产国语精品1024| 毛片免费在线视频| 亚洲无码不卡网| 日韩免费毛片视频| 91免费精品国偷自产在线在线| 伊人久久婷婷| 国产一在线| 伊伊人成亚洲综合人网7777| 国产女人爽到高潮的免费视频| 国产精品区视频中文字幕| 91精品国产麻豆国产自产在线| 91精品视频网站| 污网站在线观看视频| 国产第一福利影院| 久久久久无码精品国产免费| 99r在线精品视频在线播放 | 91黄色在线观看| 99久久精品国产精品亚洲 | 国产成人福利在线视老湿机| 凹凸国产分类在线观看| 成人伊人色一区二区三区| 欧美日韩国产高清一区二区三区| 日韩无码视频专区| 亚洲精品无码成人片在线观看 | 国产成人h在线观看网站站| 亚洲精品卡2卡3卡4卡5卡区| 亚洲欧洲天堂色AV| 精品福利网| 国产剧情国内精品原创| 久久伊人操| 国产理论精品| 国产精品乱偷免费视频| 91成人试看福利体验区| 伊人久久精品无码麻豆精品| 亚洲中文字幕在线观看| 亚洲国产欧美自拍| 综合社区亚洲熟妇p| 永久免费精品视频| 久久五月天综合| 成人福利在线看| 第一区免费在线观看| 久久无码高潮喷水| 伊人久久久久久久| 国产精品无码一区二区桃花视频| 国产第一页免费浮力影院| 日本一区高清| 亚洲一级无毛片无码在线免费视频| 亚洲av无码人妻| 一级看片免费视频| 四虎影视8848永久精品| 日日噜噜夜夜狠狠视频| 99re在线视频观看| 免费高清毛片| 亚洲婷婷丁香| 真实国产乱子伦视频| 欧美日韩第二页| 免费在线不卡视频|