999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Web日志挖掘中的數據預處理研究

2018-09-10 07:45:59于琦
河南科技 2018年19期
關鍵詞:數據挖掘

于琦

摘 要:本文首先在“信息爆炸”的時代背景下提出數據挖掘和Web數據挖掘的重要性,然后針對Web日志挖掘詳細討論了其數據預處理的主要步驟及其過程方法,最后闡述了Web日志挖掘在網站建設上的應用,為后繼研究提供了參考。

關鍵詞:數據挖掘;Web日志挖掘;數據預處理

中圖分類號:TP311.13 文獻標識碼:A 文章編號:1003-5168(2018)19-0018-03

Research of Data Preprocessing Method for Web Log Mining

YU Qi

(Library, Henan University of Economics and Law,Zhengzhou Henan 450046)

Abstract: In this paper, the importance of data mining and Web data mining was proposed in the background of "information explosion", and then the main steps and process methods of Web log mining were discussed in detail. Finally, the application of Web log mining in website construction was expounded, which provided a reference for future research.

Keywords: data mining ; Web log mining; data preprocessing

1 研究背景

在過去的十年左右,人們利用信息技術生產和收集數據的能力大大提高。許多數據庫已被用于商業管理、科學研究和工程開發等領域,這一勢頭將繼續增長。但同時,過量的信息也成了每個人都需要面對的問題,如何從繁雜的信息中及時發現有用信息并提高信息的利用率成為基亟待解決的主要問題。因此,面對這種情況,數據挖掘(Data Mining)技術應運而生,且迅猛發展,呈現出越來越強勁的生命力。數據挖掘[1]是從大量的、不完整的、嘈雜的、模糊的和隨機的實際應用數據中提取隱含的、但潛在有用的信息和知識。

Web挖掘[2]是一種數據挖掘,指的是使用數據挖掘技術來發現WWW數據中潛在的、有用的模式或信息。Web挖掘研究涵蓋了許多研究領域,包括數據庫技術、信息獲取技術、統計學、機器學習和人工智能中的神經網絡。Web挖掘可以分為三類:Web內容挖掘、Web結構挖掘和Web使用挖掘[3]。Web使用模式挖掘是指Web使用挖掘,主要是挖掘網站訪問日志和用戶訪問模式[4]。其可以提取設計者的領域知識、用戶的興趣水平和用戶的訪問習慣等,并獲得個性化服務、用戶訪問控制等對網站設計者和運營商有用的決定性信息。本文主要討論Web日志挖掘預處理的主要步驟及其處理方法,希望能為相關人員提供一些參考。

2 Web日志挖掘預處理的主要步驟

Web日志挖掘主要分為3個步驟[5]。

2.1 數據預處理

數據預處理主要包括數據清洗和事務識別。其中,數據清洗包括無關記錄的剔除、判斷 是否有重要的記錄未被記錄、用戶識別等。事務識別是指將頁面訪問序列劃分為表示Web事務或用戶會話的邏輯單元。數據預處理階段根據挖掘的目的,對原始Web日志文件中的數據進行提取、分解和合并,最后轉換成適合數據挖掘的數據格式,并保存在關系數據庫表或數據倉庫中,等待進一步處理。

2.2 模式識別

運用各種算法對處理后的數據進行挖掘,生成模式。

2.3 模式分析

分析用戶訪問模式以提取有價值模式的過程。數據預處理是整個過程的基礎,也是實施有效挖掘算法的前提,其在Web日志挖掘中扮演著非常重要的角色。原始日志文件是一個簡單的平面文本文件,包括了一些需要處理的不完整的、冗余的和錯誤的數據,若不對其進行處理,將直接影響挖掘效果。另外,還需要實施一些OLAP分析和挖掘算法,同時依靠規范化的數據源,因此還需要調整數據存儲格式以適應所使用的挖掘方法。

3 Web日志挖掘的預處理過程及方法

目前,市場上流行的Web服務器(如IIS、Apache等)通常為每次訪問網頁時保存了日志條目,其忠實地記錄訪問Web服務器的數據流信息[6]。日志文件可以根據客戶的不同需求調整記錄哪些信息。數據預處理是非常關鍵的一步,根據不同的情況和業務,所需要的數據是從海量原始數據中提取的,同時處理一些不完整的數據。Web日志挖掘的數據預處理包括依賴于域的數據清理、用戶識別、會話識別、路徑補充和事務處理識別[6]。預處理日志的結果直接影響挖掘算法生成的規則和模式。因此,預處理過程是保證Web使用挖掘質量的關鍵。

數據預處理是將日志文件轉換為數據庫文件的工作。其目的是將網絡日志數據轉換為適合數據挖掘的精確數據。結合數據挖掘中遇到的問題,可以將預處理過程分為以下步驟[7](如圖1所示)。

分析用戶訪問網站的方式對為網站安排邏輯結構和制定有效的營銷策略具有重要的意義。由于WWW網絡的結構特點,每個網站的物理拓撲結構和用戶的訪問方法都不相同,且很難確定Web日志中的用戶、會話或事務。因此,為了確保挖掘算法的有效性,Web日志需要進行預處理。日志預處理步驟如下。

3.1 數據清理

數據清理是指根據需求處理日志文件,包括刪除不相關的數據,合并某些記錄以及在用戶請求頁面時正確處理錯誤。

數據預處理的主要任務是數據清理。在分析任何形式的網絡日志過程中,清除服務器日志中的無關數據非常關鍵。只有當服務器日志中表示的數據能準確反映用戶對Web站點的訪問時,通過挖掘獲得的關聯規則才真正有用。工作人員可以定義默認規則庫來幫助刪除記錄,并且可以根據所分析網站的類型修改此規則庫。網站可以分為普通網站、圖片網站和視頻網站等,相應的規則庫可以單獨建立。在清理過程中,應確定要分析的網站類型,并根據這些網站的規則庫進行數據清理。當然,也可以根據需要修改規則庫。

3.2 用戶識別

由于本地緩存、代理服務器和防火墻的存在,有效識別用戶的任務變得非常復雜:不同的用戶通過簡單的代理同時訪問Web服務器;同一個用戶可以在別的機器上訪問Web服務器;用戶可以使用不同的瀏覽器訪問同一臺計算機上的Web服務器。當不同用戶使用同一臺機器瀏覽網站時會造成混亂。為此,筆者提出以下啟發式規則來識別用戶[8]。①不同的IP地址代表不同的用戶。②當IP地址相同時,默認不同的操作系統或瀏覽器代表不同的用戶。③在IP地址相同,用戶使用的操作系統和瀏覽器也相同的情況下,則判斷每一個請求訪問的頁面與訪問過的頁面之間是否有鏈接。如果一個請求訪問的頁面與上一個已經訪問過的頁面之間并沒有直接鏈接,則假設在訪問Web站點的機器上同時存在多個用戶。

一般采用的方法是基于日志站點的方法,還可以使用一些啟發性規則,但使用這些規則難以保證準確識別用戶,因此用戶識別是個難題。

3.3 會話標識

用戶會話是指用戶對服務器的有效訪問,通過其不斷請求的頁面,用戶可以獲得在網站上的訪問行為和瀏覽興趣。在跨越相對較大的時區的Web服務器日志中,用戶可能會多次訪問該站點。會話ID的目的是將用戶的訪問日志分成單個會話[9]。最簡單的方法是運用超時技術,如果兩頁之間的時間差超過某個閾值,則假定用戶開始新的會話。

3.4 路徑補充

識別用戶會話過程中的另一個問題是確定訪問日志中的重要請求是否存在未被記錄的情況。這需要路徑補充來完成這些記錄。路徑補充的目的是完成未記錄在訪問日志中的用戶記錄并獲取用戶的完整訪問路徑,以便更準確地發現用戶的訪問模式。檢查參考信息以確定當前請求來自哪個頁面。如果用戶的歷史訪問記錄中有多個頁面包含指向當前請求頁面的鏈接,則將請求時間最接近當前請求頁的頁面作為當前請求的來源。如果參考信息不完整,則可以使用站點拓撲[10]。

3.5 事務的識別

在Web日志挖掘領域,用戶會話是唯一具備自然事務特征的對象,但其需要特定的算法將用戶會話分割為更小的事務。劃分事務的主要方法是引用時長和最大前向引用。

3.5.1 引用時長。網頁可以簡單地分為2類:內容頁面和導航頁面[11]。當頁面中超鏈接的數量達到一定數量時,可以將其視為導航頁面,這是一種靜態分割方法。內容頁面通常是用戶關心的信息,瀏覽時間長。導航頁面是用戶設置的快速查找所需信息的坐標,瀏覽時間短。通過估計整個日志中輔助頁面的比例,可以使用最大似然估計算法來劃分輔助頁面和內容頁面的劃分時間。通過比較來劃分時間,頁面可以分成內容頁面或導航頁面,這些頁面被劃分成不同的事物。

3.5.2 最大前向引用。有時,一些頁面會包含更多的超鏈接,這些是用戶關心的信息。但是,其被用作內容頁面。在這種情況下,事務可以由Chen[12]等人提出的最大前向參考路徑(簡稱MFP)來定義。對于每個用戶會話,從起始頁面開始,每個最大的前向參考路徑是一個事務。當出現前向指引時,開始新的事務。

3.6 內容和結構數據的預處理

內容和結構數據的預處理基于特定的應用程序,將Web頁面中文本、圖像、腳本和超鏈接轉換為Web使用挖掘的格式。例如,根據網頁的文本內容,描述與頁面相關的概念主題,用于網頁的聚類[13],根據網頁間的超鏈接信息構造網站的拓撲結構圖,用于識別用戶。

4 結語

本文主要討論Web日志挖掘中數據預處理的主要步驟及其方法和技術,這在挖掘過程中起著重要的作用,數據預處理的質量將直接影響最終的挖掘效率和結果。由于網站的復雜性和用戶訪問模式的諸多不確定性,數據預處理技術仍不完善,有待改進。例如,數據采集機制和開發技術變得更加可行,用戶識別和會話識別的準確性進一步提高,算法的時間復雜度和空間復雜度需要進一步降低。這些問題的解決將為后續的模式發現和模式分析提供真實和完整的數據。

參考文獻:

[1]李雄飛,李軍.數據挖掘與知識發現[M].北京:高等教育出版社,2003.

[2]劉立軍,周軍,梅紅巖.Web使用挖掘的數據預處理[J].計算機科學,2007(5):200-201.

[3]劉斌,陳樺.向量空間模型信息檢索技術討論[J].情報雜志,2006(7):92-93.

[4]Jetal S. Web Usage Mining: Discovery and Application of Usage Patterns from Web Data[J].SIGKDD Explorations,2000(2):12-20.

[5]童恒慶,梅清.Web日志挖掘數據預處理研究[J].現代計算機,2004(3):6-9.

[6]劉立軍,周軍,梅紅巖.Web使用挖掘的數據預處理[J].計算機科學,2007(5):200-201.

[7]李烈彪,張海鵬,周亞峰.Web日志挖掘中數據預處理方法的研究[J].計算機技術與發展,2007(7):45-48.

[8]張健沛,劉建東,楊靜.基于Web的日志挖掘數據預處理方法的研究[J].計算機工程與應用,2003(10):191-193.

[9]何黎明.Web日志的預處理技術[J].長江大學學報(自科版),2007(2):310-311.

[10] Cooley R,Mobasher B,Srivastava J. Data Preparation for Min-ing World Wide Web Browsing Patterns[J]. Journal of Knowl-edge and Information Systems,1999(1):5-32.

[10] Chen MS, Park J S, Yu PS.Data Mining for Path Traversal Pat-terns[A]//In: Proc.of the 16th Intl Confon Distributed Compu-ting System[C].Hong Kong,1996.

[12]Perkowitz M,Etzioni O. Towards Adaptive Web sites: Conceptual Framework and Case Study[J]. Computer Networks,1999(11–16):1245-1258.

[13]Perkowitz M. Adaptive Web Sites : Automatically Synthesizing Web Pages[C]// Proc. National Conference on Artificial Intelligence, Madison. 1998:727-732.

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 亚洲欧洲天堂色AV| 精品国产美女福到在线直播| 青青操国产| 日韩经典精品无码一区二区| 高h视频在线| 国产精品欧美在线观看| 久久99国产精品成人欧美| 国产精品一区在线麻豆| 国产哺乳奶水91在线播放| 日韩激情成人| 国产精品丝袜在线| 成人免费一级片| 欧美一区福利| 91小视频在线| 国产精品制服| 国产精品久久自在自线观看| 国产精品一区不卡| 日本精品视频一区二区 | AV无码一区二区三区四区| 国产成人无码Av在线播放无广告| av在线无码浏览| 国产jizz| 欧美在线一二区| 国产视频入口| 国产精品免费福利久久播放 | 青青热久免费精品视频6| 久久亚洲精少妇毛片午夜无码| 免费激情网址| 国产黄在线免费观看| www中文字幕在线观看| 国产欧美成人不卡视频| 亚洲丝袜第一页| 91在线无码精品秘九色APP| 91小视频在线观看| 丰满人妻被猛烈进入无码| 伊人网址在线| 国产成人一区| 91九色视频网| 国内精品免费| 日本欧美午夜| 亚洲欧美日本国产专区一区| 四虎永久在线精品国产免费| 久久精品这里只有国产中文精品 | 精品国产网站| 91香蕉视频下载网站| 欧美激情综合| 国产在线视频导航| 色综合五月婷婷| 亚瑟天堂久久一区二区影院| 国产在线视频欧美亚综合| 亚洲经典在线中文字幕| 色婷婷成人| 国产一级在线播放| 无码免费的亚洲视频| 久久国产精品电影| 制服丝袜无码每日更新| 国产人成网线在线播放va| 日韩精品一区二区深田咏美| 国产一级妓女av网站| 精品无码一区二区三区在线视频| 天天色综网| 国产精品亚洲天堂| 91在线一9|永久视频在线| 2021国产在线视频| 福利一区在线| 国产尤物jk自慰制服喷水| 欧美综合区自拍亚洲综合天堂| 一级毛片基地| 91小视频在线观看免费版高清| 国产成人精品在线1区| 国产精品第三页在线看| 亚洲天堂福利视频| 日本黄色a视频| 国产91精品调教在线播放| 国产99免费视频| 成人免费网站久久久| 在线无码av一区二区三区| 久久精品这里只有国产中文精品| 天天综合色天天综合网| 草逼视频国产| 国产女主播一区| 欧美区一区|