范麗萍
摘 要 介紹web主動數據挖掘技術對于網絡廣告的重要性,對網絡使用數據挖掘模式的情況進行分析,針對挖掘模式工作多且事務識別不夠準確,提出新的解決方法從網絡廣告的邏輯結構、模式挖掘所需的數據結構等方面研究主動數據收集技術。
關鍵詞 數據挖掘 網絡廣告 數據收集
中圖分類號:TP393 文獻標識碼:A
1網絡廣告和Web挖掘
網絡廣告是隨著國際互聯網的發展而逐步興起的,它具有傳統媒介廣告所有優點,又具有傳統媒介所無法比擬的優勢。網絡廣告主要有傳播對象面廣、表現手段豐富多彩、內容種類繁多,信息面廣、精確性強等特點。
網絡廣告所具有的四個本質特征,網絡廣告需要依附于有價值的信息和服務載體;網絡廣告的核心思想在于引起用戶關注和點擊;網絡廣告具有強制性和用戶主導性的雙重屬性;網絡廣告應體現出用戶、廣告客戶和網絡媒體三者之間的互動關系。
數據挖掘(DataMining)是伴隨著數據倉庫技術的發展而逐步完善起來的。數據挖掘主要是為了幫助商業用戶處理大量存在的數據,發現其后隱含的規律性,同時將其模型化,來完成輔助決策的作用。它要求從大量的、不完全的、有噪聲的、模糊的和隨機的數據中,提取人們事先不知道的但又是潛在有用的信息和知識。
數據挖掘技術在網路廣告上的應用,正是為了更加有效的掌握信息,服務于顧客,數據挖掘技術的路徑分析、關聯規則發現、序列模式發現、分類規則的發現、聚類分析等方法,可以應用于發現潛在顧客、改進站點鏈接結構設計、對顧客進行聚類分級從而分析組中顧客的共同特征,并為相應的顧客提供優質個性化服務,使顧客在瀏覽信息時有針對性,節省時間成本、精神成本、體力成本等,最終使總顧客成本得以降低。
Web數據有三種類型:HTML標記的Web文檔數據,Web文檔內連接的結構數據和用戶訪問數據。按照對應的數據類型,Web挖掘可以分為三類:(1)Web內容挖掘:就是從Web文檔或其描述中篩選知識的過程。(2)Web結構挖掘:就是從Web的組織結構和鏈接關系中推導知識。它的目的是通過聚類和分析網頁的鏈接,發現網頁的結構和有用的模式,找出權威網頁。(3)Web使用記錄挖掘:就是指通過挖掘存儲在Web上的訪問日志,來發現用戶訪問Web頁面的模式及潛在客戶等信息的過程。
Web使用挖掘,它通過挖掘Web日志記錄來發現用戶訪問Web頁面的模式,通過分析和探究Web日志記錄中的規律,可以識別電子商務的潛在客戶,增強對最終用戶的因特網信息服務的質量和交付,并改進Web服務器系統的性能和結構。
2網路廣告中使用數據挖掘技術存在的問題
2.1目前Web使用挖掘的狀況
網絡信息挖掘技術主要分為三個階段:數據準備、挖掘操作、結果表達。就數據準備而言,網絡廣告主所需的數據主要來自兩個方面:一方面是用戶的背景信息,這部分信息主要來自于用戶的登記表;而另外一部分數據主要來自用戶的點擊流,這部分數據主要用于考察用戶的行為表現。人們在訪問某網站的同時,便提供了個人對網站內容的反饋信息:點擊了哪一個鏈接,在哪里瀏覽時間最多,用了哪個搜索項、總體瀏覽時間、個人姓名和住址等。所有這些信息都被保存在一個數據庫中,生成大量的記錄文件和登記表,利用這些數據進行分析、挖掘,充分了解用戶的喜好、購買模式,不僅可以使網站設計出滿足不同用戶群體需要的個性化網頁,增加競爭力,而且可以為廣告主提出行之有效的廣告方案,實現商家渴望的個性化市場營銷。
目前幾乎所有的Web使用挖掘,都是從服務器端的日志記錄和用戶的個人信息中自動發現隱藏在數據中的模式信息,了解系統的訪問模式以及用戶的行為模式,從而做出預測性分析。
這種數據挖掘模式,挖掘之前工作量巨大繁重。首先,數據清洗(data cleaning)解決“臟數據(dirty data)”問題,消解數據中的不一致性,并將多個數據源中的數據統一成一個數據存儲。然后,事務識別中,用戶Session的識別問題是一個難點。如多個用戶訪問同一頁面,在Proxy服務器日志中可能只列出一次;同時Internet服務提供商如采用動態分配IP將使得用戶識別變得困難。最后,還要將數據集成到數據庫中。
2.2解決方法及其優點
我們將上述基于日志的Web挖掘中的數據收集方法稱為被動數據收集。不難看出為了得到模式挖掘的輸入數據,經過了很多的步驟,而且更重要的是結果有些并不一定準確。
現在我們提出主動的數據收集方法,也就是通過JsP頁面中的JavaBean調用用于數據收集的java包中的類,并傳入Web服務器已經構造好的Request和Response對象,然后將用戶Session信息保存到數據庫,并在瀏覽器端添加用戶信息的Cookie。
這樣做的優點有:(1)不用進行數據清洗。最后保存到數據庫中的信息,不會包括對一些非主頁面請求的信息,如,不會包括對圖片的請求;因為不存在多個數據源,所以也不存在數據的不一致性。(2)不用進行費時而且不準確的事務識別。因為Web服務器將為我們做這些工作,而且是在用戶訪問時做,它所識別的Session幾乎是完全正確。(3)不用進行數據集成。因為用戶瀏覽完頁面之后,數據就已經持久化到數據庫中了。(4)可以識別多個Session來自同一臺主機。因為我們放置了Cookie在瀏覽器端。(5)留有和主商務邏輯的接口。也就是可以將事務識別的Session和主商務邏輯中的客戶聯系起來,即使用戶在不同的機器登陸。(6)一個瀏覽器端有多個客戶登陸,也可進行一定的Session和客戶之間的對應。
本文通過討論數據挖掘工具及其實現模式,結合當前web使用挖掘的問題,提出了解決方法,以期使網絡廣告充分利用數據挖掘技術,真正提高網絡廣告的投放效果。
參考文獻
[1] 周曦.數據挖掘技術在網絡營銷中的作用[J].電腦知識與技術,2011(11).