鄶淑娥
[摘 要] 隨著互聯網的發展及Web 2.0技術的廣泛應用, 互聯網業務得到迅速發展,互聯網已經成為人們獲取信息、表達心情、交流意見的重要場所。在互聯網智能化的過程中,互聯網用戶行為分析是一項非常重要的工作。互聯網用戶行為分析,從廣義上講,涉及互聯網用戶的所有行為活動,包括互聯網心理活動、互聯網社會活動和互聯網訪問活動;從狹義上講,主要涉及用戶訪問互聯網的行為規律。本文主要對互聯網用戶行為進行探索性的分析,闡述了用戶行為分析系統的基本需求、實現步驟和體系框架,以及設計和實現系統過程中應用一些關鍵技術。
[關鍵詞] 互聯網;用戶;信息;行為;分析
[中圖分類號] TP393.4 [文獻標識碼] A [文章編號] 1673 - 0194(2014)19- 0092- 03
1 引 言
互聯網用戶行為是指互聯網用戶的特點、構成及其在互聯網應用過程中行為活動上所表現出來的規律。互聯網用戶行為分析是研究互聯網用戶行為的學科,它屬于互聯網知識發現的范疇。與現實社會中的社會行為相對應,我們把發生在虛擬社會中的行為稱為“互聯網行為”。互聯網行為可定義為:行為主體為了實現某種特定的目標,采用互聯網作為手段和方法而進行的有意識的社會活動。它具有社會行為的一般特征和基本要素。但由于互聯網行為存在于虛擬空間中,所以這種在互聯網中形成的信息交流空間又具有不同于物理空間的特殊性,故互聯網用戶行為有其自身的特點即知識含量高,升級快。互聯網行為的主體用戶,必然具有一定的互聯網技術,具備利用互聯網的能力。互聯網上信息以數字化的形式存在,用戶在數據傳輸過程中改變信息的內容和形式而不留任何痕跡。
互聯網用戶行為是一個廣義的概念,是用戶在互聯網上表現的活動方式。關于互聯網用戶行為,一直沒有比較規范的定義和分類。根據研究的側重不同,可以從多個角度進行分類。互聯網實驗室就中國目前互聯網用戶群進行研究,并從應用角度對互聯網用戶行為進行了分析和分類。互聯網用戶行為可分成五大類:信息獲取、溝通交流、休閑娛樂、電子服務、電子商務。依照上述行為分類,對互聯網用戶群體進行細分得出10類互聯網用戶人群:純信息互聯網用戶、純溝通互聯網用戶、基本互聯網用戶、純娛樂互聯網用戶、典型娛樂互聯網用戶、信息娛樂互聯網用戶、泛娛樂互聯網用戶、互聯網工作互聯網用戶、次全能互聯網用戶以及全能互聯網用戶。
2 互聯網用戶行為分析的過程
2.1 互聯網用戶行為分析的3個階段
(1)預處理階段:預處理過程是指各種可利用數據源的使用記錄、互聯網內容和結構以及信息行為模式的數據的提取過程。預處理過程是整個行為分析過程的基礎,主要包括使用記錄預處理、內容信息預處理和結構信息預處理。這個階段面臨很多難以解決的問題。互聯網用戶行為分析的常見模式如下:①統計分析;②關聯規則;③分類;④序列分析;⑤依賴模式;⑥聯系分析。
(2)模式分析階段:模式分析是處理的最后步驟,是對模式發現中不感興趣的規則或模式進行過濾。最常用的分析方法是知識的查詢機制。
(3)互聯網用戶行為的模式建立階段。
2.2 互聯網用戶行為分析的詳細步驟
(1)明確互聯網行為分析的具體目標。明確目標就是確定分析的目的。對問題和目標的明確描述是正確分析的先決條件。如果想提高直接郵件推銷的用戶回應,做法可能是“提高用戶響應率”,也可能是“提高一次用戶回應的價值”,這兩做法采用的模型幾乎是完全不同的,必須做出選擇。
(2)建立行為數據庫。建立數據庫連同數據分析和數據準備兩個步驟,構成行為發現的核心。數據準備工作大概要花去整個數據挖掘項目50%~90%的時間和精力。可以把建立數據庫分成下面幾個部分:數據收集,數據描述,數據篩選,數據質量評估,數據清理、合并與整合、構建元數據、組建數據庫。
(3)分析數據。分析的目的是找到對預測輸出影響最大的數據字段和導出字段。
(4)準備數據。這是建立模型之前的最后一步。主要包括選擇變量、選擇記錄、創建新變量、轉換變量等工作。
(5)建立模型。建立模型是一個反復的過程。需要對不同的模型仔細考察,以判斷哪個模型對問題解決最有效。在尋找好的模型過程中學習到的東西會啟發對數據的修改和重組,甚至改變最初對問題的定義。
(6)評價和解釋模型。模型建立好之后,必須對其結果和價值做出評價。從測試中得到的準確率只對建立模型的數據有意義。因為在實際應用中,隨著應用數據的不同,模型的準確率肯定會發生變化。
3 互聯網用戶行為分析系統設計
互聯網用戶行為分析系統是支持互聯網用戶行為的數據挖掘和知識發現過程的工具。構建合理的互聯網用戶行為分析系統模型是互聯網用戶行為分析首要考慮的問題。過去數據挖掘和知識發現的研究重點往往放在局部的具體挖掘算法上,較少對整個系統構建進行分析。數據挖掘和知識發現系統是一個有機的整體,各個部分之間有著密切的關系,某種算法是為特定的數據挖掘模塊服務的,如果不認真對系統結構進行分析,那么必然導致各種算法之間的重復工作,各種算法只有與其他模塊緊密結合,才能充分發揮作用。
3.1 基本目標
(1)能夠對大量的數據進行分析處理。
(2)能夠對多種類型的數據進行分析處理。
(3)具有較高的效率。
(4)用戶能夠參與分析挖掘的全過程。
(5)具有動態性。
(6)必須有效地組織和管理數據。
(7)能對所發現的模式進行解釋和評價。
3.2 設計的原則
設計原則主要有6個:開放性原則、規范性原則、擴展性原則、安全性原則、方便性原則和高效性原則。
3.3 基本功能
(1)發現互聯網用戶行為的特定模式,形成有價值的知識。
(2)發現互聯網用戶行為形成、存在的特點和變化的規律,提高資源配置水平。
(3)發現互聯網用戶行為的特點和規律,提高互聯網服務水平。
4 互聯網用戶行為分析數據的收集與預處理
4.1 數據的收集
4.1.1 互聯網用戶行為分析的數據源
利用準確全面可靠的目標數據源是互聯網用戶行為分析的關鍵。在互聯網行為分析中,數據能從服務器端、客戶機端、代理服務器端以及其他組織好的數掘庫中獲取。對于調查問卷,Web數字可信度更大,也便于統計分析。我們可以將行為分析的數據源分為4種類型。①內容數據:Web頁面的真實數據。例如,Web頁面上用戶看到的數據,包括文本、圖像和聲音等。②結構數據:描述內容的組織結構的數據。例如,一個頁面到另一個頁面的超鏈接信息。③用戶使用記錄數據:描述Web頁面使用模式的數據。例如,IP地址、訪問的頁面和時間等。④用戶輪廓:提供用戶訪問站點的統計信息。
4.1.2 數據源的分類和獲取
4.1.2.1 分類
從不同數據源收集的使用記錄等數據可以視為代表了整個互聯網流量中不同的行為模式,即從單用戶、單站點的行為到多用戶、多站點的行為。為了分析用戶行為,首先我們采用IP地址來標識互聯網用戶。這是一種常用且值得推薦的方法,它的優點是:
(1)對于直接連接在互聯網上具有唯一IP地址的計算機,IP地址可以準確標識計算機及其來源。
(2)利用IP地址跟蹤計算機,文件(Cookie)跟蹤瀏覽器。同一IP地址的計算機有可能由于同時使用多種瀏覽器而保留有多個跟蹤文件(Cookie),因此IP地址更好地標識了單獨的計算機。但通過IP地址識別用戶也存在一些問題。例如在下列情況中,通過IP地址可能難以區分用戶:單口地址/多服務器會話(一個代理服務器可能會讓訪問同一網站的多個用戶使用同一IP地址);多IP地址/單服務器會話(一些ISP隨機指定一個用戶的每個請求一個IP地址):多IP地址/單用戶(一個用戶從不同機器訪問同一站點);多代理/單用戶(一個用戶使用多于一個瀏覽器,甚至在同一機器上,也被看作是多用戶)。
4.1.2.2 獲取
(1)通過日志獲取互聯網用戶行為記錄。日志主要包括Web服務器端、代理服務器端和客戶端的系統審計日志與應用日志。
(2)互聯網嗅探捕獲用戶的行為信息。在信息時代,捕獲互聯網數據包是收集互聯網信息的有效方法。目前攻擊計算機系統的行為多數是通過互聯網進行的,通過監控、查看出入系統的互聯網數據包,來捕獲口令或全部內容P數據包捕獲,也稱P數據包嗅探(互聯網嗅探器,Sniffer)或P數據包攔截。首先把網卡設置于混雜模式(Miscellaneous Mode),通過使用互聯網嗅探技術實現對互聯網上傳輸的數據包的捕獲與分析。
互聯網嗅探技術原理:互聯網嗅探作為一種特殊的互聯網通訊技術,一般是通過對網卡的編程來實現互聯網通訊的,對網卡的編程通常使用套接字(Socket)方式來進行。通常的套接字程序只能響應與自己硬件地址相匹配的或是以廣播形式發出的數據幀,對于其他形式的數據幀,比如已到達互聯網接口但卻不是發給此地址的數據幀,互聯網接口在驗證投遞地址并非自身地址之后將不引起響應,也就是說應用程序無法收取到達的數據包。而互聯網嗅探技術的目的恰恰在于從網卡接收所有經過它的數據包,這些數據包既可以是發給它自身的也可以是發往別處的。P包分析是通過原始套接字來實現的。捕獲到的數據包并不僅僅是單純的數據信息,而是包含IP頭、TCP頭等信息頭的最原始的數據信息,這些信息保留了它在互聯網傳輸時的原貌。通過對這些在低層傳輸的原始信息的分析可以得到有關互聯網的一些信息。由于通過互聯網嗅探捕獲得到的數據包數據經過了互聯網層和傳輸層的打包,因此需要根據其附加的幀頭對數據包進行協議分析。從TCP/IP通信模型來看,Web的通信協議HTTP是處于應用層,即HTTP的通信協議是封裝在TCP報文的“數據”項中,Web服務的默認通信端口為80;因此通過對數據包記錄數據進行解析,可探知Web訪問者的互聯網行為和進行跟蹤。
4.2 數據的預處理
4.2.1 數據凈化
數據凈化,也稱數據精簡。它是指刪除Web服務器日志中與行為分析無關的冗余的數據。
4.2.2 用戶身份識別
一般采用IP地址來標識用戶。
4.2.3 會話識別
會話識別是為了發現同一用戶連續請求的頁面(瀏覽行為的片段)。
4.2.4 路徑補充
在識別會話過程中的一個問題是確定訪問日志中是不是有重要的請求沒有被記錄。這就是路徑補充所做的工作,解決的方法類似于用戶識別中的方法。
4.2.5 事務識別
一次用戶或服務器會話的任何語義上有意義的子集合被稱為一個事務。一般我們把Web頁分為兩類:內容頁和導航頁。內容頁是含有豐富內容信息的頁面;導航頁是為快速找到所需信息而設置的路標。
5 小 結
互聯網用戶行為分析是通過知識發現的方法從大量的互聯網信息中挖掘用戶的行為模式。它是一個比較新的研究領域,具有廣泛的應用前景,許多問題還有待進一步研究。筆者認為互聯網用戶行為分析的研究方向重點應放在內在機制、挖掘目標、數據集成、非結構化的數據挖掘方法、挖掘系統體系結構、分布式協作挖掘、挖掘效果的評價與可視化等問題上。
主要參考文獻
[1]王實,高文,等.路徑聚類:在Web站點中的知識發現[J].計算機研究與發展,2001(4).
[2]馬力,焦李成,劉國營.一種基于路徑象類的Web用戶訪問模式發現算法[J].計算機科學,2004(8).