一種基于K-均值聚類算法的站點結構優化研究

隨著互聯網科技的進步,網站與互聯網資源已經成為人們生活中不可或缺的一部分,據統計2014年全球互聯網網站已破10億,網民數量逼近30億,與此同時這個數量仍在不斷增長。在開啟海量信息分享時代的同時,如何使人們更加高速有效地利用網絡資源已成為各大互聯網網站關注的焦點之一。要在同類型網站中脫穎而已,網站的設計者往往根據不同的用戶瀏覽模式和使用習慣,設計或優化出適合不同用戶的網站,提高網站的訪問量和訪問效率。因此,本文在此基礎上提出了一種K-均值聚類算法,對網站用戶Web日志數據進行提取聚類,分析聚類后用戶簇所訪問網頁的特征以實現后期對網站站點結構的優化目的。
Web網站存在的問題
當下,網絡信息量的迅速增長和網站結構的日益復雜與不斷變化,在給用戶帶來海量信息的同時,也存在一些亟待解決的問題。
信息的爆炸性增長提高了用戶瀏覽和查找相關信息成本。用戶在較短的時間內難以準確定位所需的信息。
同時對于網站經營者而言如何提高用戶訪問量和增加用戶成為面臨的主要問題。通過優化網站以提高網站用戶的訪問滿意度。
因此,可以通過調整網站站點結構以提高網站Web服務的效率,方便用戶在有限的時間內從大量的數據與信息中快速的訪問與查找自己所需的信息,從而降低用戶的瀏覽成本。
算法思想
K-均值聚類算法廣泛的應用于Web日志挖掘,對網站用戶的訪問特征分析歸類。
該算法主要思想:隨機地選擇K個對象,每個對象初始地代表了一個簇的平均值或中心,然后對剩余的每個對象根據其與各個簇中心的距離(這里采用歐式距離),將它賦給最近的簇;重新計算每個簇的平均值,不斷重復這個過程,直到聚類中心不會再發生變化。聚類后的結果是使簇內具有較高的相似度,而簇間的相似度較低。

其中,E是簇內所有對象的平均誤差的總和,x是空間中的點,表示給定的數據對象,mi是第i個簇Ci的均值。
算法描述

算法改進
在對網站站點研究的過程中同時包含訪問用戶和網站頁面本身兩個對象,因此,在本文的K-均值聚類算法中定義每個數據對象包含兩個特征值。
建立用戶與頁面的相關矩陣

圖1 矩陣分布

圖2 程序聚類結果

圖3 首次聚類

圖4 二次聚類

圖5 三次聚類

圖6 最終聚類


其中:T(Pj)為用戶的訪問時長。為瀏覽頁面的有效時間,ti為相應訪問時間,si為訪問當前頁面Pj中的資源量,為頁面Pj中的信息量。
f(Pj)為頁面的點擊率,其值的大小與偏好值成正相關。c為訪問頁面Pj的次數,而C為在同一時間段內訪問所有頁面的次數和。


其中為該頁面加載時用戶的滿意時間值,R為加載速度的可接受值。

表1 相關矩陣表
綜上建立用于測試的數據矩陣(即用戶與被訪問頁面的相關矩陣)如矩陣表1所示。每一縱項表示一段時間內的用戶集;每一橫項表示這段時間內被訪問的頁面集。
基于K-均值算法的用戶聚類
利用上述的K-均值聚類算法以矩陣表1為例實現用戶聚類,第一維特征值數據值即用戶頁面的偏好程度,將具有相似瀏覽模式的用戶聚類成一簇,通過聚類發現該簇內的用戶的訪問興趣和愛好。例如矩陣表中的24名用戶分布如圖1。
矩陣中24名用戶聚類的結果如圖2。
聚類過程展示如圖3-圖6所示。
由上述聚類結果可見所有測試用戶被聚類為紅色區域和藍色區域兩大類,根據聚類算法的特點保證各簇內具有較高的相似度,而兩個簇間的相似度較低。
優化方向
由用戶聚類結果可區分出給網站的常用用戶和新用戶,以及該類用戶如紅色區域用戶具有相似的訪問愛好,因此,可根據該類用戶愛好的不同對網站結構重新進行布局,已達到提高用戶體驗的效果。于此同時對每一類用戶經常訪問的網頁頁面屬性進行分析:
當>0.8,高效頁面:保持
當>=0.4,一般頁面:可以使用
當<0.4,低效頁面:需調整
如此類用戶經常訪問的頁面的屬性值較低但用戶數量有較多時就要對該網站的性能進行優化,如設置專屬服務、提升硬件配置等作為下一研究課題,以提高用戶訪問滿意度。
本文提出了一種基于K-均值聚類算法的網站站點結構優化方法,通過建立用戶與頁面的相關屬性矩陣,利用K-均值聚類算法完成對用戶的聚類,根據聚類結果和頁面屬性值調整整個網站站點內容和結構,達到網站優化的目的。本研究還存在一些未解決的問題需要進一步驗證,希望能在此方面繼續研究工作。
10.3969/j.issn.1001- 8972.2016.20.024